[python] 부울 목록을 기반으로 목록 필터링

부울 목록의 값을 필터링해야하는 값 목록이 있습니다.

list_a = [1, 2, 4, 6]
filter = [True, False, True, False]

다음 줄을 사용하여 새 필터링 된 목록을 생성합니다.

filtered_list = [i for indx,i in enumerate(list_a) if filter[indx] == True]

결과 :

print filtered_list
[1,4]

라인은 작동하지만 (나에게) 약간 과잉으로 보이며 동일한 것을 달성하는 더 간단한 방법이 있는지 궁금합니다.


조언

아래 답변에 제공된 두 가지 좋은 조언 요약 :

1- filter내장 함수이기 때문에 내가했던 것처럼 목록의 이름을 지정하지 마십시오 .

2- 불필요하기 때문에 True내가했던 것과 같은 것을 비교하지 마십시오 if filter[idx]==True... 사용 if filter[idx]만으로 충분합니다.



답변

당신은 찾고 있습니다 itertools.compress:

>>> from itertools import compress
>>> list_a = [1, 2, 4, 6]
>>> fil = [True, False, True, False]
>>> list(compress(list_a, fil))
[1, 4]

타이밍 비교 (py3.x) :

>>> list_a = [1, 2, 4, 6]
>>> fil = [True, False, True, False]
>>> %timeit list(compress(list_a, fil))
100000 loops, best of 3: 2.58 us per loop
>>> %timeit [i for (i, v) in zip(list_a, fil) if v]  #winner
100000 loops, best of 3: 1.98 us per loop

>>> list_a = [1, 2, 4, 6]*100
>>> fil = [True, False, True, False]*100
>>> %timeit list(compress(list_a, fil))              #winner
10000 loops, best of 3: 24.3 us per loop
>>> %timeit [i for (i, v) in zip(list_a, fil) if v]
10000 loops, best of 3: 82 us per loop

>>> list_a = [1, 2, 4, 6]*10000
>>> fil = [True, False, True, False]*10000
>>> %timeit list(compress(list_a, fil))              #winner
1000 loops, best of 3: 1.66 ms per loop
>>> %timeit [i for (i, v) in zip(list_a, fil) if v]
100 loops, best of 3: 7.65 ms per loop

filter변수 이름으로 사용하지 마십시오 . 내장 함수입니다.


답변

이렇게 :

filtered_list = [i for (i, v) in zip(list_a, filter) if v]

using zip은 인덱싱 할 필요없이 여러 시퀀스를 병렬로 반복 하는 파이썬적인 방법입니다. 이것은 두 시퀀스의 길이가 같다고 가정합니다 (가장 짧은 시간이 지나면 zip이 중지됨). 사용 itertools같은 간단한 경우에하는 것은 약간의 과잉이다 …

당신의 예제에서 당신이 정말로 멈춰야 할 한 가지는 True와 비교하는 것입니다. 이것은 일반적으로 필요하지 않습니다. 대신 if filter[idx]==True: ...간단히 if filter[idx]: ....


답변

numpy 사용 :

In [128]: list_a = np.array([1, 2, 4, 6])
In [129]: filter = np.array([True, False, True, False])
In [130]: list_a[filter]

Out[130]: array([1, 4])

또는 list_a가 numpy 배열이 될 수 있지만 필터가 아닌 경우 Alex Szatmary의 답변을 참조하십시오.

Numpy는 일반적으로 큰 속도 향상을 제공합니다.

In [133]: list_a = [1, 2, 4, 6]*10000
In [134]: fil = [True, False, True, False]*10000
In [135]: list_a_np = np.array(list_a)
In [136]: fil_np = np.array(fil)

In [139]: %timeit list(itertools.compress(list_a, fil))
1000 loops, best of 3: 625 us per loop

In [140]: %timeit list_a_np[fil_np]
10000 loops, best of 3: 173 us per loop


답변

numpy를 사용하여이를 수행하려면, 즉 배열이있는 경우 a, 대신 list_a:

a = np.array([1, 2, 4, 6])
my_filter = np.array([True, False, True, False], dtype=bool)
a[my_filter]
> array([1, 4])


답변

filtered_list = [list_a[i] for i in range(len(list_a)) if filter[i]]


답변

파이썬 3을 사용 list_a[filter]하면 True값 을 얻을 수 있습니다. False값 을 얻으려면list_a[~filter]


답변