天天看點

Python 過濾序列元素過濾序列元素

過濾序列元素

問題

你有一個資料序列,想利用一些規則從中提取出需要的值或者是縮短序列

解決方案

最簡單的過濾序列元素的方法就是使用清單推導。比如:

>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]
>>> [n for n in mylist if n > 0]
[1, 4, 10, 2, 3]
>>> [n for n in mylist if n < 0]
[-5, -7, -1]
>>>
           

使用清單推導的一個潛在缺陷就是如果輸入非常大的時候會産生一個非常大的結果集,占用大量記憶體。 如果你對記憶體比較敏感,那麼你可以使用生成器表達式疊代産生過濾的元素。比如:

>>> pos = (n for n in mylist if n > 0)
>>> pos
<generator object <genexpr> at 0x1006a0eb0>
>>> for x in pos:
... print(x)
...
1
4
10
2
3
>>>
           

有時候,過濾規則比較複雜,不能簡單的在清單推導或者生成器表達式中表達出來。 比如,假設過濾的時候需要處理一些異常或者其他複雜情況。這時候你可以将過濾代碼放到一個函數中, 然後使用内建的 

filter()

 函數。示例如下:

values = ['1', '2', '-3', '-', '4', 'N/A', '5']
def is_int(val):
    try:
        x = int(val)
        return True
    except ValueError:
        return False
ivals = list(filter(is_int, values))
print(ivals)
# Outputs ['1', '2', '-3', '4', '5']
           

filter()

 函數建立了一個疊代器,是以如果你想得到一個清單的話,就得像示例那樣使用 

list()

去轉換。

讨論

清單推導和生成器表達式通常情況下是過濾資料最簡單的方式。 其實它們還能在過濾的時候轉換資料。比如:

>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1]
>>> import math
>>> [math.sqrt(n) for n in mylist if n > 0]
[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.7320508075688772]
>>>
           

過濾操作的一個變種就是将不符合條件的值用新的值代替,而不是丢棄它們。 比如,在一列資料中你可能不僅想找到正數,而且還想将不是正數的數替換成指定的數。 通過将過濾條件放到條件表達式中去,可以很容易的解決這個問題,就像這樣:

>>> clip_neg = [n if n > 0 else 0 for n in mylist]
>>> clip_neg
[1, 4, 0, 10, 0, 2, 3, 0]
>>> clip_pos = [n if n < 0 else 0 for n in mylist]
>>> clip_pos
[0, 0, -5, 0, -7, 0, 0, -1]
>>>
      

另外一個值得關注的過濾工具就是 

itertools.compress()

 , 它以一個 

iterable

 對象和一個相對應的 

Boolean

 選擇器序列作為輸入參數。 然後輸出 

iterable

 對象中對應選擇器為 

True

 的元素。 當你需要用另外一個相關聯的序列來過濾某個序列的時候,這個函數是非常有用的。 比如,假如現在你有下面兩列資料:

addresses = [
    '5412 N CLARK',
    '5148 N CLARK',
    '5800 E 58TH',
    '2122 N CLARK',
    '5645 N RAVENSWOOD',
    '1060 W ADDISON',
    '4801 N BROADWAY',
    '1039 W GRANVILLE',
]
counts = [ 0, 3, 10, 4, 1, 7, 6, 1]
      

現在你想将那些對應 

count

 值大于5的位址全部輸出,那麼你可以這樣做:

>>> from itertools import compress
>>> more5 = [n > 5 for n in counts]
>>> more5
[False, False, True, False, False, True, True, False]
>>> list(compress(addresses, more5))
['5800 E 58TH', '1060 W ADDISON', '4801 N BROADWAY']
>>>
      

這裡的關鍵點在于先建立一個 

Boolean

 序列,訓示哪些元素符合條件。 然後 

compress()

 函數根據這個序列去選擇輸出對應位置為 

True

 的元素。

和 

filter()

 函數類似, 

compress()

 也是傳回的一個疊代器。是以,如果你需要得到一個清單, 那麼你需要使用 

list()

 來将結果轉換為清單類型。