天天看點

Python——疊代器的幾個進階用法This is a data for studentRows 100

Python——疊代器的幾個進階用法

本文始發于個人公衆号:TechFlow,原創不易,求個關注

今天是Python專題的第8篇文章。

今天我們依然介紹的是疊代器,不過介紹的是幾個比較常用的進階用法,在實際場景當中非常實用,可以幫助我們大大簡化代碼的複雜度。

跳過開頭

首先是跳過開始部分,這個在我們讀取文本的時候最常用。在實際的應用當中,比如記錄的日志或者是代碼等等,一般來說頭部都會附上一段說明,或者用注釋标注或者是用特殊的符号标記。這些資訊是給用到資料的程式員看的,當我們通過代碼擷取資料的時候,顯然是希望可以過濾掉這些資訊的。

比如我們有一段資料,它的開頭用#做了一些注釋:

This is a data for student

Rows 100

xiaoming, 17, 99;

xiaoli, 18, 98;

...

正常操作當中,我們會建立一個打開檔案的疊代器,我們通過周遊這個疊代器去擷取檔案當中的資料:

with open('xxxx.txt') as f:

for line in f:
    print(line)           

如果隻是用來輸出還好,如果我們需要加工檔案當中的資料,那麼頭部的注釋資訊就會幹擾我們代碼的運作。我們當然可以手動加入一些判斷,但是這會比較麻煩,代碼也不夠美觀。針對這個問題,一個比較好的解決方案是dropwhile。

dropwhile是itemtools當中的一個函數,它可以接收一個我們自定義的過濾函數和疊代器重新生成一個新的疊代器,這個新的疊代器當中會過濾掉之前疊代器頭部不符合我們要求的資料:

在剛才的例子當中我們想要過濾掉頭部加了#注釋的部分,我們可以這麼操作:

from itertools import dropwhile

for line in dropwhile(lambda line: line.startswith('#'), f):
    print(line)           

這樣出來的結果就沒有頭部我們不需要的内容了。

當我們知道頭部不符合情況的資料的格式的時候,可以使用dropwhile來規定過濾的格式。如果我們知道需要過濾的條數,則可以使用另外一個工具,叫做islice,它的本質是一個切片函數,就像是Python當中數組的切片功能一樣,可以切出疊代器當中指定片段的資料。

舉個例子:

for line in islice(f, 3, None):
    print(line)           

這樣我們就會從第三行開始擷取,之前的資料會被過濾掉。它其實就代表着數組當中[3: ]的切片操作。

疊代排列組合

我們都知道在C++當中有一個叫做next_permutation的函數,可以傳入一個數組,傳回下一個字典序的排列。在Python當中也有同樣的功能,但是是以疊代器的形式使用的。

舉個簡單的例子,比如我們有a, b, c三個元素,我們希望求出它的所有排列:

items = ['a', 'b', 'c']

from itertools import permutations

for p in permutations(items):

print(p)           

permutations還支援多傳一個參數,比如上述的排列當中我們希望隻保留前兩個元素,除了切片之外,我們隻需要多傳一個參數就好了,like this:

for p in permutations(items, 2):

print(p)           

除了排列之外,itertools當中還支援組合,用法還是一樣,隻是把函數名稱換成是combinations而已:

from itertools import combindations

for c in combinations(items):

print(c)           

在一般的組合當中,一個元素一旦被選中那麼它接下來就會從候選集當中移除,再也不會被選中。如果我們希望獲得有放回的組合,我們可以再換一個函數,這個函數名稱有點長,但是名字倒也直覺叫做combinations_with_replacement。但既然是有放回的抽樣,我們需要設定元素的數量,否則抽樣可以無限進行下去。

for c in combinations_with_replacement(items, 3):

print(c)           

疊代合并後的序列

上一篇文章當中我們介紹了zip可以同時疊代多個疊代器,除此之外還有一種情況是我們需要把多個疊代器串起來疊代。比如系統的日志打在了多個檔案當中,我們希望找出其中有error的日志來分析。這個時候,我們希望的不是同時讀取多個疊代器,而是希望能夠有辦法将多個疊代器的内容串聯起來。這個功能就是itertools當中的chain方法,它接受多個疊代器,當我們周遊的時候,會自動将多個疊代器的内容串聯起來,我們可以無縫疊代。

from itertools import chain

nums = [1, 2, 3]

chars = ['a', 'b', 'c']

for i in chain(nums, chars):

print(i)           

這樣我們會把nums和chars當中的内容一起輸出出來,就好像從頭到尾隻執行了一個疊代器一樣。

你可能會說我們不用chain也可以實作啊,我們可以這樣:

for i in nums + chars:

print(i)           

的确,從結果上來看這樣也是行得通的。但是如果我們分析一下内部執行的時候的中間變量,會發現當我們執行nums+chars的時候,實際上是先建立了一個新的臨時list。然後在這個list當中存儲nums和chars的資料,也就是說我們疊代的其實是這個新的list。這帶來的結果是我們額外開辟了一段記憶體,并且花費了一些時間。如果我們使用chain,它并不會有這樣的中間變量,完全是通過疊代器來執行的疊代,非常節省記憶體,這也是chain的優點。

歸并疊代的内容

對于歸并操作我們應該都不陌生,在之前的歸并排序以及一些題解的文章當中我們見過很多次。同樣,我們在使用工具合并多個疊代器内容的時候,如果疊代器當中的内容有序,我們也可以對多個疊代器當中的元素進行歸并,而不再需要我們自己手動操作。

使用我們之前介紹的heapq的庫可以非常輕松地做到這一點,我們一起來看一個例子:

a = [1, 3, 5]

b = [2, 4, 6]

import heapq

for c in heapq.merge(a, b):

print(c)           

執行之後,我們會得到[1, 2, 3, 4, 5, 6]的結果。也就是說通過heapq.merge操作,我們把多個有序的疊代器合并到了一起。當然我們也可以自己合并,但如果我們隻是需要利用當中的資料的話,使用merge操作可以節省記憶體空間。

到這裡内容就結束了,本文和之前的文章基本上列舉完了常用的疊代器用法。當然,除了上述講到的内容之外,Python當中的疊代器還有一些其他的用法,不過相對不太常用,感興趣的同學可以私下了解。

今天的文章就是這些,如果覺得有所收獲,請順手點個關注或者轉發吧,你們的舉手之勞對我來說很重要。

原文位址

https://www.cnblogs.com/techflow/p/12602970.html