1. 疊代器
疊代器是通路集合元素的一種方式。疊代器對象從集合的第一個元素開始通路,知道所有的元素被通路完結束。疊代器隻能往前不會後退,不過這也沒什麼,因為人們很少在疊代途中往後退。
1.1 使用疊代器的優點
對于原生支援随機通路的資料結構(如tuple、list),疊代器和經典for循環的索引通路相比并無優勢,反而丢失了索引值(可以使用内建函數enumerate()找回這個索引值)。但對于無法随機通路的資料結構(比如set)而言,疊代器是唯一的通路元素的方式。
另外,疊代器的一大優點是不要求事先準備好整個疊代過程中所有的元素。疊代器僅僅在疊代到某個元素時才計算該元素,而在這之前或之後,元素可以不存在或者被銷毀。這個特點使得它特别适合用于周遊一些巨大的或是無限的集合,比如幾個G的檔案,或是斐波那契數列等等。
疊代器更大的功勞是提供了一個統一的通路集合的接口,隻要定義了__iter__()方法對象,就可以使用疊代器通路。
疊代器有兩個基本的方法
- next方法:傳回疊代器的下一個元素
- __iter__方法:傳回疊代器對象本身
下面用生成斐波那契數列為例子,說明為何用疊代器
代碼1
def fab(max):
n, a, b = 0, 0, 1
while n < max:
print b
a, b = b, a + b
n = n + 1
直接在函數fab(max)中用print列印會導緻函數的可複用性變差,因為fab傳回None。其他函數無法獲得fab函數傳回的數列。
代碼2
def fab(max):
L = []
n, a, b = 0, 0, 1
while n < max:
L.append(b)
a, b = b, a + b
n = n + 1
return L
代碼2滿足了可複用性的需求,但是占用了記憶體空間,最好不要。
代碼3
對比
for i in range(1000): pass
for i in xrange(1000): pass
前一個傳回1000個元素的清單,而後一個在每次疊代中傳回一個元素,是以可以使用疊代器來解決複用可占空間的問題
class Fab(object):
def __init__(self, max):
self.max = max
self.n, self.a, self.b = 0, 0, 1
def __iter__(self):
return self
def next(self):
if self.n < self.max:
r = self.b
self.a, self.b = self.b, self.a + self.b
self.n = self.n + 1
return r
raise StopIteration()
執行
>>> for key in Fabs(5):
print key
1
1
2
3
5
Fabs 類通過 next() 不斷傳回數列的下一個數,記憶體占用始終為常數
1.2 使用疊代器
使用内建的工廠函數iter(iterable)可以擷取疊代器對象:
>>> lst = range(5)
>>> it = iter(lst)
>>> it
<listiterator object at 0x01A63110>
使用next()方法可以通路下一個元素:
>>> it.next()
0
>>> it.next()
1
>>> it.next()
2
python處理疊代器越界是抛出StopIteration異常
>>> it.next()
3
>>> it.next
<method-wrapper 'next' of listiterator object at 0x01A63110>
>>> it.next()
4
>>> it.next()
Traceback (most recent call last):
File "<pyshell#27>", line 1, in <module>
it.next()
StopIteration
了解了StopIteration,可以使用疊代器進行周遊了
lst = range(5)
it = iter(lst)
try:
while True:
val = it.next()
print val
except StopIteration:
pass
結果
>>>
0
1
2
3
4
事實上,因為疊代器如此普遍,python專門為for關鍵字做了疊代器的文法糖。在for循環中,Python将自動調用工廠函數iter()獲得疊代器,自動調用next()擷取元素,還完成了檢查StopIteration異常的工作。如下
>>> a = (1, 2, 3, 4)
>>> for key in a:
print key
1
2
3
4
首先python對關鍵字in後的對象調用iter函數疊代器,然後調用疊代器的next方法獲得元素,直到抛出StopIteration異常。
1.3 定義疊代器
下面一個例子——斐波那契數列
# -*- coding: cp936 -*-
class Fabs(object):
def __init__(self,max):
self.max = max
self.n, self.a, self.b = 0, 0, 1 #特别指出:第0項是0,第1項是第一個1.整個數列從1開始
def __iter__(self):
return self
def next(self):
if self.n < self.max:
r = self.b
self.a, self.b = self.b, self.a + self.b
self.n = self.n + 1
return r
raise StopIteration()
print Fabs(5)
for key in Fabs(5):
print key
<__main__.Fabs object at 0x01A63090>
1
1
2
3
5
2. 生成器
帶有 yield 的函數在 Python 中被稱之為 generator(生成器),幾個例子說明下(還是用生成斐波那契數列說明)
可以看出代碼3遠沒有代碼1簡潔,生成器(yield)既可以保持代碼1的簡潔性,又可以保持代碼3的效果
代碼4
def fab(max):
n, a, b = 0, 0, 1
while n < max:
yield b
a, b = b, a + b
n = n + 1
>>> for n in fab(5):
print n
1
1
2
3
5
簡單地講,yield 的作用就是把一個函數變成一個 generator,帶有 yield 的函數不再是一個普通函數,Python 解釋器會将其視為一個 generator,調用 fab(5) 不會執行 fab 函數,而是傳回一個 iterable 對象!在 for 循環執行時,每次循環都會執行 fab 函數内部的代碼,執行到 yield b 時,fab 函數就傳回一個疊代值,下次疊代時,代碼從 yield b 的下一條語句繼續執行,而函數的本地變量看起來和上次中斷執行前是完全一樣的,于是函數繼續執行,直到再次遇到 yield。看起來就好像一個函數在正常執行的過程中被 yield 中斷了數次,每次中斷都會通過 yield 傳回目前的疊代值。
也可以手動調用 fab(5) 的 next() 方法(因為 fab(5) 是一個 generator 對象,該對象具有 next() 方法),這樣我們就可以更清楚地看到 fab 的執行流程:
>>> f = fab(3)
>>> f.next()
1
>>> f.next()
1
>>> f.next()
2
>>> f.next()
Traceback (most recent call last):
File "<pyshell#62>", line 1, in <module>
f.next()
StopIteration
return作用
在一個生成器中,如果沒有return,則預設執行到函數完畢;如果遇到return,如果在執行過程中 return,則直接抛出 StopIteration 終止疊代。例如
>>> s = fab(5)
>>> s.next()
1
>>> s.next()
Traceback (most recent call last):
File "<pyshell#66>", line 1, in <module>
s.next()
StopIteration
代碼5 檔案讀取
def read_file(fpath):
BLOCK_SIZE = 1024
with open(fpath, 'rb') as f:
while True:
block = f.read(BLOCK_SIZE)
if block:
yield block
else:
return
如果直接對檔案對象調用 read() 方法,會導緻不可預測的記憶體占用。好的方法是利用固定長度的緩沖區來不斷讀取檔案内容。通過 yield,我們不再需要編寫讀檔案的疊代類,就可以輕松實作檔案讀取。