前言
在前面的篇章中,我們學習了疊代器,這是一個很好的工具,特别是當你需要處理大型資料集時。然而,在Python中建構自己的疊代器有點麻煩和耗時。你必須定義一個實作疊代器協定(__iter__()和__next__()方法)的新類。在這個類中,需要自己管理變量的内部狀态并更新它們。此外,當__next__()方法中沒有要傳回的值時,需要抛出StopIteration異常。
有沒有更好的實作方式呢?答案是肯定的!這就是Python的生成器(Generator)解決方案。下面就來盤盤它。
各位朋友,記得點贊+轉發,分享給更多的Python愛好者。
何為生成器?
為了更高效的建構自己的疊代器,在Python中對此有一個優雅的解決方案,這是很值得高興的。Python所提供的生成器(Generator)是用來幫助我們輕松建立疊代器。Generator允許你聲明一個行為類似疊代器的函數,也就是說,它可以在for循環中使用。簡單言之,生成器(Generator)就是個傳回疊代器對象的函數。是以,這也是建立疊代器的簡單方法。在建立疊代器時,你不需要考慮所需的所有工作(如疊代協定和内部狀等),因為Generator将處理所有這些工作。
接下來,我們更進一步,輕松學懂Python中生成器是如何工作的以及如何定義它們。
定義生成器
如前一節所述,生成器是Python中一種特殊類型的函數。此函數不傳回單個值,而是傳回一個疊代器對象。在生成器函數中,傳回值使用yield語句而不是return語句。下面定義一個簡單的生成器函數,代碼清單如下:
代碼清單片段-01
在上述清單中,我們定義一個生成器函數。該函數執行yield語句而不是return關鍵字。yield語句使這個函數成為生成器。當我們調用這個函數時,它将傳回(産生)一個疊代器對象。我們再來看看生成器的調用:
代碼清單片段-02
調用生成器,通常就跟建立對象類似,調用生成器函數,并賦給變量。
運作程式輸出結果如下:
Yielding First Item
A
Yielding Second Item
B
Yielding Last Item
C
在應用生成器代碼中,我們調用firstGenerator()函數,它是一個生成器,并傳回一個疊代器對象。我們将這個疊代器命名為myIter。然後在這個疊代器對象上調用next()函數。在每次next()調用中,疊代器按各自的順序執行yield語句并傳回一個項。
根據規則,此生成器函數不應該包含return關鍵字。因為如果它包含,那麼return語句将終止此函數,也就無從滿足疊代器的要求了。
現在,讓我們通過for循環的幫助來定義一個更具有實際意義的生成器。在本例中,我們将定義一個生成器,它将連續跟蹤生成從0開始的數字序列,直到給定的最大限制。
代碼清單如下:
代碼清單片段-03
運作程式輸出結果類似如下:
1 2 3 |
在上述清單中,我們定義一個生成器函數,它生成從0到給定數字的整數。正如所見,yield語句在for循環中。請注意,n的值自動存儲在連續的next()調用中。
有一點需要注意,在定義生成器時,傳回值必須是yield語句,并不是說生成器不能出現return語句。隻是通常把傳回非None值return語句放在生成器最後,為StopIteration 異常添加附加資訊,以便調用者處理。示例如下:
代碼清單片段-04
下面是未進行異常處理時運作程式輸出結果類似如下:
99
100
Traceback (most recent call last):
File "……", line 11, in <module>
print(next(g))
StopIteration: 不支援大于100的數字生成!
若對程式進行了異常捕捉處理(try-except),顯示結果更簡明,自己運作試試看。
生成器與普通函數
如果一個函數至少包含一個yield語句,那麼它就是生成器函數。如果需要,還可以包含其他yield或return語句。yield和return關鍵字都将從函數中傳回一些東西。
return和yield關鍵字之間的差異對于生成器來說非常重要。return語句會完全終止函數,而yield語句會暫停函數,儲存它的所有狀态,然後在後續的調用中繼續執行。
我們調用生成器函數的方式和調用普通函數一樣。但在執行過程中,生成器在遇到yield關鍵字時暫停。它将疊代器流的目前值發送到調用環境,并等待下一次調用。同時,它在内部儲存局部變量及其狀态。
以下是生成器函數與普通函數不同的關鍵點:
ü Generator函數傳回(生成)一個疊代器對象。你無需擔心顯式地建立此疊代器對象,yield關鍵字為你做了這個工作。
- ü Generator函數必須包含至少一個yield語句。如果需要,它可能包括多個yield關鍵字。
- ü Generator函數内部實作疊代器協定(iter()和next()方法)。
- ü Generator函數自動儲存局部變量及其狀态。
- ü Generator函數在yield關鍵字處暫停執行,并将控制權傳遞給調用者。
- ü Generator函數在疊代器流沒有傳回值時自動引發StopIteration異常。
我們用一個簡單的例子來示範普通函數和生成器函數之間的差別。在這個例子中,我們要計算前n個正整數的和。為此,我們将定義一個函數,該函數給出前n個正數的清單。我們将以兩種方式實作這個函數,一個普通函數和一個生成器函數。
普通函數代碼如下:
代碼清單片段-05
運作程式輸出結果類似如下:
49999995000000
Elapsed Time in seconds: 1.2067763805389404
在代碼清單中,我們定義一個普通函數,它傳回前n個正整數的清單。當我們調用這個函數時,它需要一段時間來完成執行,因為它建立的清單非常龐大。它還使用了大量記憶體來完成此任務。
現在讓我們為相同的操作定義一個生成器函數來實作,代碼清單如下:
代碼清單片段-06
運作程式結果類似如下:
49999995000000
(生成器模式)Elapsed Time in seconds: 1.0013225078582764
正如在生成器清單中所見,生成器在更短的時間内完成相同的任務,并且使用更少的記憶體資源。因為生成器是一個一個地生成項,而不是傳回完整的清單。
性能改進的主要原因(當我們使用生成器時)是值的惰性生成。這種按需值生成的方式,會降低記憶體使用量。生成器的另一個優點是,你不需要等到所有元素都生成後才開始使用它們。
生成器表達式
有時候,我們需要簡單的生成器來執行代碼中相對簡單的任務。這正是生成器表達式(Generator Expression)用武之地。可以使用生成器表達式輕松地動态建立簡單的生成器。
生成器表達式類似于Python中的lambda函數。但要記住,lambda是匿名函數,它允許我們動态地建立單行函數。就像lambda函數一樣,生成器表達式建立的是匿名生成器函數。
生成器表達式的文法看起來像一個清單推導式。不同之處在于,我們在生成器表達式中使用圓括号而不是方括号。請看示例:
運作結果類似如下:
[1, 8, 27, 64, 125] <generator object <genexpr> at 0x000001337F92BEB0> |
在上述清單中,我們在生成器表達式的幫助下定義了一個簡單的生成器。下面是文法:cubes_gen = (i**3 for i in nums)。你可以在輸出中看到生成器對象。正如所已經知的,為了能夠在生成器中擷取項,我們要麼顯式調用next()方法,要麼使用for循環周遊生成器。接下來就列印cubes_gen對象中的項:
運作程式,周遊出的元素項結果是否和清單推導式一樣。
我們再看一個例子。來定義一個生成器,将字元串中的字母轉換為大寫字母。然後調用next()方法列印前兩個字母。代碼示例如下:
運作輸出結果如下:
M A |
生成器好處
生成器是非常棒的工具,特别是當需要在相對有限的記憶體中處理大型資料時。以下是在Python中使用生成器的一些主要好處:
1)記憶體效率:
假設有一個傳回結果非常大序列的普通函數。例如,一個包含數百萬項的清單。你必須等待這個函數完成所有的執行,并将整個清單傳回給你。就時間和記憶體資源而言,這顯然是低效的。另一方面,如果你使用生成器函數,它将一個一個地傳回項,你将有機會繼續執行下一行代碼。而不需要等待函數執行清單中的所有項。因為生成器一次隻給你一項。
2)延遲計算:
生成器提供了延遲(惰性)計算求值的功能。延遲計算是在真正需要值時計算值,而不是在執行個體化時計算值。假設你有一個大資料集要計算,延遲計算允許你在整個資料集仍在計算生成中可立即開始使用資料。因為如果使用生成器,則不需要整個資料集。
3)易實作和可讀性:
生成器非常容易實作,并且提供了好的代碼可讀性。記住,如果你使用生成器,你不需要擔心__iter__()和__next__()方法。你所需要的隻是函數中一個簡單的yield語句。
4)處理無限流:
當你需要表示無限的資料流時,生成器是非常棒的工具。例如,一個無限計數器。理論上,你不能在記憶體中存儲無限流的,因為你無法确定存儲無限流需要多少的記憶體大小。這是生成器真正發揮作用的地方,因為它一次隻産生一項,它可以表示無限的資料流。它不需要将所有的資料流存儲在記憶體中。
本文小結
主要介紹了生成器相關知識,用于更好的自定義疊代器。内容包括何為生成器?如何自定義生成器以及和普通函數的關鍵差別?如何實作生成器表達式?并總結了生成器的有點。通過這篇文章,相信你能更輕松高效的掌握Python正常的生成器方方面面。
最後,點個贊,關注一下,轉發分享出去吧,讓更多的Python愛好者get到 ^_^