天天看點

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

作者:傳新視界

前言

在前面的篇章中,我們學習了疊代器,這是一個很好的工具,特别是當你需要處理大型資料集時。然而,在Python中建構自己的疊代器有點麻煩和耗時。你必須定義一個實作疊代器協定(__iter__()和__next__()方法)的新類。在這個類中,需要自己管理變量的内部狀态并更新它們。此外,當__next__()方法中沒有要傳回的值時,需要抛出StopIteration異常。

有沒有更好的實作方式呢?答案是肯定的!這就是Python的生成器(Generator)解決方案。下面就來盤盤它。

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它
各位朋友,記得點贊+轉發,分享給更多的Python愛好者。

何為生成器?

為了更高效的建構自己的疊代器,在Python中對此有一個優雅的解決方案,這是很值得高興的。Python所提供的生成器(Generator)是用來幫助我們輕松建立疊代器。Generator允許你聲明一個行為類似疊代器的函數,也就是說,它可以在for循環中使用。簡單言之,生成器(Generator)就是個傳回疊代器對象的函數。是以,這也是建立疊代器的簡單方法。在建立疊代器時,你不需要考慮所需的所有工作(如疊代協定和内部狀等),因為Generator将處理所有這些工作。

接下來,我們更進一步,輕松學懂Python中生成器是如何工作的以及如何定義它們。

定義生成器

如前一節所述,生成器是Python中一種特殊類型的函數。此函數不傳回單個值,而是傳回一個疊代器對象。在生成器函數中,傳回值使用yield語句而不是return語句。下面定義一個簡單的生成器函數,代碼清單如下:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

代碼清單片段-01

在上述清單中,我們定義一個生成器函數。該函數執行yield語句而不是return關鍵字。yield語句使這個函數成為生成器。當我們調用這個函數時,它将傳回(産生)一個疊代器對象。我們再來看看生成器的調用:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

代碼清單片段-02

調用生成器,通常就跟建立對象類似,調用生成器函數,并賦給變量。

運作程式輸出結果如下:

Yielding First Item

A

Yielding Second Item

B

Yielding Last Item

C

在應用生成器代碼中,我們調用firstGenerator()函數,它是一個生成器,并傳回一個疊代器對象。我們将這個疊代器命名為myIter。然後在這個疊代器對象上調用next()函數。在每次next()調用中,疊代器按各自的順序執行yield語句并傳回一個項。

根據規則,此生成器函數不應該包含return關鍵字。因為如果它包含,那麼return語句将終止此函數,也就無從滿足疊代器的要求了。

現在,讓我們通過for循環的幫助來定義一個更具有實際意義的生成器。在本例中,我們将定義一個生成器,它将連續跟蹤生成從0開始的數字序列,直到給定的最大限制。

代碼清單如下:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

代碼清單片段-03

運作程式輸出結果類似如下:

1

2

3

在上述清單中,我們定義一個生成器函數,它生成從0到給定數字的整數。正如所見,yield語句在for循環中。請注意,n的值自動存儲在連續的next()調用中。

有一點需要注意,在定義生成器時,傳回值必須是yield語句,并不是說生成器不能出現return語句。隻是通常把傳回非None值return語句放在生成器最後,為StopIteration 異常添加附加資訊,以便調用者處理。示例如下:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

代碼清單片段-04

下面是未進行異常處理時運作程式輸出結果類似如下:

99

100

Traceback (most recent call last):

File "……", line 11, in <module>

print(next(g))

StopIteration: 不支援大于100的數字生成!

若對程式進行了異常捕捉處理(try-except),顯示結果更簡明,自己運作試試看。

生成器與普通函數

如果一個函數至少包含一個yield語句,那麼它就是生成器函數。如果需要,還可以包含其他yield或return語句。yield和return關鍵字都将從函數中傳回一些東西。

return和yield關鍵字之間的差異對于生成器來說非常重要。return語句會完全終止函數,而yield語句會暫停函數,儲存它的所有狀态,然後在後續的調用中繼續執行。

我們調用生成器函數的方式和調用普通函數一樣。但在執行過程中,生成器在遇到yield關鍵字時暫停。它将疊代器流的目前值發送到調用環境,并等待下一次調用。同時,它在内部儲存局部變量及其狀态。

以下是生成器函數與普通函數不同的關鍵點:

ü Generator函數傳回(生成)一個疊代器對象。你無需擔心顯式地建立此疊代器對象,yield關鍵字為你做了這個工作。

  • ü Generator函數必須包含至少一個yield語句。如果需要,它可能包括多個yield關鍵字。
  • ü Generator函數内部實作疊代器協定(iter()和next()方法)。
  • ü Generator函數自動儲存局部變量及其狀态。
  • ü Generator函數在yield關鍵字處暫停執行,并将控制權傳遞給調用者。
  • ü Generator函數在疊代器流沒有傳回值時自動引發StopIteration異常。

我們用一個簡單的例子來示範普通函數和生成器函數之間的差別。在這個例子中,我們要計算前n個正整數的和。為此,我們将定義一個函數,該函數給出前n個正數的清單。我們将以兩種方式實作這個函數,一個普通函數和一個生成器函數。

普通函數代碼如下:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

代碼清單片段-05

運作程式輸出結果類似如下:

49999995000000

Elapsed Time in seconds: 1.2067763805389404

在代碼清單中,我們定義一個普通函數,它傳回前n個正整數的清單。當我們調用這個函數時,它需要一段時間來完成執行,因為它建立的清單非常龐大。它還使用了大量記憶體來完成此任務。

現在讓我們為相同的操作定義一個生成器函數來實作,代碼清單如下:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

代碼清單片段-06

運作程式結果類似如下:

49999995000000

(生成器模式)Elapsed Time in seconds: 1.0013225078582764

正如在生成器清單中所見,生成器在更短的時間内完成相同的任務,并且使用更少的記憶體資源。因為生成器是一個一個地生成項,而不是傳回完整的清單。

性能改進的主要原因(當我們使用生成器時)是值的惰性生成。這種按需值生成的方式,會降低記憶體使用量。生成器的另一個優點是,你不需要等到所有元素都生成後才開始使用它們。

生成器表達式

有時候,我們需要簡單的生成器來執行代碼中相對簡單的任務。這正是生成器表達式(Generator Expression)用武之地。可以使用生成器表達式輕松地動态建立簡單的生成器。

生成器表達式類似于Python中的lambda函數。但要記住,lambda是匿名函數,它允許我們動态地建立單行函數。就像lambda函數一樣,生成器表達式建立的是匿名生成器函數。

生成器表達式的文法看起來像一個清單推導式。不同之處在于,我們在生成器表達式中使用圓括号而不是方括号。請看示例:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

運作結果類似如下:

[1, 8, 27, 64, 125]

<generator object <genexpr> at 0x000001337F92BEB0>

在上述清單中,我們在生成器表達式的幫助下定義了一個簡單的生成器。下面是文法:cubes_gen = (i**3 for i in nums)。你可以在輸出中看到生成器對象。正如所已經知的,為了能夠在生成器中擷取項,我們要麼顯式調用next()方法,要麼使用for循環周遊生成器。接下來就列印cubes_gen對象中的項:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

運作程式,周遊出的元素項結果是否和清單推導式一樣。

我們再看一個例子。來定義一個生成器,将字元串中的字母轉換為大寫字母。然後調用next()方法列印前兩個字母。代碼示例如下:

Python程式設計:如何搞定生成器(Generator)及表達式?來盤它

運作輸出結果如下:

M

A

生成器好處

生成器是非常棒的工具,特别是當需要在相對有限的記憶體中處理大型資料時。以下是在Python中使用生成器的一些主要好處:

1)記憶體效率:

假設有一個傳回結果非常大序列的普通函數。例如,一個包含數百萬項的清單。你必須等待這個函數完成所有的執行,并将整個清單傳回給你。就時間和記憶體資源而言,這顯然是低效的。另一方面,如果你使用生成器函數,它将一個一個地傳回項,你将有機會繼續執行下一行代碼。而不需要等待函數執行清單中的所有項。因為生成器一次隻給你一項。

2)延遲計算:

生成器提供了延遲(惰性)計算求值的功能。延遲計算是在真正需要值時計算值,而不是在執行個體化時計算值。假設你有一個大資料集要計算,延遲計算允許你在整個資料集仍在計算生成中可立即開始使用資料。因為如果使用生成器,則不需要整個資料集。

3)易實作和可讀性:

生成器非常容易實作,并且提供了好的代碼可讀性。記住,如果你使用生成器,你不需要擔心__iter__()和__next__()方法。你所需要的隻是函數中一個簡單的yield語句。

4)處理無限流:

當你需要表示無限的資料流時,生成器是非常棒的工具。例如,一個無限計數器。理論上,你不能在記憶體中存儲無限流的,因為你無法确定存儲無限流需要多少的記憶體大小。這是生成器真正發揮作用的地方,因為它一次隻産生一項,它可以表示無限的資料流。它不需要将所有的資料流存儲在記憶體中。

本文小結

主要介紹了生成器相關知識,用于更好的自定義疊代器。内容包括何為生成器?如何自定義生成器以及和普通函數的關鍵差別?如何實作生成器表達式?并總結了生成器的有點。通過這篇文章,相信你能更輕松高效的掌握Python正常的生成器方方面面。

最後,點個贊,關注一下,轉發分享出去吧,讓更多的Python愛好者get到 ^_^