天天看點

Python函數式程式設計指南(一):概述

這大概算是Python最難啃的一塊骨頭吧。在我Python生涯的這一年裡,我遇到了一些Pythoner,他們毫無例外地完全不會使用函數式程式設計(有些人喜歡稱為Pythonic),比如,從來不會傳遞函數,不知道lambda是什麼意思,知道清單展開但從來不知道用在哪裡,對Python不提供經典for循環感到無所适從,言談之中表現出對函數式風格的一種抗拒甚至厭惡。

我嘗試剖析這個問題,最終總結了這麼兩個原因:1、不想改變,認為現有的知識可以完成任務;2、對小衆語言的歧視,Python目前在國内市場佔有率仍然很小很小,熟悉Python風格用處不大。

然而我認為,學習使用一種截然不同的風格可以颠覆整個程式設計的思想。我會慢慢總結一個系列共4篇文字,篇幅都不大,輕松就能看完,希望對喜歡Python的人們有所幫助,因為我個人确實從中受益匪淺。

原文作者:

AstralWind  位址: http://www.cnblogs.com/huxi/

1. 函數式程式設計概述

1.1. 什麼是函數式程式設計?

函數式程式設計使用一系列的函數解決問題。函數僅接受輸入并産生輸出,不包含任何能影響産生輸出的内部狀态。任何情況下,使用相同的參數調用函數始終能産生同樣的結果。

在一個函數式的程式中,輸入的資料“流過”一系列的函數,每一個函數根據它的輸入産生輸出。函數式風格避免編寫有“邊界效應”(side effects)的函數:修改内部狀态,或者是其他無法反應在輸出上的變化。完全沒有邊界效應的函數被稱為“純函數式的”(purely functional)。避免邊界效應意味着不使用在程式運作時可變的資料結構,輸出隻依賴于輸入。

可以認為函數式程式設計剛好站在了面向對象程式設計的對立面。對象通常包含内部狀态(字段),和許多能修改這些狀态的函數,程式則由不斷修改狀态構成;函數式程式設計則極力避免狀态改動,并通過在函數間傳遞資料流進行工作。但這并不是說無法同時使用函數式程式設計和面向對象程式設計,事實上,複雜的系統一般會采用面向對象技術模組化,但混合使用函數式風格還能讓你額外享受函數式風格的優點。

1.2. 為什麼使用函數式程式設計?

函數式的風格通常被認為有如下優點:

  • 邏輯可證     

    這是一個學術上的優點:沒有邊界效應使得更容易從邏輯上證明程式是正确的(而不是通過測試)。

  • 子產品化     

    函數式程式設計推崇簡單原則,一個函數隻做一件事情,将大的功能拆分成盡可能小的子產品。小的函數更易于閱讀和檢查錯誤。

  • 元件化     

    小的函數更容易加以組合形成新的功能。

  • 易于調試     

    細化的、定義清晰的函數使得調試更加簡單。當程式不正常運作時,每一個函數都是檢查資料是否正确的接口,能更快速地排除沒有問題的代碼,定位到出現問題的地方。

  • 易于測試     

    不依賴于系統狀态的函數無須在測試前構造測試樁,使得編寫單元測試更加容易。

  • 更高的生産率     

    函數式程式設計産生的代碼比其他技術更少(往往是其他技術的一半左右),并且更容易閱讀和維護。

1.3. 如何辨認函數式風格?

支援函數式程式設計的語言通常具有如下特征,大量使用這些特征的代碼即可被認為是函數式的:

  • 函數是一等公民     

    函數能作為參數傳遞,或者是作為傳回值傳回。這個特性使得模闆方法模式非常易于編寫,這也促使了這個模式被更頻繁地使用。      

    以一個簡單的集合排序為例,假設lst是一個數集,并擁有一個排序方法sort需要将如何确定順序作為參數。      

    如果函數不能作為參數,那麼lst的sort方法隻能接受普通對象作為參數。這樣一來我們需要首先定義一個接口,然後定義一個實作該接口的類,最後将該類的一個執行個體傳給sort方法,由sort調用這個執行個體的compare方法,就像這樣:      

    #僞代碼
    interface Comparator {
        compare(o1, o2)
    }
    lst = list(range(5))
    lst.sort(Comparator() {
        compare(o1, o2) {
            return o2 - o1 //逆序
    })           
    可見,我們定義了一個新的接口、新的類型(這裡是一個匿名類),并new了一個新的對象隻為了調用一個方法。如果這個方法可以直接作為參數傳遞會怎樣呢?看起來應該像這樣:     
    def compare(o1, o2): 
        return o2 - o1 #逆序 
    lst = list(range(5)) 
    lst.sort(compare)            
    請注意,前一段代碼已經使用了匿名類技巧進而省下了不少代碼,但仍然不如直接傳遞函數簡單、自然。
  • 匿名函數(lambda)     

    lambda提供了快速編寫簡單函數的能力。對于偶爾為之的行為,lambda讓你不再需要在編碼時跳轉到其他位置去編寫函數。     

    lambda表達式定義一個匿名的函數,如果這個函數僅在編碼的位置使用到,你可以現場定義、直接使用:     

    lst.sort(lambda o1, o2: o1.compareTo(o2))           
    相信從這個小小的例子你也能感受到強大的生産效率:)
  • 封裝控制結構的内置模闆函數     

    為了避開邊界效應,函數式風格盡量避免使用變量,而僅僅為了控制流程而定義的循環變量和流程中産生的臨時變量無疑是最需要避免的。     

    假如我們需要對剛才的數集進行過濾得到所有的正數,使用指令式風格的代碼應該像是這樣:     

    lst2 = list()
    for i in range(len(lst)): #模拟經典for循環
        if lst[i] > 0:
            lst2.append(lst[i])           

    這段代碼把從建立新清單、循環、取出元素、判斷、添加至新清單的整個流程完整的展示了出來,俨然把解釋器當成了需要手把手指導的傻瓜。然而,“過濾”這個動作是很常見的,為什麼解釋器不能掌握過濾的流程,而我們隻需要告訴它過濾規則呢?     

    在Python裡,過濾由一個名為filter的内置函數實作。有了這個函數,解釋器就學會了如何“過濾”,而我們隻需要把規則告訴它:     

    lst2 = filter(lambda n: n > 0, lst)           

    這個函數帶來的好處不僅僅是少寫了幾行代碼這麼簡單。     

    封裝控制結構後,代碼中就隻需要描述功能而不是做法,這樣的代碼更清晰,更可讀。因為避開了控制結構的幹擾,第二段代碼顯然能讓你更容易了解它的意圖。     

    另外,因為避開了索引,使得代碼中不太可能觸發下标越界這種異常,除非你手動制造一個。     

    函數式程式設計語言通常封裝了數個類似“過濾”這樣的常見動作作為模闆函數。唯一的缺點是這些函數需要少量的學習成本,但這絕對不能掩蓋使用它們帶來的好處。

  • 閉包(closure)     

    閉包是綁定了外部作用域的變量(但不是全局變量)的函數。大部分情況下外部作用域指的是外部函數。     

    閉包包含了自身函數體和所需外部函數中的“變量名的引用”。引用變量名意味着綁定的是變量名,而不是變量實際指向的對象;如果給變量重新指派,閉包中能通路到的将是新的值。     

    閉包使函數更加靈活和強大。即使程式運作至離開外部函數,如果閉包仍然可見,則被綁定的變量仍然有效;每次運作至外部函數,都會重新建立閉包,綁定的變量是不同的,不需要擔心在舊的閉包中綁定的變量會被新的值覆寫。     

    回到剛才過濾數集的例子。假設過濾條件中的 0 這個邊界值不再是固定的,而是由使用者控制。如果沒有閉包,那麼代碼必須修改為:     

    class greater_than_helper:
        def __init__(self, minval):
            self.minval = minval
        def is_greater_than(self, val):
            return val > self.minval
    
    def my_filter(lst, minval):
        helper = greater_than_helper(minval)
        return filter(helper.is_greater_than, lst)           

    請注意我們現在已經為過濾功能編寫了一個函數my_filter。如你所見,我們需要在别的地方(此例中是類greater_than_helper)持有另一個操作數minval。     

    如果支援閉包,因為閉包可以直接使用外部作用域的變量,我們就不再需要greater_than_helper了:     

    def my_filter(lst, minval): 
        return filter(lambda n: n > minval, lst)            

    可見,閉包在不影響可讀性的同時也省下了不少代碼量。     

    函數式程式設計語言都提供了對閉包的不同程度的支援。在Python 2.x中,閉包無法修改綁定變量的值,所有修改綁定變量的行為都被看成建立了一個同名的局部變量并将綁定變量隐藏。Python 3.x中新加入了一個關鍵字nonlocal 以支援修改綁定變量。但不管支援程度如何,你始終可以通路(讀取)綁定變量。

  • 内置的不可變資料結構     

    為了避開邊界效應,不可變的資料結構是函數式程式設計中不可或缺的部分。不可變的資料結構保證資料的一緻性,極大地降低了排查問題的難度。     

    例如,Python中的元組(tuple)就是不可變的,所有對元組的操作都不能改變元組的内容,所有試圖修改元組内容的操作都會産生一個異常。     

    函數式程式設計語言一般會提供資料結構的兩種版本(可變和不可變),并推薦使用不可變的版本。

  • 遞歸    

    遞歸是另一種取代循環的方法。遞歸其實是函數式程式設計很常見的形式,經常可以在一些算法中見到。但之是以放到最後,是因為實際上我們一般很少用到遞歸。如果一個遞歸無法被編譯器或解釋器優化,很容易就會産生棧溢出;另一方面複雜的遞歸往往讓人感覺迷惑,不如循環清晰,是以衆多最佳實踐均指出使用循環而非遞歸。    

    這一系列短文中都不會關注遞歸的使用。

<第一節完>