Python貓薦書系列之五：Python高性能程式設計

稍微關心程式設計語言的使用趨勢的人都知道，最近幾年，國内最火的兩種語言非 Python 與 Go 莫屬，于是，隔三差五就會有人問：這兩種語言誰更厲害/好找工作/高工資……

對于程式設計語言的争論，就是猿界的生理周期，每個月都要鬧上一回。到了年末，各類榜單也是特别抓人眼球，鬧得更兇。

其實，它們各有對方所無法比拟的優勢以及用武之地，很多争論都是沒有必要的。身為一個正在努力學習 Python 的（準）中年程式員，我覺得吧，先把一門語言精進了再說。沒有差勁的語言，隻有差勁的程式員，等真的把語言學好了，必定是“山重水複疑無路，柳暗花明又一村”。

鋪墊已了，進入今天的正題，Python 貓薦書系列之五——

Python高性能程式設計

本書适合已入門 Python、還想要進階和提高的讀者閱讀。

所有計算機語言說到底都是在硬體層面的資料操作，是以高性能程式設計的一個終極目标可以說是“高性能硬體程式設計”。然而，Python 是一門高度抽象的計算機語言，它的一大優勢是開發團隊的高效，不可否認地存在這樣或那樣的設計缺陷，以及由于開發者的水準而造成的人為的性能缺陷。

本書的一大目的就是通過介紹各種子產品和原理，來促成在快速開發 Python 的同時避免很多性能局限，既減低開發及維護成本，又收獲系統的高效。

1、性能分析是基礎

首先的一個關鍵就是性能分析，借此可以找到性能的瓶頸，使得性能調優做到事半功倍。

性能調優能夠讓你的代碼能夠跑得“足夠快”以及“足夠瘦”。性能分析能夠讓你用最小的代價做出最實用的決定。

書中介紹了幾種性能分析的工具：

（1）基本技術如 IPython 的 %timeit 魔法函數、time.time()、以及一個計時修飾器，使用這些技術來了解語句和函數的行為。

（2）内置工具如 cProfile，了解代碼中哪些函數耗時最長，并用 runsnake 進行可視化。

（3）line_profiler 工具，對標明的函數進行逐行分析，其結果包含每行被調用的次數以及每行花費的時間百分比。

（4）memory_profiler 工具，以圖的形式展示RAM的使用情況随時間的變化，解釋為什麼某個函數占用了比預期更多的 RAM。

（5）Guppy 項目的 heapy 工具，檢視 Python 堆中對象的數量以及每個對象的大小，這對于消滅奇怪的記憶體洩漏特别有用。

（6）dowser 工具，通過Web浏覽器界面審查一個持續運作的程序中的實時對象。

（7）dis 子產品，檢視 CPython 的位元組碼，了解基于棧的 Python 虛拟機如何運作。

（8）單元測試，在性能分析時要避免由優化手段帶來的破壞性後果。

作者強調了性能分析的重要性，同時也對如何確定性能分析的成功提了醒，例如，将測試代碼與主體代碼分離、避免硬體條件的幹擾（如在BIOS上禁用了TurboBoost、禁用了作業系統改寫SpeedStep、隻使用主電源等）、運作實驗時禁用背景工具如備份和Dropbox、多次實驗、重新開機并重跑實驗來二次驗證結果，等等。

性能分析對于高性能程式設計的作用，就好比複雜度分析對于算法的作用，它本身不是高性能程式設計的一部分，但卻是最終有效的一種評判标準。

2、資料結構的影響

高性能程式設計最重要的事情是了解資料結構所能提供的性能保證。

高性能程式設計的很大一部分是了解你查詢資料的方式，并選擇一個能夠迅速響應這個查詢的資料結構。

書中主要分析了 4 種資料結構：清單和元組就類似于其它程式設計語言的數組，主要用于存儲具有内在次序的資料；而字典和集合就類似其它程式設計語言的哈希表/散列集，主要用于存儲無序的資料。

本書在介紹相關内容的時候很克制，所介紹的都是些影響“速度更快、開銷更低”的内容，例如：内置的 Tim 排序算法、清單的 resize 操作帶來的超額配置設定的開銷、元組的記憶體滞留（intern機制）帶來的資源優化、散列函數與嗅探函數的工作原理、散列碰撞帶來的麻煩與應對、Python 命名空間的管理，等等。

散列碰撞的結果

了解了這些内容，就能更加了解在什麼情況下使用什麼資料結構，以及如何優化這些資料結構的性能。

另外，關于這 4 種資料結構，書中還得出了一些有趣的結論：對于一個擁有100 000 000個元素的大清單，實際配置設定的可能是112 500 007個元素；初始化一個清單比初始化一個元組慢5.1 倍；字典或集合預設的最小長度是8（也就是說，即使你隻儲存3個值，Python仍然會配置設定 8 個元素）、對于有限大小的字典不存在一個最佳的散列函數。

3、矩陣和矢量計算

矢量計算是計算機工作原理不可或缺的部分，也是在晶片層次上對程式進行加速所必須了解的部分。

然而，原生 Python 并不支援矢量操作，因為 Python 清單存儲的不是實際的資料，而是對實際資料的引用。在矢量和矩陣操作時，這種存儲結構會造成極大的性能下降。比如，

grid[5][2]

中的兩個數字其實是索引值，程式需要根據索引值進行兩次查找，才能獲得實際的資料。

同時，因為資料被分片存儲，我們隻能分别對每一片進行傳輸，而不是一次性傳輸整個塊，是以，記憶體傳輸的開銷也很大。

減少瓶頸最好的方法是讓代碼知道如何配置設定我們的記憶體以及如何使用我們的資料進行計算。

Numpy 能夠将資料連續存儲在記憶體中并支援資料的矢量操作，在資料處理方面，它是高性能程式設計的最佳解決方案之一。

Numpy 帶來性能提升的關鍵在于，它使用了高度優化且特殊建構的對象，取代了通用的清單結構來處理數組，由此減少了記憶體碎片；此外，自動矢量化的數學操作使得矩陣計算非常高效。

Numpy 在矢量操作上的缺陷是一次隻能處理一個操作。例如，當我們做 A * B + C 這樣的矢量操作時，先要等待 A * B 操作完成，并儲存資料在一個臨時矢量中，然後再将這個新的矢量和 C 相加。

Numexpr 子產品可以将矢量表達式編譯成非常高效的代碼，可以将緩存失效以及臨時變量的數量最小化。另外，它還能利用多核 CPU 以及 Intel 晶片專用的指令集來将速度最大化。

書中嘗試了多種優化方法的組合，通過詳細的分析，展示了高性能程式設計所能帶來的性能提升效果。

4、編譯器

書中提出一個觀點：讓你的代碼運作更快的最簡單的辦法就是讓它做更少的工作。

編譯器把代碼編譯成機器碼，是提高性能的關鍵組成部分。

不同的編譯器有什麼優勢呢，它們對于性能提升會帶來多少好處呢？書中主要介紹了如下編譯工具：

Cython ——這是編譯成C最通用的工具，覆寫了Numpy和普通的Python代碼（需要一些C語言的知識）。
Shed Skin —— 一個用于非Numpy代碼的，自動把Python轉換成C的轉換器。
Numba —— 一個專用于Numpy代碼的新編譯器。
Pythran —— 一個用于Numpy和非numpy代碼的新編譯器。
PyPy —— 一個用于非Numpy代碼的，取代正常Python可執行程式的穩定的即時編譯器。

書中分析了這幾種編譯器的工作原理、優化範圍、以及适用場景等，是不錯的入門介紹。此外，作者還提到了其它的編譯工具，如Theano、Parakeet、PyViennaCL、ViennaCL、Nuitka 與 Pyston 等，它們各有取舍，在不同領域提供了支撐之力。

5、密集型任務

高性能程式設計的一個改進方向是提高密集型任務的處理效率，而這樣的任務無非兩大類：I/O 密集型與 CPU 密集型。

I/O 密集型任務主要是磁盤讀寫與網絡通信任務，占用較多 I/O 時間，而對 CPU 要求較少；CPU 密集型任務恰恰相反，它們要消耗較多的 CPU 時間，進行大量的複雜的計算，例如計算圓周率與解析視訊等。

改善 I/O 密集型任務的技術是異步程式設計，它使得程式在 I/O 阻塞時，并發執行其它任務，并通過“事件循環”機制來管理各項任務的運作時機，進而提升程式的執行效率。

書中介紹了三種異步程式設計的庫：Gevent、Tornado 和 Asyncio，對三種子產品的差別做了較多分析。

改善 CPU 密集型任務的主要方法是利用多核 CPU 進行多程序的運算。

Multiprocessing 子產品使用基于程序和基于線程的并行處理，在隊列上共享任務，以及在程序間共享資料，是處理 CPU 密集型任務的重要技術。

書中沒有隐瞞它的局限性：Amdahl 定律揭示的優化限度、适應于單機多核而多機則有其它選擇、全局解釋鎖 GIL 的束縛、以及程序間通信（同步資料和檢查共享資料）的開銷。針對程序間通信問題，書中還分析了多種解決方案，例如 Less Naïve Pool、Manager、Redis、RawValue、MMap 等。

6、叢集與現場教訓

叢集是一種多伺服器運作相同任務的結構，也就是說，叢集中的各節點提供相同的服務，其優點是系統擴充容易、具備容災恢複能力。

叢集需要克服的挑戰有：機器間資訊同步的延遲、機器間配置與性能的差異、機器的損耗與維護、其它難以預料的問題。書中列舉了兩個慘痛的教訓：華爾街公司騎士資本由于軟體更新引入的錯誤，損失4.62億美元；Skype 公司 24 小時全球中斷的嚴重事故。

書中給我們重點介紹了三個叢集化解決方案：Parallel Python、IPython Parallel 和 NSQ。引申也介紹了一些普遍使用的方案，如 Celery、Gearman、PyRes、SQS。

關于現場教訓，它們不僅僅是一些事故或者故事而已，由成功的公司所總結出來的經驗更是來之不易的智慧。書中單獨用一章内容分享了六篇文章，這些文章出自幾個使用 Python 的公司/大型組織，像是Adaptive Lab、RadimRehurek、Smesh、PyPy 與 Lanyrd ，這些國外組織的一線實踐經驗，應該也能給國内的 Python 社群帶來一些啟示。

7、寫在最後

衆所周知，Python 應用前景大、簡單易學、友善開發與部署，然而與其它程式設計語言相比，它的性能幾乎總是落于下風。如何解決這個難題呢？本期薦書的書目就是一種回應。

《Python高性能程式設計》全書從微觀到宏觀對高性能程式設計的方方面面做了講解，主要包含以下主題：計算機内部結構的背景知識、清單和元組、字典和集合、疊代器和生成器、矩陣和矢量計算、編譯器、并發、叢集和工作隊列等。這些内容為編寫更快的 Python 指明了答案。

本篇文章主要以梳理書中的内容要點為主，平均而兼顧地理清了全書脈絡（PS：介紹得太面面俱到了，但願不被指責為一篇流水賬的讀書筆記才好……）。我認為，鑒于書中談及的這些話題，它就足以成為我們薦書欄目的一員了。除去某些句段的糟糕翻譯、成書時間比較早（2014年）而造成的過時外，這本書總體品質不錯，可稱為是一份優秀的高性能程式設計的指引手冊。

關于薦書欄目，我最後多說幾句。本欄目原計劃兩周左右出一篇，但由于其它系列文章花費了我不少時間，而要寫好一篇薦書/書評也特别費勁，最後生生造成了現在兩月一更的尴尬局面……這篇文章是個錯誤的示範，我不該試圖全面通讀與概括其内容的。是以，我決定今後選一些易讀的書目，在寫作上也盡量走短小精悍風，希望能持續地将本欄目運作下去。若你有什麼建議（如書目推薦、書評推薦、寫作建議、甚至是投稿），我随時歡迎，先行緻謝啦。

往期薦書回顧：

第一期：《編寫高品質代碼改善 Python 程式的 91 個建議》

第二期：《Python最佳實踐指南》

第三期：《黑客與畫家》

第四期：《Python源碼剖析》

-----------------

本文原創并首發于微信公衆号【Python貓】，背景回複“愛學習”，免費獲得20+本精選電子書。