python是目前使用最為廣泛的程式設計語言之一，其高效的開發效率吸引了大批的開發者，但性能問題一直是python的軟肋。本文就CPython2.7介紹python性能優化相關的一些知識，包括怎麼确定熱點、通用的優化建議、python擴充以及cython和pypy。

注意：本文除非特殊指明，”python“都是代表CPython，即C語言實作的标準python，且本文所讨論的是版本為2.7的CPython。另外，本文會不定期更新，如果大家有一些好的想法，請在評論裡面留言，我會補充到文章中去。

姊妹篇：《Python記憶體優化》

姊妹篇：《使用gc、objgraph幹掉python記憶體洩露與循環引用！》

python為什麼性能差：

　　當我們提到一門程式設計語言的效率時：通常有兩層意思，第一是開發效率，這是對程式員而言，完成編碼所需要的時間；另一個是運作效率，這是對計算機而言，完成計算任務所需要的時間。編碼效率和運作效率往往是魚與熊掌的關系，是很難同時兼顧的。不同的語言會有不同的側重，python語言毫無疑問更在乎編碼效率，life is short，we use python。

　　雖然使用python的程式設計人員都應該接受其運作效率低的事實，但python在越多越來的領域都有廣泛應用，比如科學計算、web伺服器等。程式員當然也希望python能夠運算得更快，希望python可以更強大。

　　首先，python相比其他語言具體有多慢，這個不同場景和測試用例，結果肯定是不一樣的。這個網址給出了不同語言在各種case下的性能對比，這一頁是python3和C++的對比，下面是兩個case：

　　從上圖可以看出，不同的case，python比C++慢了幾倍到幾十倍。

　　python運算效率低，具體是什麼原因呢，下列羅列一些

　　第一：python是動态語言

　　一個變量所指向對象的類型在運作時才确定，編譯器做不了任何預測，也就無從優化。舉一個簡單的例子：　r = a + b。　a和b相加，但a和b的類型在運作時才知道，對于加法操作，不同的類型有不同的處理，是以每次運作的時候都會去判斷a和b的類型，然後執行對應的操作。而在靜态語言如C++中，編譯的時候就确定了運作時的代碼。

　　另外一個例子是屬性查找，關于具體的查找順序在《python屬性查找》中有詳細介紹。簡而言之，通路對象的某個屬性是一個非常複雜的過程，而且通過同一個變量通路到的python對象還都可能不一樣（參見Lazy property的例子）。而在C語言中，通路屬性用對象的位址加上屬性的偏移就可以了。

　　第二：python是解釋執行，但是不支援JIT（just in time compiler）。雖然大名鼎鼎的google曾經嘗試Unladen Swallow 這個項目，但最終也折了。

　　第三：python中一切都是對象，每個對象都需要維護引用計數，增加了額外的工作。

　　第四：python GIL

　　GIL是Python最為诟病的一點，因為GIL，python中的多線程并不能真正的并發。如果是在IO bound的業務場景，這個問題并不大，但是在CPU BOUND的場景，這就很緻命了。是以筆者在工作中使用python多線程的情況并不多，一般都是使用多程序（pre fork），或者在加上協程。即使在單線程，GIL也會帶來很大的性能影響，因為python每執行100個opcode（預設，可以通過sys.setcheckinterval()設定）就會嘗試線程的切換，具體的源代碼在ceval.c::PyEval_EvalFrameEx。

　　第五：垃圾回收，這個可能是所有具有垃圾回收的程式設計語言的通病。python采用标記和分代的垃圾回收政策，每次垃圾回收的時候都會中斷正在執行的程式（stop the world），造成所謂的頓卡。infoq上有一篇文章，提到禁用Python的GC機制後，Instagram性能提升了10%。感興趣的讀者可以去細讀。

Be pythonic

　　我們都知道過早的優化是罪惡之源，一切優化都需要基于profile。但是，作為一個python開發者應該要pythonic，而且pythonic的代碼往往比non－pythonic的代碼效率高一些，比如：

使用疊代器iterator，for example：

　　dict的iteritems 而不是items（同itervalues，iterkeys）

　　使用generator，特别是在循環中可能提前break的情況

判斷是否是同一個對象使用 is 而不是 ==

判斷一個對象是否在一個集合中，使用set而不是list

利用短路求值特性，把“短路”機率過的邏輯表達式寫在前面。其他的lazy ideas也是可以的

對于大量字元串的累加，使用join操作

使用for else（while else）文法

交換兩個變量的值使用： a, b = b, a

基于profile的優化

　　即使我們的代碼已經非常pythonic了，但可能運作效率還是不能滿足預期。我們也知道80/20定律，絕大多數的時間都耗費在少量的代碼片段裡面了，優化的關鍵在于找出這些瓶頸代碼。方式很多：到處加log列印時間戳、或者将懷疑的函數使用timeit進行單獨測試，但最有效的是使用profile工具。

python profilers

　　對于python程式，比較出名的profile工具有三個：profile、cprofile和hotshot。其中profile是純python語言實作的，Cprofile将profile的部分實作native化，hotshot也是C語言實作，hotshot與Cprofile的差別在于：hotshot對目标代碼的運作影響較小，代價是更多的後處理時間，而且hotshot已經停止維護了。需要注意的是，profile（Cprofile hotshot）隻适合單線程的python程式。

　　對于多線程，可以使用yappi，yappi不僅支援多線程，還可以精确到CPU時間

　　對于協程（greenlet），可以使用greenletprofiler，基于yappi修改，用greenlet context hook住thread context

　　下面給出一段編造的”效率低下“的代碼，并使用Cprofile來說明profile的具體方法以及我們可能遇到的性能瓶頸。

python性能優化

1 # -*- coding: UTF-8 -*-
 2 
 3 from cProfile import Profile
 4 import math
 5 def foo():
 6     return foo1() 
 7 
 8 def foo1():
 9     return foo2()
10 
11 def foo2():
12     return foo3()
13 
14 def foo3():
15     return foo4()
16 
17 def foo4():
18     return "this call tree seems ugly, but it always happen"
19 
20 def bar():
21     ret = 0
22     for i in xrange(10000):
23         ret += i * i + math.sqrt(i)
24     return ret
25 
26 def main():
27     for i in range(100000):
28         if i % 10000 == 0:
29             bar()
30         else:
31             foo()
32 
33 if __name__ == '__main__':
34     prof = Profile()
35     prof.runcall(main)
36     prof.print_stats()
37     #prof.dump_stats('test.prof') # dump profile result to test.prof

code for profile

　　運作結果如下：

　　對于上面的的輸出，每一個字段意義如下：

　　ncalls 函數總的調用次數

　　tottime 函數内部（不包括子函數）的占用時間

　　percall（第一個） tottime/ncalls

　　cumtime 函數包括子函數所占用的時間

　　percall（第二個）cumtime/ncalls

　 filename:lineno(function) 檔案：行号（函數）

　　代碼中的輸出非常簡單，事實上可以利用pstat，讓profile結果的輸出多樣化，具體可以參見官方文檔python profiler。

profile GUI tools

　　雖然Cprofile的輸出已經比較直覺，但我們還是傾向于儲存profile的結果，然後用圖形化的工具來從不同的次元來分析，或者比較優化前後的代碼。檢視profile結果的工具也比較多，比如，visualpytune、qcachegrind、runsnakerun，本文用visualpytune做分析。對于上面的代碼，按照注釋生成修改後重新運作生成test.prof檔案，用visualpytune直接打開就可以了，如下：

　　字段的意義與文本輸出基本一緻，不過便捷性可以點選字段名排序。左下方列出了目前函數的calller（調用者），右下方是目前函數内部與子函數的時間占用情況。上如是按照cumtime（即該函數内部及其子函數所占的時間和）排序的結果。

　　造成性能瓶頸的原因通常是高頻調用的函數、單次消耗非常高的函數、或者二者的結合。在我們前面的例子中，foo就屬于高頻調用的情況，bar屬于單次消耗非常高的情況，這都是我們需要優化的重點。

　　python-profiling-tools中介紹了qcachegrind和runsnakerun的使用方法，這兩個colorful的工具比visualpytune強大得多。具體的使用方法請參考原文，下圖給出test.prof用qcachegrind打開的結果

　　qcachegrind确實要比visualpytune強大。從上圖可以看到，大緻分為三部：。第一部分同visualpytune類似，是每個函數占用的時間，其中Incl等同于cumtime， Self等同于tottime。第二部分和第三部分都有很多标簽，不同的标簽标示從不同的角度來看結果，如圖上是以，第三部分的“call graph”展示了該函數的call tree并包含每個子函數的時間百分比，一目了然。

profile針對優化

　　知道了熱點，就可以進行針對性的優化，而這個優化往往根具體的業務密切相關，沒用萬能鑰匙，具體問題，具體分析。個人經驗而言，最有效的優化是找産品經理讨論需求，可能換一種方式也能滿足需求，少者稍微折衷一下産品經理也能接受。次之是修改代碼的實作，比如之前使用了一個比較通俗易懂但效率較低的算法，如果這個算法成為了性能瓶頸，那就考慮換一種效率更高但是可能難了解的算法、或者使用dirty Flag模式。對于這些同樣的方法，需要結合具體的案例，本文不做贅述。

　　接下來結合python語言特性，介紹一些讓python代碼不那麼pythonic，但可以提升性能的一些做法

第一：減少函數的調用層次

每一層函數調用都會帶來不小的開銷，特别對于調用頻率高，但單次消耗較小的calltree，多層的函數調用開銷就很大，這個時候可以考慮将其展開。

　對于之前調到的profile的代碼，foo這個call tree非常簡單，但頻率高。修改代碼，增加一個plain_foo()函數, 直接傳回最終結果，關鍵輸出如下：

　　跟之前的結果對比：

　　可以看到，優化了差不多3倍。

第二：優化屬性查找

上面提到，python 的屬性查找效率很低，如果在一段代碼中頻繁通路一個屬性（比如for循環），那麼可以考慮用局部變量代替對象的屬性。

第三：關閉GC

　　在本文的第一章節已經提到，關閉GC可以提升python的性能，GC帶來的頓卡在實時性要求比較高的應用場景也是難以接受的。但關閉GC并不是一件容易的事情。我們知道python的引用計數隻能應付沒有循環引用的情況，有了循環引用就需要靠GC來處理。在python語言中, 寫出循環引用非常容易。比如：

　　case 1：

　　a, b = SomeClass(), SomeClass()

　　a.b, b.a = b, a

　　　

　　case 2：

　　lst = []

　　lst.append(lst)

　　case 3：

　　self.handler = self.some_func

　　當然，大家可能說，誰會這麼傻，寫出這樣的代碼，是的，上面的代碼太明顯，當中間多幾個層級之後，就會出現“間接”的循環應用。在python的标準庫 collections裡面的OrderedDict就是case2：

　　要解決循環引用，第一個辦法是使用弱引用（weakref），第二個是手動解循環引用。

第四：setcheckinterval

　　如果程式确定是單線程，那麼修改checkinterval為一個更大的值，這裡有介紹。

第五：使用__slots__

　　slots最主要的目的是用來節省記憶體，但是也能一定程度上提高性能。我們知道定義了__slots__的類，對某一個執行個體都會預留足夠的空間，也就不會再自動建立__dict__。當然，使用__slots__也有許多注意事項，最重要的一點，繼承鍊上的所有類都必須定義__slots__，python doc有詳細的描述。下面看一個簡單的測試例子：

1 class BaseSlots(object):
 2     __slots__ = ['e', 'f', 'g']
 3 
 4 class Slots(BaseSlots):
 5     __slots__ = ['a', 'b', 'c', 'd']
 6     def __init__(self):
 7         self.a = self.b = self.c = self.d = self.e = self.f  = self.g = 0
 8 
 9 class BaseNoSlots(object):
10         pass
11 
12 class NoSlots(BaseNoSlots):
13     def __init__(self):
14         super(NoSlots,self).__init__()
15         self.a = self.b = self.c = self.d = self.e = self.f  = self.g = 0
16 
17 def log_time(s):
18     begin = time.time()
19     for i in xrange(10000000):
20         s.a,s.b,s.c,s.d, s.e, s.f, s.g
21     return time.time() - begin
22 
23 if __name__ == '__main__':
24     print 'Slots cost', log_time(Slots())
25     print 'NoSlots cost', log_time(NoSlots())

　　輸出結果：

Slots cost 3.12999987602

NoSlots cost 3.48100018501

python C擴充

　　也許通過profile，我們已經找到了性能熱點，但這個熱點就是要運作大量的計算，而且沒法cache，沒法省略。。。這個時候就該python的C擴充出馬了，C擴充就是把部分python代碼用C或者C++重新實作，然後編譯成動态連結庫，提供接口給其它python代碼調用。由于C語言的效率遠遠高于python代碼，是以使用C擴充是非常普遍的做法，比如我們前面提到的cProfile就是基于_lsprof.so的一層封裝。python的大所屬對性能有要求的庫都使用或者提供了C擴充，如gevent、protobuff、bson。

　　筆者曾經測試過純python版本的bson和cbson的效率，在綜合的情況下，cbson快了差不多10倍！

　　python的C擴充也是一個非常複雜的問題，本文僅給出一些注意事項：

第一：注意引用計數的正确管理

　　這是最難最複雜的一點。我們都知道python基于指針技術來管理對象的生命周期，如果在擴充中引用計數出了問題，那麼要麼是程式崩潰，要麼是記憶體洩漏。更要命的是，引用計數導緻的問題很難debug。。。

　　C擴充中關于引用計數最關鍵的三個詞是：steal reference，borrowed reference，new reference。建議編寫擴充代碼之前細讀python的官方文檔。

第二：C擴充與多線程

　　這裡的多線程是指在擴充中new出來的C語言線程，而不是python的多線程，出了python doc裡面的介紹，也可以看看《python cookbook》的相關章節。

第三：C擴充應用場景

　　僅适合與業務代碼的關系不那麼緊密的邏輯，如果一段代碼大量業務相關的對象屬性的話，是很難C擴充的

　　将C擴充封裝成python代碼可調用的接口的過程稱之為binding，Cpython本身就提供了一套原生的API，雖然使用最為廣泛，但該規範比較複雜。很多第三方庫做了不同程度的封裝，以便開發者使用，比如boost.python、cython、ctypes、cffi（同時支援pypy cpython），具體怎麼使用可以google。

beyond CPython

　　盡管python的性能差強人意，但是其易學易用的特性還是赢得越來越多的使用者，業界大牛也從來沒有放棄對python的優化。這裡的優化是對python語言設計上、或者實作上的一些反思或者增強。這些優化項目一些已經夭折，一些還在進一步改善中，在這個章節介紹目前還不錯的一些項目。

cython

　　前面提到cython可以用到binding c擴充，但是其作用遠遠不止這一點。

　　Cython的主要目的是加速python的運作效率，但是又不像上一章節提到的C擴充那麼複雜。在Cython中，寫C擴充和寫python代碼的複雜度差不多（多虧了Pyrex）。Cython是python語言的超集，增加了對C語言函數調用和類型聲明的支援。從這個角度來看，cython将動态的python代碼轉換成靜态編譯的C代碼，這也是cython高效的原因。使用cython同C擴充一樣，需要編譯成動态連結庫，在linux環境下既可以用指令行，也可以用distutils。

　　如果想要系統學習cython，建議從cython document入手，文檔寫得很好。下面通過一個簡單的示例來展示cython的使用方法和性能（linux環境）。

　　首先，安裝cython：

　　pip install Cython

　　下面是測試用的python代碼，可以看到這兩個case都是運算複雜度比較高的例子：

# -*- coding: UTF-8 -*-
def f(x):
    return x**2-x

def integrate_f(a, b, N):
    s = 0
    dx = (b-a)/N
    for i in range(N):
        s += f(a+i*dx)
    return s * dx

def main():
    import time
    begin = time.time()
    for i in xrange(10000):
        for i in xrange(100):f(10)
    print 'call f cost:', time.time() - begin
    begin = time.time()
    for i in xrange(10000):
        integrate_f(1.0, 100.0, 1000)
    print 'call integrate_f cost:', time.time() - begin

if __name__ == '__main__':
    main()

　　運作結果：

　　call f cost: 0.215116024017

　　call integrate_f cost: 4.33698010445

　　不改動任何python代碼也可以享受到cython帶來的性能提升，具體做法如下：

step1：将檔案名（cython_example.py）改為cython_example.pyx

step2：增加一個setup.py檔案，添加一下代碼：

1 from distutils.core import setup
2 from Cython.Build import cythonize
3 
4 setup(
5   name = 'cython_example',
6   ext_modules = cythonize("cython_example.pyx"),
7 )

step3：執行python setup.py build_ext --inplace

　　　　可以看到增加了兩個檔案，對應中間結果和最後的動态連結庫

step4：執行指令 python -c "import cython_example;cython_example.main()"（注意：保證目前環境下已經沒有 cython_example.py）

　　call f cost: 0.0874309539795

　　call integrate_f cost: 2.92381191254

　　性能提升了大概兩倍，我們再來試試cython提供的靜态類型（static typing），修改cython_example.pyx的核心代碼，替換f()和integrate_f()的實作如下：

1 def f(double x): # 參數靜态類型
 2     return x**2-x
 3 
 4 def integrate_f(double a, double b, int N):
 5     cdef int i
 6     cdef double s, dx
 7     s = 0
 8     dx = (b-a)/N
 9     for i in range(N):
10         s += f(a+i*dx)
11     return s * dx

　　然後重新運作上面的第三四步：結果如下

　　call f cost: 0.042387008667

　　call integrate_f cost: 0.958620071411

　　上面的代碼，隻是對參數引入了靜态類型判斷，下面對傳回值也引入靜态類型判斷。

　　替換f()和integrate_f()的實作如下：

1 cdef double f(double x): # 傳回值也有類型判斷
 2     return x**2-x
 3 
 4 cdef double integrate_f(double a, double b, int N):
 5     cdef int i
 6     cdef double s, dx
 7     s = 0
 8     dx = (b-a)/N
 9     for i in range(N):
10         s += f(a+i*dx)
11     return s * dx

　　然後重新運作上面的第三四步：結果如下

　　call f cost: 1.19209289551e-06

　　call integrate_f cost: 0.187038183212

　　Amazing！

pypy

　　pypy是CPython的一個替代實作，其最主要的優勢就是pypy的速度，下面是官網的測試結果：

　　在實際項目中測試，pypy大概比cpython要快3到5倍！pypy的性能提升來自JIT Compiler。在前文提到google的Unladen Swallow 項目也是想在CPython中引入JIT，在這個項目失敗後，很多開發人員都開始加入pypy的開發和優化。另外pypy占用的記憶體更少，而且支援stackless，基本等同于協程。

　　pypy的缺點在于對C擴充方面支援的不太好，需要使用CFFi來做binding。對于使用廣泛的library來說，一般都會支援pypy，但是小衆的、或者自行開發的C擴充就需要重新封裝了。

ChangeLog

2017.03.10 增加了對__slots__的介紹

references

程式設計語言benchmark

python屬性查找

python profiler

yappi

greenletprofiler

python-profiling-tools

python C API

Pyrex

cython document

本文版權歸作者xybaby（博文位址：http://www.cnblogs.com/xybaby/）所有，歡迎轉載和商用，請在文章頁面明顯位置給出原文連結并保留此段聲明，否則保留追究法律責任的權利，其他事項，可留言咨詢。

python性能優化

python為什麼性能差：

Be pythonic

基于profile的優化

python profilers

profile GUI tools

profile針對優化

python C擴充

beyond CPython

cython

pypy

ChangeLog

references

繼續閱讀

Python中*args 和**kwargs的用法Python中*args 和**kwargs的用法

python2.7的flask架構之響應（response）

python2.7的flask架構之重定向和錯誤提示

python2.7的flask架構之Jinja2簡單配置（控制自動轉義）

python2.7的flask架構之進行簡單的應用測試

win7下安裝python2.7的flask架構以及建立虛拟環境

Ubuntu 18.04安裝python2.7和python3.6共存

Python單例模式終極版

Python使用TCPServer編寫（多線程）Socket服務TCPServer+BaseRequestHandlerTCPServer+StreamRequestHandlerThreadingTCPServer+StreamRequestHandler=多線程socket

CentOS 6.7（系統自帶Python2.6.6）更新python 2.7并安裝pip

使用AWS的python庫boto3調用ec2服務

Python2.7 中文亂碼、輸入字元串格式問題

更新伺服器檔案到本地3

Mac python2.7.16 離線安裝rsa子產品方法

python2.7和python3.4共存

Python之基礎01HelloWorld：