摘要:在本文中,我們将深入研究 Python 的内部實作,并了解 Python 如何使用一種名為字元串駐留(String Interning)的技術,實作解釋器的高性能。
每種程式設計語言為了表現出色,并且實作卓越的性能,都需要有大量編譯器級與解釋器級的優化。
由于字元串是任何程式設計語言中不可或缺的一個部分,是以,如果有快速操作字元串的能力,就可以迅速地提高整體的性能。
在本文中,我們将深入研究 Python 的内部實作,并了解 Python 如何使用一種名為字元串駐留(String Interning)的技術,實作解釋器的高性能。 本文的目的不僅在于介紹 Python 的内部知識,而且還旨在使讀者能夠輕松地浏覽 Python 的源代碼;是以,本文中将有很多出自 CPython 的代碼片段。
全文提綱如下:

1、什麼是“字元串駐留”?
字元串駐留是一種編譯器/解釋器的優化方法,它通過緩存一般性的字元串,進而節省字元串處理任務的空間和時間。
這種優化方法不會每次都建立一個新的字元串副本,而是僅為每個适當的不可變值保留一個字元串副本,并使用指針引用之。每個字元串的唯一拷貝被稱為它的intern,并是以而得名 String Interning。
String Interning 一般被譯為“字元串駐留”或“字元串留用”,在某些語言中可能習慣用 String Pool(字元串常量池)的概念,其實是對同一種機制的不同表述。intern 作為名詞時,是“實習生、實習醫生”的意思,在此可以了解成“駐留物、駐留值”。
查找字元串 intern 的方法可能作為公開接口公開,也可能不公開。現代程式設計語言如 Java、Python、PHP、Ruby、Julia 等等,都支援字元串駐留,以使其編譯器和解釋器做到高性能。
2、為什麼要駐留字元串?
字元串駐留提升了字元串比較的速度。 如果沒有駐留,當我們要比較兩個字元串是否相等時,它的時間複雜度将上升到 O(n),即需要檢查兩個字元串中的每個字元,才能判斷出它們是否相等。
但是,如果字元串是固定的,由于相同的字元串将使用同一個對象引用,是以隻需檢查指針是否相同,就足以判斷出兩個字元串是否相等,不必再逐一檢查每個字元。由于這是一個非常普遍的操作,是以,它被典型地實作為指針相等性校驗,僅使用一條完全沒有記憶體引用的機器指令。
字元串駐留減少了記憶體占用。 Python 避免記憶體中充斥多餘的字元串對象,通過享元設計模式共享和重用已經定義的對象,進而優化記憶體占用。
3、Python的字元串駐留
像大多數其它現代程式設計語言一樣,Python 也使用字元串駐留來提高性能。在 Python 中,我們可以使用is運算符,檢查兩個對象是否引用了同一個記憶體對象。
是以,如果兩個字元串對象引用了相同的記憶體對象,則is運算符将得出True,否則為False。
>>> 'python' is 'python'
True
我們可以使用這個特定的運算符,來判斷哪些字元串是被駐留的。在 CPython 的,字元串駐留是通過以下函數實作的,聲明在 unicodeobject.h 中,定義在 unicodeobject.c 中。
PyAPI_FUNC(void) PyUnicode_InternInPlace(PyObject **);
為了檢查一個字元串是否被駐留,CPython 實作了一個名為PyUnicode_CHECK_INTERNED的宏,同樣是定義在 unicodeobject.h 中。
這個宏表明了 Python 在PyASCIIObject結構中維護着一個名為interned的成員變量,它的值表示相應的字元串是否被駐留。
#define PyUnicode_CHECK_INTERNED(op) \
(((PyASCIIObject *)(op))->state.interned)
4、字元串駐留的原理
在 CPython 中,字元串的引用被一個名為interned的 Python 字典所存儲、通路和管理。 該字典在第一次調用字元串駐留時,被延遲地初始化,并持有全部已駐留字元串對象的引用。
4.1 如何駐留字元串?
負責駐留字元串的核心函數是PyUnicode_InternInPlace,它定義在 unicodeobject.c 中,當調用時,它會建立一個準備容納所有駐留的字元串的字典interned,然後登記入參中的對象,令其鍵和值都使用相同的對象引用。
以下函數片段顯示了 Python 實作字元串駐留的過程。
void
PyUnicode_InternInPlace(PyObject **p)
{
PyObject *s = *p;
.........
// Lazily build the dictionary to hold interned Strings
if (interned == NULL) {
interned = PyDict_New();
if (interned == NULL) {
PyErr_Clear();
return;
}
}
PyObject *t;
// Make an entry to the interned dictionary for the
// given object
t = PyDict_SetDefault(interned, s, s);
.........
// The two references in interned dict (key and value) are
// not counted by refcnt.
// unicode_dealloc() and _PyUnicode_ClearInterned() take
// care of this.
Py_SET_REFCNT(s, Py_REFCNT(s) - 2);
// Set the state of the string to be INTERNED
_PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}
4.2 如何清理駐留的字元串?
清理函數從interned字典中周遊所有的字元串,調整這些對象的引用計數,并把它們标記為NOT_INTERNED,使其被垃圾回收。一旦所有的字元串都被标記為NOT_INTERNED,則interned字典會被清空并删除。
這個清理函數就是_PyUnicode_ClearInterned,在 unicodeobject.c 中定義。
void
_PyUnicode_ClearInterned(PyThreadState *tstate)
{
.........
// Get all the keys to the interned dictionary
PyObject *keys = PyDict_Keys(interned);
.........
// Interned Unicode strings are not forcibly deallocated;
// rather, we give them their stolen references back
// and then clear and DECREF the interned dict.
for (Py_ssize_t i = 0; i < n; i++) {
PyObject *s = PyList_GET_ITEM(keys, i);
.........
switch (PyUnicode_CHECK_INTERNED(s)) {
case SSTATE_INTERNED_IMMORTAL:
Py_SET_REFCNT(s, Py_REFCNT(s) + 1);
break;
case SSTATE_INTERNED_MORTAL:
// Restore the two references (key and value) ignored
// by PyUnicode_InternInPlace().
Py_SET_REFCNT(s, Py_REFCNT(s) + 2);
break;
case SSTATE_NOT_INTERNED:
/* fall through */
default:
Py_UNREACHABLE();
}
// marking the string to be NOT_INTERNED
_PyUnicode_STATE(s).interned = SSTATE_NOT_INTERNED;
}
// decreasing the reference to the initialized and
// access keys object.
Py_DECREF(keys);
// clearing the dictionary
PyDict_Clear(interned);
// clearing the object interned
Py_CLEAR(interned);
}
5、字元串駐留的實作
既然了解了字元串駐留及清理的内部原理,我們就可以找出 Python 中所有會被駐留的字元串。
為了做到這點,我們要做的就是在 CPython 源代碼中查找PyUnicode_InternInPlace 函數的調用,并檢視其附近的代碼。下面是在 Python 中關于字元串駐留的一些有趣的發現。
5.1 變量、常量與函數名
CPython 對常量(例如函數名、變量名、字元串字面量等)執行字元串駐留。
以下代碼出自codeobject.c,它表明在建立新的PyCode對象時,解釋器将對所有編譯期的常量、名稱和字面量進行駐留。
PyCodeObject *
PyCode_NewWithPosOnlyArgs(int argcount, int posonlyargcount, int kwonlyargcount,
int nlocals, int stacksize, int flags,
PyObject *code, PyObject *consts, PyObject *names,
PyObject *varnames, PyObject *freevars, PyObject *cellvars,
PyObject *filename, PyObject *name, int firstlineno,
PyObject *linetable)
{
........
if (intern_strings(names) < 0) {
return NULL;
}
if (intern_strings(varnames) < 0) {
return NULL;
}
if (intern_strings(freevars) < 0) {
return NULL;
}
if (intern_strings(cellvars) < 0) {
return NULL;
}
if (intern_string_constants(consts, NULL) < 0) {
return NULL;
}
........
}
5.2 字典的鍵
CPython 還會駐留任何字典對象的字元串鍵。
當在字典中插入元素時,解釋器會對該元素的鍵作字元串駐留。以下代碼出自 dictobject.c,展示了實際的行為。
有趣的地方:在PyUnicode_InternInPlace函數被調用處有一條注釋,它問道,我們是否真的需要對所有字典中的全部鍵進行駐留?
int
PyDict_SetItemString(PyObject *v, const char *key, PyObject *item)
{
PyObject *kv;
int err;
kv = PyUnicode_FromString(key);
if (kv == NULL)
return -1;
// Invoking String Interning on the key
PyUnicode_InternInPlace(&kv); /* XXX Should we really? */
err = PyDict_SetItem(v, kv, item);
Py_DECREF(kv);
return err;
}
5.3 任何對象的屬性
Python 中對象的屬性可以通過setattr函數顯式地設定,也可以作為類成員的一部分而隐式地設定,或者在其資料類型中預定義。
CPython 會駐留所有這些屬性名,以便實作快速查找。 以下是函數PyObject_SetAttr的代碼片段,該函數定義在檔案object.c中,負責為 Python 對象設定新屬性。
int
PyObject_SetAttr(PyObject *v, PyObject *name, PyObject *value)
{
........
PyUnicode_InternInPlace(&name);
........
}
5.4 顯式地駐留
Python 還支援通過sys子產品中的intern函數進行顯式地字元串駐留。
當使用任何字元串對象調用此函數時,該字元串對象将被駐留。以下是 sysmodule.c 檔案的代碼片段,它展示了在sys_intern_impl函數中的字元串駐留過程。
static PyObject *
sys_intern_impl(PyObject *module, PyObject *s)
{
........
if (PyUnicode_CheckExact(s)) {
Py_INCREF(s);
PyUnicode_InternInPlace(&s);
return s;
}
........
}
6、字元串駐留的其它發現
隻有編譯期的字元串會被駐留。 在解釋時或編譯時指定的字元串會被駐留,而動态建立的字元串則不會。
Python貓注:這一條規則值得展開思考,我曾經在上面踩過坑……有兩個知識點,我相信 99% 的人都不知道:字元串的 join() 方法是動态建立字元串,是以其建立的字元串不會被駐留;常量折疊機制也發生在編譯期,是以有時候容易把它跟字元串駐留搞混淆。推薦閱讀《join()方法的神奇用處與Intern機制的軟肋》
包含 ASCII 字元和下劃線的字元串會被駐留。 在編譯期間,當對字元串字面量進行駐留時,CPython 確定僅對比對正規表達式[a-zA-Z0-9_]*的常量進行駐留,因為它們非常貼近于 Python 的辨別符。
注:關于 Python 中辨別符的命名規則,在 Python2 版本隻有“字母、數字和下劃線”,但在 Python 3.x 版本中,已經支援 Unicode 編碼。這部分内容推薦閱讀《醒醒!Python已經支援中文變量名啦!》
參考材料
-
- 字元串駐留(https://en.wikipedia.org/wiki/String_interning)
- CPython優化(https://stummjr.org/post/cpython-optimizations/)
- Python對象第三部分:字元串駐留(https://medium.com/@bdov_/https-medium-com-bdov-python-objects-part-iii-string-interning-625d3c7319de)
- Python字元串駐留的内部原理(http://guilload.com/python-string-interning/)
- Python優化機制:常量折疊(https://mp.weixin.qq.com/s/p1Zb_linFLWwPlNyA5Ui1Q)
本文分享自華為雲社群《深入 Python 解釋器源碼,我終于搞明白了字元串駐留的原理!》,原文作者:Python貓 。