天天看點

易被忽略的Python内置類型

Python中的内置類型是我們開發中最常見的,很多人都能熟練的使用它們。

然而有一些内置類型确實不那麼常見的,或者說往往會被我們忽略,是以這次的主題就是帶領大家重新認識這些“不同尋常”的内置類型。

(注意:本文基于python3,不會包含任何python2相關内容)

本文索引:

  • frozenset
  • range
  • bytearray
  • memoryview
  • dict-views
  • ellipsis object (...)

不可變集合(frozenset)與普通的set一樣,隻不過它的元素是不可變的,是以諸如`add`,`remove`,`update`等可以添加/删除/改變集合内元素的方法是不存在的,換句話說一旦frozenset建立後你将不再可能更改集合内的元素。其他的方法與set一緻:

```python

>>> frozen = frozenset([1, 1, 2, 3, 4, 5, 6, 6])

frozenset({1, 2, 3, 4, 5, 6})

>>> frozen | {1, 2, 3, 7, 8}

frozenset({1, 2, 3, 4, 5, 6, 7, 8})

>>> frozen ^ {1, 2, 3, 7, 8}

frozenset({4, 5, 6, 7, 8})

```

`range`事實上相當得常見,是以你也許會奇怪我為什麼把它列出來。

其實原因很簡單,因為大部分人熟悉

range

的使用,但并不清楚range到底是什麼。傳回疊代器?傳回一個可疊代對象?

range

本身又是什麼呢?

答案揭曉:

>>> range
<class 'range'>
           

是的,

range

是個class!是以當我們使用

for i in range(1, 10)

這樣的代碼時,實際上我們周遊了一個

range

對象,而

range

也實作了可疊代對象需要的

__iter__

魔法方法,是以它自身是可疊代對象:

>>> range.__iter__
<slot wrapper '__iter__' of 'range' objects>
           

是以,

range

既不傳回疊代器,也不傳回其他可疊代對象,而是傳回的自己。

`bytearray`一般情況下并不常見,它主要為了可以實作原地修改bytes對象而出現,因為bytes和str一樣是不可變對象,例如這樣是非法的:

>>> b = '測試用例a'.encode('utf8')

>>> b[-1] = 98 # change 'a' -> 'b'

Traceback (most recent call last):

File "", line 1, in

TypeError: 'bytes' object does not support item assignment

而當我們把bytes的内容複制給`bytearray`時就可以進行原地修改了:

>>> array = bytearray(b)

>>> array[-1] = 98

>>> array.decode('utf8')

測試用例b

`bytearray`對象沒有字面常量,是以隻能通過構造函數建立,它有着和bytes一樣的方法,隻是可變以及多了一些序列對象的特性。如果要建立一個`bytearray`可以有如下的幾種方法:

- `bytearray()`傳回一個空的`bytearray`對象

- `bytearray(10)`建立一個長度為10且内容被0填充的`bytearray`

- `bytearray(iterable)`會将可疊代對象的内容轉換成bytes然後存入對象中

- `bytearray(b'Hi!')`将已有的二進制資料複制進對象

另外

bytearray

還提供了

fromhex

hex

友善将資料以16進制的形式輸入輸出:

>>> array.hex()
'e6b58be8af95e794a8e4be8b62'
>>> bytearray().fromhex('e6b58be8af95e794a8e4be8b62').decode('utf8')
'測試用例b'
           

`memoryview`提供了直接通路對象記憶體的機制,隻要目标對象支援[buffer protocol](https://docs.python.org/3/c-api/buffer.html#bufferobjects),例如`bytes`和`bytearray`。

memoryview

有個稱為“元素”的概念,也就是對象規定的最小的記憶體單元,比如

bytes

bytearray

的最小記憶體單元就是一個byte,具體取決于對象的實作。

len(view)

通常等于

len(view.tolist())

,也就是等于view的“元素”數量。如果

view.ndim == 0

,那麼整個view的記憶體會被視作一個整體,len會傳回1,如果

view.ndim == 1

那麼就正常傳回“元素”的個數。

view.itemsize

會傳回單個“元素”的大小。機關是byte。

view.readonly

表示目前的

memoryview

是否是隻讀的,例如

bytes

對象的view就是隻讀的,

view.readonly

的值為

True

。是否隻讀取決于被引用的對象是否可變以及對buffer protocol的實作。

對于使用完畢的

memoryview

應該盡快調用其

release()

方法釋放資源,而且部分對象在被view引用時會自動進行一些限制,比如

bytearray

會禁止調整大小,及時釋放view是資源可以解除這些限制。

結合示例可以更清晰地了解這些特性:

>>> data = bytearray(b'abcefg')
>>> v = memoryview(data)
>>> v.readonly
False
>>> v[0] = ord(b'z')
>>> data
bytearray(b'zbcefg')
>>> v[1:4] = b'123'
>>> data
bytearray(b'z123fg')
>>> v[2:3] = b'spam'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ValueError: memoryview assignment: lvalue and rvalue have different structures
>>> v[2:6] = b'spam'
>>> data
bytearray(b'z1spam')
           

準确的說,這不是一種類型,而是一種概念。然而typing裡仍然将其視為一種類型,是以也就羅列在此了。

概念:

傳回自dict.keys()

,

dict.values

()和

dict.items()

的對象被稱作

dict-views

對于views對象,可以使用len,成員檢測,它本身也是可疊代對象:

>>> dishes = {'eggs': 2, 'sausage': 1, 'bacon': 1, 'spam': 500}
>>> keys = dishes.keys()
>>> values = dishes.values()

>>> # iteration
>>> n = 0
>>> for val in values:
...     n += val
>>> print(n)
504

>>> # keys and values are iterated over in the same order (insertion order)
>>> list(keys)
['eggs', 'sausage', 'bacon', 'spam']
>>> list(values)
[2, 1, 1, 500]

>>> # view objects are dynamic and reflect dict changes
>>> del dishes['eggs']
>>> del dishes['sausage']
>>> list(keys)
['bacon', 'spam']

>>> # set operations
>>> keys & {'eggs', 'bacon', 'salad'}
{'bacon'}
>>> keys ^ {'sausage', 'juice'}
{'juice', 'sausage', 'bacon', 'spam'}
           

從例子中可以看出,views保持着元素的插入順序(插入順序的保證從python3.6開始)以及views動态反應了key/value的插入和删除以及修改,是以在某些場景下views對象是相當有用的。

The Ellipsis Object (...)

`...`不是一個類型,不過算是一個内置對象。

它沒什麼特殊的含義,僅表示省略,通常被用在type hints中:

>>> ...
Ellipsis
>>> from typing import Callable
>>> func: Callable[..., None] = lambda x,y:print(x*y)
           

func是一個沒有傳回值的函數,參數清單沒有做任何限制。

你也可以寫成

Ellipsis

,兩者是等價的,不過顯然是

...

這種形式更簡單明了。

以上就是這些容易被忽略和遺忘的内置類型,如有錯誤和疏漏歡迎指出。

參考:

https://docs.python.org/3/library/stdtypes.html

https://docs.python.org/3/c-api/buffer.html#bufferobjects