天天看點

Python 的整數與 Numpy 的資料溢出

某位 A 同學發了我一張截圖,問為何結果中出現了負數?

看了圖,我第一感覺就是資料溢出了。資料超出能表示的最大值,就會出現奇奇怪怪的結果。

然後,他繼續發了張圖,内容是 print(100000*208378),就是直接列印上圖的 E[0]*G[0],結果是 20837800000,這是個正确的結果。

是以新的問題是:如果說上圖的資料溢出了,為何直接相乘的數卻沒有溢出?

由于我一直忽視資料的表示規則(整型的上限是多少?),而且對 Numpy 了解不多,還錯看了圖中結果,誤以為每一個資料都是錯誤的,是以就解答不出來。

最後,經過學習群裡的一番讨論,我才終于明白是怎麼回事,是以本文把相關知識點做個梳理。

在正式開始之前,先總結一下上圖會引出的話題:

  • Python 3 中整數的上限是多少?Python 2 呢?
  • Numpy 中整數的上限是多少?出現整數溢出該怎麼辦?

關于第一個問題,先看看 Python 2,它有兩種整數:

  • 一種是短整數,也即常說的整數,用 int 表示,有個内置函數 int()。其大小有限,可通過

    sys.maxint()

    檢視(取決于平台是 32 位還是 64 位)
  • 一種是長整數,即大小無限的整數,用 long 表示,有個内置函數 long()。寫法上是在數字後面加大寫字母 L 或小寫的 l,如 1000L

當一個整數超出短整數範圍時,它會自動采用長整數表示。舉例,列印

2**100

,結果會在末尾加字母 L 表示它是長整數。

但是到了 Python 3,情況就不同了:它僅有一種内置的整數,表示為 int,形式上是 Python 2 的短整數,但實際上它能表示的範圍無限,行為上更像是長整數。無論多大的數,結尾都不需要字母 L 來作區分。

也就是說,Python 3 整合了兩種整數表示法,使用者不再需要自行區分,全交給底層按需處理。

理論上,Python 3 中的整數沒有上限(隻要不超出記憶體空間)。這就解釋了前文中直接列印兩數相乘,為什麼結果會正确了。

PEP-237(Unifying Long Integers and Integers)中對這個轉變作了說明。它解釋這樣做的 目的:

這會給新的 Python 程式員(無論他們是否是程式設計新手)減少一項上手前要學的功課。

Python 在語言運用層屏蔽了很多瑣碎的活,比如記憶體配置設定,是以,我們在使用字元串、清單或字典等對象時,根本不用操心。整數類型的轉變,也是出于這樣的便利目的。(壞處是犧牲了一些效率,在此就不談了)

回到前面的第二個話題:Numpy 中整數的上限是多少?

由于它是 C 語言實作,在整數表示上,用的是 C 語言的規則,也就是會區分整數和長整數。

有一種方式可檢視:

import numpy as np

a = np.arange(2)
type(a[0])

# 結果:numpy.int32           

也就是說它預設的整數 int 是 32 位,表示範圍在 -2147483648 ~ 2147483647。

對照前文的截圖,裡面隻有兩組數字相乘時沒有溢出:100007*4549、100012*13264,其它資料組都溢出了,是以出現奇怪的負數結果。

Numpy 支援的資料類型要比 Python 的多,互相間的區分界限很多樣:

截圖來源:

https://www.runoob.com/numpy/numpy-dtype.html

要解決整數溢出問題,可以通過指定 dtype 的方式:

import numpy as np

q = [100000]
w = [500000]

# 一個溢出的例子:
a = np.array(q)
b = np.array(w)
print(a*b)  # 産生溢出,結果是個奇怪的數值

# 一個解決的例子:
c = np.array(q, dtype='int64')
d = np.array(w, dtype='int64')
print(c*d) # 沒有溢出:[50000000000]           

好了,前面提出的問題就回答完了。來作個結尾吧:

  • Python 3 極大地簡化了整數的表示,效果可表述為:整數就隻有一種整數(int),沒有其它類型的整數(long、int8、int64 之類的)
  • Numpy 中的整數類型對應于 C 語言的資料類型,每種“整數”有自己的區間,要解決資料溢出問題,需要指定更大的資料類型(dtype)