Python 的整數與 Numpy 的資料溢出

某位 A 同學發了我一張截圖，問為何結果中出現了負數？

看了圖，我第一感覺就是資料溢出了。資料超出能表示的最大值，就會出現奇奇怪怪的結果。

然後，他繼續發了張圖，内容是 print(100000*208378)，就是直接列印上圖的 E[0]*G[0]，結果是 20837800000，這是個正确的結果。

是以新的問題是：如果說上圖的資料溢出了，為何直接相乘的數卻沒有溢出？

由于我一直忽視資料的表示規則（整型的上限是多少？），而且對 Numpy 了解不多，還錯看了圖中結果，誤以為每一個資料都是錯誤的，是以就解答不出來。

最後，經過學習群裡的一番讨論，我才終于明白是怎麼回事，是以本文把相關知識點做個梳理。

在正式開始之前，先總結一下上圖會引出的話題：

Python 3 中整數的上限是多少？Python 2 呢？
Numpy 中整數的上限是多少？出現整數溢出該怎麼辦？

關于第一個問題，先看看 Python 2，它有兩種整數：

一種是短整數，也即常說的整數，用 int 表示，有個内置函數 int()。其大小有限，可通過 sys.maxint() 檢視（取決于平台是 32 位還是 64 位）
一種是長整數，即大小無限的整數，用 long 表示，有個内置函數 long()。寫法上是在數字後面加大寫字母 L 或小寫的 l，如 1000L

當一個整數超出短整數範圍時，它會自動采用長整數表示。舉例，列印

2**100

，結果會在末尾加字母 L 表示它是長整數。

但是到了 Python 3，情況就不同了：它僅有一種内置的整數，表示為 int，形式上是 Python 2 的短整數，但實際上它能表示的範圍無限，行為上更像是長整數。無論多大的數，結尾都不需要字母 L 來作區分。

也就是說，Python 3 整合了兩種整數表示法，使用者不再需要自行區分，全交給底層按需處理。

理論上，Python 3 中的整數沒有上限（隻要不超出記憶體空間）。這就解釋了前文中直接列印兩數相乘，為什麼結果會正确了。

PEP-237（Unifying Long Integers and Integers）中對這個轉變作了說明。它解釋這樣做的目的：

這會給新的 Python 程式員（無論他們是否是程式設計新手）減少一項上手前要學的功課。

Python 在語言運用層屏蔽了很多瑣碎的活，比如記憶體配置設定，是以，我們在使用字元串、清單或字典等對象時，根本不用操心。整數類型的轉變，也是出于這樣的便利目的。（壞處是犧牲了一些效率，在此就不談了）

回到前面的第二個話題：Numpy 中整數的上限是多少？

由于它是 C 語言實作，在整數表示上，用的是 C 語言的規則，也就是會區分整數和長整數。

有一種方式可檢視：

import numpy as np

a = np.arange(2)
type(a[0])

# 結果：numpy.int32

也就是說它預設的整數 int 是 32 位，表示範圍在 -2147483648 ~ 2147483647。

對照前文的截圖，裡面隻有兩組數字相乘時沒有溢出：100007*4549、100012*13264，其它資料組都溢出了，是以出現奇怪的負數結果。

Numpy 支援的資料類型要比 Python 的多，互相間的區分界限很多樣：

截圖來源：

https://www.runoob.com/numpy/numpy-dtype.html

要解決整數溢出問題，可以通過指定 dtype 的方式：

import numpy as np

q = [100000]
w = [500000]

# 一個溢出的例子：
a = np.array(q)
b = np.array(w)
print(a*b)  # 産生溢出，結果是個奇怪的數值

# 一個解決的例子：
c = np.array(q, dtype='int64')
d = np.array(w, dtype='int64')
print(c*d) # 沒有溢出：[50000000000]

好了，前面提出的問題就回答完了。來作個結尾吧：

Python 3 極大地簡化了整數的表示，效果可表述為：整數就隻有一種整數（int），沒有其它類型的整數（long、int8、int64 之類的）
Numpy 中的整數類型對應于 C 語言的資料類型，每種“整數”有自己的區間，要解決資料溢出問題，需要指定更大的資料類型（dtype）

Python 的整數與 Numpy 的資料溢出

繼續閱讀

學習軟體測試基礎測試第七天

C語言：初學者必定看懂的注釋！！！猴子吃桃問題。猴子第一天摘下若幹個桃子，每天都吃了前一天剩下的一半零一個，到第10天早上想再吃的時候，就剩下一個桃子. 求第一天共摘多少個桃子。

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

[轉]九大排序算法——C語言實作及詳解

27. Remove Element(清單)題目代碼

while 循環、do- while 循環和 for 循環之間的那點事C語言自學之三種循環比較

結構體：typedef與struct的差別

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

面試題解析：你接口測試是怎麼做的？

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

hdu7108哈希