float與double類型的記憶體分布，精度和範圍

2023-06-22 13:59:09

記憶體分布：

C/c++的浮點資料類型有float和double兩種。

float大小為4位元組，記憶體中的存儲方式如下：

符号位(1bit)指數(8bit)尾數(23bit)

double大小為8位元組，記憶體中的存儲方式如下：

符号位(1bit)指數(11bit)尾數(52bit)

符号位決定浮點數的正負，0正1負。指數和尾數均從浮點數的二進制科學計數形式中擷取。

如，十進制浮點數2.5的二進制形式為10.1，轉換為科學計數法形式為(1.01)*(10^1)。

由此可知指數為1，尾數（即科學計數法的小數部分）為01。

根據浮點數的存儲标準，指數用移碼表示。0的float類型移碼為127（0111 1111），0的double類型移碼為1023(011 1111 1111)。運算時，在0 的移碼基礎上加指數，得到的就是記憶體中指數的表示形式。尾數則直接填入，如果空間多餘則以0補齊，如果空間不夠則0舍1入。

是以float和 double類型分别表示的2.5如下（二進制）：

符号位指數尾數

0 1000 0000 010 0000 0000 0000 0000 0000

0 100 0000 0000 0100 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000

精度：

float和double的精度是由尾數的位數來決定的。

float：2^23 = 8388608，一共七位，這意味着最多能有7位有效數字，但絕對能保證的為6位，也即float的精度為6~7位有效數字； double：2^52 = 4503599627370496，一共16位，同理，double的精度為15~16位。

範圍:

float類的指數是8位移碼,最大為127最小為-127,127用來作2的指數,為2^127,約等于 1.7014*10^38, 而我們知道,floa示數範圍約為- 3.4*10^38-------3.4*10^38, 這是因為尾數都為1時,即1.11..11約為2,是以浮點數的範圍就出來了.double的情況與float完全相似.

附：

　移碼（又叫增碼）是符号位取反的補碼，一般用做浮點數的階碼，引入的目的是為了保證浮點數的機器零為全0。

　　①移碼的定義：設由1位符号位和n位數值位組成的階碼，則 [X]移=2En + X -2n≤X ≤ 2n

　　例如： X=+1011 [X]移=11011 符号位“1”表示正号

　　X=－1011 [X]移=00101 符号位“0”表示負号

　　②移碼與補碼的關系： [X]移與[X]補的關系是符号位互為相反數（僅符号位不同），

　　例如： X=+1011 [X]補=01011 [X]移=11011

　　X=－1011 [X]補=10101 [X]移=00101

　　③移碼運算應注意的問題：

　　◎對移碼運算的結果需要加以修正，修正量為2En ，即對結果的符号位取反後才是移碼形式的正确結果。

　　◎移碼表示中，0有唯一的編碼——1000…00，當出現000…00時（表示－2En），屬于浮點數下溢。

float與double類型的記憶體分布，精度和範圍

繼續閱讀

資料流圖的設計

資料庫規範化設計理論摘要要

黑馬程式員——C#結構及常用基本類型

Java中Integer和int的差別

試分析如何把數組array中的所有元素循環右移p位

Flash AS3 連續加載外部若幹圖檔

DB2表壓縮功能

華為筆試軟體

項目管理那些事兒

OS --written test1

OS-written test2

壓縮編碼M-JPEG、MPEG4、H.264

轉詳解C#資料庫存取圖檔三大方式

兩種清除浮動的方法

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名