天天看點

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

C語言和C#語言中,對于浮點類型的資料采用單精度類型(float)和雙精度類型(double)來存儲,float資料占用32bit,double資料占用64bit,我們在聲明一個變量float f= 2.25f的時候,是如何配置設定記憶體的呢?如果胡亂配置設定,那世界豈不是亂套了麼,其實不論是float還是double在存儲方式上都是遵從IEEE的規範的,float遵從的是IEEE R32.24 ,而double 遵從的是R64.53。

無論是單精度還是雙精度在存儲中都分為三個部分:

1.符号位(Sign) : 0代表正,1代表為負

2.指數位(Exponent):用于存儲科學計數法中的指數資料,并且采用移位存儲

3.尾數部分(Mantissa):尾數部分

其中float的存儲方式如下圖所示:

float類型的存儲方式

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

而雙精度的存儲方式為:

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

double類型資料的存儲方式

根據IEEE(美國電氣和電子工程師學會)754标準中的定義,單精度(Single Precision)浮點數是32位(即4位元組)的,雙精度(Double Precision)浮點數是64位(即8位元組)的。兩者的S、E、M所占的位數以及表示方法由下表可知:

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

P是階碼,通常使用移碼表示(移碼和補碼隻有符号位相反,其餘都一樣。對于正數而言,原碼、反碼和補碼都一樣;對于負數而言,補碼就是其絕對值的原碼全部取反,然後加1)。階碼可以為正數,也可以為負數,為了處理負指數的情況,實際的指數值按要求需要加上一個偏差(Bias)值作為儲存在指數域中的值,單精度數的偏內插補點為127,雙精度數的偏內插補點為1023。例如,單精度的實際指數值0在指數域中将儲存為127,而儲存在指數域中的64則表示實際的指數值-63,偏差的引入使得對于單精度數,實際可以表達的指數值的範圍就變成-127到128之間(包含兩端)。

M為尾數,其中單精度數為23位長,雙精度數為52位長。IEEE标準要求浮點數必須是規範的。這意味着尾數的小數點左側必須為1,是以在儲存尾數的時候,可以省略小數點前面這個1,進而騰出一個二進制位來儲存更多的尾數。這樣實際上用23位長的尾數域表達了24位的尾數。例如對于單精度數而言,二進制的1001.101(對應于十進制的9.625)可以表達為1.001101 × 23,是以實際儲存在尾數域中的值為00110100000000000000000,即去掉小數點左側的1,并用0在右側補齊。

根據标準要求,無法精确儲存的值必須向最接近的可儲存的值進行舍入,即不足一半則舍,一半以上(包括一半)則進。不過對于二進制浮點數而言,還多一條規矩,就是當需要舍入的值剛好是一半時,不是簡單地進,而是在前後兩個等距接近的可儲存的值中,取其中最後一位有效數字為零者。

據以上分析,IEEE 754标準中定義浮點數的表示範圍為:

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

浮點數的表示有一定的範圍,超出範圍時會産生溢出(Flow),一般稱大于絕對值最大的資料為上溢(Overflow),小于絕對值最小的資料為下溢(Underflow)。

單精度浮點數和雙精度浮點數都是用IEEE 754标準定義的,其中有一些特殊約定,例如:

1、當P=0,M=0時,表示0。

2、當P=255,M=0時,表示無窮大,用符号位來确定是正無窮大還是負無窮大。

3、當P=255,M≠0時,表示NaN(Not a Number,不是一個數)。

R32.24和R64.53的存儲方式都是用科學計數法來存儲資料的,比如8.25用十進制的科學計數法表示就為:8.25*clip_image0021,而120.5可以表示為:1.205*clip_image0022,這些國小的知識就不用多說了吧。而我們傻蛋計算機根本不認識十進制的資料,他隻認識0,1,是以在計算機存儲中,首先要将上面的數更改為二進制的科學計數法表示,8.25用二進制表示可表示為1000.01,我靠,不會連這都不會轉換吧?那我估計要沒轍了。120.5用二進制表示為:1110110.1用二進制的科學計數法表示1000.01可以表示為1.0001*clip_image002[2],1110110.1可以表示為1.1101101*clip_image002[3],任何一個數都的科學計數法表示都為1.xxx*clip_image002[1],尾數部分就可以表示為xxxx,第一位都是1嘛,幹嘛還要表示呀?可以将小數點前面的1省略,是以23bit的尾數部分,可以表示的精度卻變成了24bit,道理就是在這裡,那24bit能精确到小數點後幾位呢,我們知道9的二進制表示為1001,是以4bit能精确十進制中的1位小數點,24bit就能使float能精确到小數點後6位,而對于指數部分,因為指數可正可負,8位的指數位能表示的指數範圍就應該為:-127-128了,是以指數部分的存儲采用移位存儲,存儲的資料為中繼資料+127,下面就看看8.25和120.5在記憶體中真正的存儲方式。

首先看下8.25,用二進制的科學計數法表示為:1.0001*clip_image002[2]

按照上面的存儲方式,符号位為:0,表示為正,指數位為:3+127=130 ,位數部分為,故8.25的存儲方式如下圖所示:

單精度浮點數8.25的存儲方式

而單精度浮點數120.5的存儲方式如下圖所示:

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

單精度數120.5的存儲方式

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

那麼如果給出記憶體中一段資料,并且告訴你是單精度存儲的話,你如何知道該資料的十進制數值呢?其實就是對上面的反推過程,比如給出如下記憶體資料:0100001011101101000000000000,首先我們現将該資料分段,0 10000 0101 110 1101 0000 0000 0000 0000,在記憶體中的存儲就為下圖所示:

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

根據我們的計算方式,可以計算出,這樣一組資料表示為:1.1101101*2^6

而雙精度浮點數的存儲和單精度的存儲大同小異,不同的是指數部分和尾數部分的位數。是以這裡不再詳細的介紹雙精度的存儲方式了,隻将120.5的最後存儲方式圖給出,大家可以仔細想想為何是這樣子的

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

下面我就這個基礎知識點來解決一個我們的一個疑惑,請看下面一段程式,注意觀察輸出結果

float f = 2.2f;

double d = (double)f;

Console.WriteLine(d.ToString("0.0000000000000"));

f = 2.25f;

d = (double)f;

Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓大家疑惑不解,單精度的2.2轉換為雙精度後,精确到小數點後13位後變為了2.2000000476837,而單精度的2.25轉換為雙精度後,變為了2.2500000000000,為何2.2在轉換後的數值更改了而2.25卻沒有更改呢?很奇怪吧?其實通過上面關于兩種存儲結果的介紹,我們已經大概能找到答案。首先我們看看2.25的單精度存儲方式,很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示為:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候,數值是不會變的,而我們再看看2.2呢,2.2用科學計數法表示應該為:将十進制的小數轉換為二進制的小數的方法為将小數2,取整數部分,是以0.282=0.4,是以二進制小數第一位為0.4的整數部分0,0.4×2=0.8,第二位為0,0.82=1.6,第三位為1,0.6×2 = 1.2,第四位為1,0.2*2=0.4,第五位為0,這樣永遠也不可能乘到=1.0,得到的二進制是一個無限循環的排列 00110011001100110011... ,對于單精度資料來說,尾數隻能表示24bit的精度,是以2.2的float存儲為:

22.25在計算機中如何儲存,浮點數在計算機中存儲方式

單精度數202的存儲方式

但是這樣存儲方式,換算成十進制的值,卻不會是2.2的,應為十進制在轉換為二進制的時候可能會不準确,如2.2,而double類型的資料也存在同樣的問題,是以在浮點數表示中會産生些許的誤差,在單精度轉換為雙精度的時候,也會存在誤差的問題,對于能夠用二進制表示的十進制資料,如2.25,這個誤差就會不存在,是以會出現上面比較奇怪的輸出結果。