浮點型資料存儲方式

轉至：http://blog.csdn.net/wzy198852/article/details/9617239

c語言和c#語言中，對于浮點類型的資料采用單精度類型（float）和雙精度類型(double)來存儲，float資料占用32bit,double資料占用64bit,我們在聲明一個變量float f= 2.25f的時候，是如何配置設定記憶體的呢？如果胡亂配置設定，那世界豈不是亂套了麼，其實不論是float還是double在存儲方式上都是遵從ieee的規範的，float遵從的是ieee r32.24 ,而double 遵從的是r64.53。

無論是單精度還是雙精度在存儲中都分為三個部分：

符号位(sign) : 0代表正，1代表為負

指數位（exponent）:用于存儲科學計數法中的指數資料，并且采用移位存儲

尾數部分（mantissa）：尾數部分

其中float的存儲方式如下圖所示：

而雙精度的存儲方式為:

r32.24和r64.53的存儲方式都是用科學計數法來存儲資料的，比如8.25用十進制的科學計數法表示就為:8.25*

,而120.5可以表示為:1.205*

,這些國小的知識就不用多說了吧。而我們傻蛋計算機根本不認識十進制的資料，他隻認識0，1，是以在計算機存儲中，首先要将上面的數更改為二進制的科學計數法表示，8.25用二進制表示可表示為1000.01,我靠，不會連這都不會轉換吧?那我估計要沒轍了。120.5用二進制表示為：1110110.1用二進制的科學計數法表示1000.01可以表示為1.0001*

,1110110.1可以表示為1.1101101*

,任何一個數都的科學計數法表示都為1.xxx*

,尾數部分就可以表示為xxxx,第一位都是1嘛，幹嘛還要表示呀？可以将小數點前面的1省略，是以23bit的尾數部分，可以表示的精度卻變成了24bit，道理就是在這裡，那24bit能精确到小數點後幾位呢，我們知道9的二進制表示為1001，是以4bit能精确十進制中的1位小數點，24bit就能使float能精确到小數點後6位，而對于指數部分，因為指數可正可負，8位的指數位能表示的指數範圍就應該為:-127-128了，是以指數部分的存儲采用移位存儲，存儲的資料為中繼資料+127，下面就看看8.25和120.5在記憶體中真正的存儲方式。

首先看下8.25，用二進制的科學計數法表示為:1.0001*

按照上面的存儲方式，符号位為:0，表示為正，指數位為:3+127=130 ,位數部分為,故8.25的存儲方式如下圖所示:

而單精度浮點數120.5的存儲方式如下圖所示:

那麼如果給出記憶體中一段資料，并且告訴你是單精度存儲的話，你如何知道該資料的十進制數值呢？其實就是對上面的反推過程，比如給出如下記憶體資料：0100001011101101000000000000，首先我們現将該資料分段，0 10000 0101 110 1101 0000 0000 0000 0000，在記憶體中的存儲就為下圖所示：

根據我們的計算方式，可以計算出，這樣一組資料表示為:1.1101101*

=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異，不同的是指數部分和尾數部分的位數。是以這裡不再詳細的介紹雙精度的存儲方式了，隻将120.5的最後存儲方式圖給出，大家可以仔細想想為何是這樣子的

下面我就這個基礎知識點來解決一個我們的一個疑惑，請看下面一段程式，注意觀察輸出結果

float f = 2.2f;

double d = (double)f;

console.writeline(d.tostring("0.0000000000000"));

f = 2.25f;

d = (double)f;

可能輸出的結果讓大家疑惑不解，單精度的2.2轉換為雙精度後，精确到小數點後13位後變為了2.2000000476837，而單精度的2.25轉換為雙精度後，變為了2.2500000000000，為何2.2在轉換後的數值更改了而2.25卻沒有更改呢？很奇怪吧？其實通過上面關于兩種存儲結果的介紹，我們已經大概能找到答案。首先我們看看2.25的單精度存儲方式，很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示為:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候，數值是不會變的，而我們再看看2.2呢，2.2用科學計數法表示應該為：将十進制的小數轉換為二進制的小數的方法為将小數*2，取整數部分，是以0.282=0.4，是以二進制小數第一位為0.4的整數部分0，0.4×2=0.8，第二位為0,0.8*2=1.6,第三位為1，0.6×2 = 1.2，第四位為1，0.2*2=0.4，第五位為0，這樣永遠也不可能乘到=1.0，得到的二進制是一個無限循環的排列 00110011001100110011... ,對于單精度資料來說，尾數隻能表示24bit的精度，是以2.2的float存儲為:

但是這樣存儲方式，換算成十進制的值，卻不會是2.2的，應為十進制在轉換為二進制的時候可能會不準确，如2.2，而double類型的資料也存在同樣的問題，是以在浮點數表示中會産生些許的誤差，在單精度轉換為雙精度的時候，也會存在誤差的問題，對于能夠用二進制表示的十進制資料，如2.25，這個誤差就會不存在，是以會出現上面比較奇怪的輸出結果。

注：本文在寫作過程中，參照了如下資料：

http://www.msdn.net/library/chs/default.asp?url=/library/chs/vccore/html/_core_why_floating_point_numbers_may_lose_precision.asp

http://blog.csdn.net/ganxingming/archive/2006/12/19/1449526.aspx

浮點型資料存儲方式

繼續閱讀

java 開發中的駱駝拼寫法（CamelCase）

恢複Linux作業系統的GRUB引導程式

緻意—程式員

dos 指令集2---DOS 常用指令 (edit)

dos 指令集2---DOS 常用指令 (sys)

C/C++頭檔案、函數使用說明

SOFTICE 使用說明 (斷點)

DOS指令(2) 磁盤操作類指令

在DOS下運作不了ipconfig指令

c寫檔案

對于0-1分數規劃的Dinkelbach算法的分析

不用iconv函數實作UTF-8編碼轉換GB2312的PHP函數

浮點數計算精度控制

C++ 第十五周報告1--《冒泡法排序》

[轉]九大排序算法——C語言實作及詳解

QR碼編碼原理三（日本漢字和中文編碼）