浮點數的運算步驟

浮點數的加減運算一般由以下五個步驟完成：對階、尾數運算、規格化、舍入處理、溢出判斷

一、對階

所謂對階是指将兩個進行運算的浮點數的階碼對齊的操作。對階的目的是為使兩個浮點數的尾數能夠進行加減運算。因為，當進行M x·2Ex與M y·2Ey加減運算時，隻有使兩浮點數的指數值部分相同，才能将相同的指數值作為公因數提出來，然後進行尾數的加減運算。對階的具體方法是：首先求出兩浮點數階碼的差，即⊿E＝E x-E y，将小階碼加上⊿E，使之與大階碼相等，同時将小階碼對應的浮點數的尾數右移相應位數，以保證該浮點數的值不變。幾點注意：

（1）對階的原則是小階對大階，之是以這樣做是因為若大階對小階，則尾數的數值部分的高位需移出，而小階對大階移出的是尾數的數值部分的低位，這樣損失的精度更小。

（2）若⊿E＝0，說明兩浮點數的階碼已經相同，無需再做對階操作了。

（3）采用補碼表示的尾數右移時，符号位保持不變。

（4）由于尾數右移時是将最低位移出，會損失一定的精度，為減少誤差，可先保留若幹移出的位，供以後舍入處理用。

二、尾數運算

尾數運算就是進行完成對階後的尾數相加減。這裡采用的就是我們前面講過的純小數的定點數加減運算。

三、結果規格化

在機器中，為保證浮點數表示的唯一性，浮點數在機器中都是以規格化形式存儲的。對于IEEE754标準的浮點數來說，就是尾數必須是1.M的形式。由于在進行上述兩個定點小數的尾數相加減運算後，尾數有可能是非規格化形式，為此必須進行規格化操作。

規格化操作包括左規和右規兩種情況。

左規操作：将尾數左移，同時階碼減值，直至尾數成為1.M的形式。例如，浮點數0.0011·25是非規格化的形式，需進行左規操作，将其尾數左移3位，同時階碼減3，就變成1.1100·22規格化形式了。

右規操作：将尾數右移1位，同時階碼增1，便成為規格化的形式了。要注意的是，右規操作隻需将尾數右移一位即可，這種情況出現在尾數的最高位（小數點前一位）運算時出現了進位，使尾數成為10.xxxx或11.xxxx的形式。例如，10.0011·25右規一位後便成為1.00011·26的規格化形式了。

四、舍入處理

浮點運算在對階或右規時，尾數需要右移，被右移出去的位會被丢掉，進而造成運算結果精度的損失。為了減少這種精度損失，可以将一定位數的移出位先保留起來，稱為保護位，在規格化後用于舍入處理。

IEEE754标準列出了四種可選的舍入處理方法：

（1）就近舍入（round to nearest）這是标準列出的預設舍入方式，其含義相當于我們日常所說的“四舍五入”。例如，對于32位單精度浮點數來說，若超出可儲存的23位的多餘位大于等于100…01，則多餘位的值超過了最低可表示位值的一半，這種情況下，舍入的方法是在尾數的最低有效位上加1；若多餘位小于等于011…11，則直接舍去；若多餘位為100…00，此時再判斷尾數的最低有效位的值，若為0則直接舍去，若為1則再加1。

（2）朝+∞舍入（round toward +∞）對正數來說，隻要多餘位不為全0，則向尾數最低有效位進1；對負數來說，則是簡單地舍去。

（3）朝-∞舍入（round toward -∞）與朝+∞舍入方法正好相反，對正數來說，隻是簡單地舍去；對負數來說，隻要多餘位不為全0，則向尾數最低有效位進1。

（4）朝0舍入（round toward 0）

即簡單地截斷舍去，而不管多餘位是什麼值。這種方法實作簡單，但容易形成累積誤差，且舍入處理後的值總是向下偏差。

五、溢出判斷

與定點數運算不同的是，浮點數的溢出是以其運算結果的階碼的值是否産生溢出來判斷的。若階碼的值超過了階碼所能表示的最大正數，則為上溢，進一步，若此時浮點數為正數，則為正上溢，記為+∞，若浮點數為負數，則為負上溢，記為-∞；若階碼的值超過了階碼所能表示的最小負數，則為下溢，進一步，若此時浮點數為正數，則為正下溢，若浮點數為負數，則為負下溢。正下溢和負下溢都作為0處理。

要注意的是，浮點數的表示範圍和補碼表示的定點數的表示範圍是有所不同的，定點數的表示範圍是連續的，而浮點數的表示範圍可能是不連續的。

六、例子

float a=0.3;b=1.6;

a=(0.3)10=(0011 1110 1001 1001 1001 1001 1001 1010)2 Sa=0 Ea=011 1110 1 Ma=1.001 1001 1001 1001 1001 1010

b=(1.6)10=(0011 1111 1100 1100 1100 1100 1100 1101)2 Sb=0 Eb=011 1111 1 Mb=1.100 1100 1100 1100 1100 1101

a+b=?

第一步：對階

∵ Ea<Eb Eb-Ea=2

∴ Ma要調整為 0.0 1001 1001 1001 1001 1001 10 10

E=011 1111 1

第二步：尾數運算

0.01001100110011001100110

+ 1.10011001100110011001101

1.11100110011001100110011‬

第三步：規格化

1.11100110011001100110011‬已經是個規格化資料了

第四步：舍入處理

由于在對階時，Ma有右移，且第一次最高為1，第二次為0，是以按"0舍1入"，尾數運算結果調整為 1.11100110011001100110100

第五步：溢出判斷

沒有溢出，階碼不調整，是以最後的結果為

a+b=(0 01111111 11100110011001100110100)2=(0011 1111 1111 0011 0011 0011 0011 0100)2=(3FF33334)16

轉為10進制

a+b=1.90000010

b-a=?

跟上面加法一樣

1.10011001100110011001101

- 0.01001100110011001100110

1.01001100110011001100111

1.01001100110011001100111已經是個規格化資料了

由于在對階時，Ma有右移，且第一次最高為1，第二次為0，是以按"0舍1入"，尾數運算結果調整為 1.01001100110011001100110

a-b=(0 01111111 01001100110011001100110)2=(0011 1111 1010 0110 0110 0110 0110 0110)2=(3FA66666)16

a-b=1.29999995

浮點數的運算步驟

繼續閱讀

visual c++6.0對浮點數處理器的初始化

浮點型資料類型

golang基礎資料類型-浮點型

c語言的常用資料類型

制作一個簡單HTML個人網頁網頁——人物介紹梵高（HTML+CSS）

H.264句法和文法總結（八）參考圖像序列标記 (marking)操作的語義

Java中float的取值範圍

JavaScript浮點數陷阱，你需要了解一下

3 種判斷變量是否為整數的方法

牛客基礎文法必刷100題之基本類型

萌新卷妹帶你逃出算法無名島第三站

萌新卷妹帶你逃出算法無名島第五站

BZOJ-1024: [SCOI2009]生日快樂 (搜尋經典好題)

Redis：字元串INCR、INCRBY、INCRBYFLOAT、DECR、DECRBY指令介紹

10.4

fpga實作浮點數乘法以及sin運算