5位無符号陣列乘法器設計_AddNet：使用優化FPGA乘法器的DNN

AddNet: Deep Neural Networks using FPGA-Optimized Multipliers

設計了一個常系數乘法器，比标準乘法器高效很多，然後訓練網絡設法讓權重盡量往這幾個系數上靠。

摘要

為了加速FPGA上的DNN，低精度算術運算因其可以節省矽片面積和提高吞吐量得到了廣泛研究，然而這些優點犧牲了準确率，RCCM在節省矽片面積上是一種比低精度算術運算更好的方法。RCCM(Reconfigurable Constant Coefficient Multipliers)即可重構常系數乘法器，它僅使用加減法器、移位器和MUX将有限種的系數與輸入值相乘，可以針對FPGA進行大量優化。我們設計了一系列針對FPGA邏輯定制的RCCM以確定其高效利用。為了最小化量化帶來的損失，我們開發了一項新的訓練方法，将RCCM可能的系數表示映射到權重分布，這樣可以在使用RCCM的同時保持高準确率。經過測試，最高比傳統八位量化節省50%的資源，進而實作加速和降低能耗。即使占用資源最少的RCCM也達到了6位定點精度，其他的都至少8位定點精度

一、簡介

傳統定點量化的一個限制是它的權重空間是均勻分割的。然而已經證明，同樣數量非均勻分布的權重會得到更高的準确率，隻要這個分布适當地比對全精度網絡的權重分布，是以降低精度可能不是節省矽片面積最好的方法。另一種方法是RCCM，它通過時分複用和資源共享來節省FPGA資源。RCCM僅使用加、減、移位和MUX實作，這意味着它不需要使用DSP子產品，但它隻能使用有限個系數。我們提出了AddNet以及訓練它的方法，可以将RCCM有限個系數比對到權重分布上。這樣做比降低精度更能節省面積

AddNet包含以下幾個階段。首先，我們設計了一系列針對FPGA邏輯定制的RCCM，它們有可變的系數集，并且占用資源非常少。選擇最比對權重分布的系數集，然後将權重限于這些系數重新訓練。本研究沒有使用FPGA中的乘法器。在實際實作中，我們根據不同CNN層的資源和吞吐量要求選擇使用自帶乘法器還是RCCM

訓練後的網絡能學會讓權重相容RCCM來實作高性能和高準确率。對于給定的吞吐量，這可以顯著減少資源使用，進而使我們的設計适合于資源受限的情況。此外，我們可以擴充設計的并行度以在相同資源消耗的情況下實作更高幀率。具體來說，本文做了以下貢獻：

針對DNN的FPGA架構定制的一批新型RCCM，顯著降低了資源需求
一種根據CNN中權重分布選擇特定RCCM的分布比對技術和一種可以相容所選RCCM的訓練算法
與低精度(1–6位)實作相比，我們的方法顯著提高了準确率。與8位定點精度相比，我們在沒有損失準确率的情況下顯著減少了對查找表(LUT)的使用。此外，通過隐式權重共享減少了權重存儲需求

二、背景

A. 卷積神經網絡

略

B. 定點訓練

低精度網絡訓練通常保持單精度或雙精度浮點數權重，直到推理前再将其量化。由于采用的量化函數是分段且恒定的，可以計算量化權重的梯度來更新對應的全精度權重。一個可以減少前向和反向過程中的不比對的量化函數對高準确率是至關重要的。可以使用權重共享進一步提高準确率，它包括選擇一個通過碼本來索引的有限全精度權重集。與權重均勻分布的傳統定點量化不同，通常選擇這些權重以比對目标分布來減少資訊損失。使用盡可能小的權重集可以減少索引字的大小，進而減小記憶體占用量。但是，權重共享通常不應用于FPGA中，因為權重映射過程會在電路的關鍵路徑中引入額外的延遲，并需要額外的硬體。此外，高精度算術單元也占用更多面積。利用隐式權重共享，無需任何映射硬體即可減少系數存儲。同時，我們的RCCM針對FPGA硬體進行了優化以減少面積消耗

C. 小型軟核乘法器

由于低精度DNN的興起，小型乘法器受到更多的關注。FPGA内置了乘法器，直接調用它們似乎很自然。可以在一個18位乘法器中同時執行兩個8位乘法。如果内置乘法器不夠，則可以使用基于邏輯的高效乘法器即軟核乘法器。實作軟核乘法器的最有效方式是使用Booth4編碼并且在同一LUT中同時映射Booth編碼和解碼器，可以将資源占用減少50%。然而隻在字長大于16時才好用，在小字長時Xilinx Coregen效果最好。我們優化的乘法器增加了更多限制，是以不再支援任意定點數。這是通過應用可重構乘法器的概念來實作的