5位无符号阵列乘法器设计_AddNet：使用优化FPGA乘法器的DNN

AddNet: Deep Neural Networks using FPGA-Optimized Multipliers

设计了一个常系数乘法器，比标准乘法器高效很多，然后训练网络设法让权重尽量往这几个系数上靠。

摘要

为了加速FPGA上的DNN，低精度算术运算因其可以节省硅片面积和提高吞吐量得到了广泛研究，然而这些优点牺牲了准确率，RCCM在节省硅片面积上是一种比低精度算术运算更好的方法。RCCM(Reconfigurable Constant Coefficient Multipliers)即可重构常系数乘法器，它仅使用加减法器、移位器和MUX将有限种的系数与输入值相乘，可以针对FPGA进行大量优化。我们设计了一系列针对FPGA逻辑定制的RCCM以确保其高效利用。为了最小化量化带来的损失，我们开发了一项新的训练方法，将RCCM可能的系数表示映射到权重分布，这样可以在使用RCCM的同时保持高准确率。经过测试，最高比传统八位量化节省50%的资源，从而实现加速和降低能耗。即使占用资源最少的RCCM也达到了6位定点精度，其他的都至少8位定点精度

一、简介

传统定点量化的一个限制是它的权重空间是均匀分割的。然而已经证明，同样数量非均匀分布的权重会得到更高的准确率，只要这个分布适当地匹配全精度网络的权重分布，因此降低精度可能不是节省硅片面积最好的方法。另一种方法是RCCM，它通过时分复用和资源共享来节省FPGA资源。RCCM仅使用加、减、移位和MUX实现，这意味着它不需要使用DSP模块，但它只能使用有限个系数。我们提出了AddNet以及训练它的方法，可以将RCCM有限个系数匹配到权重分布上。这样做比降低精度更能节省面积

AddNet包含以下几个阶段。首先，我们设计了一系列针对FPGA逻辑定制的RCCM，它们有可变的系数集，并且占用资源非常少。选择最匹配权重分布的系数集，然后将权重限于这些系数重新训练。本研究没有使用FPGA中的乘法器。在实际实现中，我们根据不同CNN层的资源和吞吐量要求选择使用自带乘法器还是RCCM

训练后的网络能学会让权重兼容RCCM来实现高性能和高准确率。对于给定的吞吐量，这可以显著减少资源使用，从而使我们的设计适合于资源受限的情况。此外，我们可以扩展设计的并行度以在相同资源消耗的情况下实现更高帧率。具体来说，本文做了以下贡献：

针对DNN的FPGA架构定制的一批新型RCCM，显著降低了资源需求
一种根据CNN中权重分布选择特定RCCM的分布匹配技术和一种可以兼容所选RCCM的训练算法
与低精度(1–6位)实现相比，我们的方法显著提高了准确率。与8位定点精度相比，我们在没有损失准确率的情况下显著减少了对查找表(LUT)的使用。此外，通过隐式权重共享减少了权重存储需求

二、背景

A. 卷积神经网络

略

B. 定点训练

低精度网络训练通常保持单精度或双精度浮点数权重，直到推理前再将其量化。由于采用的量化函数是分段且恒定的，可以计算量化权重的梯度来更新对应的全精度权重。一个可以减少前向和反向过程中的不匹配的量化函数对高准确率是至关重要的。可以使用权重共享进一步提高准确率，它包括选择一个通过码本来索引的有限全精度权重集。与权重均匀分布的传统定点量化不同，通常选择这些权重以匹配目标分布来减少信息损失。使用尽可能小的权重集可以减少索引字的大小，从而减小内存占用量。但是，权重共享通常不应用于FPGA中，因为权重映射过程会在电路的关键路径中引入额外的延迟，并需要额外的硬件。此外，高精度算术单元也占用更多面积。利用隐式权重共享，无需任何映射硬件即可减少系数存储。同时，我们的RCCM针对FPGA硬件进行了优化以减少面积消耗

C. 小型软核乘法器

由于低精度DNN的兴起，小型乘法器受到更多的关注。FPGA内置了乘法器，直接调用它们似乎很自然。可以在一个18位乘法器中同时执行两个8位乘法。如果内置乘法器不够，则可以使用基于逻辑的高效乘法器即软核乘法器。实现软核乘法器的最有效方式是使用Booth4编码并且在同一LUT中同时映射Booth编码和解码器，可以将资源占用减少50%。然而只在字长大于16时才好用，在小字长时Xilinx Coregen效果最好。我们优化的乘法器增加了更多约束，所以不再支持任意定点数。这是通过应用可重构乘法器的概念来实现的