VectorSparse 方法

在神經網絡中，稀疏剪枝很常見，但是GPU的Tensor Core主要是面向密集矩陣乘優化的，對于稀疏矩陣的優化還不夠

本篇論文的主要貢獻：

為什麼稀疏矩陣在GPU上性能不足夠好呢

如何解決負載不均勻的問題呢？

将權重矩陣拆分成不同的向量，并在剪枝的時候強行要求每個向量的稀疏度相同

文獻閱讀（301）稀疏矩陣乘VectorSparse 方法Outer Product方法row-wise product方法

在矩陣運算過程中，我們假設是稀疏矩陣乘密集矩陣，對于C的每一行，都是稀疏向量乘以密集矩陣的結果，而對于一個稀疏向量，隻有個别元素是非零的，隻需要和密集矩陣的對應行相乘即可。

對于下圖，A矩陣的第一行隻有A11和A16是非零的，那麼隻需要A11乘以B的第1行加上A16乘以B的第6行就是C的第一行結果

文獻閱讀（301）稀疏矩陣乘VectorSparse 方法Outer Product方法row-wise product方法

Outer Product方法

傳統的矩陣乘都是乘累加，本質上是輸出不變，輸出複用度較高；這裡換一種方式，先計算得到多個部分和矩陣，再将部分和矩陣對應相乘即可，這樣做的好處是輸入矩陣A的複用度較高

文獻閱讀（301）稀疏矩陣乘VectorSparse 方法Outer Product方法row-wise product方法

題目：MatRaptor: A Sparse-Sparse Matrix Multiplication Accelerator Based on Row-Wise Product
時間：2020
會議：MICRO
研究機構：康奈爾大學

本篇論文的主要貢獻：

所有的稀疏矩陣乘可以分成四種不同的資料流：

文獻閱讀（301）稀疏矩陣乘VectorSparse 方法Outer Product方法row-wise product方法