基于CPU訪存局部性原理下的矩陣乘法實作

2021-11-07 10:41:12

　　細看一番就會發現這兩種實作語義是等價的，但是後者的實際運作效率卻比前者高。

　　那為什麼會如此呢？

　　那是因為CPU讀資料時，并不是直接通路記憶體，而是先檢視緩存中是否有資料，有的話直接從緩存讀取。而從緩存讀取資料比從記憶體讀資料快很多。

　　當資料不在緩存中時，CPU會将包含資料在内的一個資料塊讀到緩存，如果程式具有良好空間局部性，那麼第一次cache miss後，之後的幾次資料通路就可以直接在緩存中完成。除了空間局部性（程式傾向于引用與目前資料鄰近的資料）之外，還有時間局部性（程式傾向于引用最近被引用過的資料）。

回到矩陣乘法。（我們隻考慮内循環）

　　前者對矩陣A，有良好的空間局部性，假設一次能緩存四個元素，則每次疊代對于A隻有0.25次miss，但是對于B，則不然，是以B是按列通路的，每次通路都會miss，是以每次疊代總的miss數是1.25。後者對于矩陣C和矩陣B都有良好的局部性，每次疊代都隻有0.25詞miss，是以總的miss數是0.5。後者每次疊代多了一次存儲（對C[i][j]寫入），但是即便如此，後者的運作效率也比前者高。

　　總而言之，要想程式跑得快，就要在程式中多利用局部性，讓緩存hold住你的資料，減少訪存次數。要知道CPU可以在3個時鐘周期内通路到L1 cache，10個時鐘周期左右的時間通路到L2 cache。通路記憶體卻要上百個時鐘周期，孰快孰慢，很清楚了吧？

基于CPU訪存局部性原理下的矩陣乘法實作

繼續閱讀

PAT (Advanced Level) Practise 1012 The Best Rank (25)

mysql5.7的sql優化

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

【FPGA實作GA】基于FPGA的GA優化算法的設計與實作

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

《2020失業潮，普通人能否出奇制勝？》筆記

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

詳解STM32單片機的堆棧