關于DM8168中移植算法速度慢、效率低的新發現

2021-11-08 07:48:02

有不少的朋友，特别是剛剛接觸dsp的朋友。基于dvrrdk編寫c代碼發現執行速度特别慢，我在上面簡單的對每一個像素的uv分量指派=0x80，這樣就成了灰階圖像。對1080p圖像進行操作，發現處理每幀要耗時10-20ms，真是慢的不可思議。

近期将swosd的完整代碼看了一遍發現了玄機。

主要問題是在ddr中讀寫資料拖慢了速度。

經測試swosd進行一幀d1的疊加僅須要400us（疊加大小大概208*32*3個窗體）；

細緻分析。其内部使用了基于内部 ialg_daram0（雙通片上資料存儲）的乒乓緩存結構：

此函數為tms320 algorithm standard 即xdais中的 algalloc（）函數的實作。其傳回一個該算法所需的記憶體記錄表。（詳見spru360e）

在使用時：

然後内部将要處理的資料用dma複制到memlinebuf，并使用乒乓結構：

至于上面的代碼片段中目的位址 (void *)((uint32)plinebufa[0] + 0x30000000)中為什麼在plinebufa[0] 加了0x30000000還是沒有弄明确。請高人指點。

（由于dma是個外設，他看到的位址和dsp看到的位址是不一樣的。

之間有個0x30000000的偏移。

l2 sram address is 0x108_00000. the l3 address of c674 l2 sram address (gem umap0) is 0x408_0000 .the conversion is from 0x108_0000 to 0x408_0000 by adding 0x0300_0000. dont use 0x300_0000 .it will crash the system.）

本文眼下僅僅總結出了原因，至于實作正在嘗試。

歡迎交流溝通。

關于DM8168中移植算法速度慢、效率低的新發現

繼續閱讀

C代碼：一階二階多項式曲線拟合

透明網橋算法c++實作

RPG的天賦分支（左右兩支的貪心政策）

前端開發者務必知道的JavaScript技巧

Go 源碼解讀｜如何用好 errors 庫的 errors.Is() 與 errors.As() 方法

HDU 1252 : Hike on a Graph-

2017 Multi-University Training Contest - Team 5-Rikka with Subset

變量就是屎

C程式14 求日期

Oracle行轉列 pivot函數常見用法1.根據分類2.添加字尾（多個行轉列）3.單一多條件4.非單一複雜條件

五（五）、構造器 & JavaBean &this

CodeForces 343D Water Tree

5、繼承與派生3-類型相容規則

python3-基礎篇-01-變量

2017 Multi-University Training Contest - Team 4-hdu6073 Matching In Multiplication

安卓資料庫程式設計總結(1)