cuda by example

2013-09-10 15:00:00

int offset= x+y*dim

x 線程塊内的線程索引

y 線程塊索引

dim 線程塊的次元

tid = threadIdx.x+blockIdx.x*blockDim.x

計算大于或等于128的最小倍數（127+x）/128

kernel<<<(x+127)/128,128>>>(a,b,c)

規約求和

int i= blockDim.x/2;
while(i != 0){
    if(cacheIndex < i)
        cache[cacheIndex] += cache[cacheIndex + i];
    __synthreads();
    i /= 2;
}

const int N = 33*1024
const int threadsperblock = 256;
const int blockpergrid = imin(32,(N+threadperblock-1)/threadsperblock);
 
kernel<<<blockpergrid,threadsperblock>>>(a,b,c);
 
__global__ static void kenel(int *a,int *b,int *c){
    ...
    int tid = threadIdx.x+blockIdx.x*blockDim.x;
    ...
    while(tid<N){
        ...
        tid += blockDim.x*gridDim.x;
        ...
    }
}

if(threadIdx.x % 2){
    ...
    __synthreads();
}

這會造成線程發散：

當某些線程需要執行一條指令，而其他線程不需要執行時，這種情況成為線程發散。

__synthreads會當所有的線程都執行後才釋放，而有些線程如果不執行，那麼kernel函數會無止境的等待。

作者：xingoo

cuda by example

繼續閱讀

【釋出】App Store 預覽視訊制作總結知乎專欄：AppStore預覽視訊制作心得

Linux下分卷壓縮較大的檔案

軟體測試作業2

解決pyinstaller打包exe出現selenium geckodriver黑視窗問題

為什麼運放輸入端串聯一個隔直電容後輸出沒有波形？------關于隔直電路的簡要了解前言一、常見的錯誤隔直電路二、正确的隔直電路

聯想拯救者Y7000p拆機換壓條(軸蓋)

麥博FC330低音炮拆機圖（簡易版）

xml解析失敗Invalid byte 1 of 1-byte UTF-8 sequence

2020年終總結和展望前言一、2020年終總結二、2021年展望

一場春雨，一個帶着泥土芬芳的記憶

在DOS下運作不了ipconfig指令

開博一周年

MathType

【可靠性評估】電力系統可靠性評估matlab仿真1.軟體版本2.本算法理論知識

在linux下安裝GSL庫以及在codeblocks上配置GSL庫一在 linux 上安裝 GSL 二在codeblocks 上按如下方式配置 GSL庫：三測試程式

swmm與lisflood-fp源碼如何一起編譯 CMake指令