OpenCL 學習step by step (11) 數組求和(reduction)

2021-11-17 01:38:51

本篇教程中，我們學習一下如何用opencl有效實作數組求和，也就是通常所說的reduction問題。

在程式中，我們設定workgroup size為256，kernel的輸入、輸出緩沖參數都用uint4的格式，這樣我們原始求和的數組大小為256*4的倍數，資料類型為uint。我們設定每個workgroup處理處理512個uint4，即2048個uint

為了簡便期間，我們輸出數組長度定為4096，即需要2個workgruop來處理。

kernel代碼如下：

__kernel void reduce(__global uint4* input, __global uint4* output, __local uint4* sdata)

{

// 把資料裝入lds

unsigned int tid = get_local_id(0);

unsigned int bid = get_group_id(0);

unsigned int gid = get_global_id(0);

unsigned int localSize = get_local_size(0);

unsigned int stride = gid * 2;

sdata[tid] = input[stride] + input[stride + 1];

barrier(CLK_LOCAL_MEM_FENCE);

// 在lds中進行reduction操作，得到數組求和的結果

for(unsigned int s = localSize >> 1; s > 0; s >>= 1)

{

if(tid < s)

{

sdata[tid] += sdata[tid + s];

}

barrier(CLK_LOCAL_MEM_FENCE);

}

// 把一個workgroup計算的結果輸出到輸出緩沖，是一個uint4，還需要在host端再進行一次reduction過程

if(tid == 0) output[bid] = sdata[0];

}

在程式中，global和local的NDRange，我們都用一維的形式。下面以圖的方式看下kernel代碼是如何執行的：

OpenCL 學習step by step (11) 數組求和(reduction)

對第一個workgroup中的第一個thread的來說，它首先進行一次reduction操作，把兩個uint4相加，放到lds(shared memory)中，然後再在lds中進行reduction操作，此時要從global memory中取資料，可以看出連續的thread通路連續的global memory，這時可以利用合并讀寫。

申請的shared memory大小為groupsize*sizeof(uint4)，相加後uint4放入32bank的lds中，放置的方式應該是如下圖所示，因為放入的是uint4，是以會放入連續的4個bank中(每個bank都是dword寬)，可見隻能同時有8個thread通路lds，是以會有一定程式的bank conflit。從App profiler session，我們可以看到：

接下來，kernel會通過一個for循環疊代執行reduction操作，求得一個workgroup中的uint4的和。

疊代的第一次s=128,這時會執行如下圖的兩兩相加，workgroup中同時執行的thread為128,thread local id大于等于128的線程都不會做什麼事情，在每個循環的末尾，有一個barrier來同步所有thread，以便所有thread都完成這次循環後再進入下一次循環。

第二次疊代的時候，隻剩下前面128個uint4，workgroup中同時執行的thread為64。最後，當s=1時候，完成疊代reduction操作，然後把thread0（第一個thread)的結果輸出。

在host段，我們還要做一次相加操作，把不同workgroup得到的uint4，拆分成uint，并相加求得最終的結果。

//在cpu reduction各個workgroup的結果以及uint4分量 reduction

output = 0;

for(int i = 0; i < numBlocks * VECTOR_SIZE; ++i)

output += outMapPtr[i];

printf("gpu reduction result:%d\n", output);

if(refOutput==output) printf("passed\n");

程式執行後結果如下：

完整的代碼請參考：

工程檔案gclTutorial11

代碼下載下傳：

稍後提供

OpenCL 學習step by step (11) 數組求和(reduction)

繼續閱讀

OpenCL 通用程式設計與優化（17）

CUDA最佳實踐（二）5. 得到正解6. 性能度量（Performance Metrics）

複雜場景挑戰下，晶片制造商解決企業算力難題的新姿勢

果然，這個馬雲身後最神秘之人回歸後，阿裡雲傳出炸裂消息！科技界傳出重磅消息，中國高校最大的雲上科研智算平台CFFF在複旦

[OpenCL]關于CL_KERNEL_GLOBAL_WORK_SIZE

OpenCL:簡介 https://www.cnblogs.com/wangshide/archive/2012/01/07/2315830.htmlOpenCL:一種異構計算架構目錄1 摘要2 為什麼需要OpenCL？3 OpenCL架構4 基于OpenCL的程式設計示例

OpenCL程式設計：編譯程式

nvidia——cuda初探

咱們是不是該感謝老美卡[奸笑]脖子？它這一卡，硬是将OpenEuler逼進了伺服器作業系統全球第一陣營，也把OpenEu

Opencl 之bilateral filter優化

中科馭數正式加入openEuler社群，共建多樣性計算生态

opencv學習筆記（1）-opencv安裝

并行計算系統的異構并行有多少種呢？異構計算中引擎并行計算系統的異構并行有多少種呢？GPU、FPGA、DSA、ASIC等引

Vulkan demo運作

AM5728 Opencl 案例彙總：實作sobel算法，計算向量和，矩陣轉置

AMD-SDK的學習[1]--AdvancedConvolution