cuda by example

2013-09-10 15:00:00

int offset= x+y*dim

x 线程块内的线程索引

y 线程块索引

dim 线程块的维度

tid = threadIdx.x+blockIdx.x*blockDim.x

计算大于或等于128的最小倍数（127+x）/128

kernel<<<(x+127)/128,128>>>(a,b,c)

规约求和

int i= blockDim.x/2;
while(i != 0){
    if(cacheIndex < i)
        cache[cacheIndex] += cache[cacheIndex + i];
    __synthreads();
    i /= 2;
}

const int N = 33*1024
const int threadsperblock = 256;
const int blockpergrid = imin(32,(N+threadperblock-1)/threadsperblock);
 
kernel<<<blockpergrid,threadsperblock>>>(a,b,c);
 
__global__ static void kenel(int *a,int *b,int *c){
    ...
    int tid = threadIdx.x+blockIdx.x*blockDim.x;
    ...
    while(tid<N){
        ...
        tid += blockDim.x*gridDim.x;
        ...
    }
}

if(threadIdx.x % 2){
    ...
    __synthreads();
}

这会造成线程发散：

当某些线程需要执行一条指令，而其他线程不需要执行时，这种情况成为线程发散。

__synthreads会当所有的线程都执行后才释放，而有些线程如果不执行，那么kernel函数会无止境的等待。

作者：xingoo

cuda by example

继续阅读

【发布】App Store 预览视频制作总结知乎专栏：AppStore预览视频制作心得

Linux下分卷压缩较大的文件

软件测试作业2

解决pyinstaller打包exe出现selenium geckodriver黑窗口问题

为什么运放输入端串联一个隔直电容后输出没有波形？------关于隔直电路的简要理解前言一、常见的错误隔直电路二、正确的隔直电路

联想拯救者Y7000p拆机换压条(轴盖)

麦博FC330低音炮拆机图（简易版）

xml解析失败Invalid byte 1 of 1-byte UTF-8 sequence

2020年终总结和展望前言一、2020年终总结二、2021年展望

一场春雨，一个带着泥土芬芳的记忆

在DOS下运行不了ipconfig命令

开博一周年

MathType

【可靠性评估】电力系统可靠性评估matlab仿真1.软件版本2.本算法理论知识

在linux下安装GSL库以及在codeblocks上配置GSL库一在 linux 上安装 GSL 二在codeblocks 上按如下方式配置 GSL库：三测试程序

swmm与lisflood-fp源码如何一起编译 CMake命令