使用線程實作GPU上的矢量求和
//**************使用線程實作GPU上的矢量求和**********//
/* 時間:2017-8-9
參考書:《GPU高性能程式設計CUDA實戰》 */
#include <iostream>
#include <stdio.h>
#define N 10
using namespace std;
__global__ void add(int *a,int *b,int *c);
int main()
{
int a[N],b[N],c[N];
int *dev_a,*dev_b,*dev_c;
//在GPU上配置設定記憶體
cudaMalloc((void**)&dev_a,N*sizeof(int));
cudaMalloc((void**)&dev_b,N*sizeof(int));
cudaMalloc((void**)&dev_c,N*sizeof(int));
//在CPU上為數組"a""b"指派
for(int i=0;i<N;i++)
{
a[i]=i;
b[i]=i*i;
}
//将數組“a”"b"複制到GPU
cudaMemcpy(dev_a,a,N*sizeof(int),cudaMemcpyHostToDevice);
cudaMemcpy(dev_b,b,N*sizeof(int),cudaMemcpyHostToDevice);
add<<< 1,N>>>(dev_a,dev_b,dev_c);
//将數組“c”從GPU指派到CPU
cudaMemcpy(c,dev_c,N*sizeof(int),cudaMemcpyDeviceToHost);
//顯示結果
for(int i=0;i<N;i++)
{
printf("%d + %d = %d\n",a[i],b[i],c[i]);
}
//釋放在GPU上配置設定的記憶體
cudaFree(dev_a);
cudaFree(dev_b);
cudaFree(dev_c);
return 0;
}
__global__ void add(int *a,int *b,int *c)
{
int tid=threadIdx.x;
if(tid<N)
{
c[tid]=a[tid]+b[tid];
}
}