《GPU高性能程式設計CUDA實戰》—— 《筆記一》——使用線程實作GPU上的矢量求和

2023-06-24 14:09:41

使用線程實作GPU上的矢量求和

//**************使用線程實作GPU上的矢量求和**********//
/* 				時間：2017-8-9
				參考書：《GPU高性能程式設計CUDA實戰》	*/
#include <iostream>
#include <stdio.h>

#define N 10

using namespace std;

__global__ void add(int *a,int *b,int *c);

int main()
{
	int a[N],b[N],c[N];
	int *dev_a,*dev_b,*dev_c;

	//在GPU上配置設定記憶體
	cudaMalloc((void**)&dev_a,N*sizeof(int));
	cudaMalloc((void**)&dev_b,N*sizeof(int));
	cudaMalloc((void**)&dev_c,N*sizeof(int));

	//在CPU上為數組"a""b"指派
	for(int i=0;i<N;i++)
	{
		a[i]=i;
		b[i]=i*i;
	}

	//将數組“a”"b"複制到GPU
	cudaMemcpy(dev_a,a,N*sizeof(int),cudaMemcpyHostToDevice);
	cudaMemcpy(dev_b,b,N*sizeof(int),cudaMemcpyHostToDevice);

	add<<< 1,N>>>(dev_a,dev_b,dev_c);

	//将數組“c”從GPU指派到CPU
	cudaMemcpy(c,dev_c,N*sizeof(int),cudaMemcpyDeviceToHost);

	//顯示結果
	for(int i=0;i<N;i++)
	{
		printf("%d + %d = %d\n",a[i],b[i],c[i]);
	}

	//釋放在GPU上配置設定的記憶體
	cudaFree(dev_a);
	cudaFree(dev_b);
	cudaFree(dev_c);

	return 0;
}

__global__ void add(int *a,int *b,int *c)
{
	int tid=threadIdx.x;
	if(tid<N)
	{
		c[tid]=a[tid]+b[tid];
	}
}

《GPU高性能程式設計CUDA實戰》—— 《筆記一》——使用線程實作GPU上的矢量求和

繼續閱讀

CUDA實作矩陣複制

以cufftPlanMany為例FFT變換中embed,stride,dist的解釋與設定

18.CUDA程式設計手冊中文版---附錄N CUDA的統一記憶體附錄N CUDA的統一記憶體

GPU高性能程式設計 CUDA實戰 (二) CUDA C 簡介

CUDA程式設計——Mars：MapReduce on GPU

GPU之CUDA 第一彈

CUDA和LAPACK混編的MakeFile檔案

[菜鳥每天來段CUDA_C]向量相加的CUDA實作和順序執行比較

[菜鳥每天來段CUDA_C] 利用頁鎖定記憶體提高運算效率

[菜鳥每天來段CUDA_C]基于GPU的Julia集

[菜鳥每天來段CUDA_C]使用多個CUDA流提高程式執行效率

[菜鳥每天來段CUDA_C]GPU實作水波動畫效果

[菜鳥每天來段CUDA_C]CppIntegration在C++程式中引用CUDA程式

[菜鳥每天來段CUDA_C]GPU上通過常量記憶體實作光線跟蹤

CUDA學習筆記（LESSON5）——GPU優化CUDA系列筆記GPU優化