項目優化之：GPU程式設計

2021-11-08 10:33:43

1gpu程式設計，依賴于顯示卡

2gpu變成依賴于opengl和direct

3cpu的特點是：頻率比較快，gpu的特點是寄存器非常非常的多。

4如果電腦是windows7，沒法直接調試gpu。window8可以直接調試

5用vs2013建立一個項目，命名：gpu

6調試gpu的方式是vs中的：打斷點—>運作項目à調試à視窗àgpu線程（通過這種方式實作調試gpu項目）

8.修改項目屬性：右擊項目à屬性à配置屬性à正常，修改調試器類型為僅gpu

修改amp預設快捷鍵可以選擇時時（use

c++ amp runtime default）的方式，也可以使用軟體加速器（warpsoftware accelerator）的方式,截圖

9.代碼：

#include

<amp.h>

//gpu程式設計所需的頭檔案

using

namespace

concurrency;

int

main()

{

v[11] = {

'g',

'd',

'k',

'n', 31,

'v',

'n',

'q',

'c' };

array_view<int>

av(11,

v);//array_view是gpu計算結構，av存儲到gpu顯存

//=表示直接操作av

//(index<1> idx)操作每一個元素

//restrict(amp)定位gpu執行

parallel_for_each(av.extent,

[=](index<1>

idx)

restrict(amp)

av[idx]

+= 1;//加完後變成了hello world

});

for (unsigned

i = 0;

i < 11;

i++)

std::cout

<< static_cast<char>(av[i]);

}

std::cin.get();

return 0;

10.cpu,gpu單值計算效率測試

案例：

<amp.h>

<winbase.h>

#define

count 100000

float

nickname_gpu[count];

nickname_cpu[count];

//gpu并行計算比較占有優勢，restrict(amp)：限制使用gpu程式設計

double

rungpu(int

num)

temp = 0;

for (int

i <

num;

temp +=

return

temp;

//cpu處理單值計算比較有優勢,單點計算比較有優勢，隻能在gpu内部執行

runcpu(int

restrict(cpu)

//這是對一個數進行操作

//限制使用gpu或cpu運作

runcpugpu(int

restrict(amp,

cpu)

//測試單值計算的運作效率

large_integer

freq;

strt;

ed;

queryperformancefrequency(&freq);

queryperformancecounter(&strt);

dx[1] = { 0.0 };

double

db = 0.0;

concurrency::array_view<double>

myview(1,

dx);

parallel_for_each(myview.extent,

[=](concurrency::index<1>

myview[idx]

+= rungpu(1000000);

myview.synchronize();//顯式等待gpu計算完成并将資料打回記憶體

printf("%f\n",

dx[0]);

queryperformancecounter(&ed);

printf("gpu耗時:

%d 毫秒\r\n", (ed.quadpart

- strt.quadpart)

* 1000 / freq.quadpart);

runcpu(1000000));

printf("cpu耗時:

puts("測試結束");

getchar();

運作結果：

案例2：

count 3000

double temp = 0;

temp += i;

return temp;

large_integer freq;

large_integer strt;

large_integer ed;

concurrency::array_view<float>

myview(count,

nickname_gpu);

//将資料打入顯存

concurrency::parallel_for_each(myview.extent,

count / 10;

myview[idx] = (myview[idx]

+ 0.1f) / 2.3f;

myview.synchronize();//顯式等待gpu計算完成并将資料打回記憶體

- strt.quadpart) * 1000 / freq.quadpart);

idx = 0; idx <

count; idx++)

nickname_cpu[idx] = (nickname_cpu[idx]

+ 0.1f) /2.3f;

if (nickname_cpu[idx]

!= nickname_gpu[idx])

puts("cpu和gpu的計算結果不相符！");

項目優化之：GPU程式設計

繼續閱讀

成員函數初始化清單

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

2021-08-13c++——類之操作符重載

HBuilder開發App Step1——環境搭建，HelloMUI 以及真機調試

swmm與lisflood-fp源碼如何一起編譯 CMake指令

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

一文看懂字元串的加減乘除

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

C++ 第十五周報告1--《冒泡法排序》

[轉]iOS微信小視訊優化心得

C++實作簡單順序表

android 主線程的相關問題

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

線性表之順序表的實作

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述