《cuda并行程式設計》勘誤（2）

2023-08-07 21:08:08

注：本人代碼是對長度為1024的數組排序； block數量為1，threads數量為256

p135頁代碼應改為：

__device__ void merge_array(u32 *src,u32 *dest,u32 num_lists,u32 num_elements,u32 tid){
	u32 reduction_shift=3;
	u32 reduction_size=8;
	u32 per_list=num_elements/num_lists;
	u32 data=src[tid*per_list];
	u32 s_idx=tid>>reduction_shift;
	u32 num_reductions=num_lists/reduction_size;
	__shared__ u32 list_index[256];
	list_index[tid]=0;
	__shared__ u32 min_val[32];
	__shared__ u32 min_tid;
	for(u32 i=0;i<num_elements;i++){
		if(tid<num_lists){
			min_val[s_idx]=0xFFFFFFFF;
			min_tid=0xFFFFFFFF;
		}
		__syncthreads();
		atomicMin(&min_val[s_idx],data);
		if(num_reductions>0){
			__syncthreads();
			if(tid<num_reductions)
				atomicMin(&min_val[0],min_val[tid]);
			__syncthreads();
		}
		if(min_val[0]==data)
			atomicMin(&min_tid,tid);
		__syncthreads();
		if(tid==min_tid){
			list_index[tid]++;
			dest[i]=data;
			if(list_index[tid]<per_list)
				data=src[tid*per_list+list_index[tid]];
			else
				data=0xFFFFFFFF;
		}
		__syncthreads();
	}
}

（在gtx970上此代碼沒有純使用atomicMin（）（即不采用規約）的算法快，餘竊以為是因為在新的裝置上256個線程的線程競争規模能很好的處理，而此算法用到了多次線程同步，進而拖慢了速度）

《cuda并行程式設計》勘誤（2）

繼續閱讀

C語言第四章自述2第四章選擇結構程式設計

面試題:vector和map的差別，異同。空間分布，100萬資料存哪個比較合适。一、疊代器差別二、vector三、Map、Set四、vector_map 為什麼比map效率高五、如何選擇六、容器選擇原則七、效率對比

C++ 多線程用條件變量确定線程的執行順序而不是使用 sleep(1)

POJ 1284 Primitive Roots (歐拉函數&原根定理)

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

成員函數初始化清單

2021-08-13c++——類之操作符重載

swmm與lisflood-fp源碼如何一起編譯 CMake指令

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

一文看懂字元串的加減乘除

C++ 第十五周報告1--《冒泡法排序》

C++實作簡單順序表

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

線性表之順序表的實作

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述