
CUDA
-
- 0.0 騰訊雲CUDA環境搭建
- 1.0 并行計算與計算機架構
- 1.1 異構計算與CUDA
- 2.0 CUDA程式設計模型概述(一)
- 2.1 CUDA程式設計模型概述(二)
- 2.2 給核函數計時
- 2.3 組織并行線程
- 2.4 裝置資訊查詢
- 3.1 CUDA執行模型概述
- 3.2 了解線程束執行的本質(Part I)
- 3.2 了解線程束執行的本質(Part II)
- 3.3 并行性表現
- 3.4 避免分支分化
- 3.5 循環展開
- 3.6 動态并行
- 4.0 全局記憶體
- 4.1 記憶體模型概述
- 4.2 記憶體管理
- 4.3 記憶體通路模式
- 4.4 核函數可達到的帶寬
- 4.5 使用統一記憶體的向量加法
- 5.0 共享記憶體和常量記憶體
- 5.1 CUDA共享記憶體概述
- 5.2 共享記憶體的資料布局
- 5.3 減少全局記憶體通路
- 5.4 合并的全局記憶體通路
- 5.5 常量記憶體
- 5.6 線程束洗牌指令
- 6.0 流和并發
- 6.1 流和事件概述
- 6.2 并發核心執行
- 6.3 重疊核心執行和資料傳輸
- 6.4 重疊GPU和CPU的執行
- 6.5 流回調