1.比較 LLaMA、ChatGLM、Falcon 等大語言模型的細節:tokenizer、位置編碼、Layer Normalization、激活函數等。2. 大語言模型的分布式訓練技術:資料并行、張量模型并行、流水線并行、3D 并行、零備援優化器 ZeRO、CPU 解除安裝技術 ZeRo-offload、混合精度訓練、激活重計算技術、Flash Attention、Paged Attention。3. 大語言模型的參數高效微調技術:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。
0. 大綱
1. 大語言模型的細節
1.0 transformer 與 LLM
1.1 模型結構
1.2 訓練目标
1.3 tokenizer
1.4 位置編碼
1.5 層歸一化
1.6 激活函數
1.7 Multi-query Attention 與 Grouped-query Attention
1.8 并行 transformer block
1.9 總結-訓練穩定性
2. LLM 的分布式預訓練
2.0 點對點通信與集體通信
2.1 資料并行
2.2 張量并行
2.3 流水線并行
2.4 3D 并行
2.5 混合精度訓練
2.6 激活重計算
2.7 ZeRO,零備援優化器
2.8 CPU-offload,ZeRO-offload
2.9 Flash Attention
2.10 vLLM: Paged Attention
3. LLM 的參數高效微調
3.0 為什麼進行參數高效微調?
3.1 prompt tuning
3.2 prefix tuning
3.3 adapter
3.4 LLaMA adapter
3.5 LoRA
3.6 實驗比較
4. 參考文獻
作者:spring
來源:微信公衆号:騰訊技術工程
出處:https://mp.weixin.qq.com/s/P1enjLqH-UWNy7uaIviWRA