天天看點

主流大語言模型的技術原理細節

作者:閃念基因
1.比較 LLaMA、ChatGLM、Falcon 等大語言模型的細節:tokenizer、位置編碼、Layer Normalization、激活函數等。2. 大語言模型的分布式訓練技術:資料并行、張量模型并行、流水線并行、3D 并行、零備援優化器 ZeRO、CPU 解除安裝技術 ZeRo-offload、混合精度訓練、激活重計算技術、Flash Attention、Paged Attention。3. 大語言模型的參數高效微調技術:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大綱

主流大語言模型的技術原理細節

1. 大語言模型的細節

1.0 transformer 與 LLM

主流大語言模型的技術原理細節

1.1 模型結構

主流大語言模型的技術原理細節

1.2 訓練目标

主流大語言模型的技術原理細節

1.3 tokenizer

主流大語言模型的技術原理細節

1.4 位置編碼

主流大語言模型的技術原理細節

1.5 層歸一化

主流大語言模型的技術原理細節

1.6 激活函數

主流大語言模型的技術原理細節

1.7 Multi-query Attention 與 Grouped-query Attention

主流大語言模型的技術原理細節

1.8 并行 transformer block

主流大語言模型的技術原理細節

1.9 總結-訓練穩定性

主流大語言模型的技術原理細節

2. LLM 的分布式預訓練

主流大語言模型的技術原理細節

2.0 點對點通信與集體通信

主流大語言模型的技術原理細節

2.1 資料并行

主流大語言模型的技術原理細節

2.2 張量并行

主流大語言模型的技術原理細節
主流大語言模型的技術原理細節

2.3 流水線并行

主流大語言模型的技術原理細節

2.4 3D 并行

主流大語言模型的技術原理細節

2.5 混合精度訓練

主流大語言模型的技術原理細節

2.6 激活重計算

主流大語言模型的技術原理細節

2.7 ZeRO,零備援優化器

主流大語言模型的技術原理細節

2.8 CPU-offload,ZeRO-offload

主流大語言模型的技術原理細節

2.9 Flash Attention

主流大語言模型的技術原理細節

2.10 vLLM: Paged Attention

主流大語言模型的技術原理細節

3. LLM 的參數高效微調

3.0 為什麼進行參數高效微調?

主流大語言模型的技術原理細節

3.1 prompt tuning

主流大語言模型的技術原理細節

3.2 prefix tuning

3.3 adapter

主流大語言模型的技術原理細節

3.4 LLaMA adapter

主流大語言模型的技術原理細節

3.5 LoRA

主流大語言模型的技術原理細節

3.6 實驗比較

主流大語言模型的技術原理細節

4. 參考文獻

主流大語言模型的技術原理細節

作者:spring

來源:微信公衆号:騰訊技術工程

出處:https://mp.weixin.qq.com/s/P1enjLqH-UWNy7uaIviWRA

繼續閱讀