主流大語言模型的技術原理細節

2023-09-12 21:47:00

1.比較 LLaMA、ChatGLM、Falcon 等大語言模型的細節：tokenizer、位置編碼、Layer Normalization、激活函數等。2. 大語言模型的分布式訓練技術：資料并行、張量模型并行、流水線并行、3D 并行、零備援優化器 ZeRO、CPU 解除安裝技術 ZeRo-offload、混合精度訓練、激活重計算技術、Flash Attention、Paged Attention。3. 大語言模型的參數高效微調技術：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大綱

1. 大語言模型的細節

1.0 transformer 與 LLM

1.1 模型結構

1.2 訓練目标

1.3 tokenizer

1.4 位置編碼

1.5 層歸一化

1.6 激活函數

1.7 Multi-query Attention 與 Grouped-query Attention

1.8 并行 transformer block

1.9 總結-訓練穩定性

2. LLM 的分布式預訓練

2.0 點對點通信與集體通信

2.1 資料并行

2.2 張量并行

2.3 流水線并行

2.4 3D 并行

2.5 混合精度訓練

2.6 激活重計算

2.7 ZeRO，零備援優化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的參數高效微調

3.0 為什麼進行參數高效微調？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 實驗比較

4. 參考文獻

作者:spring

來源:微信公衆号:騰訊技術工程

出處:https://mp.weixin.qq.com/s/P1enjLqH-UWNy7uaIviWRA

主流大語言模型的技術原理細節

0. 大綱

1. 大語言模型的細節

1.0 transformer 與 LLM

1.1 模型結構

1.2 訓練目标

1.3 tokenizer

1.4 位置編碼

1.5 層歸一化

1.6 激活函數

1.7 Multi-query Attention 與 Grouped-query Attention

1.8 并行 transformer block

1.9 總結-訓練穩定性

2. LLM 的分布式預訓練

2.0 點對點通信與集體通信

2.1 資料并行

2.2 張量并行

2.3 流水線并行

2.4 3D 并行

2.5 混合精度訓練

2.6 激活重計算

2.7 ZeRO，零備援優化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的參數高效微調

3.0 為什麼進行參數高效微調？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 實驗比較

繼續閱讀