天天看點

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

作者:架構思考

大綱

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

一、大語言模型的細節

transformer 與 LLM

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.1 模型結構

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.2 訓練目标

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.3 tokenizer

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.4 位置編碼

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.5 層歸一化

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.6 激活函數

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.7 Multi-query Attention 與 Grouped-query Attention

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.8 并行 transformer block

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

1.9 總結-訓練穩定性

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

二、LLM 的分布式預訓練

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

點對點通信與集體通信

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.1 資料并行

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.2 張量并行

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享
「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.3 流水線并行

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.4 3D 并行

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.5 混合精度訓練

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.6 激活重計算

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.7 ZeRO,零備援優化器

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.8 CPU-offload,ZeRO-offload

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.9 Flash Attention

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

2.10 vLLM: Paged Attention

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

三、LLM 的參數高效微調

為什麼進行參數高效微調?

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

3.1 prompt tuning

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

3.2 prefix tuning

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

3.3 adapter

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

3.4 LLaMA adapter

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

3.5 LoRA

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

3.6 實驗比較

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

繼續閱讀