「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

作者：架構思考 2023-09-14 15:20:00

大綱

一、大語言模型的細節

transformer 與 LLM

1.1 模型結構

1.2 訓練目标

1.3 tokenizer

1.4 位置編碼

1.5 層歸一化

1.6 激活函數

1.7 Multi-query Attention 與 Grouped-query Attention

1.8 并行 transformer block

1.9 總結-訓練穩定性

二、LLM 的分布式預訓練

點對點通信與集體通信

2.1 資料并行

2.2 張量并行

2.3 流水線并行

2.4 3D 并行

2.5 混合精度訓練

2.6 激活重計算

2.7 ZeRO，零備援優化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

三、LLM 的參數高效微調

為什麼進行參數高效微調？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 實驗比較

「人工智能」不可錯過的主流大語言模型的技術原理細節圖文分享

大綱

一、大語言模型的細節

二、LLM 的分布式預訓練

繼續閱讀

日媒觀察：中國雲服務提供商仍在等待人工智能的雨露滋潤

人工智能向新而行，行業大模型推動新質生産力，賦能千行百業

人工智能助手感悟親情：孫衛東博士的孤獨流浪與家庭紐帶之重要性

人工智能與外星文明，人類未來的兩個威脅，哪個會先到來？

以色列上校将中國做為假想敵，提醒防範中國的人工智能網絡攻擊

《我是領袖》AI人工智能探索未來

抓住人工智能這個“牛鼻子”，加快培育發展新質生産力

觀點｜人工智能時代博物館如何緻力于教育和研究

人工智能發展如何影響勞動力就業

2024 年十大人工智能晶片制造公司

人工智能的原理是什麼？

馬斯克：給我特斯拉25%股份，否則剝離人工智能和機器人技術

中科彙聯2024第五屆科創彙聯人工智能發展高峰論壇在京圓滿落幕

科技巨頭積極布局AI領域！微軟将召開年度開發者大會，或透露人工智能PC計劃

醫學人工智能向“新”而行

李開複：預測到2027年人工智能将取代50%的工作