近期，法國AI公司Mistral-AI再次成為業界焦點，他們開源了一款專家模型。本文将從三個方面解讀MoE混合專家模型，一起來看看吧。

最近，法國AI公司Mistral-AI再次成為業界焦點，他們又開源了一款專家模型——Mixtral 8x22B。這款模型能夠以更低的成本生成更好的效果，能做到這一點的關鍵在于，模型采用的SMoE（稀疏混合專家模型）技術。

此外，去年年底，半導體分析SemiAnalysis釋出了一篇GPT-4的技術報告，報告中特别提到OpenAI在GPT-4模型中內建了16個具有110億個參數的混合專家模型，這進一步證明了MoE技術在目前AI領域的重要地位和應用前景。

本篇文章講深入探讨：

什麼是混合專家模型（Mixture of Experts，MoE）？
它的關鍵構成要素是什麼？
MoE技術的優勢和面臨的挑戰有哪些？

一、什麼是MoE？

1. 回顧大模型的演進曆史

從處理單一文本資料的語言模型到現在能同時處理圖像和音頻資料的多模态大模型，我們可以把這個演變過程，想象成創業公司的發展過程。

2. 在公司初創時期，資源有限，團隊成員往往要身兼數職

一個人可能同時負責産品設計、程式設計開發，甚至還要處理市場推廣。

這種全能型的工作模式就像現在的大模型，什麼都懂一點，但是往往很難在各領域都有最優的表現。

随着公司的發展和團隊的擴充，引入了MoE（混合專家模型）這樣的工作政策，即設立多個專業團隊，每個團隊都專注于自己的領域。

設計團隊負責産品的外觀和使用者體驗，開發團隊專注于技術實作和功能開發，市場團隊則專注于推廣和銷售。

此時，每當啟動一個新項目時，産品經理會将項目拆分分為多個子任務，并将每個任務配置設定給最合适的專家團隊處理。這種方式不僅加快了項目完成的速度，也顯著提升了産品的品質。

MoE-混合專家模型 (Mixture of Experts)，就像一個組織完善的公司，由産品經理把複雜的問題拆解為多個子問題，然後根據每個問題的特點，配置設定給最擅長處理這類問題的“專家團隊”去解決。

二、MoE核心構成

MoE包含兩個關鍵子產品：路由器（Router）和專家（Experts）。

1. 路由器（Router）

路由器（Router），它的作用是拆解需求和配置設定需求，對使用者輸入的内容進行需求拆解，再将拆解後的内容配置設定給合适的“專家”進行處理。

路由器(router)的處理邏輯包括以下四步

評估輸入：路由器首先分析使用者輸入資料，識别主要特征，為後續的步驟奠定基礎
專家評分：接下來，路由器利用一個預先訓練好的門控網絡（Gating Network）對每個專家進行評分，來預測每個專家處理特定任務的适應性
選擇專家：根據上述評分，路由器會選擇最适合解決目前資料的專家組合
配置設定任務：最後，路由器将具體的任務明确配置設定給標明的專家

2. 專家（Expert）

專家（experts），在混合專家模型（MoE）中，每個‘專家’可以被視為一個獨立的小型神經網絡，專門設計用來學習和處理特定類型的任務。

這些專家各具特色，具有不同的專業技能。

某些專家可能專門擅長圖像識别，能夠精準地處理視覺資料；而另一些專家更專注于語言處理，擅長解析和生成文本。

專家（expert）的處理邏輯包括以下四步：

接收資料：被啟用的專家首先接收來自路由器的輸入資料
資料處理：專家利用其訓練的技能對接收到的資料進行分析和處理
輸出結果：處理完成後，專家會輸出對應的結果
整合輸出：不同專家的輸出結果将通過專門的網絡層（例如使用權重平均的方法）進行資料整合，彙總成一個統一且準确的最終輸出結果

三、MoE模型優勢與挑戰

1. MoE模型優勢

靈活性與擴充性：根據具體的模型應用場景和需求，可以靈活增減專家的數量，使其成為一個有多個專家模型的智能團。

好比在Coze中配置一個工作流，我們可以配置不同能力的Agent進行協同工作。

如果你對Coze的工作流配置感興趣，可以點選連結檢視教程：https://www.bilibili.com/video/BV1kr42137bb/

《【AI提效，創意釋放】使用Coze打造全能AI助理，免費使用GPT4、可內建多平台，全網最全的coze扣子使用教程｜附加深度解析Agent技術原理與開源項目》

計算效率更高與推理成本更低：前文提到的Mixtral 8x22B，采用SMoE（稀疏混合專家模型）中的“稀疏”特性，正是展現在模型具備選擇性配置設定任務的能力。這種設計允許模型僅利用一小部分的“專家”來處理特定的資料，進而提高計算效率，降低推理成本
專業化處理：在MoE模型中，每個專家都專注于自己擅長的領域，進行學習和持續優化。這一過程類似于高效的團隊合作，其中每個成員都利用自己的專長為團隊做出貢獻，共同應對複雜的項目

2. MoE模型挑戰

負載平衡：類似于一個班級中隻有幾個學生回答問題，而其他學生較少參與。在MoE模型中，如果某些“專家”頻繁被選中，會導緻訓練不均

解決方案：為了解決這個問題，可以引入“輔助損失函數（auxiliary loss）”來鼓勵均衡地選擇每個專家，確定訓練的公平性

記憶體問題：盡管MoE在推理階段可以僅激活部分“專家”來減少減少推理的計算資源，但是在訓練階段，模型中所有“專家”參數都需要加載到記憶體中，對計算資源的要求更高

解決方案：可以實施專家并行政策，将專家層分布在多個計算裝置上，以優化資源使用和降低單個裝置的負載

最後的話

MoE（混合專家模型）通過分解複雜問題并将其配置設定給特定的“專家模型”進行處理的政策，不僅顯著提高了計算效率和模型的拓展性，也優化了資源使用率、降低了計算成本，在MoE中，每個“專家“或“智能代理（Agent）”都負責處理他們擅長的特定領域，展現出AI的分工合作和高度專業化的強大潛能。

節日快樂，下篇再見🎉

參考文獻：

1、What is mixture of experts?

Link：https://www.ibm.com/topics/mixture-of-experts

2、Mixture of Experts Explained

Link：https://huggingface.co/blog/moe

3、Mixtral of Experts

Link：https://arxiv.org/pdf/2401.04088

作者：在野在也，公衆号：在野在也

本文由 @在野在也原創釋出于人人都是産品經理。未經作者許可，禁止轉載。

題圖來自Unsplash，基于CC0協定

該文觀點僅代表作者本人，人人都是産品經理平台僅提供資訊存儲空間服務。

最全解讀MoE混合專家模型：揭秘關鍵技術與挑戰

一、什麼是MoE？

1. 回顧大模型的演進曆史

2. 在公司初創時期，資源有限，團隊成員往往要身兼數職

二、MoE核心構成

1. 路由器（Router）

2. 專家（Expert）

三、MoE模型優勢與挑戰

1. MoE模型優勢

2. MoE模型挑戰

最後的話

繼續閱讀

HuggingFace教你怎樣做出SOTA視覺模型

國内外140+大模型、8萬+考題測評結果出爐！智源評測體系出品

70B模型秒出1000token，代碼重寫超越GPT4o，來自OpenAI參投團隊

電信日特稿 | AI與大模型：加速數字創新

電信日編輯選擇：數字創新促進可持續發展·大模型場景應用典型案例

文獻速遞丨開發和驗證整合多模态資訊的可解釋模型以改善卵巢癌的診斷

科學家提出新型調優方案，增強多模型在下遊多模态任務中的性能

福佑卡車首份ESG報告 “AI含量”提升，大模型等前沿技術表現亮眼

谷歌釋出全新更新大模型，對決OpenAI；星紀魅族釋出全新Flyme AIOS系統|科技一周

這些思維模型，照着練，越練越厲害！

人工智能向新而行，行業大模型推動新質生産力，賦能千行百業

美國拟封殺開源AI大模型出口，科技界震動！

大神李沐被曝離職！投身大模型創業，GitHub項目已開

火山引擎的汽車大模型開始爆發

“考古挖掘”、制作模型、鑒寶……今天，金山這裡好熱鬧！

海拔3200米的無影雲教室：雪山下的孩子遇見AI大模型