清華劉知遠：大模型“十問”，尋找新範式下的研究方向

來源：智源社群

作者：劉知遠

整理：李夢佳

大模型的出現迎來了AI研究的新時代，其所帶來的結果提升十分顯著，超越了很多領域中針對研究問題設計特定算法實作的提升。

具體而言，預訓練到Finetune的新範式最本質的特點是統一架構以及統一模型。首先，更加統一的架構，在預訓練出現之前，CNN、RNN、Gate、Attention等在内的算法架構層出不窮。2017年 Transformer出現之後，取代各種流行架構的是一個統一架構。其次，這種統一架構通過預訓練機制帶來了統一的模型，因而我們現在可以用一個統一模型進行微調，使其同時用在非常多的下遊任務上。

那麼，在大模型時代有哪些新問題亟待關注和探索？

由此，我想和大家分享一下十個值得深入探索的問題。希望有更多研究者在大模型時代找到自己的研究方向。

問題如下：

1、理論：大模型的基礎理論是什麼？

2、架構：Transformer是終極架構嗎？

3、能效：如何使大模型更加高效？

4、适配：大模型如何适配到下遊任務？

5、可控性：如何實作大模型的可控生成？

6、安全性：如何改善大模型中的安全倫理問題？

7、認知：如何使大模型獲得進階認知能力？

8、應用：大模型有哪些創新應用？

9、評估：如何評估大模型的性能？

10、易用性：如何降低大模型的使用門檻？

01 理論：大模型的基礎理論是什麼？

首先，我認為在大模型當中第一個非常重要的問題就是它的基礎理論問題。大模型的一個非常重要的特點就是可以利用非常少的下遊任務資料進行相關下遊任務的适配，無論是全量下遊任務的訓練資料還是few-shot learning，甚至zero-shot learning，都能達到相當不錯的效果。同時在預訓練到下遊任務适配過程當中，需要要調整的參數量可以非常少，這兩個特點都是大模型給我們帶來的新現象。

針對這個現象我們有非常多的問題可以去問：

第一，What——大模型到底是什麼？我們應該有什麼樣比較好的數學或者分析工具對大模型進行定量分析或者理論分析，這本身就是一個非常重要的問題。

第二，How——大模型為什麼好？大模型是如何做到這一點的？Pre-training和Fine-tuning是如何關聯在一起的？以及大模型到底學到了什麼？這些是How的問題。

最後，Why——大模型為什麼會學得很好？這方面已經有一些非常重要的研究理論，包括過參數化等理論，但終極理論架構的面紗仍然沒有被揭開。面向這三個方面，即What、How和Why，大模型時代有着非常多值得探索的理論問題。

02 架構：Transformer是終極架構嗎？

第二個問題，目前大模型使用的主流基礎架構，Transformer的提出距離我們已經有5年的時間（2017年提出）。我們看到，随着模型規模的不斷增長，性能提升也逐漸出現邊際效益遞減的情況，那麼Transformer是不是終極架構呢？有沒有可能會找到比Transformer更好更高效的架構？這也是一個值得探索的問題。

神經網絡本身是受到了神經科學的啟發，我們可以通過其他學科的支援去探索下一代大模型架構。其中來自數學學科的啟發包括，非歐空間Manifold的架構，以及如何将一些幾何先驗放到模型裡，這些都是最近比較新的研究方向。

我們還可以從工程和實體角度去考慮這個問題，比如State Space Model，以及動态系統的角度去考慮等等；第三個方面來自于神經科學，面向類腦最近一直有人在研究Spiking Neural Network，上述這些都是新型架構的前沿研究。到底下一代大模型架構是什麼？還沒有一個标準答案，這本身就是一個亟待探索的問題。

03 能效：如何使大模型更加高效？

第三個問題，大模型的性能問題。随着大模型越變越大，對計算和存儲成本的消耗自然也越來越大。最近有人提出GreenAI的概念，即需要考慮計算能耗的情況來綜合設計和訓練人工智能模型。面向這個問題，我們認為，随着模型變大，AI會越來越需要跟計算機系統進行結合，進而提出一個更高效面向大模型的支援體系。一方面，我們需要去建設更加高效分布式訓練的算法，在這方面國内外都有非常多的相關探索，包括國際上比較有名的DeepSpeed 以及悟道團隊在開發的一些加速算法。

另一個方面，大模型一旦訓練好去使用時，模型的「大」會讓推理過程變得十分緩慢，是以另外一個前沿方向就是如何高效将模型進行盡可能的壓縮，在加速推理的同時保持它的效果。這方面的主要技術路線包括剪枝、蒸餾、量化等等。同時最近我們發現，大模型裡面具有非常強的稀疏發放的現象，這對于模型的高效壓縮和計算有着非常大的幫助，這方面需要一些專門算法的支援。

04 适配：大模型如何适配到下遊任務？

第四個問題，大模型一旦訓好之後如何适配到下遊的任務？模型越大，在已知任務上效果越好，同時也展現出支援未定義過的複雜任務的潛力。同時我們會發現随着大模型變得越來越大，适配到下遊任務的計算和存儲開銷會顯著增大。大家看我們統計結果從2020年到2021年頂會上的論文，你會發現越來越多的論文在使用預訓練模型，但是真正去使用大模型的論文還是處在非常低的水準。

非常重要的原因就在于即使全世界已經開源了非常多的大模型，但是對于很多研究機構來講，他們其實還是沒有辦法很好把大模型适配到下遊任務上，這方面是大模型一個非常重要的研究前沿，一個非常重要的方向其實就是剛才唐傑老師有提到的Prompt Tuning，通過把下遊任務形式更改成一個跟預訓練過程中所謂masked language model相似的形式，讓适配過程變得更加平滑和容易。

另外非常重要的一個前沿其實就是parameter-effcient learning或者Delta Tuning，基本思想就是隻去調整大模型裡非常小的一些參數，進而讓這個模型非常快的适配到下遊任務，會讓适配過程不會變得那麼困難，這方面是我們認為如何去把大模型快速适配到下遊任務的關鍵問題，這是一個非常前沿的方向。剛才唐老師提到，我們其實開源了兩個工具包括OpenPrompt和OpenDelta來支援這個方面的快速研究，也是歡迎大家使用、相關意見和建議甚至可以貢獻。

05 可控性：如何實作大模型的可控生成？

第五個問題，大模型的可控生成。目前大模型已經可以生成一些新的文本或圖像，但如何精确地将我們想要的條件或者限制加入到生成過程中，這是大模型非常重要的研究方向。

這個方向也有很多技術方案，其中包括唐老師提到的思路，把一些prompt加入進來，讓生成的過程接受我們提供的條件。

這方面也有一些開放性問題，比如如何建立一個統一的可控生成架構，如何實作比較好的評測方法，對生成的文本進行概念性甚至事實性的自洽檢測，以及如何針對新的資料進行相關的生成。

06 安全性：如何改善大模型中的安全倫理問題？

第六個問題，現在的大模型本身在安全倫理方面考慮的比較少。實際上會容易出現大模型被攻擊的情況，可能稍微改一改輸入就不work。另外，大模型的使用過程也會存在一定的倫理問題，這些問題都需要我們對大模型進行有針對性的限制。

在這個方面，包括黃民烈老師等團隊也在開展一些工作，我們發現大模型特别容易被有意識地植入一些後門（backdoor），進而讓大模型專門在某些特定場景下做出特定響應，這是非常重要的安全性問題。

另外，此前的研究表明模型越變越大之後，會變得越來越有偏見，越來越不值得被信任，這種信任度降低的趨勢就是我們需要探索的問題。

07 認知：如何使大模型獲得進階認知能力？

第七個問題，人的進階認知能力是否可以讓大模型學到？能不能讓大模型像人一樣完成一些任務？人去完成任務一般會進行幾個方面的工作：一，我們會把這項任務嘗試拆分成若幹個簡單任務，第二，針對這些任務去做一些相關資訊的擷取，最後我們會進行所謂的進階推理，進而完成更加複雜的任務。

這也是一個非常值得探索的前沿方向，在國際上有WebGPT等方法的嘗試已經開始讓大模型學會使用搜尋引擎等等。我們甚至會問，可不可以讓大模型學會像人一樣網上沖浪，去有針對性地擷取一些相關資訊，進而完成任務。

08 應用：大模型有哪些創新應用？

第八個問題，大模型在衆多領域的創新應用。近年來《Nature》封面文章已經出現了五花八門的各種應用，大模型也開始在這當中扮演至關重要的角色。這方面一個耳熟能詳的工作就是AlphaFold，對整個蛋白質結構預測産生了天翻地覆的影響。

未來在這個方向上，關鍵問題就是如何将領域知識加入AI擅長的大規模資料模組化以及大模型生成過程中，這是利用大模型進行創新應用的重要命題。

09 評估：如何評估大模型的性能？

第九個問題，大模型建得越來越大，結構種類、資料源種類、訓練目标種類也越來越多，這些模型的性能提升到底有多少？在哪些方面我們仍需努力？有關大模型性能評價的問題，我們需要一個科學的标準去判斷大模型的長處和不足，在這方面智源也有相應的努力，是以我們提出了「智源指數」的概念。

10 易用性：如何降低大模型的使用門檻？

最後，我們認為大模型已經在統一架構和統一模型支援下展現出非常強大的實力，未來有希望廣泛應用在各種各樣的場景中。而為了更廣泛的應用，需要解決的問題是如何降低它的使用門檻。在這方面，我們應該受到曆史上資料庫系統以及大資料分析系統的啟發，需要建構大模型的系統，并在底層相關計算裝置、系統的支援、使用者接口以及應用普世性等方面進行統一的考量。

在這方面，在清華大學和智源研究院支援下，我們最近在開發一套面向大模型的支援系統，在訓練、微調、推理到後處理等各個方面都能提供全流程的高效計算支援，該系統預計将在3月底正式釋出。現在個别套件已經可以在網上擷取，歡迎大家利用大模型系統，更好地遨遊在大模型的時代，做出前沿的探索和應用。

總結來看，上述十個問題是我認為非常重要值得探索的方向，希望更多同學、更多研究者在大模型的時代去發現值得研究的問題。這是一個全新的時代，有些老的問題消失了，也有更多新的問題出現，期待我們一起去探索它們。

清華劉知遠：大模型“十問”，尋找新範式下的研究方向

繼續閱讀

人工智能驅動的“深度醫學”正在變革目前醫療保健實踐

日媒觀察：中國雲服務提供商仍在等待人工智能的雨露滋潤

人工智能向新而行，行業大模型推動新質生産力，賦能千行百業

人工智能助手感悟親情：孫衛東博士的孤獨流浪與家庭紐帶之重要性

人工智能與外星文明，人類未來的兩個威脅，哪個會先到來？

以色列上校将中國做為假想敵，提醒防範中國的人工智能網絡攻擊

《我是領袖》AI人工智能探索未來

抓住人工智能這個“牛鼻子”，加快培育發展新質生産力

觀點｜人工智能時代博物館如何緻力于教育和研究

人工智能發展如何影響勞動力就業

2024 年十大人工智能晶片制造公司

人工智能的原理是什麼？

馬斯克：給我特斯拉25%股份，否則剝離人工智能和機器人技術

中科彙聯2024第五屆科創彙聯人工智能發展高峰論壇在京圓滿落幕

科技巨頭積極布局AI領域！微軟将召開年度開發者大會，或透露人工智能PC計劃

醫學人工智能向“新”而行