專訪唐傑：萬億參數大模型隻是一個開始

圖靈寫于 1950 年的論述《計算機器與智能》被譽為人工智能的開山之作，他在文中不僅提出了「機器會思考嗎？」這一經典問題，還給出了著名的「圖靈測試」用以判斷一台機器是否擁有「智能」。

但經過詳細論證，在文章趨于收尾時，他又補充說：「與其嘗試制作一個程式模拟成人的大腦（mind），何不嘗試制作一個模拟兒童大腦的程式呢？」

在題為「會學習的機器」（Learning Machines）這最後一小節中，圖靈寫道，兒童的大腦就好比剛從文具店裡買來的筆記本，裡面沒有任何結構（mechanism），全是大量空白的表格（sheets）。從計算機科學研究者的角度看，這樣的形容簡直再直白不過。

三四歲的孩子已經能夠舉一反三，簡單推理，模仿父母最細微的姿态和動作，并且知道如何通過自己的行為影響他人。而這正是人工智能研究者迫切希望其建構的AI系統所能具備的。

如今，機器學習不僅是人工智能領域研究的重點，也正在成為整個計算機科學研究的熱點。2020 年 5 月，OpenAI 釋出了無監督轉化語言模型 GPT-3，其展現出的從海量未标記資料中「學習」且不限于某一特定任務的「通用」能力，讓 AI 研究者看到了基于大規模預訓練模型探索通用人工智能的可能。

2021 年 6 月，

北京智源人工智能研究院（以下簡稱「智源研究院」）釋出「悟道2.0」巨模型

，以 1.75 萬億的參數量成為迄今全球規模最大的預訓練模型。不僅如此，悟道團隊還基于 GPT 與 BERT 各自在自然語言生成（NLG）和自然語言了解（NLU）任務上的優點，成功将兩者融合并提出通用語言模型 GLM，将所有自然語言任務都化歸為生成任務進行統一處理，GLM 也成為首個在 NLU、NLG、Seq2Seq、不定長填空等任務中全部登頂的語言模型。

超大規模預訓練模型是否代表了圖靈所說的「會學習的機器」？不斷增大的模型（以及不斷增加的算力）最終能把我們帶到哪裡？預訓練模型究竟從資料中學到了什麼？未來的機器智能是否會改變我們對資料、資訊、知識乃至智慧的定義？帶着這些疑問，機器之心專訪了智源研究院學術副院長、悟道項目負責人、清華大學計算機系教授唐傑。

智源研究院學術副院長、悟道項目負責人、清華大學教授唐傑，在 2021 北京智源大會上釋出悟道 2.0。來源：智源研究院

唐傑早先從事資料挖掘和知識工程方面的研究，他曾經不願意也不敢相信機器智能可以超越人，但大規模預訓練模型改變了他的想法；如今，他開始反問為何機器智能不可以超越人。

唐傑表示，萬億參數大模型隻是一個開始，作為一種科學上的探索，智源悟道團隊将堅持在「大」這條路上走下去，探索其邊界，因為他們已經在大模型上觀察到了以往小模型上所不曾有過的現象。

但他同時也指出，單靠增加訓練資料量或模型參數規模不足以實作「智能」，悟道團隊目前踐行的「知識+資料雙輪驅動」，正是嘗試将知識這種符号資訊與神經網絡相結合，建構所謂的「神經-符号結合模型」，進而賦予機器認知能力。

在更遠期的規劃中，唐傑希望讓悟道模型擁有自學習的能力，以及作為一個主體與現實世界互動的能力，正如人類兒童在成長中所經曆的那樣。

至于眼下，一個重點将是基于悟道 2.0 建構一個平台和生态，讓企業、開發者和研究人員真正用起來——用他的話說就是「大規模預訓練模型不是用來作秀的」，并根據使用者的回報優化和疊代。不過，這方面的工作将由其他團隊牽頭完成。

悟道團隊将持續聚焦，這也是唐傑個人的研究風格——專注、專注再專注，直到拿出嚴謹、可靠和有力的成果。

他說：「更重要的是各種任務精度的提升，算法的優化，運作效率，以及對整個人工智能軟體和硬體應用及架構的再考察。」

要讓機器從資料中學出所有的人類知識，現在所謂的「大資料」根本少得可憐

深度學習常為人诟病的一點在于其不可解釋性。然而，存儲在人類大腦中的知識亦然，隻不過我們能夠借助語言進行表達。

但即便如此，還是有很多無法用言語描述進而抽象為知識的東西。

英國皇家結構工程師學會的某位大師曾在演講中自嘲：「結構工程是這樣一門藝術，将我們尚未充分了解的材料，做成我們無法精确分析的形狀，去承受我們無法正确評估的力，以緻公衆沒有理由懷疑我們的無知程度。」據他自己所說，每次他在演講中提及這句話時，都能從現場觀衆那裡得到不錯的反應。果然懂的人都懂。

很大程度上，現階段的深度學習也是如此，大規模預訓練模型确實從資料中學到了什麼，但其具體過程或數理機制尚不明晰。

在擁有 1.75 萬億參數的悟道 2.0 上，唐傑團隊觀察到模型不需要訓練資料，可以自動從未标記的資料中學出一些人類知識，有的機器學習出的知識圖譜比人工标注的品質還要好。

「隻要模型足夠大，也許會達到一個奇點，不需要人類知識，機器隻用資料就能學出人類有史以來所有的知識，」唐傑說：「因為人類的知識也是經過曆史慢慢演化，經過案例學習和不斷試錯總結歸納出來的。」

但他認為，這種純資料驅動的方法還有很長的路要走，至少未來十年都難以見到突破。原因也很簡單，就看一點，如果真要讓機器從資料中學出所有的人類知識，現在所謂的「大資料」根本少得可憐——計算機發明至今也不過 70 多年，物聯網資料才剛剛興起，還有其他各種類型的資料，光是要收集那麼多的資料就需要很長的時間。

悟道團隊采用「知識+資料雙輪驅動」方法，因為人類知識經過高度抽象，不僅精度高且品質好，利用好了能大幅加速機器學習的過程，有效提升訓練效果。

或許有一天我們就從預訓練模型中探索到類似牛頓三大定律這樣的東西呢？

不同于傳統意義上的知識，存儲在神經網絡中的知識由模型的參數及架構決定，一般難以被人了解。

唐傑與他在清華和智源的合作者将這種從資料中學習擷取，存儲于神經網絡模型中的知識稱之為「連續型知識」，而他們則嘗試從「連續型知識的存儲和管理」角度來展開對超大規模預訓練模型的探索。

換句話說，超大規模預訓練模型就好比一種全新的知識庫，隻不過裡面存儲的是不能直接被人所了解的連續型知識。這些連續型知識可以像 OpenAI 的 GPT 那樣，存在一個超強的大模型裡，也可以像 Google AI 的 Switch Transformers 那樣，由多個混合專家模型（MoE）合并而成。但是，這兩種方法都對算力和存儲提出了巨大的需求，而且無論是資料還是知識，都是在不斷增加和更新的。

對此，清華大學的研究人員提出了「通用連續型知識庫」的概念。這個通用連續型知識庫存儲的不是模型，而是模型中的連續型知識。通過将不同模型中的連續型知識都存儲在這樣一個庫裡，一定程度上能減輕對計算和存儲的負擔。但這需要先把連續型知識從模型中分離出來，還涉及不同模型的連續型知識的導入和導出。是以，通用連續型知識庫存儲架構和接口的設計，還有各種連續型知識的融合與區分，都需要更深入的探索。

對于超大規模預訓練模型的發展，唐傑認為有三個方面值得注意。首先，算法還有很大的改進空間，包括效率的提升，如何将知識這種符号資訊與神經網絡相結合，建構「神經-符号結合模型」，以及如何更高效地從資料中提煉出連續型知識。

「GPT 本身是很簡單的，但事實證明簡單并不一定不好，或許有一天我們就從預訓練模型中探索到了類似牛頓三大定律這樣的東西呢？然後再把這些喂給模型，不斷優化，最終實作大一統也不是沒有可能。」他說。

「雖然很多人反對這種大一統的模型架構，但算法本身是有很大探索空間的，也值得我們去探索。在牛頓三大定律出現之前，我們也在認識這個世界，後來愛因斯坦的相對論出來推翻了前者，我們又重新認識了世界，算法也是這樣，會經曆一個長期演化的過程，而且不一定非得達到終點才能使用。」

二是預訓練模型走向更多的應用，把資訊和人、車、物等等都聯系起來，尤其是加入人的動态，由此帶來的複雜度和搜尋空間都會指數級提升，這就要求研究人員在構模組化型時考慮更多的次元。

在更長遠的未來，唐傑認為模型需要具有自學習的能力，因為人是會不斷反思、不斷複盤的，模型也要能夠自我優化，并且作為一個主體與世界互動，通過外界的回報不斷改進和持續學習。

悟道團隊會在一直往「大」做上去，直至其邊界

從悟道 1.0 到 2.0，曆時不到 3 個月，模型參數量增長了千倍，規模也做到了全球引領。

有人問唐傑為什麼他們能在這麼短的時間内拿出這麼多成果，「因為我們早就開始做了呀」，他笑着說。

「作為一種科學研究，悟道團隊會在一直往『大』做上去，直至其邊界，以探索人工智能所能達到的極緻。」

不過，他認為沒有必要在「大」這件事情上過分糾結。模型并非越大越好，尤其在實際應用場景，要優先考慮成本和速度，而最關鍵的是精度，如何用 10 億級别的小模型在某些任務上取得更優的性能，加快實際部署，也是悟道團隊目前的一個研究重點。

對于悟道 2.0 做平台化跟産業界對接，唐傑表示大力支援，「因為大規模預訓練模型不是用來作秀的，要把模型真正用起來，我們需要業界的回報」。

悟道 2.0 也确實在産業界引起了反響，作為一個證明，唐傑告訴機器之心：「1.0 釋出的時候很多企業都在觀望，今天 2.0 釋出，我台上剛講完，就有好幾家公司表示願意加入，積極性很強。」

不過，企業也并非完全沒有門檻，

正如之前采訪中唐傑說的那樣

，所有參與方都是帶着資源與情懷參與到悟道項目中來，本着開源開放，合作共享的精神與理念。目前，悟道團隊大約百人，對于這樣一個大型科研項目而言，在人手和資源上其實并不算多。是以，應用開發和産業化落地相關的工作，将由合作企業和智源的其他團隊牽頭完成。

從悟道 1.0 到 2.0，唐傑作為項目負責人，感受最深的地方是如今科研試錯的成本更大了，是以戰略布局的眼光也要更精準。例如，以前模型有了問題可以重頭再來，而現在不管是時間成本還是經濟成本都不允許方向性的誤判。在什麼階段決定做什麼也很重要，一方面是預判技術或産業的發展，另一方面是資源有限，什麼都做很可能什麼都做不好。

此外，悟道 2.0 全部在國産 CPU 上完成訓練，唐傑認為這也表明了超大規模預訓練模型從應用層面拉動了對超算和智能計算的探索，從某種程度上補齊了我國在超算應用方面的短闆，也有助于未來智能超算中心的規劃和建設。

他并不擔心國内其他團隊在超大規模預訓練模型上的跟進，對于眼下大模型頻出的狀況也十分了解。「當你從事一個方向，有人跟進總比沒人跟進要好，對吧？」唐傑反問說：「而且大部分的事情發展都這樣，起先熱一點，然後有些太過了，就自然會冷靜下來，往回收一些。」

悟道出現在北京并非偶然，「因為這裡有最高的人工智能軟體和硬體人才密度」，與建設超算中心一樣，建構超大規模預訓練模型也要因地制宜，量力而行。「要想清楚為什麼做，你的條件适不适合做。」唐傑說。

2020年，ACM SIGKDD 将「時間檢驗應用科學獎」授予了唐傑等人在 2008 年寫的論文「ArnetMiner」。經過十幾年的發展，這個最初跑在唐傑筆記本上的算法，已經成為如今的線上科技情報挖掘平台 AMiner。

接下來，唐傑将專注于超大規模預訓練模型的研究，至于是否能由此實作通用人工智能，有一點可以肯定，隻要我們對「通過計算能夠實作智能」這個大前提沒有弄錯的話，剩下的應該隻是時間問題。

專訪唐傑：萬億參數大模型隻是一個開始

繼續閱讀

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希