瀾舟科技創始人周明：從感覺智能跨越到認知智能，NLP領域要做哪些創新？

演講：周明

編輯：杜偉

在自然語言領域，感覺智能之後的下一個視窗是什麼呢？瀾舟科技創始人周明對「認知智能」的發展前景和需要解決的問題做了詳細的綜述和展望。

3月23日，機器之心AI科技年會線上上召開。在下午的人工智能論壇上，創新工場首席科學家、瀾舟科技創始人、ACL前主席和CCF副理事長周明做了主題為《認知智能的創新時代》的演講。

https://www.bilibili.com/video/BV15Z4y1B76d

機器之心對演講内容進行了不改變原意的整理。

感謝機器之心的推薦，有這樣的機會向大家介紹一下我們在瀾舟科技所從事認知智能的想法，我的演講題目是「認知智能的創新時代」。

大家都知道人工智能經過過去幾十年的發展，經曆了起起伏伏。從最早的圖靈測試到達特茅斯會議，帶來了AI的起源，然後是 60 年代的專家系統，接着人工智能很不幸地進入了第一次冬天，大家都不太信人工智能了。到 80年代，日本第五代計算機的興起帶來了新的希望，比如Prolog程式設計語言等。但随後很快又進入了人工智能的第二個冬天。

到90年代，機器學習開始興起，即基于資料驅動做統計機器學習。當時統計機器翻譯等領域也都開始實用化。人工智能真正飛躍源于深度學習的崛起，大概在 2006 年。2016 年出現一個裡程碑——ImageNet 評測超過人類。2017年，AlphaGO戰勝人類圍棋冠軍。對自然語言來講，2018年預訓練模型開始興起，以及後來AlphaFold高精度預測蛋白質結構。所有這些都是人工智能發展曆程的裡程碑。

總的來講，人工智能技術大概分為兩個流派。第一個流派是人工智能前期基于符号計算的流派，第二個流派是以最近深度學習為代表的神經網絡流派。當然，這兩個流派各有千秋，前者可解釋性比較強，但是需要專家内醒，而且比較脆弱。後者依賴大資料，缺乏可解釋性。

無論如何，最近幾年深度學習帶來的人工智能技術深深改變了人類的生活，從圖像到語音到自然語言處理、知識圖譜、搜尋和推薦都實作大幅提升，并且自動駕駛、安防、自動翻譯、醫療診斷等熱門技術深深融入到了人們的生活。

我們是從事自然語言了解的，關心的是在感覺智能之後自然語言的機會在哪裡？我這裡在判斷感覺智能之後的認知智能開始崛起，推動了産業的發展。

這裡有幾個關鍵點。第一個關鍵點是最近基于預訓練模型的研究推動了很多自然語言處理任務的飛躍，其中一個代表性工作是 2019 年谷歌用Bert預訓練模型做閱讀了解，超過了人類的标注水準。再加上知識圖譜和推理領域的一些進步，人們對自然語言為代表的認知智能的崛起充滿了期待。

認知智能到底要解決什麼問題呢？實際上，認知智能要解決語言了解、問題求解、輔助決策和預測規劃問題，它還有非常廣泛的應用，從機器翻譯到搜尋、聊天、專家系統、廣告、情感分析、對話、資訊抽取、故障診斷、推理、知識圖譜、情感計算等。

有了認知智能，人們就可以從大資料出發，走到資訊檢索，走到知識和推理，再走到洞見的發現，基于大資料充分地加強智能引擎，促進各行各業的數字化轉型，推動業務的更新。

瀾舟科技在認知智能領域做了什麼?

我們在創新工場孵化了一個團隊——瀾舟科技，旨在推動認知智能的發展。

我們首先做了預訓練模型，它是基于自研的孟子輕量化模型，可以處理多語言和多模态，同時支援了解和生成，通過定制來滿足不同領域和不同場景的需求。

然後在預訓練的基礎上做一系列自然語言處理任務。以機器翻譯為例，我們用預訓練模型和多語言聯合訓練，加上術語識别和翻譯的技術，實作了以中文為中心的世界主要語言之間的翻譯，而且在很多垂直領域都做到了業界頂尖的水準，通過與傳神等公司的合作，幫助譯員提高生産效率。

第三個是文本生成。所謂文本生成，使用者有一些關鍵詞或者是一些題目，讓電腦生成一篇文章甚至一篇小說。我們用了自研的預訓練模型，在通用和領域大資料的支撐下開發了一個互動式可控文本生成技術。使用者可以指定關鍵詞或知識單元或應用場景來生成一篇文本，應用于營銷文案生成（與數說故事—容徽公司合作）、新聞摘要、小說或者劇本的寫作等。

第四個是搜尋引擎。我們基于預訓練模型從頭開始做一個新的搜尋引擎。20 年以前，大家都基于 TF-IDF 人工定義了很多的特征（feature），比如很多搜尋引擎用了上萬個特征來做排序。我們想通過預訓練模型不去手工定義這麼多特征，通過端到端學習提高 relevance 和recall，同時使用知識圖譜實作從搜尋到推理到洞見發現的全流程過程。我們想幫助金融、營銷、法律、政務等領域提高搜尋加研判的效率。

2021 年，我們的工作獲得了HICOOL 國際創業大賽一等獎，參賽隊伍共4800支，有6個隊獲得了一等獎。并且，我們在人工智能和金融賽道獲得的是第一名。

但是，認知智能這件事聽起來很玄，你做了很多技術，各行各業怎麼用起來呢？這就涉及到認知智能的解決方案問題。我們的想法是這樣的。首先，最底層要建構大規模的預訓練模型，包括GPU的叢集、資料、訓練、微調、壓縮、模型的輕量化等。在此基礎上，訓練單語言、多語言和多模态預訓練模型，支撐從搜尋引擎到文本了解、機器翻譯、文本生成、語音識别和合成、圖像和視訊的标注和生成等各項任務。注意，它們都是從自然語言出發，通過多模态延伸到其他模态的了解和處理。

在此基礎上，我們通過一個柔性AI智能雲把自身的能力釋放出去。所謂柔性AI智能雲，就是使用者可以用拖拉拽的方式所見即所得，很快形成業務的組成。具體實踐中，可通過SaaS或者深度定制的方法得到相應的服務。

輕量化模型訓練之路

我們的大規模預訓練模型走了一條逆襲之路。很多公司都在追求大規模的預訓練模型，越大越好。而我們認為，預訓練模型到了一定程度可能要做得更加精，更加準，更加輕量化，使用者才可以很容易地實施。

這裡給大家介紹一下大規模預訓練模型的大概思路。第一你得有大規模的海量文本，也要有大規模算力去計算一個語言模型。這個語言模型還得針對下遊任務進行微調，有時大家也在研究不需要微調的zero-shot方法，像GPT-3，然後去完成一些下遊任務。這種方法的好處是解決了碎片化的問題，你隻要有資料來訓練模型，這個模型就能通過遷移學習的過程，在處理新任務的時候對較小的标注資料集做微調，進而達到相對比較高的水準。

這種新範式帶來了自然語言生産效率的大幅度提高，也标志着NLP進入到了工業化和實施的階段，這無疑是一件好事。是以大家都在研究預訓練模型，現在主要的模型有 Encoder模式（比如Bert）、Decoder模式（比如GPT）和 Encoder-Decoder模式（比如T5）。

現在很多預訓練模型都是遵循這些流派。大家的思路無外乎是，要麼去研究更多資料或者模型更大，要麼去研究更加高效的預訓練方法，要麼研究如何用知識來增強預訓練模型，或者研究小樣本學習和統一的微調機制等。

我們為什麼要關注輕量化模型呢？模型的訓練代價非常之高，如下圖所示，據報道最開始訓練一個GPT-3模型需要 460萬美金，當然現在這個數字要小很多，但依然花費很高。過去幾年，預訓練模型的參數增長了不止三個數量級，硬體能力雖然也在增長，但其速度遠遠低于模型參數量的增長速度，是以訓練費用仍然上升了兩個數量級。

我們很多業界的同仁都在研究如何降低訓練成本，但依然是一個很大的數字。訓練的成本主要考慮如下幾個因素：模型參數量、GPU和TPU算力以及資料量。在實際任務中，大模型适配下遊任務的過程中，實施的代價比較大，使用者也不能承受買那麼多GPU來做推理。有鑒于此，我們需要降低成本，提高訓練能力，加快訓練速度，研究輕量化模型現在是我們瀾舟科技的一個重中之重。

不同的輕量化模型技術

我們已經研究了很多輕量化模型的技術，這裡簡要介紹一下。

第一個是模型優化，針對不同類型的預訓練，我們都做了相應的模型優化。

第二個是知識增強，包括基于實體抽取的增強、常識知識和領域知識的增強、事件依賴與因果關系和多模态世界知識的感覺，從各個方面研究如何能夠使用相應的知識來在同樣大小的模型下使它的能力有所提高。我們也用基于語言學的知識來增強，比如用依存關系來增強這樣的模型。

最後，我們考慮了資料增強，包括領域知識增強，即基于領域文本在已有模型基礎上繼續訓練；任務資料增強，比如通過資訊檢索獲得問答對，用于問答任務；跨語言資源增強，比如某種語言的資源比較多，通過多語言預訓練做語言的知識遷移，遷移到低資源的語言。

諸如此類的工作使得我們訓練的小模型的能力并不一定低，而且可以針對新的領域實作快速定制。目前，我們已經開源了四個小模型，包括文本分析、生成、圖像了解和金融模型。

下圖是我們20 21 年 7月到9月份參加 CLUE打榜的成績展現。我們的模型是10億參數，但是對比其他公司的百億和千億參數的模型，毫不遜色，甚至有所提升。在語義相似度等多項自然語言處理任務上，我們的模型在所有任務的綜合展現中都是第一名。

我們模型的特點是小，成本低，但是比較精，這得益于它引入了很多的知識。另一大特點是快，我們訓練一個新的模型幾天就可以完成，做一個新的任務半天就可以完成。然後比較專，每個領域每個任務都可以定制一個預訓練模型，這種專有程度肯定超過通用大模型的能力。

我們的孟子開源模型也榮獲了中國《50家最佳開源産品》。這些模型包括了Mengzi-BRET-base、Mengzi-BRET-base-fin、Mengzi-T5-base和Mengzi-Oscar-base。相關文檔和模型下載下傳方式如下：

論文位址：https://arxiv.org/abs/2110.06696

項目位址：https://github.com/Langboat/Mengzi

能力擴充及相應模型

我們最近為這樣的模型增加了很多圖文的能力，如圖轉文，即一個圖檔生成一段豐富的文字，來描寫這個圖檔的内容。或者文轉圖，即給定一小段文字生成一個圖檔。生成的效果還不錯，我們模型比較輕量化，是以用起來代價比較低。剛剛說到，我們的很多模型已經開源，很多人在開源社群裡通過充分讨論和互相交流來提高對預訓練模型的認知，也增強了他們的業務能力。

在此基礎上，我們研究了機器翻譯。這裡說的機器翻譯包括通用的翻譯，以中文為中心，涵蓋中英、中德、中法等主要語言之間的翻譯。下圖為中英翻譯在各個垂直領域的表現，很多是跟傳神公司合作的。跟目前非常流行的翻譯相比有不錯的提高。無論是在金融、汽車、法律、合同、機械、工程、石油、電力等方面，現在都是居于一流的水準。

基于孟子預訓練模型，我們也在做文本生成領域的技術研究。我們研究可控文本生成，可控意味着使用者可以輸入主題、關鍵詞、知識圖譜、風格、人設等。我們的系統就要生成包含使用者這些資訊，并真實展現使用者意圖的文本。我們管這個叫可控文本生成。

下圖為我們跟數說故事-容徽公司一起合作做的營銷文案生成範例。使用者輸入标題「讓您的肌膚重返18歲」，關鍵詞如「姜汁、美白、面膜」等，輸入一些知識圖譜，即用三元組來描述的事實點，使用者可以随意輸入很多知識點或事實點。我們的系統「孟子」生成一篇比較流暢的營銷文案。

對比GPT等流行的模型，我們的模型有三個特點。第一生成的文本可能更加豐富，第二前後文更加連貫，第三展現使用者的輸入事實。GPT輸出的每句話可能都通順但前後句子不連貫或者說出了反事實的話。我們在這些方面都做了深入的研究并有所克服。

基于孟子預訓練模型，我們又做了新一代的行業搜尋引擎，以金融搜尋引擎為例。我們可以搜通用的股票股價資訊，可以搜新聞、公告、年報，可以用問答方式得到新的事實點，也可以得到公司的财務資訊。

其中一個特色是我們可以根據産業鍊和事件鍊來引導進行搜尋。比如使用者輸入一個關鍵詞，我們搜尋到一些結果。但是使用者想了解對産業鍊上下遊的影響，我們可以根據這個産業鍊來生成新的搜尋關鍵詞，使用者得到新的搜尋結果。同時，使用者希望發現這篇搜尋結果中有哪些新的事件或者重要事件，我們需要對事件進行抽取，然後根據事理圖譜進行上下滑動得到「這樣的事件會影響什麼樣的事件」，或「預示什麼樣的事件會發生。」

這樣，我們做了一個基于産業鍊和事件引導的搜尋體驗，幫助投研人員來分析哪些重要事件出現的時候對産業鍊的影響，對下遊的影響或者預示有哪些新的事件産生，進而采取一些行動。

基于我們預訓練模型的文本生成技術，我們也在做智能研報的生成。所謂智能研報，就是有些客戶提供一些主題，傳統的方法需要在網際網路上人工搜尋證據和文檔，然後人工進行整合抽取。

我們想把這些過程全部自動化，是以給定一個主題，我們通過搜尋得到很多相關的研報，然後基于孟子輕量化模型利用知識圖譜、小樣本學習和對比學習等做一些結構化事件的資訊抽取、情感輿情分析、摘要生成、觀點研報和智能問答，把這些東西都做完了之後再組配起來形成一個研報。

大家可以看到下圖中的例子，比如給一個關鍵詞「新能源汽車」，通過瀾舟的搜尋引擎，從網際網路上搜尋到很多相關的研報或者新聞，通過整合就可以得到常見的問題對、事件抽取、摘要生成和輿情分析，然後所有這些内容輸入到我們的引擎中生成一個研報，包括标題、大綱及具體内容。

基于這樣的技術，我們就可以做「企業ESG社會責任報告生成」，道理也是一樣。使用者輸入某個公司的企業責任報告題目，根據這個報告的主題，自動地生成對應的寫作大綱，包括責任管理、市場績效、社會績效、環境績效、報告後記等，生成大标題、小标題，以及最後的總結和建議。

針對每個大綱的大标題和子标題，我們用資訊抽取的方法抽出關鍵的資訊，然後生成相應的文本，每個段落生成之後再形成整篇報告。

當然這些生成結果，不可能代替人工專家，還需要人工專家核實、修正和完善，確定無誤。我們希望AI能夠配合人類專家提升整個工作的效率。

認知智能未來的挑戰

最後講一下未來認知智能面臨的一些挑戰。

第一個挑戰是缺乏常識和推理。

大家可以看到下圖一個有趣的問題，比如事實為「特朗普是美國第五十四屆總統」。經過如下問答過程，你會發現人類甚至小孩都可以回答，但是有些機器回答不了。比如誰是美國總統？機器和人都可以回答。又如特朗普是美國最有權的人嗎？人可以回答，但是除非在文檔中出現了這樣的證據或話語，機器才能回答，否則回答不了。這裡有個推理，美國總統應該是美國最有權的人，這是常識。沒有這個常識，機器就回答不了這樣的問題。如何組織常識、利用常識進行推理，是目前預訓練模型所存在的一個缺陷。

第二個是在多輪對話中如何保證前後一緻，這也是我們文本生成中遇到的一個挑戰，即前後句子不一緻，比如說時間上不一緻、空間不一緻或邏輯上不一緻等。

這些挑戰帶來了很多思考，包括認知智能在内的下一代人工智能應該怎麼做，做什麼，什麼是我們的重點。我這裡根據自己的認知列出了四個比較重要的問題。

第一個是可解釋性，對于現在我們的端對端學習，給一個輸入然後給出一個分類或一個結果，實際上沒有一個解釋，導緻面對很多應用的時候使用者不敢用，比如在金融中的應用。

第二個小樣本學習，現在端對端學習需要很多的标注文本來進行學習，如果标注的語料比較小，學習的效果不好。這就需要解決小樣本學習問題。

第三個是推理問題，剛才說到有了知識圖譜或者常識，如何從輸入到輸出走出一個推理鍊條給出結論。

最後就是常識問題，前面提到了，這裡不再贅述。

這裡回顧一下，對于人工智能和認知智能而言，它們實際上有兩個階段。先說第一階段，利用符号來推理，它有輸入有輸出，有邏輯有推理。人們遇到一些不熟悉事實的時候，都會習慣做一些邏輯性的推理。這是System2。相比System2呢，System 1，就是現在深度學習的東西。利用經驗和資料就可以從一個輸入快速給出輸出，不需要一個深度推理過程，因而缺乏可解釋性。

如果把這兩者結合起來，則具備兩者的能力，既可以快速給出結果，又能給出背後的邏輯。但是，基于規則的這種符号體系不可微，是以沒有辦法根據輸出結果得到損失來調整網絡結構。而神經網絡可微但不具備可解釋性。

我在想能不能做一種基礎能力「Foundation Skill」的學習。一個啟發是人們做一件大事的時候，比如說推導一道數學題或者做一篇作文，它有很多基礎能力是以前在别的地方學過的，不需要針對一個新的任務做端對端學習。如果把人類的每一個基礎能力都做好，處理一個大任務的時候快速地拼在一起。如果能夠解決可微的問題，不管基礎能力是基于資料還是基于邏輯，都可以快速地拼接成一個大系統，進而有效地解決小樣本學習的問題。

是以，為了研究基于基礎能力的小樣本學習求解複雜推理問題，我們正在做美國司法考試LSAT的自動答題研究。LSAT具有分析推理、邏輯推理和閱讀邏輯三大問題。下圖示例中為分析推理題，已知有六個條件，問「如果某一件事成立，上面哪個答案是最有可能的」。

要解決這一問題，首先要做自然語言了解，把自然語言輸入變成一個邏輯表達式。第二步是需要一個推理，從初始狀态出發，經過一步步的推理，得到可能的終态。然後從可能的終态再去看滿足限制條件的多和少，把滿足限制條件多的答案抽取出來。

這裡如何來解決自然語言了解問題呢？因為這是小樣本學習，LSAT 總共隻有幾千道題，是以從端到端學習邏輯了解是非常困難的。那麼，我們能不能用剛才所說的基礎能力加上微調的能力去學習呢？也就是說分詞、語義表達、邏輯表達生成都在别的管道或者用别的資料學完了，在這裡針對這樣一個新的資料集做快速的适配和遷移學習，看能不能解決這樣的問題。這裡也涉及到常識如何嵌入到整個的邏輯了解或者推理過程之中。

總之，LSAT 是一個非常好的資料集，來幫助大家進行複雜推理任務的研究。

最後，我總結一下，認知智能現在發展的越來越好，大家也對它充滿了期待。現在有個很好的機遇，因為預訓練模型加微調大大解決了碎片化問題。而SaaS模式希望能夠解決最後一公裡把服務交到使用者手中的問題。當然，機會與挑戰共存，最大的挑戰是知識化、輕量化和倫理道德的問題。我們還需要解決小樣本學習、可解釋和常識推理，這是未來5-10年的發展目标。瀾舟現在做了一些工作，即融合神經網絡和符号系統，加上一些基礎能力和微調的設想，試圖來推進相關的實驗。

瀾舟科技是一家認知智能公司，針對商業場景做數字化轉型，以自然語言處理為基礎提供商業洞見類的産品，主要的産品包括基于預訓練模型的功能引擎，像搜尋、生成、翻譯、對話以及針對垂直行業場景的SaaS産品。我們有志于成為世界上NLP的頂尖技術公司。

我們常年招聘研究員、工程師、産品經理和實習生，有興趣大家可以通路我們的網站獲得詳細資訊。

瀾舟科技創始人周明：從感覺智能跨越到認知智能，NLP領域要做哪些創新？

繼續閱讀

英特爾和AMD等全球50家機構成立人工智能聯盟，中國機構和英

任正非：“社會最終走向人工智能不努力連做勞工的機會都沒有”

中國首款一體式人工智能AR眼鏡——李未可Meta Lens

沒準，愛情的盡頭就是人工智能

明智家長：人工智能賦能家庭教育的創新與應用

同濟校長鄭慶華院士到曆城二中講學：“人工智能何以改變世界”

OpenAI将官宣新品、安謀計劃明年推出AI晶片…人工智能競賽再升溫

人工智能加速賦能千行百業

人工智能舞台的聚光燈，開始打向東南亞｜SEA Now

業界聲音｜袁輝：全行業都會與人工智能結合，其相當于基礎設施能力

聚焦“人工智能＋教育”，看省教育網絡協會換屆後如何做

YEF2024大會論壇——青科看未來：人工智能安全

以“人工智能+”行動着力推動新質生産力發展

生成式人工智能對個人資訊保護的挑戰與治理路徑

對付殲20？美軍高官參與挑戰，試乘戰機空戰，高調展示人工智能

中美雲巨頭交鋒：中國力量崛起，重塑全球科技格局！在Gartner2023年的權威報告中，雲計算領域的全球競争格局再次被改