天天看點

百度首席技術官,首度表态“通用人工智能”

作者:新湖南

《中國科學報》 記者 趙廣立

“過去一段時間,以大語言模型為代表的人工智能技術取得了令人震撼的成績,而這些已經讓我們看到了通用人工智能的曙光。”

近日,在由深度學習技術及應用國家工程研究中心主辦的WAVE SUMMIT深度學習開發者大會上,百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰首次發表他對于通用人工智能的了解。他還表示,希望與所有開發者共建開源開放的社群,共赴通用人工智能的星辰大海。

百度首席技術官,首度表态“通用人工智能”

王海峰在WAVE SUMMIT深度學習開發者大會上。圖檔來源:百度公司

展現人工智能核心能力的四個關鍵詞

在一衆與人工智能相關的詞彙中,王海峰選出了四個詞:了解、生成、邏輯和記憶。在他看來,這四個詞所代表的含義,既是人工智能最核心的能力,也是通用人工智能系統應具備的最基本的能力。

“比如大語言模型要創作一篇内容,它需要‘了解’創作主題,理清創作‘邏輯’,在‘記憶’中搜尋素材,并将對素材的了解融會貫通,最後‘生成’一篇合格的文稿。”王海峰舉例說,程式設計、解題、做規劃等也同樣如此:“如果一個人工智能系統具備了很強的了解、生成、邏輯和記憶能力,它就可以完成許多不同的任務。”

顯然,了解、生成、邏輯、記憶這四個關鍵詞代表的含義,也正是貫穿于人類思考過程中的能力。王海峰認為,如今,大語言模型已經初步具備了這幾個方面的能力,而随着這些能力越來越強,“就會讓我們更快地走向通用人工智能”。

大模型的代碼能力,或許能讓人更真切地看到它沿着邁向通用人工智能之路前進的态勢。

王海峰說,語言是人類溝通交流的工具,同時也是思維的載體。但計算機程式設計語言不同于含義豐富的自然語言,它們有着嚴格的文法、行文格式,而且每一行代碼都隻能唯一被解釋、被執行。是以,人類程式員們編寫代碼的過程,其實是一個将人的思維表達為程式設計語言的過程,進而就可以執行,也可以互動了。

當大語言模型也能又快又好地“寫”代碼的時候,事情就開始變得不簡單了。

“我上學的時候,一位外語老師曾經跟我說,如果你能用外語進行思考了,那就說明你已經把這門外語學通了。”王海峰說,是以,當大語言模型能夠“寫”代碼了,也意味着它能夠将人類自然語言表達的需求用代碼寫出來。

王海峰說出了他的看法:“這不僅是為人們的軟體開發提供幫助,更是架起了機器‘思考’和‘執行’之間的橋梁——這對通用人工智能的發展有着非常重要的意義。”

“知識就是力量”,對AI也适用

而當人們看到一些大語言模型産品“時而神時而鬼”的發揮後,便可知曉,人工智能對“了解、生成、邏輯、記憶”這些能力的修煉還不到家。

人工智能如何不斷地獲得并增強它在這些方面的能力?王海峰的答案是“知識增強大語言模型”。

今年3月,百度釋出了知識增強大語言模型“文心一言”。5個月以來,文心一言的能力有了長足進步。今年6月在公開測試集上進行的基礎模型少樣本(Few-Shot)評測顯示,最新版本的文心大模型3.5在多個測試集的得分超過ChatGPT。文心一言的進步速度超出預期。這背後,有許多值得提及的要素,比如龐大數量的優質資料、多種政策的優化、對基礎模型進行“長文模組化”、多任務自适應的有監督精調、多層次多粒度獎勵模型的強化學習、文心和飛槳的聯合優化……等等,不一而足。但在王海峰看來,重要的是,文心一言不止從海量資料中學習,也從龐大的知識圖譜中汲取養分。

顧名思義,作為“知識增強”大語言模型,文心一言離不開“知識”的學習和強化。“知識就是力量”這句話,對人工智能也适用。

王海峰介紹說,百度擁有花費10餘年時間建構的、超過5500億知識的知識圖譜。

在訓練過程中,文心大模型如何用好這個知識圖譜?王海峰回答說,有兩種方式:知識内化和知識外用。知識内化即在訓練過程中,通過基于語義單元的學習以及用知識圖譜構造訓練資料,将這些知識内化到大語言模型中;知識外用則是在知識推理、提示建構等環節直接使用知識圖譜。

經過了龐大知識圖譜和海量資料的“洗禮”,大模型在推理部署階段隻要少量的精調、少量的場景适配,就可以對接給千行百業,這将幫助其大大降低應用門檻。

“文心加飛槳,翩然赴星河”

在WAVE SUMMIT這個面向深度學習開發者的盛會上,王海峰對通用人工智能的憧憬,更是向數以萬計開發者尋求的一種共鳴。

王海峰說,在百度開發的飛槳産業級深度學習開源開放平台上,已累計聚集了800萬開發者,有22萬家企業使用飛槳平台,建構了80萬個模型。

早期,開發者們青睐TensorFlow、Pytorch等國際知名的深度學習架構,但随着飛槳這一國産平台的逐漸完善,開發套件、工具元件、基礎模型庫等逐漸完備,特别是過去幾年裡,基于飛槳百度着力打造了文心大模型家族,越來越多的開發者轉而擁抱飛槳。2019年,飛槳平台隻有190萬開發者,4年的時間裡,這一數字連續翻番。

“800萬開發者、22萬家企業、80萬個模型,這些數字不止見證了成長,我相信更為未來打下了堅實的基礎。”王海峰說,百度希望繼續與所有開發者和企業夥伴共建、共創,共同推動人工智能賦能千行百業,惠及千家萬戶。

百度首席技術官,首度表态“通用人工智能”

王海峰披露飛槳平台最新數字。圖檔來源:百度公司

“飛槳”一詞,取自宋代文豪朱熹《即事有懷寄彥輔仲宗二兄》中的“聞說雙飛槳,翩然下廣津”。寓意在“飛槳”助力下,中國人工智能事業走得更快、更遠。

飛槳開發者共同聚集的人工智能學習實訓社群,原名為AI Studio,現在百度給它取了一個中文名“星河社群”。數百萬開發者在星河社群學習、實訓、提升AI能力并着力将其落地。

在WAVE SUMMIT深度學習開發者大會上,王海峰把“聞說雙飛槳,翩然下廣津”這聯詩改為“文心加飛槳,翩然赴星河”:“希望我們和所有的開發者一起。在飛槳和文心的加持下,共建星河社群,共赴通用人工智能的星辰大海。”

繼續閱讀