天天看點

十年育林,百度NLP已枝繁葉茂

十年育林,百度NLP已枝繁葉茂

7 月 10 日,自然語言處理頂會 ACL 2020 落下帷幕。本次大會共收到 3429 篇論文投稿,其中 779 篇被接收,接收率為 22.7%,與去年持平,低于近年來大部分年份的接收率。

在這 779 篇論文中,有 185 篇來自中國大陸,占被接收論文總數的 23.7%,僅次于美國。此外,今年的最佳論文二作和最佳 demo 論文一作均為華人學生。

然而,很多人可能不知道,2000 年 ACL 年會在中國香港舉辦時,隻有微軟中國研究院的論文來自中國大陸;到了 2005 年,來自大陸的論文也隻有三篇。

很多變化是過去十幾年發生的,尤其是過去的十年。在這十年裡,中國的 NLP 學界在 ACL 年會中的投稿數、被接收論文數逐年上升,同時,中國的 NLP 學者也實作了多個 “第一次” 的突破:

  • 2013 年,王海峰出任 ACL 五十年來首位華人主席;
  • 2014 年,吳華出任 ACL 程式委員會主席,成為中國企業首位 ACL 程式委員會主席;
  • 2015 年,ACL 年會首次在中國舉辦;大會上,哈工大教育部語言語音重點實驗室主任李生教授獲得 ACL 終身成就獎,成為首個獲得該獎項的華人;
  • 2016 年,趙世奇當選 ACL 秘書長,成為首位當選該職位的亞洲人;
  • 2018 年,ACL 宣布建立亞太區域分會(AACL)并計劃在 2020 年舉行首次會議,由王海峰擔任創始主席;
  • 2020 年,百度領銜組織了 ACL 大會上首場同聲傳譯研讨會(The 1st Workshop on Automatic Simultaneous Translation);
  • ……

從這些突破中,我們可以看到中國科學家的快速成長,看到中國 NLP 學界在國際上不斷擴大的影響力,看到百度這家中國網際網路公司跻身世界科技巨頭的努力。

為什麼一家中國網際網路公司能夠吸引衆多 NLP 領域的科學家,能夠成為國際 NLP 頂會的重要參與者?我們也許可以從百度早期的戰略布局中找到線索。

早在十年前,百度就已經在 ACL 大會上留下了中國網際網路企業的身影。彼時,第三次人工智能浪潮還沒有掀起太多波瀾,李世石和 AlphaGo 的裡程碑式對弈還有六年才會發生。

今年正值百度 NLP 的第十個年頭,我們回顧一下過去十年的路程,看看以百度為代表的中國企業如何憑借對整個領域的洞察在 NLP 領先布局、持續投入前沿技術研究及産業實踐,這對于當下提升科技競争力以及如何在行業發展早期做好戰略布局仍具有借鑒意義。

百度與 ACL 的十年交集

2010 年,百度進入建立之後的第二個十年,中國網際網路也進入了高速發展期。

當時,百度已經積累了大量的資料和使用者群體,有着豐富的應用場景可以挖掘。對于需要大量真實資料并希望自己的成果服務廣大使用者的研究者來說,百度的這些特質有着強大的吸引力。于是,在這一年,百度迎來了 NLP 領域知名科學家——王海峰博士。

十年育林,百度NLP已枝繁葉茂

王海峰本碩博都畢業于哈工大,早在博士期間就做過将神經網絡引入機器翻譯的研究。進入百度之前,他曾先後就職于微軟中國研究院、東芝等,并與 ACL 結緣,2004 年開始在 ACL 上發表論文,2006 年曾有 5 篇論文被收錄。

除了海量的資料、豐富的應用場景之外,真正讓王海峰下定決心加盟百度的契機其實是 2009 年 8 月的“百度世界大會”。 與以往三屆不同,2009 年百度世界大會給人的感覺是格外具有技術味道。李彥宏在這屆大會上推出了全新計算平台 “框計算”——使用者隻要在”百度框”中輸入服務需求,系統就能明确識别這種需求,并将該需求配置設定給最優的内容資源或應用提供商處理,最終精準高效地傳回給使用者相比對的結果。 從這次大會中,王海峰看到了百度對 AI 技術的重視和謀劃。他敏銳地判斷出,如果百度沿着“框計算” 的思路進一步發展,就需要更強大的自然語言處理技術的支撐,尤其是語言分析、語義了解、知識圖譜等方向。

2010 年,進入百度之後,王海峰所做的第一件事就是成立了“自然語言處理部”。

在此之前,百度在 NLP 方面的研發工作一直在業務需求下進行,并沒有構成體系。NLP 部門的成立改變了這種 “指哪兒打哪兒” 的局面,對原有的工作進行了重新梳理與規劃,除分詞、專名識别、query 需求分析、query 改寫等傳統方向得到加強外,也逐漸建設了機器翻譯、機器學習、語義了解、智能互動、深度問答、篇章了解等新的技術方向。

也是在這一年,王海峰敲定了百度在知識圖譜技術上的研發投入,而當時,知識圖譜還不是一個熱門的研究方向。

紮實的技術背景和豐富的行業經驗賦予了王海峰在 NLP 領域強大的背書能力。是以,他的加入進一步提升了百度的人才吸引力,幫助百度招攬了以吳華博士為代表的一大批技術骨幹。

吳華博士在人工智能領域浸潤 20 餘年,專注于自然語言處理。據統計,她在機器翻譯及自然語言處理領域授權或公開的專利申請有 100 餘項,發表學術論文 60 餘篇。

随着技術骨幹的加入,百度開始在 NLP 領域的國際頂會中嶄露頭角。2010 年,王海峰、吳華的一篇論文被 ACL 錄用,百度也成為參加這個國際頂會的首個中國網際網路企業。

在這之後的十年裡,百度幾乎每年都會在 ACL 上展示最新的研究成果,成為這一國際大會的重要參與者。同時,在王海峰等人的不斷努力下,中國研究者在 ACL 上的影響力不斷擴大,開始擁有更多的話語權。

2013 年,王海峰出任 ACL 五十年來首位華人主席。

在王海峰等人的共同推動下,2015 年,ACL 首次在中國舉辦,展現了國際學界對中國自然語言處理研究的重視和認可。

十年育林,百度NLP已枝繁葉茂

2018 年,在第 56 屆 ACL 年會開幕式上,時任 ACL 主席 Marti Hearst 宣布建立亞太區域分會(AACL)并計劃在 2020 年舉行首次會議。之後每兩年舉行一次會議,會議地點将設定在亞太地區,由王海峰擔任 AACL 創始主席。

2020 年,百度 11 篇論文被 ACL 收錄,覆寫了語義表示、情感分析、自動摘要、對話系統、機器翻譯、知識推理、AI 輔助臨床診斷等諸多熱點與前沿研究方向。同時,百度聯合谷歌、Facebook、清華大學等全球頂尖機構共同舉辦了首屆同聲傳譯研讨會,就 ERNIE 核心技術、開放域人機對話技術、智慧醫療、生物醫藥等業内關注的話題做了演講,展現了中國企業在 NLP 及 AI 領域的技術創新與産業實踐。

如果将十年前的百度 NLP 比喻成一片苗圃,那麼,經過十年的澆灌,這片苗圃已然成林。王海峰等人的貢獻在于,他們很早就選到了優質的樹苗并悉心培育。

從今年百度被 ACL 接收的論文以及最近公布的研究進展中,我們可以看到這種前瞻視野和布局帶來的豐碩成果。

從 ACL、百度看 NLP 十年研究趨勢

如果仔細觀察近幾年的 ACL 接收論文和百度公布的研究成果,我們不難發現 NLP 領域的幾個研究趨勢,包括 1)越來越多的研究者将知識融入到 NLP 模型中,以提高模型的了解和推理能力;2)多模态語義了解越來越受關注,同時在視訊網站、電商物流、自動駕駛等領域得到廣泛應用……

将知識融入 NLP 模型

語言和知識促進了人類文明的發展。人們從大量的資料和資訊中擷取知識,語言是凝煉和傳承知識的載體,進而又将知識應用于生産生活的方方面面。早在十年前,王海峰就敏銳地覺察到知識的重要性,開始布局知識圖譜技術并逐漸加大研發投入。百度将多源異構的海量網際網路資訊彙聚在一起,從中挖掘知識、建構大規模圖譜。而當時,知識圖譜對于大多數人來說還比較陌生。

2014 至 2017 年間,基于網際網路大資料和搜尋應用,百度知識圖譜技術發展非常迅速。2016 年,百度建構了全球最大的知識圖譜,擁有數億實體、數千億事實。2017 年,基于知識圖譜技術突破和産業化應用,百度 “知識圖譜技術及應用” 項目獲得“中國電子學會科技進步一等獎”。

此後,面向實際應用場景,百度系統地拓展了多源異構知識圖譜的研發與應用。針對不同的應用場景和知識形态,建構了關注點圖譜、事件圖譜、多媒體圖譜、行業知識圖譜等多種圖譜。從認知深度、資訊寬度和領域廣度多元度對實體圖譜進行了系統性的拓展和更新。在領域廣度方面,則從通用領域拓展到涵蓋醫療、法律等行業在内的具有強知識性的專業領域。

特别地,在醫療領域,基于知識圖譜技術的輔助醫療決策等産品目前已在全國 300 多家醫院、1500 多家基層醫療機構規模化落地應用。相關産品榮獲 2019 年全國醫療人工智能應用創新獎。2019 年 7 月,在百度開發者大會上首次釋出了“行業知識圖譜平台”,整合知識圖譜建構、存儲、問答、推理等技術能力,為行業知識的擷取與應用提供一體化解決方案。

此外,早在 2011 年,百度就着手研究基于知識的語言解析。2014 年,百度研發了基于海量資料訓練的神經網絡深度語義比對架構——SimNet。該架構率先将語義表示與比對計算統一在一個端到端的神經網絡模型裡,并結合中文語言特性融合了多粒度知識,支援千億規模真實搜尋點選資料訓練。

去年,百度先後釋出了知識增強的語義表示模型 ERNIE 和持續學習語義了解模型 ERNIE 2.0。2019 年 12 月,ERNIE 在國際權威的通用語言了解評估基準 GLUE 上首次突破 90 大關,超越人類三個點,獲得全球第一。今年 3 月,在全球最大規模的國際語義評測 SemEval 上,ERNIE 獲得

5 項世界冠軍

。在剛剛落下帷幕的世界人工智能大會,百度文心(ERNIE)知識增強語義了解技術與平台獲得了大會最高榮譽獎項“卓越人工智能引領者”(SAIL)獎。

十年育林,百度NLP已枝繁葉茂

這些突破的取得,都離不開百度在相關方向上的前瞻布局和持續投入。

多模态語義了解

多模态語義了解是解決複雜場景智能化應用的關鍵技術,近年來備受關注。

2010 年左右,科技産業處在迅速的變化之中,人們對資訊媒介的需求已不僅僅局限于文字,而是向語音、圖像等多個方向擴充。于是,幾乎在成立 NLP 部門的同一時期,王海峰就已開始着手布局語音技術和視覺技術,牽頭組建了當時的“多媒體部”。

這一決定是非常具有前瞻性的。因為當時,除了與搜尋強相關的 NLP 業務,早期百度并沒有太多相關的智能技術需求。在多媒體部成立的初期,很多人也不知道這些技術有什麼用。

憑借在語音、視覺、語言與知識等領域多年的技術積累與融合,2018 年百度釋出了以 “多模态深度語義了解” 為核心的百度大腦 3.0。百度大腦是百度 AI 核心技術引擎,包括視覺、語音、自然語言處理、知識圖譜、深度學習等 AI 核心技術和 AI 開放平台。如今,百度大腦已經向所有開發者開放了 260 多項 AI 能力,其中包括機器同傳、拍照翻譯、文檔解析、圖文稽核、視訊分類、對話情緒識别、圖文轉視訊等融合文本與語音、視覺技術的能力。

今年,百度在多模态語義了解上取得新突破,提出了知識增強的視覺 - 語言預訓練模型

ERNIE-ViL

。ERNIE-ViL 首次将場景圖知識融入多模态預訓練, 重新整理了 5 項多模态任務紀錄,并登頂權威榜單 VCR。

除了這些之外,近年來,百度 NLP 還在語義計算、閱讀了解、多輪對話、機器翻譯、開放平台與資料等方向取得了突破性進展,并實作了大規模産業化應用。

對比百度所取得的 NLP 技術成果和 ACL 十年來的研究趨勢,我們可以發現,這家公司對于 NLP 研究趨勢的把握是非常精準的,而這些都得益于王海峰等領軍人物對該領域的長期洞察。

正如非洲經濟學家 Dambisa Moyo 在一本書裡所提到的,“種一棵樹,最好的時間是十年前,其次是現在”。在 NLP 領域,百度既沒有錯過十年前的黃金 “種植期”,也沒有在十年的每一個“現在” 裡松懈。尊重技術的發展規律,敏銳把握産業需求變遷,持續、堅定的投入,百度當年種下的一棵棵 NLP“小樹”已經長成一片樹林,而且還在不斷生長出新的樹苗。 在王海峰、吳華等研究者的帶領下,我們有理由期待百度 NLP 的下一個十年。

參考資料:《AI已來:讓中國AI走向世界的王海峰》

本文為機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀