天天看點

什麼是百度的技術基石?NLP

什麼是百度的技術基石?NLP

文:羅超

百度是中國最具技術基因的網際網路企業,一定程度可以說技術是其根基。中文搜尋、知識圖譜、大資料、自然語言處理、智能廣告等細分技術已成為百度獨有優勢,所有這些技術的基石又是什麼呢?答案或許是NLP:自然語言處理。

NLP是搜尋引擎的技術之本

搜尋引擎最基本的模式是自動化地聚合足夠多的“内容”,對之進行解析、處理群組織,響應使用者的搜尋請求找到對應結果傳回。每一個環節,都需要用到自然語言處理。

爬取網頁時要分析HTML頁面以及處理爬取到的網頁内容時,需要對起進行解析、分詞、變換等,這十分依賴自然語言處理技術。搜尋引擎要聽懂使用者的“人話”,使用者的搜尋請求又是千奇百怪的,關鍵詞組合的方式越來越少,直接用自然語言搜尋已成為不少人的習慣,人們更傾向于搜尋“廣州到北京的航班資訊”而不是“廣州 北京 航班”,是以搜尋引擎必須了解使用者意圖才可以幫助其去找到準确答案。

每一個環節自然語言處理都十分重要。這是NLP技術緻力于解決的問題。自然語言處理(Natural Language Processing:NLP)是計算機科學、人工智能以及語言學的交叉學科,旨在解決計算機與人類語言之間的互動問題,這其中包括對自然語言的分析、了解、生成、檢索、變換及翻譯等方面。

不隻是搜尋本身,搜尋引擎衍生産品大都會應用到NLP技術。譬如百度、Google均提供的翻譯服務就是最經典的自然語言應用,它可以智能化地翻譯大段文章,支援多種語言之間的互相翻譯。還有百度知道,它可以智能化地識别相似的問題避免使用者重複提問。再比如Siri掀起的語音助手浪潮最後反而被百度、Google等搜尋玩家搶得先機,就是因為搜尋引擎更擅長于NLP技術,百度語音助手和Google Now在中文和英文語音領域表現都比Siri更為突出。

總之,搜尋引擎連接配接人與資訊,它要能幫助人們更加高效地擷取資訊就必須學會像人類一樣去讀取資訊,它要能夠了解人們對資訊的需求就需要去聽懂“人話”,這都注定了NLP技術将成為搜尋引擎的技術之本。

無處不在的NLP讓百度更智能

百度從第一天處理使用者的第一次搜尋開始便開始應用NLP技術。十多年來,百度的使用者數已經超過5億,百度公司員工規模超過3萬人,百度市值則逼近1000億美金。伴随着百度的快速發展,百度NLP團隊在同步地、甚至更快地發展壯大,NLP技術本身也在發生着劇變,但總的來說,就是它幫助百度變得更加聰明。

2010年春,國際頂級自然語言處理專家王海峰博士加盟百度後,對百度NLP的工作進行了重新梳理與規劃,除分詞、專名識别、query需求分析、query改寫等傳統方向得到加強外,拓展了機器翻譯、機器學習、語義搜尋、語義了解、智能互動、深度問答、篇章了解等新的技術方向。現在NLP團隊已經由當初僅10餘人發展成為今天超過200人規模的團隊,操盤手正是王海峰博士。因為理論造詣以及在百度的工程實踐成就,王海峰成為自然語言處理領域世界上影響力最大的國際學術組織ACL(Association for Computational Linguistics)50多年曆史上唯一華人主席。

現在NLP團隊的技術正應用在百度的方方面面。

搜尋引擎是NLP技術最大的用武之地。相比當年使用者需要學習如何使用搜尋引擎而言,今天的使用者完全可以直接輸入任何想到的需求或者問題,甚至直接通過話筒向百度語音助手提問。譬如使用者可以搜“天氣”、“月曆”、“機票”、“匯率”這樣的模糊需求,百度會直接在搜尋結果呈現結果。再比如使用者可以搜尋“5000港币是多少人民币”百度結果中會直接呈現一個電腦。使用者還可以搜尋“演過還珠格格的台灣演員”“張柏芝的兒子的爺爺是誰”這樣的複雜問題,百度都可以準确地回答。

基于知識圖譜技術的“百度知心”同樣處處用到NLP技術。知識圖譜是讓搜尋引擎結果可以聯想出更多相關結構化資訊技術,百度結果頁面右側的結構化資訊便是知識圖譜結果集。舉個例子,使用者搜尋“虎嗅網”搜尋引擎右側便會展示與之相似的其他科技媒體譬如“36kr”。使用者搜尋’青藏高原’和’小威’的時候,知心右側都會推薦‘李娜’,但前者推薦的是歌唱家李娜,後者推薦的是網球明星李娜,這便是基于NLP的實體消歧技術。

深度問答技術則是機遇NLP技術和深度學習技術的問答産品。百度出品的智能問答機器人在江蘇衛視《芝麻開門》節目中取得了卓越成就,答題準确率遠超人類選手,正是得益于百度深厚的知識沉澱以及百度對使用者問題的精準了解。不過這項技術并不隻是用于比賽,在百度語音助手、百度知道以及百度搜尋等産品之中,深度問答技術均被廣泛應用,它可以精準了解使用者的複雜問題,并且可以結合上下文、結合場景對問題做出不同了解。

例如,當我們在百度中搜尋“花生發芽了還能吃嗎”,得到的答案已不再是網際網路上五花八門的原始網頁答案,而是讓人一目了然的彙總式答案摘要。除了這樣的“一問一答”,使用者還可以與百度對話,問它一個又一個問題,NLP最終可以讓使用者使用自然語言進行搜尋,并且采用多輪互動的方式來逐漸澄清和滿足需求,進而完成深度決策型的搜尋任務。百度NLP團隊研發的“互動搜尋技術”便可以做到多輪問答,而“多模(multi-modal)互動技術”則可以讓使用者通過文字、語音、圖檔、LBS等多種輸入形式進行更加人性化、更加簡單易用的搜尋,未來擴充到通過視訊作為輸入進行搜尋也是有可能的。

深度問答技術還可以應用到許多垂直領域。比如與教育結合的“百度考霸”就成為高中生填報高校志願的得力助手,它今年一共服務畢業生550萬次,幫助他們更加高效、簡單和全面地了解高校和專業。再比如與醫療健康結合就可以實作尋醫問藥,我們可以搜尋“頭疼怎麼辦”百度便會給出結構化的疑似病症清單甚至用藥建議。在“泛需求搜尋”上百度可以很好地了解使用者的模糊需求,在百度中搜尋“家常菜”,搜尋引擎将傳回的3萬多種家常菜按照“菜系”、“功效”和“口味”進行歸類展現,層次分明、一目了然。

不論是搜尋引擎還是知識圖譜還是深度問答,最關鍵的技術點就是NLP。NLP做好了還将形成壁壘,因為盡管對手可以做出類似的搜尋頻道或者子産品,但在智能化、準确性以及易用性上要趕上百度卻并不容易。NLP技術即需要資料積累,在算法的積累、團隊的沉澱上都需要時間,後來者很難追平。

NLP未來對百度會愈發重要

NLP(自然語言處理)技術對百度而言隻會更加重要。

搜尋引擎的職責已經不單單是幫助使用者找到答案,而是幫助使用者找到所求,連接配接人與實體世界的服務,成為使用者的智能化助理。無限接近人類的智慧是人類賦予機器的終極目标。對于百度而言,一是要從搜尋引擎上升到服務連接配接平台,二是要大力發展人工智能、大資料、深度學習等面向未來的新興技術,這些目标均離不開“了解使用者需求、智能化地組織資訊和服務”,這均十分依賴NLP技術。

NLP技術本身也在更新。從名稱來看它是語言處理技術,能夠了解文本似乎就夠了。實際上現在它要了解的是語言所表征的人類的需求。除了文字之外,語音、圖像也是人類需求表達的載體。同時,使用者所處的環境(LBS)、使用者的個人特征(使用者畫像)、使用者送出請求的時間也會賦予同一個請求不同的目的。是以,NLP技術在處理使用者語言本身的時候,還需要結合上述因素去了解使用者背後的需求。看上去NLP正在更新成為一項全新的“人類資訊識别和需求了解技術”。

技術是百度的基因,技術和資料積累形成的使用者、産品和品牌優勢是百度的護城河。NLP則是百度技術的基石,它賦予了百度技術“智能化”的基因,在過去智能化的搜尋讓百度越來越好用為其在中文搜尋市場奠定了王者地位;在未來智能化連接配接使用者與服務成為百度與阿裡騰訊等巨頭最大的區隔時,NLP技術隻會更加重要。是以毫不誇張地說,NLP就是百度的技術基石。

繼續閱讀