天天看點

下一代搜尋引擎或将依賴人工智能、衆包和超級計算機

我們所知的WordNet是一個英語“詞彙資料庫”,它将英語單詞以“同義詞集合(synset)”作為一個基本組織機關,集合裡提供詞彙的簡短定義和使用示例,人腦如果有一個已知的概念,就可以在同義詞集合中找到一個适合的詞去表達這個概念。而現在,美國德克薩斯大學奧斯汀分校(UT Austin)的研究人員開發了一種将資訊從WordNet資料庫整合到資訊檢索(IR,information retrieval)系統的方法,便于通用搜尋引擎以及醫學知識或非英國文本等細分領域的研發。

說明之前,我們先來了解一下WordNet——由普林斯頓大學(Princeton)的心理學家、語言學家和計算機工程師聯合設計的一種基于認知語言學的英語詞典【常用的英語詞典分為詞典 (Dictionary) 、分類詞彙彙編 (Thesaurus) 、同義詞和反義詞 (Synonyms and Antonyms) 、慣用法 (Usage)、成語 (Idioms) 、俚語 (Slang) 和詞源 (Etymology) 等等】。

(圖中四種不同詞性的網絡之間并無連接配接,WordNet為其提供連接配接)

它是一個覆寫範圍寬廣的英語詞彙語義網。名詞,動詞,形容詞和副詞各自被組織成一個同義詞的網絡,每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也由各種關系連接配接——它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個“單詞的網絡”。 

為什麼需要一個WordNet? 

計算機提供了一個良好的模式演練場,通過它,人們可以測試各種關于人類認知能力的理論模型。

越來越多的人認識到,一個大的詞庫對自然語言了解,人工智能的各方面研究都具有重要的價值。 

對大規模機器可讀詞典的需求同時也帶來許多基礎問題。首先是如何構造這樣一個詞庫,是手工編制還是機器自動生成?第二,詞典中應包含什麼樣的資訊?第三,詞典應如何設計,即資訊如何組織,以及使用者如何通路?實際上,這些問題涉及到詞典的編纂方法,詞典的内容,詞典的使用方式這一系列非常基礎的問題。

WordNet的内容是什麼?對此公開資料顯示,人們經常區分詞語知識和世界知識,前者展現在詞典中,後者展現在百科全書中,但事實上二者的界限是模糊的。比如hit(“打”)某人是一種帶有敵意的行為,這是百科知識;而hit跟strike(“擊”)多多少少同義,并且hit可以帶一個直接賓語論元,這是詞語知識。但hit的直接賓語應該是固體(而不是像gas這樣的氣體),這是詞語知識還是百科知識就界限模糊了。不過毫無疑問,要了解語言,這兩部分知識是缺一不可的。WordNet相當于一個統籌。 

之是以有了WordNet,也就有了更多相關的應用落地,比如搜尋引擎。那麼,搜尋引擎如何生成相關站點連結清單? 

這要歸功于資訊檢索演變程序中兩股強大力量的發展:人工智能(尤其是自然語言處理)和衆包。

當我們搜尋一個資訊,得到一系列資訊,兩者之間如何對應起來?對于我們所輸入的詞彙與大量預測網頁之間的關系,計算機算法對此的解釋是,主要基于其系統所接受的數以億計的文本訓練中語言連接配接的頻率。 

但這并不是資訊的唯一來源。對于重要話題,專業的注解者會強化其語義關系,調整搜尋結果和生成結果的算法,而通過網絡檢索者(也就是我們)的點選,算法會辨識出哪些連結是最佳結果。

盡管很不可思議,但這個模型帶來的改變世界性的成功,也存在一定缺陷。因為搜尋引擎給出的結果往往不像我們想的那樣“智能”,它們仍然缺乏對人類語言和邏輯的真正了解。除此之外,它們有時會重複、加深我們的搜尋結果中出現的偏差,而不是為我們提供新的資訊或觀點。 

在研究過程中,美國德克薩斯大學奧斯汀分校資訊學院副教授馬修·裡斯(Matthew Lease)提出一個設想:利用計算機和人類大腦的雙重力量,或許能夠創造更加智能的資訊檢索系統方式。 

為了将人工智能與注釋者的見解以及特定領域資源的資訊編碼整合在一起,裡斯教授及其同僚們正在開發一種新的資訊檢索方案,它将有利于通用搜尋引擎以及醫學知識或非英國文本等研發的細分領域。 

8月初,在加拿大溫哥華舉辦的計算機語言學協會年度會議上,裡斯、德克薩斯大學奧斯汀分校和美國東北大學的幾位合作者通過兩篇論文,描述了他們新穎的資訊檢索系統想法。他們的研究借助了德克薩斯進階計算中心的超級計算資源。 

在其中一篇論文中,以博士生An Nguyen為首,他們提出了一種方法,即結合多個注解者輸入的資訊,來确定所有給出的文本中最好的注解方案。他們将這種方法用在了兩個問題的研究上: 

分析自由文本搜尋描述醫學研究的文章,來提取每項研究的細節(例如,健康狀況、患者統計資訊、治療手段和效果),以及通過識别命名實體分析突發新聞報道來識别事件、人以及所涉及的地方。 

裡斯同時提出,在自然語言進行中有一個重要挑戰,即準确地在自由文本中查找所包含的重要資訊,它将使我們把這些資訊提取到資料庫,并将其與其他資料結合在一起,以做出更加智能的決策和新發現。相關解決方案是,裡斯這些研究人員已經大規模地利用衆包來為醫學和新聞文章注解,以確定其智能系統将能夠更加精準地找到每一篇文章中所包含的關鍵資訊。 

習慣上,這些注解曆來都是由相關領域專家完成的。然而,近來,衆包已經成為一個以較低成本擷取大量帶标簽資料的廣受歡迎的方法。可以預見的是,這些來自非專業人士的注解品質要比那些領域專家的注解差,是以評估大衆注解者的可靠性是很有必要的,而且将這些個人注解整合成一套“參考标準”一緻的标簽也很有必要。

裡斯的研究團隊還發現,他們的方法可以訓練神經網絡,這樣它就可以非常準确地預測出命名實體,并在未命名文本中提取相關資訊。這個新方法改進了現有的标記和訓練方法。 

該方法還為每一位從業人員的标簽品質提供了評估,它可以在任務之間轉移,而且對誤差分析和智能路由任務很有用——可以識别出每個特定文本的最佳注解人選。

該圖是一個局部權值共享分類的例子,如圖所示,單詞被分為了兩組,裡斯的研究小組在歸屬于同一組的單詞中,随機地選擇待共享權值後将其嵌入。權值共享限制了系統必須學習的自由參數的數量,提高了該神經模型的效率和精度,并成為了一個靈活結合先驗知識的方法。在這一過程中,他們将最好的人類知識與機器學習結合在了一起。【貢獻者:張烨(Ye Zhang);德州大學奧斯汀分校馬修·裡斯(Matthew Lease);美國東北大學拜倫·C·華萊士(Byron C. Wallace)】

該團隊的另一篇論文以博士生張烨(Ye Zhang)為首,文章提出,自然語言處理(NLP)的神經模型往往會忽視現有資源,例如WordNet詞彙資料庫。 

他們提出了一種方法,可以通過權值共享(weight sharing),利用這些現有的語言資源,為了自動文本分類改善自然語言處理模型。例如,該模型學習将醫學文章進行分類,将描述臨床試驗的研究分類到與臨床醫學問題相關的定義下。

在權值共享下,相似的詞彙将共享一個權值的其中一部分,或指定的數值。權值共享限制了系統必須學習的自由參數的數量,進而提高該神經模型的效率和精度,并起到一個靈活結合先驗知識的方式。在這個過程中,他們将人類知識與機器學習結合在了一起。

“神經網絡模型的參數有很多,并且需要大量的資料去配合它們。”裡斯是以有了一個想法,如果能夠以某種方式推出一些與其他先驗詞彙相關的詞彙,那麼就沒必要非要為每個單獨的詞彙設定一個參數,而可以将多個單詞配合使用一個參數,這樣所需要學習模型的資料就比較少了。這種方法将在沒有大量資料限制的情況下實作深度學習成果。

他們将一種形式的權值共享應用在了一段電影評論的情感分析和與貧血症有關的生物醫學搜尋中。在分類任務上,相比沒有使用權值共享政策的情形,他們的方法不斷獲得了改進性能。 

來自美國東北大學的合作者拜倫·華萊士(Byron Wallace)也認為,這種方式,相當于在資料驅動的神經網絡模型中編寫和開發專業領域知識提供了一個通用架構。”【華萊士曾經也是德州大學奧斯汀分校的教職工,而且也是德克薩斯進階計算中心(TACC)的老使用者。】 

裡斯、華萊士和他們的合作者在德克薩斯進階計算中心的Maverick超級計算機上使用GPU(圖形處理單元)對其機器學習系統進行分析和教育訓練。 

裡斯表示:“訓練神經計算模型處理大資料需要大量的計算時間。而TACC恰好就成為了一處很棒、很合适的資源,而且這不僅僅緣于其強大的可用存儲,還得益于其大量的節點和可适用于神經模型訓練的高效處理速度。” 

據裡斯說,除了GPU,TACC部署了英特爾先進的處理架構,機器學習庫正在迎頭趕上。 

盡管許多深度學習庫一直在對GPU的處理進行高度優化,但從長遠來看,一旦其他架構也進行了優化,它們将變得更快。 

TACC資料密集型計算主管尼爾·加夫尼(Niall Gaffney)表示,在TACC的與Caffe(加州大學伯克利分校開發的深度學習架構,已被充分應用到了英特爾的至強Phi處理器中)進行的前期工作中,他們發現,這些CPU的性能差不多與許多人工智能運作時的CPU性能相當。

加夫尼認為這相當于一個變革,畢竟它将能夠提供更多可以滿足這些研究人員的節點,同時也允許高性能計算機(HPC)使用者可以在他們的分析階段利用人工智能,而無需移動到一個不同的GPU啟用系統。 

通過提高自動資訊提取和文本分類的核心自然語言處理技術,建立在這些技術上的網絡搜尋引擎可以繼續提高。 

裡斯已經收到來自美國國家科學基金會(NSF)、美國博物館和圖書館服務研究院(IMLS)和美國國防進階研究計劃局(DARPA)的資助,來改善跨各種任務、規模和設定的衆包品質。盡管商業網絡搜尋公司投入了大量資源來開發實用、有效的解決方案,但行業的需求迫使裡斯仍然專注于商業應用問題和短期解決方案。這也是為什麼像裡斯這樣的研究人員得以展開這些高風險、潛在變革性的研究之原因。

原文出處:科技行者

轉載請與作者聯系,同時請務必标明文章原始出處和原文連結及本聲明。

繼續閱讀