天天看點

英特爾劉茵茵:持續優化NLP服務,助推人工智能創新和落地

去年六月,英特爾人工智能産品事業部(AIPG)資料科學主任、首席工程師劉茵茵在機器之心主辦的第一屆全球機器智能峰會(GMIS 2017)上發表了《演變中的人工智能,與模型俱進》主題演講,探讨了深度學習如何用同一種模型為不同行業提供解決方案,以及如何讓各個行業的專家建議推動整個人工智能生态系統的發展。會後,劉茵茵也接受了機器之心的專訪,分享了英特爾在 AI 領域的整體規劃,以及 AIPG 部門如何計劃通過建構相應的架構、資源庫等實作這一目标。

英特爾劉茵茵:持續優化NLP服務,助推人工智能創新和落地
日前,機器之心受邀參加了由英特爾與 O'Reilly 聯合主辦的中國人工智能大會,并再次與劉茵茵進行了深入的對話,我們以英特爾在自然語言處理方面的工作為切入點,聊了聊英特爾是如何建構自然語言基礎子產品能力,為企業使用者提供人工智能服務的,以下是對話實錄。

自然語言處理用例:主題分析、趨勢分析與情緒分析

機器之心:很高興再次見到您!如今一年時間過去了,AIPG 也完成了很多工作,尤其是在自然語言方面。您在演講中提到了三個客戶案例,分别是主題分析、趨勢分析和情緒分析。首先,能否從這三個案例出發,為我們介紹一下 AIPG 定義問題與解決問題的流程呢?

劉茵茵:首先是主題分析。主題分析的主要目标是為需要處理大量專業領域文檔的客戶進行以段落為機關的主題連接配接,讓客戶能夠集中閱讀自己感興趣的、與自身工作相關的内容。深度學習網絡接收文檔句子/ 作為輸入,然後将其映射到數十個主題上,輸出給使用者。

我們的團隊先和客戶進行溝通,了解其應用場景并确定主題:在實際工作中,他們需要處理的文檔資料是什麼樣子的?有哪些資源可以輔助資料标注過程?此外,還要了解實際應用過程中的資料流程(pipeline)、延遲要求、存儲要求,最終根據所有的需求從英特爾的整套工具中選擇子產品,通過一些設計轉化成算法,再轉化成一套整體方案。

英特爾劉茵茵:持續優化NLP服務,助推人工智能創新和落地

機器之心:在擷取訓練資料方面,主題分析并不是一個天然存在有标注資料的任務,如何在初期收集有标注的訓練集呢?

劉茵茵:首先我們鼓勵客戶在初期可以做一些資料方面的投資,這樣可以更有效的利用英特爾多樣的深度學習産品。充足的資料相當于一個能夠嘗試多種算法的環境,我們可以使用多種算法進行試驗,找到效果最好的方法。其次,在标注資料不足的情況下,也可以利用無監督學習方法進行預訓練。尤其是在自然語言領域裡,語言的連貫性特點使我們可以根據其上下文關系進行無需額外标注的特征提取和特征學習等無監督預訓練。英特爾也確定在架構裡支援各類不同的訓練方式。

機器之心:趨勢分析解決哪些問題呢?

劉茵茵:趨勢分析的分析對象是文本庫,目标是從文本庫中提取關鍵的名詞短語(noun phrase),然後通過衡量每個短語的相關性和重要性并進行權重打分,來比較不同文本庫之間的趨勢與變化。我們已經将算法用于學術期刊的趨勢分析,旨在讓初學者,尤其是剛剛開始研究深度學習的資料科學工作者能夠看到領域裡一些概念在學術期刊彙總的熱度與趨勢。算法也可以用于其他領域,例如産品分析、市場分析、熱門話題分析,都是理想的應用場景。

英特爾劉茵茵:持續優化NLP服務,助推人工智能創新和落地

機器之心:情緒分析的應用場景有哪些?

劉茵茵:影視作品評論是一個比較直覺的例子。也有很多合作夥伴其希望在商業角度進行産品評估或者是競争對手分析。是以模型将使用者評價作為輸入,在進行文法結構分析(parsing)的基礎上,進行命名實體識别(name entity recognition),然後通過名詞和形容詞連接配接,給出細粒度的(fine-grid)、多方面的評價分析,進而為合作夥伴提供明确的回報以優化自己的産品設計。

英特爾劉茵茵:持續優化NLP服務,助推人工智能創新和落地

機器之心:在使用深度學習模型完成這些具體用例的過程中,有哪些不一樣的體會呢?

劉茵茵:一個是深度學習子產品的可共享性。實際上,主題分析、趨勢分析和情緒分析模型都是由我們的自然語言堆棧中的衆多底層子產品組成的。例如,趨勢分析的第一個步驟是「名詞短語提取」(noun phrase extraction),其目前最優(state-of-the-art)的模型結構是「詞嵌入(word embedding)+ 深層 LSTM」,而這也是主題抽取任務中最常用的模型結構,更是情緒分析中文法結構分析的目前最優模型。是以,雖然目标不同、功能不同,但模型中的非常多子產品是能夠共享的。子產品的可共享性讓我們在每做一個客戶案例的同時都為建立 NLP 能力堆棧積累了非常可觀的結構經驗,而作為企業使用者,如果團隊對子產品的應用有基本的了解,也會很快利用同樣的子產品來搭建新的方案。

另外一個則是領域的專門性。例如在情緒分析中,資料科學人員觀察到的一個非常有趣的現象是,在不同的領域中,同樣的形容詞可能表達截然不同的意義。可能一個形容詞在形容影視作品時是褒義詞,然而如果用來形容産品可能就變成了貶義詞。是以,設計出有效的機制,能夠引入領域内的專家來對模型進行領域專門的調整,也是非常重要的。

AIPG 的角色:完成資料科學與技術服務,最終提供開源元件與能力

機器之心:英特爾的資料科學專家和領域内的專家在使用者案例的設計與搭建過程中分别承擔着怎樣的角色?

劉茵茵:人工智能仍然處在起步階段,算法能夠觸及的領域在不斷擴充,而很多領域專家也剛剛開始逐漸了解如何利用 AI 幫助他們解決實際問題。是以,在進行方案設計前,我們要和領域專家進行多次溝通,了解他們的問題,确定 AI 是否可以幫助解決這個特定問題;如果不可以,是否可以将問題轉換一下,變成一個目前的 AI 可以幫助解決的問題。

領域專家在這個過程中貢獻出自己對業務的了解:希望從哪種角度收集資料,希望看到算法給出何種結果。有時候,他們需要的并不是情感分析或者趨勢分析這種已經有成熟定義和解決方案的模型,而是結合不同的深度學習子產品,組合成一個他們需要的全新的東西。英特爾在此基礎上進行資料科學工作和技術服務,在了解了問題之後,判斷何種模型可以幫助他們,再提供算法設計,并将整個算法連接配接到英特爾的深度學習架構乃至硬體上面。

機器之心:自然語言問題對架構乃至硬體層面提出了哪些獨特的需求呢?

劉茵茵:自然語言處理是一個很有挑戰、很有發展空間的領域。大部分自然語言任務需要用遞歸神經網絡(RNN)處理時間序列(temporal sequence)、進行循環展開,這是一個很難并行的過程,是以在硬體方面,對從記憶體中快速提取資料的能力、記憶體能夠支援的模型容量等都有較高要求;在架構方面,也有與可并行模型截然不同的優化需求。是以英特爾在高層直接優化(HLO,提供多核架構優化)和 nGaph(提供架構和底層硬體連接配接優化)層面都會對衆多 NLP 模型進行持續的優化和基準衡量(benchmarking),確定其在硬體以及架構層面獲得最好的支援。

機器之心:您在演講以及剛才的采訪中多次提到了「堆棧」的概念,能具體解釋一下「堆棧」是什麼嗎?

劉茵茵:「堆棧」與其說是一個子產品集合,不如說是一種看待 NLP 問題的觀點和認識。英特爾資料科學團隊和研究團隊自成立以來,以 AI Lab 的形式解決了許多方面的問題,在計算機視覺、NLP、機器人學習乃至時間序列學習方面都積累了許多的能力。

英特爾劉茵茵:持續優化NLP服務,助推人工智能創新和落地

在 NLP 方面,我們希望在積累了大量經驗,有了自己的了解後,能夠把不同元件組合在一起,可以通過英特爾的直接優化或者 nGraph,以開源庫的形式傳回給公衆。無論是機器翻譯、命名實體識别還是主題分析,都能夠通過開源的架構,以平台的形式将做法示範給大家。

英特爾的戰略目标:充分利用軟硬體聯合優化優勢

機器之心:目前,AI Lab 有哪些主要目标,又有哪些典型使用者?

劉茵茵:AI Lab 主要緻力于開發具有創新性的算法,進行創新性的研究。它的目标有以下幾層。首先我們希望能夠自行進行新算法的研究,資料科學人員在應用最新的、最好的算法的同時,也會産生衆多的關于如何改進這些算法的想法,并且希望把它們變成現實。下一個目标是,将算法推薦給合适的使用者,用以解決一些之前無法解決的事記問題。現在有一些合作夥伴來自英特爾内部,例如之前我們幫英特爾的制造部門,對晶片圖像進行分類和分割,用以檢測晶片内部是否有缺陷。基于深度學習的方法能夠同時提高傳統方法的速度和準确率。在今後我們也會将用例以論文的形式分享出來。

機器之心:英特爾 AI Lab 在中國進行了哪些實踐?AI Lab 期望未來在中國獲得何種發展?

劉茵茵:英特爾在中國非常活躍地參與了衆多讨論。在中國,有很多研究所、研究院以及大學,通過各種方式了解到英特爾正在進行的應用研究。英特爾為他們提供了在軟體架構和最新的優化算法方面的一些支援,幫助學者了解如何在原型的基礎上擴充模型解決實際問題,而他們也為英特爾提供了一些特别的資料與用例。

如今,衆多英特爾硬體産品被廣泛應用在各行各業中,如果我們能夠充分地了解這些硬體的長處、短處,适用之處,然後設計出能夠根據其特性有效地實施和部署的方案,就可以高效地把一些早期的好的想法變成最終可以解決問題的方案。

機器之心:現在一個普世的觀點是,資料、算法和計算力是 AI 實踐上的三個關鍵節點,這三個方面重要性相當,且很難用一方面的長處彌補另一方面的短處。英特爾在這幾方面的有哪些優勢?

劉茵茵:這三個元素都是非常重要的,也是需要緊密結合的。英特爾人工智能産品事業部的資料科學家,不單單是在算法方面有豐富的經驗,也能夠将算法與算力緊密契合,找到最适合特定應用場景的組合。

資料則永遠是一個非常關鍵,也非常棘手的部分。很多時候我們要想辦法如何能夠不局限于監督學習,充分利用無監督學習,例如在資料使用方面,可以努力找尋一些隐藏的資料來源和資料關系來加強無監督學習、配合監督學習。

前瞻:從學界到業界,以及英特爾未來一年規劃

機器之心:過去的一年裡,學術界有哪些新的方法或者趨勢讓你覺得會對自然語言處理的實踐應用産生新的影響?

劉茵茵:一個是名為「稀疏」的做法。很多時候人們發現密集型的深度學習網絡能夠被更大、更稀疏的模型所取代。這些大而稀疏的模型,在各種軟體和硬體良好配合的前提下,能夠極大提升最終的準确度。這樣的模型雖然稀疏,但是需要的記憶體并不會是以減小,尤其是大模型通常傾向于與次元更高的資料配合,這要求大型的存儲密集型的硬體對模型進行支援。

例如在英特爾和浙江大學合作的醫療影像案例中,如果記憶體方面受到較多限制,就必須把 CT 影像切割成小塊,在看不到全局的情況下完成分類、分割算法。然而當采用英特爾至強處理器來做,就可以對 2D 全影像乃至 3D 影像行處理,大型的資料加上諸如 U-net 這類大型的深層神經網絡,久而久之,就會大幅度提升精準度。

另外,自然語言相比于計算機視覺還有更大的上升空間,諸多基于深度學習的視覺算法都可以轉而應用到自然語言處理上。比如說計算機視覺中常見的「風格遷移」任務,也可以在離散的、不連續的自然語言資料上進行。

自然語言處理方面和增強學習方面還是有很大的發展空間,最近經常看到一些多模态資料,比如圖像的文本描述,就能利用增強學習訓練一個行動器(agent),逐漸了解如何認知圖像中的一些概念并且能夠描述出來。我認為這是非常基礎而有用的研究,因為它不再将圖像和語言作為單獨的問題處理,而是将圖像、語言等通過各種傳感器集合在一起進行輸入。

機器之心:AI Lab 在新的一年有哪些計劃呢?

劉茵茵:在研究層面,我們希望把一些研究成果通過發表論文、分享白皮書或者開源案例的形式分享給其他的研究員或者從業者。在 NLP 方面,也有很多正在進行中的研究,其中主要緻力于搭建一個較為全面的堆棧,為使用英特爾軟體與硬體的使用者提供一個能力層。希望未來一年能夠更多把成果分享給大家。

繼續閱讀