天天看點

專訪iDST NLP負責人——淘寶内容搜尋、評價歸納的幕後英雄

Artificial Intelligence團隊(以下簡稱iDST NLP團隊)負責人司羅,他将在10月的雲栖大會上分享NLP領域的前言趨勢以及阿裡巴巴在這一領域的成果。

專訪iDST NLP負責人——淘寶内容搜尋、評價歸納的幕後英雄

司羅是最早一批從學術界轉向工業界的人工智能科學家之一。

2006年,卡内基梅隆大學博士畢業的司羅進入另一所人工智能頂級高校——普渡大學計算機系任教,在這期間,他專注于資訊檢索、機器學習、自然語言處理等領域的研究,他是一位高産的學術專家,短短幾年就發表了100餘篇論文;2012年,成為普度大學計算機系終身教授後,一舉奠定了司羅在學術圈的地位,他先後擔任了ACM資訊系統(TOIS),ACM 互動資訊系統(TIIS)和資訊處理與管理(IPM)編輯委員會的副主編,多次在國際學術會議擔任重要職務(如2016 ACM CIKM 技術主席等)

專訪iDST NLP負責人——淘寶内容搜尋、評價歸納的幕後英雄

但出人意料的是,2014年司羅結束了8年的學術生涯,成為阿裡人工智能科學家陣營的一員。

對于這樣的轉變,他表示并不陌生。

“我在普渡大學任教期間就對技術應用場景和産品化、商業化的工作非常感興趣,當時也有很多和工業界的合作。”司羅如此表示。

據雲栖社群了解,司羅主導的 20 餘個項目得到了美國政府以及雅虎、谷歌等工業界的資助,例如美國國家科學基金會成就獎、雅虎,谷歌研究獎等。

司羅在學術研究上的成功以及對人工智能商業化的了解讓整個阿裡巴巴集團的自然語言處理、搜尋和推薦能力提升了一個台階。去年11月,他帶領的團隊在資訊檢索、知識管理以及資料庫領域的全球頂尖學術會議CIKM Cup競賽中力壓對手獲得冠軍,相比主辦方提供的搜尋排序基準名額,該團隊提升了21.28%。

目前,iDST NLP團隊主要分布在美國西雅圖、矽谷以及杭州三地,他們用算法服務了阿裡集團近十個DAU上千萬的場景——淘寶評價、内容搜尋、資訊推薦等;這是一支戰鬥力極強的團隊,他們全部來自伯克利、普林斯頓、卡内基梅隆、清華、北大以及中科大等知名院校,不僅能做前沿學術研究,也善于把技術落地到實際應用場景中。

作為阿裡iDST大團隊的一部分<b>,</b>iDST NLP主要為阿裡大生态系統提供自然語言處理相關的基礎技術,以及垂直應用的技術支援。但在司羅眼中還有更長遠的目标——通過技術輸出賦能消費者、客戶以及合作夥伴。

以下是采訪實錄:

<b>雲栖社群:介紹一下</b><b>iDST </b><b>Natural Artificial Intelligence</b><b>團隊。</b>

司羅:衆所周知,整個iDST團隊在金榕老師帶領下涵蓋了人工智能幾個重要的方向,包括語音、圖像和NLP等。iDST NLP團隊成員主要分布在“兩岸三地”(美國的西雅圖、矽谷和中國杭州),從地域來看,美國地區由經驗豐富的專家組成,而國内更多的是年輕、有朝氣、能夠貼近業務的專家和工程師,他們都來自國内外一流的大學,例如伯克利、普林斯頓、卡内基梅隆大學、清華、北大以及中科大等。

除此之外,我們現在還在籌建阿裡在新加坡的研發中心,是以未來會形成三岸四地的格局。

iDST NLP團隊主要為阿裡大生态系統提供國際化多語言自然語言處理相關的基礎技術,以及重要的自然語言垂直應用的技術支援,未來也希望把阿裡的自然語言技術發揚光大,通過技術輸出賦能消費者、客戶以及合作夥伴。

團隊在全球頂級的大賽中也取得了很多突破,例如在CIKMCUP競賽中我們獲得了冠軍,相比主辦方提供的搜尋排序基準名額,我們團隊提升了21.28%,這是一個非常了不起的成績。

<b>雲栖社群:</b><b>iDST NLP</b><b>團隊的定位是什麼,重點在做哪些項目?</b>

司羅:剛才談到iDST NLP團隊主要為整個阿裡大生态提供自然語言處理技術,同時也會對外賦能、處理相關的垂直應用。

從基礎技術角度來看,去年年底我們開始搭建AliNLP技術平台,這個平台涵蓋了很多自然語言處理的技術,例如詞法分析、句法分析還有文檔分析等。

AliNLP平台從去年年底開始研發,到今年年初開始上線,經過了内部團隊不斷的優化,目前為整個阿裡大生态提供了一個基礎的NLP算法。AliNLP平台它所産生的價值和影響力也在不斷提升,到現在已經超過了90個業務方,每天的調用量超過了四百億次。這裡先做個預告,AliNLP平台正在上雲的過程中,初期會通過阿裡雲的輸出幾個重要的功能,包括分詞、實體識别、情感分析和文本反垃圾等,敬請期待。

除此之外,我們還在搭建另一個基礎技術平台——阿裡IE平台(Information Extraction,資訊抽取平台)。因為很多場景下的文本是非結構化的,這就需要把它變成一個結構化的知識表示,例如拍賣場景中的委托書,我們需要從委托書中抽出什麼是被委托的商品,拍賣的委托方是誰,希望中标的價格是多少……隻有把這些資訊有效的提取出來,才能建立搜尋、推薦等功能。搭建阿裡IE平台也是希望把基礎算法能力在整個阿裡集團的上層應用發揮作用。

當然,在阿裡巴巴集團内部,我們也是很多自然語言相關業務的算法提供者,例如阿裡電商環境的資訊搜尋(淘寶頭條的搜尋、手淘淘攻略的搜尋);還有整個淘系内部的評價,不僅要去掉涉黃涉暴力的内容,還需要知道消費者表達的是正面的評價還是負面的評價。

阿裡集團内部有很多場景都涉及到自然語言處理相關的技術,都需要我們來提供算法的支援。

目前,團隊還是集團内部很多重要業務的算法合作方,例如我們和和阿裡小蜜合作研發了機器閱讀了解的技術。

是以總結起來,我們在做三件事:基礎技術平台的産品;重要業務算法的提供,淘寶内部的評價、資訊的搜尋與推薦;重要技術的算法貢獻。

<b>雲栖社群:</b><b>AliNLP</b><b>平台上線前後遇到了哪些挑戰?</b>

司羅:毋庸置疑,自然語言處理在很多應用場景當中都很重要,但是過去沒有一個系統性的規劃。我們是從去年12月份開始規劃做這樣一個平台,希望把自然語言處理重要的功能承接下來。

雖然AliNLP的願景很美好,但是最開始遇到了很多挑戰,因為團隊中的很多工程師是做業務的,但是AliNLP更像是技術導向的平台,是以我們必須花很多時間讓更太多的人參與進來。在團隊組建好後,就開始給項目做規劃,因為這是一個從無到有的産品,大家必須把做出更多的嘗試,從哪個角度出發,用什麼樣的技術能達到比較好的效果等等。

從最初項目的規劃到平台的上線确實花了很多的時間和精力,但是我覺得這個時間和精力是很值得的。

<b>雲栖社群:相比計算機視覺,</b><b>NLP</b><b>的發展相對較慢,從目前來看</b><b>NLP</b><b>發展到了一個什麼樣的階段?</b>

司羅:我認為NLP是既成熟又有活力,既實用又有技術遠景的領域。

事實上,最早從六七十年代開始,自然語言處理都是采用“規則”方法, 80年代後随着大的資料集的出現,統計自然語言處理方法便逐漸成為了主流;最近幾年,随着深度學習的崛起,NLP也取得了快速的發展,是以我認為它是一個非常成熟的領域;為什麼說有活力呢?最近兩三年創業最火的方向之一就是Chatbot,這是和自然語言處理緊密相連的領域。

既實用是指現在自然語言處理已經在很多領域都有很廣闊的應用了,以阿裡集團為例,幾乎阿裡的每個重要的産品都跟自然語言處理相關,例如商品的搜尋和推薦,它是一個非常實用的一個學科;當然,它也是非常有技術挑戰的學科,真正意義上的語義了解(能夠分析出說話的背景,它要達到什麼樣的目的等等)不是靠資料上的關系分析就能實作的,例如siri、Cortana都是基于資料驅動的方式來實作語義了解,但它無法像人一樣去了解。

是以,自然語言處理是實作完整人工智能或者叫強人工智能的一個必要的技術,而現在離這一遠景還有很長的距離,這需要工業界和學術界共同的努力。

<b>雲栖社群:</b><b>iDST NLP</b><b>團隊現在做出了哪些的突破?</b>

司羅:iDST NLP團隊現在還是基于我們本身的業務以及場景為出發點,一個有代表性的是情感分析上的領先,例如,電商場景的情感分析和其他友商提供的産品相比大約有10%的準确率的優勢,當然一方面原因是阿裡本身就擁有大量的電商資料,但更多的是因為我們做了很多通用領域的輿情,例如把技術用在一些學術界的标準資料集上,在電影評價上的标準資料集,我們也比學術界的最好成績能領先2%以上。

另外,我們還是第一家真正大規模的把機器閱讀了解應用到實際電商場景中的企業。是以在應用的實用性上,例如高效的模型的設計、高效的模型的實作都做了開創性的工作。最後,是自然語言生成。自然語言生成有兩種方式,一種就叫抽取式,一種叫産生式,我們在這兩方面都做了很多嘗試:抽取式典型的例子是電商标題的改寫,能夠比較顯著的提升點選率和轉化率;生成式方式,我們現在是和阿裡媽媽合作,它可以幫助聯盟的使用者更好的把他們所挑選出的商品在投放到社交管道。

<b>雲栖社群:您覺得創業企業如何在</b><b>NLP</b><b>領域找到突破口?</b>

司羅:創業企業特别是小企業要取得成功,我覺得有兩種方式相對來說比較容易取得成功:一種隻專注于某項具體的技術,就是把某一項或者一兩項技術做深,做到真正的領先,創業企業不适合做一個完整的技術平台,較難有大量的投入,甚至大量的資料;第二種方式是專注于一個領域,自然語言處理得應用很廣,例如法律文書的自然語言了解和微信閑聊的差距是巨大的,還有從專利中挖掘資訊做競品分析也有市場空間,初創企業可以考慮專注這些細分領域,面面俱到反而沒有自己的特色。

<b>雲栖社群:未來,</b><b>NLP</b><b>會朝什麼方向發展?</b>

司羅:雖然深度學習是非常有價值的技術方向,它推動了自然語言處理的發展,但是我是覺得靠分步學習,或者統計自然語言了解是遠遠不夠的,我們一定要把人類的知識表示,和對知識的了解更好的融入到技術當中,這樣才能更有效,真正的達到自然語言了解本身的目标,否則就是光靠資料驅動,剛才也有提到,是以我認為把這一趨勢的研究和資料結合是自然語言未來發展的重要課題。

<b>雲栖社群:您希望在下個月的杭州雲栖大會上關注哪些議題?屆時,您會分享什麼話題?</b>

司羅:首先,是機器學習、自然語言處理相關的技術問題;其次,業務上的議題我也很感興趣,我非常希望通過這屆雲栖大會了解到各行各業對自然語言處理技術的需求,這樣才能夠更充分的了解客戶的需求,做到有的放矢,才能讓然語言處理的技術發揮最大的價值。

<a href="https://yq.aliyun.com/articles/205675" target="_blank">專訪阿裡雲易立:從實踐積累到需求沉澱,容器技術必将引領主流</a>

<a href="https://yq.aliyun.com/articles/204339" target="_blank">專訪阿裡雲異構計算負責人:異構計算,GPU、FPGA、ASIC晶片将三分天下</a>

<a href="https://yq.aliyun.com/articles/201988" target="_blank">專訪阿裡雲量子技術首席科學家施堯耘:量子計算前途輝煌而任重道遠</a>

<a href="https://yq.aliyun.com/articles/191638" target="_blank">專訪iDST華先勝:城市大腦,對城市的全量、實時認知和搜尋</a>

<a href="https://yq.aliyun.com/articles/152072" target="_blank">雲栖大會變遷史(2009-2017)</a>

<a href="https://yq.aliyun.com/articles/164548" target="_blank">圖說曆屆雲栖大會精彩内容(長圖鑒賞)</a>

<a href="https://yq.aliyun.com/articles/161183" target="_blank">【印象】2017雲栖大會城市峰會:上海、南京、成都等</a>

繼續閱讀