天天看點

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

上周,關于阿裡巴巴成立 AI Labs 的消息不胫而走。事實上,該機構在 2016 年低調成立,主要負責阿裡巴巴集團旗下消費級 AI 産品研發,與 iDST 的定位有所差別。從機器之心收到的釋出會邀請函及其他公開消息看,7 月 5 日,該機構将釋出第一款實體産品智能音箱裝置,它能夠了解中文語音指令,還能讓阿裡巴巴的使用者在淘寶上購物,短期内僅面向中國市場發售。

與此同時,這次為阿裡巴巴智能音箱提供技術支援的團隊也首次曝光了其自然語言處理成果。一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智能問答及分類中的應用》被國際資料挖掘頂會 KDD2017 收錄。在自然語言處理的兩個核心應用場景------文本分類和智能問答上,阿裡巴巴這套「即刻喚醒,即刻識别」神經網絡模型的智能問答準确率相比微軟的 wikiqa 資料集和 IBM 的 insuranceqa 資料集提升了 2-4%,是目前業内最高水準。

該論文的作者、阿裡巴巴人工智能實驗室資深算法工程師王成龍對機器之心談到這項技術的挑戰,「初期相關模型訓練所需的語料較缺乏,在開發的同時,我們積累起來一批獨有、海量的中文語料,有力支援了我們的模型訓練。神經網絡模型的計算複雜度比較高,性能問題是線上應用的一個主要瓶頸,這一方面,我們針對神經網絡模型的線上部署做了很多的優化工作,保證在大并發請求下依賴能有較好的性能。」

另一方面,基于神經網絡的 NLP 方法都依賴分詞,英文的分詞是天然的,而中文是以「字」為機關,這也使新品技術開發的難度有所提高。王成龍說:「英文的句子結構則更加清晰,而漢語重意合而不重形式,句子結構比較松散,中文相關标準語料集的缺失也是一大瓶頸。」

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

KDD 2017 将于今年 8 月 13 日召開

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

阿裡巴巴收到 KDD2017 的邀請郵件

論文顯示,阿裡巴巴研發了一款名為 conv-RNN 的通用推理混合架構,用于文本的語義模組化,無縫內建了從卷積和循環神經網絡結構中提取語言資訊的不同方面的優點進而加強新架構的了解力。可有效甄别使用者的對話意圖,自主決策對話中的政策,實作「自然語言無縫了解,跨領域自由切換」

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

阿裡巴巴首創的 conv-RNN 混合架構

業界普遍認為,自然語言處理是人工智能中最難的部分,也是決定 AI 是否「智能」的關鍵因素。王成龍在接受機器之心采訪時說,「阿裡巴巴在語音互動技術方面已經深耕多年,并已在多類産品中應用。」

針對這篇論文,該團隊向機器之心釋出了獨家技術解讀:

語義編碼的意義

自然語言這一被人類發明的信号系統,通常被我們歸為一種「非結構化資料」。其原因在于,自然語言文本是由一堆符号(token)順序拼接而成的不定長序列,很難直接轉變為計算機所能了解的數值型資料,因而無法直接進行進一步的計算處理。語義編碼的目标即在于如何對這種符号序列進行數值化編碼,以便于進一步地提取和應用其中所蘊含的豐富資訊。語義編碼是所有自然語言處理(Natural Language Processing,NLP)工作的「第一步「,同時也很大程度地決定了後續應用的效果

傳統的文本編碼方式通常将其當作離散型資料,即将每個單詞(符号)作為一個獨立的離散型數值,如 Bag-of-Words (BOW)、TF-IDF 等。但是這類方法忽略了單詞與單詞之間的語義關聯性,同時也難以對單詞的順序及上下文依賴資訊進行有效編碼。近幾年,深度學習技術被廣泛的應用于 NLP 領域,并在衆多算法命題上取得了突破。其本質在于,深度神經網絡在特征提取(語義編碼)上具有極大的優勢。

已有方法的瓶頸

目前,較為常用的文本語義編碼模型包括循環神經網絡(Recurrent Neural Network,RNN)以及卷積神經網絡(Convolution Neural Network,CNN)。

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

循環神經網絡是應用最為廣泛的序列資料神經網絡模組化方法。相對于傳統的前向神經網絡,循環神經網絡的主要特點在于,在每個時刻,其輸出不僅要依賴于目前時刻的輸入,還要考慮上一時刻的模型「狀态」。通過對曆史狀态的依賴,RNN 模型能夠有效的表征文本資料的上下文依存資訊。但是,RNN 的「宏偉目标」-有效管理任意跨度的資訊傳遞-往往使得其難以有效的訓練,進而也限制了其在具體應用中的效果。

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

另一被廣泛應用的語義編碼模型是 CNN 模型。傳統的 CNN 模組化通常用于解決圖像的特征提取。但近年來,衆多學者嘗試将其應用到文本處理領域。CNN 的模型結構來源于對人類視覺神經信号處理機制的模拟。與文本資料不同的是,圖像資料通常被看做一個二維資料結構,而相應的 CNN 模型也更适于提取其中的「局部」特征。但與圖像資料相似的是,文本資料中的上下文依賴通常可以被簡化為一種「局部」資訊,即傳統 NLP 領域中的 N-gram 語言模型:文本中一個詞的具體含義,通常隻和上文有限距離内的幾個詞相關。是以,CNN 中的「局部卷積」資訊處理機制同樣可以應用于文本資料中,用于提取文本中的 N-gram 特征。但是,與圖像資訊不同的是,文本資料中的上下文依賴關系有可能會經曆一個很長的跨度。而 CNN 隻能對固定範圍内的局部依存關系進行模組化。是以,CNN 語義編碼方法也存在一定的缺陷。

Conv-RNN

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

近期,我們團隊與資料技術及産品部兄弟團隊共同投稿一篇 KDD 文章,其中我們提出了一種新的文本語義編碼算法 conv-RNN(如圖 2 所示)。該模型在參考了循環神經網絡與卷積神經網絡的同時,進行了進一步的文本語義編碼優化。conv-RNN 不僅保留了 RNN 模型對不定長跨度的上下文依賴的編碼能力,還利用了 CNN 模型中常用的最大池化機制,用以更加簡潔地從文本資料所蘊含的豐富資訊中抽離出不同的資訊表征。此外,在 conv-RNN 的基礎上,我們還提出了一種新的智能問答(answer selection)模型以及文本分類(sentence classification)模型。為了充分驗證所提出的模型的效果,我們分别選取了智能問答及文本分類領域的一批标準資料集,與目前業界的最新成果進行了對比驗證。

智能問答

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

智能問答是目前比較火的一個 NLP 應用領域,也被認為是 NLP 研究最有可能于近期實作商業化落地的一個領域。在 conv-RNN 語義編碼算法基礎之上,我們進一步提出了一種新的問答比對模型。此外,在該模型中,我們還引入了一種「權值共享」機制以及 attention 方法,用以進一步提升 question-answer 比對效果。

阿裡智能音箱釋出前夕,首次公布自然語言處理成果
阿裡智能音箱釋出前夕,首次公布自然語言處理成果

我們選用了微軟釋出的 WikiQA 資料集以及 IBM 釋出的 InsuranceQA 資料集用來對比所提出的模型與業界的 state-of-the-art 方法,以驗證該模型的有效性。由結果可知,在 WikiQA 資料集上,conv-RNN 擊敗了所有 state-of-the-art 方法,并且在 MAP(mean average precision)和 MRR(mean reciprocal rank)兩個名額上均取得了較大的提升。在 InsuranceQA 資料集上,conv-RNN 在 dev 和 test2 兩個測試集上均取得了較大的提升,僅在 test1 上略低于 AP-BILSTM。

文本分類

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

在 conv-RNN 的基礎上,我們進一步提出了一種新的文本分類模型(如圖 4 所示)。為了驗證該模型的有效性,我們選取了業界常用的 5 個标準的分類資料集:Movie Review(MR);Stanford Sentiment Treebank-1(SST-1);Stanford Sentiment Treebank-2(SST-2);Subj;IMDB。由對比結果可知,conv-RNN 在前 4 個資料集上均超越了各類 state-of-the-art 方法。

阿裡智能音箱釋出前夕,首次公布自然語言處理成果

總結

語義編碼技術是所有 NLP 工作的基礎,也是目前 NLP 技術進一步發展的主要「瓶頸」所在。我們在語義了解以及更上層的智能問答、多輪人機互動方向已經有了一定的技術積累,後續還會繼續在這一方向發力,以期能夠盡快做出為大衆服務的人工智能産品。

本文為機器之心報道,轉載請聯系本公衆号獲得授權。

繼續閱讀