天天看點

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

特邀嘉賓:謝朋峻--阿裡雲智能進階算法專家

視訊位址:

https://yunqi.aliyun.com/2020/session54?liveId=44650

自然語言智能(NLP)

自然語言智能研究實作人與計算機之間用語言進行有效通信。它是融合語言學、心理學、計算機科學、數學、統計學于一體的科學。它涉及到自然語言和形式化語言的分析、抽取、了解、轉換和産生等多個課題。

人工智能可以分為幾個階段

• 計算智能,指依靠計算強大的算力和海量資料的存儲能力,可以在部分領域超越人類的表現。代表例子就是谷歌的alphago,憑借谷歌TPU的強大算力以及結合類似蒙特卡洛樹搜尋、強化學習等算法,能夠在圍棋的巨大搜尋空間中計算出好的決策路徑,戰勝人類,這是計算智能;

• 感覺智能,是指從無結構化資料中識别出重要的要素。比如給一個query,分析出包含的人民、地名、機構名等;

• 認知智能,是在感覺之上,能夠了解其中要素的含義以及進行一些推理。比如“謝霆鋒是誰的兒子 誰是謝霆鋒的兒子”兩句話。詞和實體都差不多,但語義差别很多。這是認知智能要解決的問題;

• 創造智能,比如計算機指能夠了解語義的基礎上,創造出符合常識、語義、邏輯的句子。比如自動寫出行雲流水的小說、創造娓娓動聽的音樂 能夠無違和跟人自然聊天等

自然語言處理研究覆寫了感覺智能,認知智能,創造智能這樣的學科,是實作完整人工智能的必要技術

自然語言智能發展趨勢

  1. 深度語言模型突破式發展, 引領重要自然語言技術取得進展;
  2. 公有雲NLP技術服務從通用功能走向定制化服務;
  3. 自然語言技術逐漸與行業/場景緊密結合, 産生更大價值;

阿裡集團NLP平台能力

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

從下到上分為了NLP資料、NLP基礎能力、NLP應用技術和上層應用。

NLP資料是很多算法的原料,累了包括語言詞典、實體知識詞典、句法詞典、情感分析等詞典等。阿裡NLP基礎技術包含了詞法分析、句法分析、文本分析、深度模型。在這之上,是NLP垂直的技術 包括問答 對話技術 反垃圾 位址解析等。這些技術的組合,就支援了很多應用。 其中搜尋是NLP能力非常密集的一個應用

開放搜尋中NLP應用和典型技術

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

• 基礎設施包含了阿裡雲基礎産品,以及基于阿裡生态搜尋場景打磨出的多個搜尋自研系統,比如HA3、RTP、Dii等;

• 管控基礎平台,保證我們離線資料采集、管理、訓練等;

• 算法子產品,我們分為兩塊,一塊是查詢分析相關,包含多粒度分詞、實體識别、糾錯改寫等;另一個塊是相關性和排序相關,包括文本相關性、CTR CVR預估、LTR 等;

(其中橙色背景的表示是跟NLP相關)

開放搜尋的目标是要打造一站式、開箱即用的智能搜尋服務,是以我們會把這些算法能力,以行業模闆、 場景化、周邊服務的形式開放給使用者。

開放搜尋NLP分析鍊路

搜尋的發起,往往是一個搜尋關鍵詞觸發,比如使用者搜尋“ aj1北卡蘭新款球鞋”

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

跨領域分詞

我們在開放搜尋開放了一系列的領域的分詞模型

分詞挑戰

  1. 各個領域不斷新增的未登入詞或者叫新詞,往往會大大降低分詞效果;
  2. 為新使用者定制分詞模型,從标注到訓練的整個過程,成本都比較高;

    解決思路

  3. 結合統計特征,比如互資訊、左右上等建構一個成詞模型,可以基于使用者資料快速建構一份領域詞典;
  4. 結合源領域分詞模型和目标領域的詞典,我們基于遠端監督技術可以快速建構一個目标領域分詞器;
自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

(上圖為自動跨領域分詞架構)

使用者隻需要提供給我們一些自己業務的語料資料,我們就可以自動的得到一個定制化的分詞模型,這不僅大大提升了效率,同時也更快滿足客戶的需求。

通過這個技術,我們可以在各個領域獲得比開源通用分詞,更好的效果

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

命名實體識别

命名實體識别(NER),例如從query中提取人名 地名 時間等。

挑戰與困難

NER在NLP領域研究非常多同時也面臨很多的挑戰,尤其在中文上由于缺乏天然分隔符,面臨邊界歧義、語義歧義、嵌套歧義等困難。

**解決思路

**• 下圖右上角是我們在開放搜尋中使用的模型架構圖;

• 在開放搜尋中,很多使用者都積累了大量詞典實體庫。為了充分利用這些詞典,我們提出了一種在bert之上,有機融合知識的graphNer架構。從右下角的表格可以看出,在中文上能取得最好的效果;

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

拼寫糾錯

開放搜尋分為4個糾錯步驟包含了挖掘、訓練、評估和線上預測。

主要的模型根據統計翻譯模型和神經網絡翻譯模型兩套系統,同時在性能、展示樣式和幹預上有一套完備方法。

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

語義比對

深度語言模型的出現給很多NLP任務帶來了跨越式的提升,尤其是在語義比對等任務上。

達摩院在bert上也提出了很多創新,提出了自研的StructBert。主要創新點在于在深度語言模型訓練中,增加了字序/詞序的目标函數 和更多樣的句子結構預測目标函數,進行多任務學習。但是這樣的通用的structbert是無法試用給開放搜尋裡成千上萬個客戶,成千上萬個領域的。我們需要做領域适配。是以我們提出了語義比對3階段範式。 可以快速的為客戶定制适合于自己業務的語義比對模型。

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

(具體的流程如圖)

NLP算法産品化

算法子產品産品化的系統架構,包含了離線計算、線上引擎以及産品控制台。

圖中淺藍色的部分是NLP在開放搜尋上開放的算法相關功能,使用者可以直接在控制台體驗和使用。

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

以上就是本次雲栖大會--“自然語言處理在開放搜尋中的應用”的内容。如果您對搜尋與推薦相關技術感興趣,歡迎加入釘釘群内交流~

自然語言處理在開放搜尋中的應用自然語言智能(NLP)人工智能可以分為幾個階段自然語言智能發展趨勢阿裡集團NLP平台能力開放搜尋中NLP應用和典型技術開放搜尋NLP分析鍊路NLP算法産品化

【開放搜尋】新使用者活動:阿裡雲實名認證使用者享1個月免費試用

https://free.aliyun.com/product/opensearch-free-trial

繼續閱讀