人機對話這件事為什麼難？| 清華x-lab人工智能研習社

“目前市面上人機互動的智能硬體，距離真正的自然互動依然有很長的一段路要走。”

在清華x-lab主辦的人工智能研習社第五講，三角獸的創始人、COO馬宇馳如此描述目前的人機互動産品。

在同日舉辦的百度2017世界大會上，李彥宏的觀點與馬不謀而合：“我們現在看到很多智能音箱，雖然不需要按住，但是需要一個喚醒詞，一般是四個字，這不符合人與人互動方式。我跟你說話的時候不需要拉你的手，也不需要每句話都叫你的名字，更不需要每次都叫四個字。”

在清華的演講中馬宇馳表示，目前市面上人機互動的智能硬體，距離真正的互動還需要至少8-10年時間。各大釋出會上自然互動，甚至有些可以接受訪談的機器人，一定有某些人工的介入，噱頭頗多。

三角獸創始人兼COO馬宇馳在清華x-lab人工智能研習社演講（劉涵攝）

而作為人機互動最重要的應用場景之一，搜尋引擎與人類最自然的互動方式依然有很大不同。“比如我們如果要查今天的天氣，到百度可以直接搜尋“北京天氣”，但跟人說話肯定不能這樣,跟同學說“北京天氣”，别人會以為這個人有病，要說今天出去穿羽絨服冷不冷這樣的話，這部分叫自然語言處理。在之前的一次大會上有一個智能領域的科學家說語義是人工智能皇冠上最後一顆“明珠”，因為人工智能學會了語義才真正接近于人的思考方式和回應的方式。”馬宇馳稱。

那麼人機對話這件事為什麼難？深度學習等AI技術又能從中做些什麼？在清華x-lab的人工智能研習社課程中，三角獸創始人兼CEO 王卓然博士在馬宇馳之後解釋了這些疑惑。

三角獸創始人兼CEO王卓然在清華x-lab人工智能研習社演講演講（劉涵攝）

以下為王卓然演講，大資料文摘在不改變原意的前提下有删改：

人機對話這件事為什麼難？

一些名詞大家應該耳熟能詳，像深度學習、增強學習、自然語言處理、資訊檢索、資料挖掘。最底層的技術子產品，像決策過程、推薦系統、知識庫、邏輯推理、分類等等，可以看到機器學習和自然語言處理幾乎每一個子產品都會用到，人機對話涉及到方方面面。人機對話這個大的領域其實是人工智能的下一代，叫做認知智能。認知智能就是人怎麼去感覺世界，怎麼去了解世界，然後用機器去模拟它，去拟合它，再用一個接近人的方式來回報給我們。是以它涉及的面太廣了，隻是單純說人機對話這個子問題都可以另外定義出好多子問題。是以我們隻是把這些基礎的子產品、基礎的算法包裝成我們内部通用的子產品，像開放域的聊天檢索式問答、深度問答、圖文對話的引擎等等等等，然後我們對外輸出的産品，有開放域聊天，有問答的引擎，問答引擎的意思就是客戶把他的問題和答案灌進來，我自動支援基于問題庫的問答，我們還有多輪對話的引擎，可以不依賴于領域。比如說找電影、找歌、找餐館用的是同一套引擎，隻是把不同的資料、本題庫、知識結構導進去，讓它支援一個領域的對話，我們還可以把它打包在一起，變成多域的對話系統。是以如果做人機對話，基本上自然語言處理、機器學習裡所有的事都要融會貫通。

人機對話的幾大核心問題

1）開放域聊天

平時我們和人說話有不同的場景用不同形式對話，或者說用不同的方式去思考，比如說開放域的聊天，沒有目的、不是為了找到一個資訊，或者說不是為了完成一個任務來去對話，而是朋友之間的寒喧、互相的問候，這種就叫開放域聊天。

2）多輪對話

這個更接近于人機的對話，和人與人的對話也有一定相似處。比如我們要找一個餐館，我會問找五道口的餐廳，機器會問喜歡什麼口味，我說川菜的，又問對環境有沒有要求，我說有沒有适合朋友聚餐有沒有大的包房，這是機器多輪對話完成的。

3）智能問答

智能問答這個概念比較好了解，這個技術也相對于另兩個更久遠一些，也更成熟一些，問答就是一問一答，我問你天空為什麼是藍的，你給我解釋說什麼空氣的折射等等一些因素，我問兔子真的愛吃胡蘿蔔嗎，你可以回答兔子都愛吃胡蘿蔔，但不是全部，這是人機對話不可或缺的一部分。

這三部分之間是互相沒有聯系的，在目前的技術架構下，開放域聊天有開放域聊天的做法，垂直領域有垂直領域的做法，問答是問答的做法，做産品不能隻做一個使用者的問答或者一個聊天，這些東西要整合在一起，于是就出現了跨域的中控概念。以度秘平台為例來講，這個平台既可以支援閑聊，也可以支援找電影，找歌，找餐館，查快遞，支援問答，甚至更多的技能，開窗、開燈等等，這是由單獨一個服務子產品來完成的。但是使用者說出一句話之後，這句話到底應該歸哪個子產品去響應，這就是中控去做的一個事，其實就是根據你的上下文，根據你的每個域回複結果品質的情況綜合算出使用者這句話有哪一個服務區響應最好。

相關性是開放域聊天最重要的一個名額。我說一句話之後機器回了一句與我相關的話，不相關就沒有辦法再聊下去了。在這個基礎之上，我們要注重幾個點，一個是上下文的覆寫，人與人聊天是有上下文的，不是你說一句我說一句，每一句是單獨割裂的，而今上下文的覆寫已經做得很好了，達到了40%的上下文覆寫，可以體驗到40%的聯系。

深度學習等人工智能技術可以做什麼？

上下文引入進來之後整個的資料會非常的稀疏，是以我們用了深度學習進行自然語言處理，最大的幫助就是可以把離散的詞，離散的句子，離散的篇章等等表示成一個向量，這個向量在分布式的語義空間中就可以計算它的相似度、相關性等等這些名額。我們就用深度學習這個方法把上下文的整個資訊都表示成了向量，再用向量檢索向量的方式去找你說這句話的上下文、語義或者語境更相似的上下文，再用同樣的方法檢索獲得侯選。

另一塊是緊密情感，人和人聊天不可能是冰冷的你一句話我一句話中性的，肯定夾雜很多高興、開心、傷感、鄙視的情緒等在網上的表情标簽。把這個引入當中就會讓聊天更生動有趣。這塊我們做了一個嘗試，我們通過這個資料興起疊代的方法，用的還是很标準的CNN，隻是我們資料加工、資料處理做了很多工作，能達到99%的準确率，用一句話去識别它對應的情緒，可能是開心、大笑等等，識别這個情緒能達到99%。

人機對話擷取資料的來源都是網際網路，網際網路有一個問題，在網際網路上人和人聊天的句子偏成人化，肯定不适合兒童。舉個例子，我說床前明月光，這個機器人可能回應地下鞋兩雙，每個字也沒有什麼問題，也不涉及黃反，但整個句子的對兒童這麼聊肯定不合适的。我們怎麼在網際網路這個語料上去過濾出一個兒童版本呢？首先用檢索是不現實的，因為你不能保證每一句話、每一個字，隻要有一句話或者一個字不适合這個産品就毀掉了。是以我們用了學術界比較火的端對端生成的聊天方式。它的訓練語料是用成人語料，我們用能拿到的卡通片的字模或者兒童書，用這個訓練一個模型，用這個模型過濾成人語料，在這之後又訓練端對端的模型，過濾完之後就可以認為不适合兒童的東西是小機率事件了，相當于我們寫出了對兒童絕對安全的一版聊天。

我一直在研究垂直領域對話系統的泛化，什麼叫泛化？在垂直領域對話很難獲得，在網上抓資料的話也很難找到很貼切的人和人對話，或者人和任何東西對話，比如找電影，找餐館這種資料很難獲得。既然這麼難獲得，我們如果有這樣的一個系統，用這個系統已經疊代學到很多東西之後，再把這個知識遷移到另一個領域。而且，問答跟人機對話完全不是一回事，問答更多是資訊檢索的過程，比對使用者的問題和庫裡的問題是不是同一個意思，然後回報答案。

講座後，現場聽衆與王卓然進行了對話。

清華x-lab人工智能研習社現場聽衆提問環節劉涵攝

提問：今天百度的大會發了一款RavenH，比較有趣的一點是有可以拆卸的觸摸屏，釋出者提到，現在市場上voice only的方式不太符合自然習慣，那未來人機互動是單純以語音為主還是多種結合起來的形式？

王卓然：人機互動這個形式，要分場景，最合适的場景當然是一個多模态互動，因為多模态互動是人機對話的下一個進階的階段，人機對話隻考慮語音，如果是多模态的話，要考慮到螢幕、觸控、圖像識别、環境傳感器、位置等等。是以要分場景，不能較真，人機對話多模式場景比純機器互動要好，很多場景下不具備多模态互動能力，比如說在車載的時候有螢幕的引入可能會造成負擔，對行車安全也有危害，純語音互動才是更好的場景，是以不同的場景不同的應用。

提問：剛才聽了您的介紹非常精彩，我有一個問題，現在大家做語音處理和語義處理分得比較開，事實上在人說話的過程中語言不僅包括聲音，還包括像語調、語氣等等，但是好像市面上沒有看見有人做語調、語氣這方面的東西，語義大部分處理的是文本，您怎麼看待這個問題，語音、語調和語氣角度有價值嗎？如果有價值為什麼大家都沒做，做的話難點在哪裡

王卓然：非常好的問題，從學術角度上來講有非常大的價值，單純看文本一句話可能有兩個意思，我沒吃飯，我沒吃飯？一個是疑問句一個是陳述句，代表的意思就不一樣了。但是為什麼沒做呢，道理很簡單，還沒成熟到那個程度，商業到産品落地還差太遠，還沒有達到非要為這個事做一款産品，或者沒有這個事就做不了産品的程度。

提問：我想問之前談商業模式的時候是做B2B、B2C，你們是永遠做男人背後的“女人”呢？還是慢慢推出産品面對C端使用者呢？

王卓然：對使用者市場對我們非常有吸引力的，但是從公司發展角度來看，這個階段嘗試C端的代價太大了，而且我們團隊結構也不是為2C準備的，是以在短期之内都不會做這方面的事情。

提問：剛才您講給小孩訓練一個模型，過濾到不合适的問答。想請您詳細解釋一下這種過濾方式。

王卓然：我們用故事書、字幕等等去訓練了類似于語言模型的分類器。用這個東西去過濾網上成人聊天的每一句話，把不适合兒童的都濾掉，我們認為剩下的它的分布會跟字幕、故事書訓練分布是相似的，詞彙分布、表達形式等等會跟兒童的表達形式更相似一些。在這個基礎之上我們再去訓練這個模型。

提問：您剛才講的人機互動的話多模态情況下最好，我不知道了解對不對。比如人在溝通的時候，除了剛才說的聲音、語料，包括說話内容，實際有很多肢體語言，下一代的人機互動會不會把語音包括視覺整個結合起來，這樣才叫下一代的方式？

王卓然：會的，人機對話在國外學術界火過一段時間，之後好多人機對話轉向多模态研究。表情、肢體語言加上語言，包括物體識别所有都在一起做人機對話，背後的技術，現在引入多個環節，物體識别等等是多元度，這後面有決策過程。如果對這個感興趣可以關注兩個大學的研究，一個是CMU，他們有一個人機互動的實驗室，人機對話做的也比較久，有很多人也做多模态的互動。另一個是愛丁堡赫瑞•瓦特，剛開始是做人機對話，後來他們轉向多模态的互動了。

提問：剛才您說公司應用場景其中有一個是IoT，是智能終端。這個在終端上用的話，您認為都是聯網的通過雲的處理方式呢，還是說我也可以去本地去用。如果是雲的話涉及到很多場景，包括并發性的問題，有沒有考慮像有一些東西是現在有一個趨勢，把很多的算法固化成硬體。

王卓然：語義這塊負擔不太重，都是B到T這個級别，不像圖像傳輸非常重。固化到端我們有嘗試，跟華為海思有合作，那是支援NLP的，端對端聊天生成，語義了解幾個RN結構，因為圖象涉及很多東西，比如說實時的加工，實時的渲染，實時的分析，實時性圖像本身傳輸有問題的情況下。文本層面最大的考慮其實是隐私，不是你說的雲的負擔問題。

原文釋出時間為：2017-11-18

本文作者：魏子敏劉涵

人機對話這件事為什麼難？| 清華x-lab人工智能研習社

繼續閱讀

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark