天天看點

地圖中的語義了解 | 硬創公開課

今年8月,雷鋒網将在深圳舉辦一場盛況空前,且有全球影響力的人工智能與機器人創新大會。屆時雷鋒網(公衆号:雷鋒網)将釋出“人工智能&機器人top25創新企業榜”榜單。目前,我們正在拜訪人工智能、機器人領域的相關公司,從中篩選最終入選榜單的公司名單。如果你也想加入我們的榜單之中,請聯系:[email protected]

編者按:本文整理自搜狗公司王硯峰在雷鋒網硬創公開課上的演講。王硯峰是搜狗公司桌面事業部進階總監,桌面研究部和語音互動技術中心負責人。承擔輸入法、号碼通、個性化新聞等搜狗桌面産品在大資料和算法研究方面的工作,通過研究能力提升産品核心品質推動産品創新。同時負責搜狗智能語音互動技術,帶領語音和語義技術團隊實作了業内頂尖的語音互動能力,并緻力于智能語音技術的産品化創新。個人主要研究領域為:自然語言處理、機器學習、推薦系統、語義了解、機器智能等。

地圖中的語義了解 | 硬創公開課

所謂語義了解簡而言之就是讓機器懂得人的話語,了解人的意圖,并且傳回給使用者相應的答案或者内容,來解決使用者需求。如果我們把語音識别作為機器的耳朵,那麼語義了解就是機器的大腦。

比如使用者問“怎麼去天安門”,語義了解需要得到的結果是使用者有出行需求,并且出行的目的地是天安門;如果使用者問“周圍有沒有好吃的川菜”,那麼使用者此時的目的是找餐館,并且對餐館的類型有要求,菜系是川菜;如果使用者說“我想看一些湖人隊最新的消息”,那麼此時使用者的需求是看一些新聞資訊,主體限定在nba的湖人隊上。

是以可以看到語義了解技術至少有兩個關鍵的因素,第一是自然語言處理技術,利用統計自然語言處理算法提取文本中的實體詞以及依存關系;第二是要有全面而豐富的知識庫,配合自然語言處理技術,才能得到使用者的準确意圖。

結合到上面的例子,如果知識庫中“天安門”是作為一個地名,那麼“怎麼去天安門”,就可以被以很高的準确率劃分為使用者出行意圖。但如果地名庫中有一個資料叫“黑眼圈”,那麼“怎麼去黑眼圈”就非常有可能被劃分到出行,而不是一個知識問答。

地圖中的語義了解 | 硬創公開課

從大的範疇來講,我會把語義了解劃分為三個層次。

第一個層次,是限定在一個已有服務相對成熟的垂直領域來解決使用者的實際需求。比如導航、餐飲、旅館、天氣、音樂等領域,這類問題的特點是使用者需求相對收斂,知識庫也相對成熟,并且經過了多年的整理和沉澱已經具有一定的結構化特性,知識之間已經不是孤立的知識點,而是通過知識之間的關系連成了網絡。“知識圖譜”其實就是某種這樣的網絡。限定在垂直領域的語義了解問題因為使用者需求的收斂性和知識庫的成熟,技術上會更容易,同時也會更有能力實際的解決使用者的問題和需求。據統計,在車内通用安吉星或者豐田gbook這種車内call center提供的服務中,80%的需求都是問路或者導航,至少這是可以很大程度上通過機器語義了解解決的。在垂直領域下的語義了解,考驗的更多是建構知識庫本身的能力。

第二個層次,就是仍然在解決使用者的實際問題,但是問題本身已經偏長尾,需求本身更加離散,并且知識也沒有很好的結構化。比如“天空為什麼是藍色的”。往往這個時候各個語義了解引擎會借助于搜尋引擎,但實際上結果相對能夠保證的也隻有搜尋引擎整理出來的百科和問答資源。尤其對于問答,目前大部分的語義了解引擎仍然是靠搜尋方式來解決,通過搜尋技術尋找問答庫中和使用者問題最比對的問題。而且無論是百度知道還是搜狗問問,問答庫中大部分的問答内容其品質本身也不能得到好的判斷,更不用說需要從大量文本中抽取整理答案了。這對于自然語言了解技術是非常大的考驗,并且目前國内做語義了解的公司整體上都沒有很好的效果,也是搜狗目前正在嘗試突破的話題。

最高的層次,就是做到跟人一樣的交談。現在市面上的對話機器人,以“小冰”為代表,都在渲染這方面的能力。但實際上目前是做不到的。因為人類在自然對話中,會帶入大量的曆史資訊,場景資訊,感情資訊以及預先的認知資訊,實際上計算機目前從根本上都沒有一個好的模組化方法來描述人類的思想和認知過程,更不要提在思想活動和認知過程之後産生的語言。是以目前機器在這方面的能力,不要說解決使用者實際問題,就連閑聊的對話幾輪下來也經不住使用者的考驗。目前這個能力唯一實際一些的用途的就是在兒童産品中,給沒有邏輯能力和判斷能力的小朋友帶來歡樂。而對于成人,此類産品的使用者留存率從來低的可憐。

是以整體上,語義了解這個領域仍然是剛剛開始,雖然經曆了不錯的發展,但是從技術本質上目前還沒有突破。距離很多公司鼓吹的強人工智能,還有很長的路要走。

q:“結合上下文的‘多對話解析’”是如何做到的?其中的難點是什麼?

談多輪對話,先要從單輪對話講起。單輪對話完全不需要考慮到使用者的曆史問題,隻針對使用者目前問題做答。一般是先對問題進行實體詞識别,然後再結合實體詞上下文對問題進行分類,判斷使用者的意圖分類,然後結合意圖分類和實體詞,得到使用者精确的意圖。是以本質上單輪對話的核心是線性分類問題,随着類别的增加,問題本身沒有變的更加複雜。并且随着使用者資料的累積,分類的訓練資料就會不停增加,分類的準确率就會不斷提升,這是一個很經典的機器學習的問題。

而多輪對話在單輪對話的基礎上引入了上下文,是以目前的狀态不僅取決于上文,而且可能取決于上上文或者更遠的上文。是以多輪對話實際上是一個有限狀态機(簡單的說就是是表示有限個狀态以及在這些狀态之間的轉移和動作等行為的數學模型。),使用者從一個狀态跳到另一個狀态的過程,其實就是一輪互動,而且互動回報是根據上一個狀态生成的。随着類别的增大,狀态機的規模會非常大的膨脹起來。如果實作一個靜态的狀态機,假定使用者行為是可預測的,那更多是工程能力上的問題。但實際環境下使用者行為往往是不可預測的,會産生出很多新的行為範式,反映出來的就是狀态機會增加更多的狀态以及狀态之間的邊,那麼如何根據使用者産生出來的資料,動态的不停的建構或者調整狀态機,這是多輪互動裡面最大的難點。因為每自動生成一個狀态節點,都需要同時生成一個在這個節點上使用者可了解的回報方式以及抽象概念。

這是我認為多輪對話中最難的部分,也是即使是目前很流行的一些助手類産品都不支援多輪對話的原因。主要是很難根據使用者資料自動的把多輪互動的能力建構出來。這部分搜狗目前也不能做到自動,仍然需要人的抽象總結能力的介入,尤其是互動話術,還需要人為來定義。

q:語義了解的準确率,整個行業目前最高能達到多少?如何提高?

這裡談到的準确率主要就是指單輪互動而言了。結合到我在第一個問題中的闡述,語義了解在垂直場景和領域下的準确率已經有了一定的可用性,但是在更開放的場景中以及對話流中,準确率還是低得可憐。

在垂直場景中,假設知識庫以及對應的分類模型已經比較完善,在使用者常見問題上達到80%以上的準确率是可以的。提高的路徑也是比較明确,就是一方面完善知識庫的資料能力,另一方面用更多的使用者語料提升模型的準确度。

q:如何解決中英文混合語句的語義分析問題(比如,“幫我呼叫stephen william hawking”)?中英文區分的難點在哪?

我認為中英文混合語句的語音分析比純粹的中文技術上甚至還更容易,因為英文已經是非常好的斷句了,而不需要中文還要對分詞有所依賴。

目前中英文語義分析問題主要的兩個實際難點,一方面目前的語義産品形态上多和語音相結合,語義拿到的是語音識别的結果。然而中英文混合語音識别錯誤率目前仍然偏高,主要是受到中英文發音模組化方式的不同以及語料本身的缺失。錯誤的中英文語音識别結果會加大語義了解的難度。

另一方面語義了解會非常重的依賴知識和對應的服務,而這方面中國網際網路公司和國際上的内容服務商的對接成本和困難要高于國内,但是這個困難不本質。

q:在深度學習的狀态下,機器能夠對使用者的語言習慣适應到什麼程度?能了解使用者的一些情緒上的語言習慣嗎(如諷刺等話語)?

深度學習在語音圖像方面取得了重大突破,這些年在自然語言處理方面也取得了可觀的進展,展現出來更強的語言了解能力。但是需要強調的是,深度學習比起傳統的機器學習模型,主要是通過提升模型的複雜度來增加模型能力。但是模型本身并不能對人類産生語言的方式進行好的模組化,本質上還是統計機器學習的範疇,是以會非常大的依賴資料。實際上深度學習本身也是在大資料這個背景下才得以發揮。是以隻要有足夠的使用者話語資料,深度學習還是有能力給出更好的結果。

但是往往使用者的語言還是會取決于對話曆史,而不是單純的隻看一句話。是以訓練一個模型,需要大量的對話資料,深度學習的優勢才能展現出來。但目前受限于使用者對話内容的隐私保護,業界拿不到足夠“大”的資料,是以取得的效果也會很有限。 

q:與科大訊飛、思必馳等同行技術的差異化(包括語音識别、語義/邏輯分析)?

語音識别方面,因為我們具有搜狗輸入法這樣大的使用者産品,是以在獲得真實使用者語音語料方面,尤其是噪音環境和口音,我們都具有非常大的優勢。科大訊飛有自己的輸入法,比起來我們的優勢還沒有那麼明顯,而相對思必馳雲知聲這種使用者量小的公司而言這個優勢是巨大的。

相比科大訊飛,搜狗主要的優勢還是在語義了解以及背後的服務上。如前所述,語義了解能力一方面是考驗垂直場景的知識能力,另一方面考驗搜尋問答能力。而這方面搜狗的能力是完備的,具有網頁搜尋,各類垂搜以及搜狗地圖等産品,而這些都是訊飛不具備的。以導航中的多輪互動為例,如果拿不到地圖核心的結構化資料,多輪互動是無從談起的。

比如北京的使用者要去化工大學昌平校區,首先化工大學在北京有多個分校,其次每個分校都有多個對應的poi,以及使用者很多時候并不具備“化工大學北校區就是昌平校區”這樣的知識,隻能通過地标的方式“我想去昌平的那個”來描述。是以如果語音互動子產品不能深度的了解地圖的結構化資料以及地标資訊,那麼是很難做到智能互動的。

地圖中的語義了解 | 硬創公開課

另外搜狗是一個網際網路産品公司,使用者的了解和産品能力相比起來也會更強,是以在做從技術到産品的轉換過程中,我們更有機會做出來使用者體驗更好價值更大的産品。 

q:有沒有機會實作 google now 那樣的功能?比如語音調取應用,檢索其它應用内的資訊,自動給出答案。

這個問題不是技術問題而是系統問題。隻要從系統權限上可以調用應用,那從語義了解上來講是非常容易的事情,隻是簡單地指令識别。

至于檢索其他應用内資訊,也是主要是否可以拿到應用服務的資料或者借口。比如目前國内餐飲方面的語義了解和服務,大衆點評就是非常好的服務方。可以通過合作拿到餐廳的中繼資料,也可以通過資料協定通路其平台和搜尋,這樣餐飲的需求就可以直接給出答案。技術上目前都是相對已經很成熟的。

q:今年8月,雷鋒網将在深圳舉辦“全球人工智能與機器人創新大會”(簡稱:gair)。想了解下,您對人工智能的未來趨勢怎麼看?

從大的趨勢上來看,人工智能的未來一定是樂觀的。目前人工智能有些過熱,行業以及媒體對人工智能的期望以及概念的炒作已經遠遠大于其本身的能力了,不過當一個新興行業或者産業在被催生的時候,堆泡沫的過程也是必要的。

我個人是個理性的樂觀派,我相信未來機器一定能替代人去做更多的事情,但是我比較同意google吳軍老師的觀點,所謂的人工智能其實隻是機器智能,因為目前機器對事物的了解和人對事物的了解是不一樣的。機器智能多數依靠大資料才能完成工作,而人不需要大資料就能去感覺、了解和判斷事物。但是隻要給你機器足夠多的資料,機器就能創造出無限的可能。當下我們每天在手機上制造的大量資料,未來的物聯網的時代,傳感器、camera和mic會進一步帶來資料上的爆發。那麼機器智能就能借着大資料在各個方面達到更高的高度。就像我們剛才講的語義了解的問題,之是以在人機對話方面處在這麼低的智商水準,也是因為語料庫不夠大,如果未來大資料充足,我相信,機器智能在語義了解方面一定也能解決更多的問題。 

衆所周知,在資訊處理方面,人工智能主要解決兩個問題, 第一個是互動和感覺,第二個是資訊的獲得。互動和感覺方面,語音和圖像的識别已經取得了長足進步,錯誤率會越來越低,最終會在技術上徹底解決的。而資訊擷取方面,我們都在努力讓資訊有更好的表示以及索引方式,讓網際網路上的雜亂資訊變得更加知識化結構化,甚至會通過語音和圖像來索引資訊觸達資訊。 我心目中人工智能的價值就是在于提升我們擷取資訊的能力和效率、讓人與機器的互動更容易、知識擷取更容易。在這個方向上,人工智能也一定能取得穩定的健康的發展,逐漸改變我們的生活。

至于讓機器有人類的思維包括情感,這與我們目前所講的機器智能其實本質上不是一碼事。這個方向我整體上不看好,也不是我們應該努力的方向,從哲學上說,機器和人隻有互相不可替代,才能持續發展。

本文作者:趙青晖

繼續閱讀