天天看點

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

聯合編譯:陳圳,章敏,高斐

計算正确獎勵函數的能力對于通過加強學習優化對話系統十分的關鍵。在現實世界的應用中,使用明确的使用者回報作為獎勵信号往往是不可靠的,并且收集回報花費也十分地高。但這一問題可以有所減輕,如果能提前知道使用者的意圖或是資料能預先訓練任務離線的任務成功預測器。在實踐中這兩種都不太适合現實中的大多數應用。在這裡我們提出了一個線上學習架構,通過帶有高斯過程模式的主動學習,對話政策能按照獎勵模式共同進行訓練。高斯過程開發了一系列連續的空間對話表示,但都是在無監督的情況下使用遞歸神經網絡編碼和解碼器完成的。試驗結果表明所提出的架構能大量減少資料注釋的花費以及減輕在對話政策學習中嘈雜使用者的回報。

口語對話系統(sds)允許使用自然語言進行人機互動。他們大緻可以分為兩種類型:以閑聊為主的系統,其主要目标是與使用者進行交談并提供合理的,符合上下文語境的回答;以任務為主的系統是主要任務是幫助使用者實作特定的目标(例如,發現酒店,電影或是公交時間表)。後者通常是根據設計本體結構(或是資料庫),來決定系統可以談論的領域。教會系統在以任務為主的sds中如何正确地回答是一項重要的工作。這種對話管理往往是手動指定對話流程,這也直接決定了對話的品質。最近,對話管理能自動優化解決加強學習(rl)的問題。在這一架構中,系統學會由嘗試或是錯誤過程所導緻的潛在延遲學習目标,但這一般是由獎勵函數決定的。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

圖1:以任務為主的對話執行個體,以及其提前規定的任務和結果評價。

在以任務為主的對話系統中,一個典型的方法就是決定獎勵機制是運用一個小回合的懲罰機制來鼓勵剪短對話,并在每一個成功互動後給予正面獎勵。圖1是任務型對話的執行個體,是專門為付費使用者設定的對話系統。當使用者啟動完成特定任務,對話是否成功是由使用者的主觀反應的,或是基于特定任務是否完成的客觀标準決定的。然而,在現實情況中使用者的目标一般不能提前得知,這也使得回報評價方法變得不顯示。

而且,目标的評級是不靈活,且從圖1可以看出如果使用者并未嚴格按照任務流程,失敗的幾率十分的大。這樣的結果是目标和主體的不比對導緻的。但是,僅僅依靠主觀排序也是大有問題的,因為人群來源的主體經常會給出不準确的反應,而且人類也不願意為給出回報而擴充互動,導緻學習不穩定。為過濾掉錯誤的使用者回報,gasic等人使用僅僅使用主體和客體相等的對話。然而,在大多數現實任務中,這是低效,不可行的,因為使用者的目标通常是未知的并且難以推測。

基于以上所述,建議從離線模拟對話中學習神經網絡目标估計。這将免去線上政策學習時進行目标檢查的需要,使用obj=subj的檢查能讓其政策如同訓練過一般的有效。但是,使用者模拟器僅僅隻能提供一個近似真實使用者的資料,開發使用者模拟器是一個昂貴的過程。

為解決上述問題,本文描述了一種線上主動學習方法,在此過程中使用者會被要求提供回報,無論對話成功與否。但僅僅隻有在回報有效時,主動學習才會限制回報的要求,而且噪聲模式也被引入解釋使用者的錯誤回報。高斯過程分類(gpc)模式利用魯棒模式對嘈雜使用者的回報進行模組化。因為gpc是在固定長度的觀察空間運作的,但是其對話長度是可以變化的,一個以遞歸神經網絡(rnn)為基礎的嵌入函數時用于提供固定長度的對話表示。在本質上,所提出的方法學習對話政策和線上回報模拟器,并直接适用于現實世界的應用。

本文餘下内容安排如下。下一部分介紹相關工作。所提出的架構會在第3部分介紹。這包括政策學習算法,對話鑲嵌函數的創造和按照使用者排序的主動回報模式。第4部分介紹所建議方法在英國劍橋餐館資訊背景下其評價結果。我們首先對對話鑲嵌空間進行深入分析。當它與真實使用者進行對話政策訓練時,結果就會被呈現出來。最後,結論在第5部分。

自90年代以來,對話評估一直是一個活躍的研究領域,提出了paradise架構,在此架構任務完成的線性函數和各種各樣的對話特征,例如對話時長,都會别=被用于推測使用者滿意度。這一測評方法會被用作學習對話政策的回報函數。然而,需要指出的是,當與真實使用者進行互動時,任務很少完成,關于模式理論準确性的問題也以提出。

在給定的注釋對話語料庫中,一些方法已經用于對話回報模式的學習中。yang等人使用協同過濾來推斷使用者的偏好。獎勵塑性的使用也進行了研究,為加速對話政策學習豐富回報函數。同時,ultes和minker表明專家使用者的滿意度和對話成功與否之間相關性很強。然而,所有這些方法假設可靠對話注釋是可用的,例如專家排序,但是在實踐中卻是十分難得。減輕注釋錯誤影響的一個有效方法是對相同資料進行多次排名,一些方法已經發展到用不确定的模式指導注釋過程。當需要注釋時,主動學習在決定時是相當有用的。在使用貝葉斯優化方法時,它經常被使用。在此基礎上,daniel等人利用pool-based主動學習方法用于機器人應用。他們要求使用者基于目前所收集的資訊執行個體進行回報,并顯示出了這個方法的有效性。

不是明确地規定獎勵函數,逆rl(irl)旨在從良好的行為示範中恢複潛在的獎勵,接着學習能最大限度回收獎勵的政策。irl是在sds中第一次進行引進,在此過程中獎勵是從人對人對話中推斷出來的,并在語料庫中模仿所觀察到的行為。irl也在wizard-of-oz設定中進行過研究;rojas barahona和cerisara基于不同嘈雜等級的演講了解輸出,人類專家會充當對話管理者選擇每一個系統。然而,這一方法十分的昂貴,并且沒有理由假設一個人的表現最佳,尤其是在一個高噪音環境。

因為人類在給予相關評價方面比給予絕對評價方面表現更好,另一個相關研究主要集中在rl偏好的的方法。在sugiyama等人的研究中,使用者會被要求在不同的對話中進行排序。但是,這一過程也十分的昂貴,并且沒有良好的現實應用。

所提出的架構在圖2中有所描述。主要分為三個部分:對話政策,對話鑲嵌函數和對于使用者回報的主動獎勵機制。當每一個對話結束時, 會從中提取一套水準化特征ft,并将其鑲嵌入鑲嵌函數σ得出次元固定的對話表示d,這一表示會作為獎勵模式r的輸入空間。這種獎勵是仿照作為高斯的過程,每一個輸入點對任務成功進行了評價,同時也對其不确定性進行了評估。基于這種不确定性,r會決定是否有必要詢問使用者的回報。然後傳回加強的信号來更新對話政策,其政策是通過gp-sarsa算法計算出來的。gp-sarsa同樣也會運用高斯過程提供了一個線上執行個體有效性加強學習,利用最少數量的執行個體進行稀疏函數的評價推進。每一個對話的品質是由累積獎勵決定的,每一個對話會産生一個負獎勵(-1),最後獎勵是0或是20是由獎勵模式對任務完成度進行的評價決定的。

注意到關鍵是學習獎勵模式的噪音魯棒性,當使用者是監督者和會話政策能同時線上。主動學習并不是架構的重要組成部分,但是卻能在實踐中降低監督機制對于使用者的影響。提前訓練鑲嵌函數的使用時所提議方法的一個組成部分,并且是在語料庫中進行離線訓練而不是手動進行設計。

為對對話長度不一樣的使用者回報進行模組化,鑲嵌函數會将每一個函數進行固定空間次元定位。嵌入函數的使用在最近單詞表示中獲得了關注,并且提高了一些自然語言處理過程的表現。在機器翻譯(mt)中也有成功地運用,它使用rnn解碼和編碼器對長短不一樣的短語進行固定長度向量定位。與mt相似的是,對話鑲嵌使得長短不一的話語能在固定長度向量上進行定位。盡管鑲嵌在此處的運用是為gpc任務成功分類器創造次元固定的輸出空間,但是值得指出的是這會潛在促進依賴分類和聚集的任務種類增加。

模式結構的嵌入函數如圖2左邊所示,片段水準ft是從對話中提取出來的,并作為輸入特征進行編碼。在我們所提出的模式中,解碼器是雙向長短期記憶網絡(blstm)。lstm是遞歸神經網絡(rnn)的一個遞歸單元,是在解決和減輕梯度消失問題中引進的方法。兩個方向的輸入資料blstm解碼器都将其序列資訊考慮了進去,計算正向隐藏序列h1:t和反向隐藏序列ht:1,同時疊代所有的輸入特征ft,t=1,...t:

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

其中lstm表示激活函數。然後對話表示d作為所有隐藏序列的平均值計算:

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

其中ht=[ht;ht]是兩個雙向隐藏序列的結合。

給定的對話表示d由編碼器輸出,解碼器是向前的lstm(每一次調整t産生調整序列f1:t時,将d作為輸入)。

編碼器-解碼器的訓練目标是最小化預測f`1:t和輸出f1:t(同樣作為輸入)之間的均方誤差:

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

其中n是訓練對話的數量,||·||2表示l2-norm。由于所有用于解碼器和編碼器中的函數是不一樣的,随機梯度下降(sgd)可用于訓練模型。

基于lstm無監督嵌入函數産生的對話表示,随後被用于評論3.2節中介紹的獎勵模型。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

圖:2:系統架構示意圖。三大主要的系統元件:對話政策,對話嵌入創作,和基于使用者回報的獎勵模型,如§3所描述。

高斯過程是一個可用于回歸或分類的貝葉斯非參數模型。它特别有吸引力,因為它可以從一個小的觀測值(利用一個核心函數定義的相關性)學習,它提供了評估的不确定性。

在口語對話系統的語境中,它已被成功用于rl政策優化和irl獎勵函數回歸。

在這裡,我們提出了和如高斯過程(gp)一樣成功的模組化對話。這涉及評估p(y|d,d)的機率(任務成功給出了目前對話表示d和包含以前分類對話的pool d)。我們将這僞裝成一個分級問題,其中評估是二進制的評論y ∈ {−1, 1}——決定成功或失敗。評論y是從有着成功機率p(y=1|d,d)的伯努利分布(bernoulli distribution)中描繪出的。機率涉及一個潛在函數f(d|d):rdim(d)→r,它由機率函數p(y=1|d,d)=Ø(f(d|d))映射到一個單元區間,其中Ø表示标準高斯分布的累積密度函數。

潛在函數在前面給定了一個gp:f(d)~gp(m(d),k(d,d’)),其中m(·)是平均函數,k(·,·)是協方差函數(kernel)。這使用了固定平方指數核心kse。為了計算使用者評估中的“噪音”,它還結合了一個白噪音核kwn:

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

其中第一項為kse,而第二項為kwn。

超參數p,l,σn可以使用基于梯度的方法最大化邊緣似然進行充分優化。由于Ø(·)不是高斯分布,得到的後驗機率p(y=1|d,d)難以分析。是以,并不是用近似方法,我們使用了期望傳播(ep)。查詢使用者的回報是昂貴的,并且可能會對使用者體驗産生負面影響。這種影響可以通過使用主動學習資訊(通過gp模型的不确定性評估)方式減少。這確定了隻有當模型不确定其目前的預測時,尋求使用者回報。對于目前的應用程式,需要一個聯機(stream-based)版本的主動學習。

圖3說明了1次元的例子。給定标記資料d,後驗平均值μ*和在目前對話表示d*潛在的值f(d*)的後驗方差σ2*可以被計算。然後一個門檻值區間[ 1−λ,λ]設定在預測成功機率p()y*=1|d*,d)=Ø(μ*/根号1+σ2*)在,以決定對話是否一個被标記。決策邊界隐式地考慮後驗均值以及方差。

當在建議的架構部署這個獎勵模型時,前面用于f有着0平均(zero-mean)的gp被初始化,且d={}。在對話政策π 完成與使用者的片段後,使用對話嵌入函數σ,将生成的對話圈轉化為對話表示d=σ(f1:t)。給定d,預測均值和f(d|d)的分差就被确定了,且獎勵模型基于在Ø(f(d|d))的門檻值λ決定是否需要尋求使用者回報。如果模型是不确定的,那麼在目前片段d的使用者回報,用于更新gp模型,并産生增強信号來訓練政策π;否則獎勵模型的預測成功評估直接用于更新政策。每一次對話後都會進行該過程。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

圖檔3:提出的gp主動獎勵學習模型的1次元執行個體。

目标應用程式是一個基于電話的口語對話系統,用于為劍橋(英國)地區提供餐廳資訊。主要由150個場館組成,每個有6個插槽(屬性),其中3可由由系統使用來限制搜尋(食物類型,範圍和價格範圍),剩餘的3是資訊性質(電話号碼、位址和郵編)一旦需要的資料庫實體已被發現便可使用。

sds共享的核心元件和所有實驗一樣,包含一個基于hmm的識别器,一個混淆的語義網絡(cnet)輸入解碼器,一個buds信念狀态跟蹤器(使用動态貝葉斯網絡産生對話狀态),和一個基于自然語言的模闆——将系統語義行動描述成自然語言響應使用者。

所有的政策都使用gp-sarsa算法進行訓練,且rl政策的總結行動空間包括20個行動。給予每個對話的獎勵設定成20×1success-n,其中n是對話匝數,并且1是對話成功的名額函數,它是由不同的方法決定如下所述。這些獎勵構成了用于政策學習的加強政策。

lstm解碼和編碼模式在3.1部分有描述,它主要是用來對每一句對話生成一個鑲嵌d。每一個對話都包含了使用者的話語和系統的回答,大小為74的特征向量被提取了出來。這個向量包括解碼器決定的使用者意圖,由本體決定的利益觀念分布,一個熱門的系統回答編碼,由最大化匝數所決定的匝數數量(這裡是30)。這一特征向量是作為lstm編碼解碼模式的輸入和目标,其訓練目标是減少mse的重建函數的損失。

該模式使用了theano 圖書館語料庫進行試驗。這一語料庫包括8565,1199,650名真實使用者在劍橋餐廳的對話,分别用于訓練,檢測和測試。這一語料庫通過amazon mechanical turk(amt)服務進行收集,其受雇主體是通過對話系統進行交流。在反向傳播中sgd的每一個對話都用于訓練模式。為防止過度拟合,基于驗證資料會進行早期阻止。

為将嵌入的嵌入的影響可視化,所有650個測試對話都會轉變為嵌入函數,如圖4,并且使用t-sne減少二維嵌入功能。對于每一個對話樣本來說,該形狀暗示了對話成功與否,并且顔色還暗示了對話的長度(最長為30)。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

圖4:劍橋餐廳内真實使用者資料的無監督對話表示t-sne可視化。标簽是按照使用者的主觀評價進行排序。

從圖中我們可以清楚地看到,從左上方(較短對話)到右下方(較長對話)的顔色梯度表示肯定的subj标注。這表明在對話表征中,對話長度是其重要特征之一。同時也可以觀察到,那些較長的失敗對話(多餘15輪)間隔距離不遠,大多數居于右下方。另一方面,也有一些失敗的對話是零散分布的。此外,成功的對話平均短于10輪,這一現象與以下觀點一緻:在經過良好訓練的任務型系統中,使用者并不能完全投入到較長的對話中。

這一清晰可見的結果表明了無監管式對話嵌入方式的潛在利用價值,由于經過改進的對話表征似乎與大多數成功的對話案例相關。根據gp獎勵模型的目的,該latm編碼解碼嵌入功能似乎有助于提取一種恰當的固定次元的對話表征。

  鑒于經過良好訓練的對話嵌入功能,所提出的gp獎勵模型将在該輸入空間内運作。該系統在gpy圖書館得到實施(hensman等,2012)。根據每一次新型可觀察到的對話的成功可能性預測結果,不确定區域的門檻值最初被設定為1,以鼓勵使用者詢問注釋,在第一組50次對話訓練結束後,該門檻值被将至0.85,随後便将該門檻值設定為0.85。

最初,由于每一次新的對話都被增添入訓練集合中,在eqn中提到的用于定義核心結構的超參數得到優化,旨在将共轭梯度上邊際可能性的負面結果将至最低。為避免出現過度拟合現象,經過訓練第一組40次對話之後,将隻針對每20次對話重新優化這些超參數。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

圖5所示為線上政策優化過程中的學習曲線,該曲線表示主觀成功為訓練對話次數的函數。圖中on-line gp,subj, off-line rnn及obj=subj系統分别用黑色曲線,紅色曲線,藍色曲線和紅色曲線表示。淺色區域表示一個标準差的時間間隔。

為了研究我們所提出的線上gp政策學習架構的性能,三種其他具有對比性系統的性能也都已經被檢驗。注意:手工系統未進入對比之列,由于其規模不能适用于更大的領域,且其對言語識别錯誤比較敏感。對于每一個系統,唯一存在的差異是用于計算獎勵的方法的不同:

1. obj=subj系統利用對本任務的先前了解,僅僅使用訓練對話的方式,在此過程中,使用者對成功的主觀評價與(gasic等人,2013)的客觀評價相一緻。

2. subj系統僅僅利用使用者對成功的評價,直接優化政策,不論使用者的評價精準與否。

3. 線下rnn系統運用1k模拟資料和相比對的obj标簽來訓練rnn任務成功預測器(su等,2015a)。

在運用subj系統評估方法的過程中,為了隻關注政策的性能,而非關注系統的其他方面,如所回複句子的流暢度,使用者被要求回答一下問題:你已經找到所需要的所有資訊了嗎?,來預測對話成功與否。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

圖6:線上政策優化過程中,每一個系統詢問使用者以擷取回報資訊的次數是訓練對話次數的函數。圖中橙色線代表obj=subj,subj系統,黑色曲線代表線上gp系統。

通過對由amt服務終端正選的使用者線上發起500次對話,來訓練以上四種系統。圖5所示為訓練過程中,主觀成功預測的線上學習曲線。對于每一個系統,均采用含有150次對話的視窗計算動态平均值。在訓練每一個系統的過程中,均對三種不同的政策進行訓練,對所得結果取平均值,以降低使用者所提供的回報資訊的嘈雜度。

如我們所見,經過将近500次對話訓練後,以上四種系統的性能優于80%的主觀成功預測器的性能。其中,相對于其他系統來講,obj=subj系統的性能較差。這可能是由于使用者依然預測對話結果為成功,盡管客觀預測結果顯示為對話失敗。類似于這種情況,該對話将被舍棄,不用于訓練。是以,為了擷取500次有用的對話,obj=subj系統要求使用700次對話,然而,所有其他的學習系統則是高效率地運用每一次對話。

為了能夠在較長時間内研究學習行為,訓練線上gp系統和subj系統所需要的對話次數被擴充到850次。如圖所示,對這兩種學習系統的訓練結果呈平緩上升趨勢。

與gasic等人(2011)所得結果相似,subj系統也會受到使用者不可靠的回報資訊的影響。首先,在訓練obj=subj系統的過程中,使用者将所有的任務要求均抛諸腦後,特别是忘記請求獲得所有需要的資訊。其次,由于對所提供的回報資訊的關注不夠,使用者提供的回報資訊呈現出不一緻的現象。從圖5中,我們能夠清楚地觀察到,線上gp系統的性能一直以來都優于subj系統,出現這種現象可能是由于嘈雜模型抵沖了使用者回報資訊不一緻所造成的影響。當然,不像人群來源主體,真正的使用者可能會提供更為一緻的回報資訊,但是,偶爾出現非一緻現象是不可避免的,并且嘈雜模型能夠提供所需要的回報資訊的強健性。

線上gp系統在減少系統對使用者回報資訊需求次數(即标簽成本)方面的優點可以從圖6中看到。黑色曲線顯示為,在訓練線上gp系統的過程中所需要的主觀學習查詢的次數,所顯示的結果是經過對三種政策求平均值得出的。該系統僅需要詢問獲得150為使用者的回報資訊便可訓練得到一種強健的獎勵模型。另一方面,如橙色虛線所示,obj=subj系統和subj系統在訓練每一次對話的過程中,均需要使用者的回報資訊。

當然,當線上訓練該系統時,線下rnn系統根本不需要使用者的回報資訊,由于該系統具有運用使用者模拟器的優勢。然而,在訓練過程中,當第一組300次對話訓練結束後,該系統的性能不及線上gp系統。

為了對比各種學習系統的性能,表格1的第一部分為400至500次對話的平均值和标準差。在訓練400次對話和500次對話的間隔時間段内,subj系統,線下rnn系統及線上gp系統的訓練結果相當,并未表現出統計學上的差異。表1同時也顯示了subj系統和線上gp系統從500次對話到850次對話連續進行訓練的結果。表1中的資料也表明線上gp系統具有顯著的優越性,可能是由于與subj系統相比,該系統對于有誤的使用者資訊更為敏感。

上述結果證明了我們提出的獎勵模型對政策學習的有效性。在本部分,我們将進一步研究該模型在預測主觀成功率方面的精準度。表2為對線上gp獎勵模型在1至850次對話訓練過程中所得結果的評估。

由于每訓練850次對話便可學習3種獎勵模型,總計需要訓練2550次對話。在這些對話訓練過程中,這些模型總計需要詢問獲得使用者回報資訊454次,剩餘2096次對話訓練則用于學習,而這種學習方式依賴于獎勵模型的預測結果。表中所示結果為2096次對話訓練的平均值。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

表1:不同線上政策學習階段,對obj=subj系統,線下rnn系統,subj系統及線上gp系統性能的主觀評估結果。主觀性:使用者對對話成功與否的兩分法預測。運用two-tailed學生t-test計算上述結果的統計學意義,其中p<0.05。

如我們可以觀察到的,由于對話政策随着對話訓練次數的增多而得到改善,對話成功标簽與對話失敗标簽兩者的比例呈現出不平衡的現象。由于該獎勵模型更偏重使用肯定标簽的資料,這将削弱使用者對失敗對話預測的記憶。然而,其精确度也随之提高。另一方面,我們提出的獎勵模型能夠精确地預測對話的成功性。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

表2:關于subj預測率的線上gp系統預測結果的統計學方面評估

與其他模型相比,線上gp獎勵模型的主要優勢在于其對使用者回報資訊的嘈雜性的抵沖作用及對使用者監管措施的有效利用。由于上述進行比較的四種系統僅在獎勵模型的設計方面存在差異,其線上行為在很大程度上表現出相似性。

表3所列舉的是使用者與線上gp系統之間兩個執行個體對話,旨在闡釋該系統在不同的嘈雜條件下是如何運作的。表中也顯示了使用者的主觀預測結果與由線上gp獎勵模型生成的預測結果。标簽‘n-th as’與‘n-sem’分别指代言語識别器和語義解碼器所能産生的第n中做可能的假設。

ACL2016最佳論文:用于口語對話系統政策優化的線上自動獎勵學習

表格3:線上使用者與假定的線上gp系統之間的對話執行個體

在本文中,我們運用gaussian過程分類法與一種基于神經網絡的無監管式對話嵌入方法,提出了一種主動獎勵學習模型,旨在實作口語對話系統中真正意義上的線上政策學習。該模型通過強健地模拟真實使用者的回報資訊的内在嘈雜屬性,能夠達到穩定的政策優化效果,并且運用主動學習方法最大限度地減少對使用者回報資訊的詢問次數。我們發現,與其他state-of-the-art方法相比,所提出的模型能夠有效地學習政策,而且具有更高的性能。該bayesian模型的主要優勢在于其不确定性評估結果能夠使學習與噪音處理以一種自然的方式進行。這種無監管式對話嵌入功能在訓練過程中不需要有标注的資料,卻能夠為獎勵預測器提供一種經過壓縮處理且有用的輸入資訊。整體上來講,本文中研發的這些技術首次為真實世界中的對話系統提供了一種切實可行的線上學習方法,這種線上學習方法并不需要由人工标注的資料構成的大語料庫,也不需要建構一個使用者模拟器。

與我們之前的工作結果相一緻,本文研究的獎勵功能主要聚焦于任務的成功與否。這一獎勵模型在商業應用方面可能會顯得過于簡單,在今後研究工作中,我們将會與人類互動專家一同識别并囊括對話品質的其他次元的資訊,這些資訊将滿足更高水準的使用者需求。

哈爾濱工業大學李衍傑副教授的點評:通過加強學習方法來優化對話管理政策是一種非常有效的方法,但精确的獎賞函數對于優化結果的好壞是十分關鍵的。這篇文章運用gaussian過程分類法與一種基于神經網絡的無監管式對話嵌入方法,提出了一種主動的獎賞函數學習模型,也就是當發現系統對使用者的資訊不确定時,通過主動詢問的方式收集更多的資訊來得到精确的獎賞函數,進而實作了口語對話系統中真正意義上的線上政策學習。該系統通過魯棒地模組化真實使用者回報中的内在噪聲,能夠實作穩定的政策優化,并且運用主動學習方法來最小化使用者回報詢問的次數,有助于增強使用者的體驗感。與其他現有方法相比,該論文所提出的模型能夠有效地學習對話政策,而且具有更高的性能。

本文作者:章敏