天天看點

哈啰智能客服:如何應用語言模型提升機器人服務能力

作者:閃念基因

哈啰智能客服的總體介紹和算法流程

使用者、算法眼中的智能客服痛點

哈啰智能客服:如何應用語言模型提升機器人服務能力

右圖是哈啰APP的客服中心,使用者進入該頁面,系統會根據使用者的使用情況智能推薦高頻問題,并猜測使用者想解決的問題,這部分标準問題的解決方案由業務專家進行整理,能涵蓋使用者大部分的意圖。對于解決不了的問題,使用者進入IM入口,聊天機器人會和使用者進行對話。機器人基于知識庫進行比對,針對每個意圖分别配置答案,或者給出具體解決方案。

目前的痛點在于:

  • 知識庫疊代更新費時費力
  • 模型難以跨業務通用
  • 解決方案涉及到多模态的複雜資料融合問題
  • 多輪任務型會話上下文的長距離依賴問題

使用者在哈啰智能客服的曆程

哈啰智能客服:如何應用語言模型提升機器人服務能力

使用者進入熱線或線上服務管道,以線管道為例,系統會預測使用者想咨詢的訂單,并給出猜你想問和自助服務,如不能解決問題,會進入機器人服務。機器人鍊路包括query補全、精準比對、分類模型、比對模型和啟發式問答,解決方案依托于知識庫,可能是一套标準的服務流程,也可能需要判責,包括規則和智能判責。

機器人仍不能解決問題,會進入人工服務,我們用了NLP輔助人工客服更好地服務使用者,如智能派單,并給出服務引導,在确認問題後實時推薦方案,使用者确認方案後會進行話術推薦。如果不能解決需要更新到專門的客服,會生成摘要工單後移交。

此外,哈啰有一套利用衆包模式的雲客服系統,目前雲客服受理占比達到70%。

案例:意圖識别 表示型文本比對模型 > 分類模型

哈啰智能客服:如何應用語言模型提升機器人服務能力

意圖識别可用分類做,也可用比對。分類模型無法适應知識庫變更、遷移性弱,而比對模型能很好地克服這些缺點。

分類模型局限性:

  • 知識庫變更無法及時響應,模型維護投入量大;
  • 新标準問缺少訓練資料,無法更新模型;
  • 需要大量标注高品質資料,耗費人力大;無法快速遷移到新業務。

比對模型優勢:

  • 對知識庫變更能及時響應,降低維護成本;
  • 在新增标準問缺少訓練資料情況下,也能進行識别;
  • 可快速遷移到新業務,可做成通用模型,應用于所有業務;
  • 可單純通過增加相似問就能提高識别能力,易于優化。

但是比對模型有自己的問題。在克服準确率下降的困難後,我們比對模型超越了分類模型的效果。

在實踐中我們嘗試了多種模型和優化方案,最終超越了線上分類模型的效果,在一條業務線的意圖識别top1 準确率達到了82.21%。

案例背景

哈啰智能客服:如何應用語言模型提升機器人服務能力

比對模型分兩類,各有自身缺點。互動型比對模型準确率高,但計算量大,故而放棄。表示型比對準确率一般不如分類,如何提升準确度成了我們思考的重點。

表示型比對模型落地流程

哈啰智能客服:如何應用語言模型提升機器人服務能力

一系列優化措施提升準确率

哈啰智能客服:如何應用語言模型提升機器人服務能力

使用對比loss能夠對效果有所提升,但還是遠遠不夠。我們做了一系列實驗,如圖是實驗的記錄,發現領域内大規模預訓練、擴充高品質資料和輸入文本mask有效,增大句子長度和溫度系數有一定效果,采樣政策效果一般。

成功要點 VS 無效嘗試

成功要點:

  • 超越線上分類模型(fastText),top1 準确率82.21% > 80.62%;
  • 意圖識别QPS高,精排比對不适合,重點轉向更好的編碼表示;
  • 預訓練和資料品質始終是影響的大頭;
  • 多嘗試,引入CV經驗和各種tricks。

無效嘗試:

  • 嘗試不同損失函數:tripletloss、bprloss,損失組合等;
  • 調參:學習率,batch size;
  • 模型選擇:CNN、ALBERT、SentBert、ESIM;
  • 其他邏輯:mask方式、拼接标準問等。

下一步啟示

  • 難負例是指距離小于一個較小門檻值的負例,需要拉開;
  • 知識庫裡不同标準意圖(類)間,相似的樣本少,導緻難以區分;
  • l 受simCSE啟發,可用dropout機制為難負例生成更多難負例。

案例:度量學習技術提升新意圖發現的準确率

哈啰智能客服:如何應用語言模型提升機器人服務能力

使用者經常會有新的意圖,需要及時發現。我們希望建設有壁壘的知識庫,需要重疊率低且覆寫率高,覆寫率高需要自動挖掘新意圖。傳統的做法是對未識别問題聚類,然後人工選出新意圖,而我們的做法是用模型識别已知類和未知類,然後從未知類中選出。最終,我們推薦出的新意圖占比提升50%,人工稽核效率提升。

案例背景

哈啰智能客服:如何應用語言模型提升機器人服務能力

傳統聚類方法有一定的局限,人工稽核效率低,推薦的新意圖占比低。

關鍵實踐

哈啰智能客服:如何應用語言模型提升機器人服務能力

我們用分類的方式識别新意圖,假設k個類是已知類,第k+1類是未知類,例如“車主為什麼不接單”這類表述分類到k+1類。具體的做法是通過決策邊界,到每個類别中心的距離d是否在所有邊界外,判斷是否為新意圖。邊界的半徑由自适應學習而來。

哈啰智能客服:如何應用語言模型提升機器人服務能力

我們進行了更好的語義特征表達,對『難』正負例進行采樣。引入度量學習的三元組損失,每個batch選擇跟錨點最遠的正例,最近的負例。

實驗資料

哈啰智能客服:如何應用語言模型提升機器人服務能力

我們在snips、banking和oos等3個該領域的公開資料集進行了實驗,随機選擇25%、50%、75%的類别作為已知意圖,其餘都作為新意圖。

哈啰智能客服:如何應用語言模型提升機器人服務能力

随機x%的類作為已知類,剩下的未知類。80%的資料作為訓練集,其餘為測試集。第一個任務是做二分類,F1是對未知類,我們的整體正确率是最高的。第二個任務是做K+1分類,分别對已知、未知類計算F1,也是同樣的結果。

成功要點

  • 自适應地确定決策邊界,避免人為設定門檻值的弊端;
  • 利用度量學習,側重于獲得更加各向同性的意圖表達。為後續分類和學習決 策邊界創造了條件;
  • 可從T-SNE可視化印證。

T-SNE Visualization

Beneficial from deep metric learning, the intents of the same class are clustered close, and the intents of different classes are also well separable. Moreover, open intents are farther away from known intents.

案例:生成式模型用于NLP任務

哈啰智能客服:如何應用語言模型提升機器人服務能力

我們使用生成式模型輔助人工客服,通過域内學習哈啰的知識,并通過微調,提升域内表現。

案例背景

人工客服了解業務、規則難度大,成本高,而ChatGPT等大模型表現出驚人的對話能力和總結能力。但如何應用于公司業務,有兩個問題待解決。一是IDC資源受限,RT要求快,中文效果好;用多大的大模型,這麼大的模型是否夠用不明确。二是如何在保持通用能力同時,學到公司的業務知識。

開源基礎模型評測

哈啰智能客服:如何應用語言模型提升機器人服務能力

我們對開源基礎模型進行比較和評測。發現清華開源的ChatGLM-6B 參數較小,A100上RT 2s内,QPS也OK,中文任務支援高。

哈啰智能客服:如何應用語言模型提升機器人服務能力
哈啰智能客服:如何應用語言模型提升機器人服務能力

同時,我們對原生效果進行了評測,這裡以語義分類任務和閱讀了解任務為例。

業務上優化

哈啰智能客服:如何應用語言模型提升機器人服務能力

一是在Prompt工程,給模型更清晰的提示。實體識别準确率有所提高,但指令遵從性較差,回複内容不可控,導緻準确率低。

哈啰智能客服:如何應用語言模型提升機器人服務能力

二是融入GPT4中文指令,并微調P-tuning。指令遵從性有所提高,但響應時間較長,影響體驗。

哈啰智能客服:如何應用語言模型提升機器人服務能力

三是學習哈啰知識,實體識别準确率和比對準确率有所提高,但胡編幾率較高,輸出不可控。

哈啰智能客服:如何應用語言模型提升機器人服務能力

四是增多高品質資料,比對準确率大大提高,回答更可控。

未來展望

  • 基于知識庫QQ比對的意圖識别技術已經很成熟。在專業領域内繼續訓練及微調,擷取領域知識後,能夠生成更好的回答,減輕人們的腦力負荷;
  • 生成式大模型短期内不太可能直接為使用者提供解決方案。因為業務的複雜性 經常超出想象,并且解決方案取決于多模态的資料。除了文本和圖像,還和訂單狀态、使用者畫像、地理軌迹、點選行為、商品卡券等相關;
  • TaskMatrix提供思路,一系列解決方案可以抽象為APIs,它們和具體業務 資料相關。把LLM作為自然語言人機互動工具。LLM正确順序調用正确的 API并給出解決方案,仍然有不少難點。

作者:王林林

來源:微信公衆号:哈啰技術

出處:https://mp.weixin.qq.com/s/E0CJ6y_pAs_VfI4hethXKw

繼續閱讀