天天看點

解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

什麼是IVR

IVR(interactive voice response)即互動式語音應答,由PC機(或工控機)、電話接口卡、語音闆(語音處理卡)和傳真卡組成。通過IVR系統,客戶可以利用音頻按鍵電話或語音輸入資訊,通過錄音導航從該系統中獲得預先錄制的數字、語音或合成語音資訊。IVR作為呼叫中心的門戶,被賦予如下幾種重要功能:

  • 緩解服務壓力:為簡單、适合人機對話的業務提供自助方式辦理,同時也大大降低日益增加的人力成本。
  • 拓展服務空間:可以為客戶提供7X24全天候不間斷的服務。
  • 提升服務品質:初步甄别客戶的需求,精準派單,為找到最合适的客服專員來服務使用者提供依據,保障使用者的問題能夠得到有效、快速的解決。
  • 加快服務程序:協助擷取使用者的訴求,為人工服務提供有效的資訊,加快服務程序,讓使用者享受到極緻的服務體驗。
解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

目前,IVR系統已被廣泛應用于客服、催繳、訂票訂餐、購物、節日問候、回訪、查詢修改激活等場景,在金融保險、通信營運、政府事業、旅遊服務、教育教育訓練等行業發揮着重要作用。

傳統互動式語音問答系統酷似迷宮,在各類提供語音服務的行業中不難聽到一個非常龐大的IVR語音提示系統,如果不是經常撥打熱線的老司機,真的很難找到自己想要的入口。

解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

如上圖所示,傳統IVR有如下三個顯著的體驗問題:

  • 菜單設定複雜,客戶易迷失:經過層層按鍵,才有可能擷取到解決方案或者人工服務,這還是建立在對業務邏輯能夠厘清楚、按鍵不出錯的情況下,很難一蹴而就。
  • 按鍵機械繁瑣,等待時間長:使用者需要聽完按鍵提示,再操作按鍵,菜單層級複雜的話,需要如此反複好幾次,整個求解過程沒有個幾分鐘搞不定。
  • 人工入口埋藏深,接聽難:入口埋藏深,大家都司空見慣了,一般都是在按鍵提示的最後,才提供入口按鍵,最可怕的是,廢了九牛二虎之力才找的人工入口,最後聽到系統端的提示“現在人工坐席忙,繼續等待請按1,傳回上一層目錄請按星号鍵”。

随着螞蟻金服各項業務的蓬勃發展、業務線的日益增長,目前大大小小的業務多達100多個,傳統的IVR菜單很難滿足我們的需求。一方面我們很難将這麼多業務合理地安置到0-9的按鍵中,即便營運有如此實力,大部分的使用者也是蒙圈的(就跟現在95188熱線讓使用者選擇首層按鍵業務的時候,70%以上的人會選擇“1-支付寶”),另一方面,層層按鍵能夠覆寫的使用者問題非常有限,面對如此複雜的業務結構以及業務咨詢,按鍵菜單在解決能力上似乎舉足無措。是以,從2015年起,我們就開啟了智能化的IVR語音互動探索之路。

IVR智能語音互動

在自助語音服務系統(IVR)基礎上,我們應用語音識别、機器學習和自然語言了解技術,建構了智能化、人性化、高效率的自助語音服務系統,今年3月初,我們正式取名為“MISA”(Machine Intelligence Service Assistant)。通過自然語言的溝通,使用者以“說”代“按”,與直接的人工服務相似,非常具有人性化和親切感,大大提升了服務體驗;另一方面,能夠更加快速響應使用者的訴求、資訊查詢,實作問題的快速解決,使得使用者可以充分享受自然語音作為互動界面的高效、便捷的服務。這樣的互動方式不僅大大縮短了使用者等待時間,也為企業有效降低了客戶服務成本,大幅提升服務效率和服務品質。

解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

目前,MISA系統具備這樣幾個功能:

  • 通過猜你問題、問題描述和識别、反問互動等方式,甄别使用者問題,對于有信心能通過自助解決的問題,直接通過支付寶APP我的客服PUSH相應的解決方案。
  • 對于自助解決能力不足的問題,根據識别結果,派單到最合适的技能組和人工,使問題得到快速解決。
  • 在人工服務過程中,會将使用者在IVR自助服務階段描述的内容帶到工作台,輔助客服小二快速定位問題,同時降低使用者的求助成本,加強服務程序。

IVR互動引擎

為了實作IVR更加人性化的互動,技術上通過深度學習和自然語言了解技術,建構了IVR系統的互動引擎,以解決互動模式固定、子產品功能固定等問題,實作更加自然、流暢、準确的語音互動。

解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

互動引擎作為IVR系統的核心元件,具備如下幾個特點:

  • 個性化:結合多次來電、多管道求助資訊做個性化的互動,根據使用者狀态可食用個性化的引導語。
  • 智能化:根據使用者描述,由算法結點自動判斷子產品調用(問題識别或反問互動)及結果優先級,在特定的情況下(比如咨詢被盜被騙的問題、使用者要求轉人工或者沉默不願意互動)會自動跳出互動。
  • 精細化:對于使用者的意圖以及回報實作精細化營運,互動過程控制進一步細化,根據互動時長、互動輪數和使用者目前狀态設定不同的互動流程。
  • 配置化:所有互動過程都是動态配置且可以實時切流生效,引導語等相關内容業務也可以自定義配置并進行abtest。
解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

接下來,将從猜問題、問題識别、反問互動、自動化訓練上線等幾個方面來介紹我們在智能語音互動技術上的思考。 

#猜問題

“歡迎緻電螞蟻金服。您好,請問您的問題是花呗如何還款,對嗎?”

“對!對!我就是想問這個!”

這是支付寶客服熱線95188一段真實的通話錄音:使用者還沒有開口說話,智能客服系統就能夠“未蔔先知”,“猜”中問題,并準确給出相應的解決方案。這一技術在螞蟻客服的業務上,稱為“猜問題”,是螞蟻金服在客服領域的首創,也是在人工管道、熱線場景的第一次實踐,利用使用者在支付寶APP或網頁曆史求助文本等資訊及精準因子等,基于深度學習算法架構建構的問題識别模型。

以服務軌迹為例。為适用不同人群在不同場合下的求助需求,支付寶在産品設計上為使用者準備了不同的求助管道,如直接在産品頁面可以通路的服務大廳、統一的自助服務入口我的客服、熱線和線上的人工求助管道,服務軌迹就是以相應求助管道的辨別和給使用者提供解決方案的标準問題ID組合而成。

除此之外,我們還用到了使用者的曆史求助文本、精準因子等資訊,盡可能精準定位使用者問題。服務軌迹是時序的特征,曆史求助文本是文本特征,精準因子是靜态的特征,如何處理如此複雜且多樣化的資訊,着實讓我們費了一番心事。為此,我們創造性的提出了混合網絡結構,如下圖所示:

通過Convolutional Neural Network和Long Short Term Memory來做文本的處理,盡可能充分的捕獲曆史求助文本中的資訊;通過Long Short Term Memory來處理服務軌迹特征,可以較好的保留時序資訊,提取有效的pattern;對因子進行離散化處理,通過Artificial Neural Network來處理因子特征,最後将各模型提取到的特征整合到一起,做整體的分類訓練。相比于單個模型,該方法大幅度提升了猜問題的覆寫率和準确率。

#問題識别

對于沒有猜中問題或者回報猜問題錯誤的使用者,我們會嘗試讓使用者盡可能準确的用一句話描述一下他遇到的問題,對于使用者的描述,我們能否準确的了解并定位,就取決于我們的自然語言了解能力了,這也是問題識别這個子產品的主要工作。

為此,我們建構了問題識别“子模型+融合模型”的架構,如下圖所示:

解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

其中,分類模型使用了使用者服務軌迹等、使用者描述文本和精準因子特征,通過混合網絡來構模組化型;語義比對集中在對使用者描述文本的分析,通過word average model的方法進行純文字的比對;意圖樹方法,則是為了更加精準的識别使用者意圖,通過對使用者問題進行樹狀的分析和比對,來實作精準定位;搜尋引擎更多的是作為一個兜底方案,對知識庫進行内容檢索;層次要素模型是基于我們建構的語義要素庫,可以實作zero-shot的問題識别,下一小節會重點介紹。最終,我們會通過一個GBDT的模型,對前四個模型的結果進行融合,因層次要素模型的精準性和特殊性,可以直接參與到結果輸出。

#反問互動

對于一個語音互動系統,如果不具備多輪對話的能力,那麼就像人類失去了大腦、飛機失去了引擎,跟智能也就幾乎搭不上邊了。在任務型的對話中,我們非常容易了解并實作多輪會話,以訂機票為例,需要的資訊非常明确:時間、始發地和到達地,對話過程中,對于未知的資訊直接按順序提問即可,提問的内容和句式可以是固定不變的。但客服場景卻大不相同,使用者隻有問題沒有意圖,是以也無法定出需要填充的slot。對于使用者描述不完整或表述不清楚,除了能問“您是遇到了XXX什麼問題”(XXX一般是某個業務或者産品名),似乎就沒有别的招兒了。另外,在語音互動的場景下,業務上做過一次問卷調查,超過3輪以上的互動會給使用者非常糟糕的體驗,解決率等名額也會直線下降,是以,對于IVR來說,一個非常大的挑戰就是如何設計不要超過3輪的個性化互動形态。

非常幸運的是,我們發現很多的知識點或使用者問題都可以直接拆解成三個要素的形态,類似于常說的主謂賓,在我們這裡,三要素分别是:業務、架構和問題類型。業務,顧名思義,就是支付寶的一系列業務類别,如花呗、借呗、餘額寶等;架構,相比而言有點抽象,一般我們認為一句話或者一個問題的核心動詞為架構,如支付、還款、修改等;問題類型,即使用者提問的訴求,作為業務和架構的修飾部分,如失敗(問原因的)、怎麼(問操作方法的)、什麼時候(問時間的)。一般情況下,我們認為絕大多數業務知識點或者使用者問題,都可以拆解成這樣的三要素。下圖以“花呗不能還款”為例,對三要素進行了拆解。

解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

以要素庫為紐帶,我們可以更加友善的做如下幾件事情: 

  • 問題識别:當識别的一個或多個要素可以唯一确定某一個标問的時候,可以直接推出标準問題識别的結果,需要特别說明的是,這樣的問題識别就具備了zero-shot的能力(即便是以前沒有見過的問題,在該架構下也有可能識别到)。
解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?
  • 個性化反問:借助識别的要素以及其他要素的識别機率,結合反問模版,可以自動生成個性化的反問問句,盡可能降低使用者互動的難度,如下圖所示。
解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?
  • 輔助問題識别:識别的一個或多個要素,可以幫助問題識别子產品圈定範圍,降低問題識别的難度。

在三要素識别階段,我們同樣利用了使用者的服務軌迹、因子和文本等資訊,基于混合網絡結構,建構了Multi-task的學習任務,相比單模型,識别準确率可以提升7個百分點。

#自動化訓練上線

考慮到業務和産品的快速變化、産品線比較頻繁的營運活動,使用者咨詢問題的業務範圍和問題分布會發生較劇烈的變化,另一方面,使用者相關的特征(包括服務軌迹和精準因子等)也在發生着較劇烈的變化。為了保障算法的時效性,及時擷取熱線使用者特征和咨詢業務分布變化,我們與内部的核能、armor等平台結合,複用核能平台的特征處理、模型計算、abtest和自動切換上線能力,通過armor進行gpu訓練資源的排程,確定進行每天的模型疊代更新,進而保障了多個模型效果的穩定性。

解密螞蟻金服MISA:37℃的自助語音互動是怎麼做到的?

總結

最後,不妨看一段線上使用者跟MISA系統的真實對話記錄:

-misa: “您好,為給您提供自助或人工服務,請簡單描述一下您的問題,請講”

-user: “螞蟻借呗信用度不夠”

-misa: “請問是借呗的哪方面問題,是申請的問題嗎?”

-user: “就是沒法借錢”

-misa: “您是想咨詢螞蟻借呗不能借款,對嗎?”

-user: “對”

面對今年雙十一業務的高速增長,MISA系統經受住考驗,并出色完成了IVR熱線服務的任務。相比去年雙十一,賬戶識别在覆寫上提升16.6個百分點、準确率提升6.4個百分點;問題識别覆寫提升30.1個百分點、準确率提升15.2個百分點;猜問題作為今年的建立能力,覆寫大盤42.7%的話務,CTR63.5%,準确率84%。

— END —

繼續閱讀