天天看點

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

本文來自AI新媒體量子位(QbitAI)

作為人工智能和語言學的重要分支,自然語言處理(NLP)的相關研究一直充滿魅力與挑戰。

8月2日(上周三),量子位邀請到靈智優諾的CTO許可,他以“怎樣為智能投顧打造一個對話系統”為題,分享了NLP在保險智能投顧中的應用和相關技術問題。

這次分享邏輯嚴密,全程幹貨滿滿,不少讀者在背景留言希望回看。為了友善大家學習交流,量子位将分享内容編輯整理如下:

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

歡迎參與量子位和靈智優諾共同舉辦的線上分享活動,今天分享的主題是怎樣為智能投顧打造對話系統。

我大緻會從三個方面來講,一是智能投顧的起源,主要的參與者和他們涉及到的業務和技術,二是我們在證券方面的智能投顧的嘗試,三是我們在保險智能投顧方面做的嘗試和産出。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A
如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A
如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

傳統的投資顧問分兩種,一種是在使用者端,需要通過一系列細緻深入的訪談來了解使用者的風險偏好,這是一個很漫長的過程。第二種連接配接産品端,根據不同使用者的風險偏好和資産狀況來定制資産配置的組合。

所謂智能投顧就是用智能化的技術來代替或者部分代替這種投資顧問的角色。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

當時證投興起的時候面臨這樣一個市場環境。經過20年的價格戰,券商傭金率已經接近營運成本,并且由于金融危機的影響,所有的金融市場的交易量都有明顯的下跌。

金融市場的參與者都想提升自己的收益,而個人投資者已經轉向機構的投資代理服務,會去采用像ETF這樣的投資方式對個人資産進行打理。在這樣的情況下,所有的金融機構都有動力去擴大自己的市場的覆寫範圍和市場佔有率。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

擴大市場佔有率的必然選擇如這張圖所說。

整個美國各階層家庭的可投資資産分布大概是這樣:頭部10%的家庭大概占據了80%的資産,尾部90%的家庭隻占20%的資産。傳統的券商和資管的業務主要覆寫頭部人群,因為他們的邊際成本是一樣的,但邊際收益頭部會明顯更高。

這樣的情況下,要覆寫90%的家庭就需要一個降低邊際成本的方式。而這個方式就是技術,是以早期智能投顧的公司都是通過技術的手段降低邊際成本,擴大獲客的範圍。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

早期的公司類型如圖所示。資産從投資者到個股市場,可能有不同的途徑。下面我将分别詳述。

資訊內建商:如sigfig,把所有的投資賬戶整合到一起。比如說個人的投資賬戶有做股票、期貨和其他衍生品,而它會把所有的賬戶打通,然後內建到一起。是以技術在裡面起的作用并不大,但仍然獲得了一個很好的市場反響。

經紀商:如charles,通過技術手段來生成個性化的投資分析報告。通過結構化的财報資料和生成文章的模闆來生成投資報告,再把投資報告賣給個人使用者。他們也獲得了一定的市場佔有率。

社會化投資:如motif,找一些投資很厲害的高手,把他們的投資組合推薦給其他普通投資者。是以在他們的技術裡面最核心的是關聯推薦。推薦準不準确,能不能被其他閱聽人所接受,就是他們需要解決的核心問題。

個性化的基金指數:如wisdomtree,相對比較有技術含量。比如說傳統的資産配置指數可能是通過市場市值來進行複權,而他們可能會采取通過例如股息率複權的方式來生成新的基金指數産品。

新的這種産品的收益率可能會遠遠高于傳統的ETF指數基金。他們花的絕大部分精力都是在做指數量化,也取得了很好的收益和市場佔有率。

自動化的資管:如wealthfront,對傳統的不是很有錢的美國家庭,一般投資顧問不會幫他們做資産配置,那他們就可以去wealthfront這樣的網站上注冊,輸入個人資訊,他們會幫你做一個風險偏好的分析,根據風險偏好分析性和個人資訊自動生成一份投資組合讓你去投。

這就相當于把傳統投資顧問的工作線上化,實作了用技術的模型做服務。後來跟進的公司也采取了相同的技術手段和方案,都獲得了較好的市場反響。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

總結:這時期的智能投顧主要是通過單一算法管理投資組合的線上站點,他們的主要目标其實是為了降低準入門檻和邊際成本。

在這種情況下,他們能提供的服務就會包括簡單的一些投資收益的投資組合,或者是做一些再平衡和稅收統劃這樣的服務,把這些簡單功能通過技術實作線上化。

在國内做智能投顧探索的時候,做的第一件事情就是證券領域智能投顧的嘗試。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

首先來看看中美市場的對比。美國從1999年,個人投資交易占60%以上,到2014年的時候這個占比已經降到了16%以下。

是以美國可以說已經完成了從散戶市到機構市的轉變,而中國的話,從财報中能看出來,2013年和2014年散戶的交易達到40%甚至有變多的趨勢,是以中國仍然還是散戶市場,散戶行為會主導整個市場。

在這種情況下,我們就需要思考如何服務好散戶,或者說如何利用散戶的行為。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

是以把問題大緻拆分成三個方向,首先需要解決散戶資訊不對稱的問題,而解決這個問題一定需要知識圖譜做支撐。

其次是做輿情挖掘,因為散戶在市場上占主導,而且散戶是有輿情驅動的因素在裡面的,是以如果我們能預測散戶輿情,我們也就能夠預測市場的走向。

那麼在有了知識圖譜和輿情挖掘的基礎上,就可以去生成一個量化指數,這個量化指數可以産生新的資産配置組合,那麼預期就可以得到比較好的收益。這就是大概問題的一個拆解。

在這個問題的拆解下,首先要知道我們能擷取怎樣的資料。我們通過擷取資料的結構化程度,和擷取的一些難度,把他們分成兩個次元。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

最基本的是交易資料和财務資料,他們具有很好的結構化并且很容易得到;再就是一些公告、文檔和調研報告;再上一層是一些新聞、事件、熱點和社交網絡的一些輸出;再上一層就是一些網絡輿情、搜尋日志和零散資訊;更上一層是消費者與供應鍊。

我們所能看到的是,最容易擷取的肯定是交易資料和财務資料,我們現在努力一點能達到的就是網絡輿情這一層,想再更上一層的話,在目前的階段比較難實作,是以我們可以先暫時不關注這一部分資料。基于這樣一個認知我們搭建出來的一個知識圖譜大概是這樣。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

其中包括一部分外部采購,外部采購就包括像财報等一些有很好的處理和結構化的資料。另外一部分是實體關系,實體關系需要我們從網絡上去挖掘和擷取例如:公司的關系,行業的關系,不同的股票之間的關系。

還有一些最基本的股票的實體,比如股票的屬性,名稱和交易量價的基礎資料和基本資訊。另外一部分是對于新聞資訊的資料,這是非結構化的資料,其中可能會反應一些熱點和輿情。右邊是在左邊資料基礎上的一個再挖掘。

比如輿情的話,我們可以從搜尋和UGC資料裡面挖掘。另外一部分是熱度和熱點資料,這些可以從日志和資訊裡面挖掘。然後概念資料是通過實體抽取行為拿到的,最後是使用者行為的統計的資料。這些都會對整個輿情的系統構成影響。

這裡面的“挖掘”的思路就是傳統的知識圖譜挖掘會用到的,包括像模闆和一些基本的NLP實體抽取的技術。最重要的其實是工程化和優化的問題。

在這個基礎上我們可以去看看怎麼去生成日志輿情。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

基本思路就是我們從搜尋日志中可以找到和證券實體相關的搜尋詞,通過搜尋詞的狀态建構一個正負輿情打分的模型,在這個基礎上對證券的收益進行拟合。

對日志的大量資料的整體拟合可以得到一個輿情總分。是以基本過程是:最開始去挖掘股票實體和概念實體,通過搜尋日志對輿情進行打分,拿到分數後做一個線性拟合,進而得到整個實體的輿情打分。

而擷取輿情打分有很多不同的方法。

傳統方法是通過關鍵詞規則化,也可以在規則化的基礎上做一個簡單的機器學習,這就轉化成一個簡單的二分類的機器學習的問題。當我們攢夠足夠的語料樣本後就可以進行打分。過程的持續優化可以得到一個比較好的對某個實體的整個輿情的打分。

而這個打分裡,實時性是一個比較重要的問題,會影響到整個輿情指數在實際量化應用中的效果。是以這些參數都是需要進行調整和實驗。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

那麼如何在輿情指數模型的基礎上去拟合多因子,也就是如何生成投資組合。首先是怎麼選擇量化模型。量化模型有很多,包括高頻的,低頻的,中頻的,還有很多不同思路的。如果想應用這些輿情指數,最好的方式其實是采用中低頻的模型。

因為應用高頻模型的話我們的資料達不到實時性要求,而且在國内環境裡面沒法進行高頻的交易。是以做量化能夠選擇的模型其實不多,普通的選擇就是這樣一個多因子的模型。

大家如果想去了解可以去看一本書叫《主動投資組合管理》,裡面對多因子模型的量化做了很詳盡的解答。

這裡面主要是拟合各個因子的權重,也就是這樣的權重如何反映到投資組合之上。模型中對量化因子進行拟合後可以得到一個投資組合,用這個投資組合去和滬深300比較的話大概是下圖右邊這樣一個曲線。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

從2012年到2015年的回測的量化的話可以得到一個遠高于它的收益水準。從資料來看,最大回撤隻有3%左右,周勝率和月勝率都是非常高的一個數值。有一個重要的名額叫資訊比率,做到了三點多。

這是一個什麼樣的概念呢?在美國這樣一個成熟市場,傳統的多因子的量化模型做得好的話可能有一個接近1的水準,是以這已經是一個遠超于平均水準的收益了。

另外一個名額是和傳統因子的差異性。差異越大,說明名額越能夠提供額外的資訊,有額外的價值。

我們和易方達這樣的公司合作,去和他們原有的因子做對比,相關性從-0.01到0.21之間,這是一個相對較低的一個相關性的名額,是以整個輿情名額的價值還是比較突出的。

我們結合輿情指數和其他三個因子的情況下去構成基金,對像易方達這樣的基金會有10%左右的這樣的一個收益的提升。整個産出是很不錯的。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

關于輿情指數的其他的應用我們還做了一些這樣的嘗試。

第一個是機器讀研報的嘗試,這個是類似機器讀法律文檔這樣的應用。從一篇複雜的報告中提取出一些核心的描述,把這些句子抽取出來提供給分析人員去看。

這裡面涉及到的技術也比較多和雜,比如說像實體識别,句對抽取,資料清洗。

這項技術我們也賣到了一個很好的價格。還有一個應用是整體的資料的結構化,比如研報的。其他的比如UGC和新聞的資料的結構化,拿到一些時事熱點或公司治理的一些情況,行業相關地位,管理層股東的風險,這樣一些結構化資料,這個做好可以産生很大的價值。

下面我們看看智能投顧在保險領域的探索。我們先看看保險領域有哪些問題需要去解決。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

第一是使用者選擇難,使用者無法選擇,對條款陷阱無防備或後續服務脫節,我們采取條款解讀,結構化呈現和服務內建來解決。第二是對條款陷阱無防備。第三就是出險後保險購買和後續服務脫節。

另外傳統的保險由銷售人員去溝通,可能存在銷售知識匮乏,可能以推銷為目的,會導緻明顯的誤導,而且人員的流動性很大。

這裡我們會有這樣一些解決方案,其中最核心的就是智能對話技術,在這裡面內建标準話術,解決對話不标準的問題。

考慮到專用知識的回答,就必須內建知識圖譜。進行這樣的問題分解我們就能知道我們大概要做什麼。

下面就是我們從種子使用者中收集到的問題。我們可以看見這項問題是很複雜的,涉及到很多深度的知識,在傳統的sequencemodel是很難解決的,不論是在中間增加一些attention的技術手段還是用生成式對抗網絡去學習都很難得到比較好的結果。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A
如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

那麼這樣的問題是否可解?是否能做工業應用?這項是很多做智能問答的公司都要面臨的。

在這一個垂直領域的限定環境下,問答的句式和内容是相對的有限的,說出第n個詞的時候,後面接第n+1的詞的選擇空間遠小于泛領域的情況,是以在這裡所需要的訓練語料比較小,這樣至少能邁出第一步。

因為原始語義空間相對小,是以在使用同樣大小的語義向量進行描述的時候損失的語義資訊會更小,是以生成的回答可能會相對更接近期望語義。

如果隻做單一領域,我們可以跳過意圖識别這一層,并且所有模型系統可以隻對單一領域進行深度優化。

這些都是使問題簡化的一些思路。但最重要的是必須結合知識圖譜,必須要預先知道一些問題的答案,才可能使回答集合滿足真正的問題的需求。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

我們來看看這種問題的解決路徑。

必須首先做知識圖譜的挖掘。在這個基礎上做語料的産生和收集,然後我們需要搭建一個對話的架構和對話模型。最後是需要把知識庫的對接支撐到這個對話模型裡。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

對于保險領域知識圖譜的構成,這裡面包含産品,地域,人群等這樣幾個大的方面。每個方向深入下去還有很多分支。比如産品擴充開還涉及到費率、險種、計劃、标簽、不同的疾病的關聯關系。疾病的話可能會設計到成因,部位,發病率等等。

建構這樣一個關系圖譜最關鍵的是要保證準确率。如果隻是去做一個輿情的挖掘,來判斷到底是一個正向輿情還是負向輿情,這隻是機率性的,中間可以有一些不準,但隻要整體是有效的就行。然而做問答的時候,錯誤是不可接受的。是以如何去保證準确率是一個很核心的問題。

基于這樣的考慮我們建構了這樣一個挖掘架構。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

先在一個廣泛的資料集的基礎上做資料清洗和主題過濾,把清洗過後的資料進入語料平台,生成問答資料庫和實體資料庫,對這兩個資料庫做抽樣輪流和疊代優化,必須在當中加入一個人工的監督的過程,來提升整體的效果和準确率。

還需要存儲一個圖關系,因為所有的存儲并不是一個扁平的KV存儲,還涉及到實體之間複雜的關系,可能是包含,可能是關聯,也可能更複雜,是以就需要把圖關系存儲下來。

我們再來說智能對話架構。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

使用者從提問進來,最基本的就是預處理,包括切詞和詞的指代關系分析。為什麼會有一個多服務排程呢?

因為最後我們的對話觸發不是一個簡單的deep learning的sequence model的觸發方式,而是一個多層觸發。因為單純的sequence model的觸發是很難達到準确率的要求,就需要其他方式去補充,尤其是檢索和模闆有很大的作用,語義索引主要起到一個擴大召回的作用。

這樣我們就可以盡量去平衡召回率和準确率。使得整個系統的效果達到一個相對可用的狀态。拿到多個模型和系統産生的結果後,就可以在結果基礎上做一個結果的reranking,找出最适合目前對話的結果。

這裡要解決的問題就是什麼東西和使用者的提問關聯度是最高的,會涉及到很多feature,包括字面比對度,語義的比對度和其他模型給出的置信度,這些都會用到結果裡面。最後對結果進行整合資料庫的後處理。

在這樣一個複雜的系統處理後我們仍然不能保證準确率是足夠高。至少要達到90%以上才能直接去面對c端客戶。在這樣的情況下,在過程中可能需要內建一個人工稽核和處理的過程。

這樣的一個系統才是工業可用的系統,我們日常見到的對話系統比如說像siri,小冰。他們基本都是通過sequence2sequence的模型end 2 end來做的,能夠解決的是短句的回答。但當遇到包含知識的一些精準問答的時候,就需要更工程化的架構來處理問題。

如何為智能投顧打造對話系統?這有一份指南可供參考智能投顧的興起智能投顧在證券領域的嘗試智能投顧在保險領域的探索Q&A

剛剛說到了主動引導的問題。我們通常見到的智能客服都是解決售後問題的,它的過程是解決使用者遇到的問題,是以它隻需要一個對話問答的系統。

而我們要做的是一套售前的客服支援系統,尤其是一個重決策的售前支援系統,需要有一個引導,需要發現使用者的需求,采集使用者的資訊,在這個基礎上再去完成對話或推薦,需要融入主動引導,而不是等使用者的問題出來了再被動的觸發。主動引導就需要解決幾個核心的問題:

目前我應該說什麼。我們需要識别使用者所處的場景,場景觸發的因素是什麼

客服主動發起一個對話的時候,觸發機制是什麼。這個觸發機制會形成一整套的模闆引擎。

在這個基礎上再說怎麼生成和拼接語料。

在這樣一個對話場景下才能去做售前客服。這些就是目前要解決的主要問題之一。

說一個模型語料的選擇的問題,一套對話其實是有不同的對話的場景的。最開始可能是寒暄,然後就是問答,客服在采集資訊。接下來可能就是客服已經推薦産品了,使用者有很多問題提問,這樣一個問答場景。最後可能就是下單交易,做一些流程介紹。

在不同的場景下,對話模式和語料可能是完全不同的。基于這樣的認知,在做模型訓練的時候。可先做一個對話場景的識别,并在不同的場景選擇不同的模型,這是我們目前在做的核心優化之一。

當一個純粹的端到端的模型很難達到高準确率的時候,就可用嘗試把模型細化,把要解決的問題集縮小,變簡單,然後再去做模型組合。這是工業上解決複雜問題比較常用的一個手段。

另外怎麼去盡量促成使用者下單和購買,涉及到問題是:在對話的工程中怎麼去找到推薦的時間節點和一些說話的方式,這也是在模型裡面需要不斷去優化和解決的問題。

比如,最後成單和沒有成單兩批使用者,他們的語料和模型上會不會有差别,這裡面可不可以把他們分割開放到不同的模型裡面去做訓練,這個也是比較有意思的話題。

最後一個問題,我們在單純的模闆觸發上,能不能做一些更深入的模型的整合,比如能不能把sequence model直接整合到模型檢索裡面去,這樣的思路是我們目前正在探索和嘗試解決的思路。

1. 知識圖譜怎麼搭建?

知識圖譜的搭建其實是一個苦力活的過程。我們通常會先定出一個結構,在結構的基礎上思考資訊怎麼去擷取。我們從網站上抓取語料後再從中抽取實體。

抽取實體的方式有很多,常用的是基于模闆,模闆可以人工配置或自動生成。還有一些垂直網站本身做了比較好的結構化,可以直接使用。比較重要的三個問題是:你需要什麼樣的資料,這些資料在什麼地方有,用什麼手段去得到。

購買,提取或自己采集資料,可能一個資料全網都沒有,隻能自己去生成,這個過程很可能是人工的,另外也可能是通過其他的方式把别的領域的資料轉化過來。

整個過程是相對比較綜合的。其中還有一些其他的苦力活,比如說資料的清洗,模闆的配置和生成,這些都會影響最後知識圖譜的效果。

2. 模闆是指算法還是人工?

一個模闆引擎本身是算法,通常是一個文法樹的解析算法。但最終模闆的生成可能是一個半人工的過程。初始模闆一定是人來制定的,然後做模闆的挖掘疊代,通過初始的模闆去挖掘語料,回報到另一批語料中尋找是否有類似的模闆。

這個是在NLP領域比較常用的模闆挖掘方式。模闆挖掘出來後還有大量像模闆的過濾這樣人工的工作。可以說這是一個人工和算法相結合的過程。

3. 盈利模式是什麼樣子的?

證券的盈利模式有兩種:一是生成指數基金,和基金公司合作或者自己去發基金然後收取管理費用;二是賣服務或資料。讀取研報資料并進行售賣,這個是一個to B的盈利模式。

智能投顧的盈利模式和證券不同,它類似賣保險的盈利模式,也就是在保險的推薦達成之後交易傭金的收取。更深一層去解析這種盈利模式的話就是邊際成本的降低,也就是通過技術降低整個銷售人員的成本,可以帶來規模效應。

4. 多因子指數模型的資料源是什麼?

最大的資料源是百度是搜尋資料,這個表達了使用者目前在關注什麼,可以得到正負向的輿情。但并不是唯一的資料來源。還有就是UGC資料,使用者生成資料。

比如微網誌,論壇等UGC網站發出來的資料,表達了和搜尋日志同樣的資料,關注哪些方面,有什麼看法。分開訓練會得到一個近似的結果,結合起來可以得到更好的結果。

5. 每天資料量大概是多少?

每天的抓取量大概幾十萬,但随着疊代會變少。新生成的對話的資料量會比抓取的資料量少。

6. 股票知識圖譜資料來自不同行業的網站,如何打通在一起?

主要通過實體和實體關系打通,比如來自不同的網站,但描述的是同一隻股票或同一個公司,可以實作資料的整合。使用者行為也是找到實體關系的重要依據。

7. 怎麼解決歧義性?

通常很難解決,尤其在單獨面對一個實體的時候。通常的語義消歧都是通過結合上下文來做的,sequence model也是這樣一個思路。一個詞可以生成一個語義向量,這個語義向量上有語義分布。

詞的序列就能對這種語義分布進行疊加,進而使一個詞在不同的語境下有不同的語義分布表達,進而達到消歧的作用。

8. 怎麼解決原始資訊的備援沖突?

這個主要是在資料清洗階段解決。最重要的就是聚類整合。原始資訊的備援沖突可能涉及兩個方向,第一個是在知識圖譜的挖掘裡面。當出現一個實體,它在不同的場景有不同的屬性,有些屬性對應或融合,做同義詞近義詞的挖掘來進行整合。

第二個是在對話裡面,一般是通過簡單的聚類來處理。兩個句對用詞的相似度程度如何。接下來需要考慮怎麼去判斷相似問答中哪一種說法更好。最簡單的是先通過人工過濾,或看客服在使用過程中是怎麼樣回答的,或者根據使用者的回報判斷。

9. 網絡新詞可以自動發現嗎?

這是一個在NLP領域很常見的問題,但在證券或保險裡這個問題主要展現在熱點上,也就是新的熱點和新詞爆發時能不能被找到。

但我們限定了範圍後就會發現是可解的,因為新詞出現的範圍是相對固定的,比如出現在新聞标題裡,搜尋的核心關鍵詞裡,是以可以通過詞頻聚合或簡單的pattern的手段去發現新詞。

10. 實體機構全稱簡稱可以自動歸一化處理嗎?

不是能夠完全自動化的,仍然需要人機結合。這裡的處理有幾種方法。第一類是同位語挖掘,在不同的句子中出現在同一個地方,我們可以認為是有關聯的。第二類是模闆挖掘。第三類是制定規則。但所有的解決方案目前都是半人工的,要融合到算法裡面去。

11. 剛剛所說的是不是一個馬爾可夫鍊?

在關聯挖掘裡面,馬爾可夫鍊是一個重要的模型。特别是在實體挖掘的時候會經常使用馬爾可夫鍊,但并不是所有領域都能用到。

12. 大概支援多少種算法,機器學習算法比重如何?

主要模型就是四個。sequence model的算法比重目前不超過20%,很多深度問答的對話暫時不是由sequence model觸發的。但希望這個比重可以随着模型的優化不斷提升。

13. 第一輪對話後主謂賓缺失,能否形成多輪對話?

多輪對話在很多對話模型中都是作為基礎功能加入的。多輪對話的核心問題就是指代消解。

這個在第一輪裡面會實作實體識别,然後在後一輪裡面做指代消解,不同的算法準确率不一樣,但能夠結合模闆的算法是可以達到很高的準确率的。是以多輪對話可實作,但覆寫率和準确率需要得到提升。

14. 目前的平台會開放嗎?

暫時不會開放。之後可能會實作開放。

以上就是靈智優諾CTO許可的分享内容,在量子位微信公衆号對話界面回複“170802”幾個字,還可得到分享報告及視訊回看位址。

—— 完 ——

本文作者:屈鑫 顔萌

原文釋出時間:2017-08-07