突然之間，大語言模型紛紛湧現，各廠商經過短暫觀望之後，紛紛向最佳應用實踐戰場之一的智能客服領域出手。首先落地的場景就是知識庫自動擴寫，這也是AIGC能力在智能客服最直覺的落地應用場景之一。本文作者對智能客服知識庫自動擴寫功能進行了分析，一起來看一下吧。

大語言模型“忽如一夜春風來”，作為最佳應用實踐戰場之一的智能客服領域，各廠商經過短暫的觀望之後紛紛出手。首先落地的場景就是知識庫自動擴寫，這也是AIGC能力在智能客服最直覺最簡單的落地應用場景之一。

一、AI訓練師的“神器”？

智能客服領域的一個難點在于知識領域是狹窄的，AI機器人必須被限定于企業賬戶級的知識庫中。

而智能客服中的知識庫，就是一個限定領域内的企業私有知識庫，如果不配置外接知識庫的情況下，AI文本和語音機器人都會在此知識庫範圍内進行問答。

是以智能客服機器人的智能化程度，受制于這個知識庫的完善。

營運較好的企業，會進行大量的知識庫維護工作，幫助機器人校準回答水準。

對于重度的智能客服AI機器人使用者，這是一項高度依賴人力的工作，必須配備專職的AI訓練師崗位進行話術流程搭建，知識庫維護工作。

AI訓練師的常見工作流程包括：分析客戶話術流程需求，設計話術流程模闆，搭建話術知識庫，測試話術流程，配合上線、收集營運資料回報調優等。

既有對産品大量的操作性工作，也包括大量的客戶溝通。其中對知識庫的編寫，是最費時費力的工作之一。

有經驗的AI訓練師會借助積累的通用知識庫，領域知識庫和常用模闆，來達到快速冷啟動的目的。

而對話術中的詳細知識點進行針對性地擴寫，是繞不開的一個工作。

借助大模型能力，協助AI訓練師進行知識庫擴寫，就是為了解決她們的效率問題。

二、AI談談實作方案

如何通過大語言模型，實作智能客服知識庫的自動擴寫，聽聽AI的建議。

知識點自動擴寫通過大語言模型的實作方案要考慮：

標明知識庫和知識點：從現有知識庫中標明需要擴充的知識點，如概念、實體等。這決定了擴充内容的範圍和方向。
收集相關語料：通過各種方式收集與標明知識點相關的語料，如網頁資料、文獻資料、問答資料等。語料規模和品質直接影響生成文本的效果。
選擇語言模型：選擇一個合适的預訓練語言模型，如BERT、GPT-3、Transformer等。不同模型适用不同類型和規模的資料，模型性能也不同。
設計定制模闆：根據擴充目标設計定制模闆，如概念解釋模闆、問答模闆、例句模闆等。模闆的設計指導和規範了語言模型的生成過程。
建構生成架構：建構一個生成架構，将語言模型、語料和定制模闆有機結合，使其協同工作完成文本生成任務。架構的關鍵是輸入與輸出的有效銜接。
生成多樣化文本：在架構中生成多個候選擴充文本，這些文本需盡量保證多樣性以提高選擇空間。
評估和篩選：采用自動評估與人工評估相結合的方式對生成文本進行評估和篩選，選擇内容豐富、準确度高和最符合要求的文本。
添加到知識庫：将選擇出的擴充文本添加到對應的知識點下，以實作知識點的較長的描述和内容擴充。
持續監測與優化：持續監測已添加擴充文本的有效性，并收集使用者回報意見。根據回報進行生成架構的優化，不斷提高擴充品質。
重複疊代：對更多知識點重複上述步驟，逐漸實作知識庫的廣度和深度擴充。

在實作中需要注重語料和模闆的選用，架構的設計，生成文本的篩選，以及優化機制的建構等方面。良好的設計可以大大提高自動擴充的效率與效果。同時，人工參與也是關鍵，特别是在評估選文本和優化架構中。

總之，知識點自動擴充需要建構一個涵蓋語言模型、語料、模闆的動态架構，利用多輪疊代不斷優化和改進，最終實作高品質的知識擴充。

知識點擴充的技能也可以用于實作相似問句的自動生成。實作方法可以包括：

建構知識圖譜：收集與給定知識點相關的所有資訊，建構知識圖譜，包括相關概念、實體、事件等及其關系。知識圖譜提供了生成相似問句所需的豐富語境資訊。
設計問句模闆：分析給定知識點相關的典型問句，設計多個問句模闆（包含實體槽位）以指導生成過程。不同模闆代表不同的問句角度和表達方式。
填充實體槽位：利用知識圖譜為每個模闆的實體槽位填入相關實體或概念，形成多個問句候選項。實體的替換會産生相似但表達不同的問句。
評分與篩選：根據問句的語義相似度、流暢度以及其它标準對候選問句進行評分，選擇最優的若幹個問句。然後可以人工選取最佳的幾個問句。
疊代優化：分析選取的問句以及人工回報，對知識圖譜和問句模闆進行優化修正，以産生更高品質的問句候選項，實作疊代提高。
持續生成：對更多知識點重複上述步驟，通過累積的知識圖譜和模闆庫持續生成更豐富的相似問句，實作自動問句擴充。

總體來說，要實作相似問句的自動生成，需要建構問句生成架構，架構基于知識圖譜和問句模闆，可以填充實體生成候選問句，并通過評分、篩選和優化不斷改進，最終産生高品質的相似問句，實作知識點的問句擴充。

核心實作邏輯完全類型，其中的填充實體槽位是實作相似問句自動生成的關鍵步驟之一。主要的實作方法有：

實體提取：從相關語料中提取與知識點對應的實體，如概念實體、名詞實體等。這需要利用實體識别與連結技術實作。
實體候選：根據模闆中的槽位類型，從提取的實體中選擇與槽位比對的實體候選項。每個槽位可能對應多個候選實體。
實體組合：根據不同的槽位，從其對應的實體候選項中選取若幹個實體，進行所有槽位的實體組合，形成完整的問句内容。
相關度排序：對所有實體組合生成的問句，計算其與知識點的相關度或相似度，并進行排序。相關度越高的問句被賦予更高的生成機率。
beam search：在生成過程中，根據相關度對實體組合的問句進行beam search，隻追蹤相關度較高的Top-K個組合，擴充它們生成更多候選問句。這可以提高生成品質。
随機選擇：在一定機率下，從實體候選項中随機選擇填入實體，而不是選擇相關度最高的選項。這可以增加生成結果的diversity。
人工幹預：如果自動生成的實體組合問句不滿意，可以人工指定某些實體入選或移出，人工幹預結果與自動生成結果融合，改進生成品質。

是以，填充實體槽位的關鍵在于從相關語料中抽取實體候選項，然後根據相關度、beam search以及随機機制等政策選擇若幹實體入槽，形成完整的問句。人工也可以參與其中，與自動生成結果融合，不斷優化和改進。

通過上述方法，可以為每個模闆的實體槽位填充多個實體選項，産生多個相似但略有差異的問句。這為後續評分篩選提供了豐富的候選空間，有助于選取最優的問句，達到問句擴充的目的。填充實體槽位是實作高品質相似問句生成的關鍵環節。

知識點：

diversity增強和beam search政策都是用于提高語言模型生成文本的多樣性，進而産生更豐富的多樣化文本。

diversity增強指在文本生成過程中，人為地增加一定的随機性或噪聲，以鼓勵語言模型産生更加多樣的表達，而不是單一的序列。常用的方法是：

随機采樣：從語言模型的輸出分布中随機采樣，而不是直接選擇機率最高的輸出。這會使得最終的輸出序列更加随機。
噪聲注入：在文本生成的中間節點向輸出序列注入一定的噪聲或随機token，這會促使後續生成更加多樣。
重新開機機制：當生成過程進入”過于确定”的狀态時，允許重新開始生成（restart），這可以使整體的生成結果更加多樣。

Beam search政策是一種啟發式搜尋算法，它在解空間中維護多個候選解，而不是直接選擇單一的最優解。在文本生成中，會追蹤語言模型的多個可選輸出序列，并在後續生成中繼續擴充這些序列，最終選擇其中機率最高的序列作為輸出結果。

與直接生成單一輸出序列相比，beam search政策會産生更加多樣的候選序列。通過控制beam的寬度，可以決定追蹤的序列數目，實作對輸出多樣性的控制。

是以，總體來說，diversity增強會通過引入噪聲或随機性主動幹預生成過程，提高輸出的多樣性;而beam search政策則是通過追蹤并擴充多個可選序列，為最終輸出結果提供更豐富的選擇空間。

兩者的目的都是鼓勵語言模型産生更加多樣的表達，以此來獲得更豐富的candidate文本。這為知識擴充的選取階段提供更廣泛的内容選擇空間，有助于最終選擇更加符合要求和高品質的文本，實作擴充效果的提高。對生成文本的diversity控制和提高是知識擴充研究的一條重要途徑。

當然借助大模型實作，未必需要關注模型和算法具體實作。

三、對正規表達式的擴寫

針對機器人知識庫常用的正規表達式的自動擴寫，也可以通過大語言模型進行自動擴寫。需要考慮的内容包括：

深入解析問句正規表達式：利用正規表達式解析技術深入了解其表達的語義與資訊，提取關鍵詞、概念、變化範圍等，準确把握其表達意圖。
建構正則模闆：根據解析結果設計多個正規表達式模闆，代表不同的問句表達形式和角度。模闆中包含可替換的詞彙或符号作為槽位。
填充詞彙/變換：根據實際語境，為正則模闆的槽位填入相關詞彙或變換模闆中的符号，形成新的正規表達式。詞彙/符号的替換将産生語義相似但結構略變的新的正規表達式。
組合生成：将不同的正則模闆按照一定政策組合，并為不同模闆的槽位填入詞彙/變換模闆，形成更複雜的正規表達式，代表更廣泛的問句形式。
評分與選擇：對所有生成的正規表達式問句，根據語義相關度、複雜度等标準進行評分，選擇最優的若幹個表達式。然後人工選取其中最佳的幾個表達式。
優化與提高：分析選取的結果和人工回報，優化正則模闆、詞彙清單和變換政策，産生更高品質的候選正規表達式，不斷提高生成效果。

是以，要實作對正規表達式問句的正規表達式相似問句生成，關鍵是要深入了解正規表達式的語義，設計正則模闆并通過填充詞彙和變換模闆産生候選表達式。然後通過評分選擇、優化提高，最終生成高品質的相似正規表達式，達到問句的擴充要求。

四、執行個體：知識庫擴寫生成測試

1）相似問的AI自動生成

我從實際的AI機器人知識庫中，随機抽取了幾個場景的問題，拿來讓AI測試下自動擴寫生成。（Q為原句，A為AI擴寫的内容，每次生成5句備選）

Q：黑金卡免費停車卡為什麼不能馬上使用？

A：

為什麼開通了黑金卡免費停車服務後不能直接使用？
申請黑金卡免費停車卡後為何要過一段時間才能正常使用？
開通黑金卡專屬免費停車服務為何需要等待一定時間才能使用？
享有黑金卡免費停車權益為什麼首次使用要待一段時間？
黑金卡停車卡申請下來為什麼不能立即啟用使用？

Q：高端領軍人才怎麼申請人才較高價的電梯大廈？

A：

高端領軍人才如何申請人才較高價的電梯大廈的資格？
高端領軍人才申請入住人才較高價的電梯大廈需要滿足什麼條件？
高端領軍人才想申請人才較高價的電梯大廈，需要準備什麼申請材料？
高端領軍人才申請人才較高價的電梯大廈的流程和步驟是什麼？
高端領軍人才要申請人才較高價的電梯大廈，需要符合什麼要求和标準？

Q：你是真人嘛？你是不是機器人？

A：

你是人工智能聊天機器人嗎？
你是真實的人類使用者還是AI系統産生的效果？
我們現在的交談對話是和真人進行的還是和機器人系統？
我現在與之交流的對象是人類使用者還是人工智能聊天機器人？
我們此刻的對話是在跟真人對話還是在跟聊天機器人對話？

2）正規表達式相似問

A：

他現正忙碌|您找他有什麼要緊事|我是人工智能系統|有任何事先告知我|還有其他事項需要辦理嗎|主要面向什麼人群使用|AI助手|私人秘書| virtual assistant|主人目前無法接聽|小志智能助手|請通知使用者|我會盡快通知使用者|
他這會兒不太友善|您有什麼急需與他聯系的事|我是智能機器人|有什麼事兒提前告訴我|還有其他事情需要處理嗎| 主要為哪類使用者群服務|人工智能助理|私人助理|機器人助手|使用者現在無法接通|小雨AI助理|請通知客戶|我會盡快通知客戶|
他現在比較忙|您找他有啥急事|我是一個AI系統|有什麼事情先告訴我|還有沒辦完的其他事嗎| 主要面向什麼樣的使用者|AI幫手|私家秘書|機器助理|主人此刻不在電話旁|小天智能秘書| 請告知使用者|我會很快通知使用者|
他這會兒挺忙的|您聯系他有什麼重要事|我是人工智能聊天機器人|任何事情提前跟我說|還有沒有其他未完成的事|主要服務哪些人群|人工智能伴侶|私人助手| 智能機器人|使用者現在通訊不便|小菲AI伴侶|請轉告客戶|我将盡快轉告客戶|
他目前比較忙碌 |您找他有什麼要事 | 我是智能聊天機器人|有什麼事情先告訴我|其他事項還未辦妥嗎|主要适用什麼樣的使用者群|AI管家|私人秘書助理|智能系統|使用者此時無法接聽|小芬虛拟助手|請告知主人| 我将盡快告知主人|

Q：别打|别再|别給我打|不要打|不要再打|聯系過|不要聯系|不要再聯系|天天打|一直打|老是打|

A：

别電話|别再電話|别給我電話 |莫打電話|莫再打電話|聯絡過|别聯絡|别再聯絡|天天電話|老電話|老打電話
不要打鐘|不要再打鐘|不要給我打鐘|不要打鐘|不要再打鐘|聯系過|不要聯系|不要再聯系|天天打鐘|老打鐘|老是打鐘
不要響鈴|别再響鈴|别給我響鈴|不要響鈴|不要再響鈴 |聯絡過|别聯絡|别再聯絡|天天響鈴|常響鈴|老響鈴
别打擾|别再打擾|别給我打擾|不要打擾|不要再打擾| 聯系過|别聯系|别再聯系 |天天打擾 |老打擾|經常打擾
别騷擾|别再騷擾|别給我騷擾|不要騷擾|不要再騷擾|聯絡過|别聯絡|别再聯絡|天天騷擾|老騷擾|常騷擾

3）帶有組合關系的正規表達式（且&）

Q：（再聯系|沒）&（時間|有空）

A：

（再聯絡|空餘）&（時間|有閑）
（再聯系|沒）&（時間餘裕|有空閑）
（再聯系|能抽出）&（時間|空出來）
（再聯系|有）&（時間可以|空可以）
（聯系|如果）&（有時間的話|時間友善）

4）帶有排除關系的正規表達式（非&!）

Q：（沒時間|開車|開會）&!（開車怎麼過去）

A：

（沒有時間|開車中|開會中）&!（開車該怎樣過去）
（時間不夠|正在開車|正在開會）&!（開車如何過去）
（沒空|駕車運轉|會議進行）&!（開車怎麼去）
（時間緊|開車去|開會去）&!（開車過不去）
（時間不足|開車走|開會走）&!（開車過不來）

5）帶有并列組合的正規表達式

Q：（沒時間|開車|開會）|（（再聯系|沒）&（時間|有空））

A：

（沒有時間|開車去|開會去）|（（再聯絡|空餘）&（時間|有閑））
（時間不足|開車中 |開會中）|（（再聯系|可以）&（時間|有空））
（沒空|駕車運轉|會議進行）|（（聯系|如果）&（有時間的話|時間友善））
（時間緊|開車走|開會走）|（（聯系不上|空出）&（時間|可以空出））
（時間不夠|正在開車|正在開會）|（（再聯系上|抽得出）&（時間|空出來了））

6）執行個體：一問多答的多種知識點回答自動生成

同樣，還是随機抽取了部分知識庫标準回答，讓AI自動生成。

Q：AI智能客服提供了一種高形式的，高性能的，更高效率的産品工具，幫助使用者解決與企業連接配接的問題。

A：

AI智能客服系統使用先進的人工智能技術提供高效的客戶服務産品工具，以幫助使用者解決與企業的互動中遇到的各種問題。
借助人工智能，AI智能客服産品工具能夠高規格、高性能和高效地幫助客戶處理與公司業務相關的各類疑問與難題。
AI智能客服依靠人工智能技術開發的高水準、高品質和高産出客戶服務系統工具，使客戶能夠快速解決與企業溝通過程中出現的種種難題。
AI智能客服産品工具利用人工智能技術實作高标準、高效率和高表現的用戶端服務系統，幫助客戶迅速解決與企業交流互動時遇到的各類問題。
借助先進的人工智能技術，AI智能客服工具提供高要求、高性能和高産出的客戶服務産品系統，使客戶能夠高效解決與公司業務往來中出現的各種疑問與困難。

Q：如果逾期的話，會影響您的征信記錄，也會影響您再次申請授信或借款的，是以還是建議您按時還款。

A：

如果逾期償還的話，會給您的征信檔案留下不良記錄，也會對您今後申請信貸或貸款産生不利影響，是以我們仍建議您按時足額償還。
如果過期未還，勢必會損害您的信用記錄，也會妨礙您将來再申請獲得授信與貸款，是以我們強烈建議您如期還清欠款。
如果逾期未還款，勢必會破壞您個人的信用檔案，也将對您日後申請授信或貸款造成障礙，是以我們強烈推薦您按時足額還款。
如果過期未能償還，必定會損傷您的個人信用記錄，并會影響您未來申請獲得新授信和貸款的資格，是以我們極力建議您準時清償全部欠款。
如果到期未能還款，必定會嚴重毀損您的個人信用檔案，并會嚴重影響您未來獲授信貸與借貸的機會，是以我們極力推薦您準時還清全部欠款數。

Q：開通免費停車卡，需要我司财務部同僚在系統中錄入您的資訊并作相應設定，才能保證在您使用過程中不會出現問題。需要一段時間，請您耐心等待，期間如有其他事宜，您也可以聯系您的專屬客戶經理。給您帶來的不便，請您諒解。

A：

開通免費停車卡需要我司财務部門的同僚在系統内登記錄入您的個人資訊并進行相應設定，以確定您使用該服務過程中不存在任何問題。這需要一定時間，期間懇請您耐心等待，如果有任何其它事項，您也可以聯系您的專屬客戶經理。給您造成的不便，我們深表歉意。
免費停車卡的開通需要由我司财務部門的從業人員在相關系統中注冊輸入您的個人資料并進行必要設定，這才可以保證您使用此項服務時不存在故障與困擾。這個過程需要一定時間，在此期間，我們懇請您體諒與耐心等待。如有任何其它問題，您也可聯絡您的專屬客戶經理。給您帶來的不便，我們深表歉意。
開通免費停車卡，需要我司财務部門的從業人員在系統内登記和注冊您的個人資訊，并進行必要的設定與調整，這個過程需要時間，以保證該服務在您使用時不會出現任何問題。在此期間，我們懇求您了解與耐心等待。若有其它事宜，您也可以聯系您的專屬客戶經理。給您帶來的麻煩，我們緻上誠摯歉意。
免費停車卡的開通需要我司财務部門的從業人員在相應系統内儲存您的個人資料并進行設定，這需要一定時間以確定您使用此服務過程不會有任何故障。這個階段我們懇請您體諒與耐心等待。如有任何其它事情，您也可以聯絡您的專屬客戶經理。給您造成的不适，我們深表歉意。
開通免費停車卡需要由我司财務部門的從業人員在系統中注冊您的個人資訊與進行設定，這需要時間以保證您使用此服務時不存在問題。我們懇求您在此期間體諒與耐心等候。如有任何其它事宜，您也可以聯系您的專屬客戶經理。給您帶來的不便，我們深表歉意。

五、産品設計

一些産品設計注意事項梳理如下。

1）功能入口

結合你産品中知識庫管理的内容，可以在相似問和一問多答知識點的編寫處，增加AI生成的引用。

引用哪種大模型引擎，可以配置在賬戶管理中，由營運側控制和開啟。

2）格式化Prompt

根據使用的模型不同，調整好标準Prompt，如輸入提示限定條件、輸出條數，是否正規表達式。可暴露出來供調整的Prompt輸入條件可以少一些。目前階段控制成本，可以限定生成的次數和條目數。

3）内容稽核

如有系統級，賬戶級敏感詞，生成内容直接過濾并重新輸出補齊。

4）展示和選擇

展示生成内容備選，如有語義推薦值建議展示。

提供生成内容的編輯，允許使用者微調。

5）回報

增加對生成内容的回報按鈕，幫助大模型自動調整生成政策。

目前多家智能客服大廠對應的知識點自動擴寫功能已上線。如下部分功能截圖産品效果：

R廠的知識庫話術自動擴寫生成示範

T廠的知識庫語料擴寫

近期也有不少朋友咨詢我，是否有已經上線了大模型的智能客服可以使用？我給推薦到以上幾位朋友那邊去了。

建議大家多關注幾家大廠的産品，後續會在增強式對話、話術模闆自動生成、知識庫問答智能抽取等方面不斷有新的應用落地。

也期待大家多多關注和使用，讓智能客服産品真的越來越智能。

本文部配置設定圖和部分内容由剛剛全面放開申請使用的Bing AI生成

作者：通信産品的那些事，公衆号：通信産品的那些事

本文由 @通信産品的那些事原創釋出于人人都是産品經理，未經作者許可，禁止轉載。

題圖來自Unsplash，基于CC0協定。

該文觀點僅代表作者本人，人人都是産品經理平台僅提供資訊存儲空間服務。

大語言模型，實作智能客服知識庫自動擴寫功能

一、AI訓練師的“神器”？

二、AI談談實作方案

三、對正規表達式的擴寫

四、執行個體：知識庫擴寫生成測試

五、産品設計

繼續閱讀

超越資料收集：訓練大型語言模型 (LLM) 的微妙現實

收藏！一文看懂智能客服行業現狀及未來市場前景（智研咨詢釋出）

微軟開源TypeChat庫，給大語言模型換種提示，1行代碼安裝

【360智腦App現已登陸蘋果AppStore】AI奇點網7月24日報道丨360公司旗下AI大語言模型的移動端應用産品”

AI基礎：一文看懂BERT

蜜度智能校對服務全新更新！蜜度文修大語言模型能力已在校對通産品功能中落地運作，将大資料與大模型的優勢充分疊加，并實作應用

基于BERT的新聞文本分類

制作一個有趣的QQ機器人QQ機器人簡介機器人制作方法結尾

2019年網店店主必看：客服迎來新模式，店小蜜成商家寵兒

DevOps 是否已死？AI 和大語言模型給雲計算和 DevOps 帶來了哪些影響

大語言模型(LLMs)的相關理論分析、應用、更新疊代進展

在大語言模型時代，AI Chatbots下一步将走向何方？

智慧景區的公衆服務系統都有哪些？通常包括遊客所關心的内容，如語音導航、電子地圖導覽、VR線上遊覽、微信、抖音、快手、今日

詞向量與Embedding究竟是怎麼回事？

機器是如何學會說話的？大型語言模型揭秘之旅！

從銀行業客服模式進化看聯絡中心智能化趨勢