智能客服的知識庫有兩類：機器人知識庫和坐席知識庫，分别是為機器人和坐席進行服務時，提供資料的支撐。如何通過大語言模型，讓企業的文檔可批量上傳，無需更多的整理，直接轉化為有效的QA，供座席和機器人直接調用呢？本文作者對此進行了分析，一起來看一下吧。

上一篇提到了《大語言模型實作智能客服知識庫自動擴寫功能》，這次談下知識庫文檔資料提取功能的實作。

一、産品場景和需求

我們知道智能客服的知識庫有兩類：機器人知識庫和座席知識庫。

分别是為機器人和座席進行服務時，提供資料的支撐。

智能客服系統會标配知識庫管理功能，常見的形式是樹狀結構，提供分類管理、知識庫條目管理，并支援知識庫的批量導入導出操作。

使用中，企業需要經常性地維護管理知識庫内容，将企業已有知識内容文檔上傳，但如果是将原檔案上傳，則系統最多能支援預覽功能，使用者在操作界面隻能點選打開全文檢索。而如果是機器人知識庫，直接上傳文檔是不可用的，需要操作者手工整理文檔中的内容為機器人标準問答對。

以上是目前絕大多數主流産品的使用情況。

大語言模型來了，我們提出的需求很簡單，所有企業的文檔可以批量上傳，無需更多的整理，直接可自動轉化為有效的QA，供座席和機器人直接調用。

二、知識提取實測：PDF文檔内容提取

已有諸多産品使用大語言模型實作PDF文檔資料提取，我們先看下已實作的産品的效果。

1. ChatPDF

https://www.chatpdf.com/

界面特别幹淨，上傳pdf，然後conversation。

為了測試，我扔了一份100頁的産品手冊進來。

上傳速度很快，最關鍵的時，對話響應也非常的快。

對文檔内容的解析很準确，包括一些隐藏在内部的知識點也可以快速搜尋找到。

2. Pandagpt

https://www.pandagpt.io/

網絡問題，通路有點慢，但是這個對話的樣式，一言難盡，沒有一個版塊不是互相遮擋的，強迫症死敵。

響應速度差一些，問題回答基本到位，相比ChatPDF，略顯啰嗦。

3. typeset

https://typeset.io/

主打論文檢索的typeset，也支援pdf文檔解讀。

上傳、對話響應都十分緩慢，對話的效果非常不OK，很多知識點無法解讀，一律回複無法找到這個問題的答案。

三、自研架構的選擇

基于OpenAIEmbeddings，官方給出了基于embeddings檢索來解決GPT無法處理長文本和最新資料的問題的實作方案。

參考：https://www.datalearner.com/blog/1051681543488862

也可以使用LangChain架構，參考以下内容實作效果。

參考：

ChatGPT怎麼建立私有知識庫？：https://www.zhihu.com/question/596838257/answer/3004754396

利用LangChain和國産大模型ChatGLM實作基于本地知識庫的自動問答：https://www.zhihu.com/zvideo/1630964532179812353

另外除了從文檔中抓取資料，從指定網站URL抓取資料，實作智能客服外部知識庫，可以借助ChatGPT寫Python代碼，PythonBeautiful Soup庫的實作方式很成熟。

四、智能客服産品設計要點

回到智能客服産品場景中，産品設計使用中要考慮的問題。

1）功能分割

建議為保持原知識庫管理系統的完整，可增加單獨的大語言模型知識庫，避免SaaS産品原來的企業使用體驗和資料庫内容産生交叉影響。

2）書架式管理

模型知識庫同樣支援分類管理，友善使用者管理文檔庫，能夠快速檢索文檔名稱和内容。

提供增删改查，預覽、批量上傳删除等操作。并支援以QA問答對的方式全文展示，使用者可以了解到本文檔新增的有效文檔資料有多少内容。

3）提供測試對話工具

模型庫中可内置對話測試工具，供使用者先行進行知識點的維護管理。

4）知識庫編輯擴充

提供插件、支援線上改寫編輯，重新讀取。

減少重複上傳給使用者帶來的挫敗感。

5）知識庫關聯

已測試完成的大模型知識庫，可允許使用者關聯釋出到座席或者機器人知識庫中，提供對話資料的擴充。

如果是機器人知識庫，可以在機器人模闆設定關聯，允許流程中各節點選擇性調用對應的知識庫，這樣也不會破壞原有流程的知識庫體系，增強了部分節點的知識庫能力。

對于交叉引用知識庫的節點，權重可以允許調節，一般預設為機器人自身知識庫為主，大模型知識庫輔助。

6）回報機制

文本對話機器人的訪客端點踩、座席的手工點踩，和語音機器人的手工标記無效問答，都可以幫助回報大模型知識庫的效果。

以資料報表方式展示，手工或自動進行知識維護。

7）功能開關

最後，仍然是設定功能性開關，并關聯到SaaS産品賬戶角色權限中，可邀請一部分友好客戶星火測試，不斷疊代優化。

當然，以上情況，也不限于智能客服産品範疇，一些需要知識管理的場景中，都可以借鑒。

最後還是放出業内大廠們已實作的産品截圖加以說明：

Z廠的企業資料庫，關聯大語言模型自動搜尋

T廠的大模型文檔知識抽取和“即搜即問”

期待更多更好的應用落地，有對這方面内容感興趣的朋友，歡迎随時聯系。

本文由 @通信産品的那些事翻譯釋出于人人都是産品經理，未經作者許可，禁止轉載。

題圖來自Unsplash，基于CC0協定。

該文觀點僅代表作者本人，人人都是産品經理平台僅提供資訊存儲空間服務。

大語言模型實作智能客服知識庫文檔資料提取功能

一、産品場景和需求

二、知識提取實測：PDF文檔内容提取

1. ChatPDF

2. Pandagpt

3. typeset

三、自研架構的選擇

四、智能客服産品設計要點

繼續閱讀

【360智腦App現已登陸蘋果AppStore】AI奇點網7月24日報道丨360公司旗下AI大語言模型的移動端應用産品”

AI基礎：一文看懂BERT

蜜度智能校對服務全新更新！蜜度文修大語言模型能力已在校對通産品功能中落地運作，将大資料與大模型的優勢充分疊加，并實作應用

基于BERT的新聞文本分類

制作一個有趣的QQ機器人QQ機器人簡介機器人制作方法結尾

2019年網店店主必看：客服迎來新模式，店小蜜成商家寵兒

pytorch實作神經網絡常見model（LeNet，GoogLeNet，AlexNet，VggNet）

DevOps 是否已死？AI 和大語言模型給雲計算和 DevOps 帶來了哪些影響

大語言模型(LLMs)的相關理論分析、應用、更新疊代進展

在大語言模型時代，AI Chatbots下一步将走向何方？

智慧景區的公衆服務系統都有哪些？通常包括遊客所關心的内容，如語音導航、電子地圖導覽、VR線上遊覽、微信、抖音、快手、今日

詞向量與Embedding究竟是怎麼回事？

如何使用PyTorch建構Transformer模型實作語言生成任務

如何使用Transformer模型實作語言分類任務

機器是如何學會說話的？大型語言模型揭秘之旅！

從銀行業客服模式進化看聯絡中心智能化趨勢