作者：tensorchen

本文從技術應用架構以及AI大模型賦能角度介紹騰訊文檔AI智能助手的探索和實踐之路。作為一款集多功能為一體的AI産品，騰訊文檔全品類與AI進行了深度融合，全面提升使用者生活和辦公中的效率。通過騰訊文檔AI，你腦海中靈光一現的Idea可以快速轉化為詳細的内容，在各種類型的文檔中同源流轉。同時，面對紛繁複雜的資訊，騰訊文檔AI也可以加以分析處理，幫助你從海量的資訊中提煉出有價值的内容，進而将他們轉化為屬于你的認知。

第一章：大模型給效率工具帶來的挑戰

随着ChatGPT的釋出和火爆，全世界的目光仿佛都聚焦在了大語言模型上；其強大的語言了解能力和生成能力、上下文記憶、學習糾錯、思維鍊推理等關鍵能力的湧現，都标志着”AIGC“的發展到達了技術拐點。全世界的開發者手握一個如此威力巨大的雷神之錘，恨不得把所有的釘子都錘一遍，是以大模型火熱的開始階段，有了這樣的一個言論：”世界上所有的app都可以結合大模型重做一遍“。話語雖經不起推敲，但大模型在一些領域确實可以提高驚人的效率，尤其是效率工具領域，從以下幾個宏觀角度分析，确實給效率工具帶來了極大的機會。

● 技術上：文本生成領域技術發展相對成熟

大模型落地最開始的應用，就是用于文本生成，同時在文本生成技術上發展也是最快最成熟的，承載使用者創作的效率工具是天然落地的有利場景，可以極大提高使用者創作環節的門檻和效率。

● 使用者上：關注熱度極高

使用者關注度是大家極容易忽視的一個分析角度，當新技術、新概念問世後，無論新技術有多厲害，最終是要落地成為産品服務使用者的。叫好不叫座的技術/産品，并不是真正的好技術/産品。

從百度關鍵詞搜尋指數，可以看出ChatGPT問世以來，所覆寫的使用者面足夠廣、使用者接受度和對其感興趣程度極高，搜尋指數峰值達85W，可算是今年的“網際網路春晚”。過查詢曆史資料對比，可更加具象化的了解本次搜尋熱度：

上一個爆火的元宇宙概念，搜尋峰值指數不過10W，不及本次ChatGPT的1/8。

22年除夕當天，春晚關鍵詞搜尋指數150W，本次ChatGPT的關注度峰值已達春晚的一半。

● 發展規律：工具始終在率先變革

曆史不會重複，但會押韻。從過往曆代新技術變革到現在，每次工具都會率先的進行變革，一代人有一代人的生産力工具。

同樣從全球/全國的競品資料表現來看，完全也印證這件事：使用者對文檔類工具與AI的結合接受度高，需求旺盛，是本次大模型爆發後重點落地的優勢領域。

全球通路量前100的AI産品中，共有12個文檔類工具競品上榜；全國通路量前100的AI産品中，共有26個文檔類工具競品上榜。

是新機遇但也确實是新挑戰，對傳統效率的革新并非一蹴而就，無論是使用者認知教育、産品能力建設落地及差異化競争、商業化模式都是新的挑戰。本文會重點聚焦于 AI技術在産品落地環節及模型部分，其餘部分不在此長篇幅展開，埋坑後續更新~

第二章：文檔AI技術思維及架構

本章從技術角度介紹整個騰訊文檔AI技術工程的具體實踐架構，以及自身對AI應用落地的技術思考。

2.1 AI應用技術思維

在實際應用思維模式可以總結為：

1. 對人困難的，對AI也困難

2. 能讓程式做的，就不要讓AI做

舉個可能不完全契合的例子：

人捕魚這件事：人思考決策使用漁網（工具）進行捕魚。普通人不會實際制作漁網，普通人制作漁網需要有人教授相關技能，過程費時費力，成效低，見效慢。

AI起到的是授人的作用；工具起到是漁的作用

在文檔實際案例中，AI協助使用者美化PPT這件事：AI了解使用者需要美化PPT，AI決策使用PPT美化工具進行美化。AI不會實際美化PPT，AI美化PPT需要有人教授AI相關技能（海量的高品質的PPT美化相關資料進行模型訓練），過程費時費力，成效低，見效慢。

"将整個PPT的字型調整為宋體" 任務

AI: 用于解決對話中了解使用者調整字型的意圖和具體的字型類别

工具：文檔PPT調整字型工具進行實際的執行

"建立一個關于明朝曆史的PPT" 任務

AI: 用于解決對話中了解使用者建立PPT意圖和主題明朝曆史

AI：基于明朝曆史這個主題生成大綱和詳細文本内容

工具（搜圖工具）：基于大綱進行圖檔搜尋，實施PPT配圖

工具（PPT模版）：基于大綱，文本，圖檔 + 模版，生成完整PPT

騰訊文檔自身業務包含諸多品類，例如Word，Excel，PPT，PDF，收集表（Form），思維導圖，流程圖，智能表格（SmartSheet），智能文檔（SmartCanvas）以及正在進行中的白闆品類。

不同品類是以産出為導向建構的産品形态，内容和形态疊加在一起，（Word需要調整格式，PPT大家需要學習美化）。其核心在于内容資訊的表達。

是以，落地騰訊文檔AI應用時，從技術角度思考通常應用AI解決内容相關問題，應用工程解決形态或者樣式問題。

2.2 文檔AI技術架構

● AICopilot：提供AI側邊欄對話入口服務，主要負責對話的意圖識别工具分發，意圖保持，柔性處理，緩存邏輯，會話存檔等能力。

● AIServer：提供各品類獨有浮層助手能力。

● AIAgent：定位于AI智能體，目前主要提供文檔各品類的能力工具集合，被上層服務的意圖識别後所實際的驅動的接口。

● AIEngine：文檔的AI引擎服務，涉及對AI相關能力的抽象和封裝，保持統一抽象定義（主要包含文生文，文生圖，TTS，ASR，OCR，Embedding等AI能力的抽象），屏蔽不同AI能力間的差異，奠定文檔可以在不同AI能力進行無縫切換的基礎。

● AIOperation: 文檔AI相關的灰階政策，隐私授權（柔性），營運操作。

● AIExtension：AI拓展服務，主要包含和規劃為AI應用落地過程中的其他支撐能力，例如文本搜尋，圖檔搜尋，Python執行引擎。

2.3 文檔AI中台架構

文檔AI中台的概念初始于騰訊文檔這款産品本身就存在10種品類，期望以中台解決方案的形式為不同品類進行賦能，同時也是這樣實踐和落地。此不僅僅在于騰訊文檔産品本身，依據部門内整體産品矩陣，也更需要将文檔xAI基礎能力作為中台，傳遞和賦能不同的産品。

文檔AI中台同具體模型和産品應用解除耦合，形成了可以為不同産品賦能的文檔xAI解決方案，提供對文檔AI領域的整體解決方案，賦能不同的AI應用産品。

2.4 中書閣AI應用架構

在文檔AI應用和中台落地過程中，也将AI技術和周邊能力生态抽象實作為AI應用架構，其定位：AI應用落地的應用架構建設。願景：AI For Everyone，降低AI應用技術門檻，提升AI應用研發效率。

理念：

1.标準化：主要承接Oteam前兩項内容 AI應用标準和 AI應用規範，其将通過AI應用架構的标準化建設最終輸出給業務研發者。

2.可視化：在大語言模型應用中往往遇到多次同大語言模型互動并調用外部工具，對其中的過程的可視化将有助于研發調試，問題定位以及營運分析等。

架構将提供UI平台，提供LLM應用過程的可視化界面（包含耗時分析，Token消耗等等内容）。

架構也将提供LLM的可觀測性，提供基于OpenTelemetry标準的監控，分布式追蹤和日志等資料的上報。

3.多語言架構：将提供多語言實作，以滿足不用業務應用場景和業務技術棧。

對非AI專業友好，架構站在使用者角度進行子產品和能力抽象，多語言提供AI應用開發聚焦在AI産品能力落地及效果優化。

第三章：文檔AI應用側技術實踐

3.1 問答場景應用

文檔産品最核心能力之一是資訊傳達，海量的資訊中對資訊進行AI問答是關鍵AI落地場景之一，在文檔中涉及對Word，PPT，Sheet，思維導圖，收集表，知識庫等場景内容的問題。

文檔的AI應用工程實作關鍵一點在于搭建文檔問答的基礎解決方案。解決此類的問題的關鍵在于如何讓大模型了解領域知識（特定文檔中的内容資訊）。

通常有兩種解決方案:

● 方案一：領域知識通過FT方式進入模型的權重檔案中或通過LoRA動态疊加到模型權重檔案中。

● 方案二：通過Context的方式即時的将領域知識傳入模型。

使用者的文檔資訊，是使用者自身的資訊的集合，它主要服務于使用者自身。我們不可能為每位使用者專門訓練模型，基于時效性的考慮使用者文檔經常變更，也不可能每次變更重訓模型，其次基于使用者隐私的考慮，我們也不可能将使用者資料拿來進行訓練。顯然方案一不可行。

那麼在文檔中實際進行落地的也是方案二：通過Context的方式即時的将領域知識傳入模型。

這種技術被稱為 RAG，RAG （Retrieval-Augmented Generation）搜尋增強生成技術，也就是一套基于特定知識庫的檢索召回和大模型模型生成的技術方案，用于處理大模型中各種複雜的知識密集型任務，如知識問答。

整體解決方案由如下子產品串聯完成：

l 文檔加載：定義統一的 Document 資料模型，将實作預設典型的資料源加載實作，業務方也可以根據接口自定義實作自身所需文檔資料源。

文檔分片：大語言模型上下文大小有一定限制，需要将大量資料進行分割操作。
文檔Embedding：Embedding過程将對應文本向量化，以提供更好的語義表達。
文檔向量存儲：使用向量資料庫存儲文檔向量資訊。
文檔召回：根據使用者輸入的問題召回跟問題最相關的文檔資訊。
問題解答：根據召回文檔資料 + 使用者輸入問題提供給大語言模型進行知識問答。

為解決如下兩種場景，在原有架構上規劃進行進一步的更新。

1.解決中繼資料問答、總結、非總結類問題

2.解決涉及多模态文檔的問答

3.2 意圖識别應用

依在文檔AI實際産生應用效益，需要将使用者意圖實際轉化為具體的行為

挑戰一：上百種指令場景

挑戰二：意圖和任務流程各不相擁，通過會涉及多種工具的串聯

如下實際使用者使用的示例:

結合使用者不同輸入應用場景，落地AI功能，關鍵在于意圖識别和任務編排

● 通過PromptID為唯一任務索引

● 将能力标準化工具化

● 通過As Code形式對任務進行編排（參考gitlab的，利用yml進行任務編排上百種任務場景）

使用者意圖更大的挑戰是多意圖識别，使用者可能同時進行字型調整和字号調整，對于上述的解決放哪，我們是不可能使用單個function call解決問題的，function call的參數有限，也無法預測所有的使用者行為。

那麼可行的大概兩種：

方案一：多輪Function Call

方案二：生成代碼

最終我們規劃使用生成代碼的方案，主要多輪function call實作上無法解決任務順序問題，而通過生成的代碼是可行的。

3.3 表格應用場景

表格場景最大的挑戰是表格内容容量，根據目前大模型的context容量，大概隻能支援有限個單元格。超大表格解決方案，核心政策在于：将原有AI傳回結果更新為AI傳回得出結果的方式方法（即代碼）。

第四章：文檔AI模型側技術實踐

4.1 創作場景模型

使用資料增強方法，強化薄弱能力

對于創作能力，使用self instruct、evol instruct等方法構造類似的種子指令、并通過複雜化進化和泛化，進行資料增強。可以有一套比較标準化的流程：

● 收集種子指令：收集新需求，人工編寫簡單種子指令；

● 指令多樣化：參考self instruct、evol instruct 寬度變換的做法，對種子指令進行多樣性變換，覆寫更多的領域、主題、形式等；

● 指令複雜化：參考evol instruct 深度變換操作（例如：增加限制、增加參考示例、增加具體化操作等），為種子指令添加限制，讓指令變得複雜，為每個指令增加3-10個限制條件；

● 指令泛化：對進化後的指令同意改寫，進一步豐富表達方式和形式，每個指令改寫3-5種形式。

● 結果抓取：标注和抓取上述進化後的指令；

● 結果清洗：使用self-refine、人工檢查等方式，抓取結果的準确率接近100%。

對比學習方式，提升了解穩定性

針對差别較小，難以區分的任務，例如：限制漏點、否定限制、數字要求等任務、專門構造對比樣本，加入sft或者進行強化學習。這類樣本可以加入sft階段學習，可以構造pair資料，加入偏好學習階段。

● 局部對比：在限制數量較多的情況下，模型難以兼顧到所有限制。容易出現漏點問題。通過從指令中逐個去掉限制、其他部分不變的方式，增加局部對比的樣本，讓每個限制在指令中出現和沒有出現的情況對應什麼response，模型都見到過。

● 否定對比：針對否定限制，通過去掉否定條件和對否定條件取反的方式，構造對比樣本

寫一篇郵件，關于提前預約我們的美容護膚師，享受專業的面部護理服務和個性化護膚方案推薦。郵件需包含郵件主題、收件人、發件人、正文等基本部分。在郵件中指出收件人需要在預約後的48小時内完成預約确認和安排護膚師的任務，并提醒收件人應通過電話或電子郵件回複預約資訊。不要出現"順祝商祺"

● 數字變換對比：對指令裡的數字要求的數字進行變換，構造對比樣本

編寫一篇關于未來城市規劃的短文，強調可持續發展和綠色出行的重要性。同時，探讨如何有效利用現有資源，以減少對環境的影響。請務必包括至少三個創新性的規劃政策，并在文中提供相應的執行個體或案例。

編寫一篇關于未來城市規劃的短文，強調可持續發展和綠色出行的重要性。同時，探讨如何有效利用現有資源，以減少對環境的影響。請務必包括至少六個創新性的規劃政策，并在文中提供相應的執行個體或案例。

4.2 表格場景模型

公式生成

公式生成除了可以識别基礎公式需求外（“求A列的和”），還支援熱門領域專業術語的了解，例如：使用者問營運資金周轉率最大的産品，基于混元知識蘊含能力，混元知道【營運資金周轉率=銷售額/平均營運資金】，進而計算出每個産品的營運資金周轉率。

此外，在技術方案上使用了思維鍊（COT）+代碼生成（POT）的方式，解決公式嵌套帶來的效果不穩定的問題。

思維鍊（CoT）被認為最具開拓性和影響力的提示工程技術之一，它可以增強大型語言模型在決策過程中的表現。

CoT迫使模型将推理過程劃分為中間步驟。這種方法類似于人類的認知過程，将複雜的挑戰分解為更小、更易于管理的部分。

思維程式（PoT）是一種獨特的LLM推理方法。它不僅僅是生成自然語言答案，而是要求建立一個可執行程式，可以在Python等程式解釋器上運作，進而産生實際的結果。

PoT提供了一個更清晰、更具表達力和基礎的答案推導模型，提高了準确性和了解力。

圖表生成

圖表生成的核心部分包括6個子產品，其中拒識、分步改寫、代碼生成三個子產品是基于大模型的推理子產品，背後模型均經過了模型精調。

具體地：

拒識模型能夠識别使用者問題和表格的相關性，對與表格無關的問題或非繪圖問題進行拒絕回複
分步改寫模型針對不同表格和不同問題，将繪圖步驟拆解為多個可執行步驟
代碼生成模型根據繪圖步驟生成python表格可視化代碼。

第五章：總結

結合騰訊文檔AI落地過程，總結一下AI助手開發過程中的一些經驗：

對人困難的，對AI也困難
能讓程式做的，就不要讓AI做
應用AI解決内容相關問題，應用工程解決形态或者樣式問題

作者:tensorchen

來源-微信公衆号:騰訊技術工程

出處:https://mp.weixin.qq.com/s/MNY6647V4hPByNzghyDUfQ

騰訊文檔AI助手技術實踐