姚前：ChatGPT類大模型訓練資料的托管與治理

作者｜姚前「中國證監會科技監管局局長」

文章｜本文将刊登于《中國金融》2023年第6期

ChatGPT是美國人工智能研究實驗室OpenAI于2022年11月30日推出的一種人工智能應用工具。它能夠通過學習人類的知識來進行交流，是以也被稱為“聊天機器人”。ChatGPT甫一問世便在人工智能應用領域掀起了一陣新的浪潮并引起了全球轟動，僅僅兩個月内其注冊使用者就突破1億。ChatGPT既好玩又實用，遠超之前的自然語言處理應用，許多人認為這是一個劃時代的産品，國際上主流商業公司、學術機構乃至政府部門都開始高度重視和全面擁抱大語言模型（Large Language Models，LLM，下文簡稱大模型）應用。ChatGPT的主要魅力在于，它利用從網際網路擷取的海量訓練資料開展深度學習和強化學習，可以給使用者帶來全新的“人機對話”體驗。海量訓練資料可謂是維系ChatGPT進化的核心要素之一。有研究預測，按照目前的發展速度，到2026年ChatGPT類大模型的訓練将耗盡網際網路上的可用文本資料，屆時将沒有新的訓練資料可供使用。是以，算力瓶頸之外，訓練資料将成為大模型産業化的最大掣肘之一。從更深層次考慮，大模型在訓練資料方面還存在各種治理問題，比如資料采集标注費時費力成本高、資料品質較難保障、資料多樣化不足難以覆寫長尾和邊緣案例、特定資料在擷取與使用分享等方面存在隐私保護、資料偏見等問題。由此可見，人工智能産業的高品質發展離不開高品質的訓練資料，訓練資料的安全合規使用是大模型人工智能長期健康發展的基礎。本文将以ChatGPT為例，探讨大模型訓練資料的來源以及未來使用合成資料（Synthetic Data）的發展趨勢，分析大模型訓練資料的合規風險以及監管介入的必要性，最後提出利用資料托管機制探索有效的大模型訓練資料監管體系。

ChatGPT訓練資料來源與處理流程

OpenAI雖沒有直接公開ChatGPT的相關訓練資料來源和細節，但可以從近些年業界公布過的其他大模型（如DeepMind釋出的2800億參數大模型Gopher）的訓練資料推測出ChatGPT的訓練資料來源。筆者整理了2018～2022年從GPT-1到Gopher的大模型的資料集（見表1）。

總的來看，大模型的訓練資料主要來自于維基百科（Wikipedia）、書籍（Books）、期刊（Journals）、Reddit社交新聞站點、Common Crawl和其他資料集。

資料的品質對于大模型的訓練至關重要。在模型訓練之前，通常依賴專業資料團隊對資料集進行預處理。這些預處理操作通常包括：去重，即去除重複的文本資料，一般以句子為機關；文本正則化或标準化，如全角字元轉半角字元，繁體中文轉簡體中文等；文本清洗，即剔除超文本标記語言（html）或者表情符号（emoji）等非文本内容，并對标點符号進行過濾和統一；分詞，即将句子拆分成單個的詞；詞的清洗，如去除停用詞等；詞的正則化或标準化，如統一數字的寫法等。經過以上預處理流程，通常可以得到品質相對較高的文本資料，防止資料中的噪聲對模型的訓練産生不良影響，有助于後續模型的高效訓練。

除了上述正常操作之外，在一些特定的處理任務中，資料團隊有可能還會根據不同目的對模型訓練資料進行過濾。比如，若要建構一個金融領域的知識系統，那麼最好把大模型訓練資料中與金融領域相關的資料篩選出來，這樣可以提升模型生成的文本與金融領域的比對程度，使模型的輸出看起來“更專業”。

合成資料将成為大模型訓練資料的新來源

目前，大模型的訓練嚴重依賴現有的網際網路公開文本資料。如果下一代大模型的參數達到萬億級别以上的話，資料短缺的問題将成為訓練瓶頸。對此，合成資料将是一種有效的解決方案。

合成資料是計算機模拟技術或算法建立生成的自标注資訊，能夠在數學上或統計學上反映原始資料的屬性，是以可以作為原始資料的替代品來訓練、測試、驗證大模型。合成資料可分為三類：表格資料和結構化資料；圖像、視訊、語音等媒體資料；文本資料。在大模型的訓練開發上，合成資料相比原始資料，可以發揮同樣甚至更好的作用，實作更廉價、更高效的大模型訓練、測試和驗證資料供給。ChatGPT類面向終端使用者的應用隻是大模型落地的開始，而産業網際網路領域的應用空間更為廣闊，合成資料可以解決ChatGPT類大模型的潛在資料瓶頸，推動科研和産業的進一步發展。

合成資料可以精确地複制原始資料集的統計特征，但又與原始資料不存在任何關聯，是以實際應用過程中的效果強于傳統的脫敏資料，便于在更大範圍内分享和使用。合成資料創造的新樣本具有原始資料的性質，甚至可以通過深度學習算法合成原始資料中沒有的罕見樣本。合成資料的産業價值主要展現在以下幾個方面：實作資料增強和資料模拟，解決資料匮乏、資料品質等問題；有效解決資料隐私保護和資料安全問題，這對于金融、醫療等領域尤為重要；確定資料多樣性，糾正曆史資料中的偏見，消除算法歧視；應對罕見案例，建立現實中難以采集的資料場景，確定大模型輸出結果的準确性。

全球IT研究與咨詢機構Gartner預測，到2024年用于訓練大模型的資料中有60％将是合成資料，到2030年大模型使用的絕大部分資料将由人工智能合成。《麻省理工科技評論》（MIT Technology Review）将大模型合成資料列為2022年十大突破性技術之一，稱其有望解決人工智能領域的“資料鴻溝”問題。可以預見，合成資料作為資料要素市場的新增量，在具備産業價值的同時，也可以解決人工智能和數字經濟的資料供給問題。

目前，合成資料應用正迅速向金融、醫療、零售、工業等諸多産業領域拓展。在金融行業，金融機構可以在不提供敏感的曆史交易資訊前提下，通過合成資料集訓練量化交易模型提升獲利能力，也可以用來訓練客服機器人以改善服務體驗；在生物醫藥行業，可以通過合成資料集，在不提供患者隐私資訊的條件下訓練相關模型完成藥物研發工作；在自動駕駛領域，可以通過合成資料集模拟各種駕駛場景，在保障人員和裝置安全的條件下提升自動駕駛能力。

大模型訓練資料的合規風險及監管必要性

從目前的情況看，ChatGPT類大模型輸出側的結果資料在自然科學領域的應用相對可控，但在社會科學領域的應用尚存在諸多不确定性。尤其值得注意的是，大模型過度依賴訓練資料，是以在資料輸入層面可能會存在惡意操縱的風險，包括有毒輸入、偏見、意識形态攻擊、輿論操控、虛假資訊、隐私洩露等。例如，有研究者指出，如果向大模型GPT-2輸入“北京市朝陽區”， GPT-2會自動補充包含這些資訊的特定人員的全名、電話号碼、電子郵件和實際位址等個人身份資訊，因為這些資訊已經包含在GPT-2的訓練資料中。這無疑會對個人隐私保護産生不利影響。還有研究人員稱，ChatGPT經常在答案中重複和放大性别歧視及種族偏見，這是因為它的訓練文本是從網際網路中截取出的，而這些文本往往包含種族主義和性别歧視的語言，基于這種文本的機率分布訓練出的大模型會被同樣的偏見所“感染”。此外，研究人員還發現，這類大模型在訓練過程中還善于編造資訊，包括杜撰曆史日期和科學規律，而且很容易掩人耳目。以上這些風險都會對大模型最終的輸出結果造成不良影響，有的甚至可能對社會經濟造成巨大沖擊，是以需要監管部門對大模型訓練資料的來源進行必要的管控，保證大模型的輸出結果符合公序良俗和法律法規要求，進而推動人工智能行業健康有序發展。

特别需要指出的是，大模型輸入側的訓練資料來源如果不是網際網路公開文本資料，通常需要資料主體的授權，否則會産生資料隐私保護和資料合規方面的問題。如前述所言，随着可用于訓練的網際網路公開資料被逐漸“耗盡”，發展大模型産業急需增加合成資料的産能，而合成資料和網際網路公開文本資料最大的差別是前者存在資料加工處理方。是以，對資料處理方的有效監管和對合成資料的有效治理以及資料權益配置設定就成為發展大模型産業的重中之重。

利用資料托管機制建構大模型訓練資料監管體系

通常來說，資料活動相關方主要有六類——資料主體、資料處理者、資料使用者、監管機構、國家政府部門以及國際組織。資料主體産生原始資料；資料處理者采集和控制原始資料，并加工形成資料産品和服務；資料使用者從資料處理者擷取資料産品和服務，用于商業目的；監管機構按職責對行業進行監管，比如反洗錢、反壟斷等；國家層面對資料進行立法，并對資料跨境流動等進行管控；國際組織推動全球範圍内的資料标準和規範。這一生态存在的突出問題是，傳統的資料處理者過于強勢，它們會利用技術優勢和場景優勢壟斷資料輸入和輸出，無法保證資料權益配置設定過程中的公平性，對于監管機構來說也是一個黑盒子。

為了扭轉上述困局，可以在資料活動中引入資料托管機構，将資料的存儲、使用、管理職責相分離，由專業的資料托管機構承擔資料存儲，監督資料處理者的資料使用和服務，并收取和配置設定資料權益。資料權益主要分兩塊：一塊是配置設定給資料主體的原始資料權益；另一塊是配置設定給資料處理者的增值資料權益。資料托管還可以支援監管機構、國家有權部門開展資料流動監管、執法驗證、數字稅征收等方面工作。

為促進大模型訓練資料的合規使用和高品質輸出，需要加強對大模型訓練資料的源頭管控，特别是在國家層面對大模型訓練資料進行規範，而資料托管機制恰好可以成為大模型訓練資料監管的有力抓手。

可以考慮對大模型訓練資料尤其是合成資料建立托管機制。監管機構則通過對訓練資料托管方的限制，進一步規範大模型訓練資料生産方和使用方的行為。資料托管方可按規定對大模型訓練資料來源、資料處理方的處理結果以及資料使用方的資料流向和訓練結果進行監測，確定大模型訓練資料來源可靠，在資料标準、資料品質、資料安全、隐私保護等方面依法合規，以保障大模型輸出結果的高品質并符合監管要求。

大模型産業發展與合規監管思路

數字經濟高品質發展的關鍵是資料，抓住高品質資料這一“牛鼻子”，就能有效應對以資料為核心的科技創新和産業變革。目前AIGC（AI Generated Content，人工智能自動生成内容）和ChatGPT充分展現了高品質訓練資料在産業價值創造中疊加倍增作用，大模型訓練資料及其輸出結果将會是未來社會和生産中的一種重要的資料資産，其有序流轉并合規使用也是發展數字經濟的應有之義。通過合理的機制理順市場中各參與方的資料權益關系和配置設定格局，并加強訓練資料的依法合規監管，是促進大模型人工智能産業健康發展的關鍵。為此，筆者拟提出以下政策建議。

一是重點發展基于AIGC技術的合成資料産業。以更高效率、更低成本、更高品質為資料要素市場“增量擴容”，助力打造面向人工智能未來發展的資料優勢。在強化資料要素優質供給方面，應統籌兼顧自立自強和對外開放。可考慮對Wikipedia、Reddit等特定資料源建立過濾後的境内鏡像站點，供國内資料處理者使用。

二是建構大模型訓練資料的監管體系。國家相關部門應對大模型訓練資料的處理和使用标準進行統一規範；建立資料托管機制，對資料托管方進行限制，要求資料托管方按照監管機構的規定對資料來源、處理結果以及使用去向等進行監測，進而使得模型的輸入、輸出結果符合監管要求。

三是探索基于可信機構或基于可信技術的資料托管方式。資料托管機構可以由相關機構組建資料托管行業聯盟，以共建共享的方式建設；亦可利用區塊鍊技術，基于聯盟鍊或有管理的公鍊，完善源端資料治理機制，實作資料的鍊上托管、确權、交易、流轉與權益配置設定。

本文源自中國金融雜志

姚前：ChatGPT類大模型訓練資料的托管與治理

繼續閱讀

網絡時代，什麼最令人期待？那必須是更快更多更好！現實網絡生活，各種各樣的資料，五花八門，不計其數，怎樣才能快速查詢？才能

7月4日，騰訊雲正式釋出AI原生（AINative）向量資料庫TencentCloudVectorDB，但是友友們知道什

pytorch-模型訓練-加載圖像分類模型訓練參數

模型訓練測試之三：yolov5 模型訓練及windows部署（一）

【重磅！今日華為釋出大模型時代AI存儲新品】大模型時代AI發展趨勢已來，華為今日召開線上釋出會，正式推出OceanSto

【蘋果iOS17隐藏AI技能被發現：通過視訊&音頻識别進行相冊搜尋】AI奇點網7月18日報道丨蘋果在今年6月的W

作為當今科技領域的熱門話題，#chatgpt到底有多牛#，以ChatGPT為代表的AIGC應用加快改變了人們的生活和工作

深度學習：tf.keras實作模型搭建、模型訓練和預測

#華為雲自動駕駛開發平台重磅釋出##媒體：中國需要自己的自動駕駛解決方案#看到這兩個硬核的标題，真的是振奮人心，民族自豪

目前在國内大規模企業分為三類，其中包括網際網路企業、人工智能企業和初創研究企業。在目前這個時代，人工智能和大模型有些相似，

未來人工智領域必将會成為國際競争的重點，那麼大模型的訓練就成為重點了，如果基座模型和基礎都來自國外平台，那麼資訊洩露幾乎

華為雲釋出自動駕駛開發平台，科技感比YY星耀版還強？日前，華為雲公有雲業務部總裁高江海在釋出會上宣布，華為雲自動駕駛開發

【論文筆記】Accelerated Training for Massive Classification via Dynamic Class Selection

【YOLO】使用VOC資料集訓練自己的YOLOv3模型（Keras/TensorFlow）0. 前期準備（因人而異）1. 試驗官方模型2. 制作VOC資料集3. YOLO模型訓練4. 模型驗證5. 常見問題

yolov3 訓練及資料集準備【記錄】yolov3 訓練及資料集準備【記錄】

關注數字技術大國競争！在人工智能這塊制高點上，決勝的關鍵在于這個要素。但很遺憾，目前美國這個資料是中國的2.6倍！大國産