作者 | 李冬梅
目前,AI 大模型已成為科技創新和數字經濟領域的熱點,其高速程序中面臨的諸多問題也引發了業内關注。FATE 開源社群技術指導委員會主席楊強教授指出:“即将消耗殆盡的公域資料,日趨高漲的隐私安全保護需求,以及衆多異構小模型的整合需求,已成為 AI 大模型發展之路上亟待突破的瓶頸。而聯邦大模型正是解決這些問題的有效路徑。”在此背景下,FATE 社群開源了 FATE-LLM 聯邦大模型功能子產品,以聯邦學習+大模型的技術解決方案破局資料隐私保護與資料不足等問題,以應對行業發展的新挑戰。
近期,聯邦大模型開源平台 FATE-LLM 最新版釋出,在橫向聯邦場景支援 ChatGLM-6B 中文語言大模型。內建 GLM 的 FATE-LLM 将會為國内使用者提供更好的中文大模型應用落地選擇。
GLM 系列大模型由清華大學和智譜 AI 聯合研發,其中 ChatGLM-6B 是一個開源的、支援中英雙語問答的對話語言模型,并針對中文進行了優化。該模型基于 General Language Model (GLM) 架構,具有 62 億參數。結合模型量化技術,使用者可以在消費級的顯示卡上進行本地部署(INT4 量化級别下最低隻需 6GB 顯存)。開源兩個月以來,ChatGLM-6B 在全球最大開源軟體平台 GitHub 上獲得超過 26 萬星,超過斯坦福同期模型的關注度和好評度,全球下載下傳量超過 200 萬,并連續兩周登上全球最大開源大模型平台 Hugging Face 大模型趨勢榜榜首。
此次更新的 FATE-LLM v1.1 版本在橫向聯邦場景支援 Adapter,Prompt 這類高效聚合方法,可以顯著提升聯邦大模型訓練效率,其中參數微調方法支援 Lora 以及 P-Tuning V2 。而在架構層,FATE 實作對 DeepSpeed 的內建,使得 FATE-LLM 支援多機多卡訓練,支援分布式 GPU 叢集資源排程和管理,支援資料、模型參數等不同并行化加速方法。使用者隻需要任務送出階段直接增加配置即可享受到多機多卡的加速能力。
項目連結:
FATE-LLM v1.1 功能介紹
亮點概述
1)內建業界開源的主流中文語言大模型 ChatGLM-6B,支援高效的參數微調機制 Lora、P-Tuning V2 等方法,提升聯邦訓練的通信效率和訓練效率;
2)FATE 實作對 DeepSpeed 架構內建,使得 FATE 具備多機多卡聯邦大模型加速訓練能力:支援分布式 GPU 叢集資源排程和管理;支援資料、模型參數等不同并行化加速方法。
功能一覽
1)ChatGLM-6B 聯邦化支援,并支援 LoRa、P-Tuning V2 高效微調方案;
2)FATE 多機多卡聯邦大模型訓練能力支援,在任務送出階段增加相關配置即可使用資料、模型等不同階段的訓練加速能力,與使用者模型訓練代碼解耦;
3)FATE 支援分布式 GPU 叢集資源管理功能;
4)支援使用 transformers 庫的 data collator 類,可以更靈活地處理訓練輸入資料;
5)支援隻儲存可訓練參數,降低訓練階段 checkpoints 儲存的硬碟占用,友善模型拷貝使用。
實驗資料
1)高效參數微調機制的參數量及其訓練參數占比
2)場景及資料、以及配置
- 聯邦場景:橫向聯邦,兩個參與;
- 應用場景:兩個參與方各持有部分資料,資料格式:<廣告關鍵字,廣告宣傳語>,希望模型可以根據輸入的廣告關鍵字去自動生成廣告宣傳語,通過聯邦模組化去提升廣告生成詞的效果。
下面給出效果示例:
- 資料集:AdvertiseGen,可參考 https://aclanthology.org/D19-1321.pdf,為廣告生成資料集;
- 訓練資料随機切分,其中 client-1 資料量為 57478,client-2 資料量為 57121
- 環境:區域網路環境,client-1 和 client-2 機器配置完全一緻,單個 client 使用 2 台機器,每台機器有 4 張 V100 32G 資源;
- 配置:DeepSpeed: stage=2,batch_size_per_device=4;
- 資料集的提問(content)及回答(summary)兩列 tokenize 後,token_ids 長度超過 64 的會截斷。
3)訓練效果:
開源共建,是助推聯邦大模型快速發展的不竭動力
未來,支援中文大語言模型 ChatGLM-6B 聯邦化訓練的 FATE-LLM 将通過聯合多家公司群組織,充分利用分散資料,融合聯邦學習和 AIGC 相關技術,實作異構資料分布式安全訓練。其中針對中文方面的優化,将為金融、教育、醫療等領域的應用帶來更強大的支援,例如人工智能助手、智能問答、自然語言處理等場景将會得到進一步的效果提升。
FATE-LLM 子產品将持續疊代,未來将持續解決訓練、微調和使用推理階段的隐私保護問題,并堅持推出後續版本。聯邦大模型将大模型與隐私計算核心技術手段融合,使大模型的“野蠻生長”轉向更加安全可靠的發展賽道,在提升 AI 通用性的同時不違背監管與倫理的要求,推進 AI 技術高品質發展。
清華大學教授唐傑表示:“作為科研人員,我們希望在開展大模型技術研究與應用落地的同時,也進一步降低人工智能的使用門檻,實作技術普惠,為行業良性發展做出一些貢獻。”
飲其流者懷其源。開源不僅是一種技術選擇,更是一種分享态度與溝通方式。開源平台和開源生态将助推大模型的快速疊代與落地應用。
本文轉載來源:
https://www.infoq.cn/article/8zfeEZcsDD7JSBLZYg6j