T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

大語言模型日益火爆，學者們的研究方向是指明燈。那麼相關大模型重要項目的主要貢獻者怎麼看？6月9日的北京智源大會“基礎模型前沿技術”論壇邀請了T5、RoBERTa、悟道·天鷹、紫東太初、CPM等重要模型工作作者出席。

圖注：五位嘉賓現場讨論，包括：清華大學副教授、智源學者劉知遠；Birch.ai核心創始人及CTO劉胤焓；中科院自動化所研究員劉靜；谷歌研究科學家周彥祺；上海交通大學清源研究院副教授劉鵬飛（連線）

· 多方消息證明，GPT-4是個稀疏模型。——周彥祺

· 大模型想要獲得認知能力，必須要從單模态走向多模态。——劉靜

· 我們應對甲方是：卑微到塵埃，有求必應，随叫随到。——劉胤焓

· 個人認為獎勵模型非常重要，RLHF不太重要。——劉鵬飛

· 基礎模型已經成為AI大模型時代的“CPU”，是單一“産品”投入最大的部分。——林詠華

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

一、劉胤焓：利用RLHF建立實時的AI系統

近年來大語言模型在prompt-tuning和fine-tuning方向的研究有很多，而在本次報告中，來自BirchAI的劉胤焓從産品和客戶的角度闡釋了大語言模型在RLHF中的價值。

當今世界是一個人與機器共存的時代，由于機器對于人類社會了解的局限，短期内機器無法完全取代人類，更多的是作為人類的助手而存在。作為助手，通用的大語言模型雖然可以很好地完成一些通用的任務，但對于個體使用者，某些專業領域使用者以及公司使用者的個性服務尚且有所欠缺。對此，建立一個實時的AI系統可以很好地提供一個解決方案。

實時的AI系統可以可以量化的收集到客戶資訊，并根據客戶的修改次數評估AI的生成是否符合客戶的要求。利用這些資訊提供的資料，通過強化學習來訓練模型，進而産出個更為性化的生成。

用一個例子解釋如何應用人類回報資訊和大語言模型搭建實時系統：以使用者向客服提出退貨申請為例，大模型可以查找使用者以往的資料，并根據公式政策決定是否同意退貨或者給使用者優惠，但通常人工客服給使用者的回答更加人性化，此時，如果搭建實時系統，模型就能夠吸收人工客服的回答，并通過強化學習來進行模仿輸出。并且，模型可以通過追蹤不同使用者後續的表現，來判斷哪種客服的回答更能留住客戶，進而相應地提高訓練權重。

在技術層面上，基于OpenAI去年3月份的InstructGPT的論文，以及PPO方法，Birch建立了自己的系統，并且得到了一個比初始SFT更好的Policy。他們的評估政策來自于使用者的回報。總的來說，PPO可以了解為，在文章“價值”一定的情況下，讓每個文字更加出彩。

劉胤焓認為，現在生成式 AI隻能提供一個解決方案，我們真正需要的是搭建一個平台，使AI可以更高效地幫助人類節省時間。今後大語言模型應當成為一個平台、一個生态系統而不僅僅是一個文本的輸出。

二、周彥祺：通過稀疏的MoE模型擴大LLM

縱觀深度學習發展史，深度學習的發展其實建立在硬體的發展之上，硬體的快速發展也促成了近年來大模型的蓬勃發展。然而，近年來我們正在接近摩爾定律極限，是以，不能再通過簡單地将參數翻倍或将标記（Token）翻倍來大幅度地持續擴充密集型大語言模型。這是一個非常低效的、不太可持續的方式。我們需要一種更可持續的方式來擴充大語言模型。

百度的一篇論文顯示，在給定模型的大小和總訓練資料的情況下，模型的性能是可預測的。幾年後，openAI也基于擴大計算資源、資料集大小，以及參數規模給出了大模型的擴大法則（Scaling Law）。這使得更多的公司和機構可以訓練自己的大模型。比如，谷歌的T5模型。T5模型保留了原始Transformer的大多數架構，它最大的貢獻之一，是将所有NLP任務都描述為文本到文本（text-to-text）的任務。T5的另一個貢獻是開源了C4資料集，這些資料實際上使整個研究界受益匪淺。從T5開始，大公司間的競争越來越激烈。T5擁有11B的參數，GPT-3有175B，而2022年釋出的PaLM有540B。但稠密模型超過500億參數非常困難。多方消息驗證，即使是GPT4也是稀疏架構。

是以周彥祺分享了通過稀疏模型MoE（Mixture-of-Experts layer, 專家混合型）擴大大語言模型的方法。以GLaM模型為例，它包含1.2T個參數，但實際上被激活的參數（activated parameters）隻有97B，遠少于GPT-3，也就是說，它是稀疏激活的MoE。它與GPT-3同樣是隻有解碼器的模型，但與GPT-3相比，GlaM獲得了更好的性能。

但Token-based MoE 也有局限性，糟糕的專家路由政策（例如導緻負載不平衡的政策）會導緻某些專家訓練不足，進而導緻專家的專業性不足或過度。為了解決這個問題，他們提出了一個叫做專家選擇的路由算法。先前的工作使用top-k函數為每個标記配置設定固定數量的專家，而不考慮不同标記的相對重要性。不是讓标記選擇top-k專家，而是讓專家選擇top-k标記。是以，每個标記可以被送到不同數量的專家那裡，每個專家可以有一個固定的容量。在此基礎上，為了進一步改善Moe方法，他們又提出了一個非統一的架構：Brainfomers模型，這種模型基于在Transformer的基礎上進行了優化設計，并建立一個搜尋空間（Search Space），來提升神經網絡的性能。它比GLaM基線快5倍以上。那麼如何才能使語言模型得到更新，并讓基礎模型，比方說預先訓練好的GPT-4适應一些目标下遊任務領域呢？周彥祺的團隊提出了專家混合型的漸進式終身學習。這種方法可以次線性地增加參數的數量，同時引入新的訓練資料，并增加一個表示損失，這樣模型就不會忘記以前的訓練資料。

三、劉靜：多模态預訓練的簡單回歸與思考

劉靜從為什麼關注多模态大模型，如何進行多模态大模型訓練，接下來如何發展多模态大模型，三個方面做了《多模态預訓練的簡單回歸與思考》主題演講。她提到，今天的大模型完全颠覆了過去十多年以深度學習為核心的AI範式，能從大規模無監督資料中挖掘資訊的大模型，有望突破目前AI應用落地難的瓶頸。同時，劉靜表示，多模态的資料無處不在，人類更多的表達方式或者更常用的表達方式是通過去看、去聽、去想，不一定用文字記載。是以，大模型想要獲得認知能力，必須要從單模态走向多模态。

目前大規模資料和基于Transformer架構的基礎模型，以及自監督學習，可以讓模型具備很好的通用性和模态間的關聯能力。這也是大模型的基礎。但是讓大模型服務于實際應用，重要的是進行模型的适配和微調。顯然，動辄千億、萬億參數的模型，讓全參數微調變得非常困難。是以，如何更高效、更低成本地微調這樣的模型變成了重要的研究方向。為此，業界提出了包括PromptTuning、擴充卡方法、LoRA等方法，希望實作低成本的增量式微調。多模态預訓練模型的未來發展方向，包括通過更強大的語言模型、更大的視覺模型和更大的音頻模型，以及更多的資料來提升模型的性能。對此現象，劉靜也表示：“大模型的發展是一條有效的路，通過堆積資料和模型，性能還可以進一步提升。但這條路并不适合所有人，特别是學界，一味追求大并不是長處，是以需要通過其他方向來精細化和優化模型。”

四、林詠華：工程化打造AI中的“CPU”

動辄百億甚至千億規模的大模型，訓練成本花費巨大。林詠華在《悟道·天鷹大模型—— 工程化打造AI中的“CPU”》報告中提到，要用工程化的方式來打造一套“大模型進化的流水線”，可持續地提升模型訓練效率，才能讓基礎模型持續向産業輻射能量。她提到，基礎模型已經成為AI大模型時代的“CPU”——單一“産品”中投入最大的部分。經過粗略估算，用 1T token 資料訓練330億規模的大模型，大概需要 2000 萬人民币的投入，包括算力、資料、評測、人力等成本。是以，隻有采用系統化、标準化、可持續的訓練流程，基礎模型才能釋放後續模型能力提升的潛力，并賦能産業落地。工程化打造大模型包括以下幾個步驟：資料采集和處理是基礎，模型訓練是核心、模型評測能把控階段性的訓練方向，持續疊代則讓模型不斷進步。

在報告中，林詠華介紹，悟道·天鷹（Aquila）語言大模型就是工程化的産物，是首個具備中英雙語知識、支援商用許可協定、國内資料合規需求的開源語言大模型，系列模型包括 Aquila基礎模型（7B、33B），AquilaChat對話模型（7B、33B）以及 AquilaCode-7B “文本-代碼”生成模型。Aquila基礎模型（7B、33B）在技術上繼承了 GPT-3、LLaMA 等的架構設計優點，替換了一批更高效的底層算子實作、重新設計實作了中英雙語的 tokenizer，更新了 BMTrain 并行訓練方法，實作了比 Magtron+DeepSpeed ZeRO-2 将近８倍的訓練效率。AquilaChat 對話模型（7B、33B）支援流暢的文本對話及多種語言類生成任務，通過定義可擴充的特殊指令規範，實作 AquilaChat對其它模型和工具的調用，且易于擴充。例如，調用智源開源的 AltDiffusion 多語言文圖生成模型，實作了流暢的文圖生成能力；配合智源 InstructFace 多步可控文生圖模型，輕松實作對人臉圖像的多步可控編輯。AquilaCode-7B “文本-代碼”生成模型，基于 Aquila-7B 強大的基礎模型能力，以小資料集、小參數量，實作高性能，是目前支援中英雙語的、性能最好的開源代碼模型，經過了高品質過濾、使用有合規開源許可的訓練代碼資料進行訓練。此外，AquilaCode-7B 分别在英偉達和國産晶片上完成了代碼模型的訓練。最重要的是，悟道·天鷹（Aquila）語言大模型具備可持續疊代的能力，後續将不斷完善訓練資料、優化訓練方法、提升模型性能，在更優秀的基礎模型基座上，培育枝繁葉茂的“模型樹”，持續開源開放。最後，林詠華表示，隻有打造可持續向前的大模型訓練範式，将資料、訓練、評測、疊代等步驟形成閉環，才能讓基礎大模型像CPU在計算機系統中起到核心和基礎的作用一樣，成為經濟發展的基礎設施。

五、圓桌論壇：大模型時代的Tips

劉知遠：你認為在大模型時代，最需要關注什麼技術？劉鵬飛：關注模型預訓練中的資料結構化。資料工作的重要性，已經在“有監督微調（SFT）”階段驗證，而現在有文章稱，模型預訓練會在很快“窮盡”自然語言的文本資料。是以，秉着預訓練不僅是加資料，更要加資訊的原則，如何把多模态中結構性的資訊納入模型，是我接下來考慮的方向。同時，提示工程（Prompt Engineering）的存在是非常糟糕的事情，背後是大模型的黑盒性質所導緻，正是不知道模型預訓練階段如何“存”資料，是以在“取”會嘗試各種Prompt。如果資料的結構足夠透明，我相信問題會變得簡單一些。獎勵模型非常重要。個人認為RLHF(Reinforcement Learning from Human Feedback)不重要，我們更需要高品質的獎勵模型，不止是二進制（binary）的形式，也不能隻追求精細的形式，而是希望能夠變成生成（generative）的形式，輸出一個分布或一個函數，表示智能體做得好壞的機率或期望。劉知遠：大家背景各異，請分别來自創業公司、研究所、大廠、高校的四位，從個人經驗出發，談談如何在大模型時代發揮自身優勢。劉胤焓：我有兩段工作經曆。2019-2020年初在Facebook 擔任AI研究者者的時候，谷歌做出了第一代大模型BERT，我則參與、上司研發出了RoBERTa、BART。後面Facebook又繼續推出了OPT模型，以及現在一些最新大語言模型。Facebook給我的感受是，他們所有的上司人都對大語言非常感興趣，主打一個“大”，且投入不計成本，花費多少錢都沒關系，最後會将技術進行開源。那段時間，大家不停的在讨論模型上限、參數上限、資料上限。整個行業都想探索大語言到底能夠幹些什麼。直到我創業。我發現，要理性看待大語言模型，尤其是在一些小領域。例如醫療健康的使用者，他們關心疾病知識、藥品方案，但對航班和酒店的預訂等無關緊要的問題不甚關心。是以，結論是：通用大語言模型，對垂直領域的創業公司來說，完全沒有必要。因為要更注重專業性。另一方面，從實際應用來看，大語言模型的成本非常高。有時候一個中等、更加“專注”的模型或許更加有用。劉靜：高校、研究院的使命是進行創新、有用的研究，大模型就是一個例子。我們在創新方面的優勢是源源不斷的學生資源，以及可以規劃長期的研究目标，不像企業需要短期見效。是以，我們可以更穩定地不斷創新，并引領前沿方向。例如在大語言模型裡，他們可以探索更強的自監督算法、更好的資料清洗、更強的模型協同等問題。在選擇方向時，要有好的眼光，選擇有用的方向。大模型這條路徑沒有看到頭，我們的研究方向，應該聚焦用小而高品質的資料來獲得和大模型相當的能力，然後更好地服務于應用。另一個适合學界的領域是“AI for science”，要和生命工程、腦科學的領域進行合作，需要長期投入才能見效。周彥祺：創業公司超越傳統大廠還是有難度。以OpenAI和谷歌這場大模型對拼為例，谷歌并沒有落後。谷歌有世界上最大的雲計算平台，最強大的TPU和GPU資源，以及最優秀的系統和軟體層面的技術。而且大公司顯然更關注長期問題，無論是資料标準，還是模型安全，顯然都更合規。劉鵬飛：首先，高校教師要承擔起作為學者的責任，例如RLHF的重要性等。這些可能是創業公司不願意花時間研究。其次，梳理各方的戰場，包括學術界、工業界、VC、創業公司，明确每個人應該承擔怎樣的角色，讓這個領域各司其職，做得更好。再者，幫助領域找到科學進步的方向，敢于提出不一樣的觀點，産生更加準确的方向。特别是在評估大模型時，找到可靠的公正的評估方法，避免走彎路。最後，培養學生，讓他們知道成長路徑，不需要天賦異禀，隻要有興趣和熱情，就可以一起往前走。劉知遠：大模型領域，你最想做什麼？如果有充足的預算，你想如何解決？劉胤焓：我想要一個高品質的資料集，因為資料永遠大于架構，架構可能隻是微調或微微調的結果。大語言模型應該做成一個生态，不僅僅是文字，還要超出文字，像個貼身小秘書一樣，記錄他的需求，随叫随到。劉靜：我想繼續攻關多模态對話，讓人和機器用圖文音自由交流。長遠目标是讓機器人用各種感官去感覺和探索世界，和人類溝通。周彥祺：短期目标是在大公司裡研究大語言模型，建立一個超級大的分布式系統，降低大語言模型的成本，讓它和Google search一樣快速。長期目标是了解大語言模型的原理，探索是否有可能用更強的算力或量子計算機。短期目标是把語言模型的數學解題能力，做成和GPT-4回答其他問題一樣好，找到做這件事的秘訣和方法。另外，如果有1w張卡，從頭來一遍訓練，提高自己對資料的了解和處理能力。

六、觀衆回答

觀衆A：機器人能否像ChatGPT那樣執行各種任務，比如端水杯。實作這個功能的難點在哪裡？劉靜：機器人能否像ChatGPT那樣執行各種任務，關鍵要打通感覺到決策。機器人要能看到、定位、執行任務，而不是被動接收圖檔或文本。現在的多模态大模型還不能真正融合多媒體資訊，也不能根據環境提問或互動。機器人要做到像人一樣，還有很多工作要做，但是路線是通的，未來會有更好的成果出現。觀衆B：三個問題，首先，對于大廠的同學，遇到什麼樣的機會，會促使你離開谷歌去創業？其次，高校科研的同學，對于創業如何看？最後，對于創業的同學，是怎樣的心态應對甲方的需求和壓力？周彥祺：每當我不順的時候，就會想離開谷歌，但是又覺得谷歌有更好的環境和資源，如果在谷歌都解決不了，在其他公司也可能發揮不了才能。如果我離開了谷歌，可能是由于我有非常想做的事情。例如打造ChatGPT這樣的爆款産品。目前谷歌并沒有限制我研究的步子，暫時不會離開。劉靜：堅持自己想要做的事情，根據自己的特性和時機選擇創業或科研。我們科研院所的多模态大模型不比企業差，在視訊了解上有優勢。劉胤焓：13個字形容應對甲方：卑微到塵埃，有求必應，随叫随到。觀衆C：如何看待用大語言模型做推理？尤其是數學推理方向。有人認為語言模型不應該“學會”數學題，應該調用工具輔助語言模型。劉鵬飛：大語言模型做數學推理是基本的能力，但是也需要結合其他的工具來提高效率和性能。建議先分析不同的數學問題的類型和特點，然後選擇最合适的方法來解決，不要排斥任何一種方式。大語言模型在複雜的多步推理和形式化問題上有優勢，但是也需要不斷改進。觀衆D：如何解決大語言模型訓練中的幻覺問題？周彥祺：兩種方式。首先，可以用更大的語言模型來做一個品質檢測的模型，用來評估小模型生成的資料的安全性和真實性。其次，可以用谷歌搜尋或者其他的索引工具來給生成的資料加上引用，讓使用者可以追溯資料的來源和可信度。當然也可以結合檢測模型和搜尋工具來實作。觀衆E：如何“破解”大語言模型序列長度的限制？劉胤焓：我使用滑動視窗算法。用滑動視窗在不同的視窗裡做生成，然後再把生成的結果合并起來。要注意，一定要保證訓練資料對齊，要不然效果會差很多。周彥祺：GPT-4也遇到了類似的問題，運算瓶頸在于注意力機制（Attention）。應該用更高效的注意力機制來替代全連接配接的注意力機制。可以用稀疏注意力的方法，就是用一個局部注意力加一個固定跨度的全連接配接注意力，這和 MOE 的方法有點類似。觀衆F：大模型例如GPT-4的數學推理表現較差，如何用小模型進行優化？劉鵬飛：大模型做數學推理需要全棧式的方法，包括預訓練、有監督的微調（SFT）等階段。預訓練階段要構造相關的語料，讓模型學習數學或者推理的基本概念，比如最大公約數等。有監督微調階段，要把數學的多步推理展開，如此才能适配大模型。觀衆G：怎麼看待提示工程師作為一個職業，會發展成一個學科麼？周彥祺：提示工程師會後成為最快消失的職業。已經在研究了SoftPromp了，慢慢就不需要人工了。劉知遠：請大家分享一句話結束今天的論壇。劉胤焓：說三句話。我大學學的是化工，後來自學計算機，有幸做研究發表NLP的論文，現在在創業。沒有任何一樣東西是恒定的，沒有任何一樣東西是一直風靡全球的，但是總會有新的東西，是以不停的去改變自己，迎接新的東西，找到自己喜愛的方向，追逐自己的夢想，但是不能随波逐流。劉靜:首先要堅定，在未來的三五年，大模型會颠覆很多領域。第二，堅持。堅持自己認為有價值的東西。第三，不要盲目追風。周彥祺：放眼未來，不止考慮5個月的事情，科研要考慮未來5年、10年。劉鵬飛：像比爾·蓋茨之前說過的，做人工智能需要有責任心，最終目标是什麼，如果是可以推動全人類變好的話，做每件事情都不太會有錯。

作者：智源大會本文來源：公衆号【智源社群】

-The End-

本周上新！

掃碼觀看！

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群（www.techbeat.net）。社群上線480+期talk視訊，2400+篇技術幹貨文章，方向覆寫CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章，并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向，對使用者啟發更大的文章，做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信（chemn493）投稿，溝通投稿詳情；還可以關注“将門創投”公衆号，背景回複“投稿”二字，獲得投稿說明。

>>> 添加小編微信！

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構，旗下涵蓋将門創新服務、将門技術社群以及TechBeat人工智能社群。公司緻力幹通過連接配接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與産業更新。

将門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬建構而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”:

⤵一鍵送你進入TechBeat快樂星球

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

二、周彥祺：通過稀疏的MoE模型擴大LLM

三、劉靜：多模态預訓練的簡單回歸與思考

繼續閱讀

買車避坑指南丨吉利星越LHip吉利星越LHip24.07【駕駛感受】駕乘體驗是妥妥的亮點、開起來特别輕盈、重心很穩，緊急

阿聯酋旅居｜電話卡避坑指南在阿聯酋有三種電話卡可以選擇，其中最大的營運商是etisalat和du，還有一種虛拟網絡卡vi

切記：租房過程中任何溝通都要留證！錄音、聊天記錄都不要删！#租房那些事#租房子#畢業季租房#避坑指南#經驗分享

新速騰——車燈更新避坑指南

GPT-3.5作為目前最先進的自然語言處理模型之一，具備強大的語言了解和生成能力，被廣泛應用于各個領域。然而，受限于技術

npm 前員工自曝生态内部存在嚴重 bug | 附避坑指南

文書老師學曆揭秘—誰在打理我的人生大事（留學機構避坑指南）

如何看懂成分表，大牌避坑指南'

人工智能新技術——聯邦學習的前世今生（上）

買車避坑指南｜領克06PHEV領克06PHEV價格：14.86【優點】主打安全，後排未系安全帶報警;A柱粗壯(也可以了解

沒有跟上AI，可能你就錯過了下一個風口。萬物皆可生成是AIGC的主要特點，這就意味着，人人利用AI皆可創作，各行各業的人

818電視選購指南！掌握以下技巧，避免踩坑！電視市場競争激烈，各種營銷手段層出不窮，選購時需注意以下幾點。·首先，要選擇

基于Java+Vue+uniapp微信小程式實作餐廳校園訂餐平台

QA視角的MySQL探險之旅：穿越慢查詢沼澤，揭示實戰避坑指南

Python一行代碼制作炫酷可視化 Cufflinkscufflinks實戰

這是我做了四年的臉書商城總結出來的經驗，如果你不懂得如何開始看我這篇作品就夠了，我還給大家分享了一些避坑指南，這樣大家就