天天看點

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

作者:将門創投

大語言模型日益火爆,學者們的研究方向是指明燈。那麼相關大模型重要項目的主要貢獻者怎麼看?6月9日的北京智源大會“基礎模型前沿技術”論壇邀請了T5、RoBERTa、悟道·天鷹、紫東太初、CPM等重要模型工作作者出席。

圖注:五位嘉賓現場讨論,包括:清華大學副教授、智源學者劉知遠;Birch.ai核心創始人及CTO劉胤焓;中科院自動化所研究員劉靜;谷歌研究科學家周彥祺;上海交通大學清源研究院副教授劉鵬飛(連線)

· 多方消息證明,GPT-4是個稀疏模型。——周彥祺

· 大模型想要獲得認知能力,必須要從單模态走向多模态。——劉靜

· 我們應對甲方是:卑微到塵埃,有求必應,随叫随到。——劉胤焓

· 個人認為獎勵模型非常重要,RLHF不太重要。——劉鵬飛

· 基礎模型已經成為AI大模型時代的“CPU”,是單一“産品”投入最大的部分。——林詠華

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

一、劉胤焓:利用RLHF建立實時的AI系統

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

近年來大語言模型在prompt-tuning和fine-tuning方向的研究有很多,而在本次報告中,來自BirchAI的劉胤焓從産品和客戶的角度闡釋了大語言模型在RLHF中的價值。

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

當今世界是一個人與機器共存的時代,由于機器對于人類社會了解的局限,短期内機器無法完全取代人類,更多的是作為人類的助手而存在。作為助手,通用的大語言模型雖然可以很好地完成一些通用的任務,但對于個體使用者,某些專業領域使用者以及公司使用者的個性服務尚且有所欠缺。對此,建立一個實時的AI系統可以很好地提供一個解決方案。

實時的AI系統可以可以量化的收集到客戶資訊,并根據客戶的修改次數評估AI的生成是否符合客戶的要求。利用這些資訊提供的資料,通過強化學習來訓練模型,進而産出個更為性化的生成。

用一個例子解釋如何應用人類回報資訊和大語言模型搭建實時系統:以使用者向客服提出退貨申請為例,大模型可以查找使用者以往的資料,并根據公式政策決定是否同意退貨或者給使用者優惠,但通常人工客服給使用者的回答更加人性化,此時,如果搭建實時系統,模型就能夠吸收人工客服的回答,并通過強化學習來進行模仿輸出。并且,模型可以通過追蹤不同使用者後續的表現,來判斷哪種客服的回答更能留住客戶,進而相應地提高訓練權重。

在技術層面上,基于OpenAI去年3月份的InstructGPT的論文,以及PPO方法,Birch建立了自己的系統,并且得到了一個比初始SFT更好的Policy。他們的評估政策來自于使用者的回報。總的來說,PPO可以了解為,在文章“價值”一定的情況下,讓每個文字更加出彩。

劉胤焓認為,現在生成式 AI隻能提供一個解決方案,我們真正需要的是搭建一個平台,使AI可以更高效地幫助人類節省時間。今後大語言模型應當成為一個平台、一個生态系統而不僅僅是一個文本的輸出。

二、周彥祺:通過稀疏的MoE模型擴大LLM

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

縱觀深度學習發展史,深度學習的發展其實建立在硬體的發展之上,硬體的快速發展也促成了近年來大模型的蓬勃發展。然而,近年來我們正在接近摩爾定律極限,是以,不能再通過簡單地将參數翻倍或将标記(Token)翻倍來大幅度地持續擴充密集型大語言模型。這是一個非常低效的、不太可持續的方式。我們需要一種更可持續的方式來擴充大語言模型。

百度的一篇論文顯示,在給定模型的大小和總訓練資料的情況下,模型的性能是可預測的。幾年後,openAI也基于擴大計算資源、資料集大小,以及參數規模給出了大模型的擴大法則(Scaling Law)。這使得更多的公司和機構可以訓練自己的大模型。比如,谷歌的T5模型。T5模型保留了原始Transformer的大多數架構,它最大的貢獻之一,是将所有NLP任務都描述為文本到文本(text-to-text)的任務。T5的另一個貢獻是開源了C4資料集,這些資料實際上使整個研究界受益匪淺。從T5開始,大公司間的競争越來越激烈。T5擁有11B的參數,GPT-3有175B,而2022年釋出的PaLM有540B。但稠密模型超過500億參數非常困難。多方消息驗證,即使是GPT4也是稀疏架構。

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

是以周彥祺分享了通過稀疏模型MoE(Mixture-of-Experts layer, 專家混合型)擴大大語言模型的方法。以GLaM模型為例,它包含1.2T個參數,但實際上被激活的參數(activated parameters)隻有97B,遠少于GPT-3,也就是說,它是稀疏激活的MoE。它與GPT-3同樣是隻有解碼器的模型,但與GPT-3相比,GlaM獲得了更好的性能。

但Token-based MoE 也有局限性,糟糕的專家路由政策(例如導緻負載不平衡的政策)會導緻某些專家訓練不足,進而導緻專家的專業性不足或過度。為了解決這個問題,他們提出了一個叫做專家選擇的路由算法。先前的工作使用top-k函數為每個标記配置設定固定數量的專家,而不考慮不同标記的相對重要性。不是讓标記選擇top-k專家,而是讓專家選擇top-k标記。是以,每個标記可以被送到不同數量的專家那裡,每個專家可以有一個固定的容量。在此基礎上,為了進一步改善Moe方法,他們又提出了一個非統一的架構:Brainfomers模型,這種模型基于在Transformer的基礎上進行了優化設計,并建立一個搜尋空間(Search Space),來提升神經網絡的性能。它比GLaM基線快5倍以上。那麼如何才能使語言模型得到更新,并讓基礎模型,比方說預先訓練好的GPT-4适應一些目标下遊任務領域呢?周彥祺的團隊提出了專家混合型的漸進式終身學習。這種方法可以次線性地增加參數的數量,同時引入新的訓練資料,并增加一個表示損失,這樣模型就不會忘記以前的訓練資料。

三、劉靜:多模态預訓練的簡單回歸與思考

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

劉靜從為什麼關注多模态大模型,如何進行多模态大模型訓練,接下來如何發展多模态大模型,三個方面做了《多模态預訓練的簡單回歸與思考》主題演講。她提到,今天的大模型完全颠覆了過去十多年以深度學習為核心的AI範式,能從大規模無監督資料中挖掘資訊的大模型,有望突破目前AI應用落地難的瓶頸。同時,劉靜表示,多模态的資料無處不在,人類更多的表達方式或者更常用的表達方式是通過去看、去聽、去想,不一定用文字記載。是以,大模型想要獲得認知能力,必須要從單模态走向多模态。

目前大規模資料和基于Transformer架構的基礎模型,以及自監督學習,可以讓模型具備很好的通用性和模态間的關聯能力。這也是大模型的基礎。但是讓大模型服務于實際應用,重要的是進行模型的适配和微調。顯然,動辄千億、萬億參數的模型,讓全參數微調變得非常困難。是以,如何更高效、更低成本地微調這樣的模型變成了重要的研究方向。為此,業界提出了包括PromptTuning、擴充卡方法、LoRA等方法,希望實作低成本的增量式微調。多模态預訓練模型的未來發展方向,包括通過更強大的語言模型、更大的視覺模型和更大的音頻模型,以及更多的資料來提升模型的性能。對此現象,劉靜也表示:“大模型的發展是一條有效的路,通過堆積資料和模型,性能還可以進一步提升。但這條路并不适合所有人,特别是學界,一味追求大并不是長處,是以需要通過其他方向來精細化和優化模型。”

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

四、林詠華:工程化打造AI中的“CPU”

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

動辄百億甚至千億規模的大模型,訓練成本花費巨大。林詠華在《悟道·天鷹大模型—— 工程化打造AI中的“CPU”》報告中提到,要用工程化的方式來打造一套“大模型進化的流水線”,可持續地提升模型訓練效率,才能讓基礎模型持續向産業輻射能量。她提到,基礎模型已經成為AI大模型時代的“CPU”——單一“産品”中投入最大的部分。經過粗略估算,用 1T token 資料訓練330億規模的大模型,大概需要 2000 萬人民币的投入,包括算力、資料、評測、人力等成本。是以,隻有采用系統化、标準化、可持續的訓練流程,基礎模型才能釋放後續模型能力提升的潛力,并賦能産業落地。工程化打造大模型包括以下幾個步驟:資料采集和處理是基礎,模型訓練是核心、模型評測能把控階段性的訓練方向,持續疊代則讓模型不斷進步。

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

在報告中,林詠華介紹,悟道·天鷹(Aquila) 語言大模型就是工程化的産物,是首個具備中英雙語知識、支援商用許可協定、國内資料合規需求的開源語言大模型,系列模型包括 Aquila基礎模型(7B、33B),AquilaChat對話模型(7B、33B)以及 AquilaCode-7B “文本-代碼”生成模型。Aquila基礎模型(7B、33B)在技術上繼承了 GPT-3、LLaMA 等的架構設計優點,替換了一批更高效的底層算子實作、重新設計實作了中英雙語的 tokenizer,更新了 BMTrain 并行訓練方法,實作了比 Magtron+DeepSpeed ZeRO-2 将近8倍的訓練效率。AquilaChat 對話模型(7B、33B)支援流暢的文本對話及多種語言類生成任務,通過定義可擴充的特殊指令規範,實作 AquilaChat對其它模型和工具的調用,且易于擴充。例如,調用智源開源的 AltDiffusion 多語言文圖生成模型,實作了流暢的文圖生成能力;配合智源 InstructFace 多步可控文生圖模型,輕松實作對人臉圖像的多步可控編輯。AquilaCode-7B “文本-代碼”生成模型,基于 Aquila-7B 強大的基礎模型能力,以小資料集、小參數量,實作高性能,是目前支援中英雙語的、性能最好的開源代碼模型,經過了高品質過濾、使用有合規開源許可的訓練代碼資料進行訓練。此外,AquilaCode-7B 分别在英偉達和國産晶片上完成了代碼模型的訓練。最重要的是,悟道·天鷹(Aquila) 語言大模型具備可持續疊代的能力,後續将不斷完善訓練資料、優化訓練方法、提升模型性能,在更優秀的基礎模型基座上,培育枝繁葉茂的“模型樹”,持續開源開放。最後,林詠華表示,隻有打造可持續向前的大模型訓練範式,将資料、訓練、評測、疊代等步驟形成閉環,才能讓基礎大模型像CPU在計算機系統中起到核心和基礎的作用一樣,成為經濟發展的基礎設施。

五、圓桌論壇:大模型時代的Tips

劉知遠:你認為在大模型時代,最需要關注什麼技術?劉鵬飛:關注模型預訓練中的資料結構化。資料工作的重要性,已經在“有監督微調(SFT)”階段驗證,而現在有文章稱,模型預訓練會在很快“窮盡”自然語言的文本資料。是以,秉着預訓練不僅是加資料,更要加資訊的原則,如何把多模态中結構性的資訊納入模型,是我接下來考慮的方向。同時,提示工程(Prompt Engineering)的存在是非常糟糕的事情,背後是大模型的黑盒性質所導緻,正是不知道模型預訓練階段如何“存”資料,是以在“取”會嘗試各種Prompt。如果資料的結構足夠透明,我相信問題會變得簡單一些。獎勵模型非常重要。個人認為RLHF(Reinforcement Learning from Human Feedback)不重要,我們更需要高品質的獎勵模型,不止是二進制(binary)的形式,也不能隻追求精細的形式,而是希望能夠變成生成(generative)的形式,輸出一個分布或一個函數,表示智能體做得好壞的機率或期望。劉知遠:大家背景各異,請分别來自創業公司、研究所、大廠、高校的四位,從個人經驗出發,談談如何在大模型時代發揮自身優勢。劉胤焓:我有兩段工作經曆。2019-2020年初在Facebook 擔任AI研究者者的時候,谷歌做出了第一代大模型BERT,我則參與、上司研發出了RoBERTa、BART。後面Facebook又繼續推出了OPT模型,以及現在一些最新大語言模型。Facebook給我的感受是,他們所有的上司人都對大語言非常感興趣,主打一個“大”,且投入不計成本,花費多少錢都沒關系,最後會将技術進行開源。那段時間,大家不停的在讨論模型上限、參數上限、資料上限。整個行業都想探索大語言到底能夠幹些什麼。直到我創業。我發現,要理性看待大語言模型,尤其是在一些小領域。例如醫療健康的使用者,他們關心疾病知識、藥品方案,但對航班和酒店的預訂等無關緊要的問題不甚關心。是以,結論是:通用大語言模型,對垂直領域的創業公司來說,完全沒有必要。因為要更注重專業性。另一方面,從實際應用來看,大語言模型的成本非常高。有時候一個中等、更加“專注”的模型或許更加有用。劉靜:高校、研究院的使命是進行創新、有用的研究,大模型就是一個例子。我們在創新方面的優勢是源源不斷的學生資源,以及可以規劃長期的研究目标,不像企業需要短期見效。是以,我們可以更穩定地不斷創新,并引領前沿方向。例如在大語言模型裡,他們可以探索更強的自監督算法、更好的資料清洗、更強的模型協同等問題。在選擇方向時,要有好的眼光,選擇有用的方向。大模型這條路徑沒有看到頭,我們的研究方向,應該聚焦用小而高品質的資料來獲得和大模型相當的能力,然後更好地服務于應用。另一個适合學界的領域是“AI for science”,要和生命工程、腦科學的領域進行合作,需要長期投入才能見效。周彥祺:創業公司超越傳統大廠還是有難度。以OpenAI和谷歌這場大模型對拼為例,谷歌并沒有落後。谷歌有世界上最大的雲計算平台,最強大的TPU和GPU資源,以及最優秀的系統和軟體層面的技術。而且大公司顯然更關注長期問題,無論是資料标準,還是模型安全,顯然都更合規。劉鵬飛:首先,高校教師要承擔起作為學者的責任,例如RLHF的重要性等。這些可能是創業公司不願意花時間研究。其次,梳理各方的戰場,包括學術界、工業界、VC、創業公司,明确每個人應該承擔怎樣的角色,讓這個領域各司其職,做得更好。再者,幫助領域找到科學進步的方向,敢于提出不一樣的觀點,産生更加準确的方向。特别是在評估大模型時,找到可靠的公正的評估方法,避免走彎路。最後,培養學生,讓他們知道成長路徑,不需要天賦異禀,隻要有興趣和熱情,就可以一起往前走。劉知遠:大模型領域,你最想做什麼?如果有充足的預算,你想如何解決?劉胤焓:我想要一個高品質的資料集,因為資料永遠大于架構,架構可能隻是微調或微微調的結果。大語言模型應該做成一個生态,不僅僅是文字,還要超出文字,像個貼身小秘書一樣,記錄他的需求,随叫随到。劉靜:我想繼續攻關多模态對話,讓人和機器用圖文音自由交流。長遠目标是讓機器人用各種感官去感覺和探索世界,和人類溝通。周彥祺:短期目标是在大公司裡研究大語言模型,建立一個超級大的分布式系統,降低大語言模型的成本,讓它和Google search一樣快速。長期目标是了解大語言模型的原理,探索是否有可能用更強的算力或量子計算機。短期目标是把語言模型的數學解題能力,做成和GPT-4回答其他問題一樣好,找到做這件事的秘訣和方法。另外,如果有1w張卡,從頭來一遍訓練,提高自己對資料的了解和處理能力。

六、觀衆回答

觀衆A:機器人能否像ChatGPT那樣執行各種任務,比如端水杯。實作這個功能的難點在哪裡?劉靜:機器人能否像ChatGPT那樣執行各種任務,關鍵要打通感覺到決策。機器人要能看到、定位、執行任務,而不是被動接收圖檔或文本。現在的多模态大模型還不能真正融合多媒體資訊,也不能根據環境提問或互動。機器人要做到像人一樣,還有很多工作要做,但是路線是通的,未來會有更好的成果出現。觀衆B:三個問題,首先,對于大廠的同學,遇到什麼樣的機會,會促使你離開谷歌去創業?其次,高校科研的同學,對于創業如何看?最後,對于創業的同學,是怎樣的心态應對甲方的需求和壓力?周彥祺:每當我不順的時候,就會想離開谷歌,但是又覺得谷歌有更好的環境和資源,如果在谷歌都解決不了,在其他公司也可能發揮不了才能。如果我離開了谷歌,可能是由于我有非常想做的事情。例如打造ChatGPT這樣的爆款産品。目前谷歌并沒有限制我研究的步子,暫時不會離開。劉靜:堅持自己想要做的事情,根據自己的特性和時機選擇創業或科研。我們科研院所的多模态大模型不比企業差,在視訊了解上有優勢。劉胤焓:13個字形容應對甲方:卑微到塵埃,有求必應,随叫随到。觀衆C:如何看待用大語言模型做推理?尤其是數學推理方向。有人認為語言模型不應該“學會”數學題,應該調用工具輔助語言模型。劉鵬飛:大語言模型做數學推理是基本的能力,但是也需要結合其他的工具來提高效率和性能。建議先分析不同的數學問題的類型和特點,然後選擇最合适的方法來解決,不要排斥任何一種方式。大語言模型在複雜的多步推理和形式化問題上有優勢,但是也需要不斷改進。觀衆D:如何解決大語言模型訓練中的幻覺問題?周彥祺:兩種方式。首先,可以用更大的語言模型來做一個品質檢測的模型,用來評估小模型生成的資料的安全性和真實性。其次,可以用谷歌搜尋或者其他的索引工具來給生成的資料加上引用,讓使用者可以追溯資料的來源和可信度。當然也可以結合檢測模型和搜尋工具來實作。觀衆E:如何“破解”大語言模型序列長度的限制?劉胤焓:我使用滑動視窗算法。用滑動視窗在不同的視窗裡做生成,然後再把生成的結果合并起來。要注意,一定要保證訓練資料對齊,要不然效果會差很多。周彥祺:GPT-4也遇到了類似的問題,運算瓶頸在于注意力機制(Attention)。應該用更高效的注意力機制來替代全連接配接的注意力機制。可以用稀疏注意力的方法,就是用一個局部注意力加一個固定跨度的全連接配接注意力,這和 MOE 的方法有點類似。觀衆F:大模型例如GPT-4的數學推理表現較差,如何用小模型進行優化?劉鵬飛:大模型做數學推理需要全棧式的方法,包括預訓練、有監督的微調(SFT)等階段。預訓練階段要構造相關的語料,讓模型學習數學或者推理的基本概念,比如最大公約數等。有監督微調階段,要把數學的多步推理展開,如此才能适配大模型。觀衆G:怎麼看待提示工程師作為一個職業,會發展成一個學科麼?周彥祺:提示工程師會後成為最快消失的職業。已經在研究了SoftPromp了,慢慢就不需要人工了。劉知遠:請大家分享一句話結束今天的論壇。劉胤焓:說三句話。我大學學的是化工,後來自學計算機,有幸做研究發表NLP的論文,現在在創業。沒有任何一樣東西是恒定的,沒有任何一樣東西是一直風靡全球的,但是總會有新的東西,是以不停的去改變自己,迎接新的東西,找到自己喜愛的方向,追逐自己的夢想,但是不能随波逐流。劉靜:首先要堅定,在未來的三五年,大模型會颠覆很多領域。第二,堅持。堅持自己認為有價值的東西。第三,不要盲目追風。周彥祺:放眼未來,不止考慮5個月的事情,科研要考慮未來5年、10年。劉鵬飛:像比爾·蓋茨之前說過的,做人工智能需要有責任心,最終目标是什麼,如果是可以推動全人類變好的話,做每件事情都不太會有錯。

作者:智源大會本文來源:公衆号【智源社群】

-The End-

本周上新!

掃碼觀看!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線480+期talk視訊,2400+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋将門創新服務、将門技術社群以及TechBeat人工智能社群。公司緻力幹通過連接配接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與産業更新。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

T5、RoBERTa、悟道·天鷹、紫東太初、CPM作者談基礎模型前沿技術丨大模型科研、創業避坑指南

⤵一鍵送你進入TechBeat快樂星球

繼續閱讀