天天看點

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

作者:文彙網
林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

林詠華現場有關大模型的主旨演講讓聽衆對ChatGPT等現象“知其然更知其是以然”

本次講座由文彙報社、上海樹圖區塊鍊研究院、華東師大中國現代思想與文化研究所、華東師大哲學系倫理與智慧研究中心聯合主辦。

現經整理,刊發主旨演講,以飨聽友與讀者。

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

落入低谷的AI,去年因ChatGPT代表的大模型與文生圖出現拐點,進入新十年

非常高興借此機會和大家分享我過去多年在AI領域經曆的機遇和挑戰:從小模型走到大模型,從科研成果落地到産業。在過去幾十年,人工智能起起落落。去年6月之前,整個人工智能處在前一波浪潮往下落的一個區間。去年下半年,出現了兩個現象級的應用:一是文生圖,二是以ChatGPT為代表的大模型技術的湧現和爆發。這兩個事件把整個AI從一個拐點引向下一個起點,而這個新的起點的确是由大模型引領未來人工智能發展的十年。

思考一:大模型帶來AI研發範式的改變

為什麼研發範式很重要?因為當科研界将一個技術做到突破和創新後,它們如何廣泛地落地到各行各業,與其研發範式、研發産品的代價息息相關。

*第一階段範式:從頭開始訓練領域模型

至今,AI研發範式經曆了三個階段的變化。

第一個階段是從頭開始訓練領域模型。最初深度學習與人工智能出現時,大家考慮的都是如何利用手上海量的資料,通過諸多計算資源,把模型從頭到尾訓練出來,然後再将它部署到各行各業。因為需要大量資料、算力,尤其需要的整個AI全棧的技術人才特别昂貴。是以,這種範式無法持久。

第二階段範式:預訓練模型+微調訓練的遷移學習

2014年,在幾個AI頂級峰會上分别出現了描述預訓練模型+微調的遷移學習技術的文章。利用擁有1000多萬張圖檔、涵蓋常見的2萬種物品的圖檔庫,訓練出通用的視覺分類基礎模型,其規模是中小量級的模型。此後,大家利用醫療影像分析、工業的缺陷檢測等自己領域的資料對它進行訓練。這一過程是從一個通用領域到另一個專用領域的遷移學習。從今天視角來看,相當于一個國中畢業生通過三年的專科教育訓練,成為了一個具有專業技能的專員。

由此,研發範式進入第二個階段——由預訓練的基礎模型加上小批量的資料和少量的算力的微調訓練,就可以形成企業要落地到不同場景的不同模型。這種範式中,行業企業隻需要做資料收集和處理、模型訓練、模型服務等部分工作,從人力、物力、财力上來看,投入量減少了幾倍、甚至十倍。

計算機視覺領域的遷移學習,帶動了過去十年的AI潮起潮落。這整個過程今天看起來可以稱為小模型的階段。

從2013到2015年,人工智能因為遷移學習的出現,讓基于深度學習的計算機視覺分析在多個領域落地變得似乎更加容易,深受追捧。另一個現象級事件是,在2015年的ILSVRC(ImageNet Large Scale Visual Recognition Challenge)圖像分類比賽中,ResNet網絡的圖像辨識錯誤率低至3.57%,已經超越了人的識别能力(大約5%)。正因為這兩個标志性事件,人工智能被認為有望大範圍成功。商湯、雲從、依圖、格靈深瞳等在内的衆多AI公司也是在那個時候紛紛創立,受到投資界的普遍追捧。

但從2017年之後,人工智能從高潮慢慢緩落。

2017年,每年全球有4000多個企業因為拿到融資而成立AI公司。但到2020年,這個數字一直往下落至600-700家,以至于在過去一兩年甚至出現了AI泡沫破滅的衆多說法。

為什麼跟大家分享這些?眼看AI又一個新的十年潮起湧現,作為從業者需要深入思考:為何前一個十年出現萬衆期待,最後并未如想象在各行各業廣泛落地?而在未來十年,該做對什麼,使得新一輪技術潮起後能得到更好的發展,而非很快就潮落了。

第三個階段範式:基礎大模型+應用提示

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

第三階段研究範式,塑造了通才型大模型,降低下遊企業應用成本

在當下的第三階段研發範式中,基礎大模型很重要的是基座,一是需要用海量的預訓練資料去訓練它,通常是千億級以上的資料。二是參數量很大,幾十億參數是入門,很多時候會達到百億級參數,甚至千億級參數。三是所需要的算力更大。這種基礎大模型幫助我們學習各種通用的知識,包括實作各種模型的能力,如了解能力、生成能力,甚至湧現能力。現在在業界能看到的屬于這種基座大模型的有哪些?例如GPT-4、GPT-3.5、LLaMA、智源新研發出來的天鷹·Aquila等。基礎大模型最重要的功能的就是提示學習能力。它跟人很像,可以做到有樣學樣。

在第三個研發範式階段,對很多下遊行業企業來說,甚至不需要走第二階段的微調訓練模型,而是直接減少到隻要做API調用就可以,有更大幅度成本的降低,尤其可以适用到各個應用領域。ChatGPT出來之後,大家用各種人類領域的專業考題去測試它,包括法律、醫學、政治,以及美國的AP課程,它都考得很好,就像通才一樣。這聽起來真的很美好。

思考二:大模型如何産業落地?

大模型如何産業落地?這一步走好才能讓上億甚至數十億、數百億在大模型上的研發投入,能夠真正帶領所有行業的智能化提升。

*基礎模型預訓練+基礎模型持續訓練+指令微調

大模型的應用方式有兩種:一種是提示學習,另一種是指令微調訓練。

大模型是“記不住”提示學習的過程的,如果僅靠提示學習中的“提示”,勢必每一次的API調用都得帶上冗長、而且越來越長的提示,這在實際産品中很難滿足。是以在産品真正落地時,必須要引入指令微調。指令微調就是利用基礎模型的知識完成指定的任務。就像大學生學了大量知識後,需要一個上崗教育訓練。指令微調也不是很昂貴,例如我們曾經做過一個針對某應用的自然語言轉SQL的場景,在提示學習不起作用時,指令微調資料隻放了20條,包括所有環境的搭建在内總共花費8小時。

其實,今天看到的ChatGPT不是一個基礎模型,它是一個經過很多指令對它進行微調的對話模型,是以它似乎做什麼都很在行。其實正因為它收集了全球人類的諸多指令,不斷地微調它。例如智源的天鷹AquilaChat對話模型,也是在Aquila基礎模型之上經過指令微調才可回答人類的各種問題。比如6月8日正好是全國聯考,它在10秒内就完成了當天的聯考作文。

但在這個過程中,其實它還隻具備通用的能力,即主要是面對網際網路的應用,如閑聊、問答。如果希望大模型能夠真正服務于更多的經濟體系、實體經濟,就需要考慮如何把大模型落地到專業行業裡。很重要的一點是要在通用能力的基礎模型之上,通過加入大量專業領域知識進行持續訓練,形成專業領域的基礎模型。就如同大學生做了通識教育之後,再給他進行一至三年的研究所學生深造學習。

是以,綜合來看,基礎模型訓練相當于通用領域的大學生學習,基礎模型在專業知識資料的持續訓練相當于專業領域的研究所學生深造學習,之後再進行指令微調訓練,相當于專業領域的上崗教育訓練。

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

落地到具體産業領域,基礎大模型還需要走出專業持續訓練和上崗教育訓練兩個步驟

*大模型在産業落地中如何克服遺忘性和幻覺率

模型畢竟是通過上億篇文章或者網頁對它進行訓練,其實它跟人一樣,也會忘記東西。科研統計後的結論是:第一,模型越大記憶力越好,記住的百分比越多。無論模型大小,如果隻讓模型看過2-3遍的資料,它能記住的隻有百分之幾的資料量。

這就産生了一對沖突。首先從版權保護的角度看,或許不希望它記得太牢。大模型的訓練不得不從網際網路平台上擷取到很多的文章、作品,用以訓練。至今為止還未有一個明确的界定,如果它因為讀了這些文章,而産生大篇幅與之相同的内容,是否會導緻版權問題?這是有待解決的問題。

從這個角度看,如果模型的記憶力隻有百分之幾,版權問題就不會那麼嚴重。但是當真正産業落地時,這又會成為較大的問題,即模型訓練了半天卻記不住。

“幻覺率”就是我們常說的一本正經的胡說八道。成因是什麼?第一,預訓練的資料集可能會包含某一些錯誤的資訊,很多來自二十年前、三十年前,會昨是今非。第二,更多可能是模型的資料預訓練的上億、幾億的資料裡沒有直接包含相關資訊。這會導緻我們面對嚴肅的行業,如醫療、金融、法律等,必須考慮用什麼額外的技術來降低幻覺率。

*大模型和小模型在未來十年必會并存

我個人認為,未來十年大模型和小模型必定會共存。大模型和小模型之間的重要差異有三個:

第一,在小模型時代,我們對目标領域的知識是通過遷移學習、微調訓練獲得的,本身的基礎模型并沒有任何的目标領域知識。但在大模型時代,基礎模型本身需要具備充足的專業領域知識,而指令微調訓練隻不過是讓它告訴這個模型如何去運用知識而已。

第二,與應用領域密切相關,對于精度要求較高的領域,尤其是感覺性的領域,需要給出很精準的結果,例如,在醫療中某個影像說明惡性良性腫瘤在第幾級病變的情況。這需要單個模型的準确率非常高。此時它不需要學會琴棋書畫等大模型的泛化能力和通用能力,這種場景适合小模型。

第三,算力、基礎設施與模型選擇相關,對成本要求、時延要求低的重要場合,例如自動駕駛、工業毫秒級的控制,在通訊和時延的環境下還是适合小模型,因為它更容易放在算力較低的邊緣側。大模型則是相反的情況。這兩個技術是互相融合的。

*小模型的賽道企業如何融入到大模型時代?

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

Meta公司今年3月釋出的SAM通用分割大模型受到追捧 來自網絡

很多人提出,對過去十年發展起來的小模型的AI公司、科研團隊,在大模型時代是否都需要遷往大模型?應該如何利用它們已有的積累做得更好?

第一,可以把原有在小模型時代的算法進行更新換代,把大模型新的技術融入到小模型。舉個例子, Transformer模型結構被大模型時代認為是重要的技術标志,因為在小模型中,尤其是在計算機視覺經常用的是深度學習裡的CNN網絡。我們做過一個實驗,用Transformer為基礎的VIT計算機視覺模型,來替代小模型時代的CNN網絡,發現在達到差不多準确率的情況下,大模型在預訓練階段可節省1/4的顯存,推理速度隻需要ResNet50的58%時延,實驗時所需要的資源更少。這的确打破了大模型技術必須是資源消耗高的定律。

第二,應用新的方法做到以前很難解決的問題。比如Meta公司在今年3月釋出的視覺分割大模型SAM,能做到視覺範圍内各種物體被精準地分割出來。這種技術可以用于清點超市、倉庫等的貨物數量。這在之前一直很難做到,或者需要多個複雜技術疊加。我知道已經有一些小模型公司将SAM大模型落地。

第三,大模型中的小模型,例如我們新釋出的AquilaChat天鷹對話模型,僅70億參數,通過int4量化技術,就可在4G的顯存上運作起來。而目前國産邊緣側的晶片都已經有8G顯存。是以,大模型浪潮下,很多AI小模型賽道的公司,完全可以煥發一種更新的活力。

思考三:打造基礎大模型的重要性

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

林詠華演講中援引智源研究院打造大模型的例子,生動形象

大模型中最重要的是下面的基座模型。打造基座大模型就等同于AI中的CPU一樣的重要。

*投入非常昂貴,百億參數動辄上千萬元以上

第一,除了做晶片、CPU的流片以外,基礎模型已經成為AI大模型時代單一産品投入最大的部分。通過業界、包括我們研發大模型的一些數字可見一斑:300億參數的模型,包括資料、訓練、評測的成本、所有的人力、物力、算力加起來,要耗資2000萬;而上千億參數的模型,則約在4000多萬、甚至更高。是以動辄就是幾千萬訓出一個模型,投入十分高昂。

第二,基礎大模型決定了下遊各種模型的重要能力。大家會發現不同的聊天機器人,有些隻會說英文,有些會程式設計,有些不會程式設計,有些懂得更多的科學知識,有的還能夠看懂圖檔。其實這些能力是由下面的基礎模型所決定,隻有預訓練中把這些能力加入,對話模型中才能展現。

基礎模型很大程度上決定了後續模型的能力、産業落地等因素。從能力來看,大模型的了解能力、湧現能力、上下文學習能力都是由這個基礎模型的結構、尺寸等等決定。從知識來看,無論是通用知識還是專業知識都是在基礎模型訓練過程中學習到的。

*價值觀的保證首先需要幹淨的語料庫

第三,從合規性和安全性來看,對于内容生成的模型,其生成的内容是否積極陽光,有無偏見、倫理問題等,很大程度是由基礎模型決定。基礎模型如何能夠獲得人類的價值觀呢?通過訓練語料。國内外一些科研機構、公司訓練基礎模型,通常應用到Common craw語料庫,這是網際網路訓練語料全球最大的集合。但其中隻有很少的是中文資料,在所有中文資料中,又隻有17%的網源、網站、網址來自于國内。絕大多數中文語料的來源都是來源于其他的國家和地區。國内很好的中文内容并沒有出現在裡面。我們觀察到,基于這樣的資料集來訓練有中文能力的基礎模型,有很大的風險。

*可商用許可的基礎模型才能造福更多企業

第四,從版權和商用許可來看,不少模型要不閉源、要不開源用的是非商用許可,這對學術研究沒有任何影響,但對企業要後續進行商用和業務,是不能使用的。我們為何一直倡導開源,甚至在開源的時候就給予使用者可商用許可?智源希望把這些耗費衆多資源訓練得到的模型開源出來,被更多的企業所使用。據統計,今年1月至5月,新釋出的國外開源語言大模型共有39個,其中可以直接商用的是16個,而是國内開源語言大模型隻有11個,且僅有1個對話模型是直接有可商用許可。

從另一個角度來看,基礎模型對整個産業的發展價值更大。有很多國内團隊紛紛開源大模型,這裡有多少是真正的基礎模型?經統計,截止至5月底,國外釋出的開源語言大模型裡隻有5個是基礎模型,而國内釋出的開源語言大模型裡隻有2個是基礎模型,是複旦的MOSS和清華的CPM—Bee。

*智源的開發原則:中英雙語能力+模型開源

作為非盈利科研機構的智源,我們倡導更多的力量投入:第一,支援中英雙語的基座模型。中英雙語支援,而非依靠翻譯。中文裡有很多的知識是需要直接被訓練到模型,依靠翻譯無法将許多中文知識納入其中。第二,希望可以支援商用許可協定,這才能夠避免衆多企業重複資源建造基座模型。第三,符合國内資料合規需要,尤其是納入優秀、高品質的中文内容。正因為看到目前基座模型的預訓練中有許多不幹淨的語料,是以我們打造基礎模型時十分謹慎。中文語料均來自智源從2019年積累至今的資料,99%以上是來自咱們國内的站源。國内站源具有的優點是都有ICP許可,是以也規範了網絡内容的可靠性和可信度。

代碼模型是大模型産業落地的一種很重要的模型,具有廣闊應用前景。基于Aquila-7B強大的基礎模型能力,我們用更少的代碼訓練資料,小參數量,高效實作了目前性能最好的中英雙語代碼模型。我們分别在英偉達和國産晶片上完成了代碼模型的訓練,通過支援不同晶片架構的代碼+模型的開源,推動晶片創新和百花齊放。從給的例子大家可以看到,代碼模型可以讓我們輸入一句簡單的描述,就可以自動完成一個簡單的登入頁面,實作正弦三角函數的畫圖等。智源内部還在挖掘、利用這些代碼模型完成更多的任務,例如輔助新的編譯器的實作等,這有可能會改變計算機領域更深層次的研發。

思考四:大模型時代,評測變得無比重要

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

講座開場,楊國榮教授緻辭,認為技術發展是人性化社會必經階段

大模型訓練要緊抓兩頭:一頭是資料,一頭是評測。

為什麼評測很重要?一個300億參數的模型,每天對它投入的算力是10萬元,十分昂貴。另一方面,正因為它大,在整個過程中更需要關注所有的細節,一旦出現問題,要及時發現并及時做出調整。

*尚未完全解決測評能力的主觀性和客觀性

此外,大模型的能力很複雜,很難用單一名額表明這個模型在未來使用的各種能力,是以要使用各種評測方法和評測集對它進行評測。在大模型訓練穩定之後,就要開始指令微調訓練,再進行循環疊代,不斷的調整。如果在過程中隻用計算機客觀評測,很難準确及系統性地看到主觀的生成能力,是以還必須加入主觀評測。而主觀評測至今還隻能由人類進行。我們也嘗試用ChatGPT配合人類進行評測,但在很多的測試案例上仍然偏差很大。

最後優選的模型還要進入red—team評測,也就是找一組未參與模型研發的人員扮演使用者群,對這個模型進行各種提問,包括各種惡意、刁鑽的提問,來評估這個模型的效果。OpenAI在chatGPT釋出之前,也是持續數月進行類似的評測,才能保證有目前的效果。

智源為了讓語言大模型能有更全面、系統的評測,打造了FlagEval天秤大模型評測系統,包括了中、英雙語的客觀、主觀22個評測集合,8萬多個評測項。基于目前最新的評測,AquilaChat以大約相當于其他模型50%的訓練資料量達到了最優性能。但由于目前的英文資料僅訓練了相當于Alpaca的40%,是以在英文的客觀評測上還暫時落後于基于LLaMA進行指令微調的Alpaca。随着後續訓練的進行,相信很快可以超越。

*跨模态的圖文辨識評測,拉動基礎模型發展

評測對大模型在研發階段起到了相當重要的作用,同時也是拉動大模型發展的關鍵。以跨模态圖文評測為例,對于簡單的圖文評測任務,好的模型基本已經達到或超過人類的水準,在70分到90分之間。但對于稍微複雜的圖文評測任務,大模型隻有10-11分。跨模态圖文的辨識、尤其是帶有邏輯了解要求的,是大模型與人類能力之間存有得巨大鴻溝。是以評測是拉動大模型發展的關鍵,希望通過加入更複雜的評測項,來拉動大模型向人類所需要的更複雜的場景發展。

*評測已經演進到認知能力和人類思維能力

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

當下的評測已經跨入到第三第四台階,即認知能力和人類思維能力

大模型從去年進入所有人的視野,其能力發展迅速。同時評測的難度也一路攀高,相當于不斷地拉長尺子,才能更好的量度大模型的能力。基礎模型研發動辄是幾千萬,是以對更多的創業公司、AI公司,或者是下遊的企業不再是自己從0到1把整個模型訓練出來,更多的是從市面上選擇開源或者閉源的大模型進行加工。這個選擇的過程應該怎麼進行?這是大模型時代評測對産業落地很重要的因素。

随着大模型能力的提升,對評測産生了四個台階的演進:

第一,了解能力。過去十年、二十年,AI一直是以了解能力評測為主,無論是計算機視覺還是自然語言處理。

第二,生成能力。現在已經出現了AI生成内容,這不得不依靠人類的主觀進行評測。主觀評測的品質很難完全保障一緻和客觀,現在我們也逐漸引入一些AI的輔助手段去做。

第三,認知能力。目前人們考量各種大模型,已經不認為它們隻是一個能說會寫的語言模型,而是希望看到各種各樣的知識能力、認知能力。是以,對評測來說,更大的挑戰是如何刻畫一個全人類的認知能力。另外,現在很多人用各類考題考驗這些模型,但這些考題很多都已經被洩露到模型的訓練語料,是以這種認知能力的評測也有失偏頗。

第四,人類思維能力。更困難的是,很多人希望這個模型更加像一個人類的思維一樣去了解、去思辨。是以對于模型的心智能力應該怎樣評判、評價,就需要多學科的交叉。

思考五:大模型時代,智源的使命、工匠精神與好奇心

林詠華:AI邁入大模型時代,新十年如何潮漲不落?|163-1講堂1

好奇心與工匠精神是完成使命的兩翼

智源研究院是非盈利的研發機構,有近200個全職研究人員。在大模型時代,我們看到各種各樣的現實問題、技術的問題,亟需去突破。無論文生圖還是chatGPT的應用,都離不開冰山下整個大模型全技術棧的積累,而這正是智源一直緻力于打造的部分——所有的基礎模型,包括資料集、資料工具、評測工具,甚至包括AI系統、多種的跨晶片技術的支撐。這是我們的使命,既要打造冰山以下的大模型技術棧,同時以可商用的形式全部開源出來,使得無論是代碼還是模型,都能夠回饋給整個産業和學術界。也希望有更多的學術界、更多的科研團隊與我們同行,對開源進行貢獻,尤其至關重要的是AI領域内外的學科的共同創新。

大模型時代需要科學與工程并行,一方面需要以工匠的精神鍛造每一個大模型,每一步都要精雕細琢,無論是資料、訓練過程還是評測。另一方面,大模型裡有太多的未知,需要以追星逐月的好奇心去探究,隻有我們探究得更好,才能讓它在産業落地得更穩,未來的十年才能是潮起後不斷地穩步向前發展。 整理:李念 金夢

作者:林詠華(北京智源人工智能研究院副院長兼總工程師)

圖照:現場拍攝/周文強 制作/胡楊 PPT來自演講者授權

編輯:李念