天天看點

國内AI大模型深度解讀及發展機遇展望

作者:行業報告研究院

國内網際網路大廠及AI廠商大模型進展和落地現狀:

目前我們可以看到在這一輪ChatGPT所帶來的語言大模型熱潮,不但在全球領域,包括像OpenAI的ChatGPT、GPT1-4、Google 的LaMDA、PaLM以及 Meta AI 等。目前在海外的發展已經是非常火熱。

國内發展情況:1)迎頭趕上的趨勢,大廠都在做積極投入,強勢的應用也在積極醞釀中。包括昨天百度文心一言的釋出。目前BAT、位元組、華為等的國内大模型有很多令人期待的地方,比如21年年初釋出的阿裡通義M6大模型,是過千億的中文參數語義大模型;去年10月釋出的騰訊混元,也是破千億的語言大模型,近日騰訊宣布要釋出騰訊版的chatgpt,叫做騰訊混元助手。後續可能會在微信社交對話,廣告廣點通或者騰訊新聞内部的二方業務中有令人期待的落地。2)百度文心一言是國内首個語義大模型的終端應用,NLP技術上在國内處于第一梯隊。昨天文心一言釋出了關于資料層的資訊、下遊生态的展望與商業前景。相對處于先發優勢地位。3)除了大型科技公司,包括二線廠商和start-up,比如玄機、360、京東(ChatJD)、AI四小龍(商湯、曠視)、國内高校或科研院所(複旦的MOSS、智源研究院悟道)都有比較好或者前沿的技術層投入。4)國内沒有能直接對标chatgpt的應用,文心一言随着對公有雲PaaS的調用,做付費的商用接口,下半年應用層的競争格局會逐漸明朗。包括像創新搜尋的業務場景,以及目前在海外很火熱的應用産品,比如Jasper、微軟基于GPT-4的office系列、Google的workspace。後續再國内應用層,比如辦公、創作者工具、智能硬體、客服等領域會迎來強有力的競争。

Q&A:

Q1:百度模型的狀況是什麼,性能上能對标GPT大概多少?

百度的ERNIE模型,最新是ERNIE 3.0,是在中文語義方面的大模型,參數量2600億,性能表現上:1)文心一言主要是中文語義方面的應用,比如長語句、複雜語句、模糊指令等上遊任務的了解能力還是非常不錯2)數學、邏輯推理方面有非常不錯的表現3)多模态能力,包括text-to-text/text-to-image,這是相對GPT來說比較突出的一個點。GPT-4主要還是以text為主。整體的輸入、中文了解領域,文心主要對标GPT-3.5。

Q2:哪些方面能達到3.5,哪些弱一些,哪些優秀一些?

從不同benchmark上對标:1)語言語種。ERNIE是local産品,文心所支援的語言語種了解以中文為主加小部分英文。面向的還是中文使用者全體,chatgpt是global的大産品,主要支援英文,除了英文也支援中文,還支援德語、法語、西語、葡語、阿拉伯語,不僅支援語言學的知識,以及這些語言學下的各種區域性知識和事實性知識。就像昨天文心一言在秀遣詞造句和古文的生成能力,是擁有中文語言的能力,chatgpt在多地區多語言下也有類似這種區域性知識。最大的benchmark差距點還是在支援的使用者群體上,兩者有很大的差别。2)中文語言下的功能,下遊的知識生成和了解方面,從各管道内部測評上,中文語義生成知識的内容準确性和豐富性,兩者是在不同的 feature 上各有優劣,整體處在一個水準線上,ERNIE在遣詞造句、引經據典、文本的豐富性和多樣性上比chatgpt好。多輪對話、連續對話的穩定、準确性,文心一言不如chatgpt,數理、邏輯推理、代碼生成、補全查漏補缺,文心和chatgpt有差距。差距是因為chatgpt模型上線,使用者資料持續不斷回流,模型多輪疊代,模型表現變好。雖然文心釋出較晚,但随着中文網際網路環境上被使用者不斷使用是會持續疊代和變好的。

Q3:未來商業化變現途徑?

1)基于B端公有雲服務,向下遊商業生态進行技術賦能。主要的商業邏輯或者思路包括兩大類,1)像 Openai 将GPT模型家族的base模型部署到Microsoft Azure雲上做公有雲的PaaS級産品,以未調用的 API 的方式在下遊按生成量、按 token 進行付費輸出。後續文心一言在百度智能雲或者是百度大腦上也有類似這種商業接口付費調用模式的計劃。2)行業或産業解決方案。國内央國企、大B、大K客戶,對資料安全有布局要求,以項目制自由化傳遞,線下的客戶case by case收費。

2)C端業務場景。辦公場景,比如Microsoft office、Google workspace,後續國内商業辦公、商業文檔等類似企業服務産品,或者對于new bing、news browser創新的搜尋引擎,還有比如GPT Pro會員付費模式、知識内容平台、内容營銷服務平台、百度音箱、或者小米小愛這種結合了内嵌gpt版本産生的增強對話了解智能硬體産品,這種智能硬體産品也會有新的産品型号,或者是以硬體的采購或者消費類電子購買為主的商業形式。應用層的應用會非常多樣。

Q4:定價大概在什麼範圍?比如GPT是0.02、0.03美金一千個token,轉換到國内的定價範圍大概是什麼?包括b端c端整體的定價節奏?

Openai的GPT模型大概分成兩種計價邏輯在Azure雲上售賣:1)GPT的base模型,包括ada、babbage、curie、davinci這些的收費是按token,從 0. 002 美金到 0. 02 美金,根據能力的不同進行标準的 base 模型收費。2)很多企業或行業,擁有自有專業資料或者知識庫,有二次微調、二次精調的訴求,OpenAI也支援企業基于自己的資料或者知識進行二次三tuning之後,部署到Azure雲上進行後續付費調用,這個會貴6-10倍左右。

2)國内類chatgpt或者大模型産品,我個人認為,成本上應該比openai再高一些,整體定價不會偏離openai在大模型行業的基準,不會比Openai GPT調用模型的使用成本有量級上的差别,可能會對标同期同類型的産品定價。尤其是今年上半年全球大模型産業化浪潮中,背後的商業邏輯會是前期以搶占份額為主,打價格戰。比如國内大模型會根據0.02美金一千個token去搶占國内開發企業或者開發者使用者的市場。

Q5:百度最核心的幾塊業務落地可能會在哪裡?

1)C端。首先昨天文心語言已經開放邀請式注冊,得到邀請碼的小夥伴可以通過一言點百度 .com的官網上,以頁面程式的方式去和文心互動之外,後續在C端,1)第一個是百度的搜尋,包括搜百科APP,作為DAU有接近 2. 5 億的國民級APP,和大模型的結合場景還是非常豐富,還有像百度文庫、學術都可以和大模型或者文心一言有很好的互動。可能會有增強版百度百科。以及在專業封閉的領域去做專業知識輔助寫作與生成。在營銷生成的場景,文心一言的文生圖能力也能提高電商或廣告營銷的生産效率。2)智能硬體,百度有一個SLG-小度事業部,像小度智能音箱、小度運動健身鏡或互動屏等一系列智能硬體,内嵌gpt的這種産品其實大幅度提高了終端使用者對于現代 AI 2.0 時代大模型本身的對話了解能力,後續比如音箱或機器人會迎來更多智能消費終端的更新。引領大家購買一些這種能力或者了解能力更強的對話類的新智能硬體類産品。

2)B端。像昨天Robin和王海峰王老師,更多強調百度的文心一言在産業級應用中非常有優勢,甚至相比 GPT也有很多優勢。文心更多主打産業級的趨勢增強大模型,因為文心之前有很多基于百度智能雲服務的各種B端客戶,像昨天釋出會講解的能源電力、金融銀行、融媒體等各種産業級的資料和大模型應用能力。後期首先會結合文心已宣布的四五百家生态夥伴去賦能千行百業的對于知識、搜尋後對話有訴求的專業場景,另外也會對現有B端産品做能力提升,比如智能客服、理财助手、知識圖譜、新聞智能采編、媒體稽核、商用文檔、商用PDF,後續有很多新的産業級賽道出現。

Q6:國内廠商投入的意願和力度?

1)無論是海外的Openai的GPT、Google以Bert為基礎的PaLM、LaMDA,雖然openai沒有把GPT-4在整體訓練過程中涉及的專利、參數體量、資料情況披露出來,但以GPT-3為例,一個base模型為成本投入舉例來看,目前GPT-3投入的10000張Nvidia V100高端算力晶片卡,V100 2020年市價8-10萬人民币左右,像目前的高端算力晶片卡A800 應該也是差不多價格,折合十億人民币左右。它代表行業内想training出來好的、比較通用的,效果比較完整且豐富的通用技術模型的算力投入。對國内而言中位數水準可能需要10-20億的算力投入。2)另外大模型在生産層的三個要素:算力、算法、資料,算法科學家,背後比拼的是LP 的腦力密集程度,就是 LP 的算法工程師和算法科學家像openai作為初創公司,nlp算法人員有100多人,國内start-up作出這種産品至少需要100名左右senior工程師。3-5、5-8年的工程師年薪在100萬人民币左右,人員開支1-2億。4)資料上的cost包括百度的文心一言背後的raw data 源資料可能更多的還是 from 像搜尋、百度的 feed 這些自有的業務資料,這些是十幾年累積下來的,本身一次性投入的資料cost 不會那麼多。但是對于初創團隊,如果自己沒有base資料,采購成本是比較高的。如果僅僅依賴包括像OPEN AI 或者 Google 已經開源源碼或者資料集,模型效果肯定不會特别令人驚豔,或者是在市場級的業務有缺失。是以在資料側投入上,資料成本可能很低也有可能很高,比如做一些生命科學的大模型成本可能非常高。以此類比,去做相對來說比較好的 beta 版本大模型,可能一次性投入至少 20- 30 億左右。國内目前而言,主要還是若幹個大廠的遊戲,包括剛才已經舉例的若幹個大廠的模型,都是逐年投入的結果。

Q7:各家大廠有猶豫的嗎?

目前第一梯隊的大廠還都是戰略級定位,在持續投入。

Q8:追上微軟嵌入所有應用的能力需要多久?

包括昨天釋出的Office 365,還有pilot這些産品,一方面是有潛力的大模型,基于 GPT3、4。其次它有非常豐富的業務場景, office 使用者幾十億,使用者本身就是偏量級的。如果境内想要做出來比較完美的商業閉環,首先上遊需要有一個潛力還不錯的基礎模型,像百度的文心,或者是像阿裡的通義、騰訊的混元。基礎模型不能太差,即使是會有缺失或者都可以是以用代研方式逐漸累積疊代出很好的模型。關鍵是下遊業務場景有沒有像類似 office 或者像 Google workspace 這種有偏量的使用者,能夠持續不斷為模型疊代去打磨比較好的技術土壤,産品要有足夠好的使用地方。這對國内很多産品來說是業務的天塹,尤其對于二線廠商或者start-up 來說更是天塹。後續也隻有像若幹個大廠,基于自己本身存量的業務,快速疊代出成本效益非常高的、普适性的 AI 大模型産品,類似搜尋和音箱之于百度,電商和釘釘之于阿裡,或者社交和文娛遊戲之于騰訊一樣。類似像文檔、郵件、CRM 或者 SCRM 這種大的服務對于國内的商業場景來說,是分散在一些其他垂直賽道的頭部玩家的情況,後續會不會有垂直賽道的頭部玩家和AI 技術大廠去結合的這種情況也是非常令人期待的。

Q9:在今年或者明年會表現出不錯的表現嗎?

快的話會在今年下半年或者明年上半年。因為chatgpt、new bing上線時都是不完美的,所謂global的大模型,這一輪大模型産品都是以用代研,首先搶先釋出,随着使用者體量的增多、業務資料回流去逐漸疊代大模型表現,因為大模型 AI 類應用産品的特色或者特性就是如此,它和上一代的中模型或者小模型以及更早的 IP 的應用程式不同的是,它的産品體驗和表現存在着巨大的不确定性。這些巨大不确定性是需要将産品進行上線以使用者的規模或者使用者持續不斷使用和體驗去逐漸打磨。現在是大幕拉開的情況,後續文心随着智能雲和百度大腦開放商用接口,肯定是有源源不斷的商用産品或者應用産品出現,上線之後會搶占市場、業務空間,不斷疊代讓它有更好的體驗,而不是十年磨一個大招再上線完美的産品,這個是不符合現在的大模型産品的商用邏輯。

Q10:為什麼昨天兩位上司不是特别自信?

我認為大家對于整體的文心的期望值,無形中有了一個很高的benchmark,benchmark就是前天的 GPT-4,它所表現的一些了解能力上,國内的大模型産品和 GPT-4 比起來還是有很大能力差異。GPT-4 目前在整個 prompting 支援長達 2. 5 萬個 token 的輸入。對于像包括文心或其他一些産品目前支援了解的最大的長度是在幾千字,對标 GPT-3 的水準。Robin是百度第一代工程師,百度第一代搜尋引擎就是robin寫的,包括王老師也是業内知名專家,大家可能還是保持謙遜的态度,沒有去吹噓或者誇耀産品。但是對于外行來說,可能覺得産品都很爛,但是随後我們在昨天晚上對文心一言内測的直播過程中,其實文心在很多方面的表現還是非常不錯的,甚至一些包括像圖文場景其實比 ChatGPT表現還要好,也超出很多人的預期。是以包括今天股市上其實也反映出來了。

Q11:百度文心的透明度和gpt-4還是有差別?文心一言有沒有RLHF功能?

文心主要還是對标 GPT-3.5,base 模型是 GPT-3,昨天王海峰老師也介紹,它加入了一部分人類回報的強化學習機制。昨天更多還是錄制原因,因為整體的prompt輸入和打字過程還是比較長,也是為了控場是以提前錄制,現場的演講效果相對來說不太理想,大家可能基于這點覺得文心一言的能力非常弱。在昨天晚上的各個媒體的大v和大量網友真實互動中,網友對文心提的問題也很刁鑽,包括代碼的生成和查漏和補全等,其實文心的表現還是比較不錯的,是以并不是代表它比 GPT-3.5 弱多少,和 4 還是沒有辦法比,無論是對于一些超長輸入的了解、專業的學術領域論文的了解、通過玩梗圖去深層表現它對于圖像的了解能力都是非常強的。可能目前文心還沒有辦法和 GPT-4 直接對标。

Q12:文心也是像GPT-4一樣它分三個步驟,一個是預訓練模型,第二個是獎勵模型,再用強化學習?主要的差異是因為我們用的标注的人,OPEN AI據說是用了 1000個博士去做?

三個步驟一模一樣。沒那麼多,是40到 50 人左右,博士級别的标注團隊去做獎勵模型。一個大模型從資料的訓練分為兩部分,1)第一部分是在預訓練階段,需要各種各樣大量資料标注工作,包括像清洗、分詞、轉譯等等。Open AI之前也爆出在非洲、東南亞用大量廉價勞動力去做這部分品質比較低,但是勞力密集程度比較高的預訓練資料标注的工作,這個是發生在GPT-3 這種base model 上。在 21 年和 22 年的Instruct GPT做了一個人類強化 RLHF方法,具體做獎勵模型,主要是open AI自己的産研上去排prompt、寫答案、排序和評分,建立獎勵機制。

Q13:是不是隻要百度的标注時間足夠長,模型也會逐漸優化?

對。它其實是技術工程的概念。因為我們知道僅僅就搜尋而言,其實搜尋的這些使用者的 query 的範圍是非常廣的,需要不斷優化它拓寬覆寫的domain,它就會越來越好。

Q14:微軟釋出的新産品如果在中文版office使用,可能因為中文語料的問題導緻跟國外有差異?

應該是會有一些差異,1)國内因為監管政策的原因,其實GPT産品是沒有進來的。微軟如果想要進入到中國市場,面臨的第一道關就是網信辦的内容監管的紅線問題。因為GPT-3、GPT-4的raw data訓練資料叫WebText,裡面有大量所謂的加引号的封閉raw data,比如像 wikipedia的政治還有公衆人物評價或者其他,在國内是絕對不過審的。如果微軟想要迎合中國市場,可能需要做一個中國特供版的base model。至于 base model,它要不要做,花多少決心和成本去做是第一個問題。2)微軟還需要在國内有代營運或者代理的公司,處理一系列國内的應用層或者法務層的各種工作。我覺得如果要做,也是以GPT為 base model,再去升一個中文版的分支,肯定從産品效果和表現上,還是和 global 版會有很大的差異。

Q15:比如電腦上已有的工作文檔,微軟是不是相當于是把已有的工作文檔作為對 prompt 的修改結合到模型裡面去?

從目前披露的一些公開資訊上來看,是這樣的。

Q16:國内廠商用GPT是不是會同樣遇到中文語料有限制的問題?

對,應該不能直接去用,尤其是比較大的商業公司。如果是小公司,翻着牆偷摸去用應該也還好,但是比較嚴肅的商業公司應該不會。

Q17:文心一言昨天展示的直接生成視訊能力看起來還是比較超出産業平均水準,當時它是基于現場示範的影視資料就能自動生成嗎,能不能展開介紹?

目前對于視訊創作的一些領域或者業務場景相對來說還是比較受限。因為它不是脫離基礎的媒資庫或者媒資資源進行憑空閃樣或者空中閣樓的構造,更多還是依賴後端的媒資庫資源池以及特定業務場景。目前可能所支援的包括創作、營銷的場景,相對來說是比較受限的。支援的廣泛性上,比如支援的風格、業務場景,大家還需要再等一等。它不是文生圖那種直接用diffusion model 從 0 開始做,還是依賴一些媒資資源。

Q18:國内大廠現在的技術路徑是和Openai一樣還是會用其他家的?

業内早幾年主要對标的Bert,因為早幾年Bert在 LP 領域影響力是非常大的,或者說是獨樹一幟的。應該是從 21 年開始,基于GPT的prompt learning 技術範式才逐漸展開。

Q19:除了百度,其他幾家能看到C端類似的産品嗎?

目前還未知,從戰略高度上,比如如果是張勇站台或者是 Pony 出來站台做大模型産品,目前我們看不出其他家有這麼高的戰略定位。

Q20:國内各家大模型第一梯隊?第二、三梯隊?

第一梯隊是百度、阿裡、騰訊、位元組、華為,第二是京東、訊飛、商湯、360和其他。

繼續閱讀