天天看點

開源大模型,下一個“卡脖子”科技?|深網

開源大模型,下一個“卡脖子”科技?|深網

開源大模型,下一個“卡脖子”科技?|深網

來源:視覺中國

作者|葉蓁

編輯|康曉

華為手機突破5G晶片封鎖,成為過去一周科技圈最熱門話題。而中國AGI通用人工智能大模型的創業者們正在思考,大模型會不會成為下一個“卡脖子”科技?

今年7月,Meta釋出開源大模型LLaMA的商用版本Llama2,業界認為其可以媲美商用GPT-3.5,在開源模型中獨樹一幟。LLaMA2的誕生無異于在大模型戰場投下了一發重磅炸彈,為全球大模型之戰增添了變數。

開源和閉源,正成為大模型領域兩股并行的力量,“Llama2的出現,對ChatGPT而言,整個大模型領域的競争格局已經清晰,就像iOS和安卓之争,目前是并駕齊驅的。”中科智深創始人成維忠告訴《深網》。

“美國通用大模型閉源模型頭部幾家已經并無懸念,OpenAI的ChatGPT、Google有一張門票,Llama2的出現在美國做開源通用大模型也已經沒有懸念。”百川智能創始人、CEO王小川認為。

但在中國,誰做最好的大模型現在并沒有結論,王小川說,“大家都有争取的機會。”

一個危險的信号是,Llama2在美國市場卷起的大模型硝煙也影響了國内“百模大戰”的走向,部分中國科技公司認為,Llama2為國内企業提供了一個有望趕超GPT-3.5的免費選擇,是以無需再自主研發成本巨大的基礎大模型。

“其實國内很多公司在一開始都是想要做通用大模型的,Llama2的出現,那些公司已經做的工作基本就浪費了,付出很多人力物力及計算資源做出的通用模型,發現還沒有别人開源的Llama2的效果好,而且以後肯定還會有比Llama2更強的開源通用大模型釋出。”特斯聯首席科學家邵嶺博士告訴《深網》。

一位國内大模型創業者告訴《深網》,目前,國内企業和開發者對Llama2的投入熱情,要遠高于對國内大模型産品的支援。

上述創業者認為,相比Llama2尤其是Llama2的漢化版本,國内開源大模型的水準和能力其實不相上下,如果中國企業盲目擁抱Llama2,會重演作業系統iOS和安卓獨大的局面,未來在超級人工智能領域面臨被卡脖子的風險。

“大國肯定需要自己自主研發的大模型,就跟晶片類似,如果沒有自己的,到時候很容易控制權落在别人手中。”邵嶺向《深網》表示。

毋庸置疑,科技公司不能完全依賴開源的LLaMA,中國需要本土的大模型。

“現在大模型的競争是單純的模型的競争,也是算力和人才的競争(這兩項也是‘卡脖子’的因素),但未來的大模型競争更可能是生态領域的競争。”CSDN 創始人、董事長蔣濤告訴《深網》。

Llama2加速了百模大戰淘汰賽

從去年12月ChatGPT誕生後,Meta 釋出的 Llama,3月份斯坦福大學微調 Llama 後釋出的 Alpaca,5月份出現的 Falcon,世界各地的開源模型在快速進步。而7 月 18 日,Llama2 的出現,更是直接讓大模型的競争格局變天了。

據Meta官方介紹,Llama 2大語言模型系列是經過預訓練和微調的生成式文本模型,其參數數量從70億到700億不等。

“Llama2的确是個重磅炸彈,它把訓練方法中用到的資料,技術和細節都公布了,這是很罕見的。從曆史來看,有閉源的,必然有開源的,如果說ChatGPT占據了通用大模型的先發優勢,必然會出來一個開源大模型的生态, Llama2的出現攪亂了這個市場,創造了更多機會和可能。”CSDN 創始人蔣濤表示。

Meta 副總裁、人工智能部門負責人楊立昆(Yann LeCun)說,Llama 2 将改變大語言模型市場的格局。人工智能領域權威之一的内森·蘭伯特( Nathan Lambert )表示,Llama 2 性能是超過GPT-3的,對許多閉門造大模型的公司是個巨大的打擊。

業内認為:GPT-3.5 水準通常被認為是大模型商用的标準線,在 Llama2 模型 70 億、130 億和 700 億三種參數變體中,700 億的版本在 MMLU 和 GSM8K 上接近了 GPT-3.5 的水準。這意味着有了 Llama 2 這樣的開源大模型,自研的意義更小了。

國内的大模型廠商在路徑的選擇上亦是出現兩條路分化。百川智能、智譜和清華EKG、阿裡雲等,選擇了開源。而華為的盤古大模型,百度的文心一言等選擇了閉源。

Llama2的出現,也加速了國内的大模型企業開源步伐,中國百模大戰的淘汰賽開啟了。

在7月11日,百川智能推出了百億級别參數的大模型 Baichuan-13B,不僅宣布開源,同樣還是免費可商用。免費政策沖擊了國内大模型付費行情。智源AI緊接就在14日宣布,企業登記獲得授權,允許免費商業使用ChatGLM-6B 和 ChatGLM2-6B。

丁香園CTO範凱如此形容這波開源免費潮,就像把自來水廠免費接到使用者家裡,讓每家人手一個水龍頭,那些閉源的自來水廠,最好水無敵好喝,大家才願意付費。

中國必須有自研大模型

“現在仍處于大模型的‘西部蠻荒’時代,缺乏法律監管,各方都在跑馬圈地。Meta是否想清楚了盈利模式?實際上還沒有。現在大模型的超級應用尚未問世,整個市場仍處于混沌态。”CSDN 創始人蔣濤表示。

鑒于當下的形勢,《深網》接觸到投資人、科學家都認為,中國必須有自研大模型。“中國和美國是AI發展最快的兩個國家,中國肯定是需要自己的大模型布局的,不光是中國和美國,像歐洲一些國家,比如英國,最近也在投資做自己的大模型。”

特斯聯首席科學家邵嶺博士告訴《深網》,“在大模型這一塊,中國發展算是比較早的,在ChatGPT之前,中國的大模型研發其實已經有一些儲備。”

資料顯示:在ChaTGPT 3.0面世之前,國内就已經有多家萬億參數的大模型,他們分别是達摩院的M6和華為雲的盤古大模型以及智源的悟道2.0。但因為各種各樣的原因,效果上無法與ChatGPT媲美。

“中國一定會有自己的ChatGPT。這跟搜尋引擎一樣,我們有自己的合規要求。但是中國版的ChatGPT隻會在5家公司裡産生:BAT+位元組+華為。”迅雷創始人、遠望資本程浩告訴《深網》。

而Llama2開源後的半個月,國内就湧現出了一大批基于Llama2以指令微調形式漢化而來的中文版模型,那麼漢化之後的Llama2的表現究竟如何呢?國内大模型評測機構SuperCLUE針對五個被社群廣泛讨論的Llama2中文版模型,進行了測評。

根據評測結果,雖然部分中文版Llama2模型取得了不錯的表現(如OpenBuddy),效果與ChatGLM2-6B接近(35.12 VS 36.50)。但所有基于Llama2優化的中文版大模型的表現與國内Baichuan-13B-Chat等相比還有明顯差距。

研究還顯示,基于Llama2訓練的中文模型,可以提升中文能力,但同時也可能會引起通用能力的大幅降低。

實用的角度來看,漢化版Llama2并不能滿足中文環境中的應用需求,雖然不排除随着開源社群的努力,未來Llama的中文表現能夠得到進一步提升,趕超國内本土的原生大模型,但是将雞蛋但放在Llama這一個籃子裡,會有單一化的風險。是以中國依然需要自研大模型。

“百川和智源之是以公開披露部分參數,是為了證明其在各種關鍵性能名額和參數方面的優勢,這也是大模型創業者要去PK的,誰能跑在前面就是取得了先發優勢,對于獲得成功至關重要。”CSDN 創始人蔣濤認為。

誰能笑到最後?

對于國内大模型目前的競争格局,《深網》接觸到的投資人、創業者、科學家,都認為目前整個領域仍在跑馬圈地階段,看不出來誰會成為勝出者。不過大家一緻的觀點是:2024年或許會有大模型公司跑出來,目前所有的人都在搶時間。

李開複、王慧文,王小川等網際網路老兵,網際網路大廠的中高層,再加上一些學院派的科學家,還有大廠,紛紛加入這波大模型創業浪潮。他們中一類做自研大模型,一類做垂直大模型。

Meta 的 LLama2 大模型開源、放開商業化之後,意味着大模型應用進入了“免費時代”,初創公司也能夠以低廉的價格來建立類似ChatGPT這樣的聊天機器人。

國内現在的機會其實是跟Llama在同一起跑線上,目前國内這些做通用大模型的企業,預計90%的企業會傾向基于開源大模型進行發展。

王小川表示,未來開源和閉源會像蘋果和安卓系統一樣并行發展。大部分服務會依賴開源模型,而閉源會提供特定的增值服務。開源模型提供80%,最後靠閉源提供剩下20%服務。

獵豹移動創始人、董事長傅盛就在社交媒體上公開表示:“大模型不再高不可攀,平民化大模型時代已經到來!像我們這樣的公司會笑醒在深夜。”

以制作數字虛拟人的中科深智為例,成維忠在2023年春節前後開啟了大模型訓練,5個月後中科智深釋出了20億參數級别的大語言模型“數智姜尚”。這是他們租用了2000張英偉達A100顯示卡做出來的産品。

“對大多數企業來說,更明智的做法是基于比較好的開源模型去做訓練。即便我有了‘數智姜尚’,我覺得到了某一個節點,有了特别好的開源大模型,我們會把我們的訓練工作平移到一個開源大模型上。站在人家的肩膀上,進步會更快。”

成維忠闡述,“如果Llama2是一條高速路,我們現在做的工作就是修一條路,讓它可以連接配接上高速公路。”

“随着開源大模型的發展和行業數字化更新,開發者的數量将呈現倍增趨勢,而企業基于私有資料的應用需求也将得到井噴釋放。我們也将會迎來人人都是開發者、行行知識煉模型、軟體工具全重構、智能應用百千萬的智能新時代。”CSDN 創始人蔣濤表示。

對于這新一波AI技術浪潮的來臨,創業公司都在奮力前行,先修好小路,以便未來更好的連接配接上高速路,而成熟開源的大模型生态就是那條高速路。

繼續閱讀