天天看點

昆侖萬維方漢:一年讀200篇AI論文後,找到大模型的最佳賺錢模式

作者:甲子光年
昆侖萬維方漢:一年讀200篇AI論文後,找到大模型的最佳賺錢模式
“免費+to C”才會産生下一代AI巨頭。

作者|趙健

網際網路公司轉型做大模型是否靠譜?昆侖萬維正在尋找适合自己的機會。

這家成立于2008年的網際網路公司依托于遊戲起家,業務覆寫社交、娛樂等多個領域。2022年,昆侖萬維看到了生成式AI在繪畫等領域的颠覆式革命,宣布“All in AIGC”。2023年,昆侖萬維陸續釋出基礎大模型「天工」以及天工AI搜尋等多個AI産品。

2024年開年,昆侖萬維釋出全新公司願景,将“實作通用人工智能,讓每一個人更好地塑造和表達自我”為使命。

今天,昆侖萬維宣布,「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啟公測。「天工3.0」擁有4000億參數,超越了3140億參數的Grok-1,是全球最大的開源MoE大模型;「天工SkyMusic」則是中國首個音樂SOTA(State Of The Art)模型,在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先Suno V3。

為了做好大模型,昆侖萬維做了很多準備。

在算力層面,昆侖萬維有近萬卡的訓練資源,足夠支撐訓練下一代基于多模态的MoE大模型以及視訊生成大模型。

在技術上,為了與業内最先進的技術保持同步,昆侖萬維董事長兼CEO方漢每周要閱讀3~4篇技術論文,2023年一共閱讀了200多篇論文;還會在一線寫代碼,寫prompt,他寫prompt的能力可能超過公司90%的同僚;公司所有的算法博士,幾乎都是方漢親自面試的。

在商業模式上,方漢認為移動網際網路時代“免費+to C”的模式依然适用于AI時代。隻有“免費+to C”,才會産生AI時代的巨頭。這是目前最合适的商業模式,也最容易盈虧平衡,赢得正向ROI。

為了實作這一點,大模型必須降低推理成本,終局是端側推理,而中局則是大模型底座+AI UGC平台——這也是昆侖萬維選擇的路線。

近日,「甲子光年」與昆侖萬維董事長兼CEO方漢進行了一次對話,詳細解釋了昆侖萬維打算如何通過大模型來賺錢。

1.降低推理成本才能免費

方漢判斷,下一代的AI巨頭與網際網路、移動網際網路時代的巨頭模式相似,一定是“C端+免費”,因為全球C端使用者有80億,市場上限是最高的,任何一個微小的收入乘以80億都是一個非常驚人的數字。

目前,國外很多大模型企業采用訂閱模式,比如OpenAI。基于訂閱模式,方漢算了一筆賬:假設一個月的訂閱費是19美元,全世界願意花錢訂閱的使用者可能隻有1億人左右,剩下的79億人還是要靠免費模式。

如何實作免費模式?方漢認為有三條路徑。

第一條路徑是降低推理成本。如果把大模型的推理成本降到現在的千分之一、萬分之一,幾乎就可以免費給大家用。但是,降低推理成本與提升模型能力會互相掣肘。方漢表示,現在推理成本幾乎以每年十倍的比率在下降,但模型的能力也在以幾十倍的速度提升(帶來成本的提高),就像“兩頭驢在拉磨”。

除了通過技術與工程上的優化來降低成本外,還有一種用“小模型”降低成本的方式。比如,我們今天經常使用的ChatGPT,并非是一個1750億參數的模型,而是優化到了80億參數。方漢表示,昆侖天工也是類似的邏輯,天工3.0雖然是一個4000億參數的MoE模型,但實際上并非所有的服務都是調用這個大參數模型,而是蒸餾出很多小模型為使用者服務。

第二條路徑是采用UGC平台模式,即讓1%的内容創作者使用付費AI,剩下99%的讀者免費看其生産的内容,這樣推理成本大約降低了100倍,商業模式會更加容易成立。

第三條路徑是端側推理,比如AI PC與AI手機,但AI手機要3~5年後才會普及,因為使用者的換機需要一個周期。方漢表示:“這就像4G和手機攝像頭推動了短視訊行業的發展。如果沒有攝像頭,沒有手機攝像頭,沒有4G網絡,短視訊行業是永遠不會出現的。”

如果AI手機普及,市場規模就會變得空前巨大。技術上沒有難點,經過工程師的優化,手機端可以推理7B和13B的模型,這已經滿足了使用者70%至80%的需求。

方漢認為,在AI手機普及之前,UGC平台就是一個中期的最佳商業模式。昆侖天工就是選擇做一個基于大模型基座驅動的UGC平台。

2.大模型底座+AI UGC平台

昆侖萬維目前有六大業務矩陣:AI大模型、AI搜尋、AI音樂、AI視訊、AI社交、AI遊戲,本質上是兩條業務線——底層做通用大模型的底座,上層做AI UGC平台。

為什麼一定要親自下場做基座大模型?方漢解釋道:“從技術角度來看,人類的智慧是以文本形式沉澱下來,所有的社交、遊戲、音樂跟視訊的專屬模型,其實都需要文本大模型的能力去支撐。比如,訓練視訊模型的視訊資料,就需要用文本模型打标,文本模型的能力決定了使用者輸入prompt的遵從能力有多強,以及最後生成的視訊關聯性有多強;著名的Stable Diffusion模型把文本模型從CLIP換成了T5之後,能力極大提高。”

為了做好基座大模型,昆侖萬維也儲備了近萬卡的訓練資源,足夠支撐訓練下一代基于多模态的MoE大模型和視訊生成大模型。對于國産晶片的适配,昆侖萬維也在内部做過很多測試,某國産晶片的最新版本在性能上大約能到英偉達H100的80%。

而從商業角度來說,方漢也提到,擁有基座大模型,才能夠保證不會被“釜底抽薪”。類似的事件其實已經上演過,基于其他基座大模型做應用的公司,會面臨中止合作的風險。

在應用層,昆侖萬維的産品矩陣目的就是要打造一個以IP為核心的綜合UGC平台。

方漢表示,一個IP基本上是在小說與漫畫裡産生,比如哈利波特、指環王與漫威,而具體的變現方式就是視訊與遊戲,這是一個IP的完整閉環。使用者其實并不太關心是文本、漫畫還是視訊的形式,他隻在乎能否講好一個故事,這個故事實際上就是IP。如果你能生成新的IP,使用者就會願意在你的平台上消費。昆侖天工的AI UGC平台,就是想讓所有用AI創作的人在裡面完成IP的全閉環。

對于産品的增長預期,方漢表示“不想當将軍的士兵不是好士兵”。目前來看,技術最好的産品——即達到SOTA的産品,就能獲得最多的使用者。是以,隻要在垂類上取得SOTA,既可以是領域也可以是語言,就一定能獲得高速增長能力。

昆侖天工今天開啟公測的天工音樂大模型,就是音樂領域的SOTA模型。

昆侖萬維方漢:一年讀200篇AI論文後,找到大模型的最佳賺錢模式

天工SkyMusic綜合性能超越Suno V3,圖檔來自昆侖萬維

根據現在的進展,方漢相信,所有AIGC技術将會在兩三年後達到一個足夠可用的高度。

3.大模型公司一定是技術老大做CEO

在競争激烈的大模型賽道,昆侖萬維如何保證技術的領先性?

方漢認為不斷前進的原則隻有一個,就是好奇心。“隻要你對這個世界充滿好奇,你就可以不斷地前進,而前進的具體手段,我認為沒有别的辦法,就是深入一線,接觸技術。”

這一波大模型跟原先不一樣,最大的特點是技術驅動,基本上創業公司都是技術老大做CEO。

方漢是技術出身,大學的專業是核實體,畢業後被配置設定到了中國高能實體研究所,是全中國第一個接入網際網路的機關。方漢表示自己對于技術的好奇是無窮無盡的。

方漢每周要閱讀3~4篇技術論文,2023年一共閱讀了200多篇論文;還會在一線寫代碼,寫prompt,“我敢說我寫prompt的能力可能超過公司90%的同僚”;公司所有的算法博士,幾乎都是他親自面試的。

方漢自勉道:“作為公司管理者,如果不去讀論文,你就不知道技術的邊界在哪裡,就沒有辦法為這個邊界設計産品與商業模式。如果不懂技術,别人高維打低維,技術名額把你碾壓了,你就全完蛋了,就像GPT套殼公司在GPT Store出來後全軍覆沒一樣。對我而言,與業界保持同步的唯一辦法就是讀論文,跟技術同學交流,我們公司的管理層也都是這樣。”

方漢認為,隻要決策者知道技術的邊界在哪裡,所有的規劃都不會有問題。

除了站在技術一線,昆侖萬維也非常重視人才的引進。

2023年9月,AI大牛顔水成加入昆侖萬維,擔任天工智能聯席CEO、2050全球研究院院長。方漢透露,2050全球研究院已經有多位教授和博士加入。

方漢還觀察到一個現象,由于大模型的出現,所有的技術棧都是全新的,導緻這個賽道裡能力最強的其實是在校博士、研究所學生,而不是畢業多年的人。他發現,關于大模型的論文,在校博士釋出的東西是最有創意、最有想法的。

4.開源與閉源之争

就在昆侖天工3.0大模型宣布公測的前一天,百度董事長兼CEO李彥宏在Create 2024百度開發者大會上針對開源與閉源路線發表了一番有一定争議的觀點。李彥宏表示,在當今的大模型生态下,開源模型會越來越落後。

方漢也分享了他對開源與閉源之争的看法。

首先,開源到底有沒有商業模式?在軟體行業,開源一直是一個很有争議性的話題。

上個世紀末,在軟體行業發展的早期,開源的确沒有很好的商業模式,那時候的商業模式隻有一個:收取服務費。當時最賺錢的公司是Red Hat,後來被IBM收購。

後來,一家軟體公司的出現改變了開源的商業模式——MongoDB。MongoDB發現,雲服務商都在用開源産品提供服務來賺錢,但卻不給開源組織一分錢。于是,MongoDB推出了一個SSPL産品授權協定,所有使用者可以免費使用,但雲服務商除外,除非雲服務商可以支付費用。

開源的另一個商業模式,是把開源當成一種最便宜的獲得銷售線索的手段。産品開源之後很多使用者會來試用,遇到問題還得找原廠解決售後問題。國内一些開源資料庫采用了這種方式。

是以,方漢認為,開源仍然是有商業模式的。

從技術角度出發,開源與閉源模型誰更有優勢?

目前大模型評測的方法有很多種,方漢認為最具權威的測試方法是大模型競技場(LLM Arena)。2023年以來GPT-4都是常年的第一名的位置,Claude 3釋出後短暫超越GPT-4,近期最新版本的GPT-4 Turbo又重新奪回第一。

昆侖萬維方漢:一年讀200篇AI論文後,找到大模型的最佳賺錢模式

大模型競技場排行榜,圖檔來自LMSYS Chatbot Arena

如果看開源模型,目前大模型競技場的榜單上排名最高的開源模型是阿裡的Qwen1.5-72B-Chat,排名第十一。方漢認為,開源模型與閉源模型的差距已經從落後2年以上,追到僅落後4~6個月了,這證明了兩者的差距是在縮小而非加大。

從另一個文生圖賽道來看,開源模型的優勢會更加明顯。

文生圖領域有兩個代表性的SOTA閉源模型:DALL-E與Midjourney,但在開源的Stable Diffusion出來之後,很多遊戲領域的美術工作流都逐漸采用了Stable Diffusion,背後的一部分原因在于計算資源。

方漢表示,大學與高校裡的博士生與老師其實是十分尴尬的,因為他們沒有太多的計算資源,隻有基于開源的Stable Diffusion去做工作,他們的聰明才智也隻好貢獻給了開源模型。是以,開源模型實際上是一種生态建構器,更有利于滿足于使用者的長尾需求。

方漢認識兩位中國的個人模型作者,一位是給文身師設計文身圖,一位是給商店畫支架圖,而這兩種長尾需求,閉源模型是不可能滿足的,隻有靠開源模型才能定制。

方漢認為,開源模型與閉源模型是一個生态的組成部分,不是誰取代誰,而是一個互補關系,都會有自己的生存空間。

(封面圖來自《鋼鐵俠》)