來源：Agent的潛意識

AGI是一場生産力的變革。如果說大語言模型是蒸汽機，則AGI就是一場工業革命。在這一新質生産力革命程序中，技術是驅動引擎，深入了解技術，才能更好的切到業務的蛋糕；就像賽車手，他知道發動機引擎的操控邏輯，才能在彎道超車。

我們先聊技術範式，再來談商業模式。

一、scaling law的真正原因

從小到大，經曆無數次考試，我們常識裡就知道，判斷對錯題拿分簡單，瞎選也有一半分；單選題 4選一就難了，需要各個答案鑒别；如果是十選一那就更難。這個邏輯是成立的。對機器學習來說也一樣。從圖像分類來看：如果分十個類别，相當于是十選一的單選題；imagenet的資料集是1000個類别，就是1000中選一個了。而大語言模型是多少呢？他是從十萬多的詞彙表中選一個最可能的token，分類數增加一個，他的難度都是指數級增長。從數學機率論的視角來看，就是softmax 回歸的shape越大，需要指數級增加的資料集樣本才能訓練充分；因為條件機率分布P(Ai|(A1A2……A十萬,輸入text)中，A的個數增加，則輸入的text 和 A的組合數就指數增加的。需要用大資料量來一一計算機率，才能排除掉其他可能，得到真主Ai。

為了得到這樣規模的完全分布，裡面的數理邏輯的表達是比較複雜的，是以需要大模型參數，參數越大，他能表達的數學邏輯就越多；同時需要大資料量來提供完全分布，才可以訓練充分。為了尋找達到這一目的的路徑，openai 這幫人就發現，隻要是transformer，寬度和深度不需要設計排列組合，參數量差不多的話，model能表達的數學邏輯是基本一樣的。是以就省心去找更合适的模型架構了。直接暴力增加深度，增大資料集，就完成了這一巨大任務：從十萬個選項中選一個真主答案的選擇題任務。

二、sora離真正的text2video的GPT4時刻究竟差多遠

我們來基本預估下text2video需要多大規模的訓練集。之前分析過

Sora技術6:深入谷歌videopoet了解全模态視訊生成

經典圖像分類工程中，imagenet資料集，共1000個類别，你可以認為是token的Codebook是1000 的size，然後總資料集是128萬，合每個類别1300張圖檔的樣子。這個類比的意思是，一個token的全分布機率計算，需要1300個樣例來統計。

GPT1的詞典大小是40,478 個，GPT-2的詞典大小為50257個，是以詞典差别不是很大，那麼我們姑且假定GPT4的詞典大小為6萬，他的資料集呢，是13萬億個 token，也就是每個token有2億個樣例來計算全分布機率才能達到GPT4的效果。

Videopoet的Codebook大小是27萬，詞典過大，會造成embedding matrix巨大，會帶來存儲和時間的複雜度。是以，短期内視訊生成任務不能達到GPT4的水準的，因為Codebook過大了。一個類比計算就是：

Codebook size 1000的時候，需要1300個樣例來算全分布。

Codebook size 60000的時候，需要2億個樣例來算全分布。是1300的15萬倍。而Codebook size 隻是變大了60倍。也就是膨脹比是2300倍。

Codebook size 27萬的時候，那麼他是6萬的4.3倍，需要多少token？那就是4.3*2300*2億。這麼龐大的資料量是沒法計算的。

是以，可以毫不誇張的說，sora放出來的demo，隻是一個局部分布訓練到了一個小局部最優解（鞍點）上的某個角落而已，他還不能達到全分布的局部最優解。也就是說sora隻是在幾個案例上能合成優秀視訊，如果真的洪泛攻擊散開了讓大衆随意測試，基本不可能達到chatGPT的能力的。

解決這一難題，一方面需要scalaing law，這是最土的方法；另一方面核心的是降低codebook的size。這是邁向AGI的關鍵一步。

三、落地究竟有多難？通用和垂類：兩片水域

隻要是通用大模型，不管他刷了多少資料集評測榜單，他終究還是一個實驗室産品，因為他訓練的是公開資料集，公開資料集本身就存在語義混亂的情況，他就沒辦法進入嚴肅的職場環境解決現實問題。Imagenet上的訓練的分類模型，也不能直接拿來做工業視覺上的缺陷檢測：這個斑點屬于CPU正常的噪點，這個坑點是CPU制程的缺陷。這就需要重新建構真實資料集來真實訓練一個分類模型才可以。

通用大模型也是這樣的，他離落地的最後一公裡是有gap的。随便舉個例子，如果讓通用大模型來回答醫療問題，我估計業内人士都是不放心的。而真實的業務場景就是這樣的。他不是一個閑聊的助手。他需要嚴格保證品質。

是以，垂類模型目前緊要解決的問題是回答收斂問題。其次，還有主動發問的情況。就是一個真實的醫生，他是需要主動望聞問切的，主動去挖掘患者的病情，而當下的大模型是做不到的。是以垂類大模型就是需要緊密結合業務另尋出路。

四、為什麼需要自主訓練垂類大模型

基座是所有codebook的全量資料分布，由于公開資料集裡存在許多糟粕，例如科大訊飛那次學習機事件，本質是他的底座訓練集中出現了很多敵對意識形态的資料；他基座訓練過程中吃進去的資料，得到的就是一個codebook的全量分布；這個全量分布底座歪了，在他基礎上長出來的應用，或多或少，時不時會冒出一些古怪輸出。

是以，我們需要訓練一個垂域的底座大模型。這個大模型怎麼訓練呢？

第一是降低codebook大小。如果我們是做醫學問診的，那麼，我們肯定不需要代碼codebook的，這些代碼的token就可以摘掉；第二是建一個大小适中，垂域資料充分的資料集。我們隻有垂域資料集，就有可能不能覆寫整個資料的全分布；隻有公開資料集，就對垂類了解不充分。是以需要綜合考慮。第三個就是适中的模型大小。做一個垂類大模型，我們就是訓練一個南翔技校的挖掘機勞工，他開挖掘機幹活幹的又快又好；而不是訓練一個北大的通才，他居廟堂之高則憂其民，胸懷世界。

五、LLM裝進1080顯示卡：迎接百花齊放的垂類大模型

成本決定了落地的關鍵。首先要成本小，模型不能太大；其次把高并發打起來。這個也是降低落地成本的。

最關鍵的是，每個行業每個角落都需要有一個專門幹這一個活的垂類大模型。真正落地的大模型不是作業系統，他不需要大而全；他要的是小而精，在這個領域上，他的知識面非常精準，能閉環解決問題，

比如說在智能汽車座艙領域，他可以很精準的回答汽車的操控指南；例如，他可以回答兒童鎖在哪裡操作，這個每個車都不一樣的，通用大模型是回答不了的。

然後是降低功耗。功耗太大，推理需要4090是不合适的。4090近500w功耗，太燒電。還需要更低成本部署。哪天1080這樣的老顯示卡也能跑了，行業就是春天了。

總結

真正的商業模式，得深耕一個垂域，在這個垂域訓練自己的大模型，算法效果上能做到閉環。然後降低部署成本，才能真正是掙錢的新質生産力。

目前來看，text2video還不足以達到商業化産品的标準。離真正落地還有困難的。然後這個方向的科研任務還很重，短期一年内看不到類似GPT4的産品出現。

一家之言。

AGI時代：從技術範式到商業模式

一、scaling law的真正原因

二、sora離真正的text2video的GPT4時刻究竟差多遠

三、落地究竟有多難？通用和垂類：兩片水域

四、為什麼需要自主訓練垂類大模型

五、LLM裝進1080顯示卡：迎接百花齊放的垂類大模型

總結

繼續閱讀

農管政策變天！家門口不能種菜不能曬衣，到底怎麼回事？

原來我以為千戶苗寨很商業化，直到我去了這裡，發現這裡更商業化

越來越相信周揚青的家庭比韓雪好很多了，因為周揚青的父母不需要孩子懂人性，隻需要她快樂成長，而韓雪則有一種早早需要知道社會

華為新專利曝光：飛行機器人助力商業空中資訊采集，颠覆傳統模式

出遊、購物節、商業市集疊加客流，黃浦警方落實長假安保措施

1967年溥儀去世後，入葬商業公墓，李淑賢想合葬卻被皇族踢出？

這四大生肖天生适合做生意，個個都是商業奇才

老羅直播間這幾天真的不缺熱鬧。最近，有網友突然在老羅的直播間裡提到，某選最近火了一個新主播，暗示某頓也跟着爆火了。聽到這

中國商業世界的地震！造車新勢力崛起，王傳福雷軍馬斯克陷入思考

周鴻祎的邁巴赫競拍事件引發了廣泛關注。起拍價僅為600萬元，但最終以990萬元成交，現場叫價之激烈讓人咋舌。邁巴赫S60

周鴻祎否認邁巴赫拍賣是策劃；首個Sora制作商業音樂MV釋出

創新型商業現場正重回“舞台中央”，紅星美凱龍将持續打破邊界、再造現場

是誰給人民醫院扣上“商業化的帽子”！醫院始終是為了人民的健康

極具商業頭腦！羅總裁推出C羅牌香槟，再重新整理一項紀錄

原本我以為千戶苗寨很商業化，直到我去了這裡，發現這裡更商業化

肖戰：實力演繹品牌引力場，以璀璨星光照亮商業版圖