天天看點

AGI時代:從技術範式到商業模式

作者:鳥哥筆記

來源:Agent的潛意識

AGI是一場生産力的變革。如果說大語言模型是蒸汽機,則AGI就是一場工業革命。在這一新質生産力革命程序中,技術是驅動引擎,深入了解技術,才能更好的切到業務的蛋糕;就像賽車手,他知道發動機引擎的操控邏輯,才能在彎道超車。

我們先聊技術範式,再來談商業模式。

一、scaling law的真正原因

從小到大,經曆無數次考試,我們常識裡就知道,判斷對錯題拿分簡單,瞎選也有一半分;單選題 4選一就難了,需要各個答案鑒别;如果是十選一那就更難。這個邏輯是成立的。對機器學習來說也一樣。從圖像分類來看:如果分十個類别,相當于是十選一的單選題;imagenet的資料集是1000個類别,就是1000中選一個了。而大語言模型是多少呢?他是從十萬多的詞彙表中選一個最可能的token,分類數增加一個,他的難度都是指數級增長。從數學機率論的視角來看,就是softmax 回歸的shape越大,需要指數級增加的資料集樣本才能訓練充分;因為條件機率分布P(Ai|(A1A2……A十萬,輸入text)中,A的個數增加,則輸入的text 和 A的組合數就指數增加的。需要用大資料量來一一計算機率,才能排除掉其他可能,得到真主Ai。

為了得到這樣規模的完全分布,裡面的數理邏輯的表達是比較複雜的,是以需要大模型參數,參數越大,他能表達的數學邏輯就越多;同時需要大資料量來提供完全分布,才可以訓練充分。為了尋找達到這一目的的路徑,openai 這幫人就發現,隻要是transformer,寬度和深度不需要設計排列組合,參數量差不多的話,model能表達的數學邏輯是基本一樣的。是以就省心去找更合适的模型架構了。直接暴力增加深度,增大資料集,就完成了這一巨大任務:從十萬個選項中選一個真主答案的選擇題任務。

二、sora離真正的text2video的GPT4時刻究竟差多遠

我們來基本預估下text2video需要多大規模的訓練集。之前分析過

Sora技術6:深入谷歌videopoet了解全模态視訊生成

經典圖像分類工程中,imagenet資料集,共1000個類别,你可以認為是token的Codebook是1000 的size,然後總資料集是128萬,合每個類别1300張圖檔的樣子。這個類比的意思是,一個token的全分布機率計算,需要1300個樣例來統計。

GPT1的詞典大小是40,478 個,GPT-2的詞典大小為50257個,是以詞典差别不是很大,那麼我們姑且假定GPT4的詞典大小為6萬,他的資料集呢,是13萬億個 token,也就是每個token有2億個樣例來計算全分布機率才能達到GPT4的效果。

Videopoet的Codebook大小是27萬,詞典過大,會造成embedding matrix巨大,會帶來存儲和時間的複雜度。是以,短期内視訊生成任務不能達到GPT4的水準的,因為Codebook過大了。一個類比計算就是:

Codebook size 1000的時候,需要1300個樣例來算全分布。

Codebook size 60000的時候,需要2億個樣例來算全分布。是1300的15萬倍。而Codebook size 隻是變大了60倍。也就是膨脹比是2300倍。

Codebook size 27萬的時候,那麼他是6萬的4.3倍,需要多少token?那就是4.3*2300*2億。這麼龐大的資料量是沒法計算的。

是以,可以毫不誇張的說,sora放出來的demo,隻是一個局部分布訓練到了一個小局部最優解(鞍點)上的某個角落而已,他還不能達到全分布的局部最優解。也就是說sora隻是在幾個案例上能合成優秀視訊,如果真的洪泛攻擊散開了讓大衆随意測試,基本不可能達到chatGPT的能力的。

解決這一難題,一方面需要scalaing law,這是最土的方法;另一方面核心的是降低codebook的size。這是邁向AGI的關鍵一步。

三、落地究竟有多難?通用和垂類:兩片水域

隻要是通用大模型,不管他刷了多少資料集評測榜單,他終究還是一個實驗室産品,因為他訓練的是公開資料集,公開資料集本身就存在語義混亂的情況,他就沒辦法進入嚴肅的職場環境解決現實問題。Imagenet上的訓練的分類模型,也不能直接拿來做工業視覺上的缺陷檢測:這個斑點屬于CPU正常的噪點,這個坑點是CPU制程的缺陷。這就需要重新建構真實資料集來真實訓練一個分類模型才可以。

通用大模型也是這樣的,他離落地的最後一公裡是有gap的。随便舉個例子,如果讓通用大模型來回答醫療問題,我估計業内人士都是不放心的。而真實的業務場景就是這樣的。他不是一個閑聊的助手。他需要嚴格保證品質。

是以,垂類模型目前緊要解決的問題是回答收斂問題。其次,還有主動發問的情況。就是一個真實的醫生,他是需要主動望聞問切的,主動去挖掘患者的病情,而當下的大模型是做不到的。是以垂類大模型就是需要緊密結合業務另尋出路。

四、為什麼需要自主訓練垂類大模型

基座是所有codebook的全量資料分布,由于公開資料集裡存在許多糟粕,例如科大訊飛那次學習機事件,本質是他的底座訓練集中出現了很多敵對意識形态的資料;他基座訓練過程中吃進去的資料,得到的就是一個codebook的全量分布;這個全量分布底座歪了,在他基礎上長出來的應用,或多或少,時不時會冒出一些古怪輸出。

是以,我們需要訓練一個垂域的底座大模型。這個大模型怎麼訓練呢?

第一是降低codebook大小。如果我們是做醫學問診的,那麼,我們肯定不需要代碼codebook的,這些代碼的token就可以摘掉;第二是建一個大小适中,垂域資料充分的資料集。我們隻有垂域資料集,就有可能不能覆寫整個資料的全分布;隻有公開資料集,就對垂類了解不充分。是以需要綜合考慮。第三個就是适中的模型大小。做一個垂類大模型,我們就是訓練一個南翔技校的挖掘機勞工,他開挖掘機幹活幹的又快又好;而不是訓練一個北大的通才,他居廟堂之高則憂其民,胸懷世界。

五、LLM裝進1080顯示卡:迎接百花齊放的垂類大模型

成本決定了落地的關鍵。首先要成本小,模型不能太大;其次把高并發打起來。這個也是降低落地成本的。

最關鍵的是,每個行業每個角落都需要有一個專門幹這一個活的垂類大模型。真正落地的大模型不是作業系統,他不需要大而全;他要的是小而精,在這個領域上,他的知識面非常精準,能閉環解決問題,

比如說在智能汽車座艙領域,他可以很精準的回答汽車的操控指南;例如,他可以回答兒童鎖在哪裡操作,這個每個車都不一樣的,通用大模型是回答不了的。

然後是降低功耗。功耗太大,推理需要4090是不合适的。4090近500w功耗,太燒電。還需要更低成本部署。哪天1080這樣的老顯示卡也能跑了,行業就是春天了。

總結

真正的商業模式,得深耕一個垂域,在這個垂域訓練自己的大模型,算法效果上能做到閉環。然後降低部署成本,才能真正是掙錢的新質生産力。

目前來看,text2video還不足以達到商業化産品的标準。離真正落地還有困難的。然後這個方向的科研任務還很重,短期一年内看不到類似GPT4的産品出現。

一家之言。

繼續閱讀