天天看點

大模型确實要比光刻機簡單很多

作者:品玩
大模型确實要比光刻機簡單很多

本文是5月31日品玩舉辦的“模型思辨——國内大模型生态研讨會”上,品玩創始人、CEO駱轶航與360集團創始人、CEO周鴻祎的對話實錄,經整理編輯釋出。

訪談人:駱轶航

受訪人:周鴻祎

大模型确實要比光刻機簡單很多

大模型确實要比光刻機簡單很多

駱轶航:我現在是品玩的首席大語言模型布道師,今天跟我對話的既是中國大語言模型領域的一個主要builder,他也是一位大語言模型領域的evanglist(布道者)。過去幾個月我們看到他在各種場合分享了對大語言模型趨勢的看法,當然他自己的團隊也在做大語言基礎模型。他就是360集團的董事長和CEO周鴻祎先生。

周鴻祎:我前不久生病了才病愈,我是第一次陽,後遺症比較嚴重,如果一會兒産生大模型幻覺,說錯什麼話,大家不要在意。

駱轶航:那取決于我怎麼給prompt,出現模型幻覺的原因往往是prompt給得不好。

周鴻祎:我在下面聽你開場講了這麼久,感覺已經快溢出了。

駱轶航:那是你的Token不夠用了。那好,我争取用短小精準的prompt問你問題。過去三個月所有人都在讨論大模型,您覺得春節以後,中國和美國在大語言模型領域的差距是更大了還是更小了?

周鴻祎:我覺得當然是更小了,因為在ChatGPT剛出來的時候,我這個做搜尋的人,用搜尋的思路去看人工智能,簡直覺得匪夷所思不可思議,原來研發大模型的路徑答案可以是這樣的,你也完全不知道它的工作原理是什麼。

但最近幾個月國内同行陸陸續續釋出了自己的大模型,雖然客觀來講跟GPT4.0還有點差距,相比GPT3.5也有點差距,但差距沒有那麼大。

順道吐個槽,國内測試大模型特别喜歡用腦筋急轉彎的形式,但如果你看微軟對GPT4.0的測試,其實在推理能力以及非常長的思維鍊的能力上,GPT4.0是遙遙領先的。

話說回來,千裡之行,始于足下,原來不知道什麼是預訓練,不知道什麼是微調,不知道什麼是使用者強化學習,踩了很多坑。,又從百億參數到幾百億、上千億的參數,現在總算做出一個能用的東西,雖然有差距,但也是非常大的進步。

國内研發大模型滿打滿算,起步晚的過了春節開始做,到現在也就三五個月時間,再次證明大模型确實還是要比光刻機簡單很多。

不過昨天看到英偉達的黃仁勳釋出了GH200晶片組,我覺得差距是不是又拉大了。

駱轶航:是以我才問差距究竟是在變大還是變小,這個事是動态的,一會兒大一會兒小。

周鴻祎:要看角度。算力差距肯定是拉大了,人家記憶體大概144TB,整個模型放進去都綽綽有餘,這樣就不需要搞好幾百台電腦叢集訓練了,同樣參數的模型,過去一個月才能訓練完的,現在三個小時或者一天就能訓練完。

這種疊代速度太驚人了,因為很多時候訓練的結果不一定是收斂的,可能訓練一個月後發現是一地雞毛,還得從頭訓練,但一個月的時間已經過去了。是以别人的訓練速度可能比你快上百倍,從這個角度來說,中美之間算力帶來的大模型差距拉大了。

我的感覺跟你是一樣的,大家都感覺很焦慮,三個月就像三十年,每天都有層出不窮的圍繞大語言模型的成果,軟的硬的,各種架構開源工具都有出來。但整體來說,我還是傾向于比較樂觀。

駱轶航:但不少同行覺得用一個很快的時間就能追趕上ChatGPT的現在水準,當然ChatGPT本身也在疊代。

周鴻祎:我覺得差距是客觀存在的,隻是行業中有人愛吹牛,如果要準确預言差距将會在哪一天趕上,我個人覺得還是應該謙虛一點,畢竟中國還是有很多人真正用過GPT4.0的,你不能因為大部分人都沒見過就吹牛吧。

我們應該找到差距在哪裡,然後找到合适的場景充分發揮它的能力同時讓使用者對創新和面臨的困難有寬容和了解的接受度,不然吹牛吹得太大,大家期望很高,結果一用起來很失望。

大模型确實要比光刻機簡單很多

垂直領域的機會還遠遠沒有表現出來

駱轶航:同行中您比較看好誰?是比360體量更大的巨頭,還是創業公司?

周鴻祎:我覺得各有各的優勢,最關鍵的是中國不會隻有一個GPT4.0就滿足了,也不會隻有一個大模型。

現在有一個趨勢是把大模型做小,小到一台安裝了英偉達3090、4090晶片的機器可以微調,甚至是将來在IoT(物聯網)裝置上部署,這就決定大模型算力結構将來會無處不在。

當年計算機剛出來的時候也有人總結過,全世界人民需要五台超級電腦就夠了,但真正改變工業革命的東西是個人電腦,進入每個家庭、進入每家公司,安裝不同軟體來幹各種各樣的事情。

駱轶航:也就是說會湧現出許多垂直模型?

周鴻祎:我覺得會比想象像更快。

大家需要改變想法,不要以GPT4.0作為Benchmark(對标)。,就像一個哈佛培養的博士後,水準是很高,獲得了十幾個博士學位,我們想複制一個短期内有點難,但這不妨礙我們教育訓練出來一個211或者985的大學大學生,他的場景目标很現實,就是直接訓練垂直業務。

因為你用GPT就會發現很多問題它貌似能回答,但缺乏行業深度,因為它太通用了。如果把大語言模型看作一種生産力工具的話,我非常堅信在垂直領域其實很多機會遠遠沒有被表現出來。要是真正完全用ChatGPT4.0看病,開的藥方你敢吃嗎?你真正完全用ChatGPT寫訴狀打官司,那不是會出事嗎?美國有一個例子就是一家公司打造了法律行業的大模型,它不會唱歌、不會寫詩、不會做腦筋急轉彎,但會回答法律問題。

是以,很多企業都需要自己定制的ChatGPT。

駱轶航:随之開發成本、部署成本、訓練成本會降低對麼?

周鴻祎:這事兒已經不是秘密了,因為難度降低了很多,是以還是要感謝開源,各種大模型相當于新鮮的大腦供你選擇,至少短期内将knowhow(知識和認知)變成用資料灌進往裡面進行預訓練,或者根據行業的特點,針對将來行業可能用到的能力進行微調。

訓練的資料和訓練的方法現在一樣重要了,感謝開源生态,這些方法都在逐漸被顯露出來。擁有和部署一個大模型的成本在急劇降低,但要是說大模型目标就是比肩GPT4.0甚至5.0,那投入依然是巨大的,競争依然是激烈的。

三星前不久有員工把公司的機密資料放到ChatGPT上訓練導緻資料洩露,這是一個很典型的例子,無論是國内還是國外都可能就存在資料洩露的問題。現在很多企業試圖訓練自己的GPT,因為他們攢了很多安全内部資料,這些資料是他們的吃飯家夥,能夠拿來去訓練一個通用大模型嗎?不可能。

是以隻能去訓練企業專有GPT,讓大語言模型更了解行業,更了解企業。未來這個市場應該是有非常大的場景和機會。

今天下午我會參加我們公司一個視覺大模型和智能裝置結合的釋出會。大家現在都在談軟體APP,智能硬體的AIoT一直沒有真正實作,大模型真正成為人工智能以後這方面有非常巨大的機會,将是又一個重要的應用場景。

現在的智能網聯汽車,比如特斯拉,要不要用大模型?肯定要,但車的速度很快,需要響應很及時,大模型如果在雲端可能不一定能及時響應,而車上安裝一個大模型成本不會特别高,可能就是一個英偉達3090處理器的成本。

駱轶航:是車要追求精準,大語言模型精準不了。

周鴻祎:是以隻有專有垂直的大模型才有可能解決所謂幻覺的問題。

駱轶航:隻有專有的大模型才不胡說八道。

周鴻祎:大模型胡說八道不是獨有的,大家都有這個問題。舉個例子,你問所有GPT大模型,湯姆·漢克斯演過幾個電影?它最後一定會胡說八道一堆湯姆·漢克斯沒有演過,甚至壓根不存在的電影給你。我對這個知識模糊思考了很久,這是生成式智能算法不可避免的問題,它在模仿人類學習知識的過程中更注重對知識範式的學習,對知識的細節做了很多壓縮,甚至是有損壓縮。

駱轶航:跟人類學習的過程都是反的。

周鴻祎:隻是部分沿用人類的學習過程,對知識模糊的應對必須借助搜尋能力。大模型并不能夠取代搜尋,相反,一個強大的搜尋無論是基于全文檢索還是向量資料庫,能夠對大模型帶來兩個校正。一個就是訓練時間延誤導緻的不知道“今夕是何年”的問題,另一個就是知識模糊,很多可笑的問題如果有搜尋能力做輔助那容易就可以解決,在企業級和專業級大模型上都是如此。

駱轶航:能不能說通用大模型的出現,是為了未來出現更多解決特定問題的小模型?

周鴻祎:對,包括Hugging Face最近出現一些新的計算架構,本身和模型沒關系。有一種思路是主駕駛思路,因為大模型善于了解語言,可以跟人交流,這樣在了解人的意圖以後,大模型可以調用很多其它應用系統或其它小模型。我們幹嘛為什麼一定要讓哈佛出來的有十幾個博士學位的教授來幹所有的事情呢?十幾個不同專業的員工用不同的小模型、不同的訓練方法幹不同的事情才是合理的,最後需要一個大模型把它們協調起來。

這裡還有一個成本問題,維護千億級的大模型,不說預訓練成本很高,就是定期每個季度組織訓練一次,做一些微調,成本都會非常高。如果是做企業專有的垂直模型,可能一個60-70億參數或者100億參數出頭的模型,維護營運成本會非常低,改動起來也會非常快速,是以大模型并不是萬能的。

最近Hugging Face還有一個“Agent”模式,就是有外面的“Agent”調用大模型,完成工作規劃、分解和落地。圍繞大模型有很多程式,也有很多小模型、小應用可以彌補,它們就像膠水一樣粘合在一起。大模型不是萬能的,但通過各種模式合在一起可以取長補短,完成擅長的事情。

大模型确實要比光刻機簡單很多

不要太着急于所謂“大模型生态”

駱轶航:追求某個行業、某個領域資料的精準、資料的回報,落實到應用上面還是小模型更靠譜。

周鴻祎:我們自己訓練大模型過程中發現一個特點,就是資料種類必須非常均勻,摻點文科的,摻點理科的才行,如果最近狂灌實體題就會出現遺忘現象,很多技能會急劇下降,我猜跟訓練過程中内部機率統計的參數變化有關系。

要做一個很大的模型,滿足十個億使用者的長尾需求,一會兒能算高數問題,一會兒能給出人生答案,一會兒能寫一首詩,一會兒能寫寶馬汽車廣告文案這是非常難的。

為什麼我鼓吹力倡中國走大模型之路?可能我不是在一夜之間追上GPT,需要有幾年的時間,但不能說追不上GPT我們的産品就是垃圾,就不做了,不做的話永遠趕不上别人,但達到60、70分甚至80分的水準,在很多垂直領域中,這種弱點就變得不那麼重要了。

駱轶航:打個不恰當的比喻,其實通用的大語言模型更像蘇格拉底和柏拉圖,因為那個時代的先知什麼事情都知道,實體學、數學、化學都懂,包括亞裡士多德,我們期待對人類更有用的模型可能是錢學森、袁隆平,就是在具體領域非常專精的。

周鴻祎:我說的比你還極端,大模型就像當年個人電腦,它本身是通用架構,加上不同的軟體、不同的環境,可以幹很多事情。

我覺得今天不要太着急這個Ecosystem建構大模型的生态環境,因為現在大家對大模型怎麼做的都還沒有搞弄清楚,你指望生态系統直接出來直接考慮做生态系統?我覺得有點太着急了操之過急了。

現在大家連釋出都還沒正式釋出,隻有釋出以後。這裡還大模型的應用不隻是在to C的場景,另外我個人覺得大家也要關注大模型在to B領域的應用。像你這樣研究prompt,研究大模型的,門檻和難度還是比較高的,盡管個人消費者也可以用它來但分析一個上市公司的年報,讀一篇論文,個人消費者也可以使用,但普通使用者真的會用嗎?大多數人沒有這種學習的欲望和分析的需求的。

大模型最大的意義就是作為企業、國家、行業提高生産力的工具。

我想給品玩一個建議,其實品玩沒有必要做。

駱轶航:是品玩沒有必要做大模型還是品玩都沒有必要做了?

周鴻祎:沒有必要做模型,隻要打造一個駱轶航的個人GPT就好了,上面挂一個360行車記錄儀,每天去哪裡全部記下來,站在台上的一個小時,全部都數字化記下來,把這些資料全部連結訓練兩年,就能訓練一個專有的駱轶航版本的GPT,訓練兩年。

《流浪地球2》就描繪了數字影像,把你的人生拷貝在U盤裡面,然後插在一台超級計算機,電影裡好像叫W500。我剛開始想這不是鬼話天方夜譚嗎?等我看到GPT後就發現這是完全有可能的,哪一天我把你“幹掉”以後,你不就永生了?因為我們還是可以跟你的資料分身進行交流,你的資料分身可以站在台上滔滔不絕地回答我的問題。

駱轶航:你甯願看到我的分身也不願意看到我本人是嗎?回到剛才的問題,你還是沒回答國内更看好誰做大模型。

周鴻祎:你問我更看好哪個GPT,我覺得我看好的都不重要,所有公司都有自己的優點,特别是中國網際網路公司為什麼都要自己做?第一難度沒有那麼高,第二代表着人工智能的未來,是以不是用了别人的API就可以的,必須要對别人有所了解。

GPT優先解決要NLP(自然語言處理)問題,NLP是所有人工智能皇冠上的明珠,誰參玩透了語言的了解誰就真正了解了這個世界,成為未來其它人工智能任務的底座。OpenAI最大的創新和指明的道路,就是把所有文本序列當成一個sequence(序列)進行猜測和預測,是以現在處理視覺、處理聲音,大體也都是這個思路。用大模型做多模态效果要比原來的CNN(卷積神經網絡)和DNN(深度神經網絡)的玩法先進很多。

如果我們把所有東西都看成序列,那麼從機器人到自動駕駛,都有可能用大模型結合其它模型形成技術上的突破。DeepMind對蛋白質的分析,甚至人類對基因序列的分析,大模型算法都有可能幫助形成突破,因為基因序列也是一種序列啊。!甚至,大模型工具在将來可能變成數學家、實體學家手裡的工具,幫助人們研究前沿科技。

駱轶航:現在大家都在講生成式Generative生成式人工智能,或者是Predictive預測式人工智能,它們的背後都是一套通用的大模型底座是嗎?

周鴻祎:對。目前網上出現的很多開源給的已經不是一個“幹淨”的東西,而是經過預訓練很多資料集,能力雖然不高,但General知識是有的,剩下就是交給自己微調,就像往專業方向發展。最近國内也有開源的趨勢,是以我覺得還是得感謝開源。

駱轶航:您覺得現在開源的趨勢怎麼樣?最近也有很多中國開發者是在開源社群裡面,但還有哪些方面做得不夠?

周鴻祎:國外的想要開源是因為這是展現了市場經濟條件下的人多力量大,聚集更多的人,因為靠一家公司、一個團隊支撐不了。我覺得Meta的LLAMA系列的發展就是互相刺激,可能一個開源項目隻有40分,但刺激你一下就會做到60分,另外一家可能做到80分,國内還沒做到是習慣把開源改一改自己用。

駱轶航:不再把自己的成果傳回給開源Community。

周鴻祎:可能需要一個過程。

我覺得三個月都像過了三十年

駱轶航:因為大語言模型的出現,General AI這樣的人工智能出現,您認為未來五年會發生什麼?

周鴻祎:怎麼總是想那麼長遠的事情?我覺得三個月都像過了三十年。

其實作在我的政策非常清楚,再牛的人也要符合大勢,中國的大勢就是産業數字化,網際網路數字化的公司在裡面其實是配角。我覺得360就是做好兩件事情:一個是數字安全,光是網絡安全不夠,要有資料安全。另一個是人工智能安全,這是最複雜的,也是現在大家最關心的。我們國家可能也有很多政府部門關注這些事情,今天還回答不了人工智能産生意識以後變成新的物種會不會造成大規模的社會問題。

我認為人工智能的意義不亞于電腦和網際網路,是一場新的工業革命,也是數字化的頂峰。大家好不容易上雲有了大資料,但這不是數字化的終結,得把大資料轟灌到大模型裡,變成一個通用的智能服務才能像電一樣賦能百行千業。

360現在所做的各種場景都值得用人工智能重做一遍,是以會把存量和增量的場景都做一遍。

駱轶航:不光是存量,增量也有很多。

周鴻祎:就是打造企業級、行業級的GPT,包括面向中小企業的GPT。直接給到中小企業大模型他們是不會用的,必須經過SaaS化的包裝,是以就是安全和數字化兩條腿。

謝謝你給我的這點廣告時間。

駱轶航:廣告時間還是要給的,但今天還是更感謝周總,時隔幾個月疊代得這麼快,已經迅速地從對大語言模型的迷思中走出來。美國人要談民主化人工智能、民主化大語言模型,如果我們也套用他們的話,最重要的就是讓每個人都能夠用對自己真正有用、讓每個開發者用得真正更簡易,每個想搭建自己模型的人,真正搭建符合自己企業、産業、行業需要的模型。

周鴻祎:這就是科技平權,我一直在思考GPT這種大語言模型究竟能夠帶來多大變革?我們這一代人跟英偉達黃仁勳黃老闆一樣,四十年前經曆了PC的問世,你會發現電腦被發明的時候是沒有帶來産業革命的,就算再強大,它隻是軍隊研制核武器的工具,是氣象局預報天氣的工具,是政府做人口統計的工具,跟普通人沒有關系。

什麼時候産生工業革命?其實就是科技平權,PC走進千家萬戶。手機也是一樣,因為智能手機,今天一個流浪漢也任何人都能拿出手機刷短視訊,找你刷二維碼付費。一個東西多有力要看是不是能夠滲透到千家萬戶、百行千業,原來大資料不具備這個能力,。品玩公司可能也有大資料,但想直接利用的話很難,需要有人幫你分析。

大語言模型解決了利用大資料、分析大資料的問題,創造了一種通用人工智能的問答能力甚至寫作能力、讨論能力,這種通用能力使得跟行業無關,能夠賦能百行千業,賦能千家萬戶,我認為這絕對是工業革命級的發明。

駱轶航:最後扯一個小閑天您怎麼評論黃仁勳目前的生意和英偉達萬億市值?

周鴻祎:這個我很難評價,我跟老黃最熟的時候是他最失意的時候,那個時候他一直在為英偉達的微電子晶片找出路,當時英偉達試圖進軍移動市場,但是他的手機晶片實在是太熱了,熱到發燒。

我那時和一個創業者一起想要用晶片做家用遊戲機,進入console game(搖桿遊戲)這個市場,于是就跑到矽谷去見老黃了,老黃很重視這件事情,請我吃牛排大餐,但事實證明,console game是非常獨特的市場,曆史上隻有索尼和微軟和任天堂成功了。

老黃其實有一段時間業務很迷茫,希望給業務尋找出路,是以對來自中國的兩個創業者也表現出很大的尊重和尊敬。我認為老黃今天的成功不是運氣,而是靠堅持得來的。按照我設想的情況,以後大模型無處不在,如果都需要英偉達的機器,需求當然是很大。

過去幾年我們都在建立超算中心,但很多超算中心都閑置,因為它無法做通用計算任務,缺乏一個通用計算架構,如果都換成英偉達的A100或者A800,保證大概生意會好得多,因為全世界對英偉達的需求還是非常旺盛的。