天天看點

商湯科技聯合創始人楊帆:大模型浪潮帶來的AI産業發展新機遇|WISE2023颠覆AIGC産業發展峰會

作者:36氪

5月23日,36氪舉辦「颠覆·AIGC」産業發展峰會。本次峰會彙聚産業力量,共同探讨企業、行業在面臨變革時的應對政策,分享思考,探索和發現産業中最具潛力的企業與最具價值的技術,在激蕩的環境中探尋前行的方向。

大會上,商湯科技聯合創始人、大裝置事業群總裁楊帆發表了題為《大模型浪潮帶來的AI産業發展新機遇》的主題演講。楊帆認為,新一輪AI浪潮有兩個特點:一是從技術突破到商業模式創新的周期更短,技術成果被更快地用于商業和産業探索、實踐;二是相較于過去十年,目前的人工智能産業化更容易将技術優勢轉化為資料壁壘和規模優勢。

對人工智能技術能取得突破性進展的原因,楊帆也發表了自己的看法。他認為,盡管大模型的成功仍然印證了人工智能的“資料、算力、算法”暴力美學,但這三要素背後實際上是一個綜合系統工程。以OpenAI為例,楊帆指出,如何做好資料工程,如何提升晶片的有效資源使用率,如何設計更低成本但結構優良的算法,每一個環節都需要專家經驗知識和系統工程能力支撐。在他看來,這是模型層企業核心基礎技術能力積累的最終展現,也是向市場提供AI基礎設施服務的關鍵能力。

以下為楊帆演講實錄(經36氪整理編輯):

大家好!很榮幸今天能夠在36氪的活動和大家一起交流大模型的一些産業趨勢。

在這樣一個産業極度變化期,我分享幾個觀點。首先,我們今天講大模型,是沒有被精确定義說法的,到底是千億較大,還是百億較大?在我看來,人工智能從2012年到現在,過去十幾年,模型結構一直在變大,參數量也一直在變大,為什麼現在大家好像突然有了一個概念,引爆更多的關注熱點?我們可以看到,在2016年以AlphaGo為代表的新應用,和個人消費者之間有一個強關聯,最近兩年,人工智能技術取得了新的進展和突破,首先這些進展、突破和每個人更直接相關,大家能夠直接感受到它,第二這些突破确實形成了更大的影響力,我覺得人工智能可以完成一些其他學科在科研領域裡的創新工作,不管是生物、實體、化學,還是其他領域,比如:今天大家所關注的ChatGPT模型,就很有意義,因為它有可能驅動我們整個底層的科技,産生新的進步。這樣新的進步有可能在未來給人類帶來更多的增量。

從2021年開始,陸陸續續産生比較多的技術突破,同時我們看到一個很有意思的現象,這輪技術突破從技術形成一定的成果後,我們開始到産業、商業上做探索和實踐,這個周期變得比原來更短。在此之後,國内外有大量的創新公司成立,教授、學者開始創業,我覺得可能過去市場上對此已有一些路徑,投資人的認可度也變得更高,包括一些文生圖的API公布後,很快就有人在小紅書上做網紅嘗試。

我們看到很多趨勢,從技術突破到商業化創新,這個周期似乎更短。在最近參加的一些論壇裡面,我發現大多數人都在講,想要做一個什麼樣的大模型,模型有多大,有多厲害,要拿這個模型做什麼事情,在某些特定場景下去打造一個超級新的APP,等等。在中國現在還沒有任何一個大模型得到政府監管正式API許可的情況下,在最近兩個月的時間内就有這樣一個很大的擴張變化。

是以我覺得這是一個更值得我們去關注的現象,我們看到這輪大模型的商業化程序更快,為什麼會産生這樣的效果?很重要的一點是我們看到很多新技術,可以做更多C端應用,與此同時,可以天然形成資料積累閉環,這比起過去技術性創業更加容易建立起商業壁壘。我覺得這是我們看到的最近幾個月在産業方面的趨勢。

商湯科技聯合創始人楊帆:大模型浪潮帶來的AI産業發展新機遇|WISE2023颠覆AIGC産業發展峰會

商湯科技聯合創始人、大裝置事業群總裁 楊帆

第二,是我們今天做大模型技術背後的東西。大家有一個共識,不管是大模型,還是回顧過去10年,整個人工智能産業發展變遷,基本上都是一個暴力美學的成功,包括人工智能的傳統三要素:資料、算力、算法。算法,大家可以了解成模型結構,今天我們所謂的這些大模型,或者技術上取得更新成績的模型,幾乎所有的模型在每個領域不管是資料集尺度所使用的算力規模,還是算法本身的結構,以及模型的參數量,其實都保持着非常高的增速,Transformer這個模型非常穩定,效果非常好,可以解決很多領域問題,并能得到很好的結果。當我們發現資料量足夠多,可以拿到很好泛化性的結果時,其實在某種意義上,也更加驗證了人工智能技術的進步大方向就是暴力出奇迹,把更多資源整合起來就可以拿到更好的結果。

但是,光有這樣一個資源,其實是遠遠不夠的,我們去看對應的三要素,每個要素在形成好的結果之前,在每個領域都要做大量的專業工程實踐。

其實剛才嘉賓的演講就解釋了在算力領域,為什麼我們需要大算力,這些大算力怎麼連起來?如果今天有1000塊卡,我們是不是能讓它們發揮出好的成本效益,是不是有效使用率能做到60%、80%,甚至90%?再或者,如果我們今天連了1000塊,2000塊、4000塊卡,又會是什麼樣的效果?OpenAI之前連了一萬塊V100,目前國内還沒有人可以把一萬塊卡連在一起去跑同一個訓練任務,并使有效資源使用率達到50%、60%以上,現在可能有些人正在做,但還沒有這樣的成績,為什麼?其背後就是非常複雜的工程事件。比如:一個千億參數量的模型,在訓練時需要做大量資料互動和中間梯度資訊互動,當你把分在成千上萬塊GPU卡上的大量傳輸資料和運算結果傳輸之間形成有效平衡,很多時候模型是在點對點之間進行,在網絡結構上要做兩兩傳輸。我們把成千上萬塊卡連在一起時,效果有一個怎樣的可接受狀态,這背後其實也不複雜,就是大量的工程實踐,就像你幹過這件事,你踩過足夠多的坑,就會比别人調的更好,這個事情就是很重要的經驗問題。

算法也一樣,今天的算法結構設計可以比原來成本更低。結構設計的好,用更少量參數、更小資料就可以達到類似一個設計不做特别優化的最終算法效果,這中間也存有大量專家知識,資料就更不用說了。

OpenAI做ChatGPT4的時候,最後在收集到的資料中隻取了中間可能不到10%的很小一部分做訓練,這對于資源節省和全量訓練的差距非常大,網際網路量資料非常大,到底哪些資料更加有效,哪些資料有更高蘊含價值?我們在做訓練的時候,先丢哪些資料,後丢哪些方式,這個中間其實也都有大量試錯。為什麼算力這麼緊缺,大家需要拿更多算力?因為做大模型的很多人在試錯,可能同時分三四個小組,在不同方向上試錯,然後再逐漸做疊代優化,暴力美學或者規模化資源聚集是今天能夠讓AI技術、AI算法能夠持續取得的原因。

更重要原因,是我們在每一個環節上,需要一些專家的經驗知識和系統的工程能力,其實是一個綜合系統工程。這也是看到OpenAI讓最優秀的科學家去做資料工程,而不是去做算法,這極大的超出了我們以往對于領域的認知,在未來,這可能會成為一個關鍵性的門檻,也會成為我們給市場提供服務的核心能力。

為什麼在人工智能新技術出來以後,産業浪潮跟進的非常快,我們看到模型服務天然符合很多領域,網際網路圈的人非常激動,投資人覺得它會像網際網路一樣飛速增長。大模型在商業化的門檻和壁壘上能夠有一些更新的機會,當然這些機會的獲得取決于不同的差距和特色特長。無論如何,相比過去10年,如今的人工智能産業化會有非常大的優勢,因為不是單一技術壁壘,今天的技術優勢是有可能轉化成資料壁壘和規模優勢,我們相信在未來會有更多的産業應用。

商湯科技聯合創始人楊帆:大模型浪潮帶來的AI産業發展新機遇|WISE2023颠覆AIGC産業發展峰會

商湯科技聯合創始人、大裝置事業群總裁 楊帆

商湯從2019年開始做早期的大模型,在我們看來,整個AI模型其實一直處在越來越大的狀态,是以我們内部積累了大量能力,包括自研了一些CV、NLP的模型。在今年4月份,商湯把一些模型的API開放出來,給産業夥伴試用,包括一些大語言類的模型,在我們看來,這更多是核心基礎技術能力積累的最終展現。

我們今年釋出了一系列的模型,為市場提供服務支撐的背後是我們的大裝置,我們覺得,人工智能整個産業往前走,需要有人提供這樣大規模的高效率的基礎設施,這基本是一個必然路徑。整個AI技術浪潮,未來如果變成越來越多資源消耗加專家經驗累計的遊戲的話,其實門檻極高,是不利于AI被産業大量快速應用的,是以我們判斷勢必會形成分化,一定會有人提供基礎設施服務,不管是調用模型API形式,還是在此基礎上做小模型的方式,再或者以其他的方式,都可以低門檻、低成本的快速使用AI基礎性的資源和能力,進而快速完善自己的商業模式閉環。

商湯大裝置的定位就是做AI基礎設施提供者,今天我們有全亞洲最大的人工智能的計算節點,我們擁有超過5000P的資源算力,也提供非常多的業界合作,讓合作夥伴們能夠使用他們的大模型在大裝置上做訓練,這展現了商湯的深厚積累,不管是在資源層面還是在專家工程認知層面,我們的能力一部分可以标準化,變成軟體和服務,不能标準化的部分,我們可以把它變成專業類型分類服務,我們希望把這些能力打包提供給整個行業,幫助客戶做好屬于自己的領域模型或模型應用。

訓AI大模型,用商湯大裝置。

整理|沈筱

繼續閱讀