智東西
編輯 | GTIC
智東西4月10日報道,在剛剛落幕的GTIC 2023中國AIGC創新峰會上,中國科學院自動化研究所研究員&博士生導師、武漢人工智能研究院副院長張家俊進行了主題為《紫東太初大模型——認識世界,了解世界》,基于“紫東太初”大模型,他解讀了其是如何整合資源、并進一步探索通用人工智能産業化路徑的技術奧秘。
張家俊談道,深度學習預訓練大模型效果不斷提升。當下,通過自監督學習條件下“大資料+大模型”方式,多模态大模型初現“多專多能”,在小樣本學習、自然語言問答、跨模态生成等方面快速進步。大模型帶動了創新潮,但其能耗和成本極高,認知能力與人相比仍有很大差距。
“紫東太初”是中科院自動化所團隊推出的全球首個千億參數多模态大模型。張家俊稱,這一模型支援Token級别、模态級别與樣本級别的多任務自監督學習,多模态弱關聯資料在512卡訓練128天,同時實作模态了解與模态生成統一模組化。“紫東太初”支援以文搜圖、以圖生音、以音生圖等跨模态檢索與生成執行個體,比如輸入一個真實圖像,紫東太初就能生成個性化的3D形象。
目前,團隊已推出了紫東太初開放服務平台1.0、紫東太初·洛神1.0 AIGC智能生成平台,并整合産學研用各方資源搭建人工智能開源開放生态,探索通用人工智能産業化路徑。
以下為張家俊的演講實錄:
大家上午好!我是自動化所張家俊。
首先解釋一下,我個人從事的是自然語言處理和機器翻譯相關的研究。大模型來了之後,實際上從2020年GPT-3出來之後,我就參與了自動化所發起的多模态大模型項目,我主要負責語言這一塊。今天我作為一個參與者,跟大家分享一下自動化所大模型相關的情況。
一、大模型正在從單模态有監督,邁向多模态自監督學習
大模型出現之前,基本上模型的能力都是單一的,而且需要依賴于大量的标注資料,而且泛化能力非常差。
大模型來了之後,基于其大的資料、大的模型,很多種比如自然語言處理、語音識别、計算機視覺等任務得到了非常大的改善。我們現在也會發現,模型參數量也在不斷提升。我們不知道GPT-4是多少參數量,但肯定是千億以上,不會比ChatGPT還少。
不管是圖像還是文本,單一模态大模型采用的是非常好、非常自然的訓練目标,也就是自監督訓練,圖像我們可以通過重構方式,文本可以通過下一個單詞預測的方式。而現實世界是一個多模态環境,在多模态環境當中又該如何去進行訓練或者設計它的目标?另一方面,多模态環境下如何從之前的“一專一能”方式過渡到“多專多能”的模型或者架構,現在實際上很多認知能力與我們期待的還很遙遠。
正如剛才提到的,一方面從文本到多模态實際有很多挑戰,但是我們生活在這樣一個多模态的環境當中,是以我們有必要去進行探索。
是以,當2020年GPT-3釋出之後,我們就認為多模态必将是一個未來的方向,我們現在也看到GPT-4已經可以處理圖文輸入和了解輸入。
二、具備部分類腦特性,初現“多專多能”
我們當時在做的時候,就一直在考慮應該如何設計,将不同模态放在一個模型下面進行學習。我們提出了三個層級的多模态訓練方式,比如從詞源token級别、模态級别與樣本級别,我們也提出了語義弱關聯多模态學習方式,這樣就可以進行多模态了解和跨模态互相生成,進而完成各種各樣跨模态的任務,多模态的了解、分類,跨模态的檢索,多模态之間的互相轉換生成。
這些是可以完成的功能,那麼具體來說,我們如何去實作的?
右下角可以看到,它不是像GPT這種的單一解碼器(Decorder),我們發現如果你的資料特别多、模型特别大的時候,像GPT-3.5或者GPT-4可以對文本資料和圖像資料進行統一融合。
但是當模型沒有那麼大,我們可能考慮模态之間融合時就需要設計不同的政策。
是以當時我們提出了對不同的模态進行分别編碼,同時在上一層設計一個跨模态編碼。其餘各自的模态比如文本模态、圖像模态、語言模态分别有一個解碼器。
這樣的模式看起來像是一個內建模型,但是它有一個非常好的地方是你可以通過不同的模态進行分别優化,且不影響其他模态的功能。我們針對此做了一些優化,語言方面,我們可以直接優化語言底部的解碼器,不影響文本和圖像的分辨結果。
多模态的通用模型針對任何任務的處理方式都相同,但實際上不同的任務應該有針對性地去處理。是以我們提出了任務感覺的訓練方式。如果大家用過ChatGPT就會發現,不同的提示會産生不同的結果。那麼,我們能不能針對不同的樣本生成合适這個樣本的提示?是以我們生成一個樣本級的提示學習方式,可以面向特定樣本生成适應這個樣本的提示。
在語音層面,我們可以隻優化語音,例如将語種識别、端點檢測各種語音相關的功能融合在一個任務下,同時語音的優化又不影響文本、圖像,優化之後可以得到語音方面非常好的結果。
在視覺方面也是一樣。例如針對視覺如何進行無監督學習,我們提出了視覺掩碼自監督模型,一方面是通過注意力動态掩碼保留關鍵區域,第二步通過解碼恢複掩碼,和語言裡面的BERT非常相似。
經過這樣簡單的操作之後,我們就可以在很多任務上得到最好的性能,比如在目标檢測和執行個體分割上,就可以超越任務特定的預訓練模型精度。
在不同的模态仿真訓練中,當模型特别大時,有模态資訊,還有大量參數,如何保證它快速、穩定地學習是非常關鍵的因素。是以,我們在這種學習過程中提出了一些方案,例如基于空間通道稀疏化的多模态大模型,這種方案可以将空間資訊和通道資訊分割開來,就可以得到優化20%到35%的浮點運算。
此外,在穩定性方面,我們在訓練時發現當批處理變得特别大之後,學習率的線性尺度原則就會失效。針對這個問題,我們提出了周期性矩衰減優化的方案。學習率通過逐層動态調整,周期性清零梯度資訊,擺脫曆史梯度影響,進而加速網絡快速收斂。收斂的速度相比之前能提升30倍。
這樣的方法一方面可以保證訓練的快速,另一方面保證訓練的穩定性。
很多時候,當我們在國産化的平台上訓練,比如基于昇騰多元混合并行的訓練,很多時候我們會和昇思MindSpore共同研發,因為2021年,MindSpore的很多功能沒有十分完善,在其對大模型的較好支援下,我們在訓練時可以在這個基礎上去不斷優化算子。
同時,大模型在預訓練階段學習到了很多先驗的知識,這些先驗的知識對于長尾現象有很多輔助作用,比如可以将其遷移到長尾資料集,可以更容易學習尾部的圖像類别特征表述。
經過文本、語音、視覺上的針對性優化之後,我們很多千億三模态大模型在跨模态檢索、視覺問答、圖像語義描述等上實作非常好的性能,這些任務在2021年基本達到了State-of-the-art(最高水準的)。
例如在2021年,基于預訓練模型的視覺描述競賽中,紫東太初大模型得到第一名,并且在大規模視訊場景了解比賽中也獲得第一名。
下圖是一些案例,我們訓練多模态大模型之後會産生一個什麼樣的結果。
剛才我們提到不僅有文本、圖像,我們知道目前大多數呈現出來的是文生圖或圖檔、文本之間的模型,那麼我們把語音加進去,可以直接讓沒有聲音的圖檔和視訊生成語音播報。例如,一個沒有聲音的圖像或者視訊可以直接生成一鍵語音播報。這看起來似乎是直接從圖像到文本再到語音,實際上我們跳過了文本環節,直接由圖像或者視訊生成語音,也可以由語音生成圖像,或者由語音生成視訊。
以文生圖為例,很多模型都有這樣的能力,這裡簡單展示一下我們也有這樣的能力,可以生成風格多變的文生圖能力。
我們從2020年10月開始做這件事情,2021年7月釋出了第一版多模态大模型。2022年,“紫東太初”獲得大規模預訓練模型優秀應用案例獎,中國算力大會先鋒案例獎,以及世界人工智能大會SAIL獎,也是世界人工智能大會的最高獎。
三、打造開放服務平台1.0,一鍵完成采集、訓練、部署
剛才介紹了多模态大模型的研制過程和各個模态針對性的優化,以及優化之後能達到的水準。當達到這個水準之後,我們希望基于此開發一套服務平台,讓這樣的模型能夠服務于千家萬戶,讓多模态模型的利用和部署變得非常簡便。
是以,我們依托紫東太初大模型,開發了紫東太初服務平台,現在是1.0階段。我們希望這個服務平台能夠一鍵完成資料采集、模型訓練到模型的部署。這樣的話,可以大幅節省人力,從幾個月的訓練時間縮短到幾天、一周的訓練時間。
有了智能化的标注平台,使用者不僅可以在上面進行标注,而且可以根據模型來不斷疊代。有了模型之後,我們可以根據訓練模型來發現還需要标注哪些樣本,通過這樣的主動學習,可以加快資料的标注過程。
為了實作一鍵微調,開發者可以選擇各種各樣的開發工具,可以選擇主流的開發平台,也可以選擇異構資源的統籌,我們可以統籌如昇騰、GPU等各種異構算力,同時可以支援分布式訓練,并且訓練過程還可以可視化。我們支援可視化模組化、互動式模組化、自動學習、自定義任務等的可視化。
對于一鍵部署,這個平台可以覆寫資料的搜集、模型的訓練再到模型的部署。實際上就是說,我們可以先導入訓練任務,然後再把本地的資料或者相關的資訊進行導入,最後選擇相關的模型再進行微調,就能得到最終适應使用者目标或者任務的應用部署。
并且這一服務平台裡有很多語音、文本、圖像、視訊的算法庫,不需要使用者進行訓練,可以直接拿來內建使用。
在這個平台上,我們最近開發了洛神1.0圖文生成平台。洛神1.0可以替代傳統的數字生成技術,實作數字人的快速批量生成。它可以完成自動驅動和使用者之間互動,能夠幫助使用者完成數字人的自動化生成。
下面是一個例子,比如它可以進行個性化虛拟人生成。開發者選擇一個形象之後,就可以通過語音方式驅動生成視訊。而且可以按照自己的需求自定義,選擇一個形象之後,你可以将其變成三維形象,再選擇其它的形象進行融合,将文本或者需要生成的内容輸入進去之後就會按照你的需求進行相應的生成。現在數字人進行簡單的播報越來越真實化。
在算法研究、模型開發和平台研制基礎上,我們在推動多模态産業聯盟的成立,目前在紫東太初架構下面有41家成員,我們希望整合産學研用各方資源,來打造多模态人工智能行業應用,希望探索通用人工智能産業化的道路。
四、已應用于醫療、文旅、公益等,打造差異化AGI道路
我們為模型打造了開發開放平台,同時我們已經用這樣的模型在各種各樣的下遊任務當中得到了非常好的應用,比如在智慧醫療、社會公益、智慧文旅等方面已經有了各種各樣的應用。
這裡面因為時間關系就不一一介紹,我介紹其中的一個應用,就是手語教考一體機。
這是一個非常有意思的應用,例如《新聞聯播》、《新聞30分》節目的右下角都會有手語形象,但很多時候聾啞群體或者聽障群體會有歧義,沒辦法知道手勢代表什麼意思,那如果我們給出手勢的同時給出多模态的圖像視訊展示,這樣立馬就能夠讓聽障人士感覺到并快速發現他應該在說什麼,在表達什麼樣的含義。這樣多模态的應用是非常有意思,也是非常好的方面。
還有在智慧交通、智能制造方面的應用,我們打造了一個文旅多模态場景“南宋禦街”,使用者可以通過VR方式和各種各樣的曆史環境、曆史人物進行互動。
我們也會把它應用到媒體,特别是多媒體内容的安全審查上面。
這兩年來我們的模型也得到央視新聞、人民網等媒體的一系列報道,我們也還在不斷努力。可以看到GPT正在不斷地突破人們的想象,從GPT-4到周老師剛剛介紹的GPT和各種各樣插件的融合。
我們在不斷追趕,不斷打造差異化的通向通用人工智能的道路,目前而言,可能我們的模型不是特别大,不像GPT-4那麼通用,但我認為我們應該追求一個開放的環境,我們希望在各種各樣的産業當中得到更好的應用,希望和大家一起推動通用人工智能的發展。
謝謝大家!
以上是張家俊演講内容的完整整理。