天天看點

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

作者:第一條消息
人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

AGI(通用人工智能)是整個 AI 行業的聖杯。

前 OpenAI 首席科學家 Ilya Sutskeve 在去年曾表達過一個觀點:「隻要能夠非常好得預測下一個 token,就能幫助人類達到 AGI。」

圖靈獎得主、被稱為深度學習之父的 Geoffrey Hinton,OpenAI CEO Sam Altman 都認為 AGI 會在十年内,甚至更早的時間降臨。

AGI 并非終點,而是人類發展史一個新的起點。在通往 AGI 的路上要考慮的事情還有很多,而中國的 AI 行業也是不可忽視的一股力量。

在 4 月 27 日召開的中關村論壇通用人工智能平行論壇上,人大系初創公司智子引擎隆重釋出全新的多模态大模型 Awaker 1.0,向 AGI 邁出至關重要的一步。

相對于智子引擎前代的 ChatImg 序列模型,Awaker 1.0 采用全新的 MOE 架構并具備自主更新能力,是業界首個實作「真正」自主更新的多模态大模型。在視覺生成方面,Awaker 1.0 采用完全自研的視訊生成底座 VDT,在寫真視訊生成上取得好于 Sora 的效果,打破大模型「最後一公裡」落地難的困境。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

Awaker 1.0 是一個将視覺了解與視覺生成進行超級融合的多模态大模型。在了解側,Awaker 1.0 與數字世界和現實世界進行互動,在執行任務的過程中将場景行為資料反哺給模型,以實作持續更新與訓練;在生成側,Awaker 1.0 可以生成高品質的多模态内容,對現實世界進行模拟,為了解側模型提供更多的訓練資料。尤其重要的是,因為具備「真正」的自主更新能力,Awaker 1.0 适用于更廣泛的行業場景,能夠解決更複雜的實際任務,比如 AI Agent、具身智能、綜合治理、安防巡檢等。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

Awaker 的 MOE 基座模型

在了解側,Awaker 1.0 的基座模型主要解決了多模态多任務預訓練存在嚴重沖突的問題。受益于精心設計的多任務 MOE 架構,Awaker 1.0 的基座模型既能繼承智子引擎前代多模态大模型 ChatImg 的 基礎能力,還能學習各個多模态任務所需的獨特能力。相對于前代多模态大模型 ChatImg,Awaker 1.0 的基座模型能力在多個任務上都有了大幅提升。

鑒于主流的多模态評測榜單存在評測資料洩露的問題,智子引擎披露了一個采取嚴格的标準建構自有的評測集,其中大部分的測試圖檔來自個人的手機相冊。在該多模态評測集上,其對 Awaker 1.0 和國内外最先進的三個多模态大模型進行公平的人工評測,詳細的評測結果如下表所示。注意到 GPT-4V 和 Intern-VL 并不直接支援檢測任務,它們的檢測結果是通過要求模型使用語言描述物體方位得到的。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

我們發現,Awaker 1.0 的基座模型在視覺問答和業務應用任務上超過了 GPT-4V、Qwen-VL-Max 和 Intern-VL,同時它在描述、推理和檢測任務上也達到了次好的效果。總體而言,Awaker 1.0 的平均得分超過國内外最先進的三個模型,驗證了多任務 MOE 架構的有效性。下面是幾個具體的對比分析例子。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

從這些對比例子可以看到,在計數和 OCR 問題上,Awaker 1.0 能正确地給出答案,而其它三個模型均回答錯誤(或部分錯誤)。在較長的描述任務上,Qwen-VL-Max 比較容易出現幻覺,Intern-VL 能夠準确地描述圖檔的内容但在某些細節上不夠準确和具體。GPT-4V 和 Awaker 1.0 不但能夠詳細地描述圖檔的内容,而且能夠準确地識别出圖檔中的細節,如圖中展示的可口可樂。

Awaker+ 具身智能:邁向 AGI

多模态大模型與具身智能的結合是非常自然的,因為多模态大模型所具有的視覺了解能力可以天然與具身智能的攝像頭進行結合。在人工智能領域,「多模态大模型+具身智能」甚至被認為是實作通用人工智能(AGI)的可行路徑。

一方面,人們期望具身智能擁有适應性,即智能體能夠通過持續學習來适應不斷變化的應用環境,既能在已知多模态任務上越做越好,也能快速适應未知的多模态任務。另一方面,人們還期望具身智能具有真正的創造性,希望它通過對環境的自主探索,能夠發現新的政策和解決方案,并探索人工智能的能力邊界。通過将多模态大模型用作具身智能的「大腦」,有可能大幅地提升具身智能的适應性和創造性,進而最終接近 AGI 的門檻(甚至實作 AGI)。

但是,現有的多模态大模型都存在兩個明顯的問題:一是模型的疊代更新周期長,需要大量的人力和财力投入;二是模型的訓練資料都源自現有的資料,模型不能持續獲得大量的新知識。雖然通過 RAG 和長上下文的方式也可以注入持續出現的新知識,但是多模态大模型本身并沒有學習到這些新知識,同時這兩種補救方式還會帶來額外的問題。總之,目前的多模态大模型在實際應用場景中均不具備很強的适應性,更不具備創造性,導緻在行業落地時總是出現各種各樣的困難。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

智子引擎此次釋出的 Awaker 1.0,是世界上首個具有自主更新機制的多模态大模型,可以用作具身智能的「大腦」。Awaker 1.0 的自主更新機制,包含三大關鍵技術:資料主動生成、模型反思評估、模型連續更新。

差別于所有其它多模态大模型,Awaker 1.0 是「活」的,它的參數可以實時持續地更新。從上方的架構圖中可以看出,Awaker 1.0 能夠與各種智能裝置結合,通過智能裝置觀察世界,産生動作意圖,并自動建構指令控制智能裝置完成各種動作。智能裝置在完成各種動作後會自動産生各種回報,Awaker 1.0 能夠從這些動作和回報中擷取有效的訓練資料進行持續的自我更新,不斷強化模型的各種能力。

以新知識注入為例,Awaker 1.0 能夠不斷地在網際網路上學習最新的新聞資訊,并結合新學習到的新聞資訊回答各種複雜問題。不同于 RAG 和長上下文的傳統方式,Awaker 1.0 能真正學到新知識并「記憶」在模型的參數上。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

從上述例子可以看到,在連續三天的自我更新中,Awaker 1.0 每天都能學習當天的新聞資訊,并在回答問題時準确地說出對應資訊。同時,Awaker 1.0 在連續學習的過程中并不會遺忘學過的知識,例如智界 S7 的知識在 2 天後仍然被 Awaker 1.0 記住或了解。

Awaker 1.0 還能夠與各種智能裝置結合,實作雲邊協同。Awaker 1.0 作為「大腦」部署在雲端,控制各種邊端智能裝置執行各項任務。邊端智能裝置執行各項任務時獲得的回報又會源源不斷地傳回給 Awaker 1.0,讓它持續地獲得訓練資料,不斷進行自我更新。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

上述雲邊協同的技術路線已經應用在電網智能巡檢、智慧城市等應用場景中,取得了遠遠好于傳統小模型的識别效果,并獲得了行業客戶的高度認可。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora
人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

現實世界的模拟器:VDT

Awaker 1.0 的生成側,是智子引擎自主研發的類 Sora 視訊生成底座 VDT,可以用作現實世界的模拟器。VDT 的研究成果于 2023 年 5 月釋出在 arXiv 網站,比 OpenAI 釋出 Sora 提前 10 個月。VDT 的學術論文已經被國際頂級人工智能會議 ICLR 2024 接收。

人大系多模态模型首次實作自主更新,寫真視訊生成力壓 Sora

視訊生成底座 VDT 的創新之處,主要包括以下幾個方面:

  • 将 Transformer 技術應用于基于擴散的視訊生成,展現了 Transformer 在視訊生成領域的巨大潛力。VDT 的優勢在于其出色的時間依賴性捕獲能力,能夠生成時間上連貫的視訊幀,包括模拟三維對象随時間的實體動态。
  • 提出統一的時空掩碼模組化機制,使 VDT 能夠處理多種視訊生成任務,實作了該技術的廣泛應用。VDT 靈活的條件資訊處理方式,如簡單的 token 空間拼接,有效地統一了不同長度和模态的資訊。同時,通過與時空掩碼模組化機制結合,VDT 成為了一個通用的視訊擴散工具,在不修改模型結構的情況下可以應用于無條件生成、視訊後續幀預測、插幀、圖生視訊、視訊畫面補全等多種視訊生成任務。

智子引擎團隊重點探索了 VDT 對簡單實體規律的模拟,在 Physion 資料集上對 VDT 進行訓練。在下面的示例中,我們發現 VDT 成功模拟了實體過程,如小球沿抛物線軌迹運動和小球在平面上滾動并與其他物體碰撞等。同時也能從第 2 行第 2 個例子中看出 VDT 捕捉到了球的速度和動量規律,因為小球最終由于沖擊力不夠而沒有撞倒柱子。這證明了 Transformer 架構可以學習到一定的實體規律。

他們還在寫真視訊生成任務上進行了深度探索。該任務對視訊生成品質的要求非常高,因為我們天然對人臉以及人物的動态變化更加敏感。鑒于該任務的特殊性,研究人員需要結合 VDT(或 Sora)和可控生成來應對寫真視訊生成面臨的挑戰。目前智子引擎已經突破寫真視訊生成的大部分關鍵技術,取得比 Sora 更好的寫真視訊生成品質。智子引擎還将繼續優化人像可控生成算法,同時也在積極進行商業化探索。目前已經找到确定的商業落地場景,有望近期就打破大模型「最後一公裡」落地難的困境。

視訊加載中...

未來更加通用的 VDT 将成為解決多模态大模型資料來源問題的得力工具。使用視訊生成的方式,VDT 将能夠對現實世界進行模拟,進一步提高視覺資料生産的效率,為多模态大模型 Awaker 的自主更新提供助力。

結語

Awaker 1.0 是智子引擎團隊向着「實作 AGI」的終極目标邁進的關鍵一步。智子引擎告訴 APPSO,團隊認為 AI 的自我探索、自我反思等自主學習能力是智能水準的重要評估标準,與持續加大參數規模(Scaling Law)相比是同等重要的。

Awaker 1.0 已實作「資料主動生成、模型反思評估、模型連續更新」等關鍵技術架構,在了解側和生成側都實作了效果突破,有望加速多模态大模型行業的發展,最終讓人類實作 AGI。

繼續閱讀