天天看點

PandaGPT:新一代跨模态AGI智能正式來襲!→→→→→#未來科技社#→→→→→近日,來自劍橋、NAIST和騰訊AI

作者:未來科技社

PandaGPT:新一代跨模态AGI智能正式來襲!

→→→→→#未來科技社# →→→→→

近日,來自劍橋、NAIST和騰訊AI Lab的研究者推出一款名為PandaGPT的跨模态語言模型,具有在人工智能領域的創新嘗試。這項技術結合了ImageBind的模态對齊能力和Vicuna的生成能力,可以處理六種模态下的指令了解與跟随能力。雖然PandaGPT的效果還有提升空間,但是,它展示了跨模态AGI智能的發展潛力。

PandaGPT通過将ImageBind的多模态編碼器與Vicuna大型語言模型結合使用,實作了六種模态下的指令跟随能力。它可以同時接收多模态輸入,并自然地組合它們的語義。PandaGPT結合了多模态信号處理和自然語言處理的技術,可以完成諸如生成詳細的圖像描述、根據視訊編寫故事以及回答關于音頻的問題等複雜任務。

在訓練過程中,PandaGPT使用了共160k基于圖像的語言指令跟随資料作為訓練資料。每個訓練執行個體包括一張圖像和相應一組多輪對話。PandaGPT隻更新了ImageBind編碼結果上新增的線性投影矩陣以及Vicuna的注意力子產品上添加的額外的LoRA權重。兩者參數總數約占Vicuna參數的0.4%。訓練函數為傳統的語言模組化目标。

在實驗中,PandaGPT展示了對不同模态的了解能力。與其他的多模态語言模型相比,PandaGPT最突出的特點在于,它能夠了解并将不同模态的資訊自然地組合在一起。

雖然PandaGPT在處理多種模态及其組合方面具有驚人的能力,但是,當處理其他模态資訊時,存在一些問題需要解決,例如,維護對其餘模态的細粒度資訊量等。是以,為了提高性能,PandaGPT未來的發展方向需要跨模态注意力機制等細粒度特征提取的研究,并需要新的基準測試來評估多模态輸入的組合能力,同時,也需要在生産環境之前進行進一步完善。

→→→→→#未來科技社# →→→→→

圖釋:圖一,PandaGPT能了解圖檔内容。圖二,視訊了解。圖三,視訊+音頻。圖四,圖檔+音頻。原文是英文,請忽視我的翻譯水準[狗頭]

PandaGPT:新一代跨模态AGI智能正式來襲!→→→→→#未來科技社#→→→→→近日,來自劍橋、NAIST和騰訊AI
PandaGPT:新一代跨模态AGI智能正式來襲!→→→→→#未來科技社#→→→→→近日,來自劍橋、NAIST和騰訊AI
PandaGPT:新一代跨模态AGI智能正式來襲!→→→→→#未來科技社#→→→→→近日,來自劍橋、NAIST和騰訊AI
PandaGPT:新一代跨模态AGI智能正式來襲!→→→→→#未來科技社#→→→→→近日,來自劍橋、NAIST和騰訊AI

繼續閱讀