PandaGPT：新一代跨模态AGI智能正式來襲！→→→→→#未來科技社#→→→→→近日，來自劍橋、NAIST和騰訊AI

2023-06-05 17:39:00

PandaGPT：新一代跨模态AGI智能正式來襲！

→→→→→#未來科技社# →→→→→

近日，來自劍橋、NAIST和騰訊AI Lab的研究者推出一款名為PandaGPT的跨模态語言模型，具有在人工智能領域的創新嘗試。這項技術結合了ImageBind的模态對齊能力和Vicuna的生成能力，可以處理六種模态下的指令了解與跟随能力。雖然PandaGPT的效果還有提升空間，但是，它展示了跨模态AGI智能的發展潛力。

PandaGPT通過将ImageBind的多模态編碼器與Vicuna大型語言模型結合使用，實作了六種模态下的指令跟随能力。它可以同時接收多模态輸入，并自然地組合它們的語義。PandaGPT結合了多模态信号處理和自然語言處理的技術，可以完成諸如生成詳細的圖像描述、根據視訊編寫故事以及回答關于音頻的問題等複雜任務。

在訓練過程中，PandaGPT使用了共160k基于圖像的語言指令跟随資料作為訓練資料。每個訓練執行個體包括一張圖像和相應一組多輪對話。PandaGPT隻更新了ImageBind編碼結果上新增的線性投影矩陣以及Vicuna的注意力子產品上添加的額外的LoRA權重。兩者參數總數約占Vicuna參數的0.4%。訓練函數為傳統的語言模組化目标。

在實驗中，PandaGPT展示了對不同模态的了解能力。與其他的多模态語言模型相比，PandaGPT最突出的特點在于，它能夠了解并将不同模态的資訊自然地組合在一起。

雖然PandaGPT在處理多種模态及其組合方面具有驚人的能力，但是，當處理其他模态資訊時，存在一些問題需要解決，例如，維護對其餘模态的細粒度資訊量等。是以，為了提高性能，PandaGPT未來的發展方向需要跨模态注意力機制等細粒度特征提取的研究，并需要新的基準測試來評估多模态輸入的組合能力，同時，也需要在生産環境之前進行進一步完善。

→→→→→#未來科技社# →→→→→

圖釋：圖一，PandaGPT能了解圖檔内容。圖二，視訊了解。圖三，視訊+音頻。圖四，圖檔+音頻。原文是英文，請忽視我的翻譯水準[狗頭]

PandaGPT：新一代跨模态AGI智能正式來襲！→→→→→#未來科技社#→→→→→近日，來自劍橋、NAIST和騰訊AI

繼續閱讀

藍思科技股東戶數下降8.17%，戶均持股82.2萬元

洲明科技股東戶數下降7.98%，戶均持股16.76萬元

五位林草科技工作者傾情講述——加強科技攻關守護綠水青山

微軟廣告、钛動科技、左點、倍思奇：如何從“外冷内熱”的出海找增長？ | 靈眸大賞2024

科技巨頭集體‘叛變’中國市場真成空城？台積電、三星接連出擊！

華為無障礙體驗：科技和服務為橋梁傳遞品牌溫度

海信黑科技亮相CES2025 液晶電視史上第一次發出彩色光源

數字科技、人工智能拯救春晚收視率

DeepSeek出世，人工智能厲害，教師會被取代嗎？讀書還有意義嗎？

馬斯克突然釋出“地球最強AI”，全球科技圈再炸鍋，對手才不是DeepSeek

一邊大量失業一邊搞人工智能，發展搶了幾億人飯碗，未來怎麼辦？

中國科技大爆發，一場國運級“豪賭”已經拉開大幕

國内第一波官宣棄用DeepSeek公司！清華系潞晨科技停用DeepSeek背後：創始人尤洋受網友指責，投資人很無奈

2025巅峰畫質，海信電視E8Q Pro攜五大首發科技重塑影遊旗艦新标準

盜墓賊姚玉忠尋寶從不用高科技，為何一找一個準，原來他有這本事

已下架，七大著名酸奶全軍覆沒，實為科技糖水，以後别再當冤大頭