天天看點

多模态大模型的崛起:AI視訊了解領域的新突破

作者:一360一

随着科技的不斷發展,人工智能領域也在不斷取得新的突破。近期,KAUST和哈佛大學研究團隊發表的論文中提出了MiniGPT4-Video架構,這是一個專為視訊了解而設計的多模态大模型。這一技術的問世,無疑為AI在視訊了解領域邁出了一大步。

多模态大模型的崛起:AI視訊了解領域的新突破

MiniGPT4-Video的出現,是AI在視訊了解領域的一大突破。據報道,該模型能夠處理時間視覺和文本資料,使其能夠熟練地了解視訊的複雜性。MiniGPT4-video不僅考慮視覺内容,還內建了文本對話,允許模型有效地回答涉及視覺和文本元件的查詢。這意味着,MiniGPT4-Video在處理複雜視訊内容時表現亮眼,提供高品質的輸出。

例如,MiniGPT4-Video能夠為宣傳視訊配出标題、宣傳語;也可以對視訊的處理過程進行了解。MiniGPT4-Video甚至可以根據視訊内容進行詩歌創作、内容解說等。這些都是AI在視訊了解領域的重要應用,也是MiniGPT4-Video的重要優勢。

多模态大模型的崛起:AI視訊了解領域的新突破

據悉,該模型優于現有的最先進的方法,在MSVD、MSRVTT、TGIF和TVQA基準上分别提高了4.22%、1.13%、20.82%和13.1%,模型和代碼已公開。但目前的缺陷在于上下文視窗限制。下一步,團隊将研究模型能力擴充到處理更長視訊的能力。

AI視訊已然成為多模态LLM發展的大趨勢。總的來說,MiniGPT4-Video的出現是AI在視訊了解領域邁出的一大步。随着未來研究的不斷深入,有研究人員認為,MiniGPT4-Video将在多模态人工智能領域發揮更加重要的作用。

在A股市場,多模态大模型概念股共計13隻。從淨利潤變動來看,大華股份和萬興科技2023年淨利潤同比翻倍,增幅依次為217.1%、112.1%。另有拓維資訊、佳都科技、北信源等實作扭虧為盈。

近期,大華股份在互動平台表示,公司在通信能力方面,圍繞網絡連接配接技術、資料交換技術和前沿網絡技術三個方面,打造融合連接配接能力體系,通信和連接配接技術的持續進步,有助于支撐物聯網向視聯網更新。公司釋出了星漢大模型,融合圖像、點雲、文本、語音等多模态資料,實作了準确性和泛化性的躍升,大幅提升視覺解析能力。

多模态大模型的崛起:AI視訊了解領域的新突破

萬興科技旗下“天幕”大模型以音視訊生成式AI技術為基礎,由視訊、音頻、圖檔和語言大模型組成,涵蓋文生視訊、文生3D視訊、視訊AI配樂、數字人播報等近百項音視訊原子能力,同時支援全球不同語言,相關能力已在Wondershare Filmora、Wondershare Virbo等海外産品上規模化商用。

這些進展無疑為AI在視訊了解領域的發展提供了強大的支援。随着技術的不斷進步,我們有理由相信,未來的AI将會在視訊了解領域取得更大的突破。

總的來說,MiniGPT4-Video的出現,無疑是AI在視訊了解領域的一大突破。它的出現,不僅為我們提供了一個全新的視角來了解視訊内容,也為AI的發展開辟了新的道路。我們期待着AI在視訊了解領域的進一步發展,也期待着MiniGPT4-Video在未來能夠發揮出更大的作用。

在這個資訊化的時代,視訊已經成為了我們擷取資訊的重要途徑。而AI在視訊了解領域的發展,無疑将會為我們提供更多的可能性。我們期待着AI在視訊了解領域的進一步發展,也期待着它能夠為我們帶來更多的驚喜。

繼續閱讀