天天看點

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

作者:沙卡拉卡吖吖

閱讀此文前,麻煩您點選一下“關注”,既友善您進行讨論與分享,還能為您帶來不一樣的參與感,感謝您的支援。

人工智能技術飛速發展,機器學習模型正日益複雜龐大。然而,擁有更少參數和更高效的模型仍然十分重要,它們更易于訓練和部署,更加環境友好,并能夠加快研究周期。谷歌研究院最新提出的PaLI-3模型正是一例。PaLI-3模型擁有5億個參數,是PaLI系列的第三代視覺語言模型。研究人員通過對比學習在網絡規模圖像文本資料上預訓練了圖像編碼器,并改進了用于PaLI多模态訓練的資料集和更高分辨率的訓練方法。PaLI-3模型在需要視覺定位文本了解和目标定位的任務上實作了新的最佳效果,在一系列視覺分類任務上也有出色表現。PaLI-3模型架構簡單明了。它采用ViT模型編碼圖像為視覺令牌,然後與文本輸入一起輸入編碼器-解碼器結構的transformer,生成文本輸出。

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

PaLI-3的視覺基礎是采用SigLIP方法預訓練的ViT-G/14模型,擁有約2億個參數。研究人員訓練了圖像嵌入ViT-G/14模型和文本嵌入transformer模型來分别嵌入圖像和文本,利用圖像和文本嵌入的點積判斷二者是否相關。這類似于CLIP和ALIGN,但更高效和可擴充。PaLI-3模型訓練分三個階段:單峰預訓練、多模态訓練和提高分辨率。單峰預訓練階段,圖像編碼器按SigLIP方法訓練,分辨率為224×224;文本編碼器-解碼器是3億參數的UL2模型,按混合降噪流程訓練。多模态訓練階段,圖像編碼器和文本編碼器-解碼器組合構成PaLI模型,在多模态任務和資料上訓練,圖像編碼器保持不變,分辨率仍為224×224。

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

最後,提高分辨率至更高水準,并在更大的WebLI資料集上微調PaLI-3。PaLI-3模型參數更少但性能更強,它實作了視覺定位文本了解和目标定位任務的最佳效果,在一系列視覺分類任務上也表現出色。相比于分類預訓練的ViT基線模型,對比預訓練的圖像編碼器在Web規模圖像文本資料上訓練效果更佳。PaLI-3模型簡單高效,值得進一步研究和改進。機器學習模型正日趨龐大複雜,更小且更強的模型設計理念值得借鑒。 高分辨率視覺注意力網絡PaLI-3:一個新的裡程碑 近年來,視覺注意網絡在圖像識别方面表現出色,它們通過自注意機制學習圖像的全局表示。

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

PaLI-3是一種新型的高分辨率視覺注意網絡,它可以處理更高分辨率的圖像,學習更豐富的視覺特征,在了解語言和圖像任務上取得了突破性進步。 研究者首先比較了PaLI架構下的兩種變分注意網絡:Classif和SigLIP,發現SigLIP模型在簡單任務上表現略差,但在更複雜的了解任務上有很大提高。此外,研究者評估PaLI-3在多個視覺問答資料集上的性能,結果顯示PaLI-3在沒有外部OCR的情況下超過所有最新模型4.4分,在TextCaps、TextVQA、InfographicVQA和DocVQA資料集上優勢超過8分。 研究者進一步擴充PaLI-3,使其能預測圖像分割掩碼。

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

他們采用了向量量化變分自編碼器VQ-VAE,訓練PaLI-3首先輸出4個坐标表示掩碼框,然後輸出16個掩碼标記表示内部掩碼,實驗表明這種方法在定位任務上優于分類預訓練。PaLI-3在圖像分割表達上略優于現有技術。 此外,研究者評估PaLI-3在一般的視覺語言了解任務上的性能,結果顯示PaLI-3模型更小但性能更強,在COCO、VQAv2和TallyQA上超過除BEiT-3、PaLI-17B和PaLI-55B之外的所有模型,在OKVQA上僅次于PaLM-E和PaLI-X,但超過Flamingo。 研究者對PaLI-3在4個視訊字幕資料集和3個視訊問答資料集上進行了微調和評估。

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

盡管PaLI-3沒有使用視訊資料預訓練,但在視訊QA上取得了最佳結果,在MSR-VTT-QA和ActivityNet-QA上實作最先進的性能,在NextQA上與競争對手不相上下。PaLI-3在視訊字幕上也取得了很好的結果,平均僅落後最新技術3個CIDEr分。考慮到模型大小,PaLI-3在性能和實用性上是一個很好的選擇。 最後,研究者評估了不完整的PaLI-3變體ViT-G在圖像分類上的性能,結果顯示SigLIP在top-1和v2準确率上略差,但在ReaL上與對手不相上下。 綜上,PaLI-3是一個裡程碑,它證明高分辨率視覺注意網絡可以在視覺語言了解任務上取得突破,這為将來的研究指明了方向。

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

然而,我們仍需要解決視覺注意網絡在視訊了解上的不足,如何通過多模态機制學習視訊特征是一個值得探讨的問題。 根據内容要求,我已重寫了新的文章,如下:當人工智能技術不斷發展,跨模态學習也成為機器學習的熱點。近日,一項研究測試了不同的模型在Crossmodal-3600這個大型資料集上的表現。研究發現,SigLIP ViT-G模型的效果明顯優于規模更大的ViT-e模型。那麼,SigLIP ViT-G模型究竟是如何實作這一跨越的研究人員首先收集了一個包含365個類别、超過360000個圖像-文本對的大規模資料集Crossmodal-3600。然後,他們對多個模型在這個資料集上進行了評估,包括ViT-e、ViT-B、SimCLR和SigLIP ViT-G等。

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

結果顯示,盡管ViT-e模型的參數更多,但SigLIP ViT-G的準确率達到了86.4%,超過了ViT-e的84.7%。這說明,模型的大小并不代表其效果,SigLIP ViT-G模型通過其他方式實作了準确率的提高。SigLIP ViT-G模型的優異表現,歸功于其在圖像和文本表示學習方面的創新。該模型首先通過自監督學習提取圖像和文本的表示,然後使用這些表示進行跨模态比對。這種方法避免了大量手工标注的資料,進而提高了模型的泛化能力。研究人員在報告中還提到,SigLIP ViT-G模型線上性探測任務中效果不及其他模型,這可能是由于其自監督學習方式導緻的。

谷歌視覺語言模型PaLI-3問世,參數僅5B,更小、更快、更強

盡管SigLIP ViT-G模型在Crossmodal-3600資料集上取得了state-of-the-art的結果,但研究人員也指出了其潛在的不足。例如,該模型在評估公平性和偏差方面還需要改進。同時,跨模态學習也面臨資料量不足的問題,這使得模型難以達到人類級别的了解能力。 綜上,跨模态學習是人工智能發展的重要方向,而SigLIP ViT-G模型的成功也為其未來發展提供了寶貴的經驗。如何在保證模型效果的同時,進一步提高其适應性和健壯性,仍是研究者需要思考的問題。跨模态學習能否達到人類水準,還有待觀察。

當您跟我有更多互動的時候,才會被認定為鐵粉。如果您喜歡我的文章,可以點個“關注”,成為鐵粉後能第一時間收到文章推送。本文僅在今日頭條首發,請勿搬運。

繼續閱讀