從GPT和大型語言模型中汲取的經驗教訓

關注并星标

從此不迷路

計算機視覺研究院

從GPT和大型語言模型中汲取的經驗教訓

公衆号ID｜計算機視覺研究院

學習群｜掃碼在首頁擷取加入方式

論文位址：https://arxiv.org/pdf/2306.08641.pdf

計算機視覺研究院專欄

Column of Computer Vision Institute

人工智能界一直在追求被稱為通用人工智能（AGI）的算法，這些算法适用于任何類型的現實世界問題。

總述

最近，由大型語言模型（LLM）提供支援的聊天系統出現了，并迅速成為在自然語言處理（NLP）中實作AGI的一個有前途的方向，但在計算機視覺（CV）中實作AGI的道路仍不清楚。人們可能會将這種困境歸因于視覺信号比語言信号更複雜，但我們有興趣找到具體的原因，并從GPT和LLM中吸取經驗來解決這個問題。

在今天分享中，從AGI的概念定義開始，簡要回顧了NLP如何通過聊天系統解決廣泛的任務。該分析啟發我們，統一是CV的下一個重要目标。但是，盡管在這個方向上做出了各種努力，CV仍然遠遠不是一個像GPT這樣自然內建所有任務的系統。我們指出，CV的本質弱點在于缺乏從環境中學習的範式，而NLP已經完成了文本世界中的任務。然後，我們想象一個管道，将CV算法放在世界範圍的可互動環境中，對其進行預訓練，以預測其動作的未來幀，然後用指令對其進行微調，以完成各種任務。我們希望通過大量的研究和工程努力來推動這一想法并擴大其規模，為此我們分享了我們對未來研究方向的看法。

背景

世界正在見證一場邁向通用人工智能（AGI）的史詩之旅，我們按照慣例将AGI定義為一種可以複制人類或其他動物所能完成的任何智力任務的計算機算法。具體來說，在自然語言處理（NLP）中，計算機算法已經發展到可以通過與人類聊天解決廣泛任務的程度。一些研究人員認為，這些系統可以被視為AGI的早期火花。這些系統大多建立在大型語言模型（LLM）之上，并通過指令調優進行了增強。它們配備了外部知識庫和專門設計的子產品，可以完成解決數學問題、生成可視化内容等複雜任務，展現了其了解使用者意圖和執行初步思想鍊的強大能力。盡管在某些方面存在已知的弱點（例如，講述科學事實和被點名的人之間的關系），但這些開創性的研究已經顯示出一種明顯的趨勢，即将NLP中的大多數任務統一為一個系統，這反映了對AGI的追求。

與NLP中統一的快速進展相比，計算機視覺社群還遠遠不是統一所有任務的目标。正常的CV任務，如視覺識别、跟蹤、生成等，大多使用不同的網絡架構/或專門設計的通道進行處理。研究人員期待着像GPT這樣的系統，它可以通過統一的提示機制處理廣泛的CV任務，但在實作單個任務的良好實踐和在廣泛的任務中推廣之間存在權衡。例如，為了報告目标檢測和語義分割中的高識别精度，最好的政策是在用于圖像分類的強大主幹上設計特定的頭部子產品，并且這種設計通常不會轉移到其他問題。

是以，出現了兩個問題：（1）為什麼CV的統一如此困難？（2）為了實作這一目标，可以從GPT和LLM中學到什麼？

為了回答這些問題，重新審視GPT，并将其了解為在文本世界中建立一個環境，并允許算法從互動中學習。CV研究缺乏這樣的環境。是以，算法無法模拟世界，是以它們對世界進行采樣，并學會在所謂的代理任務中獲得良好的性能。在經曆了史詩般的十年深度學習之後，代理任務不再有意義地表明CV算法的能力；越來越明顯的是，繼續追求對它們的高精度可以使我們遠離AGI。

總述

簡而言之，AGI就是學習一個廣義函數a=π（s）。盡管形式很簡單，但老式的人工智能算法很難使用相同的方法、算法甚至模型來處理所有這些問題。在過去的十年裡，深度學習提供了一種有效而統一的方法：人們可以訓練深度神經網絡來近似函數a=π（s），而不知道它們之間的實際關系。強大的神經網絡架構（如transformer）的出現甚至使研究人員能夠為不同的資料模式訓練一個模型。

實作AGI存在巨大困難，包括但不限于以下問題。

資料的複雜性。真實世界的資料是多方面和豐富的。一些資料模态（例如，圖像）可能具有相當高的次元，并且不同模态之間的關系可能是複雜和潛在的。
人類智力的複雜性。AGI的目标不僅是解決問題，還包括計劃、推理、對不同僚件的反應等。有時，人類行為和目标之間的關系是模糊的，很難用數學形式表示。
缺乏神經或認知理論。人類還不了解人類的智慧是如何實作的。目前，計算機算法提供了一種途徑，但随着神經病學和/或認知學的未來研究，可能會出現更多的可能性。

GPT

NLP中AGI的火花

在過去的一年裡，ChatGPT3、GPT-4和其他人工智能聊天機器人，如Vicuna4，在AGI方面取得了重大進展。它們是為自然語言處理（NLP）開發的計算機算法。通過與人類的聊天程式，他們可以了解人類的意圖，并完成廣泛的任務，隻要這些任務能夠以純文字呈現。特别是，GPT-4在通用問題解決方面有很強的能力，被認為是NLP領域AGI的早期火花。

盡管GPT-4尚未向公衆開放視覺界面，但官方技術報告展示了幾個關于多模式對話的奇特例子，即基于輸入圖像的聊天作為參考。這意味着GPT-4已經具備了将語言特征與視覺特征相結合的能力，是以它可以執行基本的視覺了解任務。正如我們稍後将看到的，視覺社群已經為相同的目的開發了幾種替代品，關鍵在于使用ChatGPT或GPT-4來生成（指導）訓練資料。此外，通過簡單的提示，GPT-4還能夠調用用于圖像生成的外部軟體（例如，Midtravel，如下圖所示）和用于解決計算機視覺中複雜問題的外部庫（例如，HuggingFace庫）。

這些人工智能聊天機器人是分兩個階段進行訓練的。在第一階段，使用自監督學習在大型文本資料庫上預訓練大型語言模型（LLM），其中大部分基于transformer架構。在第二階段，預先訓練的LLM由人工指令監督，以完成特定任務。如有必要，收集人類回報并進行強化學習，以微調LLM，使其具有更好的性能和更高的資料效率。CV:AGI的下一個戰場

AGI下一個戰場

CV:AGI的下一個戰場

人類基于多種資料模态感覺世界。衆所周知，我們所學的大約85%是通過我們的視覺系統完成的。是以，鑒于NLP社群已經顯示出AGI的前景，自然會将計算機視覺（CV）或多模态（至少包括視覺和語言領域）視為AGI的下一個戰場。

在此提供兩項補充意見，以補充上述聲明。首先，很明顯，CV是NLP的超集，因為人類閱讀文章首先識别捕獲圖像中的字元，然後了解内容。換句話說，CV中的AGI（或多模态）應涵蓋NLP中AGI的所有能力。其次，我認為，在許多情況下，僅靠語言是不夠的。例如，當人們試圖找到關于未知物體（例如，動物、時尚等）的詳細資訊時，最好的方法是捕捉圖像并将其用于線上搜尋；單純依賴文本描述可能會帶來不确定性和不準确性。另一種情況是，正如我前面提及那樣，在場景中引用細粒度語義（用于識别或圖像編輯）并不總是容易的，而且以視覺友好的方式思考更有效，例如，使用點或框來定位目标，而不是說“穿着黑色夾克、站在黃色汽車前的人，和另一個人說話。”

理想與現實

希望有一種CV算法，可以通過與環境互動來解決一般任務。注意，該要求不限于識别所有内容或基于圖像或視訊剪輯執行對話。它應該是一個整體系統，從人類那裡接收通用指令并産生期望的結果。但是，CV的現狀還很初步。如下圖所示，CV一直在為不同的視覺任務使用不同的子產品甚至系統。

統一是趨勢

下面，我将最近關于CV統一的研究主題總結為五類。

Open-world Visual Recognition

在很長一段時間内，大多數CV算法隻能識别訓練資料中出現的概念，導緻視覺概念的“封閉世界”。相反，“開放世界”的概念是指CV算法能夠識别或了解任何概念的能力，無論它以前是否出現過。開放世界能力通常是由自然語言引入的，因為它是人類了解新概念的自然方式。這就解釋了為什麼圖像字幕和視覺問答等與語言相關的任務促成了最早的視覺識别開放世界設定。

The Segment Anything Task

Segment Anything任務是最近引入的一個通用子產品，用于将原始圖像像素聚類成組，其中許多像素對應于圖像中的基本視覺單元。所提出的任務支援多種類型的提示，包括點、輪廓、文本等，并為每個提示或每個提示組合生成一些掩碼和分數。在擁有約1000萬張圖像的大規模資料集上進行訓練後，衍生模型SAM能夠轉移到廣泛的分割任務中，包括醫學圖像分析、僞裝對象分割、3D對象分割、對象跟蹤，以及圖像修複等應用場景。SAM還可以與最先進的視覺識别算法一起使用，例如将視覺基礎算法産生的邊界框細化為掩碼，并将分割單元輸入用于圖像标記的開集分類算法。

Generalized Visual Encoding

統一CV任務的另一種方法是為它們提供通用的視覺編碼。有幾種方法可以實作這一目标。一個關鍵的困難在于視覺任務之間的巨大差異，例如，目标檢測需要一組邊界框，而語義分割需要對整個圖像進行密集預測，這兩者都與圖像分類所需的單個标簽非常不同。正如所有人都能了解的那樣，自然語言提供了一種統一的形式來表示一切。一項名為pix2seq的早期研究表明，物體檢測結果（即邊界框）可以公式化為自然語言和坐标，然後轉換為标記作為視覺模型的輸出。在後來的版本pix2seq-v2中，他們對表示進行了概括，以目标檢測、執行個體分割、關鍵點檢測和圖像字幕的輸出。類似的想法也用于其他圖像識别、視訊識别和多模态了解任務。

LLM-guided Visual Understanding

視覺識别可能很複雜，尤其是當它涉及組成概念和/或視覺執行個體之間的關系時。端到端模型（用于視覺問答的視覺語言預訓練模型）很難按照人類容易了解的程式産生答案。為了緩解這個問題，一種實用的方法是生成可解釋的邏輯來幫助視覺識别。這個想法并不新鮮。幾年前，在transformer架構出現之前，研究人員提出使用長短期記憶（LSTM）模型來生成程式，以便調用視覺子產品作為複雜問題回答的子產品。當時，LSTM的能力在很大程度上将這個想法限制在相對簡單和模闆化的問題範圍内。

最近，大型語言模型（尤其是GPT系列）的出現使任意問題的轉換成為可能。具體來說，GPT可以以不同的方式與人類互相作用。例如，它可以将基本識别結果總結為最終答案，或者生成代碼或自然語言腳本來調用基本視覺子產品。是以，視覺問題可以分解為基本子產品。這對于邏輯問題尤其有效，例如詢問對象之間的空間關系或取決于對象數量的問題。

Multimodal Dialog

多模式對話框将基于文本的對話框擴充到視覺領域。早期的工作涉及視覺問答，其中建構了具有簡單問題的各種資料集。随着LLM的快速發展，通過将預先訓練的視覺和語言模型一起微調，可以實作多輪問答。研究還表明，可以通過多模态的上下文學習或使用GPT作為邏輯控制器來回答廣泛的問題。

最近，GPT系列中開發的一種新範式，命名為指導學習，被繼承來提高多模式對話的品質。其想法是從GT實況注釋或識别結果中提供一些參考資料（例如，目标、描述），并要求GPT模型生成指令資料（即豐富的問答對）。通過對這些資料進行微調（無需參考），視覺和語言的基礎模型可以通過輕量級網絡子產品（例如Q-former）互相互動。多模式對話為計算機視覺提供了一個初步的互動基準，但作為一項語言指導任務，它也有開放世界視覺識别中分析的弱點。我們希望豐富查詢形式（例如，使用通用視覺編碼方法）可以将多模式對話推向更高的水準。

未來

從環境中學習

An Imaginary Pipeline

上圖顯示了我們的想法。該管道包括三個階段：第0階段用于建立環境，第1階段用于預訓練，第2階段用于微調。必要時，可以提示微調後的模型執行傳統的視覺識别任務。

Comments on Research Directions

最後，對未來的研究方向進行了展望。随着主要目标從代理任務的性能轉移到從環境中學習，許多流行的研究方向可能不得不調整其目标。這裡有一個免責聲明：以下所有聲明都是我們的個人意見，可能是錯誤的。

論營造環境

一個明确的目标是繼續增加虛拟環境的規模、多樣性和保真度。有多種技術可以提供幫助。例如，新的3D表示形式（例如，neural rendering field, NeRF）在實作重建品質和開銷之間的折衷方面可能更有效。另一個重要的方向是豐富的環境。定義新的、複雜的任務并将它們統一為一個提示系統是一項不平凡的任務。此外，人工智能算法可以從更好地模拟其他代理的行為中受益匪淺，因為它可以在很大程度上提高環境的豐富性，進而提高訓練算法的穩健性。

論生成性預訓練

主要有兩個因素影響預訓練階段，即神經架構設計和代理任務設計。後者顯然更為重要，前者應建立在後者的基礎上。應修改現有的預訓練任務，包括對比學習和掩蔽圖像模組化，以便在虛拟環境中進行有效探索。我們希望新設計的代理專注于資料壓縮，因為視覺資料中的備援比語言資料中的要重得多。新的預訓練代理定義了神經架構的要求，例如，為了實作資料壓縮和視覺識别之間的折衷，設計的架構應該具備根據請求提取不同級别（粒度）視覺特征的能力。此外，跨模态（例如，文本到圖像）生成将成為衡量預訓練性能的直接名額。當統一的标記化方法可用時，可以将其公式化為重建損失的多模式版本。

論指導微調

我們還沒有進入新範式中定義任務的範圍。由于現實世界中的任務可能非常複雜，我們推測可以首先定義和訓練一些基本任務，以便将複雜的任務分解為它們。為此，應該設計一個統一的提示系統，并收集豐富的人工指令。作為一個合理的推測，指令資料的數量可能比為訓練GPT和其他聊天機器人而收集的資料大幾個數量級。這對CV來說是一個全新的故事。未來的道路充滿了未知的困難和不确定性。目前我們看不到太多，但未來會出現清晰的道路。

轉載請聯系本公衆号獲得授權

計算機視覺研究院學習群等你加入！

ABOUT

計算機視覺研究院

計算機視覺研究院主要涉及深度學習領域，主要緻力于目标檢測、目标跟蹤、圖像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的論文算法新架構，提供論文一鍵下載下傳，并分享實戰項目。研究院主要着重”技術研究“和“實踐落地”。研究院會針對不同領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手程式設計愛動腦思考的習慣！

從GPT和大型語言模型中汲取的經驗教訓

繼續閱讀

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

屬于各大科技公司的風口又來了！這次大語言模型引領“新工業革命

大語言模型落地為什麼第一步是做客服

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

探索大語言模型：了解Self Attention| 京東物流技術團隊

知識圖與大型語言模型的協同作用

多功能RNA分析，百度團隊的RNA語言模型登Nature子刊

參數少量提升，性能指數爆發！谷歌：大語言模型暗藏神秘技能