天天看點

UniT | Facebook釋出全新智能通用Agent!

UniT | Facebook釋出全新智能通用Agent!

今天給大家介紹Facebook AI Research (FAIR)團隊研究人員Ronghang Hu 和Amanpreet Singh合作發表在arxiv上的Unified Transformer架構:UniT,該架構可以同時進行多模态多任務預測。

UniT從跨領域的任務中學習最重要的任務,領域範圍包括對象檢測、語言了解和多模态推理等。UniT模型使用編碼器-解碼器架構,編碼器對輸入模态進行編碼,使用共享的解碼器對編碼前的輸入進行解碼,然後使用task specific的輸出頭進行任務預測。模型使用端到端的聯合訓練,每項任務的損失都會被計算在内。與以前使用Transformer進行多任務學習的研究相比,UniT任務共享相同的模型參數,而不是在不同的任務上微調。UniT可以處理多種跨領域任務。實驗證明,UniT在八個資料集上同時學習七個任務,都獲得了比已有工作更好的性能。圖一是UniT的任務架構。

UniT | Facebook釋出全新智能通用Agent!

圖一:UniT的任務架構

UniT模型架構

UniT建立在Transformer編碼器-解碼器體系結構上,跨模态同時學習多個任務。每個輸入模态都有一個單獨的編碼器,所有任務共享一個解碼器,外加一個task specific任務頭進行預測。圖二是UniT模型的技術架構。UniT考慮兩種輸入模态:圖像和文本。對于圖像輸入,UniT應用卷積神經網絡提取視覺特征,然後用Transformer編碼器進一步将視覺特征編碼到隐藏狀态中,以融合全局上下文資訊。對于語言輸入,UniT使用BERT,将輸入單詞(例如questions)編碼為BERT的最後一層隐藏狀态。UniT将輸入模态編碼成隐藏狀态序列之後,在單個編碼模态或兩個編碼模态的串聯序列上應用Transformer解碼器。最後,特征表示被傳遞到一個task specific的head上,例如一個簡單的兩層分類器,輸出最終的預測。UniT可以很容易地擴充到更多的模态和輸入。實驗結果表明,UniT模型可以在8個資料集上聯合學習7個不同的任務,并獲得不錯的效果。圖二是UniT模型的技術架構。

UniT | Facebook釋出全新智能通用Agent!

圖二:UniT模型技術架構

總結

UniT證明了transformer架構可以應用于多個領域,在一個編解碼器中聯合處理多個任務。UniT模型同時處理八個資料集中的七個任務,并通過一組共享參數在每個任務上都實作強大的性能。通Transformer架構,UniT模型朝着建構通用智能Agent邁出了一步,該智能Agent能夠處理不同領域的廣泛應用,包括視覺感覺、語言了解和多種模式的推理。

繼續閱讀