Transformer将在AI領域一統天下？現在下結論還為時過早

選自 Quanta Magazine

機器之心編譯

作者：Stephen Ornes

機器之心編輯部

從自然語言處理任務起家，又在圖像分類和生成領域大放異彩，所向披靡的 Transformer 會成為下一個神話嗎？

想象一下你走進一家本地的五金店，在貨架上看到一種新型的錘子。你聽說過這種錘子：它比其他錘子敲得更快、更準确，而且在過去的幾年裡，在大多數用途中，它已經淘汰了許多其他錘子。

此外，通過一些調整，比如這裡加一個附件，那裡擰一個螺絲，這種錘子還能變成一把鋸，其切割速度能媲美其他任何替代品。一些處于工具開發前沿的專家表示，這把錘子可能預示着所有工具将融合到一個裝置中。

類似的故事正在人工智能領域上演。這種多功能的新錘子是一種人工神經網絡——一種在現有資料上進行訓練以「學習」如何完成某些任務的節點網絡——稱為 Transformer。它最初用于處理語言任務，但最近已經開始影響其他 AI 領域。

Transformer 最初出現在 2017 年的一篇論文中：《Attention Is All You Need》。在其他人工智能方法中，系統會首先關注輸入資料的局部 patch，然後建構整體。例如，在語言模型中，鄰近的單詞首先會被組合在一起。相比之下，Transformer 運作程式以便輸入資料中的每個元素都連接配接或關注其他元素。研究人員将此稱為「自注意力」。這意味着一旦開始訓練，Transformer 就可以看到整個資料集的迹。

在 Transformer 出現之前，人工智能在語言任務上的進展一直落後于其他領域的發展。「在過去 10 年發生的這場深度學習革命中，自然語言處理在某種程度上是後來者，」馬薩諸塞大學洛厄爾分校的計算機科學家 Anna Rumshisky 說，「從某種意義上說，NLP 曾落後于計算機視覺，而 Transformer 改變了這一點。」

Transformer 很快成為專注于分析和預測文本的單詞識别等應用程式的引領者。它引發了一波工具浪潮，比如 OpenAI 的 GPT-3 可以在數千億個單詞上進行訓練并生成連貫的新文本。

Transformer 的成功促使人工智能領域的研究者思考：這個模型還能做些什麼？

答卷正在徐徐展開——Transformer 被證明具有驚人的豐富功能。在某些視覺任務中，例如圖像分類，使用 Transformer 的神經網絡比不使用 Transformer 的神經網絡更快、更準确。對于其他人工智能領域的新興研究，例如一次處理多種輸入或完成規劃任務，Transformer 也可以處理得更多、更好。

「Transformer 似乎在機器學習領域的許多問題上具有相當大的變革性，包括計算機視覺，」在慕尼黑寶馬公司從事與自動駕駛汽車計算機視覺工作的 Vladimir Haltakov 說。

就在十年前，AI 的不同子領域之間還幾乎是互不相通的，但 Transformer 的到來表明了融合的可能性。「我認為 Transformer 之是以如此受歡迎，是因為它展示出了通用的潛力，」德克薩斯大學奧斯汀分校的計算機科學家 Atlas Wang 說：「我們有充分的理由嘗試在整個 AI 任務範圍内嘗試使用 Transformer。」

從「語言」到「視覺」

在《Attention Is All You Need》釋出幾個月後，擴充 Transformer 應用範圍的最有希望的動作就開始了。Alexey Dosovitskiy 當時在谷歌大腦柏林辦公室工作，正在研究計算機視覺，這是一個專注于教授計算機如何處理和分類圖像的 AI 子領域。

Alexey Dosovitskiy。

與該領域的幾乎所有其他人一樣，他一直使用卷積神經網絡 (CNN) 。多年來，正是 CNN 推動了深度學習，尤其是計算機視覺領域的所有重大飛躍。CNN 通過對圖像中的像素重複應用濾波器來進行特征識别。基于 CNN，照片應用程式可以按人臉給你的照片分門别類，或是将牛油果與雲區分開來。是以，CNN 被認為是視覺任務必不可少的。

當時，Dosovitskiy 正在研究該領域最大的挑戰之一，即在不增加處理時間的前提下，将 CNN 放大：在更大的資料集上訓練，表示更高分辨率的圖像。但随後他看到，Transformer 已經取代了以前幾乎所有與語言相關的 AI 任務的首選工具。「我們顯然從正在發生的事情中受到了啟發，」他說，「我們想知道，是否可以在視覺上做類似的事情？」這個想法某種程度上說得通——畢竟，如果 Transformer 可以處理大資料集的單詞，為什麼不能處理圖檔呢？

最終的結果是：在 2021 年 5 月的一次會議上，一個名為 Vision Transformer（ViT）的網絡出現了。該模型的架構與 2017 年提出的第一個 Transformer 的架構幾乎相同，隻有微小的變化，這讓它能夠做到分析圖像，而不隻是文字。「語言往往是離散的，」Rumshisky 說：「是以必須使圖像離散化。」

ViT 團隊知道，語言的方法無法完全模仿，因為每個像素的自注意力在計算時間上會非常昂貴。是以，他們将較大的圖像劃分為正方形單元或 token。大小是任意的，因為 token 可以根據原始圖像的分辨率變大或變小（預設為一條邊 16 像素），但通過分組處理像素，并對每個像素應用自注意力，ViT 可以快速處理大型訓練資料集，進而産生越來越準确的分類。

Transformer 能夠以超過 90% 的準确率對圖像進行分類，這比 Dosovitskiy 預期的結果要好得多，并在 ImageNet 圖像資料集上實作了新的 SOTA Top-1 準确率。ViT 的成功表明，卷積可能不像研究人員認為的那樣對計算機視覺至關重要。

與 Dosovitskiy 合作開發 ViT 的谷歌大腦蘇黎世辦公室的 Neil Houlsby 說：「我認為 CNN 很可能在中期被視覺 Transformer 或其衍生品所取代。」他認為，未來的模型可能是純粹的 Transformer，或者是為現有模型增加自注意力的方法。

一些其他結果驗證了這些預測。研究人員定期在 ImageNet 資料庫上測試他們的圖像分類模型，在 2022 年初，ViT 的更新版本僅次于将 CNN 與 Transformer 相結合的新方法。而此前長期的冠軍——沒有 Transformer 的 CNN，目前隻能勉強進入前 10 名。

Transformer 的工作原理

ImageNet 結果表明，Transformer 可以與領先的 CNN 競争。但谷歌大腦加州山景城辦公室的計算機科學家 Maithra Raghu 想知道，它們是否和 CNN 一樣「看到」圖像。神經網絡是一個難以破譯的「黑盒子」，但有一些方法可以窺探其内部——例如通過逐層檢查網絡的輸入和輸出了解訓練資料如何流動。Raghu 的團隊基本上就是這樣做的——他們将 ViT 拆開了。

Maithra Raghu

她的團隊确定了自注意力在算法中導緻不同感覺的方式。歸根結底，Transformer 的力量來自于它處理圖像編碼資料的方式。「在 CNN 中，你是從非常局部的地方開始，然後慢慢獲得全局視野，」Raghu 說。CNN 逐個像素地識别圖像，通過從局部到全局的方式來識别角或線等特征。但是在帶有自注意力的 Transformer 中，即使是資訊處理的第一層也會在相距很遠的圖像位置之間建立聯系（就像語言一樣）。如果說 CNN 的方法就像從單個像素開始并用變焦鏡頭縮小遠處物體的像的放大倍數，那麼 Transformer 就是慢慢地将整個模糊圖像聚焦。

這種差異在 Transformer 最初專注的語言領域更容易了解，思考一下這些句子：「貓頭鷹發現了一隻松鼠。它試圖用爪子抓住它，但隻抓住了尾巴的末端。」第二句的結構令人困惑：「它」指的是什麼？隻關注「它」鄰近的單詞的 CNN 會遇到困難，但是将每個單詞與其他單詞連接配接起來的 Transformer 可以識别出貓頭鷹在抓松鼠，而松鼠失去了部分尾巴。

顯然，Transformer 處理圖像的方式與卷積網絡有着本質上的不同，研究人員變得更加興奮。Transformer 在将資料從一維字元串（如句子）轉換為二維數組（如圖像）方面的多功能性表明，這樣的模型可以處理許多其他類型的資料。例如，Wang 認為，Transformer 可能是朝着實作神經網絡架構的融合邁出的一大步，進而産生了一種通用的計算機視覺方法——也許也适用于其他 AI 任務。「當然，要讓它真正發生是有局限性的，但如果有一種可以通用的模型，讓你可以将各種資料放在一台機器上，那肯定是非常棒的。」

關于 ViT 的展望

現在研究人員希望将 Transformer 應用于一項更艱巨的任務：創造新圖像。GPT-3 等語言工具可以根據其訓練資料生成新文本。在去年發表的一篇論文《TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up》中，Wang 組合了兩個 Transformer 模型，試圖對圖像做同樣的事情，但這是一個困難得多的問題。當雙 Transformer 網絡在超過 200000 個名人的人臉上進行訓練時，它以中等分辨率合成了新的人臉圖像。根據初始分數（一種評估神經網絡生成的圖像的标準方法），生成的名人面孔令人印象深刻，并且至少與 CNN 建立的名人一樣令人信以為真。

Wang 認為，Transformer 在生成圖像方面的成功比 ViT 在圖像分類方面的能力更令人驚訝。「生成模型需要綜合能力，需要能夠添加資訊以使其看起來合理，」他說。與分類領域一樣，Transformer 方法正在生成領域取代卷積網絡。

Raghu 和 Wang 還看到了 Transformer 在多模态進行中的新用途。「以前做起來比較棘手，」Raghu 說，因為每種類型的資料都有自己的專門模型，方法之間是孤立的。但是 Transformer 提出了一種組合多個輸入源的方法。

「有很多有趣的應用程式可以結合其中一些不同類型的資料和圖像。」例如，多模态網絡可能會為一個系統提供支援，讓系統除了聽一個人的聲音外，還可以讀取一個人的唇語。「你可以擁有豐富的語言和圖像資訊表征，」Raghu 說，「而且比以前更深入。」

這些面孔是在對超過 200000 張名人面孔的資料集進行訓練後，由基于 Transformer 的網絡建立的。

新的一系列研究表明了 Transformer 在其他人工智能領域的一系列新用途，包括教機器人識别人體運動、訓練機器識别語音中的情緒以及檢測心電圖中的壓力水準。另一個帶有 Transformer 元件的程式是 AlphaFold，它以快速預測蛋白質結構的能力，解決了五十年來蛋白質分子折疊問題，成為了名噪一時的頭條新聞。

Transformer isn't all you need

即使 Transformer 有助于整合和改進 AI 工具，但和其他新興技術一樣，Transformer 也存在代價高昂的特點。一個 Transformer 模型需要在預訓練階段消耗大量的計算能力，才能擊敗之前的競争對手。

這可能是個問題。「人們對高分辨率的圖像越來越感興趣，」Wang 表示。訓練費用可能是阻礙 Transformer 推廣開來的一個不利因素。然而，Raghu 認為，訓練障礙可以借助複雜的濾波器和其他工具來克服。

Wang 還指出，盡管視覺 transformer 已經在推動 AI 領域的進步，但許多新模型仍然包含了卷積的最佳部分。他說，這意味着未來的模型更有可能同時使用這兩種模式，而不是完全放棄 CNN。

同時，這也表明，一些混合架構擁有誘人的前景，它們以一種目前研究者無法預測的方式利用 transformer 的優勢。「也許我們不應該急于得出結論，認為 transformer 就是最完美的那個模型，」Wang 說。但越來越明顯的是，transformer 至少會是 AI shop 裡所有新型超級工具的一部分。

3月23日北京——首席智行官大會

機器之心AI科技年會将于3月23日舉辦，「首席智行官大會」也将一同開幕。

舉辦時間：2022年3月23日13:30-17:00

舉辦位址：北京望京凱悅酒店

「首席智行官大會」将邀請智慧出行領域的領袖級人物，他們将來自當下熱度最高的智能汽車、車規級晶片、Robotaxi 及無人物流等領域，所涉及議題覆寫了汽車機器人、大算力時代汽車晶片展望、無人駕駛商業化等多個前沿方向。

Transformer将在AI領域一統天下？現在下結論還為時過早

繼續閱讀

NetApp和Lenovo提供針對生成式人工智能進行優化的融合基礎架構解決方案

英偉達、微軟等大廠布局、投資不斷，東南亞成為人工智能新熱土

為什麼人工智能可以給數學帶來革命性變化

人類如何掙脫被人工智能替代的命運？

【意·調查】越來越多意大利學生使用人工智能做作業

梁建章：人工智能并沒有像移動網際網路具有颠覆性，人類還是會主導創新活動【附人工智能行業現狀分析】

金羊網評：人工智能高品質發展要算好三筆賬打好三套拳

單季淨賺 500 億，高管：騰訊将成為部署人工智能的「最大受益者」

人工智能熱席卷全球，AI概念闆塊誰是英雄？ | 年報研究專題

人工智能熱席卷全球，AI概念闆塊誰是英雄？ | 年報研究專題

生成式人工智能浪潮下，國外AI初創公司都在做什麼？

NetApp推出專為人工智能時代打造的統一資料存儲

生成式人工智能的風險與治理——以ChatGPT為例

GPT-4o：人工智能的全能革命

AI到底有多可怕？人工智能繪畫Midjourney火了

劉澍泉對話周光:順應人工智能2.0，端到端讓自動駕駛更有“人味”