判别式or生成式：哪一個才能代表視覺了解的未來？

選自simonsfoundation.org

作者：Grace Lindsay

機器之心編譯

編輯：張倩

幾十年來，判别式和生成式方法這兩種了解視覺處理的方式引導研究人員走上了不同的道路，但現在二者正融合在一起。

一直以來，視覺系統方面的許多基礎工作都以一種非常簡單的方式實作：向動物展示圖像，測量其神經元的反應，展示另一個，然後重複。

這樣的方法建立在一種假設之上：視覺處理可以了解為一種死記硬背的輸入輸出轉換。科學家們研究細胞時，好像它們隻是根據圖像中存在的視覺特征做出反應，然後可以使用這些反應來區分不同的圖像。

雖然這種對視覺系統的了解在很多方面都取得了豐碩的成果，但它總是讓一些研究者産生懷疑。一部分人認為，視覺系統的解剖結構和動力學研究結果表明，它不是簡單地以「自下而上」的方式做出反應。相反，它可能會基于一個反映世界運作模式的模型生成一些反應。

這種「判别式（discriminative）」與「生成式（generative）」視覺方法之間的争論已經持續了數十年。盡管這兩種模型都旨在解釋視覺處理過程，但這兩種方法源于不同的哲學和數學傳統。這種狀況導緻的後果是，不同的研究人員隻使用他們自己喜歡的方法，而不是合作，是以在這兩種範式之間産生了一條鴻溝。

近年來，計算機視覺和計算神經科學的進步都表明了這種二進制劃分方法的局限性，推動了更廣泛的視覺處理模組化的發展。這就需要雙方的代表走到一起，理清各自的觀點以及雙方的共識和分歧所在。

2021 年 9 月，在虛拟認知計算神經科學 (CCN) 會議的「生成對抗協作（GAC）」開幕活動上，研究人員送出了關于這一主題的提案。

「生成對抗協作」是 CCN 在 2020 年發起的一項流程，旨在讓研究者明确、有效地提出科學上的分歧。研究人員可以向 CCN 送出一個有争議的主題提案，少數提案會被選中，進入 GAC 活動的讨論範圍。次年，GAC 組織者會送出一份立場論文，列出這些主題領域的進展計劃，并在當年的會議上展示該進展。

2021 年的 GAC 有關于視覺系統中的生成和判别模型的主題，由 11 名研究人員組成了一個團隊。有些人使用判别方法，有些人使用生成方法，但所有人都對探索兩者之間的交集感興趣。根據他們的提議，這個活動旨在确定「我們的知識遺産是否過度地分化了我們對視覺算法的直覺，使我們陷入了錯誤的二分法之中。」

「簡單快速」與「靈活慢速」

為了建構辯論架構，首先有必要知道什麼是判别系統和生成系統。但也許這就是第一個分歧點。

在統計領域，判别模型和生成模型有簡單的定義。判别模型是在給定觀察結果的情況下計算潛在變量或潛在原因的機率的模型。就視覺處理而言，這些潛在變量就是世界上的物體，而觀察結果就是撞擊視網膜的光。例如，模型會對圖像中的像素進行一些計算，以确定哪些對象最有可能存在。相反，生成模型是計算潛在變量和觀察結果的聯合機率。這需要知道某些物體在一般情況下存在的可能性，而不僅僅是它們在給定圖像中的可能性。

雖然這些不同機率分布的計算在技術上完全不同，但當這些計算映射到大腦時，兩者之間的界限開始變得模糊。「如果你仔細觀察，一切都會崩潰，」哥倫比亞大學神經科學家、GAC 發言人 Niko Kriegeskorte 說。該領域缺乏對生成模型和判别模型的嚴格定義，神經科學研究文獻中出現的内容則更好地被描述為一組松散的關聯。

代表判别一面的模型往往是前饋的、簡單的和快速的。例如，深度前饋卷積神經網絡就是判别處理的典範。這些模型通常以有監督的方式進行訓練：它們學習将圖像映射到标簽，例如學習對貓和狗的圖像進行分類。生成的模型可以接收新圖像并快速标記它。像這類網絡這樣的判别系統通常以自下而上的方式工作，形成對其直接輸入的簡單響應。由于它們的訓練方式，它們也被認為專門用于特定任務，例如物體識别。

相比之下，生成模型速度很慢，但它們也更靈活、嚴謹，且更具表現力。它們通常依賴于無監督的訓練方法，目的是獲得對世界統計資料和結構的基本了解，然後将其用于預測。例如，在貓比狗更常見的世界中，生成模型可能會使用爪子的視覺景象來預測長胡須也是存在的，并最終得出圖像中有貓的結論。在結構上，這些模型更有可能具有循環連接配接（recurrent connection），特别是來自更高視覺區域或将預測信号傳送到視覺系統的額葉皮層的自上而下的連接配接。它們也更有可能用機率分布來表示資訊，這可能導緻與任何給定視覺感覺相關的不确定性。

科學家們有理由相信這兩種過程都可能在大腦中發揮作用。生成方法的支援者指出其直覺的吸引力和與内省（introspection）的一緻性。畢竟，我們能以心理意象和夢境的形式産生視覺感覺；如果沒有任何自上而下的影響或内部世界模型，這種現象是不可能發生的。學習有關世界如何運作的一般原則也可以使生成系統更适應新環境。

在 GAC 活動期間，麻省理工學院的神經科學家和西蒙斯全球大腦合作組織 (SCGB) 的研究員 Josh Tenenbaum 在他的演講視訊中應用了圖像過濾器來說明這一點：因為我們的視覺系統知道視訊可以使用不同的視覺效果進行過濾，例如顔色和對比度的變化，是以即使它們對我們來說是新的，我們還是能夠識别應用了這種效果的圖像内容。

判别式方法的支援者指出，它在解釋神經資料方面取得了切實的成功。經過訓練以對圖像進行分類的深度卷積神經網絡提供了一些最佳模型，用于預測響應複雜視覺輸入的真實神經活動。我們也知道，視覺系統的前饋路徑可以非常快速地實作對象分類，這與判别模型是一緻的。

這兩種模式處于不同的發展階段，很難比較它們的優勢。目前的判别模型可以在實際用途中處理圖像，這讓它比生成模型更具優勢。然而，這可能更多地反映了研究人員可以在計算機上做的事情，而不是大腦可以做的事情。目前，生成模型很難訓練和建構，并且隻能運作在玩具問題上，而不是視覺系統面臨的真實挑戰。如果沒有像今天的判别模型一樣擅長圖像處理的模型，生成方法就沒有機會在神經活動的定量預測上擊敗判别模型。它們之間的這種對比有點像将今天的汽車與自動駕駛汽車的對比。自動駕駛汽車可能有一些不錯的功能，但如果你今天需要四處奔走，它們不會有太大幫助。

「歸根結底，你必須有一個模型來測試，」麻省理工學院的神經科學家和 SCGB 研究員 Jim DiCarlo 說。在 GAC 活動中，代表判别一方的 DiCarlo 展示了在目辨別别上訓練的判别模型預測神經活動的強大能力。「一旦有人建立了一個新的圖像計算模型，隻有當時實驗資料才能用來判斷該模型相對于其他模型的準确性。」

在某種程度上，這從工程的次元減少了關于生成方法與判别方法的争論。即使生成方法具有很多直覺的積極意義，研究人員仍然需要讓它們在實踐中發揮作用，以便與大腦活動進行大規模比較。目前，它們還不能。但生成模型也并不總是處于劣勢。鑒于其種種特性，尤其是它們在沒有太多标記資料的情況下進行訓練的能力，機器學習研究人員希望它們在未來變得有用。

「重要的是，我們不要将我們認為容易或現在可以做的事情，與大腦可以做的事情混為一談。」羅切斯特大學的神經科學家 Ralf Haefner 在活動中說。

探索的十字路口

正如 GAC 小組成員指出的那樣，許多模型并不完全适合某個類别或其他類别。循環判别模型是存在的，一些生成模型也可以很快，諸如此類。哥倫比亞大學的神經科學家 Benjamin Peters 在讨論中說，強制讓大腦被統計學家和工程師定義的盒子所框住是有風險的。「我們不應該過于刻闆，而應該從算法中汲取靈感。」

例如，視覺系統可以使用判别元件來實作快速和輕松的視覺感覺，但仍包含生成元素以實作更深層的功能。或者，一個内置的生成模型可以利用它對世界的預測，來幫助為大腦的判别部分提供訓練資料。哈佛大學的神經科學家 Talia Konkle 在她的演講中主張承認感覺和認知之間的分離，感覺是一種判别過程，而認知是一種更具生成性的過程。

一些混合方法在機器學習領域已經很流行。例如，在對比學習這種訓練方式中，網絡學習對相似的事物進行分組（例如同一圖像的不同剪裁片段），并區分不同的事物。這種方法具有生成元件 —— 訓練不需要顯式的目标标簽，它建立的表示可以捕獲資料中大量的相關統計資訊。同時，它也能很好地應用于判别模型的典型前饋結構。它确實學會了區分相似和不同的圖像。

鑒于這些模型可能屬于同一個範圍，一些研究人員質疑關注二進制劃分是否有意義。「這些真的是我們想要收斂的項嗎？」DeepMind 的 Kim Stachenfeld 問道。科學家和工程師們承認，生成式處理和判别式處理之間的明确區分對于建構一個有效的系統來說并不是必需的。這種區分也不是了解大腦所必需的。「如果你認為這是一個非此即彼的問題，那你就錯失了重點，」Kriegeskorte 說。「我不确定 10 到 20 年後我們是否還會在這種二進制劃分方法中考慮這個問題。」

GAC 的部分目的是探索判别式與生成式模型之間的分歧，以此作為推動該領域向前發展的一種手段。

Stachenfeld 認為，這種嘗試是有用的，即将視覺系統的方法組織到兩個陣營中，然後「看看還剩下什麼」，從兩個陣營之外的東西可以看出這個領域還需要什麼樣的新術語和新想法。其他人也認為，這次讨論有助于闡明哪些特征對于每種類型的模組化方法是真正必要的，以及如何在大腦中考慮每種思路的證據。Kriegeskorte 指出，在使用這些模型的術語時，他現在「避免了過去經常犯的愚蠢錯誤」。

這些概念上的進步是否重要？真正的考驗将是它們對實驗的影響程度。Kriegeskorte 表示，實驗設計是一個很難取得真正進展的領域。

加州理工學院的神經科學家和 SCGB 研究員 Doris Tsao 提出了一種實驗途徑：分離神經系統的生成元件，并在沒有關于目前世界狀态的前饋輸入的情況下研究其對神經活動的影響。先前對胼胝體（連接配接左右大腦半球的橫行神經纖維束）病變患者的研究提供了一些提示。在兩個半球之間通路的一部分被切斷的情況下，研究人員通過左眼向右半球展示「騎士」之類的詞，會導緻患者（借助左半球回報連接配接的影響）描述騎士的視覺場景，即使沒有任何視覺刺激或有意識地意識到這個詞。Tsao 認為，在動物身上進行的類似實驗可以幫助确定自上而下的生成路徑，這些路徑負責讓人聯想到這種圖像。然而，對于生成系統的人工隔離是否有助于闡明其在正常情況下的功能，GAC 參與者存在分歧。

大多數參與者都同意需要更多關注大腦生成能力的實驗。賓夕法尼亞大學的神經科學家和 SCGB 調查員 Nicole Rust 提出了研究視覺預測的論點，例如預測視訊中接下來會發生什麼的能力。DiCarlo 說，受到生成處理優點的啟發，他打算做更多的實驗。

在接下來的一年裡，該小組将繼續讨論推進研究的具體步驟，并通過出版物和活動與更廣泛的社群分享他們的進展。

判别式or生成式：哪一個才能代表視覺了解的未來？

繼續閱讀

撥開迷霧，科學防藍光

【芯智駕】豐田擁抱純視覺自動駕駛路線，釋放了什麼産業鍊信号？

【芯智駕】視覺自動駕駛又“出事”，有望加快雷射雷達裝車上路

CV往哪卷？李飛飛指出三顆“北極星”：具身智能，視覺推理和場景了解

五四青年節！想讓廣告耳目一新？！先盤活圖形

特斯拉為什麼不用高精地圖

ICLR 2022部落格賽道出爐：接收21篇，特斯拉AI總監也有稿

方寸之間盡顯科技，雷射打标手機卡

隻需要十分之一資料，就能通關四大視覺任務，居然還開源了！

聲音為什麼适合打造品牌強化心智

讓Logo輕松“耍大牌”！巧用形式暗示法

中年女人，依舊被男人寵成“公主”，離不開這幾個原因

屏下視覺效果驚豔！“為大場面而生”的中興Axon 40系列正式釋出

英偉達研發主管：AI 是如何改進晶片設計的？

特斯拉公布兩項全新專利，将提升視覺感覺系統

從 Air到Max，Rokid 問題究竟在哪