
新智元報道
來源:Quantamagazine
編輯:大明、鵬飛
【新智元導讀】卷積神經網絡(CNN)已在平面視覺任務上大顯身手,但遇見不規則曲面,其效果往往大打折扣。高通和阿姆斯特丹大學提出的“規範等變卷積神經網絡”成功突破了平面的限制,将CNN的視覺能力提升了一個次元,讓AI站的更高,看得更遠。戳右邊連結上 新智元小程式 了解更多!
現在,計算機可以駕駛汽車,在象棋和圍棋中擊敗世界冠軍,甚至撰寫散文。人工智能的革命很大程度上源于一種特殊類型的人工神經網絡的力量,其設計靈感來自哺乳動物視覺皮層中神經元的連接配接層。事實證明,這些“卷積神經網絡”(CNN)擅長于學習二維資料中的模式,尤其是在計算機視覺任務中得到了廣泛應用。
但是,如果将卷積神經網絡用于沒有内置平面幾何形狀的資料集(如3D計算機動畫中使用的不規則形狀的模型,或者自動駕駛汽車生成的點雲來繪制周圍環境),這種強大的機器學習架構的效果就要受到影響。2016年前後,出現了一種稱為幾何深度學習的新學科,其目标是将CNN拓展到平面之外。
現在,研究人員提供了一個新的理論架構,可用于建構可以學習任何幾何表面上的圖案的神經網絡。由阿姆斯特丹大學和高通AI研究中心的Taco Cohen,Maurice Weiler,Berkay Kicanaoglu和Max Welling開發的“等規卷積神經網絡”,不僅可以檢測2D像素陣列中的模式,而且還可以檢測在球體和不對稱彎曲的物體上的模式。Welling表示:“這個架構是對曲面上深度學習問題的絕對确定的答案。”
在模拟全球氣候資料的學習模式中,這種新架構的性能已大大超過了其前輩。該算法還可能改善可視3D目标的無人機和無人駕駛汽車的視覺效果,對于心髒、大腦或其他器官的不規則曲面上收集的資料,分析能力也能大為提升。
高通公司和阿姆斯特丹大學的機器學習研究員Taco Cohen是規範等變卷積神經網絡的主要設計者之一
研究人員要讓深度學習模型擺脫平面的束縛,也與實體學有着深厚的聯系。描述世界的實體理論,比如愛因斯坦的廣義相對論和粒子實體學的标準模型,都表現出一種稱為“規範等變”的性質。這意味着世界上的量及其關系不依賴于任意的參照系。
無論觀察者是移動還是靜止不動,無論标尺上的數字有什麼不同,這些量和關系都是一緻的。在不同的量度上進行的測量要想進行轉換,必須要能夠互相保留彼此之間這些不變的潛在關系。
舉個例子,測量一個足球場的長度,首先以碼為機關,然後再以米為機關進行測量,得到的數字是不同的,但這是一種可預測的不同。同樣,兩位攝影師從兩個不同的有利位置拍攝同一個對象的照片會産生不同的圖像,但是這些圖像可以彼此關聯。量表的等方差可確定實體學家的現實模型保持一緻,無論他們的觀測點或測量機關如何變化。
紐約大學實體學家凱爾·克蘭默(Kyle Cranmer)說:“他們希望将這種思想其、引入神經網絡,要将機器學習應用于粒子實體學資料上,而且成功實作了。”
規範等變卷積神經網絡:“逃離平面,看懂3D”
倫敦帝國理工學院的計算機科學家邁克爾·布朗斯坦(Michael Bronstein)在2015年提出“幾何深度學習”一詞,用以描述為神經網絡擺脫平面束縛而進行的新努力,并設計了可以學習非平面資料模式的神經網絡。這個詞和相關研究工作很快流行起來。
Bronstein明白,要想超越歐幾裡德平面,需要重新構想一種基本的計算程式,該程式首先使神經網絡能高效實作2D圖像識别。此過程稱為“卷積”,它使神經網絡的一層對輸入資料一小批執行數學運算,然後将結果傳遞到網絡中的下一層。
“基本上可以将卷積視為滑動的視窗,” Bronstein解釋說。卷積神經網絡将許多這些“視窗”滑動到資料上,例如過濾器,每一個都旨在檢測資料中的某種模式。如果是貓的照片,經過訓練的CNN可能會使用過濾器來檢測原始輸入像素中的低級特征,例如邊緣。
這些特征會傳遞到網絡中的其他層,執行其他卷積,并提取更高層的特征,如眼睛,尾巴或三角形的耳朵。用于識别貓的CNN最終将使用這些分層卷積的結果,為整個圖像配置設定标簽(“是貓”或“不是貓”)。
卷積神經網絡是如何“看見”目标的
但這種方法僅适用于平面。韋林說:“如果要分析的表面是彎曲的,那麼基本上會遇到麻煩。”
在曲面上進行卷積(在幾何學上稱為“流形”),就像在地球上拿着一小塊半透明的方格紙,然後試圖準确地追蹤格陵蘭島的海岸線一樣困難。不可能在不使紙張起皺的情況下,将正方形按在格陵蘭島上,也就是說,當再次把這張紙展平時,圖形将會出現變形。
如果流形不是球形的這樣的整齊球體,而是瓶子的形狀,或是折疊的蛋白質等更複雜、更不規則的物體,則在這些目标上進行卷積操作會變得更加困難。
Bronstein等人在2015年找到了解決非歐流形上卷積問題的一種解決方案:将“滑動視窗”重新想象成更像是圓形蜘蛛網狀,而不是一張方格紙,這樣就可以将其壓在地球上(或任何曲面上),而不會造成“視窗”的彎曲、拉伸或撕裂。
以這種方式更改“滑塊”過濾器的屬性,可以讓CNN能夠更好地“了解”某些幾何關系。比如可以自動識别出彎成兩個不同姿勢的3D形狀(一個站直的人,和一個擡起一條腿的人)是同一類對象執行個體,而不是兩個完全不同的對象。這一變化讓神經網絡的學習效率大大提高。Bronstein說,标準的CNN“需要花數周時間進行訓練,使用數百萬個形狀示例,我們以不同的姿勢使用了大約100種形狀,隻需要大約半小時的訓練。”
同時,塔科·科恩(Taco Cohen)等人開始從相反方向着手解決同一問題。2015年,當時還在讀研究所學生的科恩尚未研究這個問題。當時他對一個實際的工程問題很感興趣:提升資料效率,即如何用更少的示例來訓練神經網絡。
科恩說:“深度學習是一種非常緩慢的學習。”如果要訓練CNN來識别貓,那麼幾乎沒什麼問題,因為網絡上有大量的貓的圖像資料。但是,如果想讓CNN檢測更重要的内容,例如肺組織圖像中的癌性結節,那麼找到足夠的訓練資料(需要醫學上準确、正确标記,并且沒有隐私問題)并非易事。訓練神經網絡所需的資料示例越少越好。
Cohen知道,提高神經網絡資料效率的一種方法是,預先為資料配備某些假設條件,例如告訴神經網絡,即使肺惡性良性腫瘤在圖像中出現旋轉或映射,它仍然是肺惡性良性腫瘤。
2016年,Cohen和Welling合寫了一篇論文,定義了如何将其中的一些假設條件編碼為幾何對稱的神經網絡。這種方法效果非常好,到2018年,Cohen和Marysia Winkels進一步推廣了該方法,證明了在CT掃描中識别肺癌的可喜結果:他們建構的神經網絡模型,僅使用之前模型十分之一訓練資料,就能識别出肺癌的可視化證據。
在此基礎上,研究人員不斷推廣,找到了規範等變卷積神經網絡。
從實體學到CNN:“等變”思想的擴充
實體和機器學習具有基本的相似性。正如Cohen(Cohen)所說:“兩個領域都涉及進行觀測,然後建立模型進行預測。”并非單個事物的模型,而是整個品類的模型。例如,我們不會為頭朝上的氫原子建一個模型、頭朝下的氫原子再建一個。
等變(或“協變”,實體學家偏愛的術語)是自愛因斯坦以來,實體學家賴以推廣其模型的假設。
阿姆斯特丹大學的理論實體學家Miranda Cheng解釋說:“這隻是意味着,如果你正确的描述了實體,那麼它應該不取決于你用的哪種‘尺子’、後者你觀察時候的視角。”
Cheng(上圖)和Cohen等撰寫了一篇論文,探讨了實體學與規範等變CNN之間的聯系。
就像愛因斯坦本人在1916年所說的那樣:“自然的一般定律應由對所有坐标系都适用的方程式表示。”
卷積網絡通過利用該原理的一個簡單示例“平移等變”,成為深度學習中最成功的方法之一。一個視窗過濾器檢測圖像中特定特征(例如垂直邊緣),将滑動(或“平移”)在像素平面上,并對所有這些垂直邊緣的位置進行編碼;然後,它會建立一個标記這些位置的“功能圖”,并将其傳遞到網絡的下一層。
由于平移等變,使得建立特征圖成為可能。神經網絡“假定”同一特征可以出現在2D平面中的任何位置,并且能夠将無論是在右上角還是在左下角的垂直邊緣,都識别為垂直邊緣。
Weiler說:“關于等變神經網絡的觀點是[采用]這些明顯的對稱性并将它們放入網絡體系結構中,有點像免費午餐。”
到2018年,Weiler,Cohen及其博士導師Max Welling擴大了“免費午餐”的範圍,将其他等變包括在内。他們的“叢集等變” CNN可以檢測平面圖像中的旋轉或反射特征,而無需針對這些方向上的特征訓練特定示例;球形CNN可以根據球體表面上的資料建立特征圖,而不會将其扭曲為平面投影。
這些方法仍然不夠通用,無法處理具有颠簸,不規則結構的流形上的資料,該資料描述了從洋芋到蛋白質,到人體,到時空彎曲的幾乎所有物體的幾何形狀。
對于神經網絡,這些類型的流形沒有“全局”對稱性來做出以下等變假設:它們上的每個位置都是不同的。
挑戰在于,将細分過濾器在表面上滑動會改變過濾器的方向,具體取決于其采用的特定路徑。
想象一下設計用于檢測簡單圖案的過濾器:深色斑點在左,淺色在右。在平面網格上下左右滑動它,它将始終保持右邊朝上。但是,即使在球體的表面上,這種情況也會改變。
将濾鏡圍繞球面的赤道移動180度,則濾鏡的方向将保持不變:深色斑點在左,淺色斑點在右。但如果通過球體的北極上方移過,濾鏡就反過來了,深右淺左。在更複雜的歧管上移動過濾器,它最終可能指向許多雙重的方向。幸運的是,自愛因斯坦以來的實體學家找到了解決方案:軌距等變。
Welling解釋說,關鍵是忘記跟蹤過濾器沿不同路徑移動時方向如何變化。取而代之的是,隻選擇一個過濾器方向(或gauge),然後定義一種将所有其他方向轉換為該方向的一緻方法。
要注意的是,盡管可以在初始方向上使用任意量度,但将其他量度轉換為該參考系必須保留的基本模式。Weiler說,采用這種等量變方法,“實際數字發生了變化,但是它們以完全可預測的方式發生了變化。”
Cohen,Weiler和Welling在2019年将gauge-equivariant(最終的“免費午餐”)編碼到了他們的卷積神經網絡中。通過将數學限制納入神經網絡可以通過卷積在資料中“看到”。
Welling說:“基本上,它可以提供任何表面”,從歐幾裡德平面到任意彎曲的物體,包括諸如Klein瓶或四維時空的奇異流形,“這對在該表面上進行深度學習非常有用。”
理論起源:來自愛因斯坦的啟示
規範等變CNN的起源理論非常廣泛,沿用了以前的幾何深度學習方法的内在假設,如旋轉等變和球上的移位過濾器。即使是Michael Bronstein的早期方法,也可以讓神經網絡識别彎曲成不同姿勢的單個3D形狀。“Gauge-equivariant是一個非常廣泛的架構。它包含了我們在2015年所做的特定設定。” Bronstein說。
理論上,CNN計可在任何尺寸的任何曲面上工作,但Cohen及其合作者已在全球氣候資料上對其進行了測試,該資料必定具有潛在的3D球形結構。他們使用等量線架構構造了一個CNN,該CNN經過訓練可以從氣候模拟資料中檢測出極端天氣模式,例如熱帶氣旋。
2017年,政府和學術研究人員使用标準卷積網絡以74%的準确性檢測資料中的氣旋特征;去年,美國有線電視新聞網(CNN)探測到旋風的準确率達到97.9%。(優于2018年專門為球體設計的不太通用的幾何深度學習方法,該系統的準确度為94%。)Lawrence Berkeley National Laboratory的氣候科學家Mayur Mudigonda使用深度學習,表示将繼續關注測量CNN。
他說:“人類視覺智能的這一方面”(無論模式如何定向)都可以準确地識别出來,“這就是我們想要轉化為氣候社群的東西。”
高通是一家晶片制造商,最近雇用了Cohen和Welling,并收購了他們建立的一家初創公司,将其早期工作納入等變神經網絡。現在,高通正計劃應用規範CNN理論來開發改進的計算機視覺應用,例如可以直接“看到”360度全景的無人機,就像全球氣候資料一樣,可以将這個世界的魚眼圖自然地映射到球形表面上。
同時,規範的CNN在諸如Cranmer之類的實體學家中越來越受歡迎,他們計劃将其用于處理亞原子粒子互相作用的模拟資料。Cranmer說:“我們正在分析與強大的核力量有關的資料,試圖了解質子内部發生了什麼。”他說,資料是四維的,“是以,對于具有這種規範等變的神經網絡,這是一個完美的應用執行個體。”
前實體學家Risi Kondor現在正在研究等變神經網絡,他說,規範CNN的潛在科學應用可能比其在AI中的應用更為重要。
他說:“如果在YouTube上即使發現自己不太擅長識别上下颠倒的貓,也許可以忍受。”但是對于實體學家來說,至關重要的是要確定神經網絡不會因為其特定的方向而錯誤地識别力場或粒子軌迹。Kondor說:“這不僅僅是友善的問題,而且必須尊重基本的對稱性。”
但是,盡管實體學家的數學方法啟發了人們對CNN的了解,實體學家可能會為它們找到很多用處,但Cohen指出,這些神經網絡本身并不會發現任何新的實體學。
他說:“我們現在能夠設計處理非常奇特的資料的網絡,但必須知道該資料的結構是什麼。”換句話說,實體學家之是以可以使用規範的CNN是因為愛因斯坦已經證明時空可以表示為四維彎曲流形。
Cohen的神經網絡将無法獨自“看到”該結構。他說:“目前還沒開始做學習對稱性的事情,”盡管他希望将來有可能。
Cohen說:“我一直感覺機器學習和實體學正在做非常相似的事情。這是我發現真正不可思議的事情之一:我們隻是從這個工程問題開始,并且随着我們開始改進,我們逐漸發現了越來越多的聯系。”
參考連結:https://www.quantamagazine.org/an-idea-from-physics-helps-ai-see-in-higher-dimensions-20200109/