特約文章丨多模态視覺結構學習

文 / 李玺

0 引言

本文從一個新視角将之前多模态視覺結構學習的研究内容進行了梳理，重點介紹球面全景圖像的特點和應用。

球面圖像更多的是做魚眼或者全景 360°，其結構知識非常多，主要面向自動駕駛、虛拟現實、道路監測、室内裝修和虛拟現實等應用。這裡，我們希望用非常便宜、簡單的表達方式将場景進行有效的模組化和結構化。

然而，面向這種球面結構進行圖像分析和應用是非常難的問題，是以球面圖像的研究裡我們把其應用抛開，隻看它數學推理或者其他問題，希望能把這些問題解剖出來，形成一個學術問題。因為現在做球面圖像計算的手段比較适合矩陣操作，是以做圖像分割、檢測都是面向這種矩陣圖像的。比如，最新圖像生成的應用也是利用矩形圖像的知識進行生成，變成點和點的局部空間感受，它們之間是服從某些實體規律的，進而可以做反向解碼；解碼就是傳播、降噪過程，即形成了完整的經驗。但是，實際上球面圖像直接分析比較困難，因為它不是非正常則的矩陣，是以通常的做法是把球面圖像展開。而展開時就會出現按什麼角度展開，它們之間的前後連接配接性怎麼樣，有沒有幾何屬性，甚至它的密度等問題。由于球的中心點密度，如赤道附近的密度比較大，在極限、極點的密度較小一樣，這種狀态下展開球産生的圖像密度極度不均勻，對 AI 算法來說非常難以處理。

是以，面向應用和前景怎麼去做深度學習，是非常有意思的 application 技術。

在我們研究過程中會發現，所看到的圖像都是自然圖像或是人工圖像。比如，我們看一遍做食物加工的過程，就會記住；之後，産生知識，最終就會做成“美味佳肴”。人類在這個過程中已在大腦把它形成了一個加工鍊、一個序列，最後形成了人類認知。而我們對圖像感覺，實際上就是面向平面圖像的感覺。現在所謂的圖像感覺都是基于平面圖像感覺，有很大的局限性。比如，我們對分辨率的要求 4 K、8 K……分辨率很高，但是它不是真實的感覺，因為人類眼球的視網膜是圓形的，是以其感覺絕對不是平面感覺。

1 面向球面圖像的研究工作

1.1 SGAT4PASS：用于全景語義段的球形幾何感覺 Transformer

用于全景語義段的球形幾何感覺 Transformer，即在球面上利用幾何知識建立球面幾何的Transformer 圖像分割（Li et al.，2023）。這裡最難的問題就是幾何結構怎麼編碼到深度網絡裡？圖 1所示球面圖像裡是個歪歪扭扭的、不符合規則化的網格，利用 Transformer 可以去做，但它是一個 s 結構，不是簡單的 patch 或者自然源 AIP 結構，是以，在做的過程中把它展開之後就會出現圖 1 所示的兩個平行的小藍框辨別的點，而實際上它們在一個球面上。造成此情況的原因是因為通過這種展開的方法破壞了原來的幾何結構，産生了巨大的畸變使圖像品質下降。

圖 1 展開網格的球面圖像

為解決上述問題我們進行模組化，提出了如圖2所示的架構，從資料級别、更新檔級别和損失級别三個程度去做。首先，SGA 圖像投影。因為球形有 α、β、γ 三個次元，按照這三個次元進行不同旋轉，然後在不同的資料增廣。經過球形幾何增廣後，利用圖檔再做分割，使它能感覺到整個變化，說明學到了這個知識。第二，增加對稱性限制。因為球旋轉任何角度沿着經線切開後，兩邊都服從對稱結構。對稱性就是觀察球按照經線切開時左半面和右半面的直接變化，即圖像的變化知識 Δ。Δ 是一個對稱關系，如果對稱就展現了結構變化，是以希望利用對稱知識模組化。第三，像素密度，即希望在圖 2 右下圖所示球面沿着紅線和藍線展開時（紅線區域的像素點最多，藍線區域的像素點少），利用像素密度的變化，對它進行像素的weight，最後進行重新權重。因為學的知識少，前面的像素就少，後面的像素就多，産生了不平衡，我們希望把它糾正過來，即按照緯度周長重新權重。

圖 2 架構

表1和圖3所示的結果顯示，通過上述簡單操作，所提方法會很快提升 mIoU 的性能和 PAcc，以及其性能的穩定性。

表 1 本方法與 SOTA 性能比較

圖 3 性能穩定性

這裡我們利用了幾何結構知識會産生一些定性結果。比如，從圖 4 所示的原始圖檔會看到一個沙發和一扇門，以地面為标簽門被切成了兩半。因為圖像分割強調感受野，如果利用圖像分割算法，門的感受野不會連在一起，是以一定會分割錯的。結果雖然相同——不完整、很亂，但是這裡可以把沙發完整分割出來，門大部分都推出來，因為我們考慮了幾何結構，知道這兩個結構是連接配接的，是以将它拓撲補全，把感受野拉平得到了很好的結果。有了這個結果就可以把圖像任意旋轉，旋轉到一定程度時會發現，旋轉的标簽與原始标簽做類似的對齊，保持一個基礎的 assistant，就可以得到幾何感覺的認知結果。即俯仰角 / 橫滾角 / 偏航角的旋轉分别為5°/5°/180° 時，SGAT4PASS 獲得了語義類“門”和“沙發”（見圖 4 所示紅色虛線框）的更好結果。

圖 4 SGAT4PASS 和 Trans4PASS+ 的可視化比較

1.2 SphereDiffusion：球形幾何感覺失真彈性擴散子產品

面向球形圖像分割問題的研究工作取得了一個較好的結果，我們将工作繼續深入，做球面圖像生成。

球面全景圖像有兩個特點，一是球面畸變，文本-物體預訓練知識無法得到有效利用；特征提取困難，導緻語義偏差。二是現有模型缺乏幾何感覺設計，難以學習和使用球面幾何特征。如何讓模型能夠學習和利用特征，提高可控球面圖像生成的品質，我們具體做了下面的研究。

球面圖像生成過程和上述工作是相反的過程（見圖 5）。因為球面幾何的生成任務，其生成問題就是一個擴散模型，在降噪、加噪過程中把噪音去掉，然後再加噪，不斷訓練、疊代，去推理。實際上，這裡希望把幾何球形加到球形模型裡，然後通過提醒，做最後的邊界和知識的重新利用，并進行整合。在這個過程中，我們的關鍵思想是把這個特殊的球面幾何放到架構裡做生成。

圖 5 球面圖像生成過程

圖 6 所示的是我們的去噪核心架構，有幾個基本的操作，第一個，Spherical SimSiam Contrastive Learning 模塊，做球面旋轉的操作。這裡加了ControlNet 的一個 Shared 條件去做生成，以保證結果要一緻。第二個操作模塊是Deformable Distortion-awareBlock (DDaB)，保證此區間可變形。第三個可變形子產品就是 Spherical Reprojection，在每次生成過程中，我們故意旋轉生成一個步驟，把map 旋轉到一定程度後再去做二次投影，保證旋轉一緻性；然後再生成，再保持旋轉一緻性。在這個過程中就把 diffusion 和幾何知識充分地連接配接在一起，得到了一個非常好的效果。

圖 6 球面圖像生成去噪過程

從表 2 所示結果看出，在标準子產品中使用相同的超參數設定和訓練周期數進行公平比較，我們的方法可以實質地下降 FID、FIDs 和 IS 名額，解決了特殊全景圖像生成問題，更加适合應用。

表 2 與 Strcu-ture3D 資料集上現有方法進行比較結果

最後得到的結果就是我們希望有一個文本提示，比如 A bedroom with white walls and a pink bed，就是 segmentation 的文本提示。如圖 7 所示，我們采用的方法最後生成的結果都非常好，可控性也比較好，可以做到直接生成全景圖像，即不需要做二維圖像直接在三維球形上生成。

圖 7 圖像生成結果

2 LayoutDiffusion: 用于布局到圖像生成的可控擴散模型

有了上述成果後，繼續深入研究，把平面圖像生成放進模型中。layout 的知識是一種廣告設計裡的結構，我們希望把球面做平面的 layout。layout 的知識就是可控邊界框，把其大小、位置标簽放在這裡後，用它作為一個可控 map 反向去生成圖檔。比如，我們希望對 layout 做編碼，如對圖像、位置、坐标進行編碼，然後加上文本的 prompt，生成想要的裝修設計圖。問題結果就是，我們做設計，最後生成圖，這樣的原始訴求；即我們希望把它解碼。第一個解碼就是 box 的位置、大小語義、目标背景等結構放在一起做。最重要的結果是可以做比較好的可控生成。這裡做的生成和mid journey 不同，更多的是希望能做到編輯，因為要做生成需要訓練大量圖檔。比如，在應用中隻要簡單拖一個框，即可以改變圖像具體位置大小。對此我們也做了接口，并已經開源。

3 使用語言自适應推理引用表達了解

前面主要闡述了圖像結構知識，如球面的幾何結構知識、圖像廣告設計的結構知識，我們希望将其深入到網絡，而這就涉及到跨模态，需要自然語言和網絡視覺處理的結構知識共鳴。也就是通過看不同圖檔，通過語言提示找出不同焦點。比如，看大人或小孩他們的視覺特征不同。為此希望做到生成語言自适應的視覺結構，也就是語言不同，提示不同，其特征視覺特征通路也不同；如同人的腦神經環路，根據不同提示轉換的神經環路不一樣，但是網絡的總體結構是相同的。我們希望達到這樣一個類似仿生網絡的結構。

如圖 8 所示的語言自适應動态子網架構，BERT的方法進行編碼後就生成了如Blockbone和 Christmas的一個開關向量。開關就是一個sigma 的 filter 濾波器。濾波器就是學怎麼生成濾波器，濾波器做完後網絡路徑是什麼？最後放到Transformer 裡模組化，即形成視覺通路，一個語言特征濾波器的門變量，以及最後生成一個自适應的子網；也就是不同的語言有不同的 sub，這樣的一個映射關系。是以，跨模态就是語言特征和神經網絡特征推理結構本身的映射，這兩個映射能形成自适應控制。

圖 8 語言自适應動态子網架構

圖9 示出了它的技術原理，希望生成特征以後就生成一個FC，然後binary特征沉到feature map上，再去做 gete 向量，Softmax 做歸一化得到特征。

圖 9 門控網絡技術原理

圖10 所示圖檔顯示的特征更加直覺，從圖中可見，灰色條被跳過不執行，也就是不同的照片會看到網絡執行的路徑完全不同。因為映射關系計算量對模型和高度語言之間緊密相關，我們希望說不同的話執行不同的通路，這樣就可以實作可控性和動态性的适配，這是核心思想。

圖 10 REC 的動态性特征

4 用于多任務視覺基礎的語言自适應權重生成

上面主要介紹了通過語言調整（language modulation）執行子產品，進一步我們研究了用語言直接生成特征參數，也就是語言可控（language control），其控制的變量在關鍵時通過自然語言的裡的 W 參數，如圖 11 所示的視覺參數F(l：W，A)、F(l：W，A) 和 F(l：W，A)，然後去做 Task 或者 Cross，這是其核心思想。

圖 11 技術原理

其技術原理就是用語言特征把圖像進行結構化，通過外置的方法去做 query、key、value，最後生成所要結果。

（參考文獻略）

李玺

浙江大學上海高等研究院副院長、教授，國家傑青獲得者，IET Fellow；國家級領軍人才，科技部科技創新 2030-“新一代人工智能”重大科技項目負責人，國家自然科學基金委聯合基金重點項目、教育部重點規劃研究項目負責人。在國際權威期刊和會議發表論文 180餘篇，多篇 ESI 高被引。曾獲世界人工智能大會 SAIL 獎、國際會議論文獎、中國發明協會創業創新獎一等獎、教育部科技進步獎一等獎、CSIG 自然科學獎二等獎等。

選自《中國人工智能學會通訊》

2024年第14卷第2期

科技前沿專題

特約文章丨多模态視覺結構學習

繼續閱讀

#頭條創作挑戰賽#又到五一放假時，今年的五一怎麼過，好像還沒有一個計劃。之是以會這樣，因為每天都有學習計劃，遇到節日的時

黨紀學習教育丨學習語：自覺做良好政治生态的有力促進者

縣委理論學習中心組集體學習研讨會召開

前幾天，我興沖沖地寫了一篇文章，加入很多七零、八零後的回憶。我對這篇文章的期待較高，預計能引起很多七零、八零後朋友的共鳴

新《保密法》學習快速上手：這十個知識點你得掌握

【黨紀學習教育】每日一課 | 《中國共産黨紀律處分條例》對搞兩面派、做兩面人的處分規定有哪些？

為什麼女人不喜歡太瘦的男人？看完文章你就明白了

為什麼突然覺得五一旅遊沒什麼意思了？看完文章你就明白了

預防電信詐騙，這篇文章全是幹貨！

黨員幹部如何增強紀律定力？ | 黨紀學習教育

@黨員幹部，“五一”過節不“失節” | 黨紀學習教育

周周記：數學模組化學習（5）

暢享聊：SolidWorks學習（15）

黨紀學習教育 | 加強警示教育築牢思想防線

從國小習勞模精神，徐彙學子們做了這些

陳牧馳複出将登央視？遭網友痛批：文章、蔣勁夫太冤了!