IEEE Fellow梅濤：視覺計算的前沿進展與挑戰

創造出具有智慧的機器，邁向通用AI是人類長期以來的夢想。當下的AI發展到了哪個階段？

作者 | 維克多

編輯 | 青暮

今年12月9日，第六屆全球人工智能與機器人大會（GAIR 2021）在深圳正式啟幕，140餘位産學領袖、30位Fellow聚首，從AI技術、産品、行業、人文、組織等次元切入，以理性分析與感性洞察為軸，共同攀登人工智能與數字化的浪潮之巅。

大會次日，IEEE/IAPR Fellow，京東集團副總裁，京東探索研究院副院長梅濤在GAIR大會上做了《從感覺智能到認知智能的視覺計算》的報告，他指出視覺計算的感覺研究雖然已經相對成熟，某些人工智能（AI）任務已經能夠通過圖靈測試，例如在内容合成與圖像識别，但在視訊分析領域，視訊資料内容多樣化以及視訊語義的不清晰等原因導緻該領域還存在大量挑戰性問題。

同時，在認知領域，視覺計算已經有一些進展，例如Visual Genome、VCR等資料集已經布局結構知識模組化；而在推理層面，國内學者已經嘗試通過聯合解譯和認知推理深入了解場景或事件。

以下是演講全文，AI科技評論做了不改變原意的整理：

今天的演講題目是《從感覺智能到認知智能的視覺計算》。在開始之前，先用兩個圖靈測試的例子大緻說明AI的進展。

首先計算機視覺不僅在識别領域，在内容合成領域已經達到通過圖靈測試的标準。正如上圖所示，人類已經很難在一組圖檔中将兩張機器合成的圖檔挑選出來。

另外一個圖靈測試的例子是“看圖說話”：給定一張圖檔，描述圖檔的内容。下面兩句話分别由人（第一句）和機器（第二句）生成。很顯然，如果不仔細看圖檔，可能會潛意識的認為機器比人寫的詳細。

1.a dog is lifted among the flowers

2. a dog wearing a hat sitting within a bunch of yellow flowers

如果仔細觀察圖檔，就會發現确實有一隻手把小狗舉了起來。這也說明：不太經常發生的現象，機器很難描述，其原因和機器學習的内容相關，以及機器沒有邏輯推理能力。

通過上述兩個例子我們可以看出：在感覺領域，AI已經超越人類；而在認知領域，它還欠缺一些火候。

計算機視覺的進展與挑戰

上圖是計算機視覺在過去五六十年取得的進展，2012年深度學習“大火”之前，計算機完成視覺任務通常有兩個步驟：特征工程和模型學習。

特征工程的特點是完全依靠人類智慧，例如設計Canny edge、Snak、Eigenfaces等參數特征，同時這些方法已經獲得了大量的引用，Canny已經被引用了38000次，Snak 18000次，SIFT更是已經超過了64000次。

2012年之後，深度學習興起，颠覆了幾乎所有的計算機視覺任務。其特點是将傳統的特征工程和模型學習合為一體，即能夠在學習的過程中進行特征設計。

深度學習火熱的另一個标志是每年有大量的論文投到計算機視覺頂會（CVPR、ICCV、ECCV等），同時如果這些方法表現“傑出”，就能夠獲得大量的流量，例如GoogleNet VGG在不到8年的時間裡獲得了10萬次引用；2015年的ResNet更是在更短的時間獲得了接近10萬次的引用。

這說明深度學習領域在飛速發展，而且進入這個領域的人越來越多。一方面不僅深度學習網絡在不斷“更新換代”，圖像、視訊等資料集也在不斷增長，甚至有些資料集規模已經過億。

其中，深度學習的一個趨勢是“跨界”。在2019年，Transformer在自然語言處理領域的性能被證明“一枝獨秀”，現在已經有大量學者開始研究如何将其納入視覺領域，例如微軟亞洲研究院swin transformer相關工作獲得了ICCV的最佳論文獎。

上圖展示了随着研究範式的變化，資料集的變化趨勢。無論是資料集的類别還是資料集的規模都在不斷增大，有些資料集更是超過了10億級别。目前類别最多的是UCF101資料集，其中包括101個類。同時，大規模也帶來了一個弊端：一些高校和小型實驗室無法進行模型訓練。

特定領域進展如何？在圖像識别領域，最廣為人知莫過于ImageNet競賽。其任務是給定一張圖，預測出五個相關的标簽。随着深度學習網絡的層數越來越深，識别的錯誤率越來越低，到2015年， ResNet已經它達到了152層，并且已經超過了人類識别圖像的能力。

在視訊分析領域。Kinetics-400 視訊分析任務反應了該領域的進展，從2017年和2019年出現了各種适合視訊任務的神經網絡，其網絡大小、深度并不一緻，而且從準确率、識别精度上看，也沒有一緻的結果。換句話說，該領域存在大量的潛力（open question）。至于原因，個人認為有兩種：

1.視訊内容非常多樣化，而且是時空連續的資料。

2.同樣的語義，在視訊中會有不同的含義。例如不同語氣和不同表情下對同一個詞的輸出。

過去10~20年，視覺感覺領域存在很多主題。如上圖所示，從最小力度的像素級别到視訊級别，基本上可以歸為幾大研究領域：語義分隔、物體檢測、視訊動作行為識别、圖像分類、Vision and language。其中，Vision and language最近五年比較火熱，其要求不僅從圖視訊内容裡面生成文字描述，并且也可以反過來從文字描述生成視訊或者圖檔的内容。

總結起來，目前視覺研究的主要方向還是進行RGB視訊和圖像研究，在不遠的将來，成像的方式會發生變化，那時研究的資料将不僅是2D，更會過渡3D，甚至更多的多模态的資料。

在視覺了解領域，通用的視覺了解非常簡單：例如區分貓和狗，區分車和人。但在自然界裡，要真正的做到對世界的了解，其實要做到非常精細的粒度的圖像識别。一個直覺的例子是鳥類識别，理想中的機器需要識别10萬種鳥類，才能達到人類對“了解世界”的要求。如果再精細一些，需要達到商品SKU細粒度識别。

注：一瓶200毫升和300毫升的礦泉水就是不同粒度的SKU。

過去幾年，京東在這方面做了一些探索。探索路徑包括：detection的方式，detection結合attention的方式，以及自監督的方式。涉及論文包括CVPR2019 的“Destruction and Construction Learning ”以及CVPR 2020的“Self-supervised”相關工作。

CVPR 2019：Destruction and Construction Learning for Fine-grained Image Recognition

論文位址：https://openaccess.thecvf.com/content_CVPR_2019/papers/Chen_Destruction_and_Construction_Learning_for_Fine-Grained_Image_Recognition_CVPR_2019_paper.pdf

CVPR 2020：Look-into-Object: Self-supervised Structure Modeling for Object Recognition

論文位址：https://arxiv.org/abs/2003.14142

視訊領域非常有挑戰，當年我想借鑒ResNet，畢竟在圖像識别領域它是非常有創新的網絡，因為其裡面包含skip level的調整。是以，當時我想把2D的CNN直接應用到3D領域。

其實，相關工作已經有人嘗試，但存在一定的困難。例如Facebook發現，如果沿着xyz三個軸進行卷積，參數會爆炸，是以很難提高模型性能。是以在2015年，Facebook隻設計了一個11層的3D卷積網絡。

我的嘗試是基于ResNet進行3D卷積設計，但也遇到了和Facebook同樣的困難，即參數爆炸。是以，在CVPR 2017年的一項工作中，我利用一個1*3*3的二維空間卷積和3*1*1的一維時域卷積來模拟常用的3*3*3三維卷積。

通過簡化，相比于同樣深度的二維卷積神經網絡僅僅增添了一定數量的一維卷積，在參數數量、運作速度等方面并不會産生過度的增長。與此同時，由于其中的二維卷積核可以使用圖像資料進行預訓練，對于已标注視訊資料的需求也會大大減少。目前該論文引用超過1000次，得到了行業的認可。

CVPR 2017：Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

論文位址：https://arxiv.org/abs/1711.10305

其他研究領域也有很多問題有待開發。例如在3D視覺研究方面，不僅需要語義分割，還需要估計物體的姿态；在Image to Language研究中，不僅需要給定一張圖檔生成一段描述文字，還需要知道物體之間的空間關系語義關系。

視覺感覺的應用

AI一直被認為是改變工業界的範式，2019年PWC（麥肯錫）曾經釋出過一個報告：AI對整個全球的經濟的貢獻，在2030年之前，每一年會是14%的提升。并且在中國，增長空間是26%。

将AI應用到工業界，基本需要滿足三個條件中的任何一個：降低成本、提高效率、提升使用者體驗。市值萬億美金級别的公司，例如微軟和蘋果，其共同的特點在于企業會全面、大規模、一次性的推廣AI技術。

大規模推廣AI技術時，誕生了許多很有意思的應用，例如“拍照購物”，核心技術是Photo-to-search，該領域已被深耕多年，但真正能發揮的場景是電商。以京東為例，它的拍照購物準确率以經比四年前提高許多，使用者轉化率提升了十幾倍。

另一個電商零售中的例子是“智能搭配”，其目的不僅是讓AI推薦同款商品，還要讓AI提供穿搭建議。例如當使用者購買上衣時，AI自動搭配一個裙子或者一雙鞋，并且生成一段描述，告訴使用者“為何如此搭配”。該功能上線之後，其帶來的點選率超過了人工搭配。

智能導播應用也是AI比較擅長的。例如足球比賽中會有很多固定的相機，相機中的視訊會傳遞到轉播車，然後會有20~30個從業人員不斷的制作視訊，提供轉播流，每個人看到的轉播流都是相同的。所謂智能導播是指：用AI學習人類導播的方式，然後根據每個使用者的喜好，輸出相應的内容。喜歡足球的使用者會着重推送精彩的射門、動作；喜歡球星的使用者會着重推薦球員的特寫，進而達到千人千面的效果。

智能導播涉及的技術比較廣泛，例如：動作/事件識别、人臉識别、姿态估計、高光檢測、相機視圖切換等等。值得一提的是，二十年前，我在微軟實習時候，導師就安排過相應的任務，但是由于資料和算力的限制，沒有做到很好的效果。兩年前，我們才在京東上線該功能。

元宇宙的概念很火熱，京東也在數字人方面做了一些嘗試。日前也憑借跨模态分析技術、多模态互動數字人技術分别斬獲ACM國際多媒體頂級會議的最佳示範獎（Demo）。

傳統的數字人隻能進行“文字互動”，而今天的數字人希望能夠模拟真人進行對話，其特點在于形象、逼真、實時反應等等。目前，數字人技術已經成功在市長熱線中部署。

邁向通用AI

通用AI一直是人類的夢想，邁向通用AI的過程中，在視覺方面必須要從感覺過度到認知，如此智能視覺系統才能進行決策。

但其中會遇到很多挑戰，例如魯棒性，直接表現在自動駕駛領域，汽車相撞、識别錯誤等等都表明系統不夠魯棒。模型和資料偏見也是學界經常讨論的焦點，前段時間AI領域的大牛Yann LeCun在推特上因為“偏見來自資料還是來自模型”的發言被diss退網。

認知智能和感覺智能的差別主要有兩點，在目标層面，傳統AI希望增強人類思維并提供準确結果，而認知AI希望模仿人類行為和推理；而在能力層面，傳統AI希望找到學習模式或揭示隐藏資訊；而認知AI希望能夠模型人類思維進而找到解決方案。顯然，認知AI将來會有很多用途，例如可信系統、模型解釋等等。

實作認知AI，有三個核心問題要解決：第一，需要考慮如何對結構知識進行模組化；第二，如何讓模型可解釋；第三，如何讓系統擁有推理能力。

針對結構知識模組化，學界目前已經有一些嘗試，例如斯坦福大學李飛飛開發的Visual Genome資料集，華盛頓大學釋出的VCR資料集等等。

推理方面進展如何？北京通用AI研究院朱松純教授最近在《中國工程院院刊》中發表論文稱：通過對一張簡單圖檔的分解，計算機視覺系統應該能夠同時進行以下工作：1.重建3D場景估算相機參數、材料和照明條件；2.以屬性、流态和關系對場景進行層次分析；3.推理智能體（如本例中的人和狗）的意圖和信念；4.預測它們在時序上的行為；5.恢複不可見的元素，如水和不可觀測的物體狀态等。

論文題目：Dark, Beyond Deep: A Paradigm Shift to Cognitive AI with Humanlike Common Sense

論文位址：https://arxiv.org/abs/2004.09044

最後，以gartner的一張趨勢預見圖結束演講。每一個技術的開始都會經曆缺口、泡沫、泡沫破滅以及谷底、理性回歸等幾個階段。正如上圖所示，通用AI裡面的可解釋性、可信任都還在爬升階段，而計算機視覺已經到了第四階段的尾聲，這意味着未來的兩三年，計算機視覺會邁向技術成熟階段，而且會得到大規模的商用，普惠人類生活。

雷峰網雷峰網

IEEE Fellow梅濤：視覺計算的前沿進展與挑戰

繼續閱讀

人工智能帶來育兒焦慮，澳洲華人家長為子女的未來憂愁

OpenAI o1與人工智能的過去與未來

未來不會被人工智能取代的4個領域，第1個最穩，第4個成本效益最高

Adobe的Project Turntable人工智能工具可在三維空間中旋轉二維藝術作品

陳健淋｜通用人工智能視野下企業資料賦權的類型展開

科學家利用新型人工智能揭開嬰兒學習和發育的秘密

南沙和華為強強聯手！共建人工智能生态基地

2025年人工智能十大趨勢！最新預測→

張藝謀透露《三體》進度：隻拍一部、大幅删改、引入人工智能

法蘭克福書展聚焦人工智能發展與監管

人工智能未來十大趨勢

研學報道|“探索科技前沿引領未來創新”人工智能創新應用博覽會研學之旅啟航

論壇直擊|人工智能創新應用發展領航交流會圓滿舉辦

數字科技、人工智能拯救春晚收視率

DeepSeek出世，人工智能厲害，教師會被取代嗎？讀書還有意義嗎？

一邊大量失業一邊搞人工智能，發展搶了幾億人飯碗，未來怎麼辦？