多模态學習研讨會：預訓練是AI未來所需要的全部嗎？

編者按：文字、圖檔、語音、視訊……我們的日常生活充滿了不同模态的資料，涉及不同模态資料互動的任務也越發普遍。最近，微軟亞洲研究院舉辦了一場多模态表征學習與應用研讨會，與來自亞太高校的多位學者深度探讨了多模态學習的現狀與未來趨勢。

今天，我們生活在一個由大量不同模态内容（文本、圖像、視訊、音頻、傳感器資料、3D 等）建構而成的多媒體世界中，這些不同模态的内容在具體事件和應用中具有高度相關性。跨模态任務也越來越多，涉及多個模态的資料的互動，例如圖像和視訊的檢索，字幕，視訊摘要，文本到圖像和視訊的預測與合成，語言驅動的時空動作定位，以及視覺常識推理等等。

是以，跨模态學習日益引起了學術界和工業界的關注。跨模态學習進行聯合特征學習和跨模态關系模組化，旨在有效地利用不同模态内容的相關性進行系統性能優化。對多模态内容的深入了解主要依賴于特征學習、實體識别、知識圖譜、邏輯推理、語言表達等方面的多種技術。

近日，微軟亞洲研究院舉行多模态表征學習與應用研讨會，與來自首爾國立大學、台灣大學、清華大學和中科院的學者們深度探讨了多模态表征學習在多媒體應用服務方面的最新研究進展和未來發展趨勢，以推動整個領域向更好的方向發展。

預訓練的崛起

多模态學習在多媒體領域并不新鮮。早在20世紀90年代中期，多媒體領域開始“起飛”之時，人們就開始研究多模态學習的問題。那麼，為什麼它最近再次成為研究熱點呢？

通常，技術的崛起很大程度上取決于底層技術的發展和突破。多模态學習對于實際系統的性能優化至關重要，同時也是一個難題。它通常需要将不同模态資料嵌入到一個公共表示空間中，以便進行對齊、比較和融合。在早期，人們使用手工方法，根據先驗知識和常識尋找一個良好的嵌入空間，但如何找到最佳嵌入空間是一個極其困難的問題。而現在，借助深度學習技術已經能夠輕松尋找良好的嵌入空間，但是目前大多數深度學習方法依賴于大量有标注的資料，要想獲得更好的性能，就必須擁有更多的有标注資料，這成為了一個主要瓶頸。在實踐中，對大量資料進行标注并使訓練收斂到最佳位置，其困難程度絲毫不亞于手工制作一個良好的嵌入空間。對于多模态學習更是如此，因為它需要同步标注對齊的多模态資料，例如圖像和語音對齊。

2018 年，用于自然語言表示模組化的 BERT 技術（即由變型器組成的雙向編碼器表示技術） [1] 的出現，為深度學習擺脫對有标注資料的依賴提供了一種新選擇。理論上，基于 BERT 技術可以利用無限量的未标注資料作預訓練，然後再利用針對特定任務的少量有标注資料進行微調，進而實作對不同任務（如問題解答和語言推理）的優化。此後，類似 BERT 的無監督預訓練技術在許多自然語言處理任務中取得了突破性進展。

事實上，預訓練技術在計算機視覺任務的有監督學習中早已得到廣泛應用。例如，把為 ImageNet 分類任務預先訓練的網絡作為初始狀态來訓練其他視覺任務（如目标檢測和語義分割）是非常流行的做法，并可以顯著提高性能。當預訓練技術在 BERT 中應用時發揮出了極高的應用效能，因為它可以借助無限量的無标注資料，以無監督的方式預訓練好各種功能。這從根本上解決了大資料問題。

提供大量有标記多模态資料一直是解決多模态學習問題（如了解、轉換和生成）的一個重大挑戰，類似 BERT 的無監督預訓練技術很好的解決了這一難題，并且可以顯著提高系統整體性能。例如，在本次研讨會上，微軟亞洲研究院的研究人員展示了在視覺語言任務中的通用表示預訓練 [2]、具有視覺内容的多模态自然語言處理 [3]，以及視訊語言跨模态任務的預訓練 [4] 等方面所取得的重大進展。其中，部分技術成果已經轉化到微軟核心産品中，取得了良好的應用效果。

然而，挑戰依然存在。掌握大量比對的多模态資料仍然是少數大公司的一項特權，不同模态之間的精細對齊問題，以及多模态預訓練的有效架構，這些問題依然具有挑戰性。例如，我們是否應該對多模态模型進行聯合預訓練？亦或是應該先對各個模态分别進行預訓練，然後再找到融合的方法？對于大多數研究機構而言，計算和存儲能力是有效開展預訓練主要瓶頸。正如此次研讨會所展示的，大多數預訓練相關工作是由來自谷歌、微軟和 Facebook 等少數行業巨頭的研究人員完成的。學術界很難具備預訓練所需的計算和存儲能力。于是，他們更注重通過結合更多的模态，有效和高效的網絡架構設計，以及有效利用人類知識來提高系統性能。也有研究人員開始嘗試通過更好的架構和更小的模型實作更快的預訓練，進而降低對計算和存儲能力的需求。

預訓練是 AI 未來所需要的全部嗎？

本次研讨會也對這個問題進行了深入的讨論。計算和存儲能力的挑戰是一個普遍存在的問題，即使對于業界公司來說，足夠的計算和存儲資源也是重大瓶頸。

我們一緻認為，預訓練将是未來 AI 的非常重要的組成部分，但我們需要的不止這些。人類豐富的先驗知識需要有效地內建到系統中，以減少我們對大資料、模型和計算的依賴。此外，學術界與工業界可以密切合作，充分發揮雙方的優勢。例如，高校開設了許多學科，是以在跨學科研究方面具有天然優勢，而工業界在資料收集和計算資源方面實力雄厚。如果有更多的開源項目，讓更多的人能夠參與到相關研究中并做出貢獻，必将有力推動技術快速向前發展。

另外，應該重視 AI 系統的可解釋性。無監督的預訓練在很大程度上是由資料驅動，這意味着它存在黑箱算法的局限性，如果不了解黑匣子裡發生了什麼，那麼将來研究人員和實踐者有可能建構出不能明确解釋的系統，這顯然存在較高的風險且令人擔憂。

本文融入了多模态表示學習與應用研讨會中諸位專家表達的觀點。感謝參加此次研讨會的各位來賓和主講嘉賓曹越研究員、陳熙霖教授、段楠研究員、徐宏民教授、紀蕾研究員、Gunhee Kim教授、魯繼文教授和羅翀研究員，感謝他們為推動這個領域向前發展所作的貢獻和巨大努力。

參考文獻：

[1] Devlin, J.; Chang, M.-W.; Lee, K.; and Toutanova, K. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proc. of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1 (Long and Short Papers), 4171–4186.

多模态學習研讨會：預訓練是AI未來所需要的全部嗎？

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普

詳解STM32單片機的堆棧