天天看點

CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、互動到共生

CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、互動到共生

This monkey on the back of horse

CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、互動到共生

Disney made the best cake of all time using projection

CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、互動到共生

 Tiny squid flopping around on the rocky bottom of fish tank

注:為了更好地便于讀者了解和推動視覺語言領域的發展,将這幾年我們關于視覺與語言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])進行開源,這些對應的源碼都在 GitHub 上陸續公開(

https://github.com/JDAI-CV/image-captioning

),敬請關注!

緣起

視覺與語言,即視覺内容了解和自然語言表達,原本分屬于計算機視覺(CV)和自然語言處理(NLP)兩個不同的研究領域。然而在 2014 年,圖像描述生成(Image Captioning)猛然打破了兩者間的壁壘,憑借着機器翻譯中經典的 encoder-decoder 模型一下貫通了從視覺内容到語言表達的轉換,為 CV 和 NLP 領域的後繼者同時打開了一個不同模态交叉融合的新世界。與機器翻譯中不同自然語言間的轉化相仿,圖像描述生成任務可以提煉為從一種視覺語言(圖像特征表達)到自然語言(描述語句)的轉換。現今主流的圖像描述生成算法的原型都可概括為兩個子產品:視覺編碼器(Visual Encoder)和語言解碼器(Language Decoder)。前者負責對視覺内容的了解,将視覺語言編碼為富含語義資訊的特征表達,後者則依據編碼後的特征表達來解碼出相應的語言描述。

 自洽

各自文化的起點都是從蹒跚學步的孩童開始,漸漸形成一個完備自洽的體系。對于視覺和語言也是如此。身處深度學習的浪潮之中,視覺和語言各自也都在不斷地往前進步,譬如由底層紋理到高層語義的視覺内容了解(Visual Understanding),亦或是由單個詞出發演化至整個詞序列的語言模組化(Language Modeling)。在這一階段的視覺與語言模型本質上是視覺編碼器和語言解碼器的簡單串聯。以圖像描述生成任務舉例,該階段的研究重心往往是如何從圖像視覺内容中解析出更多的高層語義資訊,并将這些語義資訊融入到視覺編碼的過程中,以增強編碼器輸出的視覺特征表達。這一研究思路也正是我們在前三年一系列工作的脈絡,即屬性(Attributes)-> 關系(Relation)-> 結構(Hierarchy)。 

CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、互動到共生

如上圖,首先是 2017 年我們嘗試在視覺内容編碼的過程中引入高層的語義屬性,它不僅包含圖像中顯著的物體,也具備背景中的場景資訊。在擷取高層語義屬性後,我們不僅可以在特征層面将語義屬性特征融合至編碼特征中(LSTM-A [1]),也可以将識别的語義屬性詞直接「拷貝」到解碼出的描述中(LSTM-C [5])。接着在 2018 年,受到 Bottom-Up [6] 中通過物體檢測器擷取高性能的物體區域特征的啟發,我們進一步去挖掘物體和物體之間的關系(GCN-LSTM [2]),建構出物體間語義和空間的關系圖,進而促進對圖像的了解。盡管物體間關系圖有效地引入了物體間關系的語義資訊,但依然無法充分表達整個圖像所包含的豐富語義。故在 2019 年,我們提出了一種多層次的樹形語義結構(HIP [3]),它囊括了從語義分割後的物體執行個體到檢測後的物體區域再到整個圖像的不同層級之間的語義資訊。通過這樣一種樹形結構可以實作對物體不同層次間語義關聯性的編碼,以解碼出更為精準的描述文本。

 互動

視覺與語言發展的第一階段自洽可以看做是每個文化獨立的發展史,所衍生的算法模型也大多是視覺編碼器和語言解碼器的簡單串聯。然而沒有一種文化可以在發展中獨善其身,互相調和與互動将是必然。是以現今的視覺與語言漸漸步入互動的階段,目的是促進視覺編碼器和語言解碼器間的資訊互動。注意力機制(Attention Mechanism)是不同模态間最典型的資訊互動手段。它可以通過每一時刻解碼器的隐狀态來推斷目前編碼器中需要關注的圖像區域,以此幫助編碼器更好地了解圖像内容。如下圖,早期的注意力機制 soft-attention [7] 會依據條件特征 Q(解碼器目前的隐狀态)與每一個圖像局部區域特征 K 的線性融合來擷取該區域對應的注意力權重,再将每一個注意力權重作用于局部區域特征 V 實作圖像特征的聚合編碼。在這兩年也湧現了多種更新版本的注意力機制,比如自頂向下的 top-down attention(Bottom-Up [6])、同時捕捉多種注意力的 multi-head attention(Transformer [8])和利用門控進一步過濾注意力的 attention on attention(AoANet [9])。 

CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、互動到共生

當我們回顧傳統的注意力機制時,可以發現它往往利用線性融合來進行跨模态的特征互動學習,是以其本質隻挖掘了不同模态間一階的特征互動,大大限制了注意力機制在視覺與語言這一複雜的跨模态内容推理任務中的作用。針對這個問題,我們在最新的 CVPR 2020 工作 X-LAN [4] 中打造了一個能實作高階特征互動的注意力機制 X-Linear attention。它可以利用雙線性融合技術去挖掘不同模态間二階乃至更高階的特征互動資訊,以增強跨模态的内容了解。

同時,該 X-Linear attention 可以作為一個靈活的插件接入到目前流行的各種圖像描述生成模型中,極大地提升編碼器和解碼器在模态内和跨模态間的特征互動能力。我們也在最為權威的 COCO 線上評測系統上對所設計的圖像描述生成系統進行測試,在多個名額上均達到世界第一的水準(如下圖)。 

CVPR 2020 | 京東AI研究院對視覺與語言的思考:從自洽、互動到共生

共生

盡管視覺内容的了解可以随着各種高性能網絡的設計和語義的深入挖掘不斷更新,視覺和語言間互動的方式也已經從傳統的 soft-attention 演化到捕捉高階資訊互動的 X-Linear attention,但視覺與語言的技術發展依然逃脫不了深度學習對于訓練資料的貪婪。COCO12 萬+的圖像,約 60 萬的人工标注語句,天然制約了圖像描述生成技術進一步的發展。無論是對于更多物體的了解還是對于更廣泛語言的表達,亦或是更精細更本質的視覺-語言比對,都需要更細粒度、更大規模的視覺與語言标注資料來支撐。那麼如何打破這一視覺語言資料的壁壘?如何突破目前算法的瓶頸?當人們對某種文化進行反思甚至于迷茫的時候,就意味着一個新的起點将應運而生。是以在當下,視覺與語言也需要迎來一個新的階段,其目的是在更廣大的資料上挖掘出兩者間最為本質的共生特質,進而促進不同模态間更為自由的轉換。具體而言就是我們需要在海量的弱監督甚至于無監督視覺語言資料上去習得兩者間最為本質的聯系,然後再賦予模型在各種視覺與語言任務上的生命力。目前剛剛興起的視覺語言預訓練(Vision-language pre-training)或許可以成為破局的關鍵。借助于海量網頁自動抓取的視覺語言資料,如 Conceptual Captions 和 Auto-captions on GIF,我們可以預訓練一個通用的編碼器-解碼器模型。正是因為在海量資料上所學會的視覺語言共生特質,該預訓練模型可以全方位地賦能各種視覺與語言的下遊任務,打破每一個下遊任務中視覺與語言訓練資料的限制,實作了「大一統」的視覺與圖像間跨模态了解與轉換。 目前,京東 AI 研究院的這些技術已在京東應用落地。例如商品圖像搜尋和圖像稽核等場景,同時也正嘗試将視覺與語言技術融入任務驅動型多模态增強對話中,旨在提升人機互動效率和使用者體驗。 

結語

好奇心是個人或者組織創造力的源泉,在權威圖像描述生成評測集 COCO 上的成績彰顯了京東 AI 研究院在視覺與語言領域的世界領先水準。京東智聯雲将一面以智能供應鍊、「新基建」等為抓手,幫助政府、企業、個人進行數字化、網絡化、智能化轉型,成為了與零售、物流、數字科技組成了京東四大核心業務版圖,是京東對外技術與服務輸出的核心通道。一面以「ABCDE」技術戰略為基礎,保持前沿的技術技術研究和好奇心,即「以人工智能(AI)為大腦、大資料(Big Data)為氧氣、雲(Cloud)為軀幹、物聯網(Device)為感覺神經,以不斷探索(Exploration)為好奇心」。

參考文獻

[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei,「Boosting Image Captioning with Attributes.」In ICCV, 2017.[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Hierarchy Parsing for Image Captioning.」In ICCV, 2019.[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei,「X-Linear Attention Networks for Image Captioning.」In CVPR, 2020.[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.」In CVPR, 2017.[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio,「Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.」In ICML, 2015.[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut,「Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.」In ACL, 2018.[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei.「Attention on Attention for Image Captioning.」In ICCV, 2019.

繼續閱讀