天天看點

多模态在内容了解的應用

2020 年機器學習趨勢:建立統一的跨媒體多模态内容了解核心

描述類任務(表示,轉換,對齊,融合)

視訊描述

1 Predicting Visual Features from Text for Image and Video Caption Retrieval:輸入原始圖像,圖像标題和衆多描述圖像的句子,将它們映射到隐空間并合成視訊描述。

多模态在内容了解的應用

2 Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video

Captioning:輸入原始視訊和視訊的文字索引來進行視訊描述工作。

多模态在内容了解的應用

3 Multimodal Dual Attention Memory for Video Story Question Answering:這是一個 VQA 任務,把原始視訊,視訊的描述和問題輸入最終得到答案。

多模态在内容了解的應用

4 Dual-Stream Recurrent Neural Network for Video Captioning:

将原始的視訊和靜态的圖像(用來描述視訊)一起輸入,得到對視訊的描述。

多模态在内容了解的應用

醫療問答

1 Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:簡單把圖像和問題輸入得到答案。

多模态在内容了解的應用

2 Multimodal Explanations: Justifying Decisions and Pointing to the Evidence:把 VQA 架構用于關于健康問題的問答。

多模态在内容了解的應用

分析類任務(表征,融合)

視訊分類

分類架構:

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:

這是一個較為通用的多模态視訊分類任務網絡,将特征組合成矩陣,采用 outer-product 計算任意組合的乘積,為避免外積太長,用滑動窗對自向量求外積。

多模态在内容了解的應用

1 Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 将視訊和代表性的音頻檔案一起輸入進行視訊分類。

多模态在内容了解的應用

2 Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 将空間視訊、運動視訊、音頻和原視訊一起輸入,得到結果。

多模态在内容了解的應用

3 Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:

同樣還是将圖像、視訊和音頻異構資訊一起輸入,得到視訊分類的結果。

多模态在内容了解的應用

情感分類:

1 Contextual Inter-modal Attention for Multi-modal Sentiment Analysis:将文字,視訊和聲音輸入來對人的情感進行分類。

多模态在内容了解的應用

2 Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling:将圖像、标題和文字放入模型進行情感分類。

多模态在内容了解的應用

假新聞識别

1 Exploiting Multi-domain Visual Information for Fake News Detection:将圖像和對圖像詞頻的統計輸入來進行假新聞分類。

多模态在内容了解的應用

2 EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:将圖像和文字輸入來對假新聞進行檢測。

多模态在内容了解的應用

3 A Deep Learning Approach for Multimodal Deception Detection:将視訊、音頻、文字和高頻詞放入模型進行假新聞識别。

多模态在内容了解的應用

圖像/視訊品質評價

1 A deep learning framework for quality assessment and restoration in video endoscopy:将視訊和視訊檢測結果輸入來進行品質評價。

多模态在内容了解的應用

标題黨檢測

1 Characterizing Clickbaits on Instagram:将圖像、标題和文字描述輸入模型來分類是否是标題黨。

多模态在内容了解的應用

社交網絡的實體比對

1 Multimodal Learning of Social Image Representation by Exploiting Social Relations:運用圖像和相關文字注釋對個體進行分類分組。

多模态在内容了解的應用

2 From content to links: Social image embedding with deep multimodal model:跟上一篇文章類似,也是利用相關圖像和文字進行社交群體分類。

多模态在内容了解的應用

繼續閱讀