閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

2023-06-24 12:47:15

CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

模型結構

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

模型包括資料處理，特征提取，預測回歸三個部分，下面分别介紹

資料預處理

visual

每個視訊取樣32幀，而且每一幀又分為**背景和臉部 **圖檔，以往的工作專注于面部特征，但是作者認為其背景特征也是一種補充資訊，作者舉了一個例子，單看這個人的面部可能會覺得他很生氣，但是結合背景，可以知道這個人在進行演講，不一定是生氣。

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

audio

使用librosa 直接轉換成固定次元的向量，少了補0
text

使用2015年提出的skip-thought vector 來表達文本，可以檢視這個解釋https://zhuanlan.zhihu.com/p/100271181

特征提取

特征提取使用提出的一個CR-Net 結構：此結構ResNet-34維基礎，在第一階段，我們得到了具有交叉熵損失的分類特征。在第二階段，利用softmax函數對分類特征進行權值生成，并得到這些特征的權重和。然後，我們使用它與MSE, L1和我們提出的貝爾損失進行回歸

交叉熵損失使得專注于正确的分布， MSE 則是表示真實值和預測值的距離， CR-Net主要思想是如果我們想利用分類的好處作為回歸的指導，可以用one-hot分類預測來估計樣本屬于哪個子區間。這将通過修剪值範圍來指導回歸，以便實作更準确的預測。

提取過程如下：

将從ResNet提取的特征經過一個卷積層得到該類别的分類特征

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

通過這些類别的特征計算類别權重

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

我們計算每個類的分類特征和權重和

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

然後對進行權重後的向量進行回歸即可

ETR 回歸預測

loss選擇

作者沒有選擇 MSE 或者 MAE 等傳統loss，這是為什麼呢？作者給出了解釋：總結而言就是使用 MSE 等loss 會使得模型預測值都偏向于0.5，這對于一般的任務其實差別不大，但是對于此資料集，我們發現資料集在預測真實值 0.3-0.7之間的資料占比為75% 以上，是以你可以了解為對于這個模型他預測0.5肯定是沒問題的。

作者給出下面的一個圖， a 代表MSE ， b 代表MAE， c 代表作者使用的 Bell Loss

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

這個圖解釋了如果batch的實際值是由大部分是0.4,0.5,0.6，那麼我計算這個batch的loss時，預測為0.5時loss最小。但是作者的這個是解決了這個問題，最優可能是0.4 0.5 0.6

Bell loss 表達式如下

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

最終模型的loss 表示如下：

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

回歸預測

使用 Extremely randomized trees 極端随機樹原理可看：

https://blog.csdn.net/zhaocj/article/details/51648966

評價

特征提取方面創新在于先分類在回歸，用分類結果算權重，提取到更好的分類向量，同時在前面使用Res-Net網絡提取
loss 設計方面也非常有新意， Bell loss是作者設計出來，旨在去是的預測不是大量接近于0.5
預測方面使用2006年提出的 Extremely randomized tree，可能是會比MLP更加好？作者沒有給出對比實驗。
總體來說得到了最新最好的結果，但是沒有用到最新的方法？提取是CNN的，雖然是序列化資料資料但是沒有用transformer這種結構，說明資料集還可能有改進的空間

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

模型結構

資料預處理

特征提取

ETR 回歸預測

loss選擇

回歸預測

評價

繼續閱讀

閱讀筆記 A Deep Multi-Level Attentive network for Multimodal Sentiment Analysis前言模型結構視覺提取子產品多模态聯合學習子產品總結

RGB-T行人檢測彙總

HS和SAR的融合總結HS和SAR的融合總結

多模态模型中關于雷達特征圖與融合特征圖的可視化（基于CRFNet）效果圖特征輸出模型注冊提取資料提取中間特征并批量可視化池化與卷積對雷達濾波的影響

Adaptive Decision Fusion for Audio-Visual Speech Recognition（2008)研究内容提出的方法&模型架構前提知識（可選）資料集結果總結

《論文閱讀》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

經典多模态論文閱讀筆記一、ViLBERT二、UNITER三、Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs四、ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

AI：多模态和大模型的一些經驗總結daiding

Who Am I? Personality Detection based on Deep Learning for Texts 閱讀筆記源代碼github位址摘要2CLSTM 過程

Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis閱讀筆記Multimodal Routing: Improving Local and Global Interpretability of Multimodal Language Analysis模型結構實驗Interpretation Analysis

多模态預訓練模型前言Vision-language TasksV+L Joint Pre-training目前已有的一些視覺語言模型對比ERNIE-VILLayoutLMv2總結

多模态在内容了解的應用

多模态模型前沿研究（1）1 ERNIE-ViL（百度，2021.3.，aaai）

“多模态”概念深度解讀之EEG-fNIRS同步

NLP實踐——VQA/Caption生成模型BLIP-2的應用介紹1. 簡介2. 模型下載下傳3. 運作環境4. 模型應用