天天看點

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

模型結構

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

模型包括資料處理, 特征提取, 預測回歸三個部分, 下面分别介紹

資料預處理

  • visual

    每個視訊取樣32幀, 而且每一幀又分為**背景和臉部 **圖檔 ,以往的工作專注于面部特征, 但是作者認為其背景特征也是一種補充資訊, 作者舉了一個例子, 單看這個人的面部可能會覺得他很生氣, 但是結合背景,可以知道這個人在進行演講,不一定是生氣。

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis
  • audio

    使用librosa 直接轉換成 固定次元的向量, 少了補0

  • text

    使用2015年提出的skip-thought vector 來表達文本, 可以檢視這個解釋https://zhuanlan.zhihu.com/p/100271181

特征提取

特征提取使用提出的一個CR-Net 結構:此結構ResNet-34維基礎 ,在第一階段,我們得到了具有交叉熵損失的分類特征。在第二階段,利用softmax函數對分類特征進行權值生成,并得到這些特征的權重和。然後,我們使用它與MSE, L1和我們提出的貝爾損失進行回歸

交叉熵損失使得專注于正确的分布, MSE 則是表示真實值和預測值的距離, CR-Net主要思想是 如果我們想利用分類的好處作為回歸的指導,可以用one-hot分類預測來估計樣本屬于哪個子區間。這将通過修剪值範圍來指導回歸,以便實作更準确的預測。

提取過程如下:

将從ResNet提取的特征 經過一個卷積層得到該類别的 分類特征

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

通過這些類别的特征計算類别權重

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

我們計算每個類的分類特征和權重和

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

然後對 進行權重後的向量進行回歸即可

ETR 回歸預測

loss選擇

作者沒有選擇 MSE 或者 MAE 等傳統loss, 這是為什麼呢?作者給出了解釋: 總結而言就是 使用 MSE 等loss 會使得 模型預測值都偏向于0.5, 這對于一般的任務其實差別不大, 但是對于此資料集, 我們發現資料集在 預測真實值 0.3-0.7之間的資料占比為75% 以上, 是以你可以了解為對于這個模型 他預測0.5肯定是沒問題的。

作者給出下面的一個圖 , a 代表MSE , b 代表MAE, c 代表作者使用的 Bell Loss

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

這個圖解釋了 如果batch的實際值是由大部分是0.4,0.5,0.6, 那麼我計算這個batch的loss時, 預測為0.5時loss最小。但是作者的這個是解決了這個問題, 最優 可能是0.4 0.5 0.6

Bell loss 表達式如下

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

最終模型的loss 表示如下:

閱讀筆記 CR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality AnalysisCR-Net: A Deep Classification-Regression Network for Multimodal Apparent Personality Analysis

回歸預測

使用 Extremely randomized trees 極端随機樹 原理可看:

https://blog.csdn.net/zhaocj/article/details/51648966

評價

  • 特征提取方面創新在于 先分類在回歸, 用分類結果算權重,提取到更好的分類向量, 同時在前面使用Res-Net網絡提取
  • loss 設計方面也非常有新意, Bell loss是作者設計出來,旨在去是的預測不是大量接近于0.5
  • 預測方面使用2006年提出的 Extremely randomized tree, 可能是會比MLP更加好? 作者沒有給出對比實驗。
  • 總體來說得到了最新最好的結果, 但是沒有用到最新的方法? 提取是CNN的, 雖然是序列化資料資料但是沒有用transformer這種結構,說明資料集還可能有改進的空間

繼續閱讀