Few-Shot Action Recognition with Compromised Metric via Optimal Transport

這篇文章基于最優傳輸OT來設計distance函數

paper: https://arxiv.org/pdf/2104.03737.pdf

Motivation

在小樣本行為識别方法中，作者分析大緻可以分為兩種。一種是基于aggregation，即将視訊分為若幹segment，提取每個segment特征，采用average pooling等方式對segment特征進行聚合得到一個視訊級特征，設計一個距離函數，計算unseen類特征到seen類特征距離，得到預測标簽；另一種是基于matching的方法，即提取視訊的segment特征後，對兩個視訊的n個segment進行align操作，比如OTAM中采用DTW對齊路徑，将對齊損失作為兩個視訊的距離。

基于aggregation的方法直接采用sum操作将n個特征轉化為一個特征，忽略了long-term時間資訊；而基于matching的方法采用了嚴格的對齊函數，損傷了視訊的内容特征。是以作者提出結合這兩個方法來設計一個distance函數，進而使得既可以保留内容資訊又不會忽視時間資訊。

方法

首先采用3D卷積提取特征，将輸入 x = [ x 1 , ⋯ , x m , ⋯ , x M ] \mathbf{x}=\left[\mathrm{x}^{1}, \cdots, \mathrm{x}^{m}, \cdots, \mathrm{x}^{M}\right] x=[x1,⋯,xm,⋯,xM]編碼為 [ ϕ ( x 1 ) , ⋯ , ϕ ( x m ) , ⋯ , ϕ ( x M ) ] \left[\phi\left(\mathrm{x}^{1}\right), \cdots, \phi\left(\mathrm{x}^{m}\right), \cdots, \phi\left(\mathrm{x}^{M}\right)\right] [ϕ(x1),⋯,ϕ(xm),⋯,ϕ(xM)]。

content distance

用OT方法，首先需要定義 μ \mu μ和 ν \nu ν，作者采用視訊在segment上的分布作為 μ \mu μ、 ν \nu ν，然後使用Sinkhorn Distance測量兩個視訊的差異。使用公式（8）和（9）計算兩個視訊 x 1 {x_1} x1和 x 2 {x_2} x2的語義距離， μ 1 \mu_1 μ1、 μ 2 \mu_2 μ2為一個M維的随機分布，采用歐氏距離計算segment距離。

dis ⁡ S E ( x 1 , x 2 ) = min ⁡ T ∈ Π ( μ 1 , μ 2 ) ⟨ T , C S E ⟩ − 1 λ H ( T ) \operatorname{dis}^{\mathrm{SE}}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right)=\min _{\mathrm{T} \in \Pi\left(\boldsymbol{\mu}_{1}, \boldsymbol{\mu}_{2}\right)}\left\langle\mathbf{T}, \mathbf{C}^{\mathrm{SE}}\right\rangle-\frac{1}{\lambda} \mathcal{H}(\mathbf{T}) disSE(x1,x2)=minT∈Π(μ1,μ2)⟨T,CSE⟩−λ1H(T) （8）

C p q S E = ∥ ϕ ( x 1 p ) − ϕ ( x 2 q ) ∥ 2 , ∀ p , q ∈ [ M ] \mathrm{C}_{p q}^{\mathrm{SE}}=\left\|\phi\left(\mathrm{x}_{1}^{p}\right)-\phi\left(\mathrm{x}_{2}^{q}\right)\right\|_{2}, \forall p, q \in[M] CpqSE=∥ϕ(x1p)−ϕ(x2q)∥2,∀p,q∈[M] （9）

dis ⁡ S E ( x 1 , x 2 ) \operatorname{dis}^{\mathrm{SE}}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right) disSE(x1,x2)即為兩個視訊内容上的距離，還要考慮兩個視訊的order距離。

temporal distance

positional Cost Matrix：考慮long-term關系的目的是確定視訊1中的segment被映射到視訊2的segment的鄰近位置，這可以用來區分一些對順序敏感的動作。作者定義了一個positional cost matrix C P O {\mathbf{C}^{PO}} CPO，它的值随着相關位置距離 ( p M − q M ) 2 \left(\frac{p}{M}-\frac{q}{M}\right)^{2} (Mp−Mq)2的增加而增加。和公式（8）類似，可以定義兩個視訊的位置距離為公式（11）。可以看出 C P O {\mathbf{C}^{PO}} CPO通過給距離遠的片段配置設定更大的運輸成本，來實作對視訊順序的軟調整。

C p q P O = exp ⁡ { − 1 σ 2 1 ( p M − q M ) 2 + 1 } , ∀ p , q ∈ [ M ] \mathbf{C}_{p q}^{\mathrm{PO}}=\exp \left\{-\frac{1}{\sigma^{2}} \frac{1}{\left(\frac{p}{M}-\frac{q}{M}\right)^{2}+1}\right\}, \forall p, q \in[M] CpqPO=exp{−σ21(Mp−Mq)2+11},∀p,q∈[M] （10）

dis ⁡ P O ( x 1 , x 2 ) = min ⁡ T ∈ Π ( μ 1 , μ 2 ) ⟨ T , C P O ⟩ − 1 λ H ( T ) \operatorname{dis}^{\mathrm{PO}}\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right)=\min _{\mathbf{T} \in \Pi\left(\boldsymbol{\mu}_{1}, \boldsymbol{\mu}_{2}\right)}\left\langle\mathbf{T}, \mathbf{C}^{\mathrm{PO}}\right\rangle-\frac{1}{\lambda} \mathcal{H}(\mathbf{T}) disPO(x1,x2)=minT∈Π(μ1,μ2)⟨T,CPO⟩−λ1H(T) （11）

CMOT

Few-Shot Action Recognition with Compromised Metric via Optimal Transport

根據前面計算得到的語義距離和時序距離，定義兩個視訊的距離為：

dis ⁡ ( x 1 , x 2 ) = dis ⁡ S E ( x 1 , x 2 ) + α dis ⁡ P O ( x 1 , x 2 ) \operatorname{dis}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right)=\operatorname{dis}^{\mathrm{SE}}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right)+\alpha \operatorname{dis}^{\mathrm{PO}}\left(\mathrm{x}_{1}, \mathrm{x}_{2}\right) dis(x1,x2)=disSE(x1,x2)+αdisPO(x1,x2) （12）

通過一個矩陣的點積操作，還可以将公式（12）寫為：

dis ⁡ ( x 1 , x 2 ) = min ⁡ T ∈ Π ( μ 1 , μ 2 ) ⟨ T , C ⟩ − 1 λ H ( T ) s.t. C = C S E + α C P O \begin{aligned} \operatorname{dis}\left(\mathbf{x}_{1}, \mathbf{x}_{2}\right) &=\min _{\mathbf{T} \in \Pi\left(\boldsymbol{\mu}_{1}, \boldsymbol{\mu}_{2}\right)}\langle\mathbf{T}, \mathbf{C}\rangle-\frac{1}{\lambda} \mathcal{H}(\mathbf{T}) \\ \text { s.t. } & \mathbf{C}=\mathbf{C}^{\mathrm{SE}}+\alpha \mathbf{C}^{\mathrm{PO}} \end{aligned} dis(x1,x2) s.t. =T∈Π(μ1,μ2)min⟨T,C⟩−λ1H(T)C=CSE+αCPO （13）

結合前面小樣本的N-way K-shot的公式，最終CMOT的模型表示為:

min ⁡ ϕ ∑ T t r ∼ D t r ∑ ( x j , y j ) ∈ Q t r − log ⁡ p ( y ^ j = y j ∣ x j ) s.t. dis ⁡ ( x i , x j ) = min ⁡ T ∈ Π ( μ i , μ j ) ⟨ T , C ⟩ − 1 λ H ( T ) C = C S E + α C P O \begin{array}{ll}\min _{\phi} & \sum_{\mathcal{T}^{t r} \sim \mathcal{D}^{t r}} \sum_{\left(\mathbf{x}_{j}, y_{j}\right) \in \mathcal{Q}^{t r}}-\log p\left(\hat{y}_{j}=y_{j} \mid \mathbf{x}_{j}\right) \\ \text { s.t. } & \operatorname{dis}\left(\mathbf{x}_{i}, \mathbf{x}_{j}\right)=\min _{\mathbf{T} \in \Pi\left(\boldsymbol{\mu}_{i}, \boldsymbol{\mu}_{j}\right)}\langle\mathbf{T}, \mathbf{C}\rangle-\frac{1}{\lambda} \mathcal{H}(\mathbf{T}) \\ & \mathbf{C}=\mathbf{C}^{\mathrm{SE}}+\alpha \mathbf{C}^{\mathrm{PO}}\end{array} minϕ s.t. ∑Ttr∼Dtr∑(xj,yj)∈Qtr−logp(y^j=yj∣xj)dis(xi,xj)=minT∈Π(μi,μj)⟨T,C⟩−λ1H(T)C=CSE+αCPO (14)

實驗

資料集：HMDB51、UCF101、SM2SM

Few-Shot Action Recognition with Compromised Metric via Optimal Transport

總結

作者基于最優傳輸問題OT，重定義了小樣本中的距離函數，同時考慮了視訊的語義資訊和時序資訊，最後取得了SOTA。

1、定義了Semantic distance和positional distance

2、基于視訊在segment上的分布計算positional distance，通過對相距遠的片段施加更大傳輸代價實作一個排序的軟調整。

Few-Shot Action Recognition with Compromised Metric via Optimal Transport

Motivation

相關知識

小樣本問題描述

Optimal Transform最優傳輸

定義1. Transportation Plan

定義2. Optimal Transport

定義3. Sinkhorn Distance

定義3. Sinkhorn Algorithm

方法

content distance

temporal distance

CMOT

實驗

總結

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告