天天看點

IJCAI 2019 | 為了有效整合多類資訊,阿裡文娛提出多視圖多标記算法SIMM一、研究動機二、方法三、實驗四、總結

一、研究動機

在真實世界中,存在許多對象兼具多樣性的描述與豐富的語義資訊。例如,對圖 1(a) 的風景圖檔,可以通過 HSV 色彩直方圖、全局特征 Gist、尺度不變特征 SIFT 等方式進行表征,同時可以被打上 {雪景,亭子,湖} 等标記。又例如,對圖 1(b) 中的劇集《長安十二時辰》進行标注時,通常可以通過多種資訊源進行表征,如标題、音頻、封面圖、視訊幀等,同時該視訊可以被打上 {長安,易烊千玺,雷佳音,古裝劇} 等标記。

在此場景下,若使用傳統的多标記學習算法,在特征空間需對多樣的表征資訊進行合并。方式一是将多個特征向量進行對應位相加,然而各特征向量的次元可能不完全相同,無法直接操作;方式二是将不同種表征資訊進行拼接,但是這樣會導緻特征次元過高,當樣本數量不足時,容易帶來過拟合的問題,影響最終的訓練效果。是以,在此場景下進行學習的關鍵,是如何對種類多樣的資訊(多樣表征資訊與多個标注資訊)進行有效整合,多視圖多标記學習(Multi-view multi-label learning)是一種常用的解決此類問題的架構。

現有方法均試圖挖掘所有視圖間的共享資訊,然而當他們試圖挖掘所有視圖的共享資訊來消除噪聲和備援時,通常的做法是将各個視圖不同次元的特征向量映射到一個共享子空間,但是各視圖特征向量的映射矩陣是互不相同的,也就是說各視圖的映射過程是完全獨立的,在此情況下,視圖之間缺少交流,很難保證挖掘到的是真正的共享資訊。同時,現有方法在進行多标記預測時,各個視圖的私有貢獻被直接忽略。

舉例來講,一張畫着粉色玫瑰的圖檔被打上了 { 粉色,花 } 的标記,同時它通過 HSV 和 Gist 兩種方式進行表征,我們可以很容易發現标記與表征之間的關聯,即 { 粉色 } 是通過 HSV 描述所得到的标 記,{ 花 } 是通過 Gist 描述得到的,然而現有的方法通常是希望挖掘 HSV 和 Gist 所描述的公共資訊,而忽略了不同表征對标記的私有貢獻。顯然,在這一例子中,保留視圖的私有資訊要比挖掘其公共資訊更加符合直覺。

基于以上兩點考慮,本文作者提出基于視圖私有資訊挖掘的多視圖多标記算法 SIMM(view-Specific Information extraction for Multi-view Multi-label learning),同時進行共享子空間挖掘與視圖私有資訊提取。

二、方法

作者認為,視圖提供的資訊分為兩個方面:共享和私有。SIMM 算法分為兩個步驟:共享子空間挖掘 (Shared Subspace Exploitation) 與視圖私有資訊提取 (View-Specific Information Extraction)。SIMM 算法通過神經網絡架構來實作兩個關鍵步驟,整體損失函數:

其中,L_ml 為多标記損失,控制最終模型的标記輸出。在該論文中,使用「一階」政策進行計算:

2.1 共享子空間挖掘

受文獻 [1] 啟發,SIMM 通過最小化一個對抗損失 L_adv 來混淆視圖到共享子空間的映射過程,希望迷惑判别器 D,使其無法判斷輸入的共享子空間表征來自于哪一個視圖。

令 c^v 表示第 v 個視圖特征 x^v 的共享子空間表征向量,由共享子空間提取層 H 提取得到。文中引入視圖示記向量 z_i,僅 z^v_i 為 1,表示 c^v_i 來自于第 v 個視圖。令 hat(z) 為判别器預測的視圖示記向量,對抗損失 L_adv 表示為:

F 需選擇一個單調遞減函數,通過這種設定,作者希望迷糊判别器,無法判斷輸入的共享子空間表達來自于哪一個視圖,當判别器無法分辨時,可以認為輸入的特征向量不含判别性的私有資訊,表明 c^v 中僅包含共享資訊。

然而,僅利用 L_adv 可能會帶來一些問題:單純的噪聲不含任何資訊,但也極有可能迷惑判别器,但噪聲不能表示包含共享資訊的表征向量。是以,作者額外增加了共享子空間多标記損失 L_sml 保證 c^v 具有語義:

在 SIMM 算法中,共享子空間的挖掘不再隻是各個視圖獨立進行,H 和 D 在訓練中可以接觸到來自所有視圖的特征向量,增加了視圖間的互動過程,共享子空間挖掘的整體損失表示為:

IJCAI 2019 | 為了有效整合多類資訊,阿裡文娛提出多視圖多标記算法SIMM一、研究動機二、方法三、實驗四、總結

2.2 視圖私有特征提取

直覺上,什麼是視圖私有資訊,似乎無法被直接明确的定義,本文作者選擇的方式是,将公共資訊從原始資訊中剝離,并認為保留下來的部分為視圖私有資訊。這一想法在文中通過限制正交損失實作,s^v 表示由私有資訊提取層 E^v 提取得到的 l 維特征向量,c 表示包含所有視圖公共資訊的 l 維特征向量,由 c^v 相加得到。私有資訊提取損失 L_specific 限制 s^v 和 c 間的正交性:

IJCAI 2019 | 為了有效整合多類資訊,阿裡文娛提出多視圖多标記算法SIMM一、研究動機二、方法三、實驗四、總結

L_specific 希望從原始特征 x^v 中提取出的 s^v 和 c 相差越大越好。

2.3 模型整體架構

圖 2

模型整體架構圖如圖 2 所示,在訓練階段,同時優化各子產品參數,測試階段,給定未見示例 x^*,模型預測輸出結果由下式得到:

三、實驗

在實驗部分,論文中共選取了 8 個多視圖多标記資料集,包括 6 個基準資料集和 Youku 視訊标注資料集:

6 個對比算法包括:2 個與 SIMM 相關的基準算法、2 種不同輸入的多标記算法 ML-kNN 和 2 個多視圖多标記算法 F2L21F、LSAMML。實驗名額選擇 6 種被廣泛使用的多标記評價名額 Hamming Loss、Average Precision、One Error、Coverage、Micro-F1,對 Average Precision 和 Micro-F1 來說,結果越大越好,對其他 4 個名額來說,結果越小越好,在每個資料集上,均采用十折交叉驗證計算各名額均值與标準差。結果如下:

加粗部分為 SIMM 算法在該名額下優于對比算法的情況,SIMM 算法在 87.5% 的情況下排名第一,在 10.4% 的情況下排名第二。

同時,在文中為分析 L_shared 和 L_specific 的作用,作者保留論文結構,将平衡參數 alpha 和 beta 置為 0。圖 3 中結果顯示,在 Pascal 和 Youku15w 資料集下,無損失限制時,性能要劣于 SIMM 算法,說明 SIMM 在一定程度上幫助分離各視圖的共享和私有資訊。

圖 3

四、總結

該論文提出了一種多視圖多标記學習算法 SIMM,首先 SIMM 同時優化一個混淆的對抗損失與多标記損失來提取視圖間的共享資訊,其次加入正交限制,利用視圖私有的判别資訊,最終通過共享和私有資訊的協同作用,進行語義學習。在 8 個資料集、6 個對比算法、6 種評價名額上的對比實驗,可以觀察到 SIMM 算法較自身基準模型、傳統多标記算法、多視圖多标記算法均有明顯提升。

點選文末“閱讀原文”即可檢視英文原版論文。

相關文獻:

[1] Liu, Pengfei, Qiu, Xipeng, and Huang, Xuanjing. Adversarial Multi-task Learning for Text Classification[C]. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2017. 1–10.

[2] Min-Ling Zhang and Zhi-Hua Zhou. ML-kNN: A lazy learning approach to multi-label learning. Pattern recognition, 40(7):2038–2048, 2007.

[3] Min-Ling Zhang and Zhi-Hua Zhou. A review on multi-label learning algorithms. IEEE transactions on knowledge and data engineering, 26(8):1819–1837, 2014.

[4] Xiaofeng Zhu, Xuelong Li, and Shichao Zhang. Block-row sparse multiview multilabel learning for image classification. IEEE transactions on cybernetics, 46(2):450–461, 2016.

[5] Changqing Zhang, Ziwei Yu, Qinghua Hu, Pengfei Zhu, Xinwang Liu, and Xiaobo Wang. Latent semantic aware multi-view multi-label classification. In Proceedings of the 32nd AAAI Conference on Artificial Intelligence, New Orleans, LA,4414–4421, 2018.

8月24日,優酷技術聯合阿裡巴巴集團戰略&合作部、阿裡雲開發者社群共同舉辦IJCAI&KDD 2019論文分享會,精心挑選12篇論文進行現場解讀和分享,歡迎掃描二維碼報名參加。

繼續閱讀