天天看點

先用knn對資料集進行預處理再利用神經網絡對資料集進行分類_融合标簽嵌入和特征擴增的多元分類方法...引用摘要本文主要貢獻:背景知識LEFA 方法實驗方法實驗結果總結緻謝

引用

Wang H, Chen C, Liu W, et al. Incorporating Label Embedding and Feature Augmentation for Multi-Dimensional Classification[C]//AAAI. 2020: 6178-6185.

摘要

特征擴增是解決多元分類(MDC)問題的最常用政策之一,它通過整合标簽資訊來操縱特征空間。然而,正常的特征擴增方法沒有考慮類内的排他性,可能會導緻性能退化。為了填補這一空白,提出了一種新的神經網絡模型,它無縫地結合了标簽嵌入和特征擴增(LEFA)技術來學習标簽相關性。具體而言,基于注意因子分解機,引入互相關感覺網絡來學習同時描述類間相關性和類内排他性的低維标簽表示。然後利用學習到的潛在标簽向量對原始特征空間進行擴充。在七個真實世界的資料集上進行的大量實驗證明了 LEFA 優于最先進的 MDC 方法。

本文主要貢獻:

  1. 針對多元分類問題,提出了一種有效的深層模型,它将标簽嵌入和特征擴增技術(LEFA)無縫地結合在一起。
  2. 基于注意因子分解機,我們提出了一個互相關感覺網絡來同時描述 MDC 任務的類間依賴性和類内互斥性。
  3. 在 7 個真實世界資料集上的綜合實驗表明,LEFA 的性能優于其他最先進的 MDC 分類器。

背景知識

多元分類(MDC)旨在處理每個資料執行個體與多個類變量相關聯的問題。由于應用廣泛,MDC 引起了巨大的關注。二進制相關性(Binary Relevance,BR)是 MDC 問題中最流行的方法之一,它将多元任務分解為一組多類分類問題。盡管 BR 具有計算效率,但它忽略了類空間之間的交叉相關性。是以,BR 在每個單一分類任務上都能很好地工作,但在全局上表現不佳。許多有效的技術已經被提出來解決這個問題。

然而現有的特征擴增方法有兩個主要的缺點。1)相關性提取的任務是由一些簡單的基礎分類器完成的,如支援向量機(SVM。這些簡單的分類器通常在那些具有複雜标簽相關性的資料集上無能為力,是以這些方法的泛化能力在許多應用中受到限制。2)它們可能會錯誤地學習類内标簽之間的相關性,進而導緻性能退化。

LEFA 方法

  1. 互相關感覺網絡
先用knn對資料集進行預處理再利用神經網絡對資料集進行分類_融合标簽嵌入和特征擴增的多元分類方法...引用摘要本文主要貢獻:背景知識LEFA 方法實驗方法實驗結果總結緻謝

圖 1 C2AN 模型網絡架構

如圖 1 所示為 C2AN 模型網絡架構。在本小節中,我們将逐層介紹所提出的 C2AN 模型。

标簽編碼網絡:傳統的标簽嵌入方法存在無法處理稀疏的标簽空間和複雜的類空間依賴關系以及忽略了類間标簽之間的排他性的缺陷。為了解決這些問題,我們應用了一種注意力因子分解機來嵌入标簽。我們基于 AFM 的模型有三個主要優點:1)它是一個強大的基于神經網絡的模型來提取标簽相關性;2)注意機制使标簽互動對特征擴增有不同的貢獻;3)作為因子分解機(FMs)(Rendle 2012)家族的一員,它在稀疏環境下工作得很好。

特征擴增:在第二階段,我們通過組合投影标簽和原始特征來操作特征空間。與 KRAM 相比,LEFA 有三大優勢。首先,在測試階段,潛在向量可以提供比 kNN 所産生的标簽集更精确的語義資訊。其次,在擴增階段提取标簽相關性,而不是直接由預測函數 f 來誘導。同時,采用了一種強大的基于 AFM 的神經網絡。是以,LEFA 可以處理複雜的标簽相關層次和高度稀疏的标簽空間。最後,描述了類内排他性。實證研究還表明,LEFA 優于最新的 MDC 方法。

實驗方法

在這一節中,我們評估了所提出的方法在七個實際資料集上的性能。所有的計算都在同一個工作站上執行,該工作站有 i7-5930K CPU、TITAN Xp GPU 和運作 Linux 平台的 64GB 主記憶體。

1. 資料集

對于綜合性能評估,共使用了七個資料集。前四個資料集來自 UCI 存儲庫(Dheeru 和 Karra Taniskidou 2017):在本文中,我們對這些資料集進行了 5 倍交叉驗證,并報告了具有标準差的平均路徑成本。七個資料集的統計資料彙總在表 1 中。

表 1 實驗資料集的統計。

先用knn對資料集進行預處理再利用神經網絡對資料集進行分類_融合标簽嵌入和特征擴增的多元分類方法...引用摘要本文主要貢獻:背景知識LEFA 方法實驗方法實驗結果總結緻謝

2. 比較的方法

在本文中,我們将 LEFA 與三種成熟的 MDC 方法和兩種最先進的基于嵌入的多标簽方法進行比較:

二進制相關性(BR)(Zhang and Zhou 2014):BR 是 MDC 任務最直覺的方法,它通過将 MDC 任務分解為一組獨立的多類問題來預測每個類變量。

內建分類器鍊(ECC)(Read 等人。2011):為了緩解分類鍊(CC)中标簽順序敏感性的問題,ECC 使用随機重新排序的标簽生成多個不同的鍊。然後,通過投票對類變量進行預測。

KRAM(Jia and Zhang 2019):通過使用流行的 kNN 技術,KRAM 通過對相鄰 MDC 執行個體的類成員的具體統計來豐富特征空間。

CPLST(Chen and Lin 2012):CPLST 是一種流行的 label 嵌入方法,它結合了主成分分析和典型相關分析的概念,以更好地提取相關性。

C2AE(Yeh 等人。2017):C2AE 是第一個基于神經網絡的标簽嵌入方法,它內建了自動編碼器和深度規範分析技術。

3. 性能度量

根據(Jia 和 Zhang 2019)中的實驗設定,我們考慮兩個常用的名額來評估所有方法的預測性能:

漢明精度:hamming 精度計算每個類變量的分類精度并取平均值。

先用knn對資料集進行預處理再利用神經網絡對資料集進行分類_融合标簽嵌入和特征擴增的多元分類方法...引用摘要本文主要貢獻:背景知識LEFA 方法實驗方法實驗結果總結緻謝

精度示例:示例準确性将标簽集視為一個完全正确或不正确的單個分類問題。

先用knn對資料集進行預處理再利用神經網絡對資料集進行分類_融合标簽嵌入和特征擴增的多元分類方法...引用摘要本文主要貢獻:背景知識LEFA 方法實驗方法實驗結果總結緻謝

實驗結果

表 2 總結了所有方法對四個多元資料集和三個多标簽資料集的預測性能。圖 3 報告了我們的方法對潛在次元 u 的參數敏感性。

表 2 七個真實世界資料集的預測性能比較。

先用knn對資料集進行預處理再利用神經網絡對資料集進行分類_融合标簽嵌入和特征擴增的多元分類方法...引用摘要本文主要貢獻:背景知識LEFA 方法實驗方法實驗結果總結緻謝
先用knn對資料集進行預處理再利用神經網絡對資料集進行分類_融合标簽嵌入和特征擴增的多元分類方法...引用摘要本文主要貢獻:背景知識LEFA 方法實驗方法實驗結果總結緻謝

圖 3:LEFA 的性能随着潛在維數 u 從 2 到 10 在三個具有不同基本分類器的資料集上的變化而變化。

LEFA 的性能一般最好。以 Flare2 資料集為例,在漢明精度和執行個體精度方面,LEFA-BR 使基線(LEFA-ECC 除外)的最佳結果提高了 1.0%、2.5%,LEFA-ECC 使基線的最佳結果(不包括 LEFA-BR)分别提高了 1.3%、3.4%。這些結果證明了 LEFA 的優越性。

由于缺少擴充類空間相關性,BR 的性能不如其他方法。

BR 和 ECC 遠不如 KRAM 和 LEFA couterparts,說明了特征擴增的有效性。

KRAM 和 LEFA 在這些資料集上是最成功的。然而,LEFA 獲得更好的性能有兩個原因:1)C2AN 保持了類内标簽之間的排他性;2)LEFA 在擴增前提取了标簽相關性。是以,LEFA 使諸如 BR 和 ECC 這樣的簡單 MDC 分類器能夠處理複雜的标簽相關層次結構。

C2AE 和 CPLST 在某些資料集上表現最差。因為它們忽略了類内标簽之間的排他性,是以不适合 MDC 任務。

在不同的潛在維數 u 值下,LEFA 的性能相對穩定。

總結

近年來,多元分類問題引起了研究界的極大關注。在這項工作中,我們提出一個新的深度模型 LEFA,它将标簽嵌入和特征擴充技術無縫地整合到 MDC 任務中。基于注意因子分解機,提出了一種互相關感覺網絡,該網絡将特征和标簽映射到一個聯合的低維空間中,使它們最大程度地相關。由于 AFM 的特殊性,嵌入的标簽不僅描述了類間标簽的相關性,而且保持了類内标簽的排他性。然後利用潛在的标記向量對原始特征空間進行擴充,為原始特征空間提供判别資訊。對 7 個實際資料集的實證研究表明,該方法總體上優于其他最先進的 MDC 方法。

緻謝

本論文由 iSE 實驗室 2020 級碩士生常家鑫轉述。