帶有權重分類器選擇和堆疊內建的多标簽分類(Multi-label classification with weighted classifier selection and stacked ensemble)
摘要
多标簽分類在醫學診斷和語義标注等各種應用中引起了越來越多的關注。随着這種趨勢,已經提出了用于多标簽分類任務的大量內建方法。這些方法中的大多數通過使用裝袋方案來構造內建成員,但是很少開發堆疊的內建方法。關于堆疊內建方法的現有研究仍然活躍,但是仍然存在一些問題,例如:(1)幾乎沒有做過學習分類器選擇權重的工作;(2)尚未充分研究成對标簽相關性與多标簽分類性能之間的關系。為了解決這些問題,我們提出了一種新穎的堆疊內建方法,該方法同時利用标簽相關性和學習內建成員權重的過程。在我們的方法中,首先,開發了具有稀疏性正則化的權重堆疊內建,以友善分類器選擇和內建成員構造以進行多标簽分類。其次,為了提高分類性能,進一步考慮了成對标簽相關性以确定這些集合成員的權重。最後,我們基于加速近端梯度和塊坐标下降技術開發了一種優化算法,以有效地實作最佳整體解。
1、介紹
總而言之,我們的貢獻突出如下:
我們為多标簽分類提出了一種新穎的權重堆疊內建方案,稱為MLWSE,它利用稀疏正則化來促進分類器的選擇和內建建構,并與任何多标簽分類器相容作為其基礎分類器。 我們同時利用分類器權重和成對标簽相關性來選擇MLWSE中的标簽元級别特定特征,可以将其視為标簽元級别特定特征選擇方法。 我們的方法在實際的醫學輔助診斷應用中顯着實作了魯棒性和有效性,這已在實際的心血管和腦血管疾病資料集上得到了證明。
2、相關工作
2.1、多标簽分類的集合
2.1.1、套袋組合方案
若幹文獻總結,請參考原文。
2.1.2、堆疊組合方案
若幹文獻總結,請參考原文。
2.2、多标簽分類的權重集合
若幹文獻總結,請參考原文。
3、拟議的方法
3.1、初步
介紹多标簽分類的定義。
3.2、生成置信度得分矩陣
3.3、權重分類器選擇和堆疊內建
3.3.1、分類器選擇的稀疏正則化
3.3.2、模組化标簽關聯
3.3.3、多标簽預測
3.4、優化方法
3.4.1、MLWSE-L1的優化
3.4.2、MLWSE-L21的優化
4、實驗
4.1、實驗資料集
在本節中,我們介紹了實驗資料集,包括二維合成資料集,多标簽基準資料集以及現實世界的心血管和腦血管疾病資料集,這些資料集用于從不同角度評估我們提出的方法的有效性。
4.2、二維合成資料集
4.1.3、真實資料集
4.2、實驗設定
4.2.1、基線方法
我們将我們提出的方法MLWSE與七個最新的內建多标簽分類方法進行了比較。
EBR [16]:BR模型的整體版本。每個BR的執行個體都是随機生成的。它不考慮标簽之間的關系。
ECC [9]:CC的整體版本,其中每個CC的鍊順序是随機生成的。它考慮了全局标簽的相關性。
EPS [18]:LP的改進的內建版本,通過修剪不經常出現的标簽集來關注标簽的最重要關系。它通過修剪不經常出現的标簽集來關注标簽最重要的關系。
RAkEL [19]:基于k個标簽的随機小子集的LP的改進的內建版本,其中k設定為3。它考慮了标簽關系的小子集。
CDE [20]:Chi-Dep算法的集合,該算法為每組從屬标簽建構一個LP分類器。标簽集的分區設定為100。它考慮了組之間的标簽關系。
AdaBoost.MH [25]:基于BR的權重合奏版本,不僅像AdaBoost一樣對執行個體維護一組權重,而且還對标簽保持權重。
MLS [17]:基于BR的堆疊內建版本,其中考慮了元級别标簽之間的關系。
4.2.2、超參數設定
4.2.3、評估名額
漢明損失,準确性,排名損失,F1,macroB。
4.3、實驗結果
4.3.1二維合成資料集結果
利用二維合成資料集,我們通過逐漸添加不同的技術元件(包括等式中給出的權重設定)來評估我們方法的權重分類器選擇能力。(3)作為基線,方程式中給出的套索選擇。(5),以及等式中給出的組稀疏度套索選擇。(6)。我們将每個資料集随機分為訓練集(35%),驗證集(35%)和測試集(30%)。表3列出了這四種情況的實驗結果。
4.3.2、基準資料及結果
4.3.3實際應用結果
4.4、算法分析
4.4.1、弗裡德曼統計分析
4.4.2、參數靈敏度分析
4.4.3、收斂分析
5、讨論
我們基于一系列模拟進行了全面的調查。如我們的實驗所示,我們的方法能夠通過實作簡單的疊代收縮門檻值算法來實作高品質的泛化性能。是以,介紹了一種有前途但易于使用的多标簽集合分類技術。我們總結了我們的方法的優點如下。
首先,我們提出了一種新穎的權重堆疊內建方法,用于與任何現有的多标簽分類算法(例如MLKNN [11]和ML-DT [12])相容的多标簽分類算法,并使用稀疏性進行正則化以友善分類器選擇和內建建構,其最終目标是開發一種簡單有效的方法來選擇多标簽基礎分類器。我們的方法在圖1中進行了幾何解釋,并且系統地評估了權重分類器選擇的能力,結果在表3中給出。此外,我們的方法已在來自多個領域(例如文本,影像,生物學和醫學)的不同資料集上進行了測試。表4圖5和圖5表明我們的方法優于最新的多标簽內建算法,而圖8證明了我們的方法由于其學習過程的快速收斂性而為多标簽分類任務提供了一種有效且易于使用的技術。
随後的文獻調查顯示,Zhou和Tao [49]提出了基于組稀疏Lasso的多标簽子空間內建方法,而沒有考慮堆疊內建方案。相比之下,我們的方法同時采用基于稀疏性的正則化進行分類器選擇和整體建構,并采用餘弦相似度來計算标簽相關矩陣,進而通過基本分類器之間的顯着互動來提高計算效率。
與其他多标簽堆疊算法相似,我們的方法還需要生成元級特征,并需要額外的計算成本,這對于極端的多标簽分類可能是個問題[50]。是以,在極端的多标簽集合分類中找到計算效率和分類精度之間的折衷将是我們未來工作中一個有趣且具有挑戰性的研究主題。
6、結論
在本文中,我們提出了一種用于多标簽分類的新型權重分類器選擇和堆疊內建MLWSE,它使用稀疏性進行正則化以友善分類器選擇和內建建構,同時利用分類器權重和标簽相關性來提高分類性能。另一方面,我們的內建方法不僅提供标簽元特定功能選擇方法,而且與任何現有的多标簽分類算法作為其基礎分類器相容。我們将我們的方法MLWSE-L1和MLWSE-L21與13種多标簽基準資料集以及實際的心血管和腦血管疾病資料集上的幾種成熟的多标簽集合分類算法進行了比較。
參考文獻見原文
文獻連接配接:https://doi.org/10.1016/j.ins.2020.06.017
部分翻譯不是很準确,請參考原文,謝謝。