带有加权分类器选择和堆叠集成的多标签分类(Multi-label classification with weighted classifier selection and stacked ensemble)
摘要
多标签分类在医学诊断和语义标注等各种应用中引起了越来越多的关注。随着这种趋势,已经提出了用于多标签分类任务的大量集成方法。这些方法中的大多数通过使用装袋方案来构造集成成员,但是很少开发堆叠的集成方法。关于堆叠集成方法的现有研究仍然活跃,但是仍然存在一些问题,例如:(1)几乎没有做过学习分类器选择权重的工作;(2)尚未充分研究成对标签相关性与多标签分类性能之间的关系。为了解决这些问题,我们提出了一种新颖的堆叠集成方法,该方法同时利用标签相关性和学习集成成员权重的过程。在我们的方法中,首先,开发了具有稀疏性正则化的加权堆叠集成,以方便分类器选择和集成成员构造以进行多标签分类。其次,为了提高分类性能,进一步考虑了成对标签相关性以确定这些集合成员的权重。最后,我们基于加速近端梯度和块坐标下降技术开发了一种优化算法,以有效地实现最佳整体解。
1、介绍
总而言之,我们的贡献突出如下:
我们为多标签分类提出了一种新颖的加权堆叠集成方案,称为MLWSE,它利用稀疏正则化来促进分类器的选择和集成构建,并与任何多标签分类器兼容作为其基础分类器。 我们同时利用分类器权重和成对标签相关性来选择MLWSE中的标签元级别特定特征,可以将其视为标签元级别特定特征选择方法。 我们的方法在实际的医学辅助诊断应用中显着实现了鲁棒性和有效性,这已在实际的心血管和脑血管疾病数据集上得到了证明。
2、相关工作
2.1、多标签分类的集合
2.1.1、套袋组合方案
若干文献总结,请参考原文。
2.1.2、堆叠组合方案
若干文献总结,请参考原文。
2.2、多标签分类的加权集合
若干文献总结,请参考原文。
3、拟议的方法
3.1、初步
介绍多标签分类的定义。
3.2、生成置信度得分矩阵
3.3、加权分类器选择和堆叠集成
3.3.1、分类器选择的稀疏正则化
3.3.2、建模标签关联
3.3.3、多标签预测
3.4、优化方法
3.4.1、MLWSE-L1的优化
3.4.2、MLWSE-L21的优化
4、实验
4.1、实验数据集
在本节中,我们介绍了实验数据集,包括二维合成数据集,多标签基准数据集以及现实世界的心血管和脑血管疾病数据集,这些数据集用于从不同角度评估我们提出的方法的有效性。
4.2、二维合成数据集
4.1.3、真实数据集
4.2、实验设置
4.2.1、基线方法
我们将我们提出的方法MLWSE与七个最新的集成多标签分类方法进行了比较。
EBR [16]:BR模型的整体版本。每个BR的实例都是随机生成的。它不考虑标签之间的关系。
ECC [9]:CC的整体版本,其中每个CC的链顺序是随机生成的。它考虑了全局标签的相关性。
EPS [18]:LP的改进的集成版本,通过修剪不经常出现的标签集来关注标签的最重要关系。它通过修剪不经常出现的标签集来关注标签最重要的关系。
RAkEL [19]:基于k个标签的随机小子集的LP的改进的集成版本,其中k设置为3。它考虑了标签关系的小子集。
CDE [20]:Chi-Dep算法的集合,该算法为每组从属标签构建一个LP分类器。标签集的分区设置为100。它考虑了组之间的标签关系。
AdaBoost.MH [25]:基于BR的加权合奏版本,不仅像AdaBoost一样对实例维护一组权重,而且还对标签保持加权。
MLS [17]:基于BR的堆叠集成版本,其中考虑了元级别标签之间的关系。
4.2.2、超参数设定
4.2.3、评估指标
汉明损失,准确性,排名损失,F1,macroB。
4.3、实验结果
4.3.1二维合成数据集结果
利用二维合成数据集,我们通过逐步添加不同的技术组件(包括等式中给出的加权设置)来评估我们方法的加权分类器选择能力。(3)作为基线,方程式中给出的套索选择。(5),以及等式中给出的组稀疏度套索选择。(6)。我们将每个数据集随机分为训练集(35%),验证集(35%)和测试集(30%)。表3列出了这四种情况的实验结果。
4.3.2、基准数据及结果
4.3.3实际应用结果
4.4、算法分析
4.4.1、弗里德曼统计分析
4.4.2、参数灵敏度分析
4.4.3、收敛分析
5、讨论
我们基于一系列模拟进行了全面的调查。如我们的实验所示,我们的方法能够通过实现简单的迭代收缩阈值算法来实现高质量的泛化性能。因此,介绍了一种有前途但易于使用的多标签集合分类技术。我们总结了我们的方法的优点如下。
首先,我们提出了一种新颖的加权堆叠集成方法,用于与任何现有的多标签分类算法(例如MLKNN [11]和ML-DT [12])兼容的多标签分类算法,并使用稀疏性进行正则化以方便分类器选择和集成构建,其最终目标是开发一种简单有效的方法来选择多标签基础分类器。我们的方法在图1中进行了几何解释,并且系统地评估了加权分类器选择的能力,结果在表3中给出。此外,我们的方法已在来自多个领域(例如文本,影像,生物学和医学)的不同数据集上进行了测试。表4图5和图5表明我们的方法优于最新的多标签集成算法,而图8证明了我们的方法由于其学习过程的快速收敛性而为多标签分类任务提供了一种有效且易于使用的技术。
随后的文献调查显示,Zhou和Tao [49]提出了基于组稀疏Lasso的多标签子空间集成方法,而没有考虑堆叠集成方案。相比之下,我们的方法同时采用基于稀疏性的正则化进行分类器选择和整体构建,并采用余弦相似度来计算标签相关矩阵,从而通过基本分类器之间的显着交互来提高计算效率。
与其他多标签堆叠算法相似,我们的方法还需要生成元级特征,并需要额外的计算成本,这对于极端的多标签分类可能是个问题[50]。因此,在极端的多标签集合分类中找到计算效率和分类精度之间的折衷将是我们未来工作中一个有趣且具有挑战性的研究主题。
6、结论
在本文中,我们提出了一种用于多标签分类的新型加权分类器选择和堆叠集成MLWSE,它使用稀疏性进行正则化以方便分类器选择和集成构建,同时利用分类器权重和标签相关性来提高分类性能。另一方面,我们的集成方法不仅提供标签元特定功能选择方法,而且与任何现有的多标签分类算法作为其基础分类器兼容。我们将我们的方法MLWSE-L1和MLWSE-L21与13种多标签基准数据集以及实际的心血管和脑血管疾病数据集上的几种成熟的多标签集合分类算法进行了比较。
参考文献见原文
文献连接:https://doi.org/10.1016/j.ins.2020.06.017
部分翻译不是很准确,请参考原文,谢谢。