天天看点

集成特征选择

以下文章来源于数据思践 ,作者王路情

导读

阅读完本文,你可以知道:

1 集成特征选择是什么

2 集成特征选择的类型

3 集成特征选择要解决的关键问题

4 集成特征选择实现的常用工具

1

集成特征选择定义

集成特征选择是融合集成学习思想和特征选择方法,它结合了多个特征选择器的输出,通常可以提高性能,使得用户不必局限于选择单一的方法。简而言之:

集成特征选择 = 集成学习 + 特征选择

集成特征选择

2

集成特征选择类型

集成特征选择可以分为同构的和异构的。

同构的是指采用相同基特征选择器;而异构的是指采用不同的基特征选择器。

类似于,集成学习器里面的基分类器可以是相同的分类器,也可以是不同的分类器。

同构的,即对不同的训练数据集使用相同的特征选择方法;异构的,即对相同的训练数据集使用不同的特征选择方法。

3

集成特征选择要解决的关键问题

集成特征选择要解决的关键问题,描述如下:

1 基特征选择选择器的确定

2 集成特征选择的策略,是采用同构的,还是异构的

3 集成特征选择的最终结果的合并策略

4

集成特征选择实现的常用工具

集成特征选择方法实现的常用工具

1 MATLAB,它的统计学和机器学习工具箱包括这些方法可以做特征选择。1)fscnca, 利用邻域成分分析进行特征选择分类;2)fsrnca, 利用邻域成分分析进行特征选择回归;3)relieff,利用ReliefF算法获得变量的重要性分析。等等。

2 R,有许多R包可以做特征选择。最著名的R包是caret和boruta。

3 Scikit-Learn,包括一些特征选择方法。例如基于低方差移除特征;基于卡方检验和互信息的单一变量的特征选择;递归特征消除的方法。等等。

关于集成特征选择,您有什么想法请留言。