天天看点

机器学习中,有哪些特征选择的工程方法?

知乎用户  ,做过几个机器学习系统 237 人赞同 特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。

通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:

1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性,但是计算相对复杂一些,好在很多toolkit里边都包含了这个工具(如sklearn的MINE),得到相关性之后就可以排序选择特征了;

2. 构建单个特征的模型,通过模型的准确性为特征排序,借此来选择特征,另外,记得JMLR'03上有一篇论文介绍了一种基于决策树的特征选择方法,本质上是等价的。当选择到了目标特征之后,再用来训练最终的模型;

3. 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性,但是要注意,L1没有选到的特征不代表不重要,原因是两个具有高相关性的特征可能只保留了一个,如果要确定哪个特征重要应再通过L2正则方法交叉检验;

4. 训练能够对特征打分的预选模型:RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型;

5. 通过特征组合后再来选择特征:如对用户id和用户特征最组合来获得较大的特征集再来选择特征,这种做法在推荐系统和广告系统中比较常见,这也是所谓亿级甚至十亿级特征的主要来源,原因是用户数据比较稀疏,组合特征能够同时兼顾全局模型和个性化模型,这个问题有机会可以展开讲。

6. 通过深度学习来进行特征选择:目前这种手段正在随着深度学习的流行而成为一种手段,尤其是在计算机视觉领域,原因是深度学习具有自动学习特征的能力,这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。

整体上来说,特征选择是一个既有学术价值又有工程价值的问题,目前在研究领域也比较热,值得所有做机器学习的朋友重视。 编辑于 2015-04-01  20 条评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 194赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

江嘉键  ,吃超级美味的食物,过不断挑战的人生。 收录于 编辑推荐  • 194 人赞同

最近一段时间,我们米筐科技量化策略研究团队在自己的策略研究平台上,做了一些量化分析方面的特征工程和特征选择研究。关于它们在量化交易中的应用,我可以分享一下我们团队的经验。

首先,追本溯源,为什么特征工程和特征选择值得讨论?在实际的数据分析和建模中,我们通常要面对两种情况:1 数据集中已有的特征变量不够多,或者已有的特征变量不足以充分表征数据的特点;2 我们拥有大量的特征,需要判断出哪些是相关特征,哪些是不相关特征。特征工程解决的是第一个问题,而特征选择解决的是第二个问题。

对于特征工程来说,它的的难点在于找到好的思路,来产生能够表征数据特点的新特征变量;而特征选择的难点则在于,其本质是一个复杂的组合优化问题(combinatorial optimization)。例如,如果有 30 个特征变量,当我们进行建模的时候,每个特征变量有两种可能的状态:“保留”和“被剔除”。那么,这组特征维度的状态集合中的元素个数就是

机器学习中,有哪些特征选择的工程方法?

。更一般地,如果我们有 N 个特征变量,则特征变量的状态集合中的元素个数就是

机器学习中,有哪些特征选择的工程方法?

。因此,从算法角度讲,通过穷举的方式进行求解的时间复杂度是指数级的(O(

机器学习中,有哪些特征选择的工程方法?

))。当 N 足够大时,特征筛选将会耗费大量的时间和计算资源(图1)。在实际应用中,为了减少运算量,目前特征子集的搜索策略大都采用贪心算法(greedy algorithm),其核心思想是在每一步选择中,都采纳当前条件下最好的选择,从而获得组合优化问题的近似最优解。

机器学习中,有哪些特征选择的工程方法?

图1:通过穷举法求解特征选择问题的二叉树表示。状态集合中元素的个数随特征变量数目增加而呈现指数增长。

目前很多流行的机器学习的材料,都未能给出特征工程和特征选择的详细论述。其主要原因是,大部分机器学习算法有标准的推导过程,因而易于讲解。但是在很多实际问题中,寻找和筛选特征变量并没有普适的方法。 然而,特征工程和特征选择对于分析结果的影响,往往比之后的机器学习模型的选择更为重要。斯坦福大学教授,Coursera 上著名的机器学习课程主讲老师 Andrew Ng 就曾经表示:“基本上,所谓机器学习应用,就是进行特征工程。”

在特征工程和特征选择的在量化交易的应用方面,我们试图回答以下两个问题:

1 如何对沪深300指数进行特征工程?

机器学习中,有哪些特征选择的工程方法?

2 如何尽可能减少数据,以及算法本身的局限性给特征选择带来的负面影响?

接下来,就以上两个问题,不揣浅陋,我分享一些我们团队的经验和思考。

1 沪深300指数的特征工程

在量化分析中,常见的因子大致可以分为四类:

(1) 量价因子,例如成交量,收盘价等;

(2) 基本面因子,例如市盈率,所属行业等;

(3) 技术分析因子,例如MACD, DIF等;

(4) 宏观经济因子(或称外部响应因子),例如利率,各个季度的经济数据等。

1970年,尤金

机器学习中,有哪些特征选择的工程方法?

法马(Eugene Fama)提出了有效市场理论,认为证券资产价格包含一切的市场信息。这就是量价因子能够反映市场特征的根本依据。对于一个非有效市场而言,我们认为,量价因子甚至可能更为重要:任何人根据非公开信息进行交易,其交易信息仍然会反映在量价因子中。类似的观点更接近于有效市场理论的强假设版本:市场上一切公开或非公开的信息,都会反映在资产的价格中。

基于这个思路,在四类因子中,我们首先尝试对量价因子实现特征工程。2015年,在一篇名为《WorldQuant Formulaic 101 Alphas》的研究报告中,以数据挖掘能力而闻名业界的对冲基金WorldQuant LLC 给出了他们的 101 个阿尔法的数学表达式。在报告中,这些阿尔法表达式被分为了趋势追随,均值回归和混合型三种。既然这 101 个阿尔法表达式在实践中被证明行之有效,且对应明确的市场意义(趋势,反转和混合),在特征工程研究中,我们使用报告中的变换方法和阿尔法表达式为基础,构造了 60 个特征变量,用于下一步的机器学习建模。这 60 个特征变量的构建过程,可参看我们第二份报告的附录2。

2 集成特征打分器 (Ensemble Feature Grader, EFG)

如上所述,特征选择的本质上是求解一个计算量随特征变量个数呈指数增长的组合优化问题。基于不同的子集搜索和评价标准,不同的方法给出的都只是一个近似最优解,而解的合理性也将受方法本身的局限性所影响。因此,为了系统化地进行特征选择,获得更为合理的相关特征变量子集,在这里我们借鉴机器学习里面的集成学习(ensemble learning)的思想,提出一个集成特征打分器(以下称EFG)。在这个打分器中,我们使用了八种方法(Pearson 相关系数,距离相关系数,简单线性回归,基于AIC的Lasso回归,基于BIC的Lasso回归,随机森林,循环特征剔除和岭回归)对特征变量分别进行打分,并进而计算其总得分,以尽量减少数据和单一特征选择方法引起的问题,进而改善特征选择的效果。

我们进一步使用了 Frideman 训练集对 EFG 进行测试。这个训练集中包含非线性相关项,噪音项,权重不同的线性相关项和引起多重共线性的项,基本上囊括了实际数据处理中可能出现的主要问题,而 EFG 的测试表现令人满意。有兴趣的朋友,可以参看我们第二份研究报告附录1,了解详细的测试过程和结果。

在实际建模中,我们使用 EFG 对上一步获得的 60 个特征变量进行打分,筛选出 14 个得分较高的特征变量,并以此进行了聚类分析。我们发现两个聚类所对应的不同收益率分布,其中第一个聚类所包含的交易日,其下一个交易日的收益率的均值明显高于第二个聚类所对应的均值。基于这个结果,我们实现了一个基准择时策略。其思路是,如果一个交易日和聚类1的距离较近,我们就进行买入;离聚类2较近,则不进行交易。下午为该策略的累计收益率(图2),其表现明显好于长期持有沪深300指数相关的资产。

机器学习中,有哪些特征选择的工程方法?

图2:使用 EFG 进行特征选择后累积收益率曲线计算:(a)沪深300指数;(b) 在聚类1包含的交易日进行交易;(c) 在聚类2包含的交易日进行交易

以上就是我们在利用机器学习算法进行金融量化分析中的经验和尝试。关于下笔为文,古人有一句真知灼见:“结字因时而变,运笔千秋不易。” 对于数据分析和建模来说,道理也不外如是。计算机理论和机器学习算法的发展,使得数据分析和建模成为了这个时代的显学。目前,用 R 或者 Python 等高级编程语言实现一个复杂的模型,所需的可能就是区区几十行代码。但是自问自心,我们是否能够真的对于数据和模型做得了如指掌?是否能保证当模型出现问题时,我们能知其所以然?在一个足够长的时间维度内,我们认为,在数据建模和量化交易中能够出类拔萃的人,始终应该保持着对数据和算法全面,准确,深刻的理解和思考。

概而言之,拨开数据的重重迷雾,理解和预测复杂多变的金融市场,即使不考虑其物质回报,其过程本身也令人着迷。我们走上了这条荆棘丛生,又有壮丽风光的旅途,乐于体认这个过程中一切的艰辛和甘甜。希望我们这里所叙述的经验和思考,也对你有所启发。

研究报告链接:

com/p/21337419

com/p/21406355

枕书达旦,以争朝夕,与君共勉。

机器学习中,有哪些特征选择的工程方法?

编辑于 2016-06-25  8 条评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 121赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

中玉姬  ,how to model anything 121 人赞同 附上整理的笔记,欢迎交流

机器学习中,有哪些特征选择的工程方法?

参考资料:

【1】机器学习中的数据清洗与特征处理综述

http://tech.meituan.com/machinelearning-data-feature-process.html

【2】《Applied Predictive Modeling》 发布于 2015-05-30  9 条评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 39赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

mahalanobis  ,你口音不像上海人啊/你看上去不像上海人… 39 人赞同 看kaggle获胜者源码。

http://www.chioka.in/kaggle-competition-solutions/

特别的,kaggle排名第一的owen zhang,他的github有几个源码。

https://github.com/owenzhang

手机发的没有超链接 T0T 发布于 2016-01-05  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 22赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

橙子夏  ,数据分析/数据挖掘入门 22 人赞同 干货:结合Scikit-learn介绍几种常用的特征选择方法 发布于 2015-10-11  1 条评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 6赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

张戎  ,机器学习初学者 6 人赞同 特征工程是一个非常重要的课题,是机器学习中不可缺少的一部分,但是它几乎很少出现于机器学习书本里面的某一章。在机器学习方面的成功很大程度上在于如果使用特征工程。

(I)特征工程可以解决什么样的问题?

在机器学习中,经常是用一个预测模型(线性回归,逻辑回归,SVD等)和一堆原始数据来得到一些预测的结果,人们需要做的是从这堆原始数据中去提炼较优的结果,然后做到最优的预测。这个就包括两个方面,第一就是如何选择和使用各种模型,第二就是怎么样去使用这些原始的数据才能达到最优的效果。那么怎么样才能够获得最优的结果呢?贴上一句经典的话就是:

Actually the sucess of all Machine Learning algorithms depends on how you present the data. 

------ Mohammad Pezeshki

直接翻译过来便是:事实上所有机器学习算法上面的成功都在于你怎么样去展示这些数据。由此可见特征工程在实际的机器学习中的重要性,从数据里面提取出来的特征好坏与否就会直接影响模型的效果。从某些层面上来说,所使用的特征越好,得到的效果就会越好。所需要的特征就是可以借此来描述已知数据的内在关系。总结一下就是:

Better feature means flexibility. Better feature means simpler models. Better feature means better results.

有的时候,可以使用一些不是最优的模型来训练数据,如果特征选择得好的话,依然可以得到一个不错的结果。很多机器学习的模型都能够从数据中选择出不错的结构,从而进行良好的预测。一个优秀的特征具有极强的灵活性,可以使用不那么复杂的,运算速度快,容易理解和维护的模型来得到不错的结果。

(II)什么才是特征工程?

Feature Engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive models, resulting in improved model accuracy on unseen data. 

------ Jason Brownlee

Feature Engineering is manually designing what the input x's should be. 

------ Tomasz Malisiewicz

从这个概念可以看出,特征工程其实是一个如何展示和表现数据的问题,在实际工作中需要把数据以一种“良好”的方式展示出来,使得能够使用各种各样的机器学习模型来得到更好的效果。如何从原始数据中去除不佳的数据,展示合适的数据就成为了特征工程的关键问题。

(III)特征有用性的预估

每次构造了一个特征,都需要从各个方面去证明该特征的有效性。一个特征是否重要主要在于该特征与要预测的东西是否是高度相关的,如果是高度相关,那么该特征就是十分重要的。比如常用的工具就是统计学里面的相关系数。

(IV)特征的构造过程 

在实际工作中首先肯定要确定具体的问题,然后就是数据的选择和准备过程,再就是模型的准备和计算工作,最后才是展示数据的预测结果。构造特征的一般步骤:

[1]任务的确定:根据具体的业务确定需要解决的问题;

[2]数据的选择:整合数据,收集数据;

[3]预处理数据:设计数据展现的格式,清洗数据,选择合适的样本使得机器学习模型能够使用它。比方说一些年龄特征是空值或者负数或者大于200等,或者说某个页面的播放数据大于曝光数据,这些就是数据的不合理,需要在使用之前把这一批数据排除掉。

[4]特征的构造:转化数据,使之成为有效的特征。常用的方法是标准化,归一化,特征的离散化等。

(4.1)标准化(Standardization):比方说有一些数字的单位是千克,有一些数字的单位是克,这个时候需要统一单位。如果没有标准化,两个变量混在一起搞,那么肯定就会不合适。

(4.2)归一化(Normalization):归一化是因为在特征会在不同的尺度下有不同的表现形式,归一化会使得各个特征能够同时以恰当的方式表现。比方说某个专辑的点击播放率一般不会超过0.2,但是专辑的播放次数可能会达到几千次,所以说为了能够在模型里面得到更合适结果,需要先把一些特征在尺度上进行归一化,然后进行模型训练。

(4.3)特征的离散化(Discretization):离散化是指把特征进行必要的离散处理,比方说年龄特征是一个连续的特征,但是把年龄层分成5-18岁(中小学生),19-23岁(大学生),24-29岁(工作前几年),30-40岁(成家立业),40-60岁(中年人)从某些层面来说比连续的年龄数据(比如说某人年龄是20岁1月3日之类的)更容易理解不同年龄层人的特性。典型的离散化步骤:对特征做排序-> 选择合适的分割点-> 作出区间的分割 -> 作出区间分割-> 查看是否能够达到停止条件。

[5]模型的使用:创造模型,选择合适的模型,用合适的模型来进行预测,用各种统计指标来判断该特征是否合适;

[6]上线的效果:通过在线测试来看效果。

数据的转换(Transforming Data)就是把数据从原始的数据状态转换成适合模型计算的状态,从某些层面上来说,“数据转换“和”特征构造“的过程几乎是一致的。

(V)特征工程的迭代过程

特征工程的迭代步骤:

[1]选择特征:需要进行头脑风暴(brainstorm)。通过具体的问题分析,查看大量的数据,从数据中查看出可以提取出数据的关键;

[2]设计特征:这个需要具体问题具体分析,可以自动进行特征提取工作,也可以进行手工进行特征的构造工作,甚至混合两种方法;

[3]选择特征:使用不同的特征构造方法,来从多个层面来判断这个特征的选择是否合适;

[4]计算模型:通过模型计算得到模型在该特征上所提升的准确率。

[5]上线测试:通过在线测试的效果来判断特征是否有效。 发布于 2016-01-23  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  禁止转载 10赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

彩虹 10 人赞同 机器学习の特征

自己整理的,欢迎学习与修订. 发布于 2015-06-10  4 条评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 4赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

金戈戈  ,大数据!机器学习!摄影爱好者 4 人赞同 有人不想做特征工程,于是有了深度学习 发布于 2016-04-23  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 1赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

知乎用户  ,人生很短也很美妙 1 人赞同 胡编乱造就行

本来就是半仙科学 发布于 2016-06-25  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 1赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

知乎用户  ,hi 1 人赞同 就没有人回答业务理解和经验吗? 发布于 2016-06-23  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 0赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

苏男  ,数据挖掘工程师 sklearn的文档有相关的章节: 1.13. Feature selection

看完后分分钟就可以用了。 发布于 昨天 16:04  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 1赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

sigmoidguo  ,dm, ml, nlp 1 人赞同 个人了解的方法是:

单个特征选择,可以用决策树的split 的方法:gini index,信息增益等。

组合特征选择,决策树的整个路径。 发布于 2016-06-25  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 1赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

ly cui 1 人赞同 你好,L1正则化的逻辑回归模型,有没有可能选出一些起返作用的特征。 发布于 2015-05-26  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 0赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

知乎用户  ,机器学习 我经常用的有两种:mRMR和Gainratio。 发布于 2016-06-24  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 0赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

全大葱  ,飞不起来的胖子 一般简单且常见的都是卡方检验,互信息和信息增益这三种。往深了说估计就数不清了 发布于 2015-12-14  添加评论  感谢  分享   收藏  •  没有帮助  •  举报  •  作者保留权利 0赞同 反对,不会显示你的姓名

机器学习中,有哪些特征选择的工程方法?

xuhuaren  ,计算机视觉 现在都深度学习了,特征提取基本上不怎么重要了,扔进去自动训练出有效特征。

继续阅读