前言
欢迎关注本人公众号
本篇结合周志华老师《机器学习》第3章习题而讲。
做为入门项目,我们推荐使用Python来进行编码实践,有需求了解更多其它机器学习生态的同学,可以在公众号后面留言,也可以加入数据科学实战QQ交流群:250695418。
好了,来做习题吧
西瓜书《机器学习》p69页第3.4题:
选择两个UCI数据集,比较10折交叉验证和留一法所估计出的对率回归的错误率。
UCI数据集地址:http://archive.ics.uci.edu/ml/index.php。本项目中我们拿一个数据集(Iris分类数据集:http://archive.ics.uci.edu/ml/datasets/Iris)来进行示例讲解,同学们可根据这个过程自行再找一个新的数据集来进行尝试。
该数据集在我们的github项目中也已经复制了一份:https://github.com/aaronlou/DataScienceProject/tree/master/Data。
K折交叉验证与留一法的讲解详见西瓜书第2章第26页,这里不再赘述。
直接上手实验
详细代码已保存为ipynb文件,上传到了github项目中:https://github.com/aaronlou/DataScienceProject/blob/master/LogisticRegression/k-fold.ipynb