文章目录
- sklearn
-
-
- scikit-learn数据集
-
-
- `sklearn.datasets`:加载获取流行数据集
- `sklearn`大数据集
- `sklearn`数据集返回值介绍
-
- 查看数据分布
-
-
- seaborn
-
- 数据集划分api
- 交叉验证
-
-
- 概念
- 目的
- api
-
-
- 机器学习
-
-
- 基本流程
-
-
- 特征预处理
-
- 归一化
- 标准化
-
-
sklearn
scikit-learn数据集
sklearn.datasets
:加载获取流行数据集
sklearn.datasets
:获取小规模数据集,数据包含在datasets里
datasets.load_*()
:获取大规模数据,参数表示从网上下载数据
datasets.fetch_*(data_home=None)
sklearn
大数据集
sklearn
参数: ~
sklearn.datasets.fetch_20newsgroups(data_home=None, subset='train')
:
subset
或
train
,
test
选择要加载的数据集
all
sklearn
数据集返回值介绍
sklearn
和
load
返回的数据类型
fetch
datasets.base.Bunch(字典格式)
-
:特征数据数组,data
-
:标签数组, 一维target
-
:数据描述DESCR
-
:特征名feature_names
-
:标签名target_names
查看数据分布
seaborn
seaborn.Implot()
:绘制二维散点图,自动完成回归拟合
-
:x、y分别代表横纵坐标的别名sns,Implot()
-
:关联到数据集data
-
:代表按照species,类别的分类显示hue
-
:是否进行线性拟合fit_reg
数据集划分api
sklearn.model_selection.train_test_split(arrays, *opetions)
-
:特征值x
-
:标签值y
-
:划分测试集的大小test_size
-
:随机种子,相同种子的采样结果一样random_state
-
:训练集特征值、测试集特征值、训练集标签值、测试集标签值return
交叉验证
概念
训练集:训练集+验证集

目的
为了让评估模型更加准确可信, 不能提高准确率
api
sklearn.model_selection.GridSearchCV()
:对估计器的指定参数值进行详尽搜索
参数
-
:估计器对象estimator
-
:估计器参数param_grid
{'n_neighbors':[1,3,5...]}
-
:指定几折交叉验证cv
方法
-
:输入训练数据fit
-
:准确率score
结果分析
-
:交叉验证中的最好结果best_score_
-
:最好的参数模型best_estimator_
-
:每次交叉验证后的验证集准确率和训练集准确率结果cvesults
机器学习
基本流程
- 获取数据集
- 数据处理【数据切割】
- 特征工程
- 机器学习
- 模型评估
特征预处理
定义:将原始数据变换映射在 (0, 1) 之间; 将数据转化成机器能学习的数据 标准化、归一化
归一化
为何标准归一化
特征的单位或大小相差较大,或某特征的方差比其他的特征大出几个数量级,易影响目标结果 eg:
一列数据出现1和10000000
归一化
归一化api
sklearn.preprocession.MinMaxScaler(feature_range=(0,1)....)
:返回转型后的数据
MinMaxScaler.fit_transform(np.array)
标准化
api
将数据转化在0-1之间
sklearn.preprocessing.StandarScaler()
:X为
StandardScaler.fit_transform(X)
数据格式
np.array