常用调参方法举例

sklearn使得我们在很多编写代码的时候更多的工作倾向于调参数而不是去写算法本身，本篇文章整理了一下常用的调参方式。

K邻近算法（最常规版本）

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
# 导入鸢尾花数据
iris=datasets.load_iris()
iris_X=iris.data
iris_y=iris.target
#查看前两行数据
print(iris_X[:2,:])
#[[5.1 3.5 1.4 0.2]
#[4.9 3.  1.4 0.2]]
#查看结果集
print(iris_y)
#划分数据
X_train,X_test,y_train,y_test=train_test_split(iris_X,iris_y,test_size=0.3,random_state=3)

#训练模型
knn=KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train,y_train)

#预测值
print(knn.predict(X_test))

#查看模型得分  
print(knn.score(X_test,y_test))
# 0.9555555555555556

加入交叉验证

注意因为代码是在jupyter中运行，所以变量我就不重新定义了。

cross_val_score详细介绍放在文章末尾。

from sklearn.model_selection import cross_val_score
#cross_val_score函数一般用到的参数（对照下面）：模型 训练数据测试数据 分为几份 计分方式下面的accu为准确的值划分 
sorces=cross_val_score(knn,iris_X,iris_y,cv=5,scoring='accuracy')
print(sorces)
#[0.96666667 1.         0.93333333 0.96666667 1.        ]
print(sorces.mean())  #求得分均值
#0.9733333333333334

加上网格搜索

不知道这里写的对不对

import matplotlib.pyplot as plt
k_range=range(1,31)
k_sorces=[]

for k in k_range:
    knn=L=KNeighborsClassifier(n_neighbors=k)
    sorces=cross_val_score(knn,iris_X,iris_y,cv=10,scoring='accuracy')
    k_sorces.append(sorces.mean())
#下面两行是因为横纵坐标会因为汉字报错
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False 

plt.plot(k_range,k_sorces)
plt.xlabel('对应k值')
plt.ylabel('k值对应分数')
plt.show()

结果为

机器学习调参常用调参方法举例

GridSearchCV

这个其实就是交叉验证和网格搜索的结合，直接得出最优的参数。GridSearchCV的函数信息放在文章末尾（只写了几个常用的参数）

from sklearn.model_selection import GridSearchCV
k_range=range(1,31)
params = {'n_neighbors':k_range}
grid_search = GridSearchCV(knn,params,cv=10,scoring='accuracy')
grid_search.fit(X_train, y_train)
print('模型最高分：{:.3f}'.format(grid_search.score(X_test, y_test)))
print('最优参数：{}'.format(grid_search.best_params_))
#模型最高分：0.956
#最优参数：{'n_neighbors': 5}

函数介绍

GridSearchCV

class sklearn.model_selection.GridSearchCV(estimator, param_grid, , scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2n_jobs’, error_score=nan, return_train_score=False)

参数	解释
estimator	定义好的模型或者分类器
param_grid	需要最优化的参数的取值，值为字典或者列表
scoring	模型评价标准
n_jobs	并行数，默认为1，最多就是你的cpu核数
cv	交叉验证参数，默认None，上文我用的就是常说的10倍交叉验证

cross_val_score

sklearn.model_selection.cross_val_score(estimator, X, y=None, , groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2n_jobs’, error_score=nan)

参数	解释
estimator	估计器，也就是模型
X, y	数据源数据，标签值
scoring	调用的方法
n_jobs	同时工作的cpu个数（-1代表全部）
cv	交叉验证生成器或可迭代的次数

机器学习调参常用调参方法举例

机器学习调参

常用调参方法举例

K邻近算法（最常规版本）

加入交叉验证

加上网格搜索

GridSearchCV

函数介绍

GridSearchCV

cross_val_score

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入