机器学习之训练好的模型保存与加载

2023-05-04 11:26:21

以乳腺癌数据为例做逻辑回归并保存模型

加载数据
删除无用数据
删除缺失数据
过采样平衡数据
提取数据
对数据进行标准化
切分数据
训练模型
保存模型
加载模型

数据来源

数据来源：http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Original)

机器学习之训练好的模型保存与加载

代码实现

import pandas as pd
import numpy as np
# 导入逻辑回归模型
from sklearn.linear_model import LogisticRegression
# 导入标准化函数
from sklearn.preprocessing import StandardScaler
# 导入数据切分函数
from sklearn.model_selection import train_test_split as tts
导入保存模型函数
from sklearn.externals import joblib

# 下载下来的数据保存的路径
path = "../datas/breast-cancer-wisconsin.data"
# 列名
names = ['id','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape',
         'Marginal Adhesion','Single Epithelial Cell Size','Bare Nuclei',
        'Bland Chromatin','Normal Nucleoli','Mitoses','Class']
# 加载数据
data = pd.read_csv(path,names=names)

# 设置pandas可以显示的结果行数/列数
pd.set_option('display.max_rows',200)
pd.set_option('display.max_columns',200)

# 删除为空的数据和带'?'的数据
data = data.replace('?',np.nan).dropna()

# 分析数据删除无用的列
data.drop(columns=['id'],inplace=True)

# 使用过采样，进行类别平衡
counts = data[data['Class'].isin(['2'])]['Class'].count() #444
print(counts)
# 提取所有的标签为4的数据作为一组添加数据
data_add = data[data['Class'].isin(['4'])]
# 添加数据，保持样本平衡
data = pd.concat([data_add,data],axis=0)
print(data.shape)

# 提取X和Y
X = data.iloc[:,:-1]
y = data.iloc[:,-1]

# 标准化
ss = StandardScaler()
X = pd.DataFrame(ss.fit_transform(X),columns=names[1:-1])

# 分割数据集
X_train,X_test,y_train,y_test = tts(X,y,test_size=0.3,random_state=3)

# 逻辑回归模型训练
model_LR = LogisticRegression(max_iter=500)
model_LR.fit(X_train,y_train)
print(model_LR.coef_)
print(model_LR.score(X_test,y_test))

# 保存模型 这是一个二进制文件
joblib.dump(filename='LR.model',value=model_LR)

新建Python环境，调用模型

# 导入模型保存于加载函数
from sklearn.externals import joblib
# 加载模型
model_LR = joblib(filename='LR.model')
# 此时上述训练好的模型就可以直接使用
# 打印参数
print(model_LR.coef_)

效果展示

训练好的模型

机器学习之训练好的模型保存与加载

保存的二进制模型

机器学习之训练好的模型保存与加载

再次调用的模型参数

机器学习之训练好的模型保存与加载

机器学习之训练好的模型保存与加载

以乳腺癌数据为例做逻辑回归并保存模型

数据来源

代码实现

新建Python环境，调用模型

效果展示

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告