【ML】机器学习模型保存方式总结

2023-03-28 2836

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 【ML】机器学习模型保存方式总结

1. 前言

当训练好机器学习模型后，为了方便后续的使用和部署，需要将模型进行保存。以下是机器学习模型保存的几种常见方式：

本地保存：可以使用Python的pickle或joblib等库将模型保存为文件（通常以扩展名.pkl、.dat），然后在需要使用模型的地方加载该文件。
云存储：可以将模型保存在云存储中，如Amazon S3、Google Cloud Storage等，方便在不同计算机之间传输、共享和备份模型。
数据库存储：可以将模型保存在数据库中，通常采用NoSQL数据库如MongoDB、Cassandra等，可以实现高效的数据管理和存储。
导出为API：可以使用Web框架如Flask、Django等将模型封装成API接口，以便于其他应用程序使用。
导出为服务：可以使用容器技术如Docker、Kubernetes等将模型封装为微服务，实现模型的高效部署和管理。

在选择保存方法时，需要根据具体情况和需求进行选择。无论采用何种保存方法，都需要保证保存的模型在后续使用时能够被正确加载和调用。同时，需要注意模型的大小和复杂度，以及保存的安全性和可靠性等问题。

2. 问题

作为机器学习算法工程师，我们都知道在做建模任务时，经常用到机器学习中的分类、回归等算法。那么，很多时候我们都是将重点放在模型的算法、效果上（学术界），很少有人关注当我们训练出一个模型后，如何将其保存下来，以便任何需要的时候都可以拿出来使用。今天做一个总结，分享如何保存训练好的机器学习模型（工业界）。

3. 模型

我们以波士顿房价预测为例，做一个简单的机器学习项目，包括数据加载、模型训练、模型评估、模型导出

项目使用python 3.6以上版本，sklearn 0.22.1版本，joblib 0.16.0

3.1 导库

导入依赖库，后续构建代码需要

# 导入模块
from sklearn.datasets import load_boston     
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error
import joblib
import pickle

3.2 数据

加载数据，我们使用的是sklearn.datasets中的波士顿房价数据集

boston = load_boston()
X = boston.data
y = boston.target

3.3 划分数据集

将数据划分为训练集和测试集

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)  # test_size=0.3表示30%数据集用来测试
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

3.4 定义模型

这里我们使用线性回归算法，首先需要定义模型，我们使用默认的参数，直接调库使用LinearRegression模型

# define model
model = LinearRegression()

在这里插入图片描述

3.5 训练模型

训练集上拟合模型，即进行模型训练

# train model
model.fit(X_train, y_train)

3.6 评估模型

对模型进行评估

# predict
y_pred = model.predict(X_test)
print(y_pred.shape)

# mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print("mse:", mse)

# mean_absolute_error
mae = mean_absolute_error(y_test, y_pred)
print("mae:", mae)

预测结果：

在这里插入图片描述

mean_squared_error的值为18.5165
mean_absolute_error的值为3.2015

线性回归模型参数：

在这里插入图片描述

3.7 保存模型

上面训练好了一个线性回归模型model，将其保存

# save model
# method 1
joblib.dump(model, "save_model/ml_lr.pkl")
#joblib.dump(model, "save_model/ml_lr.dat")

# method 2
pickle.dump(model, open("save_model/ml_lr.dat", "wb"))   # open("ml_lr.dat","wb")意思是打开叫"ml_lr.dat"的文件,操作方式是写入二进制数据

保存的模型：

在这里插入图片描述

3.8 加载模型

加载保存的模型

import joblib
import pickle

# load model
model = joblib.load("save_model/ml_lr.pkl")
#model = pickle.load(open("save_model/ml_lr.dat","rb"))

3.9 其他

xgboost模型保存，可以pickle，当然它自带了save_model，详细如下

from xgboost import XGBRegressor
import xgboost as xgb

# 定义模型
model_xgb = XGBRegressor(n_estimators=50)
# 训练模型
model_xgb.fit(X_train, y_train)
# 保存模型
model_xgb.save_model("model_xgb.model")
# 加载模型
model_xgb_load = xgb.Booster(model_file="model_xgb.model")

# 需要使用xgb.DMatrix将X_test包括起来
y_pred_xgb = model_xgb_load.predict(xgb.DMatrix(X_test))

pickle.dump(model_xgb, open("model_xgb.dat", "wb"))
xgb_model = pickle.load(open("model_xgb.dat", "rb"))
y_pred_xgb = xgb_model.predict(X_test)

4. 总结

从上面可以看到，训练好的线性回归模型可以使用joblib保存为pkl后缀的模型，或者使用pickle保存dat后缀的模型。
我之前做项目的时候还使用过sklearn2pmml训练模型并导出训练好的pmml后缀模型，我会后续更新模型部署的知识，在文章中详细介绍pmml的导出和加载
通常保存的pmml文件，加载后预测结果和pkl文件预测结果对比有偏差，但偏差样本的占比在1%以内，并且偏差的预测概率值在小数点10位之后，那么是正常情况。这是因为pmml用的是64位浮点，pkl用的是32位浮点。如果偏差样本占比很大，并且偏差值相差也很大，那么就要检查一下数据和模型了的问题了
当然，还有其他模型保存方式，在此不一一赘述，涉及到深度学习模型保存方式，根据深度学习框架的不同以及部署方式、不同平台差异更大