【DSW Gallery】Gbdt-FM模型

简介: GBDT+FM 模型是由 Gbdt+LR 延伸出来的模型。该模型利用GBDT自动进行特征筛选和组合,进而生成新的离散特征向量,再把该特征向量当做 FM 模型的输入,来产生最后的预测结果。该模型能够综合利用用户、物品和上下文等多种不同的特征,生成较为全面的推荐,在CTR点击率预估场景下使用较为广泛。

直接使用

请打开Gbdt-FM模型,并点击右上角 “ 在DSW中打开” 。

image.png


Gbdt + FM 一体化模型训练及服务部署

GBDT+FM 模型是由 Gbdt+LR 延伸出来的模型。该模型利用GBDT自动进行特征筛选和组合,进而生成新的离散特征向量,再把该特征向量当做 FM 模型的输入,来产生最后的预测结果。该模型能够综合利用用户、物品和上下文等多种不同的特征,生成较为全面的推荐,在CTR点击率预估场景下使用较为广泛。
本文将介绍如何基于DSW使用 Alink 快速的构建 Gbdt+FM 模型,并且会介绍如何方便的将建立的模型部署成服务。

运行环境要求

1. PAI-DSW 官方镜像中默认已经安装了 PyAlink,内存要求 4G 及以上。
2. 本 Notebook 的内容可以直接运行查看,不需要准备任何其他文件。
from pyalink.alink import *
useLocalEnv(2)
Use one of the following commands to start using PyAlink:
 - useLocalEnv(parallelism, flinkHome=None, config=None): run PyAlink scripts locally.
 - useRemoteEnv(host, port, parallelism, flinkHome=None, localIp="localhost", config=None): run PyAlink scripts on a Flink cluster.
 - getMLEnv(): run PyAlink scripts as PyFlink scripts, support 'flink run -py xxx.py'.
Call resetEnv() to reset environment and switch to another.
JVM listening on 127.0.0.1:58007
MLEnv(benv=<pyflink.dataset.execution_environment.ExecutionEnvironment object at 0x7fdd965a0ed0>, btenv=<pyflink.table.table_environment.BatchTableEnvironment object at 0x7fdd965a0ad0>, senv=<pyflink.datastream.stream_execution_environment.StreamExecutionEnvironment object at 0x7fdd965a0b50>, stenv=<pyflink.table.table_environment.StreamTableEnvironment object at 0x7fdd965cc050>)

扩展到更大规模的数据

在这个示例中,我们使用 useLocalEnv 在本地(也就是 DSW 的 container 内)运行 Alink 作业,使用多线程的方式模拟分布式计算。

对于更大规模的数据,可以使用 usePAIEnv 向大规模集群提交作业,详细使用可以通过 help(usePAIEnv) 查看。

数据准备

Adult 数据来源 https://archive.ics.uci.edu/ml/datasets/Adult

算法相关文档:

Adult数据集(即“人口普查收入”数据集),由美国人口普查数据集库 抽取而来,其中共包含48842条记录,年收入大于50k美元的占比23.93%,年收入小于50k美元的占比76.07%,并且已经划分为训练数据32561条和测试数据16281条。 该数据集类变量为年收入是否超过50k美元,属性变量包括年龄、工种、学历、职业等 14类重要信息,其中有8类属于类别离散型变量,另外6类属于数值连续型变量。该数据集是一个分类数据集,用来预测年收入是否超过50k美元。

PATH = "https://alink-test-data.oss-cn-hangzhou.aliyuncs.com/"
TRAIN_FILE = "adult_train.csv"
TEST_FILE = "adult_test.csv"
SCHEMA_STRING = "age bigint, workclass string, fnlwgt bigint, education string, education_num bigint,"\
    + " marital_status string, occupation string, relationship string, race string, sex string, "\
    + "capital_gain bigint, capital_loss bigint, hours_per_week bigint, native_country string, label string"
trainData = CsvSourceBatchOp() \
    .setFilePath(PATH + TRAIN_FILE) \
    .setFieldDelimiter(",") \
    .setSchemaStr(SCHEMA_STRING)
testData = CsvSourceBatchOp() \
    .setFilePath(PATH + TEST_FILE) \
    .setFieldDelimiter(",") \
    .setSchemaStr(SCHEMA_STRING)
trainData.lazyPrint(5)
BatchOperator.execute()
age workclass fnlwgt education education_num marital_status occupation relationship race sex capital_gain capital_loss hours_per_week native_country label
0 51 Private 166934 HS-grad 9 Married-civ-spouse Machine-op-inspct Husband White Male 0 0 40 United-States >50K
1 80 Self-emp-not-inc 26865 7th-8th 4 Never-married Farming-fishing Unmarried White Male 0 0 20 United-States <=50K
2 24 Private 227594 Some-college 10 Never-married Sales Own-child White Female 0 0 20 United-States <=50K
3 50 Private 93690 HS-grad 9 Married-civ-spouse Transport-moving Husband White Male 0 0 40 United-States >50K
4 35 Local-gov 226311 Some-college 10 Divorced Adm-clerical Own-child White Female 0 0 38 United-States <=50K

训练模型

算法相关文档:

我们通过将 GbdtEncoder 和 FM 这两个算子放到一个Pipeline的方式完成模型的一体化训练。这里是用GbdtEncoder对输入的数据进行编码,并将编码的结果输送给FM进行训练。最终我们得到一个pipeline model,这个模型可以用来对数据进行推理,也可以部署成服务。

featureCols = ["age", "fnlwgt", "education_num", "capital_gain",
            "capital_loss", "hours_per_week", "workclass", "education", "marital_status", "occupation",
            "relationship", "race", "sex", "native_country"]
numericalCols = ["age", "fnlwgt", "education_num", "capital_gain",
            "capital_loss", "hours_per_week"]
label = "label"
vecCol = "vec"
gbdtFmPipe = Pipeline() \
    .add(
        GbdtEncoder()\
            .setLabelCol(label)\
            .setFeatureCols(featureCols)\
            .setReservedCols([label])\
            .setPredictionCol(vecCol))\
    .add(
        FmClassifier() \
            .setVectorCol(vecCol) \
            .setLabelCol(label) \
            .setReservedCols([label]) \
            .setPredictionDetailCol("detail") \
            .setPredictionCol("pred"))
model = gbdtFmPipe.fit(trainData)

模型评估

算法相关文档:

模型评估阶段,我们先试用上面训练好的模型对testData进行推理,然后用评估组件EvalBinaryClassBatchOp对推理结果进行评估,最后使用JsonValueBatchOp组件完成评估结果的抽取。

result = model.transform(testData)
result.lazyPrint(5)
EvalBinaryClassBatchOp() \
    .setPredictionDetailCol("detail").setLabelCol(label).linkFrom(result) \
    .link(JsonValueBatchOp().setSelectedCol("Data") \
        .setReservedCols([]) \
        .setOutputCols(["Accuracy", "AUC", "ConfusionMatrix"]) \
        .setJsonPath(["$.Accuracy", "$.AUC", "ConfusionMatrix"])).print()
label pred detail
0 <=50K <=50K {"<=50K":"0.9995387333228002",">50K":"4.612666771997954E-4"}
1 >50K >50K {"<=50K":"1.812868328410211E-5",">50K":"0.9999818713167159"}
2 <=50K <=50K {"<=50K":"0.999317570963927",">50K":"6.824290360729248E-4"}
3 <=50K <=50K {"<=50K":"0.9691711111422066",">50K":"0.030828888857793415"}
4 <=50K <=50K {"<=50K":"0.9650003558051857",">50K":"0.03499964419481427"}


Accuracy AUC ConfusionMatrix
0 0.851852 0.904172 [[2251,817],[1595,11618]]

与 Gbdt+LR 效果对比

算法相关文档:

通过对比可以看到,Gbdt+FM 的效果要比 Gbdt+LR 好一些,对于同一个数据,AUC 大概高0.7个百分点。

gbdtLrPipe = Pipeline() \
    .add(
        GbdtEncoder()\
            .setLabelCol(label)\
            .setFeatureCols(featureCols)\
            .setReservedCols([label])\
            .setPredictionCol(vecCol))\
    .add(
        LogisticRegression() \
            .setVectorCol(vecCol) \
            .setLabelCol(label) \
            .setReservedCols([label]) \
            .setPredictionDetailCol("detail") \
            .setPredictionCol("pred"))
lrModel = gbdtLrPipe.fit(trainData)
resultLr = lrModel.transform(testData)
resultFm = model.transform(testData)
EvalBinaryClassBatchOp() \
    .setPredictionDetailCol("detail").setLabelCol(label).linkFrom(resultLr) \
    .link(JsonValueBatchOp().setSelectedCol("Data") \
        .setReservedCols([]) \
        .setOutputCols(["Accuracy", "AUC", "ConfusionMatrix"]) \
        .setJsonPath(["$.Accuracy", "$.AUC", "ConfusionMatrix"])).print()
EvalBinaryClassBatchOp() \
    .setPredictionDetailCol("detail").setLabelCol(label).linkFrom(resultFm) \
    .link(JsonValueBatchOp().setSelectedCol("Data") \
        .setReservedCols([]) \
        .setOutputCols(["Accuracy", "AUC", "ConfusionMatrix"]) \
        .setJsonPath(["$.Accuracy", "$.AUC", "ConfusionMatrix"])).print()
Accuracy AUC ConfusionMatrix
0 0.847 0.89727 [[2432,1077],[1414,11358]]


Accuracy AUC ConfusionMatrix
0 0.851852 0.904172 [[2251,817],[1595,11618]]


模型写出

算法相关文档:

模型写出阶段,我们使用AkSinkBatchOp将模型写出到文件系统,这里的文件系统可以是本地文件系统(如代码所示),也可以时网络文件系统(比如OSS),可以通过代码:

  fs = OssFileSystem("3.4.1", "oss-cn-hangzhou-zmf.aliyuncs.com", "name", "************", "**********")
  filePath = FilePath("/model/gbdt_fm_model.ak", fs)

完成网络文件系统路径的构建,将这个路径以参数的方式塞给AkSinkBatchOp组件:

  AkSinkBatchOp().setFilePath(filePath).setOverwriteSink(True)

便可以完成将模型写出待网络文件系统的目的。

modelData = model.save();
filePath = "/tmp/gbdt_fm_model.ak"
# 可以将模型文件写出到OSS,这样可以直接部署到EAS,需要一个OSS的idkey。此处直接写出到/tmp 目录下
# fs = OssFileSystem("3.4.1", "oss-cn-hangzhou-zmf.aliyuncs.com", "name", "************", "**********")
# filePath = FilePath("/model/gbdt_fm_model.ak", fs)
modelData.link(AkSinkBatchOp().setFilePath(filePath).setOverwriteSink(True));
BatchOperator.execute();

加载模型并推理

这里加载模型的路径和模型写出时一样,可以是本地文件系统(如代码所示),也可以时网络文件系统(比如OSS)。

model = PipelineModel.load(filePath)
result = model.transform(testData).lazyPrint(5)
BatchOperator.execute()
label pred detail
0 <=50K <=50K {"<=50K":"0.9995387333228002",">50K":"4.612666771997954E-4"}
1 >50K >50K {"<=50K":"1.812868328410211E-5",">50K":"0.9999818713167159"}
2 <=50K <=50K {"<=50K":"0.999317570963927",">50K":"6.824290360729248E-4"}
3 <=50K <=50K {"<=50K":"0.9691711111422066",">50K":"0.030828888857793415"}
4 <=50K <=50K {"<=50K":"0.9650003558051857",">50K":"0.03499964419481427"}


模型部署

模型部署可以使用命令行部署:

!./eascmd64 -i {EAS AccessKeyId} -k {EAS AccessKeySecret} -e pai-eas.cn-beijing.aliyuncs.com create config.json

也可以通过阿里云PAI的交互界面,通过填写若干参数,一键部署,具体细节可以参见文档:

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
【推荐】排序模型的评价指标nDCG
nDCG(Normalized Discounted Cumulative Gain)归一化折损累计增益是一种用于评估排序模型性能的指标,它考虑了两个方面:排序的正确性和相关性的程度。
3700 0
|
机器学习/深度学习 搜索推荐 算法
【王喆-推荐系统】模型篇-(task5)wide&deep模型
Wide&Deep是工业界中有巨大影响力的模型,如果直接翻译成中文是宽和深的模型,其模型结构如下所示:wide和deep让模型兼具逻辑回归和深度神经网络的特点。
2119 0
【王喆-推荐系统】模型篇-(task5)wide&deep模型
|
10月前
|
供应链 搜索推荐 API
亚马逊商品列表数据接口(亚马逊 API 系列)
亚马逊的商品列表数据接口为电商从业者、数据分析人员和开发者提供了宝贵的市场洞察。通过该接口,用户可以批量获取商品的关键信息,包括基本信息、价格、销售排名和库存状态等,助力市场分析、竞品研究和商品推荐。开发者需在亚马逊开发者中心注册并申请API权限,使用安全凭证进行认证,支持HTTP/HTTPS协议的GET和POST请求。Python示例展示了如何调用接口获取商品列表,并解析响应数据。应用场景涵盖市场趋势分析、竞品对比、个性化推荐及库存管理,帮助商家优化策略,提升竞争力。
561 13
|
9月前
|
传感器 人工智能 自然语言处理
《DeepSeek MoE架构下,动态专家路由优化全解析》
DeepSeek的混合专家模型(MoE)架构以其独特的设计理念和卓越性能在大模型领域崭露头角。MoE架构模拟人类分工协作,由多个专精于特定任务的“专家”模型组成,通过门控网络调度,确保每个数据得到最专业的处理。其核心亮点——动态专家路由优化技术,仅激活与任务相关的专家,减少计算开销,提升效率。这一机制显著提高了资源利用率和推理速度,并在自然语言处理、图像识别等场景中展现出巨大潜力。未来,MoE架构有望在医疗、自动驾驶等领域发挥重要作用,推动AI技术迈向新高度。
711 0
|
机器学习/深度学习 数据采集 数据可视化
Python实现支持向量机SVM分类模型线性SVM决策过程的可视化项目实战
Python实现支持向量机SVM分类模型线性SVM决策过程的可视化项目实战
Python实现支持向量机SVM分类模型线性SVM决策过程的可视化项目实战
|
监控 数据库 虚拟化
虚拟化识别USB加密狗|银行U盾等解决方案
USB SEVER产品不再单纯依赖本地主机,这打破了传统的远程监控困难的桎梏。客户只需使用互联网便可以隨時隨地访问并监控设备,操作方便。使远程设备与主机进行通信,而无需更改现有的应用软件。通过一个IP地址从远程服务器或PC外围设备可以集中管理和监控。
ARM64技术 —— MMU处于关闭状态时,内存访问是怎样的?
ARM64技术 —— MMU处于关闭状态时,内存访问是怎样的?
|
算法 数据挖掘 BI
【2023 华数杯全国大学生数学建模竞赛】 B题 不透明制品最优配色方案设计 39页论文及python代码
本文介绍了一种基于计算机配色理论的数学模型,旨在解决不透明制品的最优配色方案设计问题,通过线性回归分析、色差计算和多目标规划模型,实现了高效、准确的配色方案优化。
329 0
|
Web App开发 人工智能 JavaScript
从零写一个基于油猴脚本的 Google 辅助插件(文末附完整代码)
这是一个关于如何使用JavaScript和油猴脚本为Google搜索结果添加快捷键的功能介绍。作者首先阐述了想通过快捷键选择搜索结果的需求,然后选择了油猴插件作为开发平台。实现步骤包括:获取搜索结果列表、在结果前添加序号以及监听键盘事件触发点击。最后,作者还扩展了通过快捷键平滑滚动页面的功能,并分享了完整代码的GitHub链接。
297 0
从零写一个基于油猴脚本的 Google 辅助插件(文末附完整代码)
|
机器学习/深度学习 算法 Python
CatBoost中级教程:超参数调优与模型选择
CatBoost中级教程:超参数调优与模型选择【2月更文挑战第12天】
1592 2

热门文章

最新文章