EasyRec在公开数据集上的benchmark测试

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 在pai平台上可公开读取的数据集,不用再费劲去下载和处理数据集:Taobao 数据集介绍Avazu CTR 数据集AliCCP 数据集CENSUS 数据集


为了验证算法的准确性、帮助用户更好的使用EasyRec,我们做了大量的benchmark测试。我们还提供公开数据集、EasyRec配置文件,供用户更好的理解和使用EasyRec。

单目标数据集

Taobao 数据集介绍

  • 该数据集是淘宝展示广告点击率预估数据集,包含用户、广告特征和行为日志。天池比赛链接
  • 训练数据表:pai_online_project.easyrec_demo_taobao_train_data
  • 测试数据表:pai_online_project.easyrec_demo_taobao_test_data
  • 在PAI上面测试使用的资源包括2个parameter server,9个worker,其中一个worker做评估:

{"ps":{"count":2,

      "cpu":1000,

      "memory":40000},

"worker":{"count":9,

         "cpu":1000,

         "memory":40000}

}

  • 测试结果
model global_step best_auc config
MultiTower 1800 0.614680 taobao_mutiltower.config
DIN 1600 0.617049 din.config
DeepFM 1600 0.580521 deepfm.config
DCN 1500 0.596816 dcn.config
BST 3500 0.566251 bst.config
AutoInt 700 0.605982 autoint.config

Avazu CTR 数据集

  • 该数据集是DSP广告公司Avazu在Kaggle平台举办的移动广告点击率预测模型挑战赛中使用的。Click-Through Rate Prediction比赛链接
  • 训练数据表:pai_online_project.dwd_avazu_ctr_deepmodel_train
  • 测试数据表:pai_online_project.dwd_avazu_ctr_deepmodel_test

多目标数据集

AliCCP 数据集

  • 数据集采集自手机淘宝移动客户端的推荐系统日志,其中包含点击和与之关联的转化数据。天池比赛链接
  • 训练数据表:pai_online_project.aliccp_sample_train_kv_split_score
  • 测试数据表:pai_online_project.aliccp_sample_test_kv_split_score_1000w (只截取了1000万条)
  • 在PAI上面测试使用的资源包括2个parameter server,9个worker,其中一个worker做评估:

{"ps":{"count":2,

      "cpu":1000,

      "memory":40000},

"worker":{"count":9,

         "cpu":1000,

         "memory":40000}

}

  • 测试结果
model global_step ctr auc masked cvr auc ctcvr auc 训练时间 config
SimpleMultiTask 4100 0.592606 0.6306802 1小时 simple_multi_task.config
MMoE 3100 0.5869702 0.6330008 1小时 mmoe.config
ESMM 800 0.5974812 0.6841141 0.6362526 3小时 esmm.config
PLE 3200 0.5874 0.6159 2小时 ple.config

CENSUS

  • CENSUS有48842个样本数据,每个样本14个属性,包括age, occupation, education, income等。样本的标注值为收入水平,例如>50K、<=50K。Census Income数据集链接
  • 训练数据表:pai_online_project.census_income_train
  • 测试数据表:pai_online_project.census_income_test
相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
网络协议 安全 测试技术
性能工具之emqtt-bench BenchMark 测试示例
【4月更文挑战第19天】在前面两篇文章中介绍了emqtt-bench工具和MQTT的入门压测,本文示例 emqtt_bench 对 MQTT Broker 做 Beachmark 测试,让大家对 MQTT消息中间 BenchMark 测试有个整体了解,方便平常在压测工作查阅。
484 7
性能工具之emqtt-bench BenchMark 测试示例
|
25天前
|
机器学习/深度学习 JSON 算法
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
本文详细介绍了使用YOLOv5-Seg模型进行图像分割的完整流程,包括图像分割的基础知识、YOLOv5-Seg模型的特点、环境搭建、数据集准备、模型训练、验证、测试以及评价指标。通过实例代码,指导读者从自定义数据集开始,直至模型的测试验证,适合深度学习领域的研究者和开发者参考。
215 2
实例分割笔记(一): 使用YOLOv5-Seg对图像进行分割检测完整版(从自定义数据集到测试验证的完整流程)
|
25天前
|
机器学习/深度学习 JSON 算法
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
本文介绍了DeepLab V3在语义分割中的应用,包括数据集准备、模型训练、测试和评估,提供了代码和资源链接。
143 0
语义分割笔记(二):DeepLab V3对图像进行分割(自定义数据集从零到一进行训练、验证和测试)
|
25天前
|
机器学习/深度学习 算法 PyTorch
目标检测实战(五): 使用YOLOv5-7.0版本对图像进行目标检测完整版(从自定义数据集到测试验证的完整流程)
本文详细介绍了使用YOLOv5-7.0版本进行目标检测的完整流程,包括算法介绍、环境搭建、数据集准备、模型训练、验证、测试以及评价指标。YOLOv5以其高精度、快速度和模型小尺寸在计算机视觉领域受到广泛应用。
240 0
目标检测实战(五): 使用YOLOv5-7.0版本对图像进行目标检测完整版(从自定义数据集到测试验证的完整流程)
|
3月前
|
关系型数据库 MySQL OLTP
性能工具之 MySQL OLTP Sysbench BenchMark 测试示例
【8月更文挑战第6天】使用 pt-query-digest 工具分析 MySQL 慢日志性能工具之 MySQL OLTP Sysbench BenchMark 测试示例
270 0
性能工具之 MySQL OLTP Sysbench BenchMark 测试示例
|
6月前
|
消息中间件 监控 固态存储
性能工具之 Kafka 快速 BenchMark 测试示例
【5月更文挑战第24天】性能工具之 Kafka 快速 BenchMark 测试示例
410 1
性能工具之 Kafka 快速 BenchMark 测试示例
|
6月前
|
消息中间件 测试技术 Linux
linux实时操作系统xenomai x86平台基准测试(benchmark)
本文是关于Xenomai实时操作系统的基准测试,旨在评估其在低端x86平台上的性能。测试模仿了VxWorks的方法,关注CPU结构、指令集等因素对系统服务耗时的影响。测试项目包括信号量、互斥量、消息队列、任务切换等,通过比较操作前后的时戳来测量耗时,并排除中断和上下文切换的干扰。测试结果显示了各项操作的最小、平均和最大耗时,为程序优化提供参考。注意,所有数据基于特定硬件环境,测试用例使用Alchemy API编写。
980 0
linux实时操作系统xenomai x86平台基准测试(benchmark)
|
6月前
|
人工智能 监控 数据处理
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
【AI大模型应用开发】【LangSmith: 生产级AI应用维护平台】1. 快速上手数据集与测试评估过程
120 0
|
6月前
|
机器学习/深度学习 算法 异构计算
yolov7训练自己的数据集(pycharm上训练测试)
yolov7训练自己的数据集(pycharm上训练测试)
213 0
|
6月前
|
SQL 分布式计算 DataWorks
dataworks数据集问题之测试联通性报错如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。