TPCx-BB官宣最新世界纪录,阿里巴巴计算力持续突破

简介: 飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。不仅首次将数据规模拓展到100TB,性能达到25641.21QPM,更在TPCx-BB已有最大30TB规模上,将性能提升近一倍,达到6427.86QPM,单位价格下降一半,达到169.76$/QPM。

2019年9月17日,TPC官宣Alibaba Cloud MaxCompute认证结果。同月26日,杭州云栖大会阿里巴巴宣布了这一成绩,飞天大数据平台计算引擎MaxCompute成为全球首个TPCx-BB认证的公共云产品,是除Hive、Spark以外TPCx-BB第三个标准支持的大数据引擎。不仅首次将数据规模拓展到100TB,性能达到25641.21QPM,更在TPCx-BB已有最大30TB规模上,将性能提升近一倍,达到6427.86QPM,单位价格下降一半,达到169.76$/QPM。

image

TPCx-BB是由国际标准化测试权威组织(TPC)发布的基于零售业场景构建的端到端大数据测试基准,支持主流分布式大数据处理引擎,模拟了整个线上与线下业务流程,有30个查询语句,涉及到描述性过程型查询、数据挖掘以及机器学习的算法。涵盖了结构化、半结构化和非结构化数据,能够从客户实际场景角度更全面的评估大数据系统软硬件性能、性价比、服务和功耗等各个方面。

MaxCompute正是希望能够从更加接近实际生产场景和客户场景的角度,来呈现飞天大数据平台的计算性能和性价比优势。而MaxCompute在TPCx-BB性能、性价比等方面的领先无疑是由MaxCompute技术先进性决定的。

作为支撑MaxCompute计算力的核心之一的SQL引擎,包括了编译器、运行时和优化器3个模块。SQL编译器支持标准SQL,100%支持TPC-DS、TPCx-BB语法。运行时支持列式处理和丰富的关系算符,基于LLVM进行微架构级别的优化。优化器支持基于历史信息的HBO和基于Calcite的CBO,通过多种优化手段提升MaxCompute SQL的性能。

存储方面,则使用先进的存储格式Aliorc,支持列式存储、灵活的编码格式、异步预读及高效的压缩算法,与开源存储格式相比,在存储效率和读写效率上都有显著的提升。MaxCompute以外表的形式支持多种数据源,比如HDFS、OSS外表,可以将TPCx-BB生成在HDFS中的数据高效导入MaxCompute。

调度方面采用基于飞天平台的Fuxi2.0调度系统。其DAG2.0将资源调度overhead控制在了10us级别,远远领先业界同类框架。Shuffle2.0通过数据重排,在磁盘和网络之间找到平衡点,将集群吞吐效率提升30%。

此外,MaxCompute原生支持阿里巴巴机器学习平台PAI,用户可以一站式完成大数据处理与机器学习模型训练及预测。机器学习PAI是飞天AI平台中的核心产品,构建在阿里云MaxCompute等计算平台之上,在机器学习大规模分布式训练场景拥有非常强的性能表现,在本次TPCx-BB的比赛中,PAI基于MaxCompute,在逻辑回归、Kmeans、朴素贝叶斯三个算法的表现性能上取得很好的成绩。

在MaxCompute/PAI多年的系统优化过程中,英特尔作为阿里巴巴重要的合作伙伴,提供了许多助力。英特尔作为测试基准中BigBench的重要贡献者,与阿里云开发团队深入合作,共同扩展TPCx-BB测试集,增加对MaxCompute计算引擎的支持,并一起在TPCx-BB委员会中共同推广MaxCompute/PAI,促成TPCx-BB官方测试集升级,继而正式纳入阿里云MaxCompute/PAI计算引擎的支持。

对于未来双方在飞天大数据和AI平台(MaxCompute/PAI)持续优化上的合作,英特尔高级首席工程师、大数据分析和人工智能创新院院长戴金权先生表示,双方在新的硬件架构技术平台有非常紧密的合作,共同探索如何更好地利用新的技术,为大数据处理分析、机器学习平台赋能。另外,双方也合作致力于将AI平台和大数据平台紧密联合,使不同的组件更好地联合在一起,打通整个计算流水线。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
Linux KVM 虚拟化
云计算——虚拟化层架构
云计算——虚拟化层架构
877 0
|
4月前
|
存储 SQL BI
数据也要“打标签”:为什么数据版本控制这么重要?
数据也要“打标签”:为什么数据版本控制这么重要?
271 7
|
设计模式 编译器 API
【C/C++ Pimpl模式】隐藏实现细节的高效方式 (Pimpl Idiom: An Efficient Way to Hide Implementation Details)
【C/C++ Pimpl模式】隐藏实现细节的高效方式 (Pimpl Idiom: An Efficient Way to Hide Implementation Details)
1798 1
|
人工智能 Cloud Native 机器人
未来数据观丨中企出海,AI+ 云赋能
依托云计算和 AI 构建数字生态,正成为中国企业出海和全球化战略的必然路径和选择。
未来数据观丨中企出海,AI+ 云赋能
|
资源调度 分布式计算 安全
伏羲—阿里云分布式调度系统
在12月12日的云栖社区在线培训上,“飞天”分布式系统核心开发人员陶阳宇分享了《伏羲-阿里云分布式调度系统》。他主要从伏羲系统架构、任务调度、资源调度、容错机制、规模挑战、安全与性能隔离方面介绍了伏羲分布式系统架构和设计理念。
23760 0
|
SQL 数据可视化 前端开发
Springboot 整合 xxljob 使用定时任务调度(新手入门篇)
Springboot 整合 xxljob 使用定时任务调度(新手入门篇)
2395 0
Springboot 整合 xxljob 使用定时任务调度(新手入门篇)
|
JavaScript
Vue2文字提示(Tooltip)
这篇文章介绍了如何在Vue 3框架中创建一个文字提示组件(Tooltip),允许自定义提示框的最大宽度、展示文本和提示文本,支持鼠标悬停显示和隐藏效果。
706 0
Vue2文字提示(Tooltip)
|
数据采集 存储 DataWorks
DataWorks Copilot:让你的数据质量覆盖率一键飞升!
在数据加工链路中,如何确保高质量的数据产出是一个一直需要重点解决的问题。阿里云DataWorks的数据质量规则模板可以帮助用户建设数据质量,在离线表上定义相关的规则。为优化手动配置规则的工作量,DataWorks的智能助手 DataWorks Copilot 推出了数据质量规则推荐功能,您可以使用这一功能,一键提升数据质量覆盖度。
1037 20
DataWorks Copilot:让你的数据质量覆盖率一键飞升!
|
SQL 测试技术 数据库
|
存储 运维 监控

热门文章

最新文章