入选首个Forrester云数仓研究报告,“后起之秀”DataWorks有何魔力?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 日前,全球权威IT咨询机构Forrester发布最新研究报告The Forrester WaveTM: CloudData Warehouse, Q4 2018,对云数据仓库从各个维度进行综合评判,帮助企业选择最佳解决方案。

日前,全球权威IT咨询机构Forrester发布最新研究报告The Forrester WaveTM: CloudData Warehouse, Q4 2018,对云数据仓库从各个维度进行综合评判,帮助企业选择最佳解决方案。其中,阿里云DataWorks、MaxCompute、ADB等三款产品成功入选,并在产品功能(Current Offering)方面力压微软,杀入前七。

0e00aab0f97b40269d301a1981816ec5_jpeg

这是Forrester Wave首次发布关于云数仓解决方案(Cloud Data Warehouse,简称CDW)的测评。2017年和2018年的Q2,Forrester分别发布过BigData Fabric和Big Data Warehouse的研究报告,其中对Big Data Fabric的定义为:

在2018年3月,Forrester发布了题为Now Tech: Cloud Data Warehouse, Q1 2018的前瞻性报告,首次提出了CDW的概念:

An on-demand, secure, and scalableself-service data warehouse that automates provisioning, administration,tuning, backup, and recovery to accelerate analytics and actionable insightswhile minimizing support requirements.

—— 一种按需使用的、安全的、可扩展的自助式数据仓库,通过自动化的部署、管理、调优、备份、恢复加速数据分析过程,同时将技术支持需求降到最低。

既然是首个Forrester云数仓报告,我们就来聊聊报告的标准,另外依据标准维度来看看DataWorks背后的魔力。

先谈谈标准

在本次发布的研究报告中,Forrester进一步阐述了CDW应具备的核心能力:

  • 快速部署:允许客户通过图形化操作,在数分钟内完成数仓的搭建或扩缩容;
  • 一键数据上云:对于已有私有数仓的客户,提供便捷的迁移工具,能够自动完成表结构创建、数据传输加载、宽表合并的动作;
  • 支持多种分析洞察场景:例如IoT客户端采集处理、异构数据源关联分析、即席自助查询等场景;
  • 较低的软硬件成本:相较于私有数据仓库,可节省20%至80%的客户成本,同时支持存储、计算费用分开结算。

报告同时指出,相比于传统的Big Data场景,CDW需要支持的使用场景更加多样,从原先简单的数据加载、报表展示,到更加复杂的客户行为分析、风险控制、反欺诈、IoT分析等更加贴近业务的场景。

本次测评,Forrester从功能覆盖、战略规划、市场规模三个维度出发设计了25项指标,结合历史研究、厂商自评、用户调研、专家打分。

大数据计算的集大成者

从Forrester对CDW核心能力的定义中可以看出,功能覆盖全面,满足客户全链路、全场景的需求,是对CDW的核心要求。事实上,由于主流的CDW解决方案,通常由PaaS化的计算引擎演化而来,在计算性能、可扩展性等方面有相当的技术储备,但是对于数据上云、多种分析场景全覆盖、以及数据治理的需求,难以提供工具来进行覆盖。

例如,大家熟悉的AWS Redshift,不仅提供了大容量、高可靠的数据仓库服务,更提供了数据迁移产品来辅助用户将数据迁移上云。但是,仍然在数据集成容量方面得分不够理想。

再比如,大数据的先驱Google BigQuery,HBase即参照其底层存储BigTable设计,不仅自身提供了强大的离线、实时数据处理服务,更整合了Google Cloud Storage、Google Drive等基础设施,覆盖了异构组合查询的需求场景,但是仍在用户入门、数据管理工具、工作流设计工具等方面不尽如人意。

不仅是AWS、Google这样的巨头,缺少开发设计工具、缺少管理运维工具,Oracle、Azure、Hotonworks、Pivotal等老牌大数据、云服务公司的解决方案,在功能场景的广度上,都不约而同的暴露出了短板。

DataWorks是阿里巴巴集团沉淀多年的一体化大数据研发平台,基于MaxCompute、Flink、ADB、PAI等计算引擎,提供了从离线计算,到流式处理覆盖了从数据汇聚、数据研发、数据治理到数据开放共享的整条链路。

cb3bb93654e841038cdd260f560deb6c_jpeg

DataWorks提供的DataStudio组件,提供了媲美客户端IDE的开发体验,从代码提示、自动补全,到结构化SQL视图、代码全局搜索、SQL模板共享,极大的提高了数据开发者的工作效率;

03_

DataStudio深度集成的数据集成组件,可将数据同步节点与SQL节点混合编排,支持20余种不同数据源的读写,且提供整库上云、多库批量上云的快速迁移功能;

01_

其提供的监控运维组件,内置了沉淀多年的基线监控算法,只需设定数据产出节点,即可自动推断其他任务的监控阈值,实现智能监控;

DataWorks还提供了数据资产管理、数据质量管理、数据安全等组件,提供客户一站式的数据治理解决方案。

在整个数据链路的最上层,DataWorks还拥有数据服务组件,支持客户通过简单的配置,将数据表转变为查询API,满足各种业务场景的对接需求。

06_

布局未来:支持AI/ML算法

CDW广阔的使用场景给了给家厂商无穷的想象空间。在深度学习全民化的浪潮下,将对AI/ML算法的支持引入CDW是大势所趋。Google、IBM、MarkLogic等入选厂商都不约而同的将AI/ML概念加入到了战略规划之中。

一般来说,CDW对AI/ML算法的应用,主要包含三种方式

  • 训练AI/ML模型:通过CDW开发调度工具,将数据的获取、整理、汇总的过程与模型的训练过程联动起来
  • 使用AI/ML模型处理数据:数据在CDW的处理过程中,可以调用AI/ML模型,完成诸如分类、预测、模式匹配等常见SQL无法完成的操作
  • 使用AI/ML模型管理数据:在海量数据集面前,传统的数据治理方法论需要智能算法的加持,实现数据的自动化管理

6e3875d0aa6e468f8e62e73cc93c43d8_jpeg

在这方面,DataWorks可谓走在了业界前列。首先,DataWorks深度集成阿里云的机器学习平台PAI,可以直接在数据加工业务流程中插入机器学习实验,既可以将数据加工与模型训练联动,又可以直接在数据加工过程中应用算法模型。

05_PAI

其次,DataWorks的各个模块使用了大量机器学习算法,减少数据治理过程的人工介入:

  • 智能监控模块:通过算法分析数据加工流程,识别链路上的瓶颈节点,智能判断故障的影响范围
  • 数据质量模块:通过43种统计算法,识别数据质量问题,并及时阻塞下游加工流程,防止数据污染
  • 数据安全模块:内置模式识别算法,可以直接通过数据内容,匹配识别出地址、身份证号、银行卡号等敏感信息

当然,除了AI/ML算法的支持和应用之外,DataWorks还在致力于向更广阔的业务场景延伸。除了操作离线数据的DataStudio之外,FlinkStudio定位于流式计算过程的开发,FunctionStudio提供便捷的自定义函数(UDF)开发能力,通过CloudAppStudio快速开发的数据应用则用来补齐从数据到业务的“最后一公里”。这些组件,都正在被逐步纳入到DataWorks生态体系中来。

07_appstudio

公共云赋能

市场规模是Forrester评价体系的重要维度。Forrester不仅从客观上判断产品的普及程度,更通过访谈等方式获取用户的主观评价,尤其是Forrester咨询订阅用户,他们的需求与意见更是至关重要。

对CDW这样的企业级生产工具来说,无疑应该适配多种客户的不同需求。在本次测评的25项指标中,对这一点提出了非常高的要求:

  • 必须在公共云面向所有用户提供服务,且必须在2018年6月前上线
  • 必须拥有25家以上付费客户,且必须分布于多个国家或地区
  • 在过去的12个月内多次被受访客户提及

DataWorks自2009年开始服务阿里巴巴集团内业务,近10年来几乎服务了阿里巴巴经济体内的所有业务,积累了大量的实践经验。

e1ba4ceb6cba4fcbb234ead050775e64_jpeg

从2013年开始,DataWorks登陆阿里云,向公共云客户提供服务,目前已在全球18个Region上线,注册客户逾3万家。

2015年开始,专有云平台ApsaraStack Enterprise搭载DataWorks,至今已服务超过130家政企客户,尤其是支撑了几乎所有的“城市大脑”项目,承载公安、交通、工业物联网等多种复杂计算场景。

d52bbae15eb54927981ed607af8cff06_jpeg

结语

从Forrester的本次研究报告可以看出,大数据技术已经进入CDW阶段,需求重点从原先的“能不能”,向自助式、智能化、面向业务的纵深发展。大数据技术的竞争,已经不再是性能、容量的比拼,而是一站式综合解决方案的沉淀。

DataWorks作为阿里巴巴CDW体系中直接面向开发者的研发平台,沉淀了多年跨行业的数据加工、数仓管理、协作开发的最佳实践,横向上覆盖离线计算MaxCompute、实时计算Flink、机器学习PAI三大计算引擎,纵向上打通数据集成、数据研发、数据治理、数据开放共享、数据应用开发整条链路。

据了解,DataWorks在今年7月份上线了V2.0全新版本,各模块能力都有了质的提升,详情参加https://help.aliyun.com/document_detail/87243.html

有了DataWorks一站式研发平台的加持,相信阿里巴巴CDW会继续领跑大数据新兴厂商,并进一步向Microsoft、IBM等老牌厂商发起强有力的挑战。

欢迎扫码了解DataWorks的更多信息:

1542178196930_d8f9f4a5_1ced_4887_9e3f_ae004128c260

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
分布式计算 Cloud Native 大数据
Forrester云数仓报告:国内唯一,阿里云连续两次进入卓越表现者象限
国际权威咨询机构Forrester发布最新云数据仓库研究报告 《The Forrester Wave™: Cloud Data Warehouses, Q2 2023》,凭借产品性能和市场规模等方面的表现,阿里云连续第二次进入卓越表现者象限,是国内唯一挺进该象限的科技公司。
|
29天前
|
数据采集 运维 DataWorks
DataWorks on EMR StarRocks,打造标准湖仓新范式
本文整理自阿里云计算平台产品专家周硕(簌篱)在阿里云DataWorks on EMR StarRocks解决方案介绍中的分享。介绍了阿里云DataWorks与EMR Serverless StarRocks的结合使用,详细阐述了在数据同步、数据消费、数据治理三大场景中的核心能力。DataWorks作为大数据开发治理平台,提供了从数据建模、数据集成、数据开发到数据治理的全链路解决方案,结合StarRocks的高性能分析能力,帮助企业实现OLAP分析、湖仓一体开发及数据综合治理,满足复杂业务场景下的需求,提升数据处理和分析效率。
69 4
|
3月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
383 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
|
4月前
|
存储 分布式计算 DataWorks
DataWorks产品使用合集之在本地客户端一直无法连接ADB MySQL,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
存储 DataWorks Java
DataWorks产品使用合集之开发离线数仓时,需要多个工作空间的情况有哪些
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 分布式计算 DataWorks
实时数仓 Hologres产品使用合集之如何让holoweb和dataworks能够正常访问
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
6月前
|
DataWorks 安全 数据库
DataWorks产品使用合集之简单模式下,如何实现数仓分层
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
100 3
|
6月前
|
DataWorks 安全 API
DataWorks产品使用合集之如何构建实时数仓
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
80 0
|
7月前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
102 0
|
机器学习/深度学习 存储 分布式计算
国内唯一,阿里云蝉联Forrester云数仓报告卓越表现者象限
近日,国际权威咨询机构 Forrester 发布研究报告 《The Forrester Wave™: Cloud Data Warehouses, Q2 2023》,阿里云蝉联卓越表现者象限,是国内唯一入选该象限的科技公司。

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    112
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    109
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    95
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    97
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    111
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    119
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    154
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    88
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    126