近期官网推出了体验有奖活动,欢迎更多开发者们前来体验分享,既可以免费体验产品,又能收获福利奖品,简直不要太美了。活动链接:DataWorks智能交互式数据开发与分析之旅
初识DataWorks
DataWorks是阿里云推出的一款端到端的大数据开发与治理平台。自2009年起,DataWorks在阿里巴巴集团内部开始孵化,并在2015年正式迁移到云上,为各类企业、政府及组织机构提供大数据平台建设的服务。它不仅是一个数据治理平台,还包含了丰富的一站式大数据研发工具,因此也被阿里云称为数据中台的一部分。广泛应用于政务、金融、零售、互联网、汽车、制造等行业,助力企业实现数字化升级和价值创造。
产品体验
本次体验涉及到两个板块,一个是基于DataWorks和MaxCompute实现对用户画像的分析,一个则是新版Data Studio数据开发平台以及智能助手 Copilot的体验。
开通试用
- 针对老用户可以参照如下方式进行购买:
进入DataWorks服务开通页,地域选择华东1(杭州)、基础版、按量付费,其他默认。
勾选服务协议,点击确认订单并支付。
校验通过后,点击下一步。
价格清单确认无误后,点击下一步创建订单。
在支付页面,点击支付即可。
当出现下图这个页面时,就表示DataWorks服务已成功创建。
- 如果你是新用户,则可以直接通过活动首页的产品试用链接开通:
在产品开通页面填入资源组名称,因为试用默认只有一个可用区,所以这里保持默认。
如果是首次试用DataWorks产品,这里需要先关联角色,点击创建关联角色即可。
确认如上信息无误后,点击立即试用。
点击页面的管理试用,可以在费用与成本中看到试用详情。
由于用户画像分析需要用到MaxCompute,这里也需要一并开通试用。进入产品控制台,点击立即开通。
这里唯一需要注意的一点就是,产品的可用区要保持和DataWorks一致,比如这里的华东2(上海)。
提交后,进入下一步
继续下一步
在支付页面点击立即支付即可。
出现下图就表明开通成功。
实践体验
首先进入DataWorks管理控制台,如果你是刚完成产品试用的提交,此刻可以看到服务正在启动中。
待状态变成运行中后,就可以开始为资源组配置公网访问了,因为默认创建的通用型Serverless资源组是不具备公网访问能力的,需要通过公网NAT网关添加EIP的方式,为资源组绑定的VPC,使该资源组获得公网访问能力。
这里我们先来到专有网络的控制台,创建一个公网NAT网关。(这里尤其要注意的是可用区不要选错了)
在公网NAT网关配置中,选择DataWorks资源组绑定的VPC和交换机,这个信息可以在DataWorks资源组列表的详情页中看到,参照如下:
访问模式选择VPC全通模式(SNAT),并选择新购弹性公网IP。
创建完关联角色后,在下一页完成信息确认,点击立即开通。
提交后,资源开始创建,这里需要稍等片刻。
服务创建完成后如下
接下来我们需要创建一个默认的工作空间,进入DataWorks控制台,点击创建工作空间,参照下图配置即可。(如果你是新用户,在领取试用时就已经开通了默认的工作空间,此步骤可忽略)
- 这里要注意的一点是默认开通的工作空间是简单模式,也就是只有生产环境,没有进行生产和开发环境的隔离,但完成用户画像分析的步骤里使用的是生产和开发隔离的,所以这里要将简单模式进行升级为标准环境
接着,进入MaxCompute控制台,新建两个项目,参照下图进行配置即可。(这里两个的作用不用,一个用于生产,一个用于开发)
紧接着进行MaxCompute数据源的绑定,官网提供了两种绑定的方式,下面将挨个展示。
- 第一种方式就是在DataWorks的工作空间进行绑定,如下:
新建计算资源,选择MaxCompute。
填入数据源名称,并勾选MaxCompute项目名称。
点击“新建计算资源并绑定数据开发”后,就可以看到绑定的数据源信息了。
- 另一种方式则是通过工作空间的快速进入——数据开发,后面的步骤则是相同的,就是入口不一样而已。
完成上述步骤后,接下来就可以开始用户画像的任务开发了,这里可以参考下官网提供的流程设计图,先了解下时如何实现的。
进入ETL工作流模板页面,找到网站用户行为分析模板,单击查看详情。
在详情页,单击载入模板。
参照下图进行配置,完成后点击确认。
此刻可以看到任务已经开始,数据开始导入。
大约5分钟后,载入成功,如下:
点击前往查看,可以看到整个的业务流程。
双击业务流程画布的任意节点,可查看该节点的内容详情。
由于通过模板导入的已经时完整的业务流程,所以这里我们直接运行,开始用户画像的分析。
待所有节点运行成功后,单独运行最后一个节点,即可查看分析结果。
运行正式开始前会有一个费用的预估显示,这里直接点击运行即可。
运行完成后,查询结果如下。
到这,一个完整的用户画像分析的实践就完成了。以上实践可以简称为一键体验版,比如数据集的导入是直接通过模板载入的。这里官网文档还提供了折腾版的教程,也可以简称为手动版教程,感兴趣的伙伴可以自行点击链接前往了解学习。
新版体验
- 新版Data Studio
新版Data Studio和旧版的Data Studio相比,最直观的差异在于界面上,比如新版拥有欢迎页,新版有手动切换主题色功能、新版侧边导航功能名称采用了悬浮可见等,实际功能使用上差异并不大。对比截图如下:
作为用户来讲,新版给人的感受最大的一点就是更切合实际需求了,将数据开发全流程纳入了平台管理。
体验新版可以直接在创建DataWorks工作空间时,打开下图的按钮。
- DataWorks Copilot
参加DataWorks Copilot公测,需要在Copilot公测确认弹窗中进行确认,如下:
在确认如上协议后,就可以免费体验DataWorks Copilot的功能了,如下版本或者区域就无需额外申请了。
- DataWorks版本为:基础版、标准版、专业版或企业版。
- DataWorks项目空间所在地域为:华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华南1(深圳)或西南1(成都)。
当前DataWorks Copilot入口已覆盖:数据开发(DataStudio)、数据分析、数据服务。下面我们就拿上述的用户画像分析来体验一番。
在平台右上角直接点击Copilot图标即可开始体验,如下图右侧展示的。
除了上述方式唤醒外,还可以直接在编辑窗口右键选择,如下:
还有一种最快捷方便的方式,就是直接按下Ctrl+I键,如下提示
如果你是第一次使用,不晓得如何下手,不用焦虑,官网友好地提供了演示视频和使用文档,如下:
从Copilot首页来看,它能辅助开发者完成代码生成、代码解释、代码问答和快捷找表。下面就按照这个功能项逐个快速体验。
- 代码生成
针对ads_user_info_1d用户信息表,新增两个字段,右键选择Copilot——SQL生成,如下:
点击生成后,可以非常快速地写成,还是不错的。但你会发现一个问题,就是将生肖理解成了星座,使用了同样的列名zodiac。
- 代码解释
右键选择Copilot——SQL注释,如下:
- 代码问答
右键选择Copilot——SQL Chat,也就是智能问答,比如下面的这段SQL我看不太明白,让Copilot解释下。如下:
- 快捷找表
这个功能就非常直观了,看字面意思就是找表,实际也是这个,通过关键字来找到关联的数据表。如下:
除了上述主要的四个功能外,实际上还提供了其他多种功能,在DataWorks Copilot窗口点击点击“/”即可,如下:
通过以上体验,可以非常直观感受到DataWorks Copilot作为阿里云DataWorks平台推出的一款基于大模型的智能SQL编程助手,在提升数据开发工程师和数据分析师在SQL开发和分析方面的效率和体验非常不错。可以简要总结为如下几点:
- 提高SQL开发效率:DataWorks Copilot通过自然语言生成SQL(NL2SQL),将用户输入的自然语言描述来查询或分析数据,自动生成对应的SQL语句,大大减少了手动编写SQL代码的时间。还能提供智能代码提示建议,帮助用户更快地编写和修改SQL代码。
- 增强SQL代码质量:DataWorks Copilot可一键为SQL代码生成注释,提高代码的可读性和可维护性。当SQL运行报错时,Copilot还提供一键纠错服务,帮助用户快速定位并修复错误。
- 简化繁琐复杂操作:DataWorks Copilot可以提供通过自然语言快捷找表的功能,解决了业务人员在实际工作中找表难的问题。
- 无需部署方便快捷:有了DataWorks Copilot后,遇到SQL代码有关的疑难均可以一键唤醒得到智能答复,以前可能需要借助第三方工具或者网络搜索实现。
然而,从当前体验来看,还存在如下几个不足之处:
- 由于Copilot生成的代码依赖于其训练的机器学习模型,可能存在准确性不足的问题。比如上面操作上对于生肖和星座的理解就不是非常好。
- Copilot的使用对于开发者们有一定的技术要求,如果用户对SQL不够了解,可能无法正确理解Copilot生成的代码或充分利用其功能。
资源清理
进入DataWorks管理控制台,单击左侧导航栏的\数据开发与治理\ > *运维中心**,在下拉框中选择对应工作空间后单击进入运维中心*。
在\周期任务运维\ > *周期任务**中,勾选所有之前创建的周期任务,如果你只是暂时不使用,可在底部单击暂停(冻结);如果你不再使用,可以单击*操作* > *下线节点**。如下:
- 删除DataWorks资源组
登录DataWorks控制台,单击左侧导航栏的资源组,在对应资源更多中点击退订。
- 删除DataWorks数据源
登录DataWorks控制台,单击左侧导航栏的数据集成,在下拉框中选择对应工作空间后单击进入数据集成。
在数据源页面,勾选对应数据源,然后单击批量删除,按照界面提示删除。
- 解绑并释放弹性公网IP
登录NAT网关管理控制台,选择\公网访问\ > *弹性公网IP**。在弹性公网IP页面,单击目标弹性公网IP实例操作列中选择强制释放*,并按照界面提示进行解绑。
在公网NAT网关页面,单击目标NAT网关实例操作列中的删除,并按照界面提示进行删除NAT网关。
体验总结
1、在体验过程中,可以非常直观感受到DataWorks的开通和购买流程非常简单,只需在阿里云控制台中选择相应的产品和配置即可。然而,在使用过程中,我们遇到了一些不便之处。例如,在配置数据源时,部分参数的设置不够直观,需要参考官方文档才能正确配置。还有实践文档某些部分需要进行更新,以匹配当前实际的操作。
- 开通试用默认创建的工作空间是简单模式,而实践用到的是标准模式,也即是开发和生产环境隔离。这段内容放在这里显得不妥当,应该放在创建工作空间板块,让用户及时发现差异并新建工作空间。
- 简化版的教程中只提到了新建MaxCompute项目,并没有针对接下来的实践说明需要新建两个项目以匹配生产和开发环境。(而这块内容在完整版的教程中又是写明的)
此外,虽然DataWorks提供了丰富的组件库和图形化开发界面,但对于一些没有技术背景的业务人员来说,仍然存在一定的学习曲线。建议官方提供更多面向业务人员的培训课程和案例教程,帮助他们更好地掌握产品的使用方法。
最后,就是针对新版Data Studio和旧版具有那些差异需要专门的文档来阐述,虽然主要功能和实现差异不大,但仅通过少数的用户体验来探索差异是显然是不够的。
2.、作为一家为传统能源企业打造智能化运管平台的服务公司,DataWorks作为大数据开发治理平台,发挥了至关重要的作用。首先帮助我们快速搭建了数据中台和数据仓库,提供了数据建模和数据服务功能,使我们能够深入挖掘企业数据的价值。其次,提供了可视化的全生命周期管理。同时,它的智能监控和数据质量模块也为我们提供了全面的数据保障,确保了数据的准确性和及时性。
3. 数据处理场景的改进建议
针对数据处理场景,我们认为DataWorks可以在以下几个方面进行改进或增加更多功能:
- 实时数据处理:虽然DataWorks已经提供了实时数据同步和流处理功能,但在实际应用中,我们发现实时数据处理的延迟和吞吐量仍有待提升。
- 数据治理:在数据治理方面,DataWorks已经提供了数据质量监控和数据血缘追踪等功能,但可以进一步增加数据分类、分级和权限控制等高级功能。
- 可视化与交互:在数据可视化和交互方面,DataWorks可以与更多的前端应用进行无缝集成,提供更丰富的可视化组件和交互方式。
以上就是本次体验评测的全部内容了,时间有限没有完整体验产品的全部功能点,希望更多的开发者踊跃体验并分享。如果你意犹未尽,还可以通过以下官网途径进行深入了解和学习,资源整理如下,欢迎点击前往。
- 视频教程
- 训练营