开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:4.2020年 DataWorks 客户案例】与课程紧密联系,让用户快速学习知识
课程地址:https://developer.aliyun.com/learning/course/81/detail/1225
4.2020年 DataWorks 客户案例
内容介绍:
一、宝宝树云上大数据仓库
二、快狗打车云上大数据仓库
三、大润发云上数据中台建设
四、DeNA 中国游戏全链路运营
一、宝宝树云上大数据仓库
1、客户简介
宝宝树成立于2007年,中国最大、最活跃的母婴类社区平台。作为最早做互联网2C的社区平台之一,宝宝树很早就建立了自己的IDC集群,而且规模越越大。它里面有很多宝宝的妈妈们,也有一些家长在APP内,做一些母婴或者育儿相关的一些交流。
2、客户需求
(1)集群水位高,性能差,亟待大数据综合治理等问题困扰。
(2)IDC大数据每年投入成本高,关注降本提效。
(3)智能数据仓库建设,通过DataWorks+MaxCompute,实时计算集群通过实时计算。
3、客户价值
通过阿里云整套产品体系,它的任务会有性能的提升,预估会有10倍的性能提升。从飞天大数据平台整体上云“降本增效"的方案快速切入,使用智能数仓MaxCompute、实时计算 Flink、数据治理平台 DataWorks 后,部分任务有10倍以上的性能提升,存储从自建 Hadoop 3PB降到900TB,对于用户存储的优化是非常大的,它是内容相关的社区型的产品,这个利用 Flink 实时数据处理能力,将宝宝树现有的场景实时化(“基于用户ID维度和内容类型的实时行为"“获取用户的实时群聊ID”及“获取文章的实时发布信息" ) ,并且基于 Flink 进行实时推荐以增加转化率。大数据平台整体成本节省30%以上。不管从它原先的降本提效,稳定性,实施的业务相关都可以满足它的需求。
二、快狗打车云上大数据仓库
1、客户简介
以前是58到家货运的平台,58快狗打车一直坚持通过“连接网络化”" 运力共享化”“过程数据化"“匹配智能化”等数字信息化解决方案将闲散运力统一整合到平台上,通过大数据将运力精准匹配市场需求,实现运力的节能减排,降低空驶率,有效提升行业运行效率,积极推动绿色物流发展。
2、客户需求
(1)海量数据处理效率下降,离线数据计算时长不稳定。
(2)实时计算不开发维护代价大,希望对数仓进行综合治理。
3、客户价值
(1)基于飞天大数据平台系列产品,快狗打车不仅机器成本节约30%以上,数据开发效率提升100%。从 Java Storm 迁移到 Flink SQL 使实时计算开发周期大大减少,维护更加容易,数据一致性得到更好地保障,提升了业务监控大屏的准确性和实时性,用户可以更专注于业务,加速了业务的实时化。同时,阿里云的24小时运维服务保证了集群稳定,实现了零故障。
(2)DataWorks+MaxCompute 实时计算也是同样的一套产品的架构体系。为了保证它的实时业务的开发周期和维护的容易和数据的一致的稳定性,同时引入了实时计算和 Flink 去保证它业务的实时化,并且整个产品的稳定性也在云上实现了零故障,能够保证客户所有的业务非常稳定的运行。
三、大润发云上数据中台建设
大润发通过DataWorks+MaxCompute做云上的数据中台,就是DataWorks+MaxCompute可以作为整个数据中台建设的底座的。
1、客户简介
为了快速数智化转型,拥抱新零售,大润发计划两年内将IT系统全面迁移到阿里云上,不再自建IDC。同时与阿里,云合作启动数据中台项目,可以帮助大润发降低TCO的同时,更好的依托云上生态,实现数据资产业务化闭环。
2、客户需求
(1)基于 Hadoop 开源生态打造,软硬件维护成本高昂,稳定性问题不断,严重影响业务经营分析。
(2)它要做数据转型,有非常多的业务,线上业务爆发,需求积压严重,期望有整体解决方案,能够快速灵活支持业务发展所需的技术扩展。
3、客户价值
对于大润发的技术也提出了非常大的一个挑战,所以大润发通过这套体系,首先在数据迁移的时候就能够非常快速的把整体的原先旧的数据完成迁移通过大数据 DMA迁移工具,15天完成 400TB+历 史数据迁移,同时保证了迁移的准确性,让客户拥有平滑高效的上云体验。基于飞天大数据平台产品 DataWorks+MaxCompute 大大提高了数据业务的开发效率,构建大润发独有的数据中台体系。它会有数据中台的一些订单率会员率各种各样的,通过这套产品体系是能够非常好的实现,包括阿里集团内部,包括11年做的数据中台也是通过这套体系做实现,那大润发在云上可以基于这套产品做自己的数据中台的体系。
四、DeNA 中国游戏全链路运营
它是中国区的一家公司,主要是因为游戏行业里面随着各种各样游戏不断推陈出新,游戏的整个生命周期也越来越短,那么在游戏行业里面,对于整个数据的实时化以及精准化精细化的运营也提出了更高的要求,所以对于 DeNA,它把原先的Hadoop 集群都会往云上做迁移,使用 DataWorks+MaxCompute+实时计算这一整合的产品体系,能够完成它在游戏行业里面的全链路的精细化的一个运营,去满足它在前端,比如它构建的实时运营大盘,还是数据分析系统,以及各种各样游戏的市场投放的一些监控的系统,都能够为这些系统提供非常及时准确稳定的这种数据的支撑。
1、客户简介
DeNA 是世界领先的网络服务公司,随着游戏项目的生命周期越越短,项目的各个阶段走向实时、精准的把控,需要构建更经济、更高效的精细化数据运营体系。
2、客户需求
(1)存在 Hadoop 1.0、 2.0两个集群,技术架构复杂,平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈。
(2)日志源渠道多,实时性要求高,基于fluentd的文件采集服,随着日志量的增多,性能、稳定性存在明显瓶颈。
(3)“人肉脚本”的数据开发方式,业务支持效率低,且hive计算性能无法满足需求。
3、客户价值
DeNA中国是游戏行业首家应用闪电立方+DMA迁移工具项目,在无专线等环境下,1个多月就完成10年增量RDS库300TB+历史数据50TB的数据迁移,具备较高的技术复杂度。相较之前客户之前使用的基于 python 开源的 arflow 任务管理系统,DataWorks 拥有以下优势:
(1)任务管理一目了然,任务出错定位以及即时跳转到相关任务代码修复。
(2)数据源一次性管理不需要重复劳动可被多种数据服务需求使用(游戏业务拥有上百个数据源);。
(3)整体技术下沉使得资源调度等都不需要自己耗费精力和"额外"的 coding,而实现专注于管理开发迁移完成后,飞天大数据平台覆盖数据采集存储&计算>实时/离线分析等游戏数据运营全链路。



