大数据团队从1到2-阿里云开发者社区

大数据团队从1到2

2019-10-24 1180

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 1.0阶段的核心是数据分析，把大数据离线计算的整套流程和框架搭建起来，后续就是不断在框架中加入新的业务、新的需求了。但是1.0阶段的数据是T+1的，即每天、每周、每月定时计算的，快一点儿的有每小时、甚至每5分钟的，都是离线数据，实时性不足。2.0阶段重点加强的，就是实时计算领域。

接上文：《大数据团队从0到1》

1.0阶段的核心是数据分析，把大数据离线计算的整套流程和框架搭建起来，后续就是不断在框架中加入新的业务、新的需求了。但是1.0阶段的数据是T+1的，即每天、每周、每月定时计算的，快一点儿的有每小时、甚至每5分钟的，都是离线数据，实时性不足。2.0阶段重点加强的，就是实时计算领域。

实时 VS 离线

实时计算与离线计算，表面上的区别，在于数据的时效性。实际在这背后，还有更多的区别。上一篇文章中说，从0到1的阶段需要的是数据分析，但没有解释为什么一开始是使用“离线的”数据分析而不是实时的，下面来解释一下：

大数据离线与实时计算的相同点

1、输入

大数据一定是与线上数据解耦的。

离线计算时，我们把数据从线上数据库中同步一份儿到离线数仓中，在离线数仓中进行复杂的计算；

实时计算时，我们也是采用异步的办法，从线上数据中接一条分支的数据流过来，进行实时计算；

两种方案都是，不直接操作线上数据，而是想办法同步一份儿数据过来，再使用我们同步过来的这份儿数据进行计算。

2、输出

输出的方式，都是把结果数据直接输出，更新到一个数据存储里。用户的感知上没有太大区别，有的时候甚至不在乎这份儿数据是多久更新一次。

大数据离线与实时计算的不同点

1、人员技能

离线计算的核心技能就是SQL，虽然HiveSql与传统RDBMS的SQL写法稍有不同，但绝大多数情况下都是一样的。首先理解SQL的本质是MapReduce任务，再顺着这一思路去写SQL即可。

而实时计算就麻烦了，这一领域的技术链条长、同类产品多，需要的都是全域的“通才”。而这类“通才”往往很难找，不敢奢求找到技术链条完全匹配的，匹配度超过50%的都不容易。一般有两种办法解决这一问题：

凑齐整个技术链条的“专家”。技术链条虽长，但每个节点都有每个节点的“专家”，凑齐所有节点的专家即可；
寻找学习能力强的“潜力股”。大部分公司会选择这种方式。“潜力股”的薪资水平通常会比有多年经验的专家低得多，但学习能力强、上手速度快。而且很多程序员都对大数据这一领域垂涎三尺，巴不得有个机会可以转到大数据领域；

现在在招聘网站上看求职者简历，很多人都会用+拼成好几条技术线，凸显自己的技术面广。例如：

Flume+Kafka+HDFS+Spark+HBase+Redis+Impala+ElasticSearch+Hive

求职者这一思路是没有错的，毕竟如果只专于某一种技术或者框架，可能换一家公司就发现技术选型不一样，又要从头再来了。

但是这里也要提醒公司的招聘负责人注意，根据多年面试经验，求职者的技术链条一般写的都是整个大数据团队的技术链条、而不是他自己一个人的，需要仔细识别他自己负责的到底是哪一块，避免招聘入职后发现被骗。

2、成本

如果是开源使用者，这一阶段的服务器费用成本不会增加太多，但是人力成本、学习成本、时间成本上会多出许多，甚至还需要专门的大数据运维工程师。

如果是云产品使用者，这一阶段会又多出大量的云产品费用支出。毕竟实时计算所需的技术组件远比离线要多、要贵。

3、投入产出比

即使以上1、2两条都不是问题，那最终算下来的投入产出比，也远远低于离线计算。同样是计算“每日订单量”并写到一张结果表中，离线计算从开发到完成不会超过半个小时，实时计算大约得要一天的工作量。

4、“坑”

实时计算是有“坑”的，更麻烦的是，万一真掉进坑里了，修复会很难。

离线计算如果出错了，直接重跑一次即可，会直接把之前错误的数据覆盖掉；

实时计算如果出错了，如果按正常流程修复，需要先找到出错的时间点，把消费进度恢复到那一时间点，再重新消费。这里边还要注意“幂等”、注意“顺序”等等问题，非常麻烦。所以一般都采取直接用“离线计算”来修正实时计算的数据（甚至不管实时数据是否出错，都定期用离线数据修正）。这就需要实时和离线两边的代码逻辑完全一致。那么问题又来了：完全不同的编程语言，如何保证两边的逻辑完全一致呢？“坑”挖到这里，一般人可能就坚持不下去了。

个人十分看好Flink“流批一体化”的产品方向，期待Flink能更快地成熟起来，把这一问题从根本上解决掉。

综上，第一阶段使用离线计算才是比较明智的做法。毕竟想稳住自己的地位，必须要先尽快的做出成绩。

面临的选择

这里列举在实时计算团队的工作过程中，会面临的几个比较重要的选择。

1、数据接入方式

大数据团队想接一条数据流过来的方式有很多。比较常见的有：

规定一个消息队列，作为大数据接入的标准数据源。其他业务方如果有需求，就按照事先规定好的接入标准把数据主动写到这条消息队列中，大数据再进行消费。
- 适用于大数据团队比较强势、团队规模不大的公司；
- 优点：大数据团队完全不用担心有遗漏的业务、或者消息的格式不匹配导致的报错；
- 缺点：其他所有的业务团队都需要了解并严格执行大数据团队制定的规则；
大数据团队自己想办法去拿数据。例如监听业务数据库的binlog、或作为一个新的消费者订阅业务方的所有消息队列。
- 适用于大数据团队相对弱势、团队规模较大的公司；
- 优点：各个业务团队几乎可以完全不用顾忌大数据团队的需求，做好他们自己就可以；
- 缺点：业务方有变更时，大数据很难及时了解；需要耗费大量精力在沟通上；人工维护成本太高；

我当然更偏向选择第1种。但事实往往不尽如人意。

2、技术选型

技术选型中必不可少的几类组件：

流计算引擎（Storm/Spark/Flink/KafkaConsumer/...）
消息队列（Kafka/RocketMQ/阿里云DataHub/阿里云日志服务LogHub/...）
日志采集工具（Logstash/Flume/阿里云日志服务LogTail/...）
缓存（Redis/Memcache/...）
数据存储（RDBMS/NOSQL数据库/搜索引擎/分布式文件系统/...）
……

还有一些可能会用到的，比如：

数据查询引擎（Kylin/Impala/Presto/...）
……

在做选型之前，最好先要把同类的产品都研究一遍，列举出优缺点，最终选择一款最适合自己场景的产品。

见过很多的团队，选型属于“随大流”类型，别人用什么、我们就用什么。

选型是需要有自己的原则的（一个没有原则的团队，想想就觉得很可怕）。比如：

偏向于选择大型云服务商的云产品；
偏向于选择社区活跃度高的开源产品；
偏向于选择依赖环境少的产品；
偏向于选择生态完善、不会需要太多二次开发的开源产品；

……

小公司由于人力有限，一般在选型上的注意事项会比较多。大公司则恨不得自己从0开始重新写代码，之后作为开源软件捐赠出去、或者作为商业化产品卖。

大数据团队组织架构V2.0

大数据团队V2.png

如图，在1.0基础上，增加了两个新的职位：

Spark/Storm/Flink开发工程师

任职要求关键词：Java/Scala、Spark/Storm/Flink、Flume/Logstash、HBase、Redis/Memcache、ElasticSearch、……
岗位职责：负责基于大数据实时计算体系的需求开发

大数据运维工程师

这是一个神奇的岗位，在招聘网站上几乎看不到，但是却是一个实实在在存在、甚至必须存在的岗位。原因之一，也是由于大部分公司都把大数据的“开发”和“运维”岗位合成了一个，要求：大数据实时计算体系的搭建、开发、运维。

但是其实，大数据的运维和开发还是建议分开，因为大数据运维这一领域有好多该做的事儿。

另一个原因则是，近几年大型的云服务提供商的崛起，使得云产品的使用率越来越高，这类云产品都是免运维、开箱即用的。

另外还有一个神奇的岗位，叫“大数据测试工程师”，也是在招聘网站上几乎看不到。大数据领域的测试，我虽从业多年，也一直没找到一个非常合适的测试方法和测试流程，一直坚持的办法就是开发的自测和互测，因为需要能看懂代码的人。

大数据团队工作成果V2.0

实时计算平台：提供实时（准实时）的大数据计算平台，使数据更加实时。

总结

2.0阶段，相对1.0阶段来说，走得更慢，而且缺少特别有突破性的成果。但是从团队建设的角度，这一阶段走完之后，大数据团队就基本已经成型了。

这一阶段可以走得很长，甚至永远在这一阶段走下去。毕竟光是依靠大数据的“离线+实时”的计算能力，就可以做很多很多事儿。重点注意这一阶段的团队流程建设，包括实时计算团队的领域划分、技术方案设计、文档与注释要求、压力测试等等，也包括之前提到过的离线计算团队的数仓设计原则、编码规范等等，还包括如何让整个团队提升工作效率、避免重复造轮子、避免陷入舒适区等等。

总结一下，2.0阶段走向成熟的标识就是：一切基本的数据分析都不再是问题，数据中心建设完成。

下一个阶段，就是如何让数据发挥价值。

大数据团队从1到2