首先我们需要有用户,用户需要资源隔离,每个用户在系统上面使用的时候会对应着账号,账号会对应着权限,这样就把整套东西串联起来,这是第一部分。
第二部分是开发,开发有 IDE,IDE 用来写代码,写完代码之后提交,提交之后存在一个调度的问题,资源任务的顺序、谁先谁后、出了问题要不要中断,这些都由调度系统来管,我们的这些任务就有可能在不同的地方来运行,可以通过数据集成把它拉到不同的区域,让这些数据能够在整个的平台上跑起来,我们所有的任务跑起来之后我们需要有一个监控,同时我们的 operation 也需要自动化、运维化,再往下我们会进行数据的分析或者 BI 报表之类的,我们也不能够忘记 machine learning 也是在我们的平台上集成起来的。
最后,最重要的就是数据安全,这一块整个东西构起一个大数据引擎的外沿 + 大数据引擎本身。这样就形成了在2017年就已经具备的单引擎的完备大数据系统。
以上内容摘自《大数据工程师必读手册》电子书,点击https://developer.aliyun.com/topic/download?id=29可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。