2016美国QCon看法:在Beam上,我为什么说Google有统一流式计算的野心

本文涉及的产品
云原生内存数据库 Tair,内存型 2GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 Redis 版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: Google在开源社区和云计算上是有很深的痛感的,这种痛感也在促使Google做更多的转变,比如拥抱社区推出更多开源产品,在云计算产品形态上也屈身向3A靠拢,本文中介绍的流式计算产品Beam就是拥抱社区的一个动作,希望能成为一个杰作。

编者按:流式计算(Stream Processing)在经历了若干年的发展之后,已经有了比较完整的生态,如开源的Storm, Flink, Spark等,未开源的如Google的DataFlow,几乎每个巨头都有自己的流式计算系统。生态虽繁荣但分散,各个平台之间也是互不兼容的,一个平台上写的程序很难移植到另外一个平台,这些领域难题再加上Google大一统流式计算的野心催生了Apache孵化器的新项目Beam。

 

         Google是最早实践大数据的公司,目前大数据繁荣的生态很大一部分都要归功于Google最早的几篇论文,这几篇论文早就了以Hadoop为开端的整个开源大数据生态,但是很可惜的是Google内部的这些系统是无法开源的,在开源生态和云计算兴起之后,Google也是受够了闭源的痛苦,据说为了给用户提供HBase服务,Google还为BigTable写了兼容HBase的API,在Google看来这就是一种羞辱,痛定思痛,Google开始走开源之路,将自己的标准推广给社区,这就是Apache Beam项目诞生的整个大背景。整个Beam项目的演进历史为:

147f601b32c9ef2c92613fa776962fc24c269ec1

         撇开这些八卦,Beam的整个设计理念和架构还是不错的,Beam是一个SDK,也是一个构架于各个底层平台Runner之上的Adapter,Beam对流式计算场景中的所有问题重新做了一次归纳,然后针对这些问题提出了几种不同的解决model,然后再把这些model通过一种统一的语言给实现出来,最终这些Beam程序可以run在任何一个计算平台上(只要平台/Runner实现了对Beam的支持)。通过一个Beam的参与方视图也能看出一个大概的架构:

31520e2283085325c209c31414cce5c5bbfc869b

在图中,终端用户用Beam来实现自己流式计算功能,使用的终端语言可能是Python、Java等,每个语言有一个对应的SDK,用户写出的程序会跑在各个平台/Runner上,每个Runner上都实现了从Beam Pipeline到平台功能的映射。

         在任何一个设计开始之前,都先要确定问题,Beam也不例外,在设计者看来在流式计算场景中数据有三个特点,一:数据是非常大的,而且一直在不停产生,理论上是无穷大;二:这些数据的延迟是不可预期的也是不可控的,而且这些乱序是一种天然的行为,无法避免;三:这些数据的用途有可能是记录抽取转换、有可能是用来根据时间窗口做聚合,而且聚合可能是基于当前处理时间processing time,也有可能是根据事件发生时间event time来聚合。Processing time和event time之间是有lag/skew的,如图:

b87b077195973ccd31b96a9a0f577a6105efb5c0 

其中虚线是最理想的,表示处理时间和事件时间是相同的,红线是实际上的线,也叫水印线watermark,watermark一般是通过启发式算法算出来的。

         接下来从high level的问题中抽象出四个具体的问题:

         A:What are you computing,处理的数据是哪种类型,数据转换、聚合或者是两者都有,如图:

a92b54ca0e8332aaaef2ab74a93f7df5be5fbc87        

B:Where in event time,何时发生,其实是用哪种窗口来框住数据并处理,有固定窗口、滑动窗口、会话这三种模式:

92593da5da3d88bbc7df57024d2f674bea52070c        

C:When in processing time,何时被处理,如上Watermark图,在这里引入了一个Trigger机制,Trigger决定何时将计算结果发射出去,发射太早会丢失一部分数据,丧失精确性,发射太晚会导致延迟变长,而且会囤积大量数据,何时Trigger是由Watermark来决定的 

03ab8942f24e5fdfa54d06767b5e06a42559c747 

0d8fca0aa42f05abfeb3c8e4c31ddfe574587d30

        D:How do refinements relate,如何优化

 5cc45f382e74cf4aadac2c032497fb15d3bbf814

         通过这种model能够保证准确性;功能也比较强大,还能识别出用户的burst行为;各种策略之间的可组合性也非常好,如:

0a5034ce2a9e0d1306851b2cdaef9e16292ebe1f

由于策略很多,所以灵活性也很好,如:

67a5b9755ab4774429ecfb30d1cc383e1f80db13

模块化和抽象也做的很好,如: 

055f83ac8d96e6eef8d36015e1234e0af1e83f1c

 

         总结:Beam虽然还在孵化之中,但是以Google对大数据的理解,绝对是一个强力的推手,而且Beam对自己的定位是粘合剂,不是一个挑战者,所以该项目看起来还是比较乐观。不过Beam背后隐藏的Google的野心也是非常大的,Beam看起来像个粘合剂,但是是一个事实上的标准,是对流式计算开源生态的一次大一统,相信未来Google会在大数据领域继续推出其他开源产品,对社区生态和云计算的理解也会越来越深。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
元象XVERSE发布 中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
|
28天前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
37 1
|
4月前
|
测试技术
华人团队推出视频扩展模型MOTIA
华人团队推出视频扩展模型MOTIA,通过智能算法扩展视频内容,适应不同设备和场景。该模型分为输入特定适应和模式感知扩展两阶段,有效保持视频帧内帧间一致性,提升扩展质量。在DAVIS和YouTube-VOS基准上超越现有先进方法,且无需大量任务调整,降低创作者的时间成本。然而,源视频信息不足或模式不明显时,MOTIA性能受限,且对计算资源要求较高。
99 2
华人团队推出视频扩展模型MOTIA
|
4月前
|
人工智能 自然语言处理
浙大联合微软等提出全新视频编辑统一框架UniEdit
【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit
44 2
浙大联合微软等提出全新视频编辑统一框架UniEdit
|
存储 人工智能 自然语言处理
开源引擎GTS乾坤鼎:自动生产模型拿下FewCLUE榜单冠军
开源引擎GTS乾坤鼎:自动生产模型拿下FewCLUE榜单冠军
141 0
|
机器学习/深度学习 人工智能 Rust
2021 年 Rust 生态版图调研报告 | 星辰大海(下篇)
2021 年 Rust 生态版图调研报告 | 星辰大海(下篇)
891 0
|
语音技术 Android开发 信息无障碍
Google 谈与残疾人社区合作开发产品的重要性
每年五月的第三个星期四,是全球无障碍宣传日(GAAD),今年已来到第 11 个。5 月 19 日,Google 无障碍团队高级总监 Eve Andersson 发表博文分享了与残疾人社区合作开发产品的重要性。
147 0
Google 谈与残疾人社区合作开发产品的重要性
|
监控 IDE 算法
Google 的工程实践对初创公司有用吗?
“尊重工艺”是 Instawork 工程团队的一项指导原则。它鼓励我们以学习的态度去看待软件的工艺。为了这个目的,我在去年建立了“工程图书俱乐部”,以帮助我们从行业中的优秀企业和优秀人才汲取经验。我们的阅读的第一本图书是 Software Engineering at Google(暂无中文版:《谷歌的软件工程》)。我们很想了解谷歌是如何以巨大的规模进行软件开发的:数十亿行的代码,成千上万的开发人员。他们的任何做法是否适合像我们这样的小型团队?
115 0
Google 的工程实践对初创公司有用吗?
|
供应链 安全 Java
谷歌出钱又出人,保护开源安全迫在眉睫
5 月 12 日,在美国白宫开源软件安全峰会上,谷歌与 Linux 基金会、开源软件安全基金会 (OpenSSF)以及其他行业领袖共同讨论了开源安全举措,并宣布成立“开源维护团队”。这是一个由开发人员组成的团队,他们将致力于确保上游开源项目的安全,从收紧配置到部署更新。
125 0
|
前端开发 JavaScript 程序员
来自Google, Pinterest 等公司顶级程序员的10条最佳实践
编程语言各有不同,不过区别不大。但用语言的人区别就大了。选择了一门语言你就选择了一个群落。
131 0
来自Google, Pinterest 等公司顶级程序员的10条最佳实践