阿里巴巴集团首席技术官王坚在《在线》一书中指出“大数据“的叫法应该叫‘在线数据’。‘在线’远比‘大’更能揭示本质。数据不在线,体量再大,价值也有限。数据在线,即数据实时更新、数据共享、极易获得。”王坚博士提到的数据在线也可以理解为数据应该像钢铁一样标准化能够流转,达到数据共享,产生更大的价值。只有彼此隔离的数据能够打通能够发生化学反应,才能去谈大规模计算,所以和以往我们理解的“云计算,大数据”有些错位。
本次北京云栖大会TI·workshop我们选择了《云数据·大计算:快速搭建互联网在线运营分析平台》为分享主题,展示阿里云对大数据的独到理解,只有数据云化,数据在线,使用大规模计算技术,促使其发生化学反应产生更大的业务价值。搭建互联网在线运营分析平台,我们也选择了现在炙手可热的话题,如何去分析APP的日活、月活以及相关设备分布情况,以提高个性化运营的效果。
本次workshop共包含3个环节,由TableStore表格存储、MaxCompute大数据计算服务以及Quick BI报表分析三个团队的产品及技术专家共同出品。
数据接入:海量数据存储及实时访问
在实际业务场景中,我们会有大量从移动设备如IOT还有一些在线服务如即时聊天工具等大量的数据高并发写入存储系统中,一方面这些数据还需要提供给后台或者用户进行在线的实时访问,另一方便这些海量数据的沉睡存储并不能发挥其最大价值,也有相关专家夸张到“如果数据不流通,就相当于存储垃圾”。
首先阿里云表格存储TableStore其解决了历史数据实时访问以及海量数据的高并发写入问题(单表10PB级数据量、万亿条记录数以及千万级别的TPS能力),并有相关成熟应用,包括金融风控行业、车联网行业以及互联网社交Feed流等。在workshop现场,TableStore也将深刻解读其产品特性及让各位参会嘉宾现场体验产品的强大功能。
表格存储(Table Store)是构建在阿里云飞天分布式系统之上的分布式NoSQL数据存储服务,根据99.99%的高可用以及11个9的数据可靠性的标准设计。表格存储通过数据分片和负载均衡技术,实现数据规模与访问并发上的无缝扩展,提供海量结构化数据的存储和实时访问。
数据处理:数据建模与加工
如王坚博士所言,数据需要在线更需要流通与共享,这样数据才能发挥更大的价值,驱动业务创新。如何能够快速的针对TableStore中存储的历史数据进行分析与挖掘?在MaxCompute2.0中支持非结构化数据的处理,可以直接通过创建外表的方式对TableStore中的数据进行读取和写入,拓展了传统结构化数据处理的边界。而在以往的解决方案中,需要用户通过编写脚本方式进行,开发成本大大增加,且不容易满足业务需求。
MaxCompute 2.0的SQL直读直写,极大提供了针对TableStore、OSS等半结构化、非结构化存储系统中的历史数据分析。如下视图,如何在MaxCompute2.0创建TableStore外部表和OSS外部表。
通过MaxCompute2.0这一特性,我们可以高效的分析结构化、半结构化以及非结构化的数据,而无需更多额外开发工作量,再结合DataWorks(MaxCompute原生态IDE开发工具)进行数据清洗、数据加工以及数据调度来完成企业级大数据仓库的建设,完成APP用户行为数据指标的清洗和加工。在这一环节,由MaxCompute技术专家为大家深刻解读这一特性。
数据分析:构建可视化报表服务
在以往业务场景中,我们更多的需要来构建分析报表来体现或者展示业务发展趋势,在本workshop是刻画APP用户行为分析,如何快速的构建可视化的即席分析报表,满足运营同学对业务的洞察,解决大数据应用“最后一公里”的问题?这些种种疑惑都可以在Quick BI中找到答案,他通过拖拽式操作、丰富的可视化效果助推企业的数字化运营。
至此,细心的读者发现,北京云栖大会·TI Workshop《云数据·大计算:快速搭建互联网在线运营分析平台》是真实模拟现实业务场景,帮助大家理解并动手实数据存储及实时访问、再到如何对这些数据进行加工与分析刻画APP用户画像,再到最终通过可视化报表的方式来展现APP运营情况,其实端到端的解决方案。现场也会有实操教学,让在现场的所有嘉宾都能够构建自己的在线运营分析平台,发挥数据的最大价值。