阿里巴巴大数据生态下的一些「魔法」

简介: 阿里巴巴的大数据生态

打造数据计算和分享的第一平台。
—— 2009年阿里云成立时的愿景

上次我们聊了聊有关网络协同的一些「启发」,那就是祭品、巫师、麻瓜结构,而在阿里巴巴的大数据生态下的「巫师」则要学习和掌握以下这些「魔法」:

  • MaxCompute大数据平台、MaxCompute是一个SaaS模式的企业级云数据仓库,是一个阿里云在2009年成立的时候就开始研发的大数据计算平台,MaxCompute对标的开源产品是Hadoop,主要的应用场景是海量数据的存储和离线批量计算,相对于Hadoop主要的优势在于其原生就具备多租户安全隔离机制和基于标签的MAC强制访问控制安全模型,另外在单位数据的计算成本上也更具优势。
  • DataWorks大数据开发平台、是一个一站式的大数据研发与数据治理平台,提供大数据管理、开发、运维、数据集成功能,通过数据集成可以集成整合各种数据源上的数据,数据治理提供数据资产管理的相关功能,包括数据发现、数据探查、数据资产地图等功能,并对于数据质量控制有一套完善的保障体系,最终支持将数据以安全可控的方式提供对外服务。最初的DataWorks主要配合MaxCompute使用,目前已经支持和Flink流式计算引擎和Hologres在线交互分析引擎配合使用,为三大计算引擎提供强大的开发、运维、报警监控平台。
  • Flink流式大数据计算引擎、对比MaxCompute离线计算引擎,Flink主要的应用场景是诸如双十一实时交易统计、实时交易风控、在线机器学习等应用场景。Flink虽然脱胎于开源产品,但阿里巴巴在合并Flink的开发团队后对在云上提供的版本进行了深度定制优化,目前已经能够完美的融入阿里巴巴的大数据生态系统中。
  • Hologres大数据交互式分析引擎、是一款大数据实时交互分析产品,可以在海量数据上提供实时的查询响应、Hologres既能提供HBase的点查询能力、也能提供Druid一样的即席查询(Ad-hoc)能力、同时也能支持Impala一样的复杂OLAP查询。Hologres在底层存储上和MaxCompute无缝打通,可以直接访问存储在MaxCompute上的数据,,从而避免数据迁移带来的额外成本,在交互接口上Hologres直接使用PostgresSQL的成熟生态,进一步降低集成和学习的成本。
  • 机器学习平台PAI、为深度学习和传统机器学习用户提供了一站式的数据处理、模型训练、模型部署和预测的一站式服务。在模型训练方面根据使用者对AI相关技术的掌握情况提供四个等级的服务,分别是零门槛的PAI-Autolearning自动化机器学习平台、提供200多种算法和组件的可视化建模平台PAI-Studio、面向Tensorflow用户提供的jupyter交互式建模平台PAI-DSW、面向需要进行深度GPU性能优化的PAI-Blade。在模型部署和预测方面可以将PAI-DSW、PAI-Studio平台训练好的模型无缝对接到PAI EAS在线推理服务,PAI EAS支持快速的弹性扩缩容和蓝绿发布等运维管理特性。
  • Datahub实时数据分发服务、是一个流式数据发布和订阅服务,区别于DataWorks内置的用于离线数据同步的数据集成,Datahub通常用来和Flink一起集成并用于流式数据的发布和订阅,Datahub支持的采集的数据源包括日志采集(LogStash/Fluntd)、数据库binlog采集(DTS/Oracle GoldenGate)、甚至包括视频采集(GB28181协议),通过订阅/分发机制实现数据的一次写入多次使用。
  • ElasticSearch检索分析引擎、ES是业内最主流的信息检索分析引擎,通常配合ES的生态服务包括Beats(数据采集器,可以向Logstash或ES发送数据)、Logstash(日志收集、过滤、传输工具)、Kibana(数据可视化监控大盘)。ES的主要应用场景包括产品和服务的搜索、数据的聚合分析、日志数据的实时监控等场景。阿里云上的ES相对于开源版本增加了额外的付费的X-pack插件和达摩院提供的中文分词器。
  • AIRec智能推荐服务、AIRec是基于阿里巴巴在电商、内容、新闻、视频直播和社交等领域的积累而为全球企业及开发者提供的云推荐服务,相对于通过PAI机器学习平台构建的半托管推荐服务,智能推荐服务AIRec一种全托管的推荐服务,提供由友盟合作打造的定制版客户端SDK,可对Android/IOS终端进行行为数据采集,将复杂的推荐算法模型、调度管理策略封装隐藏,只需完成数据对接即可使用。
  • QuickBI数据可视化分析平台、QuickBI是一个轻量级的自助BI工具服务平台,通过业务人员的拖拽式操作即可实现丰富的数据可视化效果,可以让业务人员取数找数不再依赖技术人员,通过与现有业务系统集成整合,满足各个不同岗位人员各自的数据需求,最终的目标是人人都是数据分析师。
  • DataV数据可视化平台、是一款数据可视化应用搭建平台,和QuickBI主要面向业务岗位不同,DataV面向的主要用户还是以IT技术人员为主。DataV可以为数据分析、业务分析、运营、设计师、开发者提供完整的可视化搭建工具链,从而提升数据可视化搭建效率,每年的双十晚会都会呈现由DataV搭建的数据大屏,让数据的更强烈的被大众所感知。

观察这些「魔法」不难发现:这其中既有大量自研产品,也包含诸如ES、Flink这样的优秀开源产品和服务,而无论是自研还是开源都已经在阿里巴巴生态下经过了长时间的优化、打磨、适配从而已经完美的契合在了一起,通过这些「魔法」,数据的价值将被以更快的速度、更低的延迟、更低的成本被开发出来。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
8月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
2432 0
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
9月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
820 1
|
9月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
394 0
大数据之路:阿里巴巴大数据实践——离线数据开发
|
8月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
613 0
|
8月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
680 0
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
1902 1
|
存储 分布式计算 大数据
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题,通过分层设计提升性能10~100倍,优化存储与计算成本,保障数据质量并提升开发效率。相比关系数据库,数据仓库采用维度建模与列式存储,支持高效分析。阿里巴巴采用Kimball模型与分层架构,实现OLAP场景下的高性能计算与实时离线一体化。
876 0
|
9月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
953 0
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。