加速查询MaxCompute再对接Quick BI,选交互式分析就对了!

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 典型离线大数据场景上,MaxCompute一直占据着不可撼动的地位,但由于其架构原因,当数据量很大时,查询速度较慢,不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询,于是,选择一个怎样的数据库成为业务关注的重点。

导读

典型离线大数据场景上,MaxCompute一直占据着不可撼动的地位,但由于其架构原因,当数据量很大时,查询速度较慢,不满足业务场景的ad-hoc查询。目前常用的加速方案是使用其他数据库来将MaxCompute数据加速查询,于是,选择一个怎样的数据库成为业务关注的重点。
所选择的数据库不仅需要能够快速查询MaxCompute中的数据,满足业务的即席查询需求,也需要有存储、计算能力,面对不同的业务要求,能支持多种查询需求,更重要的是,不能出现数据的冗余存储,操作也要简便,方便运维、开发。同时,业务的完整链路通常是会将处理好的数据对接第三方BI工具,进行可视化分析,这对数据库的兼容能力又进一步提出需求。所以选择什么样的数据库更好呢?交互式分析告诉你答案!

为什么选择交互式分析?

1.从产品定义上来说,交互式分析不能视为数据库,而是一款大数据生态体系下的实时交互产品。
2.从架构上来说,采用存储、计算分离的架构,同时支持简单查询与复杂SQL查询,能实现PB级数据秒级查询响应,每秒亿级记录写入与查询,相比开源系统性能大幅提升。
3.从产品功能上来说:
1)生态兼容:既支持直接、导入查询MaxCompute离线数据,也支持实时数据实时写入实时查询,还能对离线数据和实时数据做联邦查询,完美满足各种业务场景的即席查询。
2)兼容PostgreSQL协议:用标准的SQL语言就能开发,无需额外的学习成本;同时还提供JDBC/ODBC接口,支持对接各种BI工具,无需数据迁移就能实现可视化分析。
3)与DataWorks深度集成:自研的开发平台HoloStudio深度集成在DataWorks上,提供图形化、智能化、一站式的数仓搭建和交互式分析服务工具,简单易用,节约学习成本和时间成本。
综上所诉,加速查询MaxCompute离线数据,使用交互式分析是您的不二选择。

场景演示

下面,小编将会做场景演示,如何使用交互式分析查询MaxCompute数据并最终在Quick BI上可视化分析展现。
开发平台:MaxCompute、交互式分析(都基于DataWorks完成)、Quick BI
场景过程:MaxCompute产生数据源,交互式分析直接、导入查询MaxCompute数据,并对接Quick BI可视化展现。

前提条件

1.开通MaxCompute、交互式分析,并绑定至DataWorks项目空间。
2.开通Quick BI

1.MaxCompute准备数据源

本示例会演示交互式分析直接、导入查询两种场景,所以需要准备2张源表。
在Dataworks中新建2张表,或者直接选取数据地图中的2张表,示例选用数据地图中的两张MaxCompute表。
表1:airline
image.png
表2:bank_data
image.png

2.交互式分析查询MaxCompute数据。

在HoloStudio中查询MaxCompute数据,分为直接查询和导入查询。2者的区别在于:直接查询的数据巨仍然存储在MaxCompute,使用于一次query小于100GB的场景。导入查询的数据最终存储在交互式分析中。

1)对于表1:airline,在HoloStudio中新建外部表直接加速查询,最终数据如下:
image.png
关于直接加速查询MaxCompute表数据可以参见往期:在吗?0代码加速查询MaxCompute

2)对于表2:bank_data导入查询,最终数据如下:
image.png
关于导入查询MaxCmpute表数据,可以参见往期:来了,2行代码秒级查询MaxCompute!


3.Quick BI可视化分析

在交互式分析中对MaxCompute数据加速查询成功后,可以直接对接Quick BI,实现数据的可视化分析。在阿里云官网找到Quick BI并进入Quick BI控制台。并在控制台新增数据源,选用PostgreSQL数据源。
image.png
image.png

配置项 说明
显示名称 自定义
数据库地址 连接的交互式分析数据库公共网络地址
端口 连接的交互式分析数据公共网络端口地址
Schema public(默认)
用户名 当前账号的的Access ID
密码 当前账号的Access Key
vpc数据源 不勾选
SSL 不勾选

1)可视化交互式分析外部表
Quick BI成功连接交互式分析后,不会在数据表列表中显示外部表,若要可视化分析外部表,需要选用即席分析SQL模式。输入查询SQL,并单击执行,得到查询数据后,单击创建数据集。
image.png
在数据集可以看到外部表,可以根据业务需要在右侧选择分析功能。例如仪表盘
image.png
按照查看数据维度来对数据进行展现,并根据个人喜好美化插件,最终展现如下:
image.png

2)可视化分析交互式分析内部表
在Quick BI中,连接成功数据源之后,即可在界面上显示出当前数据源的内部表,需要可视化分析需要单击右侧生成数据集
image.png
生成的数据集如下,对数据集新建仪表盘进行可视化分析。
image.png
最终的简易分析图表如下,可以根据分析维度自行对数据进行拖拽,简单方便。
image.png
以上操作为完整的使用交互式分析加速查询MaxCompute数据 再对接Quick BI可视化分析,无需多次导数据,也无需数据的多次迁移,用一套sql语言,就能实现从数据源-数据处理-数据可视化分析的完整链路。同时在查询性能上,还能实现秒级交互式响应,真正适用与即席查询、olap等场景。还等什么,赶紧用交互式分析吧!
若您在使用交互式分析中有任何疑问,欢迎进钉钉群交流
image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
2月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
66 4
|
26天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
88 2
|
2月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
72 5
|
15天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
32 4
|
16天前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
30 4
|
17天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
104 5
|
29天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
109 14
|
1月前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
84 2
|
1月前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
1月前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。