6.DataWorks 数据分析介绍及实践(一)|学习笔记

简介: 快速学习6.DataWorks 数据分析介绍及实践

开发者学堂课程【DataWorks一站式大数据开发治理平台精品课程:6.DataWorks 数据分析介绍及实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1232


6.DataWorks 数据分析介绍及实践(一)


内容介绍:

一、什么是数据分析

二、数据分析的过程

三、本地v.s.在线数据分析

四、DataWorks数据分析

五、使用演示


一、什么是数据分析

image.png

这张图描述数据信息与情报的关系,从外界环境中通过采集拿到数据,环境有可能是软件的,比方从业务系统中采集到的日志数据,也有可能是硬件的,比方传感器从环境中采集到的传感数据,那原始数据的价值密度通常是比较低的,通过原始数据的加工和处理,加工和萃取得到有价值的信息,而对信息的进一步的分析与生产就得到情报。

1数据分析是以发掘有价值的信息,用结论支撑决策为目的,对数据进行探查、清洗转换和建模的过程。

2、数据分析在使决策更加科学,帮助企业更有效的运营方面发挥着作用。


二、数据分析的过程

1、需求分析主要是先明确需求业务的核心问题是什么,需要做出什么决策,为支撑决策,那需要拿到什么样的证据?

2、明确需求后,需要进行数据采集,这个环节有以下几个问题,期望的数据可能在技术层是没有存储的,或者是有存储,但是数据分散在数据仓库的不同位置,数据采集的过程就是要解决这些问题。

3、数据采集后通常会需要做一些数据清洗的工作,因为数据往往是不完整的,有重复值有错值有空值的,数据清洗就是防止和纠正这些错误的过程。

4数据清洗完后,就可以借助数据分析工具对数据进行探索分析常见的数据分析工具有微软的Excel,tableausql,r语言、Python等等,那分析的过程可能还会包含机器学习算法的应用,数据分析完成后,往往需要以可视化的形式将结果展示给需求方。因此数据分析的过程通常包括需求分析、数据采集、数据清洗、探索分析和最终的可视化呈现。


三、本地v.s.在线数据分析

数据分析可以分为本地数据分析和在线数据分析,本地数据分析最常见的就是用Excel 做数据分析它非常的方便,但同时也会有很多问题

image.png

1、首先是重复操作的问题。用户在Excel文件上的分析往往是一次性的,于是传统的数据分析师需要每周每月或者每季度的去重复它的分析的操作效率是比较低的。

2、第二点是性能差的问题,这一点如果在本地数据分析的数据量不太大时,其实可能体会不到,当数据量比较大时,性能就成瓶颈。主要有两方面的原因,Excel能够显示的数据行数是有上限的,上线与Excel的版本有关。另一方面受制于个人电脑的计算性能,当数据量比较大时,其实本地数据分析不可避免的会产生卡顿的情况。

3、第三点是数据孤立的问题,在数据上云的背景下会逐渐的凸显出,数据本身其实是超越文件的边界,很多时候对单一的表的分析价值是非常有限的需要把企业各个业务系统的数据都拉通,这样才能拿到更有价值的分析结果。

4、最后一点是安全风险,企业的数据放在本地,放在员工的个人电脑上,很难做到分享和下载过程中的权限可控的。

image.png

相对应的查看在线数据分析是如何解决这些问题的针对重复操作问题,使用在线的数据分析工具是可以做到数据的刷新。比如DataWorks数据分析模块,有一张用户画像表,这张表是分区表,对9月的分区进行透视的操作,把某字段做一行,某字段做一列,进行透视,等到10月份时,可以直接把透视的配置复用到10月份的那个分区上,这样就非常高效的完成数据的更新。另外借助计算引擎的强大的计算能力,可以对全量的海量的数据进行高效的数据分析。另外在线数据分析可以从不同业务系统的数据库进行取数分析,打破数据之间的壁垒。另外DataWorks数据分析模块还支持将分析的结果导出成一张表,或者或者是将分析结果分享给别人,那这样的数据就在不同的系统之间,在不同的人之间流动起。非常重要的一点,用户不需要将数据下载到本地,就可以在线上完成数据分析,并且做到分享分析过程中的权限可控,保证企业的数据安全。


四、DataWorks 数据分析

1、问题

(1)我有一张表存在MaxCompute/EMR/RD./...里 ,我想对查询结果做进一步的统计分析,我该怎么做?

(2)拿到张别人的表,我怎么知道里面有没有脏数据?只能跑SQL吗?

(3)DataWorks能做透视分析吗?

(4)我想手动编辑一张维表,可我不会写SQL,我该怎么办?

这些问题都可以通过DataWorks数据分析模块有很好的解决。

2、数据分析场景

对数据仓库中的数据进行数据洞察、在线查询,可视化报表分析和搭建,提取出有效信息而形成结论,辅助决策。

(1)数据地图

全局数据表检索,可通过表详情、数据预览数据血缘等方式快速理解数据。

(2)数据地图

表,资源、函数等数据资产使用权限的申请和审批入口,表权限-键申请。

(3)DataStudio

在临时查询任务中对数据仓库里的数据进行加工,加工结果支持简单分析。

(4)数据分析

可使用“从数据源查询"功能从数据源直接取数,支持透视表和数据探查,零SQL完成数据分析。

数据分析是用于数据快速洞察分析,在线编辑及数据可视化的模块包括电子表格、维表、报表三大功能

3电子表格

(1)进行取数、探索、 分享的个人空间

可以看到它以电子表格为主体,支持一些常见的表格的功能,用户可以快速的上手。

1.支持从本地/数据源导入数据

2.个人视角的查询工作台

3.数据探查

4.数据透视

5.数据可固化、分析结果可分享

(2)数据探查

拿到数据后,可以借助数据探查的功能快速的洞察数据,功能会对各个字段的值的分布,包括它的类型数值的分布做统计,可以帮助用户快速的掌握数据的分布情况。

1.快速洞察数据

2.支持概览模式和详细模式

3.数据筛选、多级下钻

它能够帮助用户判断这些数据是否需要去做数据清洗,以及数据清洗的目的是什么。

(3)透视表

1.支持本地透视和数据源透视也就是可以对电子表格中的数据进行透视,也可以直接对数据源的全量的数据进行透视

2.维度支持自定义排序

3.数值类型可分组

4.透视配置可复制

比方对这张表9月的分区做一次透视的操作,等10月份数据更新后,可以通过刷新数据源,把透视配置给复用到10月的分区上

(4)保存与分享

1.支持模版功能可以直接从模板新建

2.可保存为MaxCompute表

3.支持分享(指定人、指定权限)

直接生成建表语句,并且把数据插入到表中。除此之外还可以把电子表格分享出去,分享时可以指定某人,并且给他相应的权限,他是可以编辑的,还是只能阅读的。

4、维表

简单高效的维表编辑工具

在日常的工作中,其实运营同学常常会需要去维护一张线上的 MaxCompute 表,这时他可能找到研发的同学,跟他自己的需求,研发的同学就打开 DataStudio 新建手动的任务,在里面建表语句,并且把数据插入进,最后把任务提交到生产环境,在生产环境运行任务就会建一张 MaxCompute 生产表,每当数据有更新时,过程都要重复一次,那链路长,而且涉及到的人员比较多,操作起效率是很低的。有维表后,运营的同学可以直接用可视化的方式自己创建一张MaxCompute 生产表,通过可视化的方式对字段进行命名,填写字段描述,点击确认就生成一张线上的表,它可以把本地的数据导入到这张表中,也可以直接在表格中操作,像在Excel中操作是一样的,直接在里面写数据,有修改也可以非常方便的打开这张标进行修改,从而缩短整个的操作链路,提升工作的效率。

5、报表

数据可视化呈现

(1)提供多种报表组件

(2)拖拉拽完成报表搭建

(3)支持分享

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
域名解析 网络协议 安全
什么是DNS劫持攻击以及如何避免此类攻击
【10月更文挑战第28天】DNS劫持攻击是一种网络攻击方式,攻击者通过篡改用户的DNS设置,将合法网站的域名解析为恶意网站的IP地址,使用户在不知情的情况下访问钓鱼网站。攻击手段包括在用户系统植入恶意软件、利用路由器漏洞或破解DNS通信等。为防止此类攻击,应使用安全软件、定期检查DNS设置、重置路由器密码及避免访问不安全的网站。
1581 2
|
SQL 关系型数据库 MySQL
彻底搞懂 MySQL 事务的隔离级别
MySQL的事务隔离级别一共有四个,分别是读未提交、读已提交、可重复读以及可串行化。
68304 12
彻底搞懂 MySQL 事务的隔离级别
|
存储 Prometheus 运维
[10.14 workshop] 自定义 Prometheus 监控指标并通过 Grafana 展示
阿里云Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的Prometheus服务。借助阿里云Prometheus监控,您无需自行搭建Prometheus监控系统,因而无需关心底层数据存储、数据展示、系统运维等问题。
[10.14 workshop] 自定义 Prometheus 监控指标并通过 Grafana 展示
|
SQL 搜索推荐 关系型数据库
MySQL 如何实现 ORDER BY 排序?
本文详细解析了MySQL中`ORDER BY`的实现原理及优化方法。通过解析与优化、执行及多种优化技术,如索引利用、内存排序、外部排序等,帮助你提升排序性能。了解其背后的机制,可显著优化查询效率。
750 4
|
存储 人工智能 分布式计算
云计算的基本概念
云计算的基本概念
6854 0
|
关系型数据库 MySQL Unix
mysqld_safe: command not found 解决方法
mysqld_safe: command not found 解决方法
2640 0
|
机器学习/深度学习 供应链 安全
守护Windows系统安全:挑战、策略与未来展望
加强数据备份与恢复以及提升用户安全意识等。同时,展望未来,人工智能与机器学习、零信任架构、量化安全评估与风险管理以及强化供应链安全等新技术和新理念将为Windows系统安全提供更加坚实的保障。让我们共同努力,守护好Windows系统的安全防线,为数字化时代的繁荣发展贡献力量。
|
存储 消息中间件 监控
【ElasticSearch】ELK简介
【ElasticSearch】ELK简介
524 2
【ElasticSearch】ELK简介
|
消息中间件 存储 canal
3分钟白话RocketMQ系列—— 如何保证消息顺序性
3分钟白话RocketMQ系列—— 如何保证消息顺序性
2133 1
3分钟白话RocketMQ系列—— 如何保证消息顺序性
|
存储 JSON 数据格式
Flowable 完整表结构说明(三)
Flowable 完整表结构说明
838 0