数据分析之「数据探查」—帮您快速掌握数据情报

本文涉及的产品
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
简介: 为了帮助用户一眼看穿当前数据的质量、结构、分布、统计信息,Dataworks数据分析系统提供了数据探查这个情报管家。它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况;同时,也支持切换到详细模式,查看更多更全面的数据信息。

您为什么需要数据探查

数据探查能解决什么

您是否也有这样的困扰?
面对表格中一堆凌乱的数据,除了每一列的标题和类型之外,其它一无所知。。。

  1. 数据是否完整?是否有空白或空值?
  2. 数据是否唯一?有多少个不同的值?数据是否重复?
  3. 数据是否存在异常格式?数据格式的分布是什么?这些是您期望的格式吗?
  4. 数据存在哪些值范围,它们是预期值吗?给定数据的最大值,最小值和平均值是多少?这些是您期望的范围吗?
  5. 针对这票数据,您后续应该做怎样的处理,才能让他们发挥最大的价值?

34b27c67fdfede2633ce8b6ef60f86cb.jpg

都2020年了,难道还要被这些问题困扰吗?
当然不!

为解决这些问题,Dataworks数据分析系统提供了数据探查这个情报管家,目的就是帮用户一眼看穿当前数据的质量、结构、分布、统计信息。

同时,也帮助用户判断这票数据是否值得去做数据清洗,以及应该做一次性的可视化展示,还是值得做成报表以长期可视化展示。

所以,2020年,我们一定要充分用好这个小管家!

数据探查对大数据生态的价值

数据分析是一款数据快速洞察分析,数据编辑及数据可视化的平台,是Dataworks开发生态从数据集成 -> 数据开发 -> 数据服务 -> 数据分析->数据可视化这整个链路的重要组成部分。

数据探查又是数据分析平台完成数据预览、探查、加工、分析、可视化、分享等一整套数据处理生态链路不可或缺的一部分。

综上,若您能接触到数据,有了解自己数据情况的意愿,希望自己的数据发挥更大价值,那您就需要数据探查!

数据分析的数据探查是怎样的

功能简介

数据探查一般有以下3种方法,column profiling、cross-column profiling、cross-table profiling,我们采用了第一种方法,对每列数据进行类型和值分布的探查。
它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!

并且,整个数据探查过程在前端实现,具备Excel数据源的天然优点,不受odps任务慢的影响、自动支持各种数据引擎,给您更流畅的体验!
数据探查筛选和下钻.gif

详细介绍

针对概览模式

目前,我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况。

  1. 针对字符串类型(string)和日期型(date):以富文本展示top2的值及其占比,同时给出其它值的占比;若值的种类超过50%,我们会展示唯一值总数。
  2. 针对数字型(integer/float):以分箱柱状图的形式,给出其数据范围分布情况。
  3. 针对布尔型(boolean):以饼图的形式展示其占比。
  4. 针对混合型(探查到含有2种或以上类型):以饼图的形式展示各值类型占比。提醒用户当前列存在脏数据,若是脏数据被订正之后,我们就会按照上述3种情况来展示值分布。
  5. 针对空值(null),我们会标红预警。

针对详细模式

详细模式是为用户提供的深度探查功能,可以查看数据的统计信息等。我们以弹窗的形式,智能展示每列数据的字段名、字段类型等探查结果。

  1. 针对字符串类型(string)和日期型(date):展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5。
  2. 针对数字型(integer/float):展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、统计信息、以及直方图。
  3. 针对布尔型(boolean),其中字符型中的true/false、数字型中的0/1会被识别为布尔型:展示字段个数、唯一值、零值、空值率等基本信息、重复值Top5、以及饼图分布。
  4. 针对混合型:展示字段个数、唯一值、有效值、空值率等基本信息和重复值Top5,以及各数据类型占比的饼图。

打开方式

数据探查概览模式有2种打开方式:
(1)从DataStudio跳转过来直接展示探查结果;
(2)自助点击「数据探查」按钮展开探查结果。
注:数据探查不会影响excel中数据,探查完数据,点「关闭」按钮收起,即可继续使用excel ToolBar。

详细模式打开方式是从概览模式右上角【详细模式】进入。

关键点演示

(1)从DataStudio跳转过来打开;
弹外跳转8.gif

(2)菜单栏点击数据探查按钮打开;
2数据探查 菜单栏打开.gif

(3)智能图表推荐、编辑刷新;
3数据探查 编辑刷新、智能图表推荐.gif

(4)数据筛选、直方图动态分桶、多级下钻;
数据探查筛选和下钻.gif

后续Action

  1. 优化数据统计分析能力,提供更加全面的数据统计信息,帮助您得到您最想要的信息。
  2. 针对您的反馈,进一步完善我们的数据探查。

尾声

知识点

数据探查是数据质量和数据决策非常重要的一个环节,也是决定最后数据正确性非常关键的一步!
精确的数据探查,可以帮助您更好地了解源数据的局限性、更好地进行数据清洗、更好地掌控开发时间表!

想要快速掌握您的数据情报,就来数据分析和我们一起探查吧!

希望您会喜欢我们的数据探查!如有意见建议,欢迎留言,也欢迎找我们分享或吐槽。感谢!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
目录
相关文章
|
11天前
|
数据挖掘 PyTorch TensorFlow
|
27天前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
148 54
|
10天前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
24 5
|
30天前
|
存储 数据挖掘 数据处理
DataFrame探索之旅:如何一眼洞察数据本质,提升你的数据分析能力?
【8月更文挑战第22天】本文通过电商用户订单数据的案例,展示了如何使用Python的pandas库查看DataFrame信息。首先导入数据并使用`head()`, `columns`, `shape`, `describe()`, 和 `dtypes` 方法来快速概览数据的基本特征。接着,通过对数据进行分组操作计算每位顾客的平均订单金额,以此展示初步数据分析的过程。掌握这些技能对于高效的数据分析至关重要。
30 2
|
11天前
|
机器学习/深度学习 数据挖掘 TensorFlow
从数据小白到AI专家:Python数据分析与TensorFlow/PyTorch深度学习的蜕变之路
【9月更文挑战第10天】从数据新手成长为AI专家,需先掌握Python基础语法,并学会使用NumPy和Pandas进行数据分析。接着,通过Matplotlib和Seaborn实现数据可视化,最后利用TensorFlow或PyTorch探索深度学习。这一过程涉及从数据清洗、可视化到构建神经网络的多个步骤,每一步都需不断实践与学习。借助Python的强大功能及各类库的支持,你能逐步解锁数据的深层价值。
23 0
|
21天前
|
SQL 数据挖掘 Serverless
SQL 窗口函数简直太厉害啦!复杂数据分析的超强利器,带你轻松攻克数据难题,快来一探究竟!
【8月更文挑战第31天】在数据驱动时代,高效处理和分析大量数据至关重要。SQL窗口函数可对一组行操作并返回结果集,无需分组即可保留原始行信息。本文将介绍窗口函数的分类、应用场景及最佳实践,助您掌握这一强大工具。例如,在销售数据分析中,可使用窗口函数计算累计销售额和移动平均销售额,更好地理解业务趋势。
33 0
|
21天前
|
SQL 数据可视化 数据挖掘
SQL 在数据分析中简直太牛啦!从数据提取到可视化,带你领略强大数据库语言的神奇魅力!
【8月更文挑战第31天】在数据驱动时代,SQL(Structured Query Language)作为强大的数据库查询语言,在数据分析中扮演着关键角色。它不仅能够高效准确地提取所需数据,还能通过丰富的函数和操作符对数据进行清洗与转换,确保其适用于进一步分析。借助 SQL 的聚合、分组及排序功能,用户可以从多角度深入分析数据,为企业决策提供有力支持。尽管 SQL 本身不支持数据可视化,但其查询结果可轻松导出至 Excel、Python、R 等工具中进行可视化处理,帮助用户更直观地理解数据。掌握 SQL 可显著提升数据分析效率,助力挖掘数据价值。
26 0
|
1月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
44 2
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
|
1月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
52 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析

热门文章

最新文章