阿里云ACP大数据分析师 | 笔记纪要

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
对象存储 OSS,20GB 3个月
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 阿里云ACP大数据分析师 | 笔记纪要

分析报告 5 大部分

  • 目标与背景
  • 发现与结论
  • 推荐与建议
  • 具体数据分析结果与阐述
  • 附件

数据聚合时如果数据质量无控制

将会导致计算时成倍的放大或重复相关的数据


使用 MAXCompute ,处理统计模型脏数据问题

在数据项目的执行流程中属于 项目设计阶段 :对承担的任务设计具体实施的方法


在信用卡公司的客户信息中,客户什么信息最敏感

在地址、年龄、性别、婚姻状况中 年龄数据较为敏感


不同年龄具备不同的社会特征,也具有不同的资金需求,通过年龄分析可以更好的分开层次,不同年龄的特征更明显,所以年龄相对于其他更为敏感


大数据存储技术,最典型的三种路线

  • MMP 架构的新型数据库集群

       MMP 架构采用高效的分布式计算模式,具有高性能和高扩展的特点

  • 基于 HADOOP 的技术扩展和封装

       HADOOP 平台擅长处理非结构化、半结构化数据、复杂的 ETL 流程、复杂的数据挖掘和计算模型

  • 大数据一体机

      大数据一体机由一组焦成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成

按照指标所反映总体现状的数量特性,可以分为:数量指标与质量指标

质量指标是反映生产效果或工作质量的总量指标


它的数值是表明事务质的属性的量


结构化、非结构化、半结构化、关系型数据

  • 结构化数据

      关系型数据库数据

  • 非结构化数据

       数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据

  • 半结构化数据

      在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中

  • 关系型数据

      以关系数学模型来表示的数据。关系数学模型中以二维表的形式来描述数据。

OSS 对象存储、Mysql、Hbase、MongoDB

对于存储大量图片和视频信息,OSS 对象存储显然更合适,Mysql 适合结构化数据,Hbase 适合 NoSql 多版本数据松散存储,MongoDB 适合用于 json 存储


SQL 中的 truncate 、into 、delete、drop

  • truncate

    清空表数据,保留表结构,不可回滚

  • into

    追加写入

  • delete

    完整删除表,但可回滚

  • drop

    完整删除表,不可回滚

折线图、散点图、柱状图、饼图直方图(Histogram)

  • 折线图

通过折线显示数据变化趋势,可显示最时间而变化的连续数据。适合分析和显示在相对时间间隔下数据的趋势走向

  • 散点图

展示数据的相关性和分布关系,是以一个变量为横纵标,另一个变量为纵坐标,表示因变量随自变量变化的大致趋势

  • 柱状图

显示一段时间内数据变化或各项之间的比例

  • 直方图(Histogram)

又称质量分布图

是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。一般用横轴表示数据类型,纵轴表示分布情况。所以可以使用直方图展示

  • 饼图

展示数据中的各项大小、与各项总和的比例

机器学习不适合创造新事物

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。


专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。


机器学习是建立在已有的海量数据基础上,经过不断的机器自主学习,实现机器模拟人脑、模拟算法等等,所以机器学习需要数据支持,而创造新事物是无中生有,不适合机器学习


宏代码编程

计算机科学里的宏(Macro),是一种批量批处理的称谓。用于说明某一特定输入,如何根据预定义的规则转换成对于的数据,测试出运行效果


云计算与中小型企业

中小型企业不适合购买大量的服务器并进行大量人员投入进行设备的维护工作,所以中小型企业适合购买云服务,节省服务器运维、安装等成本的投入


实现决策树的算法:ID3

决策树是一种十分常用的基于规则等有监督学习算法。ID3 是一种经典的实现决策树的算法。ID3 算法在进行特征选择时选用的优先分枝指标是:信息增益


键值存储数据库、文档型数据库、列族数据库、图形数据库

  • 键值(Key-Value)存储数据库

键值数据库适用于那些频繁读写,拥有简单数据模型的应用。键值数据库中存储的值可以是简单的标量值,如整数或布尔值,也可以是结构化数据类型,比如列表和 JSON 结构

  • 文档型数据库(document databases)

文档型数据库按照灵活性的标准设计。如果一个应用程序需要存储不同的属性以及大量的数据,那么文档数据库将会是一个很好的选择。

  • 列族数据库(column family database)

列族数据库被设计应用于大量数据的情况,它保证了读取和写入的性能和高可用性。

  • 图形数据库(graph database)

图形数据库非常适合表示网络实体连接等问题。评估图形数据库有效性的一种方法是确定实例和实例间是否存在关系

数据质量维度

  • 完整性 bai Completeness

度量哪些数据丢失了或者哪些数据不可用。

  • 规范性 Conformity

度量哪些数据未按统一格式存储。

  • 一致性 Consistency

度量哪些数据的值在信息含义上是冲突的。

  • 准确性 Accuracy

度量哪些数据和信息是不正确的,或者数据是超期的。

  • 唯一性 Uniqueness

度量哪些数据是重复数据或者数据的哪些属性是重复的。

  • 关联性 Integration

关联性用于度量哪些关联的数据缺失或者未建立索引。

  • 时效性

数据随时间的完整变化过程数据。

Apriori、K-means、逻辑回归、线性回归算法、支持向量机

  • Apriori 算法


第一个关联规则挖掘算法,也是最经典的算法。它利用逐层搜索的迭代方法找出数据库中项集的关系,以形成规则,其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。


  • k 均值聚类算法(k-means clustering algorithm)


一种迭代求解的聚类分析算法,其步骤是预将数据分为 K 组,则随机选取 K 个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。


  • 逻辑回归算法


就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。主要应用于预测场景。


  • 线性回归算法


人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算回归到真实值,线性回归是一次函数。


  • 支持向量机(Support Vector Machine, SVM)


一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier,其决策边界是对学习样本求解的最大边距超平面(maximum—margin hyperplane)


聚类分析、非球形聚类算法

  • 聚类分析

将数据对象的集合分组为由类似的对象组成的多个类的分析过程;

  • 非球形聚类算法

自动检测数据中的任意形状类。最具代表性的非球形聚类算法是 DBSCAN 算法。层次聚类,是一种很直观的算法。顾名思义就是要一层一层地进行聚类,可以从下而上地把小的 cluster 合并聚集,也可以从上而下地将大的 cluster 进行分割;

  • K-means
  • 更为常用的聚类方法之一,尽管它有着很多不足,但是它有着一个很关键的优点:快,K-means 的计算复杂度只有 O(tkn),t 是迭代次数,k 是设定的聚类数目,而 n 是数据量,相比起很多其它算法, K-means 算是比较高效的。距离公式选择有欧式距离、曼哈顿距离、海明距离、切比雪夫距离、马氏距离和余弦距离等;

每种算法只有聚类与之相适合的数据集时才能形成比较理想的聚类结果,而且聚类结果的质量很难定量评估虽然已经提出一些聚类质量评估的方法,但是这些评估方法却不能与聚类算法有机结合,并指导聚类算法进行调整和更新以产生更好的聚类结果。在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用 n 行 n 列的矩阵形式来表


RandomForest、Adaboost、gbdt、XGBoost

  • RandomForest


集成学习(Ensemble)思 想、自助法(bootstrap)与bagging 集成学习(ensemble) 思想,是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整合起更多的模型,取长补短,避免局限性。


随机森林就是集成学习思想下的产物,将许多棵决策树整合成森林,并合起来用来预测最终结果。


  • Adaboost


一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器) 。


  • gbdt


全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一


  • XGBoost


是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。


双样本假设检验

双样本假设检验用于检验两个研究样本所属的总体是否存在显著性差异,或者检验它们是否来自同一分布总体。


检验的零假设为:在给定的显著水平上两个样本 所来自的总体不存在显著性差异。


深度学习、决策树(Decision Tree)、关联分析、聚类分析

  • 深度学习


是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。


它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。


深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。


  • 决策树(Decision Tree)


是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。


由于这种决策分支画成图形很像一棵树的枝干,故称决策树。


在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。


Entropy=系统的凌乱程度,使用算法 ID3, C4.5 和 C5.0 生成树算法使用熵。这一度量是基于信息学理论中熵的概念。


  • 关联分析


又称关联挖掘


就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。


  • 聚类分析


将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。


它是一种重要的人类行为。


外键与 RDS

在 RDS(关系型数据库)中:外键在表中必须非空且唯一


针对 MaxCompute 不成立


统计指标的构成要素

  • 指标名称(内容)
  • 计量单位
  • 计算方法(常以隐匿的形式出现)
  • 时间范围
  • 空间范围
  • 指标数值

程序命名常见方式

  • 驼峰命名法

混合使用大小字母构成变量和函数名字

  • 帕斯卡(pascal)命名法

与驼峰命名法相似,只不过首字母需要大写

  • 匈牙利命名法

通过在变量名前面加上相应的 小写字母 的 符号标识 做为前缀,标识变量类型、作用域等信息。

  • 下划线命名法

下划线分割小写字母方式命名

举例:01_ABC_Data_Extraction.sql


01:运行顺序


ABC:程序名称缩写


Data_Extraction:程序功能


ETL 中的数据抽取

数据抽取分为:实时抽取、批量抽取,对于历史数据无需在系统进行实时提取,可以在业务不繁忙的工作时间进行。


SMART 原则

( S=Specific M=Measurable A=Attainable R-Relevant T=Time-bound )


是为了利 于员工更加明确高效地工作,更是为了管理者将来对员工实施绩效考核提供了考核目标和考核标准,使考核更加科学化、规范化,更能保证考核的公正、公开与公平。


  • 绩效指标必须是具体的(Specific)

s 代表具体(Specific),指绩效考核要切中特定的工作指标,不能笼统;

  • 绩效指标必须是可以衡量的(Measurable)

M 代表可度量(Measurable),指绩效指标 是数量化或者行为化的,验证这些绩效指标的数据或者信息是可以获得的;

  • 绩效指标必须是可以达到的(Attainable)

A 代表可实现(Attainable),指绩效 指标在付出努力的情况下可以实现,避免设立过高或过低的目标;

  • 绩效指标是要与其他目标具有一定的相关性(Relevant),

R 代表相关性(Relevant),指绩效 指标是与工作的其它目标是相关联的;绩效指标是与本职工作相关联的;

  • 绩效指标必须具有明确的截止期限(Time-bound)

T 代表有时限(Time-bound),注重完成绩效指标的特定期限。

MacCompute 表的生命周期

MaxCompute 表的生命周期(LIFECYCLE)


指表(分区)数据从最后一次更新的时间算起,在经过指定的时 间后没有变动,则此表(分区)将被 MaxCompute 自动回收。这个 指定的时间 就是生命周期。


生命授权单位:days(天),只接受正整数。


项目前分析

项目前分析是全部项目评估中最重要的一个部分。


广义的项目前评估是指在项目前期决策阶阶段,从整个项目全局出发,根据国民经济和组织发展的需要对项目及其被选方案所进行的全面评估,从而辨别项目及其被选方案的可行和优劣,决定取舍。


项目前评估也可以根据评估主休的不同而分成项目业主的评估、贷款银行审查贷款项目的评价和承包商投标项目前的评估等。


总之,项目前就是在项目的投资决策之前,对项目的必要性和项目备选方案的技术、经济、运行条件和社会与环境影响等方面所进行的全面论证与评估的工作。


主要特点是:


  • 先行性
  • 预测性
  • 决策性

数据分析师接受一个分析项目后


首先需要理解项目的


  • 目标
  • 背景
  • 范围

然后开始设计分析步骤


项目目标确认顺序

  • 项目情况分析
  • 项目问题界定
  • 确定项目目标因素
  • 建立项目目标体系
  • 各目标的关系确认

RDS 三范式

  • 第一范式(INF)


无重复的列,保证每列的原子性,即每一列的各个属性值之间不能有相同部分,比如地址可以进一步拆分为国家省份城市三列,可以理解为列不可拆分;


  • 第二范式(2NF)


属性完全依赖于主键[消除部分子函数依赖],不满足时垂直拆分为一张新表。


保证一张表只描述一件事情,即一个关系;


  • 第三范式(3NF)


属性不依赖于其它非主属性[消除传递依赖]


大数据质量问题出现的原因

(1)国家标准中的数据质量评价指标


a. 目前为止,最权威的标准是由全国信息技术标准化技术委员会提出的数据质量评价指标(GB/T36344-2018 ICS 35.24.01),它包含以下几个方面:


  • 规范性


指的是数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。例如 GB/T 2261.1-2003 中定义的性别代码标准是 0 表示未知性别,1 表示男,2 表示女,9 表示未说明。GB 11643-1999 中定义的居民身份证编码规则是 6 位数字地址码,8 位数字出生日期码,三位数字顺序码,一位数字校验码。


  • 完整性


指的是按照数据规则要求,数据元素被赋予数值的程度。例如互联网+监管主题库中,监管对象为特种设备时,监管对象标识必须包含企业统一社会信用代码+产品品牌+设备编码,监管对象为药品时,监管对象标识必须包含药品名称+批准文号+生产批号。


  • 准确性


指的是数据准确表示其所描述的真实实体(实际对象)真实值的程度。例如互联网+监管行政检查行为中的行政相对人为公民时,证件类型和证件号码只能是身份证号码。


  • 一致性


指的是数据与其它特定上下文中使用的数据无矛盾的程度。例如许可证信息与法人基础信息是否一致,检查计划与检查记录是否匹配。


  • 时效性


指的是数据在时间变化中的正确程度。例如企业住址搬迁后,企业法人库中的住址是否及时更新了。营业执照已经办理,许可照办理时是否可以及时获取到营业执照信息。


  • 可访问性


指的是数据能被访问的程度。


b. 除此之外,还有一些业内认可的补充指标,并且在质量工作的实际开展中,可以根据数据的实际情况和业务要求进行扩展,例如:


  • 唯一性


描述数据是否存在重复记录(国标归在准确性中)。


  • 稳定性


描述数据的波动是否是稳定的,是否在其有效范围内。


  • 可信性


描述数据来源的权威性、数据的真实性、数据产生的时间近、鲜活度高。


(2)数据质量问题出现的原因


数据质量的技术因素:

  • 数据标准制定的质量问题


数据输入规范不统一,不同的业务部门、不同的时间、甚至在处理相同业务的时候,由于数据输入规范不同,造成数据冲突或矛盾。如果在数据的生成过程中包含主观判断的结果,必然会导致数据中含有主观的偏见因素。并且,不是所有行业都有公认可信的数据标准,而组织标准制定过程中容易出现数据元描述及理解错误,代码码集定义不正确、不完整等情况。


  • 数据模型设计的质量问题


由于对业务理解的不到位或技术实践水平不到位,数据库表结构、数据库约束条件、数据校验规则的设计不合理,造成数据存储混乱、重复、不完整、不准确。


  • 数据源本身存在质量问题


在生产系统中有些数据就存在不规范、不完整、不准确、不一致等问题,而采集过程没有对这些问题做清洗加工处理,或清洗加工的程序代码不正确。


  • 数据梳理过程的质量问题


在数据采集之前,需要梳理组织机构、业务事项、信息系统、数据资源清单等信息,那么对业务的理解不到位,将造成梳理报告的不完整或不正确。


  • 数据采集过程的质量问题


采集点、采集频率、采集内容、映射关系等采集参数和流程设置的不正确,数据采集接口效率低,导致的数据采集失败、数据丢失、数据映射和转换失败。


  • 数据清洗加工的质量问题


数据清洗规则、数据转换规则、数据装载规则配置有问题,甚至未按照数据标准开展相应的清洗加工工作,自由发挥的空间过大。并且在数据汇聚的过程中,没有及时建立数据的相关性,导致后期很难补充完善。


b. 数据质量的业务因素:


  • 业务理解不到位


数据的业务描述、业务规则、相关性分析不到位,导致技术无法构建出合理、正确的数据模型。


  • 业务流程的变更


业务流程一变,数据模型设计、数据录入、数据采集、数据传输、数据清洗、数据存储等环节都会受到影响,稍有不慎就会导致数据质量问题的发生。


  • 数据输入不规范


常见的数据录入问题,如:大小写、全半角、特殊字符等一不小心就会录错,甚至还会将数据输入到错误的字段中,造成“张冠李戴”。人工录入的数据质量与录数据的业务人员密切相关,录数据的人工作严谨、认真,数据质量就相对较好,反之就较差。


  • 业务系统烟囱林立


过去 20 年中,只要是稍大一点的企业和政府部门,都建设了一批信息化系统来解决业务问题,但也导致了如今信息化整合的痛点和困难,变先发优势为数据困境。


  • 数据作假


操作人员为了提高或降低考核指标,对一些数据进行处理,使得数据真实性无法保证。


c. 数据质量的管理因素:


  • 人才缺乏


组织以自身的业务发展的主要原则组建团队,数据建设则依赖于外部服务公司,而自身没有建立相应的管理手段和监督机制,从而无法准确判断数据项目的建设成效。


  • 流程管理不完善


缺乏有效的数据质量保障机制和问题处理机制,数据质量问题从发现、指派、处理、优化没有一个统一的流程和制度支撑,数据质量问题无法闭环。


  • 成员意识不开放


组织管理缺乏数据思维,没有认识到数据质量的重要性,重系统而轻数据,认为系统是万能的,数据质量差些也没关系。组织成员没有从组织战略的视角来看待数据资产,而把数据看成是创造它的部门的资产,从而导致数据冗余、数据不一致、数据割裂,从而导致数据价值难以发掘。


  • 奖惩机制不明确


没有明确数据归口管理部门或岗位,缺乏数据认责机制,出现数据质量问题找不到权威源头或找不到负责人。缺乏数据规划,没有明确的数据质量目标,没有制定数据质量相关的政策和制度。


(3)如何解决质量问题


a. 事前预防


  • 制定质量管理机制


基于数据管理的复杂性和诱因的多重性特点,解决数据质量问题仅仅依靠一个技术工具是不够的,我们需要建立长效工作机制。即根据组织特点,制定符合自身环境的工作制度,制定每个环节的工作流程,规定各个参与方的责任,确定各项数据的权威部门,制定数据质量指标,制定数据质量修复流程等等。


  • 制定数据质量标准


数据标准成功定义的与否,直接决定了大数据建设的成果和数据质量的高低,需要在融合国家标准、行业标准和地方标准的基础上,融合组织自身的业务特色需求。


  • 制定质量监测模型


数据质量模型代表的是业务需求,它是从业务需求的角度而描述出来的质量需求。


  • 制定质量监测规则


数据监测规则代表的具体的质量检测手段,它是从技术角度来描述数据质量要求是如何被满足的,包括规范性、完整性、准确性、致性、时效性、可访问性,等等。


b. 事中监控


  • 监控原始数据质量


数据采集工作从数据源头获取最原始的数据,在数据采集过程中将数据分为“好数据”“坏数据”,“好数据”入库,“坏数据”则反馈给源头修复,因为数据来源部门最懂这些数据,也最能在源头上把数据问题彻底修复掉。


  • 监控数据中心质量


经过各种采集、清洗、加工过程,数据被存入数据仓库中,这些数据也将被业务部门使用,所以,对于这些成果数据的质量监控和修复则犹为重要。对于这类数据问题,我们可能使用简单的空值检查、规范性检查、值域检查、逻辑检查、一致性检查、等等规则就可以检查出来,也可能需要诸如多源比较、数据佐证、数据探索、波动检查、离群检查等等方法才可以检查出来。


  • 反馈数据质量问题


数据质量监控过程中,会发现两类问题,一类是源头的数据质量问题,一类是数据中心的数据质量问题,数据质量团队需要将这些问题及时反馈给源头部门和数据仓库建设团队。


  • 考核数据质量考核


数据质量的考核是为了能够引起各个参与部门和参与团队对数据质量的重视,需要及时统计分析各种数据质量问题,并制定出相应的应对措施。


c. 事后改善


  • 修复数据质量问题


发现质量问题不是最终的目标,我们仍要建立相关的流程和工具,通过手工、工单、自动化等等手段将质量问题修复掉,从而为业务创新提供可靠的数据支撑。


  • 收集数据质量需求


通过数据中心的建设,质量问题的修复,必然能够促进数据的应用,我们仍要建立通畅的数据质量反馈通道,让各个部门参与到数据质量的再次完善中来,从而形成建设、应用和反馈的良性循环。


  • 完善质量管理制度


制度和流程的建设并不是一蹴而就的,我们要在数据建设和质量完善的过程中,结合自身组织结构和业务特色,不断完善工作制度。


  • 完善数据质量标准


各行各业不断涌现新的业务形态,原有的业务也在不断的变化,我们要紧跟业务的变化,不断完善符合业务需求的数据标准。


  • 完善质量监测模型


如前所述,监测模型代表的业务需求,业务形态的变化、数据标准的变化和质量新需求的出现,同样要求监测模型能够做出相应的变化。


  • 完善质量监测规则


同样,如今的信息化技术发展日新月异,我们要不断引入各种新技术来更加智能地发现和修复数据质量问题。


指标体系 (与 26 点 SMART 原则 联系)

指标体系:是指由若干个反映社会经济现象总体数量特征的相对独立又相互联系的统计指标所组成的有机整体。


在统计研究中,如果要说明总体全貌,那么只使用一个指标往往是不够的,因为它只能反映总体某一方面的数量特征。这个时候就需要同时使用多个相关指标了,而这多个相关的又相互独立的指标所构成的统一整体,即为指标体系


双尾显著性检验

双尾显著性检验:事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理


即判断总体的真实情况与原假设是否有显著性差异。


MapReduce 中的 Map 任务

map 处理任务的工作和作用:


读取输入文件,把每一行解析成键值对(注意键值对 key 的值,行号),每一个键值对调用一次 map 函数

对传入的键值对,覆盖 map 函数,实现自己的逻辑,处理键值对,输出新的键值对逻辑程序员自己实现,注意上下文变量),每一行产生新的键值对;

对键值对进行分区,根据键值对分区(key)(目前所有的键值对在一个区)

对不同的分区数据排序分组,把相同 key 的 value 方法放入一个集合中综上所属 map 阶段不进行聚合计算任务。

关联分析中的置信度

置信度:表示当 A 项出现时 B 项同时出现的频率,记作(A—>B。


换言之,置信度指同时包含 A 项和 B 项的交易数与包含 A 项的交易数之比。


公式表达:根据公式可知如果 A的支持度项集越高置信度不一定越高。若 A 的交易数很高,置信度恰好越低


MapReduce 中的 NameNode

NameNode主要进行执行的控制工作,不进行实际的工作,聚合操作也在 DataNode 中进行。


具体如下:


NameNode 主要功能


接受客户端的读写服务


NameNode 保存 metadata 信息


文件 owership 和 permissions


文件包含哪些块


Block 保存在那个 DataNode 上


(DameNode 启动的时候主动把 block 汇报给 NameNode)。


NameNode 的 metadata 信息会在启动后加载到内存中


metadata 存储到磁盘文件名为“fsimage”


(做持久化操作,存储文件 owership 和 permissions 和文件包含哪些块)


Block 的位置信息不会保存到 fimage


edits(日志)记录对 metadata 的操作日志中


(在持久化操作的间隔中使用的)


分析报告

分析报告:根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的


  • 现状
  • 问题
  • 原因
  • 本质
  • 规律

并得出结论,提出解决办法的一种分析应用文体。


通过对数据数据全方位的科学分析来评估其环境及发展情况


为决策者提供科学、严谨的依据,降低风险。


所以既然要出一份分析报告,分析报告中需要具备的要求是必不可少的。


  • 目的
  • 发现
  • 结论
  • 建议

数据分析师接受一个分析项目后,首先需要理解项目的目标、背景和范围,然后开始设计分析步骤


决策树拟合不足的原因

模型拟合不足的问题是因为:


训练误差和验证误差都很大,这种情况称为欠拟合。


出现欠拟合的原因是模型尚未学习到数据的真实结构。


因此,模拟在训练集和验证集上的性能都很差。


数据质量管理(Data Quality Management)

数据质量管理(Data Quality Management) 是指:


对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。


方便非结构化数据检索办法

非结构化数据像图片、声音、视频等等。


这类信息我们通常无法直接知道他的内容,数据库也只能将它保存在一个 BLOB 字段中,对以后检索非常麻烦。


一般的做法是:建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob) 。引用通过编号,检索通过内容描述。还有很多非结构化数据的处理工具,市面上常见的内容管理器就是其中的一种


可视化报表需要具备的条件

  • 可读性
  • 精准性
  • 客观性
  • 统一性

将项目维度和KPI 计算相关的属性列聚合

将所有与分析项目维度和KPI 计算相关的属性列聚合到一张数据表(“分析用数据表)里方便:


  • 不同维度的 KPI 开发
  • 符合数据仓库架构设计
  • 准确率与召回率
  • 准确率


准确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,


  • 一种就是把正类预测为正类(TP)


  • 另一种就是把负类预测为正类(FP)


召回率


召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。


那也有两种可能,


  • 一种是把原来的正类预测成正类(TP)


  • 另一种就是把原来的正类预测为负类(FN)


回归模型中的最小二乘法

回归模型是一种常用的预测算法,可以使用最小二乘、梯度下降等方法来求解。


  • 最小二乘法的原理


  • 使用偏导数来求极,


  • 梯度下降法的原理


  • 通过迭代求解最优解


最小二乘法被称为最优的估计,这种最优指的是:


  • 最优的线性估计
  • 最优的无偏估计

连续数据离散化

连续数据离散化就是在数据的取值范围内,设定若干个离散的划分点将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。


Hadoop 核心组件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EdheA00D-1637568011693)("/images/ACPUntitled.png")]


OLAP 功能

切片和切块(Slice and Dice)


切片和切块是在维上做投影操作


  • **切片:**在多维数据上选定一个二维子集的操作,即在某两个维上取一定区间的维成员或全部维成员,而在其余的维上选定一个维成员的操作。


维:是观察数据的角度,那么切片的作用或结果就是舍弃一些观察角度,使人们能在两个维上集中观察数据。


因为人的空间想象能力毕竟有限,一般很难想象四维以上的空间结构,所以对于维数较多的多维数据空间,数据切片是十分有意义的.


  • 钻取(Drill)


钻取有**向下钻取(Drill Down)和向上钻取(Drill up)**操作。


**向下钻取:**使用户在多层数据中展现渐增的细节层次,获得更多的细节性数据。


**向上钻取:**以渐增概括方式汇总数据(例如,从周到季度,再到年度)。


  • 旋转(Pivoting)


通过旋转可以得到不同视角的数据旋转操作相当于在平面内将坐标轴旋转


例如:旋转可能包含了交换行和列,或是把某一个行维移到列维中去,或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)


SQL JOIN:INNER、LEFT、RIGHT、OUTER、LEFT、RIGHT、OUTER 差异

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-125KRMM9-1637568011695)(/Users/uiu/Documents/Article/Articles/Images/ACPUntitled1.png)]


HDFS 元数据存放目录

**HDFS 的元数据(Metadata)**采用


元数据镜像文件(FSlmage)

日子文件(edits)

的备份机制


总体均值置信区间的宽度

对于一组给定的样本数据


其平均值为u,标准偏差为δ


则:


整体数据的平均值

100(1-α)%

置信区间

(u-Zα/2δ , u+Zα/2δ)

标准化系数

z-score=(X-U)/STD,即标准化系数


要体现多个因素 x 对 y的影响,需要按照统一标准对数据进行标准化后 Beta 估算值才具有比较的意义。标准化只会改变回归函数里的系数,回归分析后面需要做假设检验,做标准化是为了公平的看待每个特征的贡献。


KNN 算法中 k

在 KNN 算法中k的选取非常重要,KNN 分类的准备率对 K 值很敏感。


不同的值有可能带来不同的结果。


如果K 选大了的话,可能求出来的 k 最近邻集合可能包含了太多隶属于其它类别的样本点,不具有代表性,最极端的就是 k 取训练集的大小,此时无论输入实例是什么,都只是简单的预测它属于在训练实例中最多的类,模型过于简单,忽略了训练实例中大量有用信息。


如果 K选小了的话,结果对噪音样本点很敏感。在实际中,一般采用交叉验证(一部分样本做训练集,一部分做测试集)或者依靠经验的方法来选取 k 值。k 值初始时取一个比较小的数值,之后不断来调整 K 值的大小来使得样本分类最优,最优时的 K 值即为所选值。


k 值一般为奇数。


有一个经验规则:k 一般低于训练样本数的平方根



相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
10天前
|
存储 人工智能 数据管理
|
3天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
9天前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
35 4
|
17天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
17天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
55 2
|
2月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据生态圈体系
阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。
84 18
|
12天前
|
SQL 存储 分布式计算
阿里云 Paimon + MaxCompute 极速体验
Paimon 和 MaxCompute 的对接经历了长期优化,解决了以往性能不足的问题。通过半年紧密合作,双方团队专门提升了 Paimon 在 MaxCompute 上的读写性能。主要改进包括:采用 Arrow 接口减少数据转换开销,内置 Paimon SDK 提升启动速度,实现原生读写能力,减少中间拷贝与转换,显著降低 CPU 开销与延迟。经过双十一实战验证,Paimon 表的读写速度已接近 MaxCompute 内表,远超传统外表。欢迎体验!
|
2月前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
171 19
|
2月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
大数据 网络安全 数据安全/隐私保护
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
164 5