开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):数据采集(一)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19260
数据采集(一)
内容介绍:
一、数据采集
二、数据采集的定义和常用方法
一、数据采集
1.课程目标
学习完本课程后,你将能够:
区分结构化数据、非结构化数据、半结构化数据并能将实际的数据进行归类
根据数据的类别和目标,采取的数据采集的方式
针对错误数据、重复数据、缺失数据、不均衡数据集等类型采取对应的数据预处理方法
使用常用的数据标准化技术(如 min-max 和 z-score)进行数据标准化处理
能够使用常用的数据编码技术(如 label 编码和独热编码)进行数据编码
使用常用的绘图库(如 Matplotlib) 绘制各种数据可视化图表(如直方图、折线图、散点图、饼状图、箱线图)
区分图像类、文本类、语音类数据的标注方法,并能够使用常用的数据标注工具(如机器学习 PAI.iTAG)进行数据标注(如目标检测标注)
2.提问
在学习数据采集之前,我们先来了解“什么是数据?“
能否列举出日常生活中接触到数据?
生活中的数据
(1)教育:班级学生名单、课程列表、学科成绩
常见数据
(2)电商:服装价格、服饰品类、商品点击率
3.数据的定义
数据(data)
事实或者观察的结果,客观事物的逻辑归纳
用于表示客观事物的未经加工的原始素材
示例: 12瓶饮料
数据是对客观事件进行记录并且可以鉴别的符号,也是对客观事物的性质、状态以及相互关系等进行记录的物理符号,或是这些物理符号的组合。它是可以抽象的一些符号,比如今天买了12瓶饮料,12瓶实际上就是对饮料这一客观事实状态进行记录的符号。
不仅指狭义上的数字,也指具有一定意义的文字、字母、数字符号的组合;
示例: 猫狗的图片、书籍、音乐
比如图像,视频,音频等都属于数据。
客观事物的属性、数量、位置及其相互关系的抽象表示。
示例:牡丹花是我国特有的木本名贵花卉,其花色艳丽,带有淡的清香
这条数据体现了客观事物的属性和关系的,比如在这条数据里面就体现了牡丹花和我国之间的相互关系,牡丹花是我国特有的一种花卉,同时还体现了牡丹花的一些属性,比如花色是比较艳丽的,而且带有淡淡的清清的花香,都是一个属性数据,实际上指的是一切能够输入计算机中并且能够被计算机程序所处理的符号总称,具体的来说数据就是可用于输入计算机并进行处理的数字、字母符号和各种模拟量,那这些数据他在计算机系统当中,都是以二进制的信号单元,零一形式进行表示,随着计算机能够存储和处理的对象越来越广泛,数据也变得越来越复杂。
在计算机科学与技术领域中,数据是指一切能够输入计算机中,且能被计算机程序所处理的符号的总称。
4.数据类别——按字段分类
按照字段类型分类是最基本的数据分类方式。
文本类
用于描述性字段;非量化值,不可直接用于运算。
8月10日
时间类
用于描述事件发生的时间;可直接用于运算。
8/10
数值类
用于描述可量化属性/编码操作;可直接用于运算。
44783
数据分类有两种不同的分类方式,一种是按照字段进行分类,按照字段进行分类的方法是最基本的数据分类方式,按照字段进行分类所有的数据可以分为三个类别,文本类数据、时间类数据和个数值类的数据,文本类的数据经常是用于描述性的字段,比如个人的姓名、家庭住址、文章摘要等这一类的数据是非量化的值,不可以直接运用在运算当中,比如下面的例子八月十号就是一个文本类的数据,时间类的数据是用于描述事件发生的时间,是一个非常重要的维度,比如当老师安排课程和对应课时的时候,只有确定好时间内的数据才能保证课时的使用不会产生冲突,比如文本类的八月十日信息转换成时间内数据的时候,是 8/10 时间内的数据,是可以直接用于运算的,最后一类的数据是数值类的数据,这一类的数据通常用于描述可量化的一个属性,或者是用于编码操作,比如班级人数、班费金额以及学习成绩等都是属于量化属性,日常计算指标的一个核心字段像成绩排名、座位号这一类的数据是属于编码,这类的数据是作为维度存在,有些时候并没有特别实质性的业务含义,无论是量化属性还是编码都是可以直接用于运算的。
5.数据类别一按数据结构类型分类
按照数据结构类型分类是人工智能领域中较为重要的数据分类方式。
结构化数据
由统一的结构来逻辑表示和存储的数据。
非结构化数据
无预定义数据模型,不可直接用数据库逻辑来表现的数据。
半结构化数据
具有结构化形式,但并不符合数据模型结构。
第二种分类方式是按照数据结构类型进行分类,是人工智能领域当中较为重要的数据分类方式,按照整个数据的数据结构,所有的数据可以分为结构化数据、非结构化数据和半结构化数据。
对于结构化数据而言是指有统一的结构来进行一个逻辑表示和存储的数据,遵守相同的数据格式与数据长度的一个规范,可以通过关系型的数据库进行存储和管理,比如班级成员的成绩表,表单显示可以看到每一列姓名、座位号以及考试成绩这一列,都是遵循相同的规范,就是结构化数据,非结构化数据实际上指的是没有预定义数据模型,数据结构不完整或者不规则,不可以直接用数据库逻辑来表现的这一部分的数据,包括日常生活或者工作中常见的像图像、文本、音频、视频还有 HTML 一类文件,都是按照特定的格式进行编码,整体的数据量非常大而且不能简单的转换成结构化的数据。
最后一种数据结构类型是半结构化数据,是介于结构化与非结构化数据之间的,虽然具有结构化的形式,但并不符合关系型数据库的数据模型结构,指的是一种包含相关标记,以相关标记对字段进行分层,分隔语义元素的一类数据,因此半结构化数据也被称为自描述的结构,半结构化数据通常包括 XML 的文档、JSON 的文件以及 email 和一些日志文件,根据目前整个计算机行业的认知,当前结构化的数据仅仅是占到了全部数据量的20%,其余80%的数据都是以各种文件形式存在的非结构化数据。