数据挖掘概述 -1|学习笔记

简介: 快速学习数据挖掘概述 -1

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践数据挖掘概述 -1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15419


数据挖掘概述 -1

 

内容介绍:

一、课程介绍

二、数据挖掘主要知识点

三、数据挖掘概述

四、数据挖掘出现的因素

五、进化过程

六、总结

 

一、课程介绍

这门课有俩个专业来进行学习,一个是2019级情报学,一个2019级商业分析,一个是选修,一个是必修。这门课程总共两个学分,现在学校非常重视研究生教学排课,不能连续排三节课,四节课一次只能上两节课,所以每周按照两个学时的课程给大家讲解这门课程的教材,建议使用这个经典的数据挖掘教材,数据安全导论,是由范明等翻译,大家根据自己的需要求购买。

 

二、数据挖掘主要知识点

首先是数据挖掘的概述,会给大家讲解数据挖掘的产生背景,数据挖掘的概念,数据挖掘的分类,数据挖掘的应用与发展趋势,然后会介绍数据,数据挖掘的对象是数据,那么会介绍对数据的理解,探索和预处理,然后再加强数据挖掘的各种技术,主要有数据挖掘的分类技术搜集,挖掘的关联机技术和数据挖掘的距离技术,还要讲解文本,挖掘知识,现在的文本数据在生产生活里面站着绝大多数的比例,还有很多企事业单位90%以上的数据都是文本数据。

所以会单独介绍一下文本挖掘技术,另外同学们要注意这门课程的时间也很强,他的概念和理论算法比较抽象,所以一定要通过实践来掌握知识啊,联系实际。这门课我们用的上软件工具,主要是modeler,这个这是内容也是我们考核的范围,另外商业分析的同学还要能够用Python进行数据挖掘的实验,这本教材是数据挖掘与方法应用,如果同学们觉得需要的话,也可以购买一下。

对于商业分析的同学,做实验的时候,使用的是Python的jupyter+notebook的开发环境。

大家对于Python的基础知识,需要去复习。对于商业分析的同学来说,特别是对于scipy,matplotlib、numpy、pandas的几个包,对于数据挖掘的处理非常重要。对于情报学的同学来说,也欢迎使用Python来进行实验。对于情报学的同学,使用另外的包,里面包含了技术挖掘的几大包,用来做分类、聚类、回归等数据挖掘技术。

 

三、数据挖掘概述

数据挖掘的诞生和发展是必然的,主要是由于随着信息化的发展,数据越来越多,社会各行各业的数据挖掘的应用需求也在迅猛增长,同时随着技术的发展,相关的软硬件也越来越强大和便宜,同时与数据挖掘相关的学科的理论和发展第一,数据挖掘的诞生和发展也起到牵引作用,随着信息化的发展,企事业单位存储的数据越来越多,存储数据的度量单位,有这样几个常见的:GB\TB\PB、现在买电脑的话都应该到TB级别。还有其他的一些数据的存储单位,如:EB\ZB\YB\DB\NB。

这每一个存储单位他们的差别都是1024倍,我们现在已经进入到zb时代了,也有统计报道,在2006年全世界的电子数据存储为18万PB,然后随着电子商务,移动互联网,互联网的发展,每年50%速度增长,预计在今年2020年达到35zb,这里面,中国大约占到21%的数量大约是1/5多一点,我们知道,如果是其他资源例如石油资源有过中国的储量占到全球的21%,那同学们会很开心。所以大家可以思考一个这样一个问题,是不是数据越多意味着财富越多?如果大家有兴趣可以探讨一下百度腾讯,阿里从数据的质量和数量的角度来说,哪一个公司更有发展潜力?

那么我们面临着数据非常多,也就是数据爆炸的时代,面临着可怕的数据,那我们怎么办呢?我们望从数据里面去挖掘有价值的是知识,也就是从数据里面去挖掘黄金和钻石,那么有什么办法可以来从数据里面挖掘有价值的知识呢?那当然就要有革命性的方法啊,比如说用机器学习,大数据,还有我们这门课要学的收取挖掘的方法。

那么在学习数据挖掘课程的过程当中,我们对于数据一定要有特别的理解。这个主要体现在思维方式上面要有数据的理念,要有数据驱动的这样一种思考问题的方法,解决问题的方法。我们可以思考这样一个问题,从时代划分来说,目前我们已经是进入到数据时代,也可以说大数据和人工智能时代,那么前一个时代是什么时代呢?是it时代,即信息技术时代,那么从it时代到dt时代那我们应该有哪些转变呢?要有哪些思考呢?

下面大家可以看一段视频:

视频内容:今天电子商务发展起来了,纯电商的时代很快会结束,未来的十年,20年没有电子商务这一说,只有新零售这一说,也就是说线上线下和物流必须结合在一起,才能诞生真正的心灵售物流公司的本质不是不仅仅是要做到谁比谁你做的更快,而物流的本质是真正去消灭库存,原来的房地产模式为主的零售行业一定受到冲击,今天不冲击你活的时间也不会太长,第二个心制造过去的20 30年制造讲究规模化,讲究标准化,未来的30年制造讲究的是智慧化,个性化和定制化,所谓的制造行业零售行业发生变化,原来的b to c的制造模式将会彻底走向c to b的改造,也就是说按需定制,所以我们今天讲的供给侧的改革就是改革自己,适应市场,改自己适应消费者,第三个变革首次为新金融的变革,我过去的200年是28理论,只要支持20%的大企业就能拉动用世界80%的发展,但是未来新金融必须去支持八二理论,如何支持这些80%的中小企业,个性化企业,年轻人,消费者基于数据的信用体系,才能够让全世界产生真正的普惠金融,另外还有一个叫新技术的诞生,原来以PC为主的芯片将会移动芯片以PC为主的系统将会移动的操作系统,原来的机械制造将会变成人工智能,所以你原来的机器吃的是电脑,没有那个机器吃的是吃的是数据,所以未来层出不穷,基于互联网,基于大数据的技术的诞生,这又为人类创造了无数的想象空间啊,还有就是新资源过去的发展是基于石油和煤,未来的发技术的发展,基于新的能源,那就是数据,按照模式讲,数据是人类第一次创造了自己创造的能源创造的资源,衣服人人家穿过你穿就会不值钱,数据是人家用过你用会更挣钱,你用过以后出去会更挣钱,是越用越值钱的东西,所以我希望大家记住这五个星将会冲击我们很多的行业,今天我们先提了,不要20年以后说你们又破坏了我们心零售,新制造,新金融,新技术和新能源。

前面的视频说的很好,我们进入到数据时代以后,我们需要一个新的理念,新的思维方式来武装我们的大脑,也就是数据的理念,数据驱动的思维方式我们下面来给大家讲一下数据理念和数据驱动的思维方式的一些实例,第一个实例是贫困大学生关怀,这是华东师范大学曾经做过的一个数据挖掘项目,也轰动了全国高校,以前对贫困大学生的关怀,可能是需要大学生填表格,然后学生办公室来审批华师大这个项目是通过学生校园卡的消费来判断是否贫困大学生,如果连续一段时间每天消费的金额很少,则学生办公室就会发现这个学生,然后就会主动给予关怀。


四、数据挖掘出现的因素

1.技术的进步

前面给同学们讲述了电子化的数据越来越多,推动了数据挖掘的出现,另外数据挖掘的出现还与技术有很大的关系。

技术也是数据挖掘诞生和发展的一个重要驱动因素,首先数据需要存储,更大,更便宜的存储器不断的升级。

有一个摩尔定律,就是每18个月他的性能增长一倍,价格快速下降。更大更便宜的存储器让越来越多的数据能够存储下来,可以跟后面的数据挖掘所用另一个硬件是很重要的信息处理器,也就是CPU。

CPU更符合了摩尔定律啊,CPU的强大让我们能够处理更复杂的数据,而且它的性价比也越来越好,然后在信息处理器里面,特别要注意一个新的信息处理器,就是gpu,这个g是graphic的意思,也就是图形处理器啊,一般是集成在显卡里面,可以处理大的图形数据啊,在现在很热门的深度学习里面啊,有了gpu,我们就可以进行很复杂的张量计算。

2.应用需求的推动

image.png各行各业需求的发展,更是推动了数据挖掘的发展。很多企事业单位现在的苦恼不是没有数据,是淹没在数据的海洋当中,不能制定合适的决策,就拿我们华东师范大学来说,数据是非常多的,同学们上网通过校园网的留下一些访问日志只能保留60天,因为存储设备不够了,超过60天的数据就删除了。各行各业第一数据挖掘的应用的需求非常多,都希望从数据里面能够发现知识,然后通过知识帮助管理和决策啊,各行各业,包括金融经济以及教育,医疗等等,要从数据里挖掘的知识并不是高大上的概念,是看得见,摸得着的,从数据里面挖掘出来模式,趋势,事实,关系,序列都叫做知识,有了这些知识就可以帮助企事业单位来进行目标市场的选择啊,资金的分配啊,包括在哪儿做广告?包括啊销售的地理位置在哪儿啊?对于这个销售的地理位置是在哪儿?我们可以给大家举个例子啊,如果说大学生想创业去开一个房地产中介门店,那这个中介门店到底该开在哪里呢?地理位置应该放在什么位置呢?传统的思维方式应该选择人流量比较大,小区比较密集,就是方面比较多的位置但是大家如果仔细考虑一下啊,如果我们能够从房地产的垂直网站上面来获得数据,我们知道啊,买房住房的人访问了房产网站,也都留一下剪辑日志,我们通过点击日志的分析挖掘,知道哪些地域,哪些地段啊,点击的房源如何?方圆井机里面也包括了小区的名字,包括点击了什么房型、什么价格,那这样你开的门店除了可以考虑在哪里,你也可以考虑你是做租赁还是做销售,也是做低端房还是做高端房啊,所以大家应该能理解啊,我们如果要能够制定合适的决策啊,数据不缺的,但是我们需要一些革命性的方法,从数据里面分析和挖掘出来知识那个帮助我们进行管理和决策。

3. 应用需求对理论的牵引

数据挖掘的诞生和发展,还受到了学科理论发展的牵引,数据挖掘

与许多学科都有关系。例如与信息科学与数据存储的数据库、数据仓库以及数据可视化,特别是数学统计等等都有巨大的关系,另外还有其他一些学科的数据外流的发展也起到巨大的作用,这个其他学科里面包括了心理学,还有我们所在的经济管理,这样的一些专业知识都对数据挖掘的发展起到推动作用,至于这么一个学科的数据挖掘,具体的详细的牵引和推动到底在哪里?这里不展开论述。这里另外还有一个机器学习第一数据挖掘的作用,这一点的话,后面会解释,这里先简单解释一下。

数据挖掘和积极学习在很多时候可能是混用的,但是我们稍微给他一个区分,数据挖掘主要是用到继续世界的一些技术,如果说计算机专业或者数学统计专业来学习的话,很多是来学机器学习,而经济管理朋友来学的话,可能学数据挖掘,还有数据挖掘就是想起就写的技术,然后应用到我们的经济和管理里面来,然后用这些术从数据里面去探索挖掘知识。

image.png

 

五、进化过程

下面给同学们介绍一下从数据中发现知识的一个进化过程

image.png早期的话,还是从数据里面挖掘数据,后面从数据到信息,然后再发展到数据到知识,也就是他的过程是从数据到信息啊,然后再进一步到知识的一个过程,我们可以用这两个词来给大家区分一下,一个叫后见之明,就是比较滞后的。说的是从数据里面发现知识,发现价值,另外一个叫先见之明,大家要注意这两个术语,把它区别好,那么早期的从数据到数据,从数据到信息,他只是一个后见之明。也就是他只是从历史数据里面去统计分析,看看已经发生了什么,所以叫做后见之明。数据挖掘,能够做到先见之明,因为他能够提供预测性的信息,他能够告诉我未来可以发生什么啊,这是一个非常重要的一个概念,那么也就是说数据挖掘它比前面的从数据到数据,从数据到信息的啊一些简单的分析,也就是只能做到后天,证明他更进一步,他可以做到仙剑经理,这也是这样一个优点,吸引了啊各行各业来使用数据挖掘。

 

六、总结

接下来对学过的知识做一个总结,主要基于四个条件,一个是数据越来越多,一个是业务需求,业务需求需要猛增长,各行各业都需要数据挖掘第三个是技术的发展,让数据存储,数据处理变得性价比很高第四个是其他学科理论的发展为数据挖掘的进一步研究和实现提供了理论基础然后我们又介绍了在数据挖掘的学习程当中,我们要对数据有革命性的理解,主要是有数据的理念和数据驱动的思维方式。最后我们对于数据挖掘和以前的一些数据到信息到知识的进展过程做了一个总结,数据挖掘它主要是解决一个先见之明,他以前的一些统计分析方法主要是对历史数据的分析,看看发生了什么,所以说以后见之明。

相关文章
|
6月前
|
运维 安全 数据挖掘
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
396 0
|
6月前
|
存储 算法 安全
数据仓库与数据挖掘概述
数据仓库与数据挖掘概述
140 3
|
运维 安全 算法
数据仓库与数据挖掘(3)|学习笔记
快速学习数据仓库与数据挖掘(3)
数据仓库与数据挖掘(3)|学习笔记
|
监控 数据可视化 搜索推荐
数据仓库与数据挖掘(2)|学习笔记(二)
快速学习数据仓库与数据挖掘(2)
数据仓库与数据挖掘(2)|学习笔记(二)
|
机器学习/深度学习 传感器 自然语言处理
数据仓库与数据挖掘(2)|学习笔记(一)
快速学习数据仓库与数据挖掘(2)
数据仓库与数据挖掘(2)|学习笔记(一)
|
数据挖掘 大数据 数据处理
数据仓库与数据挖掘(1)|学习笔记
快速学习数据仓库与数据挖掘(1)
数据仓库与数据挖掘(1)|学习笔记
|
机器学习/深度学习 数据采集 人工智能
数据挖掘概述-4|学习笔记
快速学习数据挖掘概述-4
数据挖掘概述-4|学习笔记
|
机器学习/深度学习 运维 算法
数据挖掘概述 -2|学习笔记
快速学习数据挖掘概述 -2
数据挖掘概述 -2|学习笔记
|
机器学习/深度学习 SQL 算法
数据挖掘概述-5|学习笔记
快速学习数据挖掘概述-5
下一篇
无影云桌面