一、需要哪些数据
1.1 收集数据规则
在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需要的数据:
1.业务的实现需要哪些数据?
基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。
2.数据可用性评估
在获取数据的过程中,首先需要考虑的是这个数据获取的成本;
获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。
1.2 公司数据源
一般公司内部做机器学习的数据源:
用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据
业务数据:商品/物品的信息、用户/会员的信息…
第三方数据:爬虫数据、购买的数据、合作方的数据…
二、数据如何存储
一般情况下,用于后期模型创建的数据都是存在在本地磁盘、关系型数据库或者一些相关的分布式数据存储平台的。
本地磁盘
MySQL
Oracle
HBase
HDFS
Hive
三、数据清洗
数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论。在实际的工作中,数据清洗通常占开发过程的30%-50%左右的时间。