01_特征工程前奏—数据准备

简介: 01_特征工程前奏—数据准备

一、需要哪些数据


1.1 收集数据规则


在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需要的数据:


1.业务的实现需要哪些数据?


基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。


2.数据可用性评估


在获取数据的过程中,首先需要考虑的是这个数据获取的成本;

获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。


1.2 公司数据源


一般公司内部做机器学习的数据源:


用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据

业务数据:商品/物品的信息、用户/会员的信息…

第三方数据:爬虫数据、购买的数据、合作方的数据…


二、数据如何存储


一般情况下,用于后期模型创建的数据都是存在在本地磁盘、关系型数据库或者一些相关的分布式数据存储平台的。


本地磁盘

MySQL

Oracle

HBase

HDFS

Hive


三、数据清洗


数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论。在实际的工作中,数据清洗通常占开发过程的30%-50%左右的时间。

目录
相关文章
|
6月前
|
数据库
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究(下)
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究(下)
|
4月前
|
机器学习/深度学习 数据采集 算法
深度挖掘数据价值:Scikit-learn库全解析,模型选择与优化一网打尽!
【7月更文挑战第27天】在数据驱动时代, Scikit-learn作为Python中领先的机器学习库, 提供了从数据预处理至模型评估的全套工具, 拥有广泛的算法选择和一致的API设计, 便于快速原型开发与模型比较。本文探讨了线性模型(如`LinearRegression`)与非线性模型(如`RandomForestRegressor`)的选择及其应用场景, 并介绍了如何利用`GridSearchCV`和`RandomizedSearchCV`进行参数调优以及采用交叉验证确保模型泛化能力。
44 0
|
6月前
|
机器学习/深度学习 数据采集 自然语言处理
探索机器学习中的维度诅咒与特征工程
【4月更文挑战第26天】 在高维数据空间航行,机器学习模型常受维度诅咒之困扰,遭遇过拟合、计算成本增加和解释性下降等问题。本文通过深入分析维度诅咒的成因,探讨了特征工程作为解决之道的关键策略,包括特征选择、特征提取及特征转换等技术。我们将透过实例说明如何巧妙运用这些方法,以降低数据维度,提升模型性能,同时保持结果的可解释性。
|
6月前
|
算法 数据可视化 数据库
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究(上)
R语言关联规则Apriori对抗肿瘤中药数据库知识发现研究
|
6月前
|
机器学习/深度学习 数据采集 算法
Python技术应用案例——基于机器学习的信用评分模型
【2月更文挑战第11天】机器学习作为当下最热门的技术之一,已经在各个领域获得了广泛的应用。本文将介绍一个基于Python机器学习算法的信用评分模型,通过对数据集的处理和模型训练,实现对客户信用评级的自动化判定,提高了银行的工作效率和准确性。
546 4
|
机器学习/深度学习 数据采集 传感器
机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索特征工程等
在工业蒸汽量预测上篇中,主要讲解了数据探索性分析:查看变量间相关性以及找出关键变量;数据特征工程对数据精进:异常值处理、归一化处理以及特征降维;在进行归回模型训练涉及主流ML模型:决策树、随机森林,
|
机器学习/深度学习 数据可视化 算法
【机器学习3】鸢尾花数据集可视化,让枯燥的数据颜值爆表!
【机器学习3】鸢尾花数据集可视化,让枯燥的数据颜值爆表!
1290 0
|
数据采集 机器学习/深度学习 运维
02_特征工程前奏—数据清洗
02_特征工程前奏—数据清洗
268 0
02_特征工程前奏—数据清洗
|
机器学习/深度学习
机器学习模型,能分清川菜和湘菜吗?
一个地区的文化和当地的特色食物总是分不开关系,可以说小到村庄,大到国家,每个地方都有自己的“味道”。
1984 0