不知道这7个典型数据项目步骤,都不好意思自称大数据人

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

数据科学是一门跨学科的科学,它可以从结构化或非结构化的各种形式的数据中提取知识和见解。随着数据科学工具自动化程度的提高,无论是在接地气的零售领域,还是在高大上的基因领域,数据科学都在被用来进行知识发现和预测分析。同时,随着传感器、物联网的发展,未来几年数据科学对社会的推动有望加速。

那么,数据科学的典型步骤是什么样的?企业如何最大化其数据资产价值呢?

1.了解目标问题

在进行数据科学的具体操作之前,首先要充分了解你想要解决的问题,征求相关领域专家的帮助,包括解释业务问题、提供数据集、确定项目目标等。很多数据科学项目失败的原因就是一开始就没有非常明确的目标,导致最终效果不理想。为了了解问题,你可能要与市场营销、财务、运营、IT甚至人力资源部门的同事进行交流,而且会收到各方不同的意见或建议,尽管有时候这会让人崩溃,但是对于数据项目的健康推进来说,这个过程还是不可或缺的。

开始数据项目的正确方法是找出业务最短板,然后顺着这个问题抽丝剥茧,分析数据解决问题。有时候业务问题与数据项目之间会有非常明确的对应关系,但是有时候业务问题和数据项目之间的联系并不那么明显,需要分多个步骤来将业务问题与数据项目逐一映射起来。数据项目的发起和最终驱动力,往往都是来自业务部门需求(例如财务、销售、运营等),因此,多与这些部门的同事交流,会让之后的数据工作事半功倍。

2.找到合适数据

有些数据可能是来自内部业务,例如电商应用的数据,但是如今随着社交网络的发展,数据项目的数据已经不能局限于企业本身的数据,必须包含来自各种外部来源的数据,同时也包括非结构化数据来源、如社交媒体甚至电子邮件。物联网传感器是另一个很大的数据来源。因此,数据采集可能需要一定的创造力,在领域专家的帮助下更多地收集有用的数据。

3.数据清洗转换

在项目早期,数据清洗转换非常重要,以便将原始数据清理并转换为更适合机器学习的形式。鉴于一些企业数据的状态比较差,此步骤可能需要花费相当长的时间和精力,通常可占用高达75%的数据项目的时间和成本。在数据转换的过程中,记录所有数据转换日志很重要,因为转化过程会成为数据重新利用时的参考。

4.探索性数据分析

探索性数据分析是指使用统计方法和数据可视化来尝试发现数据中有趣的特征和趋势。有时,只需要基于原始数据(或原始数据的样本)的简单绘图就可以显示出非常重要的趋势或关系,这将有利于指导数据项目的方向。探索性数据分析可以在花费较少的时间和成本的情况下确定你的项目应该采用的特定机器学习算法和使用的最佳特征变量。这一步骤可能需要与业务专家探讨探索性数据分析过程中显示出来的特征,以免发生遗漏,错过重要的特征和线索。

5.选择合适算法

确定基本方向后就要选择适合于解决问题的机器学习算法,将数据分成训练数据、交叉验证数据和测试集。在这一阶段,需要对很多机器学习类型进行测试,是做定量预测、定性分类,还是只是使用聚类技术进行探索?在测试之后,你就能更容易地选出最适合用于特定应用的算法,如果之前有过此类研究,则在选择算法的时候会相对容易很多。

6.验证模型功效

没有一种算法能够在处理所有数据集时的各项指标都优于其他算法。在特定的数据集上,一种特定的算法可能最有效,而另一种算法可能在其他数据集上表现更好,选择最佳算法可能是实践中数据项目最具挑战性的部分之一。因此,模型的效率评估对于项目的成功与否至关重要。需要量化给定观测值的预测响应值在多大程度上接近该观测值的真实响应值。还需要确定模型在处理不同的数据集的误差。

7.讲述数据故事

数据项目的最终结果可以通过精心设计的可视化作品来获得最佳的展示效果。能够直观、准确传达信息的可视化作品创建起来难度很大,可能需要多次尝试才能成功。事实上,建立有效的可视化作品需要一定的创造力和艺术修养。好消息是网上有很多好的可视化的案例可以参考。

完成数据科学过程后,就可以将结果传达给管理层了。为了达到更好的效果,需要一个会讲“数据故事”的人,这个人可以根据数据以更生动的形式将数据作品要表达的意思传达出去。大多数管理人员没有数据分析或统计数据的背景,而数据科学家的工作就是将数据全部归结为业务人员可以理解的形式,因此,讲述数据的故事是数据科学的一个组成部分。

结论

在完成这些步骤之后,数据项目并没有结束,重要的是不断重复这个过程,get到查看不同特征变量的预测能力,评估不同的模型,评估预测精度的新能力。数据项目可能并非让人一直有成就感,因为数据科学家的真正目的是不断地证明自己或企业的一次又一次的错误。数据科学是定期寻找现有问题的新答案的过程,当你找到那个新答案时,它给你带来的成就感也是非常巨大的。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
17天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
133 7
|
17天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
32 2
|
29天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
74 1
|
14天前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
24 4
|
24天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
50 3
|
24天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
58 2
|
26天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
77 2
|
28天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
60 2
|
1月前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
2月前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
64 2