跻身数据科学领域的五条职业规划道路

简介:


预备阅读


在我们继续深入之前,读一读这些文章。我是说真的,读,这些,文章。

  • 解析数据科学谜题

    (http://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html)

  • 再析数据科学谜题

    (http://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html)

  • 解析数据科学和大数据

    (http://www.kdnuggets.com/2016/11/big-data-data-science-explained.html)

  • 预测性科学 VS 数据科学

    (http://www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html)

第一篇文章概览数据科学中一些最主要的概念,而第二篇文章则是今年早些时候对这些概念的更新。第三篇文章更深入地解析了数据科学和大数据之中的概念。最后一篇文章对比了一些其他术语,对“数据科学”这个术语的复杂性和微妙性进行了简短的探讨。

我将众多的职业可能性拆分成五条能够轻松掌控的道路。虽然可能有很多人强烈反对这种角色划分并且因此感到恐慌,但它确实对技能和职业责任进行了高度的分类。因此,我相信接下来的内容能有效地帮助新来者在这个专业领域中所存在的令人混淆和迷惑的无数机会之中确认方向。


分析性职业的粗略分析(点击图片放大)


数据管理专员


这本质上是一个IT职业,类似于数据库管理员。数据管理专员被认为和管理数据以及支持数据管理的设施有关。这个职位和数据分析只有很少关联,也类似Python和R语言的使用也不是很必要。可能会用到SQL语言,以及和Hadoop相关的查询语言,比如Hive和Pig。

关键技术以及需要关注的技能:

  • Apache Hadoop和它的生态系统

  • Apache Spark和它的生态系统

  • SQL以及关系数据库

  • NoSQL数据库


延伸阅读:

  • 解析大数据关键术语

    (http://www.kdnuggets.com/2016/08/big-data-key-terms-explained.html)

  • 解析数据库关键术

    (http://www.kdnuggets.com/2016/07/database-key-terms-explained.html)

  • 解析Hadoop关键术语

    (http://www.kdnuggets.com/2016/05/hadoop-key-terms-explained.html)

  • 解析Apache Spark关键术语

    (http://www.kdnuggets.com/2016/06/spark-key-terms-explained.html)

  • 解析云计算关键术语

    (http://www.kdnuggets.com/2016/06/cloud-computing-key-terms-explained.html)

  • 七步理解NoSQL数据库(http://www.kdnuggets.com/2016/07/seven-steps-understanding-nosql-databases.html)

  • 七步掌握数据科学所需的SQL

    (http://www.kdnuggets.com/2016/06/seven-steps-mastering-sql-data-science.html)


数据工程师


这是一条非分析大数据职业道路。记得在刚刚的职业道路之中提到的数据设施吗?是的,它们需要被设计和执行,数据工程师就承担了这部分工作。如果说数据管理专员是汽车修理师,那么数据工程师就是汽车工程师。不过不要搞错了,这两个角色都对你的汽车的行驶和持续工作至关重要,对你从A点驾驶到B点同样重要。

说句实话,数据工程师和数据管理专员所需要的技术和技能是相似的,然而,他们各自在不同的层次理解和使用同样的概念。我不会重复之前一种职业中所提到的那些信息(所有这些信息对数据工程师都很重要),但我会专门给数据工程师补充延伸阅读的清单。

延伸阅读:

  • 顶级NoSQL数据库引擎

    (http://www.kdnuggets.com/2016/06/top-nosql-database-engines.html)

  • 顶级大数据处理框架

    (http://www.kdnuggets.com/2016/03/top-big-data-processing-frameworks.html)

  • 顶级Spark系统环境项

    (http://www.kdnuggets.com/2016/03/top-spark-ecosystem-projects.html)

  • Hadoop和大数据:对于前六大问题的回答

    (http://www.kdnuggets.com/2016/01/hadoop-and-big-data-questions.html)

  • 为什么数据科学家和数据工程师需要理解云中的虚拟化

    (http://www.kdnuggets.com/2017/01/data-scientist-engineer-understand-virtualization-cloud.html)


商业分析师


在本文里,商业分析师指的是与数据分析和数据呈现紧密相关的角色。包括报告,仪表板和任何被称为“商业智能”的东西。 这种角色通常要求与关系数据库和非关系数据库以及大数据框架的交互(或查询)。

虽然前两种角色与设计基础设施来管理数据以及实际管理数据有关,但商业分析师主要关注从那些或多或少存在的数据中提取信息。 这与以下两个角色(机器学习研究者/从业者和以数据为导向的专业人员)形成对比,两者都侧重于从数据或数据以外已知的一些表面信息中获得洞察力。 因此,商业分析师需要在所呈现的这些角色中具有独特的技能。

关键技术以及需要关注的技能:

  • SQL和关系型数据库

  • NoSQL数据库

  • 经常会用到商业报告和仪表盘封装技术

  • 报告从本质来讲是没有固定模式的,快速掌握工具的使用是关键

  • 数据仓库


延伸阅读:

  • 2016年人工智能的10大趋势

    (http://www.kdnuggets.com/2015/12/10-business-intelligence-trends-2016.html)

  • 嵌入式分析:人工智能的未来

    (http://www.kdnuggets.com/2016/09/embedded-analytics-future-business-intelligence.html)

  • 自建还是购买–分析表盘(可视化分析)

    (http://www.kdnuggets.com/2016/07/build-buy-analytics-dashboards.html)


机器学习研究员/从业者


机器学习研究人员和从业者指的是那些制作和使用预测和相关工具进行数据利用的人。 机器学习算法允许以较高的速度应用统计分析,并且那些操作这些算法的人不满足于让数据以其当前形式呈现出来。 数据询问是机器学习爱好者的工作方式,但是具有足够的统计理解才能知道何时推进的足够远,以及什么时候提供的答案不可信。

统计和编程是机器学习研究者和实践者最大的财富。

关键技术以及需要关注的技能:

  • 统计学!

  • 代数与演算(从业者的中级水平,研究员的高级水平)

  • 编程技能:Python,C ++或其他一些通用语言

  • 学习理论(从业者的中级,研究员的高级水平)

  • 理解机器学习算法的内部工作原理(算法越多越好,理解越深越好!)

  • 原文发布时间为:2017-03-13

    本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
6月前
|
自然语言处理 并行计算 机器人
ParScale:一种全新的大模型Scaling Law
ParScale是一种新的模型扩展路线,通过并行计算增强模型能力,无需增加参数量。它引入多个并行流处理输入,动态聚合输出,显著提升性能,尤其在数学和编程任务中表现突出。相比传统方法,ParScale仅增加1/22的内存和1/6的延迟,适合边缘设备。研究还提出两阶段训练策略,降低训练成本。未来将探索更多模型架构和大数据场景下的应用潜力。
249 1
|
机器学习/深度学习 PyTorch TensorFlow
是否有其他框架可以在iOS设备上进行机器学习?
是否有其他框架可以在iOS设备上进行机器学习?
150 1
|
2月前
|
移动开发 算法 前端开发
正交啁啾分复用技术:基于菲涅尔变换的通信系统设计——论文阅读
正交啁啾分复用(OCDM)技术基于菲涅尔变换,实现多啁啾波形在相同时频资源下的正交复用,显著提升频谱效率。该技术利用啁啾信号的时频特性与菲涅尔域的循环卷积性质,构建高效均衡算法,并与OFDM系统兼容。仿真表明,OCDM在多径信道中结合MMSE均衡与空间分集,性能优于传统OFDM,适用于高速无线通信系统。(238字)
205 7
如果API调用失败,我应该如何排查问题?
当小红书API调用失败时,可按以下步骤排查:1. 检查请求参数;2. 确认身份验证凭据;3. 控制调用频率;4. 检查网络连接;5. 查看错误码和日志;6. 核实授权范围;7. 联系技术支持;8. 定期更新与测试。这些方法有助于系统地解决问题,确保API调用稳定。
|
存储 算法 调度
深入理解操作系统:进程调度的算法与实现
【8月更文挑战第31天】在操作系统的核心,进程调度扮演着关键角色,它决定了哪个进程将获得CPU的使用权。本文不仅剖析了进程调度的重要性和基本概念,还通过实际代码示例,展示了如何实现一个简单的调度算法。我们将从理论到实践,一步步构建起对进程调度的理解,让读者能够把握操作系统中这一复杂而精妙的部分。
|
人工智能 搜索推荐 安全
云上远程医疗:跨越时空的医疗革新,重塑健康服务新生态
政策支持和监管加强:随着云上远程医疗的快速发展,政府将出台更多支持政策和监管措施,促进产业的健康有序发展。同时,行业也将加强自律和协作,共同推动云上远程医疗的规范化、标准化发展。 跨界融合与生态构建:云上远程医疗将与保险、健康管理等领域实现跨界融合,构建更加完善的健康服务生态体系。这将有助于提升整个医疗健康行业的服务水平和竞争力。 结语
934 0
|
架构师 安全 程序员
为什么大部分 PHP 程序员做不了架构师?
【10月更文挑战第23天】本文分析了PHP程序员向架构师转型时面临的挑战,包括语言特性限制认知范围、缺乏分布式系统经验、性能优化深度不足、安全意识和安全架构能力不足,以及对其他技术栈的融合能力有限等问题。这些问题限制了PHP程序员在系统设计和架构领域的全面发展。
183 2
|
自然语言处理 算法 Shell
【Rasa+Pycharm+Tensorflow】控制台实现智能客服问答实战(附源码和数据集 超详细)
【Rasa+Pycharm+Tensorflow】控制台实现智能客服问答实战(附源码和数据集 超详细)
462 0
|
机器学习/深度学习 算法 数据安全/隐私保护
图片/视频去水印代码(毕业设计)
图片/视频去水印代码(毕业设计)
图片/视频去水印代码(毕业设计)
|
C++
信奥赛一本通2037:【例5.4】约瑟夫问题
题目描述】 N个人围成一圈,从第一个人开始报数,数到M的人出圈;再由下一个人开始报数,数到M的人出圈;…输出依次出圈的人的编号。 【输入】 输入N和M。 【输出】 输出一行,依次出圈的人的编号。 【输入样例】
692 0