数据大师Olivier Grisel给志向高远的数据科学家的指引

简介:

摘要:几周前,作者写了一篇关于旁听Florian Douetteau(FD)采访Olivier Grisel的博文。此篇是采访的第二部分,主要讨论初级数据科学家可以使用的一些技巧和诀窍。


Olivier Grisel(OG)本人在InriaParietal工作,主要研发scikit-learn,使用Python语言编写的最流行的机器学习库之一。OG是机器学习、文本挖掘和自然语言处理领域的专家。大概在几周前,我们的Florian Douetteau (FD)对OG进行了一次访谈,很幸运,我得到这个机会去旁听。

今天,Olivier深入到技术层面进行探讨,他回答了数据科学初学者提出的问题。



不要等待,数据科学从现在开始!

明智地选择大规模

FD:这个问题来自某个机器学习初学者,他不知道该使用哪个框架和算法可以获得更强的扩展能力,你有什么建议呢?

OG:一个很好的规则就是根据你最终必需处理的数据量来抉择,当然还要把未来数据的增量考虑进去。最近,一台配置很好的机器可以有上百G的RAM。当然,原始数据集可能比这更大。一旦你提取了特征并将其转为数值表,你就可以得到更小的数据集,那样你就可以在内存中处理数据并使用scikit-learn运行预测模型。实际上,想要你的系统具有可扩展性,并不意味着你就必须使用MLlib。

大数据基础设施的挑战

FD:人们开始考虑如何管理大量的数据,对于如何得到一个很好的衡量标准,你的建议是什么呢?

OG:在你开始做机器学习之前,从一个基本模型开始很重要。比如,你可以对这些基本模型计算平均值。当你在Spark中做这些基本计算时,你可以看看管道和处理时间,确保在你的模型变得复杂之前,你没有设置一些多余的东西。

我建议他们选择自己数据中的一个子样本,在内存中能装得下,这样就可以使用所有可用的算法来做比较机器学习的分析结果,甚至是那些永远不能部署到整个集群的算法。你要记住,MLlib是通过限制它的算法面板来达到可扩展性功能。这表示它们如今的库并不像R或Python包那样多。子样本总归还是好的,回到小数据世界能确保你遵循正确的方法。

事实上,你也应该这样做,这样你就可以确保当你向你的样本添加更多的数据时,实际上你是在提高你的模型性能。这有利于检查。

将工作分析流程从一种语言(如Python)复制到另一种(如R或Scale),也是个不错的想法。Data Science Studio这种工具,它使得在同一个数据上使用不同的编程语言设计两个管道变得更加容易。有些操作可能在另一些框架上表现的更自然或者更加高效,而且做这种管道转变训练是建立实践直觉的快速方式。一旦你的两个管道产生了一致的输出,那么你可以去请教经验丰富的同事或者专家朋友来帮你快速地检查下代码。他(她)应该知道如何使你的代码更加高效或更加精简并且避免语法错误。

FD:你可以给出一些你或者你的团队使用scikit-learn运行大数据集的例子么?

OG:这真的取决于我们正在研究和试验中的模型。当样本上升到数以万计的时候,一些模型就会失效。我们团队研究的数据集大概有百万兆字节,但是他们做了大量的预处理和降维操作。

对于缺乏经验的用户,这一点真的必须考虑。如果他们研究的数据集真的足够大,他们可能自然而然地选择使用Spark。但这种方法最终可能会以效率较低而失败告终。如果他们多给予一点思考,原本使用Spark需要消耗CPU几个小时来计算的任务,在笔记本上使用scikit-learn可能5分钟就完成了。实际上每种新的技术都是一把双刃剑。

Python VS R

FD:对于数据科学初学者而言,应该如何选择学习哪种语言和框架呢,你有好的建议么?

OG:个人认为,你必须根据你的喜好来选择,如果你身边有这方面的专家,你还可以依据他的情况而定。在数据科学中,交流可以让你学到更多的知识。如果你去参加聚会或者与其他人报名参加Kaggle比赛,那么你一定要抓住与专家互动交流的机会,这真的很重要。与他们相互交流学习的技巧和诀窍是学习数据科学很好的方式。

之后,将分析思路用另一个框架来表达就更加容易了。如果你掌握了一种语言,这种学习语言的方法是一样的。这一点最重要。这对于像Data Science Studio这种工具也是很有用的。你可以用它在一个环境下尝试不同的语言和技术。当你能轻松的比较结果时,将分析思路从一种语言翻译成另一种语言其实很简单,比如Python和R。



原文发布时间为:2015-10-17

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
Linux
CentOS7下搭建Jellyfin个人流媒体服务器
CentOS7下搭建Jellyfin个人流媒体服务器
1836 0
CentOS7下搭建Jellyfin个人流媒体服务器
|
5月前
|
JSON 监控 网络协议
干货分享“对接的 API 总是不稳定,网络分层模型” 看电商 API 故障的本质
本文从 OSI 七层网络模型出发,深入剖析电商 API 不稳定的根本原因,涵盖物理层到应用层的典型故障与解决方案,结合阿里、京东等大厂架构,详解如何构建高稳定性的电商 API 通信体系。
|
9月前
|
机器学习/深度学习 搜索推荐 大数据
数据驱动的教育革命:让学习更智能、更个性化
数据驱动的教育革命:让学习更智能、更个性化
317 76
|
8月前
|
SQL 边缘计算 人工智能
中小企业数字化转型的低成本路径:Websoft9 助力用户从 0 到 1 的实践经验
开源软件正成为企业数字化转型的核心引擎,尤其对中小企业而言,其零授权成本、技术自主与敏捷迭代特性优势显著。Websoft9 数据显示,采用开源技术可使初期投入降低62%,同时通过成本重构、敏捷响应及安全可控三大价值闭环助力企业发展。然而,技术鸿沟如组件筛选难、环境配置繁等问题仍制约企业应用开源的步伐。对此,Websoft9 提供工程化解决方案,涵盖智能匹配引擎、全生命周期运维体系与标准化集成平台,赋能企业从基础设施到智能应用的全场景实践。最终,通过模块贡献和技术反哺,Websoft9 推动企业从使用者向共建者转变,实现数字化生存范式的全面重构。
|
9月前
|
自然语言处理 搜索推荐 数据挖掘
阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结
阿里通义等提出Chronos:慢思考RAG技术助力新闻时间线总结
472 0
|
人工智能 自然语言处理 计算机视觉
OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
OpenAI近期发布了Simplified Consistency Models (sCM) 技术,这是在扩散模型基础上的重大改进,实现了50倍效率提升。sCM通过简化和稳定连续时间一致性模型的训练过程,解决了传统模型中的离散化误差和训练不稳定性问题,显著提升了生成模型的性能和效率。在多个数据集上的测试结果表明,sCM不仅超越了现有模型,还在生成模型的实际应用中展现了巨大潜力。论文地址:https://arxiv.org/abs/2410.11081
197 3
|
前端开发 开发工具 Android开发
跨平台开发工具
跨平台开发工具
599 6
|
Kubernetes 监控 Cloud Native
Kubernetes集群的高可用性与伸缩性实践
Kubernetes集群的高可用性与伸缩性实践
286 1
|
云安全 存储 安全
带你读《阿里云安全白皮书》(二十)——云上安全重要支柱(14)
本文介绍了阿里云在企业多账号管理和身份权限管理方面的解决方案。针对中大型企业面临的账号管理复杂性和安全合规挑战,阿里云提供了资源目录(Resource Directory)和Control Policy等工具,实现账号的有序管理和权限的精细控制。此外,阿里云还支持企业内部身份与云上身份的关联与映射,通过单点登录(SSO)简化身份管理,降低安全风险。这些措施有助于企业在云上实现高效、安全的资源管理。