高效使用 PyODPS 最佳实践

简介: 以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。

PyODPS 是 MaxCompute(ODPS) Python SDK,为 MaxCompute 对象提供了 Python 端的操作接口,同时,对于熟悉 Pandas 的用户来说,它提供了 DataFrame API 来用类似 Pandas 的接口进行大规模数据分析以及处理,并能够方便的将 MaxCompute 的分布式 DataFrame 向本地 Pandas DataFrame 转换。正因为如此的方便灵活,在实际使用过程中,不少用户容易把 PyODPS 用成单机处理模式,没有最大限度发挥 MaxCompute 分布式运算的性能。本文主要介绍如何高效地使用 PyODPS 处理数据。

概念

首先介绍基本概念。PyODPS 作为一个 SDK,本身运行于各种客户端,如下图所示,PyODPS 位于紫色部分,可以在是个人 PC,也可以是 DataWorks 的调度节点,或者 PAI Notebooks 的运行环境。需要注意的是,DataWorks 中的 PyODPS 节点也是一个资源非常受限的客户端运行容器,内置了 PyODPS 包以及必要的 Python 环境,并不使用 MaxCompute 资源,有较强的内存限制。因此合理利用 PyODPS 提供的分布式 DataFrame 功能,将主要的计算提交到 MaxCompute 分布式执行而不是在 PyODPS 客户端节点下载处理,是正确使用 PyODPS 的关键。这篇文章详细介绍了 PyODPS 代码跑在哪里
image.png

尽量避免数据下载

很多用户习惯于用 Pandas 处理数据。PyODPS 提供了 to_pandas 接口,可以直接将 MaxCompute 数据转化成 Pandas DataFrame 数据结构,这个接口很受欢迎。但这个接口只应该被用于获取小规模数据做本地开发调试使用,而不是用来大规模处理数据。使用这个接口会触发下载行为,将位于 MaxCompute 中的海量数据下载到本地,如果后续操作的都是本地的 DataFrame,则丧失了 MaxCompute 的大规模并行计算能力。而且,数据量稍大,单机内存就很容易产生 OOM。

正确的使用方式,是使用 PyODPS DataFrame 接口来完成数据处理。常见的需求,比如需要对每一行数据处理然后写回表,或者一行数据要拆成多行,都可以通过 PyODPS DataFrame 中的 map 或者 apply 实现,有的甚至只需要一行代码,足够高效与简洁。使用这些接口我们最终都会翻译成 SQL 到 MaxCompute 计算集群做分布式计算,并且本地几乎没有任何的内存消耗,显然相比于单机有很大的性能提升。下面我们以一个实际的例子来说明。

一个例子:分词

用户需要通过分析每天产生的日志字符串来提取一些信息,有一个只有一列的表,它的类型是 string,通过 jieba 分词可以将中文语句分词,然后再找到想要的关键词存储到信息表里。很多人会习惯于单机处理数据的思维,一行一行的读出数据,然后一行一行地处理数据,然后再一行一行的写入目标表,所以代码会变成这样:

import jieba
t = o.get_table('word_split')
out = []
with t.open_reader() as reader:
    for r in reader:
        words = list(jieba.cut(r[0]))
        #
        # 处理逻辑,产生出 processed_data
        #
        out.append(processed_data)
out_t = o.get_table('words')
with out_t.open_writer() as writer:
    writer.write(out)

我们分析一下整个流程,下载上传数据消耗了大量的时间,并且在执行脚本的机器上需要很大的内存处理所有的数据,特别对于 DataWorks 用户,很容易超过默认分配的内存值,导致 OOM 运行报错。所以这样的问题应该怎么解决呢?答案就是利用 MaxCompute 的分布式能力,PyODPS 就能帮你做到这一点。

高效的分词

当我们提出用 PyODPS DataFrame 改写时,很多人望而却步,现实情况中,我上面代码中隐去的逻辑可能非常非常复杂,有的甚至上千行,用户会觉得改起来是不是太复杂了,改写成本是不是太多,其实大可不必担心,中间的处理过程大部分是不需要动的,我们利用 apply接口就能做到分布式的执行:

from odps.df import output
out_table = o.get_table('words')
df = o.get_table('word_split').to_df()
@output(out_table.schema.names, out_table.schema.types)
def handle(row):
    import jieba
    words = list(jieba.cut(r[0]))
    #
    # 处理逻辑,产生出 processed_data
    #
    yield processed_data
df.apply(handle, axis=1).persist(out_table)

我们可以看到复杂逻辑都可以放在 handle 这个函数里,这个函数会被自动序列化到服务端作为 UDF 使用,在服务端调用执行,而且因为 handle 在服务端实际执行时也是对每一行进行处理的,所以逻辑上是没有区别的,不同的是,这样写的程序在提交到 MaxCompute 端执行时可以有多台机器帮你同时处理数据,可想而知时间上会节约很多,最后调用 persist 接口会将产生的数据直接写到另一张 MaxCompute 表中,所有的数据产生与消费都在 MaxCompute 集群完成,也节约了本地的网络与内存。另外在这个例子中我们也使用到了三方包,MaxCompute 是支持自定义函数中使用三方包的。

总结

利用 PyODPS,我们有很多种更高效操作 MaxCompute 数据的方式,大家有自己在实践过程中获得的感悟也可以积极分享出来,共同提升 MaxCompute Python 生态。最后,分享一句 Pandas 作者的一句话:精通面向数组的编程和思维方式是成为 Python 科学计算牛人的一大关键步骤。多多使用 apply, map 接口,让我们的数据飞起来!

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
分布式计算 自然语言处理 DataWorks
高效使用 PyODPS 最佳实践
以更清晰的认知 PyODPS,DataWorks PyODPS 节点以及 PyODPS 何时在计算集群运行,开发者如何利用 PyODPS 更高效地进行数据开发。
18586 3
高效使用 PyODPS 最佳实践
|
9月前
|
SQL 关系型数据库 数据库连接
|
机器学习/深度学习 自然语言处理
MGTE系列模型
【10月更文挑战第15天】
432 9
|
分布式计算 DataWorks 数据处理
"DataWorks高级技巧揭秘:手把手教你如何在PyODPS节点中将模型一键写入OSS,实现数据处理的完美闭环!"
【10月更文挑战第23天】DataWorks是企业级的云数据开发管理平台,支持强大的数据处理和分析功能。通过PyODPS节点,用户可以编写Python代码执行ODPS任务。本文介绍了如何在DataWorks中训练模型并将其保存到OSS的详细步骤和示例代码,包括初始化ODPS和OSS服务、读取数据、训练模型、保存模型到OSS等关键步骤。
699 3
|
传感器 人工智能 物联网
探索智能家居技术:现状与未来
本文深入探讨了智能家居技术的发展历程、当前主要技术和应用,并展望了其未来的发展趋势。通过对现有技术的详细解析和案例分析,揭示了智能家居在提升生活品质、节能减排等方面的潜力,同时指出了目前面临的挑战和可能的解决方案。
|
数据采集 机器学习/深度学习 自然语言处理
一文讲懂大模型调优技术
随着AI技术的发展,大模型如GPT系列、BERT等成为推动自然语言处理和计算机视觉领域进步的重要驱动力。然而,大模型的调优过程复杂且资源消耗巨大,对开发者构成严峻挑战。本文旨在全面解析大模型调优的关键技术,涵盖数据预处理、模型架构调整、超参数优化、正则化与泛化能力提升,以及分布式训练与并行优化等内容,为开发者提供系统性的调优指南。
|
人工智能 供应链 安全
构建未来:区块链技术在供应链管理中的应用
随着数字化转型的不断深入,传统供应链管理面临诸多挑战。本文探讨了区块链技术如何作为一剂良方,助力供应链管理实现透明化、安全性提升与效率优化。通过分析区块链的核心特性及其在供应链中的应用场景,本文揭示了该技术如何促进信息共享,减少欺诈行为,并提高整个网络的响应速度。我们不仅讨论了实施区块链的益处,还审视了当前面临的技术挑战和未来的发展趋势。
1232 2
|
SQL 运维 数据库
DataphinV3.14全新升级:数据研发突破全域覆盖,资产治理更加灵活可控
DataphinV3.14支持传统数据库调用,带来全新高效研发体验,及时全面的数据保护、自定义监控和审批让数据治理更灵活自由。
118958 1
|
分布式计算 资源调度 大数据
一图胜千言:大数据入门必备的16张数据流转图(建议收藏)
一图胜千言:大数据入门必备的16张数据流转图(建议收藏)
1218 0
|
机器学习/深度学习 人工智能
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DLC Quick Start使用教程
《阿里云AI产品必知必会系列电子书》——机器学习平台PAI——DLC Quick Start使用教程
1457 0