文档备案控制台

开发者社区大数据与机器学习文章正文

Python应用专题 | 20：pandas列值根据字典批量替换

2023-06-23 964

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 当DataFrame数据中一列的值需要根据某个字典批量映射为字典中的value，该如何操作？

更多、更及时内容欢迎留意微信公众号： 小窗幽记机器学习

背景

DataFrame数据中一列的值需要根据某个字典批量映射为字典中的value。

方法1：pandas中的df.replace

    import pandas as pd
    import numpy as np
    df = pd.DataFrame({'col2': {0: 'a', 1: 2, 2: np.nan}, 'col1': {0: 'w', 1: 1, 2: 2}})
    print("init df:")
    print(df)
    column_dict = {1: "A", 2: "B"}
    new_df = df.replace({"col1": column_dict})
    print("use dict to replace one column,dict=", column_dict)
    print("new df:")
    print(new_df)

运行结果：

init df:
  col2 col1
0    a    w
1    2    1
2  NaN    2
use dict to replace one column,dict= {1: 'A', 2: 'B'}
new df:
  col2 col1
0    a    w
1    2    A
2  NaN    B

方法2：map操作

    import pandas as pd
    import numpy as np
    df = pd.DataFrame({'col2': {0: 'a', 1: 2, 2: np.nan}, 'col1': {0: 'w', 1: 1, 2: 2}})
    print("init df:")
    print(df)
    column_dict = {1: "A", 2: "B"}
    # new_df = df.replace({"col1": column_dict})
    df['col1'] = df['col1'].map(column_dict)
    print("use dict to replace one column,dict=", column_dict)
    print("new df:")
    print(df)

运行结果：

init df:
  col2 col1
0    a    w
1    2    1
2  NaN    2
use dict to replace one column,dict= {1: 'A', 2: 'B'}
new df:
  col2 col1
0    a  NaN
1    2    A
2  NaN    B

PS:
数据量大的情况下，map会比 replace 要快。

【更多、更及时内容欢迎留意微信公众号： 小窗幽记机器学习 】

文章标签：

Python

机器学习/深度学习

关键词：

Python字典

Pandas python

Python应用

Python Pandas

Pandas应用

小窗幽记机器学习

目录

相关文章

凉凉心.

|

6月前

|

存储 JavaScript Java

（Python基础）新时代语言！一起学习Python吧！（四）：dict字典和set类型；切片类型、列表生成式；map和reduce迭代器；filter过滤函数、sorted排序函数；lambda函数

dict字典 Python内置了字典：dict的支持，dict全称dictionary，在其他语言中也称为map，使用键-值（key-value）存储，具有极快的查找速度。我们可以通过声明JS对象一样的方式声明dict

凉凉心.

392 1 2

凉凉心.

|

6月前

|

Java 数据处理索引

（Pandas）Python做数据处理必选框架之一！（二）：附带案例分析；刨析DataFrame结构和其属性；学会访问具体元素；判断元素是否存在；元素求和、求标准值、方差、去重、删除、排序...

DataFrame结构每一列都属于Series类型，不同列之间数据类型可以不一样，但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列，该列记录了每一行的索引在DataFrame中，若列之间的元素个数不匹配，且使用Series填充时，在DataFrame里空值会显示为NaN；当列之间元素个数不匹配，并且不使用Series填充，会报错。在指定了index 属性显示情况下，会按照index的位置进行排序，默认是 [0,1,2,3,...] 从0索引开始正序排序行。

凉凉心.

455 0 1

凉凉心.

|

6月前

|

Java 数据挖掘数据处理

（Pandas）Python做数据处理必选框架之一！（一）：介绍Pandas中的两个数据结构；刨析Series：如何访问数据；数据去重、取众数、总和、标准差、方差、平均值等；判断缺失值、获取索引...

Pandas 是一个开源的数据分析和数据处理库，它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具，特别适用于处理结构化数据，如表格型数据（类似于Excel表格）。 Pandas 是数据科学和分析领域中常用的工具之一，它使得用户能够轻松地从各种数据源中导入数据，并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构：Series 和 DataFrame。

凉凉心.

638 0 0

站大爷

|

7月前

|

监控数据可视化数据挖掘

Python Rich库使用指南：打造更美观的命令行应用

Rich库是Python的终端美化利器，支持彩色文本、智能表格、动态进度条和语法高亮，大幅提升命令行应用的可视化效果与用户体验。

站大爷

617 0 0

sunyalei

|

8月前

|

数据采集监控 Java

Python 函数式编程的执行效率：实际应用中的权衡

Python 函数式编程的执行效率：实际应用中的权衡

sunyalei

360 102 102

荔枝科研社

|

7月前

|

机器学习/深度学习算法安全

【强化学习应用(八)】基于Q-learning的无人机物流路径规划研究（Python代码实现）

【强化学习应用(八)】基于Q-learning的无人机物流路径规划研究（Python代码实现）

荔枝科研社

541 6 6

站大爷

|

7月前

|

存储 JSON 数据管理

Python字典：高效数据管理的瑞士军刀

Python字典基于哈希表实现，提供接近O(1)的高效查找，支持增删改查、遍历、合并等丰富操作，广泛应用于计数、缓存、配置管理及JSON处理。其灵活性与性能使其成为数据处理的核心工具。

站大爷

673 0 0

站大爷

|

7月前

|

设计模式缓存运维

Python装饰器实战场景解析：从原理到应用的10个经典案例

Python装饰器是函数式编程的精华，通过10个实战场景，从日志记录、权限验证到插件系统，全面解析其应用。掌握装饰器，让代码更优雅、灵活，提升开发效率。

站大爷

512 0 0

站大爷

|

7月前

|

存储缓存安全

Python字典：从入门到精通的实用指南

Python字典如瑞士军刀般强大，以键值对实现高效数据存储与查找，广泛应用于配置管理、缓存、统计等场景。本文详解字典基础、进阶技巧、实战应用与常见陷阱，助你掌握这一核心数据结构，写出更高效、优雅的Python代码。

站大爷

184 0 0

站大爷

|

8月前

|

数据采集存储数据可视化

Python网络爬虫在环境保护中的应用：污染源监测数据抓取与分析

在环保领域，数据是决策基础，但分散在多个平台，获取困难。Python网络爬虫技术灵活高效，可自动化抓取空气质量、水质、污染源等数据，实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用，涵盖技术选型、代码实现、反爬策略与数据分析，助力环保数据高效利用。

站大爷

430 0 0

大数据与机器学习

热门文章

最新文章

阿里封神谈hadoop生态学习之路

【玩转数据系列十】利用阿里云机器学习在深度学习框架下实现智能图片分类

数据仓库介绍与实时数仓案例

分布式快照算法: Chandy-Lamport

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

Kibana：数据分析的可视化利器

Python+大数据计算平台，PyODPS架构手把手教你搭建

【玩转数据系列十五】机器学习PAI为你自动写歌词，妈妈再也不用担心我的freestyle了（提供数据、代码）

为什么使用 TorchRec 训练和推理更快

TorchEasyRec的dbmtl 模型 config 详解

TorchRec大量使用Jagged Tensor

TorchEasyRec为什么推荐用 OdpsDataset 而不是 OdpsDatasetV1来读数据？

EasyRec和TorchEasyRec中FG NORMAL 和 FG DAG 的区别

TorchEasyRec中mc_ebc 和EmbeddingBagCollection 有什么区别？

TorchEasyRec中INPUT_TILE 环境变量的三个模式

TorchRec在macos ARM芯片（Apple Silicon）上无法安装

心脏病预测的F1 Score计算

TorchEasyRec 在 macOS 上的功能限制总结

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

OSS图形化管理工具使用