Python应用专题 | 16: pandas中2个nan值为何不同

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 主要介绍 pandas中2个nan值为何不同?

更多、更及时内容欢迎留意微信公众号小窗幽记机器学习

背景

判断两个 nan 值是否相等。

import numpy as np
a=np.nan
b=np.nan
if a == b:
    print("Same")
else:
    print("Not Same")
if a is b:
    print("Same")
else:
    print("Not Same")

解析

  1. numpy.nan是一个numpy.float64的非空对象。
    所以不能直接用bool表达式去判断numpy.nan,其结果都是True。一切依赖于布尔表达式的判断方式都不行,比如if语句。对于pandas中空值的判断,只能通过pandas或者numpy的函数或者is表达式去判断,不能用python的内置函数any或all判断。
    pd.isnull(a)  # True
    pd.isna(a)  # True
    np.isnan(a)
    
  2. pandas中空值的判断可以用is表达式判断,但是不能用==表达式。因为is是用于判断对象的引用是否相同,而==用于判断对象的是否相同。当is表达式,返回True,表示这两个引用指向同一个内存对象,即内存地址一样,一般同一个对象的不同引用的值也应该是相等的,所以一般is表达式为True,那么==表达式也为True。但是对于numpy.nan对象并非如此,用is表达式判断两个numpy.nan是相同的,即is表达式为True,但==表达式为False。这说明虽然不同numpy.nan变量引用指向的是同一个内存地址,但是其具有自己的值属性,值是不一样的,所以不能用==来判断。

测试代码:

    import numpy as np
    import pandas as pd
    a = np.nan
    b = np.nan
    print("type(nan)=", type(a))
    # print(a.__float__)
    # print(b.__float__)
    print("nan用布尔表达式进行值判断:")
    if a:
        print("True")
    else:
        print("False")
    print("用is np.nan 进行值判断:")
    if a is np.nan:
        print("True")
    else:
        print("False")
    print("用pd.isnull,pd.isna,np.isnan进行值判断:")
    if pd.isnull(a) and pd.isna(a) and np.isnan(a):
        print("True")
    print("用 == 判断两个nan是否相等:")
    if a == b:
        print("Same")
    else:
        print("Not Same")
    # print(a, "\t", b)
    print("用 is 判断两个nan是否相等:")
    if a is b:
        print("Same")
    else:
        print("Not Same")
    print("c=a赋值操作得到:")
    c = a# 象的引用,其实与 np.nan 一样
    if c == a:
        print("Same")
    else:
        print("Not Same")
    print("c=a.copy()浅拷贝得到:")
    import copy
    d = copy.copy(a)#浅拷贝
    if d == a:
        print("Same")
    else:
        print("Not Same")

    print("e=copy.deepcopy(a)深拷贝得到:")
    e = copy.deepcopy(a)
    if e == a:
        print("Same")
    else:
        print("Not Same")
    # 进一步查看成员元素的值
    print(dir(a))
    print("dir(a) len=", len(dir(a)))
    diff_count = 0
    for i in dir(a):
        # print(getattr(a,i))
        if getattr(a,i) == getattr(b,i):#试试is
            continue
        else:
            diff_count = diff_count + 1
            # print(i)
    print("diff_count=", diff_count)

运行结果:

type(nan)= <class 'float'>
nan用布尔表达式进行值判断:
True
用is np.nan 进行值判断:
True
用pd.isnull,pd.isna,np.isnan进行值判断:
True
用 == 判断两个nan是否相等:
Not Same
用 is 判断两个nan是否相等:
Same
c=a赋值操作得到:
Not Same
c=a.copy()浅拷贝得到:
Not Same
e=copy.deepcopy(a)深拷贝得到:
Not Same
['__abs__', '__add__', '__bool__', '__class__', '__delattr__', '__dir__', '__divmod__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getformat__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__int__', '__le__', '__lt__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__pos__', '__pow__', '__radd__', '__rdivmod__', '__reduce__', '__reduce_ex__', '__repr__', '__rfloordiv__', '__rmod__', '__rmul__', '__round__', '__rpow__', '__rsub__', '__rtruediv__', '__setattr__', '__setformat__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__truediv__', '__trunc__', 'as_integer_ratio', 'conjugate', 'fromhex', 'hex', 'imag', 'is_integer', 'real']
dir(a) len= 57
diff_count= 36

【更多、更及时内容欢迎留意微信公众号小窗幽记机器学习

相关文章
|
4天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
28 6
|
5天前
|
数据采集 数据安全/隐私保护 开发者
非阻塞 I/O:异步编程提升 Python 应用速度
非阻塞 I/O:异步编程提升 Python 应用速度
|
13天前
|
机器学习/深度学习 数据可视化 数据处理
从基础到进阶:探索Python在数据科学中的应用
【10月更文挑战第18天】从基础到进阶:探索Python在数据科学中的应用
31 1
|
4天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
18 0
|
5天前
|
数据可视化 开发者 Python
Python GUI开发:Tkinter与PyQt的实战应用与对比分析
【10月更文挑战第26天】本文介绍了Python中两种常用的GUI工具包——Tkinter和PyQt。Tkinter内置于Python标准库,适合初学者快速上手,提供基本的GUI组件和方法。PyQt基于Qt库,功能强大且灵活,适用于创建复杂的GUI应用程序。通过实战示例和对比分析,帮助开发者选择合适的工具包以满足项目需求。
31 7
|
5天前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
21 4
|
6天前
|
数据采集 数据可视化 数据处理
如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`)
本文介绍了如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`),加载历史数据,计算均线和其他技术指标,实现交易逻辑,记录和可视化交易结果。示例代码展示了如何根据均线交叉和价格条件进行开仓、止损和止盈操作。实际应用时需注意数据质量、交易成本和风险管理。
25 5
|
6天前
|
机器学习/深度学习 数据可视化 数据处理
Python在数据科学中的应用###
本文探讨了Python语言在数据科学领域的广泛应用及其重要性。通过分析Python的简洁语法、强大的库支持和跨平台特性,阐述了为何Python成为数据科学家的首选工具。文章还介绍了Python在数据处理、分析和可视化方面的具体应用实例,展示了其在提升工作效率和推动科学研究方面的巨大潜力。最后,讨论了未来Python在数据科学领域的发展趋势和挑战。 ###
|
5天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
17 1
|
11天前
|
Python
python的时间操作time-应用
【10月更文挑战第20天】 python模块time的函数使用。
35 7