NumPy 与 Python 内置列表计算标准差的区别

简介: NumPy 是专门针对数组的操作和运算进行了设计,所以数组的存储效率和输入输出性能远优于Python中的嵌套列表,数组越大,NumPy的优势就越明显。

1 什么是 Numpy

NumPy,是 Numerical Python 的简称,用于高性能科学计算和数据分析的基础包,像数学科学工具(pandas)和框架(Scikit-learn)中都使用到了 NumPy 这个包。

NumPy 中的基本数据结构是 ndarray 或者 N 维数值数组,在形式上来说,它的结构有点像 Python 的基础类型——Python列表。

但本质上,这两者并不同,可以看到一个简单的对比。

我们创建两个列表,当我们创建好了之后,可以使用 + 运算符进行连接:

list1 = [i for i in range(1,11)]
list2 = [i**2 for i in range(1,11)]
print(list1+list2)
# [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]

列表中元素的处理感觉像对象,不是很数字,不是吗? 如果这些是数字向量而不是简单的数字列表,您会期望 + 运算符的行为略有不同,并将第一个列表中的数字按元素添加到第二个列表中的相应数字中。

接下来看一下 Nympy 的数组版本:

import numpy as np
arr1 = np.array(list1)
arr2 = np.array(list2)
arr1 + arr2
# array([  2,   6,  12,  20,  30,  42,  56,  72,  90, 110])

通过 numpy 的 np.array 数组方法实现了两个列表内的逐个值进行相加。

我们通过 dir 函数来看两者的区别,先看 Python 内置列表 list1 的内置方法:

网络异常,图片无法展示
|

再用同样的方法看一下 arr1 中的方法:

网络异常,图片无法展示
|

NumPy 数组对象还有更多可用的函数和属性。 特别要注意诸如 meanstdsum 之类的方法,因为它们清楚地表明重点关注使用这种数组对象的数值/统计计算。 而且这些操作也很快。

2 NumPy 数组和 Python 内置计算对比

NumPy 的速度要快得多,因为它的矢量化实现以及它的许多核心例程最初是用 C 语言(基于 CPython 框架)编写的。 NumPy 数组是同构类型的密集排列的数组。 相比之下,Python 列表是指向对象的指针数组,即使它们都属于同一类型。 因此,我们得到了参考局部性的好处。

许多 NumPy 操作是用 C 语言实现的,避免了 Python 中的循环、指针间接和逐元素动态类型检查的一般成本。 特别是,速度的提升取决于您正在执行的操作。 对于数据科学和 ML 任务,这是一个无价的优势,因为它避免了长和多维数组中的循环。

让我们使用 @timing 计时装饰器来说明这一点。 这是一个围绕两个函数 std_devstd_dev_python 包装装饰器的代码,分别使用 NumPy 和内置 Python 代码实现列表/数组的数值标准差计算。

3 函数计算时间装饰器

我们可以使用 Python 装饰器和 functools 模块的 wrapping 来写一个 时间装饰器 timing:

def timing(func):
    @wraps(func)
    def wrap(*args, **kw):
        begin_time = time()
        result = func(*args, **kw)
        end_time = time()
        print(f"Function '{func.__name__}' took {end_time-begin_time} seconds to run")      
        return result
    return wrap

4 标准差计算公式

然后利用这个时间装饰器来看 Numpy 数组和 Python 内置的列表,然后计算他们的标准差,公式如图:

网络异常,图片无法展示
|

  1. 定义 Numpy 计算标准差的函数 std_dev()numpy 模块中内置了标准差公式的函数 a.std(),我们可以直接调用
  2. 列表计算公式方法需要按照公式一步一步计算:
  3. 先求求出宗和 s
  4. 然后求出平均值 average
  5. 计算每个数值与平均值的差的平方,再求和 sumsq
  6. 再求出 sumsq 的平均值 sumsq_average
  7. 得到最终的标准差结果 result

代码如下:

from functools import wraps
from time import time
import numpy as np
from math import sqrt
def timing(func):
    @wraps(func)
    def wrap(*args, **kw):
        begin_time = time()
        result = func(*args, **kw)
        end_time = time()
        # print(f"Function '{func.__name__}' with arguments {args},keywords {kw} took {end_time-begin_time} seconds to run")
        print(f"Function '{func.__name__}' took {end_time-begin_time} seconds to run")      
        return result
    return wrap
@timing
def std_dev(a):
    if isinstance(a, list):
        a = np.array(a)
    s = a.std()
    return s
@timing
def std_dev_python(lst):
    length = len(lst)
    s = sum(lst)
    average = s / length
    sumsq = 0
    for i in lst:
        sumsq += (i-average)**2
    sumsq_average = sumsq/length
    result = sqrt(sumsq_average)
    return result

运行结果,最终可以看到 1000000 个值得标准差的值为 288675.13459,而 Numpy 计算时间为 0.0080 s,而 Python 原生计算方式为 0.2499 s

网络异常,图片无法展示
|

由此可见,Numpy 的方式明显更快。

5 总结

NumPy 是专门针对数组的操作和运算进行了设计,所以数组的存储效率和输入输出性能远优于Python中的嵌套列表,数组越大,NumPy的优势就越明显。

NumPy 还提供了一系列让人眼前一亮的函数,可以用于高级数据科学和机器学习的数值数组和矩阵,今后我们再一一进行探索和学习!

相关文章
|
8月前
|
Python
Python中列表求和的深入理解
Python中列表求和的深入理解
155 0
|
4月前
|
Python
NumPy 教程 之 NumPy 统计函数 10
NumPy统计函数,包括查找数组中的最小值、最大值、百分位数、标准差和方差等。方差表示样本值与平均值之差的平方的平均数,而标准差则是方差的平方根。例如,`np.var([1,2,3,4])` 的方差为 1.25。
109 48
|
5月前
|
Python
NumPy 教程 之 NumPy 统计函数 4
这段内容介绍了NumPy库中的统计函数,特别是`numpy.percentile()`函数的应用。该函数用于计算数组中的百分位数,即一个值之下所包含的观测值的百分比。通过实例展示了如何使用此函数来计算不同轴上的百分位数,并保持输出的维度不变。
41 5
|
5月前
|
存储 Serverless 索引
NumPy 教程 之 NumPy 统计函数 3
这段教程介绍了 NumPy 中的 `numpy.ptp()` 函数,该函数用于计算数组中最大值与最小值之间的差值。通过不同参数设置,如 `axis`、`out` 和 `keepdims` 等,可以在不同维度上进行计算。示例展示了如何使用 `ptp()` 函数对二维数组进行整体及按行、列计算峰峰值。
45 3
|
5月前
|
存储 索引 Python
NumPy 教程 之 NumPy 统计函数 6
这段内容介绍了 NumPy 中的 `numpy.mean()` 函数,该函数用于计算数组元素的算术平均值。通过设置 `axis` 参数,可以在不同轴上计算平均值。示例展示了如何对一个二维数组进行整体及按行、列计算平均值的过程及其结果。
45 2
|
5月前
|
存储 索引 Python
NumPy 教程 之 NumPy 统计函数 5
NumPy提供了多种统计函数,如`numpy.median()`用于计算数组元素的中位数。该函数可通过设置参数`axis`指定计算轴向,`out`指定结果存放位置,`overwrite_input`允许使用输入数组内存以提升性能,`keepdims`保持结果数组维度。示例展示了在不同轴向上调用`median()`的结果。
39 1
|
5月前
|
存储 索引 Python
NumPy 教程 之 NumPy 统计函数 2
这段内容介绍了 NumPy 中用于统计分析的函数,特别是 `numpy.amin()` 和 `numpy.amax()` 的使用方法及其参数说明。这两个函数分别用于计算数组沿指定轴方向的最小值和最大值,通过设置参数 `axis` 可以指定计算的方向,并且提供了 `out`, `keepdims`, `initial`, `where` 等选项来灵活控制计算过程和结果。示例展示了如何利用这两个函数对二维数组进行操作并获取不同轴上的极值。
41 1
|
5月前
|
存储 数据处理 索引
NumPy 教程 之 NumPy 统计函数 1
这段内容介绍了 `NumPy` 中用于统计分析的基本函数,重点讲述了 `numpy.amin()` 和 `numpy.amax()` 的使用方法及参数含义,这两个函数分别用于计算数组中的最小值和最大值,提供了包括指定轴、输出位置在内的多种可选参数设置。这有助于用户更灵活地进行数据处理与分析。
39 1
|
4月前
|
Python
Python 练习实例44 - Python 两个矩阵相加
Python 练习实例44 - Python 两个矩阵相加
|
7月前
|
Python
使用Python计算有效值函数(RMS值)
使用Python计算有效值函数(RMS值)
589 0