SciPy稀疏矩阵类 scipy.sparse(持续更新ing...)

简介: scipy的稀疏矩阵感觉应该是万物之源,据我所知PyTorch的稀疏矩阵就是改自scipy,然后PyG的稀疏矩阵又改自PyTorch。而且SciPy的稀疏矩阵是这几个里面文档最清晰的。torch_sparse不如说根本就没有文档吧!直接看源代码未免太刺激了!

1. SciPy稀疏矩阵简介


scipy.sparse只能存储二维稀疏矩阵。

numpy.ndarray可以直接转换为稀疏矩阵。

*是逐元素相乘,@是矩阵乘法。

SciPy稀疏矩阵类别(可以通过to类别()函数进行转换):

  • csc_matrix: Compressed Sparse Column format
  • csr_matrix: Compressed Sparse Row format
  • bsr_matrix: Block Sparse Row format
  • lil_matrix: List of Lists format
  • dok_matrix: Dictionary of Keys format
  • coo_matrix: COOrdinate format (aka IJV, triplet format)
  • dia_matrix: DIAgonal format

csr/csc/coo格式之间的转换是高效的线性操作。


2. 稀疏矩阵和稠密矩阵的互相转换


  • 稠密矩阵可以直接通过稀疏矩阵类别进行转换,示例:
from scipy.sparse import csr_matrix
A = csr_matrix([[1, 2, 0], [0, 0, 3], [4, 0, 5]])


  • 稀疏矩阵使用toarray()函数转换为稠密矩阵


3. 储存和加载稀疏矩阵


save_npz(file, matrix[, compressed]): Save a sparse matrix to a file using .npz format.

(官方文档:https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.save_npz.html

load_npz(file): Load a sparse matrix from a file using .npz format.

(官方文档:https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.load_npz.html


4. COO COOrdinate format


每个非0元素储存为行-列-值的形式。非常直观。也是最容易从邻接矩阵转换为edge index的格式,直接从row中获取头节点索引,从col中获取尾节点索引即可。

需要注意的是COO稀疏矩阵无法直接通过行索引切片,否则会报TypeError: 'coo_matrix' object is not subscriptable,但是可以直接将其转换成csr格式,然后再切片。举例:coo_matrix1.tocsr()[slicing_begin_index:]


方法:

  1. count_nonzero():计算非0元素总数

https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.coo_array.count_nonzero.html

相关文章
|
19天前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
2月前
|
Python
SciPy 教程 之 Scipy 显著性检验 9
SciPy 教程之显著性检验:介绍显著性检验的基本概念、目的及在SciPy中的实现方法。通过scipy.stats模块进行显著性检验,包括正态性检验(使用偏度和峰度),并提供代码示例展示如何计算数据集的偏度和峰度。
39 2
|
2月前
|
Python
SciPy 教程 之 Scipy 显著性检验 9
SciPy 教程之 Scipy 显著性检验第9部分,介绍了显著性检验的基本概念、作用及原理,通过样本信息判断假设是否成立。着重讲解了使用scipy.stats模块进行显著性检验的方法,包括正态性检验中的偏度和峰度计算,以及如何利用normaltest()函数评估数据是否符合正态分布。示例代码展示了如何计算一组随机数的偏度和峰度。
35 1
|
2月前
|
Python
SciPy 教程 之 Scipy 显著性检验 3
本教程介绍Scipy显著性检验,包括其基本概念、原理及应用。显著性检验用于判断样本与总体假设间的差异是否显著,是统计学中的重要工具。Scipy通过`scipy.stats`模块提供了相关功能,支持双边检验等方法。
46 1
|
2月前
|
机器学习/深度学习 Python
SciPy 教程 之 SciPy 插值 2
SciPy插值教程:介绍插值概念及其在数值分析中的应用,特别是在处理数据缺失时的插补和平滑数据集。SciPy的`scipy.interpolate`模块提供了强大的插值功能,如一维插值和样条插值。通过`UnivariateSpline()`函数,可以轻松实现单变量插值,示例代码展示了如何对非线性点进行插值计算。
35 3
|
2月前
|
机器学习/深度学习 数据处理 Python
SciPy 教程 之 SciPy 空间数据 4
本教程介绍了SciPy的空间数据处理功能,主要通过scipy.spatial模块实现。内容涵盖空间数据的基本概念、距离矩阵的定义及其在生物信息学中的应用,以及如何计算欧几里得距离。示例代码展示了如何使用SciPy计算两点间的欧几里得距离。
43 5
|
2月前
|
机器学习/深度学习 Python
SciPy 教程 之 SciPy 空间数据 6
本教程介绍了SciPy处理空间数据的方法,包括使用scipy.spatial模块进行点位置判断、最近点计算等内容。还详细讲解了距离矩阵的概念及其应用,如在生物信息学中表示蛋白质结构等。最后,通过实例演示了如何计算两点间的余弦距离。
37 3
|
2月前
|
机器学习/深度学习 数据处理 Python
SciPy 教程 之 SciPy 空间数据 7
本教程介绍了SciPy的空间数据处理功能,涵盖如何使用`scipy.spatial`模块进行点的位置判断、最近点计算等操作。还详细解释了距离矩阵的概念及其在生物信息学中的应用,以及汉明距离的定义和计算方法。示例代码展示了如何计算两个点之间的汉明距离。
52 1
|
2月前
|
机器学习/深度学习 数据处理 Python
SciPy 教程 之 SciPy 插值 3
本教程介绍了SciPy中的插值方法,包括什么是插值及其在数据处理和机器学习中的应用。通过 `scipy.interpolate` 模块,特别是 `Rbf()` 函数,展示了如何实现径向基函数插值,以平滑数据集中的离散点。示例代码演示了如何使用 `Rbf()` 函数进行插值计算。
38 0
|
2月前
|
Python
SciPy 教程 之 Scipy 显著性检验 1
本教程介绍Scipy显著性检验,包括统计假设、零假设和备择假设等概念,以及如何使用scipy.stats模块进行显著性检验,以判断样本与总体假设间是否存在显著差异。
37 0