大神是这样处理 CSV 数据的

简介: 大神是这样处理 CSV 数据的


阅读本文大概需要 5.5 分钟。


读写 CSV 数据

问题 


你想读写一个 CSV 格式的文件


解决方案


对于大多数的 CSV 格式的数据读写问题,都可以使用 csv 库。例如:假设你在一 个名叫 stocks.csv 文件中有一些股票市场数据,像这样:


Symbol,Price,Date,Time,Change,Volume
"AA",39.48,"6/11/2007","9:36am",-0.18,181800
"AIG",71.38,"6/11/2007","9:36am",-0.15,195500
"AXP",62.58,"6/11/2007","9:36am",-0.46,935000
"BA",98.31,"6/11/2007","9:36am",+0.12,104800
"C",53.08,"6/11/2007","9:36am",-0.25,360900
"CAT",78.29,"6/11/2007","9:36am",-0.23,225400


下面向你展示如何将这些数据读取为一个元组的序列:


import csv
with open('stocks.csv') as f:
    f_csv = csv.reader(f)
    headers = next(f_csv)
    for row in f_csv:
      pass

在上面的代码中,row 会是一个列表。因此,为了访问某个字段,你需要使用下标, 如 row[0] 访问 Symbol,row[4] 访问 Change。由于这种下标访问通常会引起混淆,你可以考虑使用命名元组


例如:

    from collections import namedtuple
    with open('stock.csv') as f:
      f_csv = csv.reader(f)
      headings = next(f_csv)
      Row = namedtuple('Row', headings)
      for r in f_csv:
        row = Row(*r)

    它允许你使用列名如 row.Symbol 和 row.Change 代替下标访问。需要注意的是这 个只有在列名是合法的 Python 标识符的时候才生效。如果不是的话,你需要修改下原始的列名 (如将非标识符字符替换成下划线之类的)。另外一个选择就是将数据读取到一个字典序列中去。

    可以这样做

      import csv
      with open('stocks.csv') as f:
        f_csv = csv.DictReader(f)
        for row in f_csv:
          # process row

      在这个版本中,你可以使用列名去访问每一行的数据了。

      比如,row['Symbol'] 或 者 row['Change'] 为了写入 CSV 数据,你仍然可以使用 csv 模块,不过这时候先创建一个 writer 对象

      例如:

        headers = ['Symbol','Price','Date','Time','Change','Volume']
        rows = [('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800),
        ('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500),
        ('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000),
        ]
        with open('stocks.csv','w') as f:
          f_csv = csv.writer(f)
          f_csv.writerow(headers)
          f_csv.writerows(rows)

        如果你有一个字典序列的数据,可以像这样做


        headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
        rows = [{'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007',
        'Time':'9:36am', 'Change':-0.18, 'Volume':181800},
        {'Symbol':'AIG', 'Price': 71.38, 'Date':'6/11/2007',
        'Time':'9:36am', 'Change':-0.15, 'Volume': 195500},
        {'Symbol':'AXP', 'Price': 62.58, 'Date':'6/11/2007',
        'Time':'9:36am', 'Change':-0.46, 'Volume': 935000},
        ]
        with open('stocks.csv','w') as f:
          f_csv = csv.DictWriter(f, headers)
          f_csv.writeheader()
          f_csv.writerows(rows)


        讨论


        你应该优先选择 CSV 模块分割或解析 CSV 数据。


        例如,你可能会像编写类似 下面这样的代码


        with open('stocks.csv') as f:
          for line in f:
          row = line.split(',')

        使用这种方式的一个缺点就是你仍然需要去处理一些棘手的细节问题

        比如,如果 某些字段值被引号包围,你不得不去除这些引号。另外,如果一个被引号包围的字段碰巧含有一个逗号,那么程序就会因为产生一个错误大小的行而出错。

        默认情况下,csv 库可识别 Microsoft Excel 所使用的 CSV 编码规则。这或许也是 最常见的形式,并且也会给你带来最好的兼容性。然而,如果你查看 csv 的文档,就会 发现有很多种方法将它应用到其他编码格式上 (如修改分割字符等)。

        例如,如果你想 读取以 tab 分割的数据,可以这样做:


        with open('stock.tsv') as f:
        f_tsv = csv.reader(f, delimiter='\t')
        for row in f_tsv:
          pass

        如果你正在读取 CSV 数据并将它们转换为命名元组,需要注意对列名进行合法性 认证。例如,可以像下面这样在非法标识符上使用 一个正则表达式替换:

          import re
          with open('stock.csv') as f:
          f_csv = csv.reader(f)
          headers = [ re.sub('[^a-zA-Z_]', '_', h) for h in next(f_csv) ]
          Row = namedtuple('Row', headers)
          for r in f_csv:
            row = Row(*r)
          


          还有重要的一点需要强调的是,csv 产生的数据都是字符串类型的,它不会做任何 其他类型的转换。如果你需要做这样的类型转换,你必须自己手动去实现。

          下面是一个 在 CSV 数据上执行其他类型转换的例子:

            col_types = [str, float, str, str, float, int]
            with open('stocks.csv') as f:
              f_csv = csv.reader(f)
              headers = next(f_csv)
              for row in f_csv:
                row = tuple(convert(value) for convert, value in zip(col_types, row))


            通常来讲,可能并不想过多去考虑这些转换问题。在实际情况中,CSV 文件都 或多或少有些缺失的数据,被破坏的数据以及其它一些让转换失败的问题。因此,除非 你的数据确实有保障是准确无误的,否则你必须考虑这些问题 (你可能需要增加合适的 错误处理机制)

            最后,如果你读取 CSV 数据的目的是做数据分析和统计的话,你可能需要看一看 Pandas 包。Pandas 包含了一个非常方便的函数叫 pandas.read_csv() ,它可以加载 CSV 数据到一个 DataFrame 对象中去。然后利用这个对象你就可以生成各种形式的统 计、过滤数据以及执行其他高级操作了。

            相关文章
            |
            23天前
            |
            编解码 数据挖掘 开发者
            Pandas数据导出:CSV文件
            Pandas是Python中强大的数据分析库,提供了灵活的数据结构如DataFrame和Series。通过`to_csv()`函数可轻松将数据保存为CSV文件。本文介绍了基本用法、常见问题(如编码、索引、分隔符等)及解决方案,并涵盖大文件处理和报错解决方法,帮助用户高效导出数据。
            141 83
            |
            3月前
            |
            存储 数据挖掘 Java
            csv和excel
            【10月更文挑战第18天】csv和excel
            140 5
            |
            3月前
            |
            存储 Python
            CSV文件
            【10月更文挑战第18天】CSV文件
            157 2
            |
            1月前
            |
            数据挖掘 索引 Python
            Pandas数据读取:CSV文件
            Pandas 是 Python 中强大的数据分析库,`read_csv` 函数用于从 CSV 文件中读取数据。本文介绍 `read_csv` 的基本用法、常见问题及其解决方案,并通过代码案例详细说明。涵盖导入库、读取文件、指定列名和分隔符、处理文件路径错误、编码问题、大文件读取、数据类型问题、日期时间解析、空值处理、跳过行、指定索引列等。高级用法包括自定义列名映射、处理多行标题和注释行。希望本文能帮助你更高效地使用 Pandas 进行数据读取和处理。
            87 13
            |
            5月前
            |
            索引 Python
            python pandas 把数据保存成csv文件,以及读取csv文件获取指定行、指定列数据
            该文档详细介绍了如何使用Python的Pandas库处理图像数据集,并将其保存为CSV文件。示例数据集位于`test_data`目录中,包含5张PNG图片,每张图片名中的数字代表其标签。文档提供了将这些数据转换为CSV格式的具体步骤,包括不同格式的数据输入方法(如NumPy数组、嵌套列表、嵌套元组和字典),以及如何使用`pd.DataFrame`和`to_csv`方法保存数据。此外,还展示了如何读取CSV文件并访问其中的每一行和每一列数据,包括获取列名、指定列数据及行数据的操作方法。
            142 1
            |
            8月前
            |
            关系型数据库 大数据 Python
            如何快速创建千万行CSV 数据?
            如何快速创建千万行CSV 数据?
            185 0
            |
            数据处理
            R|批量循环处理同一格式文件-csv,txt,excel
            R|批量循环处理同一格式文件-csv,txt,excel
            134 0
            dataframe文件写入pickle文件和写入csv效率对比
            dataframe文件写入pickle文件和写入csv效率对比
            199 0
            dataframe文件写入pickle文件和写入csv效率对比
            C#读取CSV
            public class CSVFileHelper { /// /// 将DataTable中数据写入到CSV文件中 /// /// 提供保存数据的DataTable /// CSV的文件路径 public static voi...
            2189 0
            |
            数据采集 Python
            Pandas 合并多个 (300多个) Excel 文件,并输出为 CSV 文件
            Pandas 合并多个 (300多个) Excel 文件,并输出为 CSV 文件