开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute事物表2.0的存储大小和小文件有人可以详细介绍下吗?比如我desc的到

大数据计算MaxCompute事物表2.0的存储大小和小文件有人可以详细介绍下吗?比如我desc的到的存储大小和,merge后的,snapshot,filenum都如何看具体的信息

展开
收起
真的很搞笑 2023-07-30 15:48:43 64 0
1 条回答
写回答
取消 提交回答
  • 在MaxCompute中,事务表2.0的存储大小和小文件问题是很常见的。下面我将详细介绍如何获取这些信息:

    1. 存储大小(Storage Size):你可以通过运行desc命令来查看事务表的存储大小。例如:

      desc extended your_table;
      

      在返回结果中,你会看到一个名为"RawDataSize"的字段,它表示原始数据的大小。另外,还有一个名为"DataSize"的字段,它表示压缩后的数据大小。

      注意,这里显示的存储大小是每个分区的统计值,并不是实际文件的大小。因此,在处理小文件问题时,需要注意查看每个分区的存储大小。

    2. 合并后的存储大小(Merged Storage Size):当你对事务表进行合并操作后,可以使用desc extended命令查看合并后的存储大小。例如:

      desc extended your_table after merge;
      

      在返回结果中,你会看到与之前相比存储大小显著减少的情况。

    3. Snapshot(快照):合并操作生成的快照是一种优化方式,它将多个小文件合并成更大的文件。你可以使用以下命令查看事务表的快照情况:

      show snapshots for table your_table;
      

      返回结果将显示每个分区的快照信息,包括快照ID、创建时间等。

    4. 小文件数量(Number of Small Files):使用desc extended命令可以查看每个分区的小文件数量。例如:

      desc extended your_table;
      

      返回结果中的"small file number"字段表示每个分区的小文件数量。

    解决小文件问题的一种常见方法是进行合并操作,将多个小文件合并成更大的文件。可以使用相应的命令或参数来执行合并操作,例如merge命令或设置odps.sql.merge.smallfile.enable参数为true。

    2023-07-31 18:32:50
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载