开发者社区> 问答> 正文

OSS如何投递到Parquet存储?

本文档主要介绍日志服务投递OSS使用Parquet存储的相关配置,关于投递日志到OSS的其它内容请参考 投递日志到 OSS

Parquet存储字段配置



数据类型


Parquet存储支持6种类型:string、boolean、int32、int64、float、double。
日志投递过程中,会将日志服务数据由字符串转换为Parquet目标类型。如果转换到非String类型失败,则该列数据为null。

列配置


请依次填写Parquet中需要的日志服务数据字段名和目标数据类型,在投递时将按照该字段顺序组织Parquet数据,并使用日志服务的字段名称作为Parquet数据列名,以下两种情况发生时将置数据列值为null:

  • 该字段名在日志服务数据中不存在。

  • 改字段由string转换非string(如double、int64等)失败。
    字段配置页面:


可配置的保留字段


在投递OSS过程中,除了使用日志本身的Key-Value外,日志服务保留同时提供以下几个保留字段可供选择:
保留字段语义
__time__日志的 Unix 时间戳(是从 1970 年 1 月 1 日开始所经过的秒数),由用户日志字段的 time 计算得到。
__topic__日志的 topic。
__source__日志来源的客户端 IP。

JSON格式存储会默认带上以上字段内容。
Parquet、CSV存储可以根据您的需求自行选择。例如您需要日志的topic,那么可以填写字段名:__topic__,字段类型string。

OSS存储地址

压缩类型文件后缀OSS文件地址举例
无外部压缩.parquetoss://oss-shipper-shenzhen/ecs_test/2016/01/26/20/54_1453812893059571256_937.parquet
snappy.snappy.parquetoss://oss-shipper-shenzhen/ecs_test/2016/01/26/20/54_1453812893059571256_937.snappy.parquet


数据消费



E-MapReduce / Spark / Hive


参考 社区文档

单机校验工具


开源社区提供的 parquet-tools可以用来文件级别验证Parquet格式、查看schema、读取数据内容。
您可以自行编译该工具或者点击 下载日志服务提供的版本。
  • 查看Parquet文件schema



  • 查看Parquet文件全部内容


[size=; font-size: 8pt,8pt][font='YaHei Consolas Hybrid']$ ja [font=PingFangSC, 'helvetica neue', 'hiragino sans gb', arial, 'microsoft yahei ui', 'microsoft yahei', simsun, sans-serif]更多用法请执行:java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar -h,参考帮助。



展开
收起
轩墨 2017-10-23 10:40:44 3308 0
0 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
OSS运维进阶实战手册 立即下载
《OSS运维基础实战手册》 立即下载
OSS运维基础实战手册 立即下载