Apache Hive--特殊分隔符处理| 学习笔记

简介: 快速学习 Apache Hive--特殊分隔符处理

开发者学堂课程【大数据 Hive 教程精讲:课时名称】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/90/detail/1384


Apache Hive--特殊分隔符处理


内容介绍:

一、特殊分隔符处理(扩展)


一、特殊分隔符处理(扩展)

hive 读取数据的机制:

首先用 InputFormat

<默认是:org.apache.hadoop.mapred.TextInputFormat >的一个具体实现类读入文件数据,返回一条一条的记录(可以是行,或者是逻辑中的“行”)

然后利用 SerDe<默认: org. apache. hadoop.hive.serde2.lazy. LazySimpleSerDe>的一个具体实现类,对上面返回的一条一条的记录进行字段切割。

Hive 对文件中字段的分隔符默认情况下只支持单字节分隔符,如果数据文件中的分隔符是多字符的,如下所示:

01||zhangsan

02| | lisi

可用使用 RegexSerDe 通过正则表达式来抽取字段

drop table t_bi_reg;

create table t_bi_reg(id string,name string)

row format serde

'org.apache.hadoop.hive.serde2.RegexSerDe'

with serdeproperties(

'input.regex'='(.*)11/N1/(.*)".

'output.format.string'='%1$s %2$s'

stored as textfile;

hive>load data local inpath ' /root/hivedata/bi.dat' into table t_bi_reg;

hive>select * from t_bi_reg;

其中:

input.regex:输入的正则表达式

表示||左右两边任意字符被抽取为一个字段

output.format.string:输出的正则表达式

%1$s%2$s则分别表示表中的第一个字段、第二个地段

注意事项:

使用 RegexSerDe 类时,所有的字段必须为 string

8.png

相关文章
|
18天前
|
SQL 分布式计算 Hadoop
Apache Hive 帮助文档
Apache Hive 帮助文档
51 9
|
6月前
|
SQL 数据可视化 Apache
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
阿里云数据库 SelectDB 内核 Doris 的 SQL 方言转换工具, Doris SQL Convertor 致力于提供高效、稳定的 SQL 迁移解决方案,满足用户多样化的业务需求。兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移。
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
|
SQL 关系型数据库 MySQL
Hive报错:HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me
Hive报错:HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me
646 0
|
SQL 大数据 Java
大数据Hive多字节分隔符
大数据Hive多字节分隔符
142 0
|
6月前
|
SQL JSON 算法
hive学习笔记
hive学习笔记
|
6月前
|
SQL 分布式计算 Java
Apache Hudi与Hive集成手册
Apache Hudi与Hive集成手册
338 0
|
6月前
|
SQL 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.15 安装HIVE
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
194 1
Hadoop学习笔记(HDP)-Part.15 安装HIVE
|
6月前
|
SQL 分布式计算 安全
HIVE启动错误:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeExcept
HIVE启动错误:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeExcept
262 0
|
6月前
|
SQL 分布式计算 MaxCompute
Apache Flink目前不支持直接写入MaxCompute,但是可以通过Hive Catalog将Flink的数据写入Hive表
Apache Flink目前不支持直接写入MaxCompute,但是可以通过Hive Catalog将Flink的数据写入Hive表
96 3
|
6月前
|
SQL 存储 Apache
流数据湖平台Apache Paimon(四)集成 Hive 引擎
流数据湖平台Apache Paimon(四)集成 Hive 引擎
448 0

热门文章

最新文章

推荐镜像

更多