备案控制台

开发者社区问答正文

使用Flink sql insert 数据 to hive 之乱码问题？

各位大佬，大家好！帮看一下这个问题：我使用flink sql 基于Hive 进行批计算（目的是替换spark sql 的批计算），具体是从hive 中读数据，然后insert 回hive 的表，然后select 看数据时，出现乱码。软件版本：hadoop2.9.1和hadoop2.8.5、hive-2.3.3和hive-2.3.4、flink1.10.0、zeppelin0.9.0、Flink SQL gateway 0.1

切换了多个hadoop、hive版本（各版本软件均来自官方下载），以及测试了Flink Sql Cli、Zeppelin、Flink SQL gateway等Flink sql运行环境，均没解决问题。Flink 是Run on Yarn的，下面是测试使用的sql 脚本：

//hive 中 CREATE TABLE IF NOT EXISTS temp_h1( id VARCHAR(50), lac VARCHAR(50), ci VARCHAR(50), flux_m VARCHAR(50), nums VARCHAR(50), sno VARCHAR(50), cdate VARCHAR(50) ) row format delimited FIELDS TERMINATED BY ',' stored as textfile LOCATION '/tmp/hive/temp_h1';

CREATE TABLE IF NOT EXISTS temp_h2( id VARCHAR(50), lac VARCHAR(50), ci VARCHAR(50), flux_m VARCHAR(50), nums VARCHAR(50), sno VARCHAR(50), cdate VARCHAR(50) ) row format delimited FIELDS TERMINATED BY ',' stored as textfile LOCATION '/tmp/hive/temp_h2';

//测试数据(t.txt) 101,中国,100.02,123.001,1000020000,30,20200316 102,美国,100.02,123.001,1000020000,30,20200316 103,武汉,100.02,123.001,1000020000,30,20200316 104,北京,100.02,123.001,1000020000,30,20200316 105,俄罗斯,100.02,123.001,1000020000,30,20200316 106,海南,100.02,123.001,1000020000,30,20200316 107,香格里拉酒店,100.02,123.001,1000020000,30,20200316

//加载数据 load data local inpath '/home/hadoop/temp/t.txt' into table temp_h1;

//在FLink sql 中 insert into temp_h2 select * from temp_h1; select * from temp_h2; //出现乱码，而且数据不全

temp_h2 在hdfs 上的乱码文件见附件：cp-0-task-0-file-0 Flink sql 运行期间没有报错，yarn上运行的日志见附件：Executor.log

注，flink监控中显示信息：CsvTableSource(read fields: a, b) -> SourceConversion(table=[hive.test.temp_1, source: [CsvTableSource(read fields: a, b)]], fields=[a, b]) -> SinkConversionToRow -> Sink: Unnamed 。我有不清楚为啥使用的是SinkConversionToRow。

大家可以用我上面的代码也测试一下，帮验证一下，在你们的环境中，是否出现乱码问题，谢谢了！*来自志愿者整理的flink邮件归档

展开

收起

玛丽莲梦嘉 2021-12-02 16:28:57 946 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

又出bug了--
- SinkConversionToRow是Flink内部的数据结构转化结果，和结果正确性应该无关，具体看sink的。
- 似乎只有log一个附件，没看到乱码文件。
- 在Flink中试下“select * from temp_h1”看下结果？
- 在Hive中试下“select * from temp_h1”看下结果？
- 在Hive中试下“select * from temp_h2”看下结果？*来自志愿者整理的FLINK邮件归档
2021-12-02 17:23:18

赞同展开评论

问答分类：

SQL 分布式计算资源调度监控 Hadoop HIVE 流计算 Spark 实时计算 Flink版日志服务

问答标签：

SQL数据 flink SQL 实时计算 Flink版数据实时计算 Flink版SQL SQL乱码

问答地址：

开发者社区 > 大数据 > 问答

相关问答

DataWorks相同的ODPS SQL代码，开发环境中的记录insert顺序是好的这是什么问题？

101

1

0

PolarDB闪断影响 insert和update吗？会不会导致sql执行丢失？

109

1

0

Flink中，遇到cdc 同步中文表和中文列乱码怎么处理？

878

2

0

Flink CDC有遇到同步pg 数据库中文列乱码，中文表乱码，但是里面的值不乱码的情况吗？

157

1

0

Flink CDC里我数据库设置的字段类型是decimial为什么打印出来是乱码?

181

1

0

我们在用flink sql 做实时指标计算时，insert into语句能否动态修改？

196

0

0

在Flink CDC中，想问cdc 同步，源端数据库编码gbk ，得到增量值乱码这个问题怎么解决啊？

108

1

0

DataWorks一个sql脚本任务里面有多个select insert语句执行的时候是并行的吗？

142

1

0

实时计算Flink SQL如何实现insert overwrite到Hologres结果表

284

1

0

我这flink 开发和仿真环境两个小版本，现在仿真自己打的log.info 中文有乱码，怎么解决？

106

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

12月冬日咖啡礼｜大模型解决方案邀你来体验

相关文章

别再全量拉表了兄弟：一篇讲透增量数据处理与 CDC 的实战指南

接口最大并发量测试工具对比与最佳实践方案

Python装饰器：让代码更简洁优雅

PHP Session安全：从入门到安全实践

运维数据分析：别再只会翻日志了，真正的价值在“洞察”

还有其他疑问?