文档备案控制台

开发者社区大数据与机器学习大数据开发治理DataWorks 正文

DataWorks数据加工配置EMR Hive节点是什么？

DataWorks数据加工配置EMR Hive节点是什么？

展开

收起

真的很搞笑 2023-09-10 14:06:58 201 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

芯在这

配置ods_log_info_d节点。双击ods_log_info_d节点，进入节点配置页面。在节点编辑页面，编写如下语句。说明如果您的工作空间绑定多个EMR引擎，需要选择EMR引擎。如果仅绑定一个EMR引擎，则无需选择。--创建ODS层表CREATE TABLE IF NOT EXISTS ods_log_info_d (ip STRING COMMENT 'ip地址',uid STRING COMMENT '用户ID',time STRING COMMENT '时间yyyymmddhh:mi:ss',status STRING COMMENT '服务器返回状态码',bytes STRING COMMENT '返回给客户端的字节数',region STRING COMMENT '地域，根据ip得到',method STRING COMMENT 'http请求类型',url STRING COMMENT 'url',protocol STRING COMMENT 'http协议版本号',referer STRING COMMENT '来源url',device STRING COMMENT '终端类型 ',identity STRING COMMENT '访问类型 crawler feed user unknown')PARTITIONED BY (dt STRING);create function getregion as 'org.alidata.emr.udf.Ip2Region'using jar 'oss://dw-emr-demo/ip2region/ip2region-emr.jar';ALTER TABLE ods_log_info_d ADD IF NOT EXISTS PARTITION (dt=unknown);set hive.vectorized.execution.enabled = false;INSERT OVERWRITE TABLE ods_log_info_d PARTITION (dt=unknown)SELECT ip, uid, tm, status, bytes, getregion(ip) AS region --使用自定义UDF通过ip得到地域。, regexp_extract(request,
https://help.aliyun.com/document_detail/146698.html，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2023-09-10 19:48:10

赞同展开评论

问答分类：

SQL DataWorks HIVE 大数据开发治理平台 DataWorks

问答标签：

大数据开发治理平台 DataWorks数据大数据开发治理平台 DataWorks节点数据emr 配置Hive 大数据开发治理平台 DataWorks emr

问答地址：

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 问答

相关问答

旧版ECM架构的Hadoop集群绑定的Gateway集群节点组在EMR管控无法升配

175

1

0

hologres能映射emr的hive外表吧 hive 表往 holo 写数据有啥好的办法？

322

1

0

DataWorks把emr数据源删了再重新创建发现就这样了，后面这个项目空间没删就可以选？

225

1

0

有个dataworks空间已经重新绑定了一个EMR数据源，但是任务一直示：该文件对应引擎实例已失效？

247

1

0

我如何将一个oss 挂载到emr集群。以便通过hive sql 查询oss 里的日志数据？

239

0

0

Dataworks on EMR服务中，EMR集群的日常管理和维护工作主要由阿里云负责吗？

220

0

0

机器学习PAI训练数据的原始 hive表存在emr集群，pai如何才能组装好训练数据进行模型训练呢？

279

1

0

dataworks为啥只能读 maxcomputer 不能读 emr 呢？

288

1

0

dataworks能不能把某个数据集从 emr 跑出来以后导入 pai 里面使用？

163

1

0

DataWorks提交任务到 emr 集群跑的时候，在哪里可以设置内存资源？

349

13

0

大数据与机器学习

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

我要提问

相关文章

执行计划中的“隐藏信息”：读懂optimizer trace，看透优化器的每一步决策

2026免费BI产品选择指南，真实测评与推荐

SQL Server迁移必看！深度解析SQLServer兼容性三大核心维度与选型指南

为什么我说PostgreSQL是Agent Database的最佳选择

4D Gaussian Splatting 是怎么工作的：从规范 Gaussian 到形变场的原理拆解

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

高效存储和处理多媒体数据

热门讨论

热门文章

在DataWorks上使用PyODPS使用限制是什么？

调用数据源服务失败：调用数据源服务失败：获取实例的详细信息失败,请检查RDS购买者id和RDS实例名

maxcompute 和odps的关系是什么啊，我第一次做这个，有点不懂

DataWorks概述API网关是什么？

数据来源：com.alibaba.fastjson.JSONException: syntax er

DateWorks上运行的任务，被kill掉了，日志中能查出来，被谁杀掉了吗？

你好，Dataworks为什么di传输的时候，有个字段传过来之后为空，源端数据不是空，怎么排查原因？

在智能数据建模中涉及的FML是什么的缩写，什么意思？

数据服务报429请求次数过多咋办呀

DataWorks中ODPS SQL 执行计划是什么？

展开全部

云上一指禅：大数据产品DataWorks每日问答

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

长文详解｜DataWorks Data+AI一体化开发实战图谱

DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型，数据开发与分析效率再升级！

大数据&AI的16种可能，2020阿里云客户最佳实践合集下载

DataWorks产品使用合集之如何访问周期任务运维

欢迎加入飞天大数据平台交流群

【全新系列】DataWorks百问百答

DataWorks：新一代 Data+AI 数据开发与数据治理平台演进

DataWorks售前咨询

展开全部

还有其他疑问?