阿里云E-MapReduce团队_个人页

阿里云E-MapReduce团队

文章

220

问答

视频

个人介绍

暂无个人介绍

擅长的技术

Java
Python
前端开发
Linux
数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

发表了文章 2021-12-22

Lakehouse 架构解析与云上实践
发表了文章 2021-12-17

ClickHouse Keeper 源码解析
发表了文章 2021-12-17

【月刊】E-MapReduce 2021-11 产品月刊
发表了文章 2021-12-16

【月刊】E-MapReduce 2021-11 产品月刊
发表了文章 2021-12-14

【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构
发表了文章 2021-12-14

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态
发表了文章 2021-12-09

【ClickHouse 技术系列】- 在 ClickHouse 物化视图中使用 Join
发表了文章 2021-12-08

【ClickHouse 技术系列】- 使用新的 TTL move，将数据存储在合适的地方
发表了文章 2021-12-06

【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新
发表了文章 2021-11-24

基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现
发表了文章 2021-11-18

如何构建云原生的开源大数据平台 | 产品新功能速递
发表了文章 2021-11-18

企业级数据湖最佳实践
发表了文章 2021-11-11

【月刊】E-MapReduce 2021-10 产品月刊
发表了文章 2021-11-10

如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践
发表了文章 2021-11-09

如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践
发表了文章 2021-11-05

如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战
发表了文章 2021-11-05

百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践
发表了文章 2021-11-02

数据湖构建与计算
发表了文章 2021-10-28

云湖共生-释放企业数据价值
发表了文章 2021-10-27

贾扬清：云原生让数据湖加速迈入3.0时代

正在加载, 请稍后...

滑动查看更多

提交了问题 2019-07-31

阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗
回答了问题 2019-07-31

阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

Jindo 是阿里云 EMR 的技术代号，寓意在云上会玩的弹性计算，JindoFS 是这个技术体系下的存储解决方案。阿里云 HDFS 是一款云存储产品，跟 OSS 是同一级别的。JindoFS 是 EMR 产品内部的一个统一存储解决方案，对接各种存储系统。 JindoFS 是个多模系统，缓存这种模式是支持的。 JindoFS和smartFS是同类功能。 JindoFS 跟 Alluxio可能有些类似。不过我们希望更轻量，对计算和业务更透明。毕竟 Alluxio 要满足业界的各种存储系统，但是阿里云 EMR 不需要考虑那么多。

赞0 踩0 评论0
提交了问题 2019-05-29

读取emr高安全集群的hbase数据
回答了问题 2019-07-17

读取emr高安全集群的hbase数据

公网环境怎么理解走公网验证？为何不走vpn/nat方式1、本地环境和EMR交互不在一个vpc下EMR在线上环境 vpn没有打通线上环境结果集有多大？，运算倒是可以这样搞，如果是频繁的业务交互不建议这样，还不如本地集群想办法利用 oss

赞0 踩0 评论0
提交了问题 2019-04-26

Spark Streaming 作业运行一段时间后无故结束
提交了问题 2019-04-26

多个 ConsumerID 消费同一个 Topic 时出现 TPS 不一致问题
提交了问题 2019-04-26

第一次使用执行计划时没有安全组可选
提交了问题 2019-04-26

如何查看作业日志
提交了问题 2019-04-26

作业和执行计划的区别
回答了问题 2019-07-17

E-MapReduce与ODPS的区别

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。大数据计算服务(MaxCompute，原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。

赞0 踩0 评论0
回答了问题 2019-07-17

使用emapreduce集群，怎么访问公网呢？包括计费等能详细解析下吗？

1.E-MapReduce目前默认会给集群的master节点开通公网IP，classic网络下按照流量收费，vpc网络下使用的是EIP，eip会收取使用费和流量费用，使用费按照小时计费(每个region不一样，看了一下大概0.05元/小时)，但是如果绑定了ecs，那么不会收取使用费，只收取流量费 2.用户自己购买的ECS(不是从E-MapReduce购买)，如果想访问E-MapReduce集群： a) classic网络的ECS -> classic网络的E-MapReduce集群,可以给E-MapReduce集群设置安全组,通过内网访问，不收取流量费用 b) classic网络的ECS -> vpc网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群 c) vpc网络的ECS -> classic网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群 d) vpc网络的ECS -> vpc网络的E-MapReduce集群,通过阿里云的高速通道产品进行连接访问 3.线下机器访问E-MapReduce集群，只能通过高速通道，而且E-MapReduce集群必须是VPC的 4.E-MapReduce集群访问公网 master节点默认有公网IP，可以直接访问公网，slave节点可以自己挂一个EIP，或者通过自己搭建一个NAT网关(详见https://help.aliyun.com/document_detail/27738.html)

赞0 踩1 评论0
回答了问题 2019-07-17

我刚才提了个问题，postgresql的，说有敏感词汇，能否审核通过。

应该很快就能通过

赞0 踩0 评论0
提交了问题 2016-05-26

如何导出HBase的表的数据
回答了问题 2019-07-17

使用E-MapReduce,spark中读取oss文件

看了你的日志，感觉是你的endpoint写错了把，你再确认一下。

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云E-MapReduce团队_个人页

个人介绍

擅长的技术

数据湖架构，为什么需要“湖加速”？

欢迎加入 databricks 数据洞察产品交流钉钉群

欢迎加入 E- MapReduce 钉钉产品交流群

JindoFS 存储策略和读写优化

官宣！阿里云重磅发布云原生数据湖体系

【数据湖开发治理篇】——数据湖开发治理平台DataWorks

Serverless Spark的弹性利器 - EMR Shuffle Service

云原生计算引擎挑战与解决方案

数据湖构建服务搭配Delta Lake玩转CDC实时入湖

多数据源一站式入湖

多引擎集成挖掘湖上数据价值

数据湖元数据服务的实现和挑战

JindoDistCp数据湖离线数据迁移最佳实践

JindoTable数据湖优化与查询加速

JindoFS缓存加速数据湖上的机器学习训练

基于JindoFS+OSS构建高效数据湖

基于OSS的EB级数据湖

阿里巴巴数据湖技术对外公布

阿里云 EMR 产品内部培训课程首次免费对外公开！

9月10日 Spark 社区直播【利用持久内存提速Spark】

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

8月27日 Spark 社区直播【OAP Spark 优化介绍: 通过索引和缓存优化交互式查询性能】

使用 E-MapReduce 构建云上数据湖

文末有福利！Spark 实战训练营新增1000名额，8月24日正式开课

Apache Spark™ 3.0中全新的Structured Streaming UI

9大训练营免费开营！阿里云大数据团队的独门绝学全在这了

Spark 3.0 对于 DATE 和 TIMESTAMP 的改进

深入研究Apache Spark 3.0的新功能

稳赚不赔～Spark社区招募志愿者！

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

Databricks数据洞察 限时免费开启公测！

重磅：阿里云 JindoFS SDK 全面开放使用，OSS 文件各项操作性能得到大幅提升

7月9日Spark社区直播【通过LLVM加速SparkSQL时间窗口计算】

回顾 | SPARK + AI SUMMIT 2020 中文精华版线上峰会圆满结束（附PPT下载）

SPARK + AI SUMMIT 2020 中文精华版线上峰会材料

Delta Lake 如何帮助云用户解决数据实时入库问题

JindoFS - 分层存储

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月5日议题

SPARK中文峰会上海会场预告篇｜Ray On Spark

7月2日 JindoFS 系列直播【Hadoop 小文件/冷文件分析】

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

Spark 10年，作者 Matei 在 Spark + AI Summit 2020 上深情回顾，Photon 引擎首次曝光

【程序员（媛）国人之光】知（美）识（色）贩卖贴】非标题党】

6月23日 Spark 社区技术直播【半小时，将你的Spark SQL模型变为在线服务】

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康

对象存储和新型分布式文件系统 - 填补Hadoop存储的空白

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

spark面试该准备点啥

Spark MLlib中KMeans聚类算法的解析和应用

关于云原生分布式计算和存储引擎JindoFS，看这一篇就够了

Lakehouse 架构解析与云上实践

ClickHouse Keeper 源码解析

【月刊】E-MapReduce 2021-11 产品月刊

【月刊】E-MapReduce 2021-11 产品月刊

【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构

【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态

【ClickHouse 技术系列】- 在 ClickHouse 物化视图中使用 Join

【ClickHouse 技术系列】- 使用新的 TTL move，将数据存储在合适的地方

【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现

如何构建云原生的开源大数据平台 | 产品新功能速递

Databricks数据洞察限时免费开启公测！