开源大数据EMR_个人页

开源大数据EMR

文章

260

问答

视频

个人介绍

暂无个人介绍

擅长的技术

Java
Python
前端开发
Linux
数据库

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

...

暂无更多信息

发表了文章 2020-07-17

Apache Spark 3.0 中的向量化 IO
发表了文章 2020-07-17

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】
发表了文章 2020-07-16

大神带练， 0基础Spark训练营限时免费抢报！
发表了文章 2020-07-15

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略
发表了文章 2020-07-14

再出王牌：阿里云 Jindo DistCp 全面开放使用，成为阿里云数据迁移利器
发表了文章 2020-06-16

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
发表了文章 2020-06-16

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还
发表了文章 2020-06-12

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus
发表了文章 2020-06-11

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题
发表了文章 2020-06-09

6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】
发表了文章 2020-06-09

Spark-TFRecord: Spark将全面支持TFRecord
发表了文章 2020-06-08

不通过 Spark 获取 Delta Lake Snapshot
发表了文章 2020-06-04

直播 | 阿里、快手、Databricks、网易云音乐...国内外大数据大佬齐聚一堂要聊啥？
发表了文章 2020-06-04

阿里云发起首届 Spark “数字人体” AI 挑战赛 — 聚焦上班族脊柱健康
发表了文章 2020-05-21

首届 Apache Spark AI智能诊断大赛重磅来袭！
发表了文章 2020-05-20

SparkSQL与Hive metastore Parquet转换
发表了文章 2020-05-19

5月21日 Spark 社区直播【Spark on Zeppelin】
发表了文章 2020-05-18

物化视图在 SparkSQL 中的实践
发表了文章 2020-05-14

招聘！招聘！招聘！计算平台解决方案架构师专场
发表了文章 2020-05-14

Spark + AI Summit 2020 中文议题有奖征集

正在加载, 请稍后...

滑动查看更多

回答了问题 2020-03-16

怎样进钉钉2个群

赞0 踩0 评论0
提交了问题 2019-05-05

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？
提交了问题 2019-05-05

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？
提交了问题 2019-05-05

spark 与 tensorflow 结合有没有方案？
回答了问题 2019-07-17

请教一下，delta是不是可以理解为，是基于hdfs的行级别的数据库？然后对于更新数据对于hdfs产生小文件的解决方案是他会提供merge机制？

是的，可以大致这样理解。是行级别的，但下面存储格式基本上还是以 Parquet/ORC 列式为主；delta 小文件要及时合并的，否则性能很差。数据库这个提法不一定好，因为并不会用于 OLTP；可以说是数据仓库，OLAP 场景为主的。关于这个区别，我的一篇文章里面讲得比较细。可以看看。https://yq.aliyun.com/articles/699919?spm=a2c4e.11153959.0.0.4f427507ntu6fX

赞0 踩0 评论0
回答了问题 2019-07-17

workflow这个功能很期待，想问下他的工作流之间的依赖关系是怎么建立的，是用户自己定义么？

这个问题很高级，你们是不是已经在玩了？不过工作流的定义过程里面，必然会形成各个工作流节点之间的依赖关系，定义工作流本身就是定义各个节点和他们之间的上下游关系，也就形成了这些依赖关系。如果你问的是多个工作流之间是不是还可以形成更高层次的依赖关系，我没有深入去看，感觉目前还比较早一点，不一定已经支持了。

赞1 踩0 评论0
回答了问题 2019-07-17

spark 与 tensorflow 结合有没有方案？

分享里面(4月28日钉钉群分享）提到的 Hydrogen 项目就是要系统支持这些深度学习框架的。Spark 3.0 会包含进去。你找到相关 SPIP，JIRA 和 PPT 挖一下。

赞0 踩0 评论0
提交了问题 2019-04-26

E-MapReduce 集群 header 节点有公网 IP，存在安全风险，是否可以通过 ECS 控制台关闭公网 IP，关闭公网 IP 是否会对 E-MapReduce 服务产生影响?
提交了问题 2019-04-26

如何登陆 Core 节点，并进行 root 权限操作
提交了问题 2019-04-26

E-Mapreduce 主节点不允许安装其它软件？
提交了问题 2019-04-26

已有/现存 ECS 是否可以用到 EMR 集群中
提交了问题 2019-04-26

自动续费
提交了问题 2019-04-26

集群续费问题
提交了问题 2019-04-26

创建集群失败，构建失败 "The specified instance Type exceeds the maximum limit for the PostPaid instances. "
提交了问题 2019-04-26

创建大数据机型（D1）的问题
提交了问题 2019-04-26

高安全集群
提交了问题 2019-04-26

E-MapReduce 按量高配节点问题
提交了问题 2019-04-26

错误提示：指定的 InstanceType 未授权使用
提交了问题 2019-04-26

错误提示：zone 或者 Cluster 的库存不够了
提交了问题 2019-04-26

错误提示：The Node Controller is temporarily unavailable

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

开源大数据EMR_个人页

个人介绍

擅长的技术

E-MapReduce 4.0产品新特性

5分钟迅速搭建云上Lambda大数据分析架构

使用Spark Streaming SQL进行PV/UV统计

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

【译】Delta Lake 0.4.0 新特性演示：使用 Python API 就地转换与处理 Delta Lake 表

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS概述：云原生的大数据计算存储分离方案

Apache Flink : Checkpoint 原理剖析与应用实践

太难了！我耗费心力终于规划出了一张云栖大会日程表

实时 OLAP 系统 Druid

Apache Spark中国技术交流社区历次直播回顾（持续更新）

7月24日阿里云峰会.上海 开发者大会回看

【译】Hadoop发生了什么？我们该如何做？

【译】Hadoop发生了什么？我们该如何做？

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

深入剖析 Delta Lake：详解事务日志

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

EMR 升级Hadoop 2.8.5

EMR 最新版 EMR-3.22.0 发布

HIVE优化浅谈

8月28日社区直播【Spark Streaming SQL流式处理简介】

8月28日社区直播【Spark Streaming SQL流式处理简介】

8月14日Spark社区直播【Spark Shuffle 优化】

8月14日Spark社区直播【Spark Shuffle 优化】

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望

Spark on Kubernetes 的现状与挑战

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

使用EMR-Kafka Connect进行数据迁移

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

E-MapReduce产品探秘，扩展开源生态云上的能力

使用Spark Streaming SQL基于时间窗口进行数据统计

【译】使用Spark SQL 运行大规模基因组工作流

【译】数据湖正在成为新的数据仓库

钉钉群直播【E-MapReduce产品探秘，快速构建可扩展的高性能大数据平台】

钉钉群直播【Koalas 介绍】

【译】Spark-Alchemy：HyperLogLog的使用介绍

【译】Spark NLP使用入门

Spark内置图像数据源初探

钉钉群直播【Spark Relational Cache 原理和实践】

【译】Spark Streaming 框架在 5G 中的应用

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展 】

EMR Spark Relational Cache的执行计划重写

使用EMR Spark Relational Cache跨集群同步数据

钉钉群直播【Structured Steaming的进阶与实践 】

使用Apache Arrow助力PySpark数据处理

钉钉群直播【Migration to Apache Spark】

Apache Spark中国技术交流群升级到企业群啦！！！！！！

TalkingData的Spark On Kubernetes实践

Apache Spark 3.0 中的向量化 IO

7月23日社区直播【TFPark: Distributed TensorFlow in Production on Apache Spark】

大神带练， 0基础Spark训练营限时免费抢报！

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

再出王牌：阿里云 Jindo DistCp 全面开放使用，成为阿里云数据迁移利器

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

我们欠国内Spark开发者的，用一场掷地有声的中文峰会来还

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus

直播 | Delta Lake 如何帮助云用户解决数据实时入库问题

6月11日 JindoFS 系列直播【JindoFS 存储策略和读写优化】

Spark-TFRecord: Spark将全面支持TFRecord

不通过 Spark 获取 Delta Lake Snapshot

直播 | 阿里、快手、Databricks、网易云音乐...国内外大数据大佬齐聚一堂要聊啥？

7月24日阿里云峰会.上海开发者大会回看

钉钉群直播【MLFlow和spark在机器学习方面的进展、Project Hydrogen和spark在深度学习方面的进展】

钉钉群直播【Structured Steaming的进阶与实践】