阿里云E-MapReduce团队_个人页

个人头像照片 阿里云E-MapReduce团队
个人头像照片 个人头像照片 个人头像照片
217
14
0

个人介绍

暂无个人介绍

擅长的技术

  • Java
  • Python
  • 前端开发
  • Linux
  • 数据库
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2021年07月

2021年06月

2021年05月

2021年04月

2021年02月

  • 02.26 18:52:37
    发表了文章 2021-02-26 18:52:37

    Delta Lake在Soul的应用实践

    传统离线数仓模式下,日志入库前首要阶段便是ETL,我们面临如下问题:天级ETL任务耗时久,影响下游依赖的产出时间;凌晨占用资源庞大,任务高峰期抢占大量集群资源;ETL任务稳定性不佳且出错需凌晨解决、影响范围大。为了解决天级ETL逐渐尖锐的问题,所以这次我们选择了近来逐渐进入大家视野的数据湖架构,基于阿里云EMR的Delta Lake,我们进一步打造优化实时数仓结构,提升部分业务指标实时性,满足更多更实时的业务需求。
  • 02.25 14:13:52
    发表了文章 2021-02-25 14:13:52

    阿里云EMR实习生招聘

    阿里云EMR团队等你来加盟
  • 02.07 13:20:54
    发表了文章 2021-02-07 13:20:54

    数禾云上数据湖最佳实践

    数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在ECS上搭建了自己的Cloudera Hadoop集群。但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时数仓需求,日志分析需求,即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个Cloudera Hadoop集群的能力。为了减轻Cloudera集群的压力,我们结合自身业务情况,在阿里云上落地一个适合数禾当前现实状况的数据湖。
  • 02.07 13:19:22
    发表了文章 2021-02-07 13:19:22

    拥抱云原生,Fluid结合JindoFS :阿里云OSS加速利器

    Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用。在 Fluid 上使用和部署 JindoRuntime 实现数据集的可见性、弹性伸缩、数据迁移、计算加速等,并流程简单、兼容原生 k8s 环境、可以开箱即用。同时深度结合对象存储特性,使用navite框架优化性能,并支持免密、checksum校验等云上数据安全功能。
  • 02.07 13:18:06
    发表了文章 2021-02-07 13:18:06

    10亿+文件数压测,阿里云JindoFS轻松应对

    Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存,单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统,提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何,我们在 10亿文件数规模下做了压测,验证 JindoFS 在达到这个规模的时候是否还可以保持稳定的性能。
  • 02.04 19:08:45
    发表了文章 2021-02-04 19:08:45

    10亿+文件数压测,阿里云JindoFS轻松应对

    Apache Hadoop FileSystem (HDFS) 是被广为使用的大数据存储方案,其核心元数据服务 NameNode 将全部元数据存放在内存中,因此所能承载的元数据规模受限于内存,单个实例所能支撑的文件个数大约 4亿。JindoFS块模式是阿里云基于 OSS 海量存储自研的一个存储优化系统,提供了高效的数据读写加速能力和元数据优化能力。JindoFS 实际表现如何,我们在 10亿文件数规模下做了压测,验证 JindoFS 在达到这个规模的时候是否还可以保持稳定的性能。
  • 02.02 17:45:53
    发表了文章 2021-02-02 17:45:53

    拥抱云原生,Fluid结合JindoFS :阿里云OSS加速利器

    Fluid 是一个开源的 Kubernetes 原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的数据密集型应用。在 Fluid 上使用和部署 JindoRuntime 实现数据集的可见性、弹性伸缩、数据迁移、计算加速等,并流程简单、兼容原生 k8s 环境、可以开箱即用。同时深度结合对象存储特性,使用navite框架优化性能,并支持免密、checksum校验等云上数据安全功能。
  • 02.01 19:09:29
    发表了文章 2021-02-01 19:09:29

    E-MapReduce 2021-01 产品月刊

    1月份 E-MapReduce 上线EMR-3.33.x版本、EMR-4.6.x版,同步对SmartData 3.2.x版本进行更新;客户案例出新,《数禾云上数据湖最佳实践》和《阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践》;最佳实践视频《EMR弹性低成本大数据分析最佳实践》,欢迎大家观看。

2021年01月

  • 01.18 23:52:12
    发表了文章 2021-01-18 23:52:12

    数禾云上数据湖最佳实践

    数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在ECS上搭建了自己的Cloudera Hadoop集群。但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时数仓需求,日志分析需求,即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个Cloudera Hadoop集群的能力。为了减轻Cloudera集群的压力,我们结合自身业务情况,在阿里云上落地一个适合数禾当前现实状况的数据湖。
  • 01.13 22:35:09
    发表了文章 2021-01-13 22:35:09

    阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践

    为了消灭数据孤岛,企业往往会把各个组织的数据都接入到数据湖以提供统一的查询或分析。本文将介绍流利说当前数据接入的整个过程,期间遇到的挑战,以及delta在数据接入中产生的价值。

2020年12月

  • 12.25 15:54:23
    发表了文章 2020-12-25 15:54:23

    大数据和AI | 基于Spark的高性能向量化查询引擎

    由阿里云策划并成功举办的BigData和AI 见面会2020第二季在上海落下帷幕。在此次见面会上,几位业界大咖分别分享了有关大数据和AI的见解、洞察和领先技术等内容。本篇内容是由开源界知名的Databricks公司的技术主管范文臣分享的关于《基于Spark的高性能向量化查询引擎》。
  • 12.01 17:44:02
    发表了文章 2020-12-01 17:44:02

    2020收官行—BIGDATA + AI Meetup 2020第三站·北京站开启报名!

    始于开源,精于实践,作为2020年收官之战,本次 Meetup 又将让大数据和 AI 擦出怎样的技术花火?开源届冉冉升起的新星和风光无限的老将们将会用哪些精彩案例作为年度收尾?来自阿里云、滴滴出行、微博、Databricks、汇量科技、 Zilliz 等知名企业的技术大咖将以实践案例深度解读大数据+AI的现在与未来。落地到出行、应用于医疗、服务在社交媒体,我们从声音、影像、图片、数字···交织的信息巨网中撕出一道道出口,透出属于大数据人的科技之光。
  • 发表了文章 2021-12-22

    Lakehouse 架构解析与云上实践

  • 发表了文章 2021-12-17

    ClickHouse Keeper 源码解析

  • 发表了文章 2021-12-17

    【月刊】E-MapReduce 2021-11 产品月刊

  • 发表了文章 2021-12-16

    【月刊】E-MapReduce 2021-11 产品月刊

  • 发表了文章 2021-12-14

    【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构

  • 发表了文章 2021-12-14

    【ClickHouse 技术系列】- ClickHouse 聚合函数和聚合状态

  • 发表了文章 2021-12-09

    【ClickHouse 技术系列】- 在 ClickHouse 物化视图中使用 Join

  • 发表了文章 2021-12-08

    【ClickHouse 技术系列】- 使用新的 TTL move,将数据存储在合适的地方

  • 发表了文章 2021-12-06

    【ClickHouse 技术系列】- 在 ClickHouse 中处理实时更新

  • 发表了文章 2021-11-24

    基于 EMR OLAP 的开源实时数仓解决方案之 ClickHouse 事务实现

  • 发表了文章 2021-11-18

    如何构建云原生的开源大数据平台 | 产品新功能速递

  • 发表了文章 2021-11-18

    企业级数据湖最佳实践

  • 发表了文章 2021-11-11

    【月刊】E-MapReduce 2021-10 产品月刊

  • 发表了文章 2021-11-10

    如何构建云原生的开源大数据平台 | 微淼基于阿里云大数据生态的应用实践

  • 发表了文章 2021-11-09

    如何构建云原生的开源大数据平台 | InMobi 基于阿里云开源大数据服务的最佳实践

  • 发表了文章 2021-11-05

    如何构建云原生的开源大数据平台 | 云原生开源大数据应用实战

  • 发表了文章 2021-11-05

    百草味基于“ EMR+Databricks+DLF ”构建云上数据湖的最佳实践

  • 发表了文章 2021-11-02

    数据湖构建与计算

  • 发表了文章 2021-10-28

    云湖共生-释放企业数据价值

  • 发表了文章 2021-10-27

    贾扬清:云原生让数据湖加速迈入3.0时代

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2019-07-31

    阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

  • 回答了问题 2019-07-31

    阿里的EMR里推出了JindoFS, 也简称 jfs, 有用过的吗

    Jindo 是阿里云 EMR 的技术代号,寓意在云上会玩的弹性计算,JindoFS 是这个技术体系下的存储解决方案。 阿里云 HDFS 是一款云存储产品,跟 OSS 是同一级别的。JindoFS 是 EMR 产品内部的一个统一存储解决方案,对接各种存储系统。 JindoFS 是个多模系统,缓存这种模式是支持的。 JindoFS和smartFS是同类功能。 JindoFS 跟 Alluxio可能有些类似。不过我们希望更轻量,对计算和业务更透明。毕竟 Alluxio 要满足业界的各种存储系统,但是阿里云 EMR 不需要考虑那么多。
    踩0 评论0
  • 提交了问题 2019-05-29

    读取emr高安全集群的hbase数据

  • 回答了问题 2019-07-17

    读取emr高安全集群的hbase数据

    公网环境 怎么理解走公网验证?为何不走vpn/nat方式1、本地环境和EMR交互 不在一个vpc下EMR在线上环境 vpn没有打通线上环境结果集有多大?,运算倒是可以这样搞,如果是频繁的业务交互 不建议这样,还不如 本地集群 想办法 利用 oss
    踩0 评论0
  • 提交了问题 2019-04-26

    Spark Streaming 作业运行一段时间后无故结束

  • 提交了问题 2019-04-26

    多个 ConsumerID 消费同一个 Topic 时出现 TPS 不一致问题

  • 提交了问题 2019-04-26

    第一次使用执行计划时没有安全组可选

  • 提交了问题 2019-04-26

    如何查看作业日志

  • 提交了问题 2019-04-26

    作业和执行计划的区别

  • 回答了问题 2019-07-17

    E-MapReduce与ODPS的区别

    E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
    踩0 评论0
  • 回答了问题 2019-07-17

    使用emapreduce集群,怎么访问公网呢?包括计费等能详细解析下吗?

    1.E-MapReduce目前默认会给集群的master节点开通公网IP,classic网络下按照流量收费,vpc网络下使用的是EIP,eip会收取使用费和流量费用,使用费按照小时计费(每个region不一样,看了一下大概0.05元/小时),但是如果绑定了ecs,那么不会收取使用费,只收取流量费 2.用户自己购买的ECS(不是从E-MapReduce购买),如果想访问E-MapReduce集群: a) classic网络的ECS -> classic网络的E-MapReduce集群,可以给E-MapReduce集群设置安全组,通过内网访问,不收取流量费用 b) classic网络的ECS -> vpc网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群 c) vpc网络的ECS -> classic网络的E-MapReduce集群,只能通过公网访问E-MapReduce集群 d) vpc网络的ECS -> vpc网络的E-MapReduce集群,通过阿里云的高速通道产品进行连接访问 3.线下机器访问E-MapReduce集群,只能通过高速通道,而且E-MapReduce集群必须是VPC的 4.E-MapReduce集群访问公网 master节点默认有公网IP,可以直接访问公网,slave节点可以自己挂一个EIP,或者通过自己搭建一个NAT网关(详见https://help.aliyun.com/document_detail/27738.html)
    踩1 评论0
  • 回答了问题 2019-07-17

    我刚才提了个问题,postgresql的,说有敏感词汇,能否审核通过。

    应该很快就能通过
    踩0 评论0
  • 提交了问题 2016-05-26

    如何导出HBase的表的数据

  • 回答了问题 2019-07-17

    使用E-MapReduce,spark中读取oss文件

    看了你的日志,感觉是你的endpoint写错了把,你再确认一下。
    踩0 评论0
正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息