开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

作者：王道远，花名健身，阿里巴巴计算平台EMR技术专家。背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。

# 开源大数据平台 E-MapReduce # 云解析DNS # SQL # 存储 # 缓存 # 分布式计算 # Spark # HIVE # Apache # 数据挖掘 # 数据库 # 大数据

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS 是云原生的文件系统，可以提供OSS 超大容量以及本地磁盘的性能

# 云原生大数据计算服务 MaxCompute # 数据管理 # 对象存储 # 云解析DNS # 开源大数据平台 E-MapReduce # 对象存储 # 存储 # 分布式计算 # 缓存 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

本文介绍都有哪些情况会产生笛卡尔积，以及如何事前"预测"写的SQL会产生笛卡尔积从而避免

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # 大数据 # Apache # HIVE # Spark

扬流

|

博文

|

来自：大数据与机器学习

用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓实战分享

本文从用友畅捷通公司介绍及业务背景；数据仓库技术选型、实际案例及未来规划等方面，分享了用友畅捷通基于阿里云 EMR StarRocks 搭建实时湖仓的实战经验。

# 实时计算 Flink版 # 云数据库 RDS MySQL 版 # 实时数仓 Hologres # 云数据库 ClickHouse # 云原生数据仓库AnalyticDB MySQL版 # 开源大数据平台 E-MapReduce # 关系型数据库 # MySQL # BI # 调度 # 数据采集

扬流

|

博文

|

来自：大数据与机器学习

阿里云 EMR StarRocks 在七猫的应用和实践

本文整理自七猫资深大数据架构师蒋乾老师在《阿里云 x StarRocks：极速湖仓第二季—上海站》的分享。

# 实时计算 Flink版 # 云数据库 Tair（兼容 Redis） # 函数计算 # 开源大数据平台 E-MapReduce # 云原生数据仓库AnalyticDB MySQL版 # SQL # 存储 # NoSQL # Redis # HIVE

阿里云大数据

|

1月前

|

博文

|

来自：大数据与机器学习

EMR AI助手开启公测：用AI重塑大数据运维，更简单、更智能

EMR AI 助手开启公测，通过合理利用 EMR AI 助手的各项功能，可以快速查询资源信息、唤起相关操作、诊断组件异常、获取技术支持等，能帮您提升运维效率和操作体验。

# 开源大数据平台 E-MapReduce # 人工智能 # 弹性计算 # 运维 # 自然语言处理 # 大数据

寒沙牧

|

博文

|

来自：大数据与机器学习

YARN中的CPU资源隔离-CGroups

YARN中集成了CGroups的功能，使得NodeManger可以对container的CPU的资源使用进行控制，比如可以对单个container的CPU使用进行控制，也可以对NodeManger管理的总CPU进行控制。

# 开源大数据平台 E-MapReduce # 资源调度 # 测试技术 # Apache # 数据中心 # 容器

诚历

|

博文

|

来自：大数据与机器学习

大数据列式存储 Parquet 和 ORC 简介

随着大数据 Hadoop/Spark 开源生态的不断发展和成熟，TextFile、CSV这些文本格式存储效率低，查询速度慢，往往不能很好地满足大数据系统中存储和查询的需求，列式存储也在大数据社区逐渐兴起到成熟。

# 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # SQL # 存储 # 大数据 # 测试技术 # Apache # 数据库

开源大数据EMR

|

博文

|

来自：大数据与机器学习

JindoFS概述：云原生的大数据计算存储分离方案

JindoFS 是一套新的云原生的数据湖解决方案。在 JindoFS 之前，云上客户主要使用 HDFS 和 OSS/S3 作为大数据存储。HDFS 是 Hadoop 原生的存储系统，10 年来，HDFS 已经成为大数据生态的存储标准，但是我们也可以看到 HDFS 虽然不断优化，但是 JVM 的瓶颈也始终无法突破。

# 云原生大数据计算服务 MaxCompute # 块存储 # 对象存储 # 开源大数据平台 E-MapReduce # 存储 # 缓存 # 分布式计算 # 大数据 # 对象存储

bean_stalk

|

博文

|

来自：大数据与机器学习

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

# 开源大数据平台 E-MapReduce # Java # 分布式计算 # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce