开源大数据平台 E-MapReduce的搜索结果_热门

扬流

|

博文

|

来自：大数据与机器学习

阿里云 EMR Serverless Spark 版开启免费公测

EMR Serverless Spark 版免费公测已开启，预计于2024年06月25日结束。公测阶段面向所有用户开放，您可以免费试用。

# 对象存储 # 函数计算 # 开源大数据平台 E-MapReduce # 存储 # 分布式计算 # Serverless # 数据处理 # Spark

扬流

|

博文

|

来自：大数据与机器学习

云栖实录 | 阿里云 OpenLake 解决方案重磅发布：多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云 OpenLake 解决方案重磅发布，构建大数据、搜索、AI 一体化的能力体系，实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发，助力企业基于数据资产构筑竞争力。

# 云原生数据仓库AnalyticDB MySQL版 # 数据管理 # 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 存储 # 人工智能 # 分布式计算 # 数据管理 # 大数据

xy_xin

|

博文

|

来自：大数据与机器学习

列式存储系列（一）C-Store

列式存储系列（一）概述序本文是列式存储系列的第一篇。在这个系列中，我们将介绍几个典型的列式存储系统。这些列式系统的出现都有各自的时代背景。在介绍这些系统的同时，我们也尽量介绍一下它们的背景，以便大家有一个更宏观的认识，理解这个系统为什么会出现，它要解决的问题，以及它如何影响后来类似系统的发展。

# 开源大数据平台 E-MapReduce # 存储 # SQL # 大数据 # 数据库 # 索引

开源大数据EMR

|

博文

|

来自：大数据与机器学习

使用Spark Streaming SQL基于时间窗口进行数据统计

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理，同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例，介绍如何使用Spark Streaming SQL对事件时间进行操作。

# 开源大数据平台 E-MapReduce # 日志服务

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

关于云原生分布式计算和存储引擎JindoFS，看这一篇就够了

本文集合了JindoFS相关的文章介绍和视频链接。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 分布式计算 # Cloud Native # 大数据 # Hadoop # 数据挖掘 # 云栖大会 # 对象存储 # Spark # 开发工具

开源大数据EMR

|

博文

|

来自：大数据与机器学习

EMR Spark-SQL性能极致优化揭秘 RuntimeFilter Plus

在 2019 年的打榜测试中，我们基于 Spark SQL Catalyst Optimizer 开发的 RuntimeFilter 优化对于 10TB 数据 99 query 的整体性能达到 35% 左右的提升。

# 开源大数据平台 E-MapReduce # 存储 # 分布式计算 # 算法 # Spark # 索引 # SQL # 大数据 # Apache # HIVE

开源大数据EMR

|

博文

|

来自：大数据与机器学习

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

SparkSQL多年来的性能优化集中在Optimizer和Runtime两个领域。前者的目的是为了获得最优的执行计划，后者的目的是针对既定的计划尽可能执行的更快。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # Java # 大数据 # BI # HIVE # Spark # C++ # Python # MaxCompute

扬流

|

博文

|

来自：大数据与机器学习

阿里云EMR 2.0：定义下一代云原生智能数据湖

本次分享主要介绍了阿里云云原生数据湖分析解决方案的三个核心要素：全托管，湖存储；一站式，湖管理；多模态，湖计算。

# 开源大数据平台 E-MapReduce # 函数计算 # 云原生大数据计算服务 MaxCompute # 对象存储 # 云原生数据仓库AnalyticDB MySQL版 # 存储 # SQL # 缓存 # 人工智能 # 分布式计算 # 运维 # 大数据 # Serverless # 对象存储 # Spark

扬流

|

博文

|

来自：大数据与机器学习

降本60% ，阿里云 EMR StarRocks 全新发布存算分离版本

阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本，该版本不仅基于开源 StarRocks 进行了全面优化，实现了存储与计算解耦架构，还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。

# 云原生数据仓库AnalyticDB MySQL版 # 开源大数据平台 E-MapReduce # 函数计算 # 对象存储 # SQL # 存储 # 缓存 # Serverless # 对象存储

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

# 开源大数据平台 E-MapReduce # 分布式计算 # Spark # Java

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce