开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

将每个关联结果都作为relational cache构建代价太大，并不现实，我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式，从而在加速用户查询的同时，减少创建和更新relational cache的代价。

# 开源大数据平台 E-MapReduce # 分布式计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

8月28日社区直播【Spark Streaming SQL流式处理简介】

本次直播将简要介绍EMR Spark Streaming SQL，主要包含Streaming SQL的语法和使用，最后做demo演示

# 开源大数据平台 E-MapReduce # 流计算 # 分布式计算 # Spark # SQL

司麟嘟嘟嘟

|

博文

|

来自：大数据与机器学习

如何在Spark中实现Count Distinct重聚合

背景 Count Distinct是SQL查询中经常使用的聚合统计方式，用于计算非重复结果的数目。由于需要去除重复结果，Count Distinct的计算通常非常耗时。为了支持更快速的非重复结果统计Spark还基于Hyperloglog实现了Approximate Count Distinct，用于统计非重复结果的近似值，支持。

# 开源大数据平台 E-MapReduce # SQL # 存储 # 分布式计算 # Spark

bean_stalk

|

博文

|

来自：大数据与机器学习

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

# 开源大数据平台 E-MapReduce # Java # 分布式计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Tablestore+Delta Lake(快速开始)

本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。

# 表格存储 # 开源大数据平台 E-MapReduce # NoSQL # 分布式计算 # Spark # 存储 # Java

建站专业户

|

1月前

|

博文

|

来自：大数据与机器学习

如何建设网站，网站制作的6个步骤

本文围绕企业及单位网站建设展开，详解从域名注册、服务器租用、模板选取、备案，到 SEO 推广与长期维护的完整流程。强调模板等工具可降低建站门槛、缩短周期，建议优先选择源码可控、可扩展的建站平台，同时需注重备案合规、安全维护与用户体验，助力高效打造专业网站，为数字化业务拓展奠定基础。

# 开源大数据平台 E-MapReduce # 监控 # 安全 # 前端开发 # Linux # SEO

云栖社区直播

|

博文

|

来自：大数据与机器学习

Delta元数据解析

本文介绍Delta的元数据管理相关内容，包括文件夹结构，元数据类型以及元数据产生流程等

# 开源大数据平台 E-MapReduce # 云解析DNS # 数据格式 # JSON # 流计算 # 存储 # 数据管理 # 分布式计算 # Spark # Apache # 大数据

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

超详攻略！Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察产品链接：https://www.aliyun.com/product/bigdata/spark（当前产品提供￥599首购试用活动，欢迎试用！）

# 开源大数据平台 E-MapReduce # 云数据库 RDS MySQL 版 # 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 机器学习/深度学习 # 人工智能 # 分布式计算 # 大数据 # 数据挖掘 # BI # 调度 # 对象存储 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

Data Lake 三剑客——Delta、Hudi、Iceberg 对比分析

定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal，起到 schema 管理、事务管理和数据管理的功能。

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # SQL # 存储 # 分布式计算 # Hadoop # 数据管理 # API # Apache # HIVE # Spark # 流计算

扬流

|

博文

|

来自：大数据与机器学习

深度解析数据湖存储方案Lakehouse架构【Databricks 数据洞察公开课】

从数据仓库、数据湖的优劣势，湖仓一体架构的应用和优势等多方面深度解析Lakehouse架构。

# 开源大数据平台 E-MapReduce # 对象存储 # 日志服务 # 云解析DNS # 存储 # 数据采集 # 机器学习/深度学习 # 分布式计算 # 大数据 # BI # 数据库 # 对象存储 # Spark # 数据格式

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce