开源大数据平台 E-MapReduce的搜索结果_热门

阿里云大数据Al技术

|

博文

|

阿里云 EMR 基于 Apache DolphinScheduler 产品技术实践和社区贡献

本文整理自阿里云 EMR 数据开发团队负责人孙一凡（Evans 忆梵），在 Apache Spark & DS Meetup 的分享

# 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 存储 # 分布式计算 # Cloud Native # 数据可视化 # IDE # 大数据 # 测试技术 # 调度 # 开发工具 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 Release Note 里面果然一个 Spark Streaming 相关的 ticket 都没有。

# 开源大数据平台 E-MapReduce # 云消息队列 Kafka 版 # 实时计算 Flink版 # 存储 # 分布式计算 # API # 流计算 # Spark

开发者说

|

博文

|

来自：大数据与机器学习

限免首发 | Spark 企业级实战集锦，国内Spark开发者的进阶指南！

《Apache Spark 中文实战攻略》上下两册电子书重磅来袭，本书集结国内外顶级大厂技术专家，汇集多年实战经验，带你走进全球顶级开源社区之一 Apache Spark，探秘时下最流行的开源分布式内存式大数据处理引擎。

# 开源大数据平台 E-MapReduce # 容器服务Kubernetes版 # 云原生大数据计算服务 MaxCompute # 分布式计算 # Spark # Apache # 大数据 # 容器 # Kubernetes # 数据挖掘 # 机器学习/深度学习 # 算法框架/工具 # 知识图谱

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Lakehouse 架构解析与云上实践

本文整理自 DataFunCon 2021大会上，阿里云数据湖构建云产品研发陈鑫伟的分享，主要介绍了 Lakehouse 的架构解析与云上实践。

# 开源大数据平台 E-MapReduce # 数据管理 # 云原生大数据计算服务 MaxCompute # 对象存储 # 实时计算 Flink版 # 云解析DNS # 存储 # SQL # 分布式计算 # 运维 # 数据管理 # 大数据 # 对象存储 # HIVE # Spark # 流计算

阿里云大数据

|

8月前

|

博文

|

来自：大数据与机器学习

百观科技基于阿里云 EMR 的数据湖实践分享

百观科技为应对海量复杂数据处理的算力与成本挑战，基于阿里云 EMR 构建数据湖。EMR 依托高可用的 OSS 存储、开箱即用的 Hadoop/Spark/Iceberg 等开源技术生态及弹性调度，实现数据接入、清洗、聚合与分析全流程。通过 DLF 与 Iceberg 的优化、阶梯式弹性调度（资源利用率提升至70%）及倚天 ARM 机型搭配 EMR Trino 方案，兼顾性能与成本，支撑数据分析需求，降低算力成本。

# 开源大数据平台 E-MapReduce # 存储 # 分布式计算 # OLAP # 调度 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

使用Spark Streaming SQL基于时间窗口进行数据统计

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理，同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例，介绍如何使用Spark Streaming SQL对事件时间进行操作。

# 开源大数据平台 E-MapReduce # 日志服务

扬流

|

博文

|

来自：大数据与机器学习

猿辅导基于 EMR StarRocks 的 OLAP 演进之路

猿辅导大数据平台团队负责人申阳分享了猿辅导基于EMR StarRocks 的 OLAP 演进之路。

# 云原生数据仓库AnalyticDB MySQL版 # 云数据库 RDS MySQL 版 # 云原生大数据计算服务 MaxCompute # 开源大数据平台 E-MapReduce # SQL # 关系型数据库 # MySQL # BI # OLAP # 存储 # 分布式计算 # 监控 # druid # HIVE

扬流

|

博文

|

来自：大数据与机器学习

云栖实录 | 阿里云 OpenLake 解决方案重磅发布：多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

阿里云 OpenLake 解决方案重磅发布，构建大数据、搜索、AI 一体化的能力体系，实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发，助力企业基于数据资产构筑竞争力。

# 云原生数据仓库AnalyticDB MySQL版 # 数据管理 # 开源大数据平台 E-MapReduce # 云原生大数据计算服务 MaxCompute # 存储 # 人工智能 # 分布式计算 # 数据管理 # 大数据

阿里云大数据

|

8月前

|

博文

|

来自：大数据与机器学习

千万级数据秒级响应！碧桂园基于 EMR Serverless StarRocks 升级存算分离架构实践

碧桂园服务通过引入 EMR Serverless StarRocks 存算分离架构，解决了海量数据处理中的资源利用率低、并发能力不足等问题，显著降低了硬件和运维成本。实时查询性能提升8倍，查询出错率减少30倍，集群数据 SLA 达99.99%。此次技术升级不仅优化了用户体验，还结合AI打造了“一看”和“—问”智能场景助力精准决策与风险预测。

# 函数计算 # 开源大数据平台 E-MapReduce # 存储 # 运维 # Serverless # BI # OLAP

开源大数据EMR

|

博文

|

来自：大数据与机器学习

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析，例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析，比如分析用户的网页点击行为，此时就需要对UV做统计。

# 开源大数据平台 E-MapReduce # 云数据库 Tair（兼容 Redis） # 日志服务 # 分布式计算 # Spark # SQL # 流计算 # NoSQL # Redis

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce