开源大数据平台 E-MapReduce的搜索结果_热门

开源大数据EMR

|

博文

|

Spark Codegen浅析

Codegen是Spark Runtime优化性能的关键技术，核心在于动态生成java代码、即时compile和加载，把解释执行转化为编译执行。Spark Codegen分为Expression级别和WholeStage级别，分别针对表达式计算和全Stage计算做代码生成，都取得了数量级的性能提升。本文浅析Spark Codegen技术原理。

# 开源大数据平台 E-MapReduce # 分布式计算 # Spark # Java

开源大数据EMR

|

博文

|

来自：大数据与机器学习

使用Spark Streaming SQL进行PV/UV统计

PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析，例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析，比如分析用户的网页点击行为，此时就需要对UV做统计。

# 开源大数据平台 E-MapReduce # 云数据库 Tair（兼容 Redis） # 日志服务 # 分布式计算 # Spark # SQL # 流计算 # NoSQL # Redis

阿里云E-MapReduce团队

|

博文

|

来自：大数据与机器学习

Flink在快手的应用实践与技术演进之路

Flink 在快手应用场景与规模 1. Flink 在快手应用场景快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中，然后接入 Flink 做实时计算，其中包括实时 ETL、实时分析、Interval Join 以及实时训练，最后的结果存到 Druid、ES 或者 HBase 里面，后面接入一些数据应用产品；同时这一份 Kafka 数据实时 Dump 一份到 Hadoop 集群，然后接入离线计算。

# 实时计算 Flink版 # 云消息队列 Kafka 版 # CDN # 日志服务 # 开源大数据平台 E-MapReduce # 存储 # 消息中间件 # 监控 # 调度 # 流计算

云无谓

|

博文

|

来自：大数据与机器学习

使用 Jupyter Notebook 运行 Delta Lake 入门教程

本文通过 jupyter notebook 工具演示了 Delta Lake 的官方教程

# 开源大数据平台 E-MapReduce # SQL # 分布式计算 # Linux # Shell # 流计算 # Spark # iOS开发 # MacOS # Windows

xy_xin

|

博文

|

来自：大数据与机器学习

列式存储系列（一）C-Store

列式存储系列（一）概述序本文是列式存储系列的第一篇。在这个系列中，我们将介绍几个典型的列式存储系统。这些列式系统的出现都有各自的时代背景。在介绍这些系统的同时，我们也尽量介绍一下它们的背景，以便大家有一个更宏观的认识，理解这个系统为什么会出现，它要解决的问题，以及它如何影响后来类似系统的发展。

# 开源大数据平台 E-MapReduce # 存储 # SQL # 大数据 # 数据库 # 索引

开源大数据EMR

|

博文

|

来自：大数据与机器学习

使用Spark Streaming SQL基于时间窗口进行数据统计

使用Spark Streaming SQL可以很方便的对事件数据中的时间字段进行处理，同时Spark Streaming SQL提供的时间窗口函数可以将事件时间按照一定的时间区间对数据进行统计操作。本文通过讲解一个统计用户在过去5秒钟内点击网页次数的案例，介绍如何使用Spark Streaming SQL对事件时间进行操作。

# 开源大数据平台 E-MapReduce # 日志服务

开源大数据EMR

|

博文

|

来自：大数据与机器学习

【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法

现在还没有一个统一的流式SQL语法标准，各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题，社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持，也会在后续的更新中吸收和支持这些优秀的设计建议。

# 开源大数据平台 E-MapReduce # 实时计算 Flink版 # SQL # 分布式计算 # Apache # 流计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

【译】Spark Streaming 框架在 5G 中的应用

原文链接: Applying the Spark Streaming framework to 5G 我们已经很长时间没有更新流处理框架的相关博客（apache-storm-vs-spark-streaming 和 apache-storm-performance-tuners），这次想分享一下我们关于当前流处理引擎及其在 5G 和 IoT 场景适用性的一些观点。

# 开源大数据平台 E-MapReduce

社区小助手

|

博文

|

来自：大数据与机器学习

#Apache Spark系列技术直播# 第六讲【 What's New in Apache Spark 2.4? 】

Apache Spark系列技术直播第六讲【 What's New in Apache Spark 2.4? 】 Abstract(简介): This talk will provide an overview of the major features and enhancements in Spark 2.

# 开源大数据平台 E-MapReduce # 分布式计算 # Apache # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用，作为实时计算的首选。本次分享structured steaming的使用，包含spark 2.4 structured streaming的新特性，API原理和使用场景等的介绍。

# 开源大数据平台 E-MapReduce

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

开源大数据平台 E-MapReduce