Spark

首页 标签 Spark
# Spark #
关注
9111内容
【Spark Summit East 2017】基于Elastic Spark Streaming的自动伸缩系统
本讲义出自PhuDuc Nguyen在Spark Summit East 2017上的演讲,主要介绍了不支持开箱即用的在不中断实时Spark Streaming任务的同时能够添加或删除节点的功能。并介绍了Elastic Spark Streaming任务能够自动调整对于数据流的体积和流量的需求。
一次设计演进之旅 | 张逸
我们需要实现对存储在HDFS中的Parquet文件执行数据查询,并通过REST API暴露给前端以供调用。由于查询的结果可能数量较大,要求API接口能够提供分页查询。在第一阶段,需要支持的报表有5张,需要查询的数据表与字段存在一定差异,查询条件也有一定差异。 每个报表的查询都牵涉到多张...
Spark-Yarn架构介绍
1.简介 MapReduct框架从hadoop-0.23版本以后发生了重大的变革, 新的计算框架我们称为MapReudce 2.0 或者 YARN(Yet-Another-Resource-Negotiator) 这篇文章主要是简单的介绍YARN的架构, 因为后续我们都会使用YARN提交Spark程序 MapReduct 2.
Druid:实时处理时序数据的OLAP数据库
大数据分析和Druid 大数据一直是近年的热点话题,随着数据量的急速增长,数据处理的规模也从GB 级别增长到TB 级别,很多图像应用领域已经开始处理PB 级别的数据分析。
用Flink取代Spark Streaming!知乎实时数仓架构演进
本文主要讲述知乎的实时数仓实践以及架构的演进,这包括以下几个方面: - 实时数仓 1.0 版本,主题:ETL 逻辑实时化,技术方案:Spark Streaming。 - 实时数仓 2.0 版本,主题:数据分层,指标计算实时化,技术方案:Flink Streaming。
免费试用