Spark

首页 标签 Spark
# Spark #
关注
9088内容
Spark SQL 性能优化再进一步:CBO 基于代价的优化
本文将介绍 CBO,它充分考虑了数据本身的特点(如大小、分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan。
探秘Hadoop生态10:Spark架构解析以及流式计算原理
导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。
创业一年来经历的技术风雨
本文来自中生代技术群的分享,BigEye科技联合创始人与技术负责人张逸将为大家分享来自于自身创业一年来经历的技术风雨。创业的路上,且行且珍惜。
【Hadoop Summit Tokyo 2016】Hivemall: Apache Hive/Spark/Pig 的可扩展机器学习库
本讲义出自 Makoto YUI与NTT Takashi Yamamuro在Hadoop Summit Tokyo 2016上的演讲,主要介绍了Hivemall的相关知识以及Hivemall在Spark上的应用,Hivemall是可以用于Apache Hive/Spark/Pig 的可扩展机器学习库。
【Spark Summit East 2017】物联网容量规划的预测分析
本讲义出自Constant Wette在Spark Summit East 2017上的演讲,物联网(IoT)是一个日益增长的网络,与传统人类的沟通方式不同,物联网支持各种网络类型并且能够满足各种网络需求,这也导致出现了物联网的网络标准,为了优化对于物联网基础设施投资,需要使用动态方法调查网络容量规划情况,以适应特定的需求,本讲义介绍了基于Hadoop和Spark构建的综合分析框架以及一些用于验证准确性的案例。
Spark Streaming 数据清理机制
大家刚开始用Spark Streaming时,心里肯定嘀咕,对于一个7*24小时运行的数据,cache住的RDD,broadcast 系统会帮忙自己清理掉么?还是说必须自己做清理?如果系统帮忙清理的话,机制是啥?
免费试用