Apache Spark中国技术交流社区历次直播回顾(持续更新)
Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉入群 https://qr.dingtalk.com/action/joingroup?code=v1,k1,jmHATP9Tk+okK7QZ5sw2oWSNLhkt2lCRvfHRdW7XhUQ=&_dt_no_comment=1&origin=11 更多视频和ppt资料请入群获得。
Apache Druid安装部署
一.Apache Druid简述
Apache Druid是MetaMarket公司研发,专门为做海量数据集上的高性能OLAP(OnLine Analysis Processing)而设计的数据存储和分析系统,目前在Apache基金会下孵化。
Spotify如何使用Cassandra实现个性化推荐
本文翻译自https://labs.spotify.com/2015/01/09/personalization-at-spotify-using-cassandra/在Spotify我们有超过6000万的活跃用户,他们可以访问超过3000万首歌曲的庞大曲库。
Spark修炼之道(高级篇)——Spark源码阅读:第二节 SparkContext的创建
博文推荐:http://blog.csdn.net/anzhsoft/article/details/39268963,由大神张安站写的Spark架构原理,使用Spark版本为1.2,本文以Spark 1.5.0为蓝本,介绍Spark应用程序的执行流程。
本文及后面的源码分析都以下列代码为样板
import org.apache.spark.{SparkConf, S
Spark HadoopRDD读取HDFS文件
- 源码分析Spark HadoopRDD是如何读取HDFS上的文件
- 分析HadoopRDD预分区的计算方式,非首个分区的开始位置计算
- 来三种情况分析,不同情部下HadoopRDD的分区计算方式