Spark修炼之道(高级篇)——Spark源码阅读:第十二节 Spark SQL 处理流程分析
作者:周志湖
下面的代码演示了通过Case Class进行表Schema定义的例子:
// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// this is used to implicitly convert an RDD to a Da
Flink Batch SQL 1.10 实践
1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本,它一扫之前Dataset的羸弱,从功能和性能上都有大幅改进,以下我从架构、外部系统集成、实践三个方面进行阐述。
Spark随谈(一)—— 总体架构
Spark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。
Spark之依赖
(1)Map Reduce模型
作为一个分布式计算框架,Spark采用了MapReduce
【Spark Summit East 2017】Sparkler:Spark上的爬虫
本讲义出自Karanjeet Singh与Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演讲,主要介绍了利用了分布式计算和信息检索领域的最新发展技术并且组合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各种Apache项目的爬虫程序——Sparkler,Sparkler是一个具有高性能、高扩展性以及高性能的网络爬虫程序,并且是运行在Spark上Apache Nutch的进化。
Spark修炼之道(进阶篇)——Spark入门到精通:第五节 Spark编程模型(二)
作者:周志湖
网名:摇摆少年梦
微信号:zhouzhihubeyond
本文主要内容
RDD 常用Transformation函数
1. RDD 常用Transformation函数
(1)union
union将两个RDD数据集元素合并,类似两个集合的并集
union函数参数:
/**
* Return the union of this RDD
【译】Apache Spark 2.4 内置数据源 Apache Avro
原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4
Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中,尤其适用于基于 Kafka 的数据流场景。