Spark的搜索结果_热门_第17页-阿里云开发者社区

周志湖

|

博文

Spark修炼之道（高级篇）——Spark源码阅读：第十二节 Spark SQL 处理流程分析

作者：周志湖下面的代码演示了通过Case Class进行表Schema定义的例子： // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // this is used to implicitly convert an RDD to a Da

# SQL # 分布式计算 # Spark # Scala

taotao9229

|

博文

小米新一代大数据统计平台大公开

# 云原生大数据计算服务 MaxCompute # 云数据库HBase版 # 分布式计算 # druid # 大数据 # Spark # 流计算 # Hbase # 分布式数据库 # 前端开发 # SQL # 消息中间件

阿里云实时计算Flink

|

博文

|

来自：大数据与机器学习

Flink Batch SQL 1.10 实践

1.10可以说是第一个成熟的生产可用的Flink Batch SQL版本，它一扫之前Dataset的羸弱，从功能和性能上都有大幅改进，以下我从架构、外部系统集成、实践三个方面进行阐述。

# 实时计算 Flink版 # SQL # 资源调度 # 分布式计算 # Java # 数据库连接 # 调度 # Scala # HIVE # 流计算 # Spark

祝威廉

|

博文

Spark Streaming 数据接收优化

文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。

# 云消息队列 Kafka 版 # 分布式计算 # Java # Spark # 流计算 # 消息中间件 # Kafka # API

技术小甜

|

博文

Databricks缓存提升Spark性能--为什么NVMe固态硬盘能够提升10倍缓存性能（原创翻译）

我们兴奋的宣布Databricks缓存的通用可用性，作为统一分析平台一部分的 Databricks 运行时特性，它可以将Spark工作负载的扫描速度提升10倍，并且这种改变无需任何代码修改。 1、在本博客中，我们将介绍这个新特性的两个主要特点：易用性和性能。

# 存储 # 缓存 # 分布式计算 # Spark # 内存技术

中间件小哥

|

博文

|

来自：云原生

Spark随谈（一）—— 总体架构

Spark是一个小巧玲珑的项目，由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，充分体现了精简之美。 Spark之依赖（1）Map Reduce模型作为一个分布式计算框架，Spark采用了MapReduce

# 分布式计算 # 算法 # Hadoop # Scala # Spark # SQL # HIVE # 并行计算 # 图计算 # 设计模式

开源大数据EMR

|

博文

|

来自：大数据与机器学习

开源大数据周刊-第67期

# 云原生大数据计算服务 MaxCompute # 云消息队列 Kafka 版 # 开源大数据平台 E-MapReduce # 消息中间件 # 人工智能 # 分布式计算 # 大数据 # Spark

小猫吃鱼569

|

博文

【Spark Summit East 2017】Sparkler：Spark上的爬虫

本讲义出自Karanjeet Singh与Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演讲，主要介绍了利用了分布式计算和信息检索领域的最新发展技术并且组合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各种Apache项目的爬虫程序——Sparkler，Sparkler是一个具有高性能、高扩展性以及高性能的网络爬虫程序，并且是运行在Spark上Apache Nutch的进化。

# 数据采集 # 分布式计算 # 大数据 # Apache # Spark

周志湖

|

博文

Spark修炼之道（进阶篇）——Spark入门到精通：第五节 Spark编程模型（二)

作者：周志湖网名：摇摆少年梦微信号：zhouzhihubeyond 本文主要内容 RDD 常用Transformation函数 1. RDD 常用Transformation函数（1）union union将两个RDD数据集元素合并，类似两个集合的并集 union函数参数： /** * Return the union of this RDD

# 分布式计算 # Spark

开源大数据EMR

|

博文

|

来自：大数据与机器学习

【译】Apache Spark 2.4 内置数据源 Apache Avro

原文链接: Apache Avro as a Built-in Data Source in Apache Spark 2.4 Apache Avro 是一种流行的数据序列化格式。它广泛使用于 Apache Spark 和 Apache Hadoop 生态中，尤其适用于基于 Kafka 的数据流场景。

# 开源大数据平台 E-MapReduce # 云消息队列 Kafka 版 # Web App开发 # 分布式计算 # 测试技术 # Apache # Spark

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark