Spark

首页 标签 Spark
# Spark #
关注
9112内容
【Spark Summit East 2017】pySpark时间序列分析新方向
本讲义出自David Palaitis在Spark Summit East 2017上的演讲,主要介绍了无论是物联网(loT),财务数据分析,还是时间序列分析都需要合适工具和技术,目前很明显缺少Pandas和pySpark栈的相关软件。
Spark 2.0 Structured Streaming 分析
Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流式数据,复用了其对象的Catalyst引擎。
使用spark-redis组件访问云数据库Redis
本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。
5分钟迅速搭建云上Lambda大数据分析架构
主要介绍基于 Tablestore 的数据变更实时捕获订阅能力,实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景,通过流计算实现订单大屏的场景,做到海量订单实时注入的同时,进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示
实时数据处理框架调研
产品 模型 API 保证次数 容错机制 状态管理 延时 吞吐量 成熟度 Storm Native Compositional At least once Record ACKs Not built-in < 1s Low High Trident Micro-batching Compositi.
十步直通深度学习
随着深度学习的不断火热,任何一个开发者都想上深度学习这趟快车。本文作者通过自己的实践过程总结了学习经验,现在分享给大家。
Redis Cluster 生产实践整理
1、最佳实践 1.1 应用做好容错机制 连接或者请求异常,进行连接retry和reconnect。 做存储使用的 Redis systemd 去掉 Auto Restart 配置,避免Master加载空dump.rdb,replicate到Slave,刷掉Slave数据。 重试时间应该大于c
【Spark Summit East 2017】Clipper:一个低延迟在线预测服务系统
本讲义出自Dan Crankshaw在Spark Summit East 2017上的演讲,主要介绍了Clipper——一个通用的低延迟预测服务系统,介于最终用户应用程序和各种机器学习框架之间的Clipper模块化的体系结构来简化对于模型的跨框架部署,此外,Clipper通过引入缓存、批处理和自适应模型选择技术,减少了预测延迟并且提高了吞吐量和预测精度以及系统的鲁棒性。
Kubernetes知识小普及
   大部分概念Kubernete官网都有详细介绍,Kubernete中文官网 https://kubernetes.io/zh/docs/tutorials/kubernetes-basics/    官网还提供一个比较好的功能是能在线互动,见互动教程,类似实操命令初步感受。
免费试用