【Spark Summit East 2017】Spark中的草图数据和T-Digest
本讲义出自Erik Erlandson在Spark Summit East 2017上的演讲,大型数据集的草图概率分布的算法是现代数据科学的一个基本构建块,草图在可视化、优化数据编码、估计分位数以及数据合成等不同的应用中都有应用之地,T-Digest是一个通用的的草图的数据结构,并且非常适合于map-reduce模式,演讲中演示了Scala原生的T-Digest草图算法实现并证实了其在Spark的可视化展示、分位数估计以及数据合成的作用。
里程碑 | Apache RocketMQ 正式开源分布式事务消息
近日,Apache RocketMQ 社区正式发布4.3版本。此次发布不仅包括提升性能,减少内存使用等原有特性增强,还修复了部分社区提出的若干问题,更重要的是该版本**开源了社区最为关心的分布式事务消息**,而且实现了对外部组件的零依赖。接下来,本文将详细探秘RocketMQ事务消息的设计原理以及实现机制。
Spark修炼之道(基础篇)——Linux大数据开发基础:第五节:vi、vim编辑器(一)
本节主要内容
vim编辑器的三种模式
移动光标
输入模式
修改文本
作者:周志湖
微信号:zhouzhihubeyond
网名:摇摆少年梦
1. vi编辑器的三种模式
学会使用vi编辑器是学习linux系统的必备技术之一,因为一般的linux服务器是没有GUI界面的,linux运维及开发人员基本上都是通过命令行的方式进行文本编辑或程序编写的。vi编辑器是linu
为什么用Yarn来做Docker容器调度引擎
这篇文章是在一个微信群里和人聊天,然后整理出来的文字。当时Hulu推出了基于Yarn的Docker调度引擎。我正好那段时间也实现了一个类似的,经过交流,发现最后的实现基本是一致的。然而业界用的较多的是Mesos,这篇文章就是为了解释为什么选择用Yarn而不是Mesos来做。
创业一年来经历的技术风雨
本文来自中生代技术群的分享,BigEye科技联合创始人与技术负责人张逸将为大家分享来自于自身创业一年来经历的技术风雨。创业的路上,且行且珍惜。