【Spark Summit East 2017】Sparkler:Spark上的爬虫
本讲义出自Karanjeet Singh与Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演讲,主要介绍了利用了分布式计算和信息检索领域的最新发展技术并且组合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各种Apache项目的爬虫程序——Sparkler,Sparkler是一个具有高性能、高扩展性以及高性能的网络爬虫程序,并且是运行在Spark上Apache Nutch的进化。
Spring Boot 整合 docker
一、什么是docker ?
简介
Docker是一个开源的引擎,可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者在笔记本上编译测试通过的容器可以批量地在生产环境中部署,包括VMs(虚拟机)、bare metal、OpenStack 集群和其他的基础应用平台。
里程碑 | Apache RocketMQ 正式开源分布式事务消息
近日,Apache RocketMQ 社区正式发布4.3版本。此次发布不仅包括提升性能,减少内存使用等原有特性增强,还修复了部分社区提出的若干问题,更重要的是该版本**开源了社区最为关心的分布式事务消息**,而且实现了对外部组件的零依赖。接下来,本文将详细探秘RocketMQ事务消息的设计原理以及实现机制。