数据中台的存储系统和计算平台枚举
采集&传输层
SqoopHadoop、关系型数据库之间传输数据的工具。传输时,会启动多个MR作业并发的传输数据
DataX阿里巴巴开源的数据同步工具,用来在各种异构数据源之间同步数据。
如何使用deeptools处理BAM数据
如何使用deeptools处理BAM数据
总体介绍
deeptools是基于Python开发的一套工具,用于处理诸如RNA-seq, ChIP-seq, MNase-seq, ATAC-seq等高通量数据。
Flink最佳实践(一)流式计算系统概述
前言
传统的批处理拥有巨大 吞吐量 的优势,但是随之而来的是极其 高延迟 的缺陷。
随着大数据系统的不断发展,传统的批处理已然无法全部满足对 时效性 要求愈加严苛的业务需求。
为了适应逐渐变得 「实时」 的年代,大数据系统架构也由简单的批处理转向批流混合的Lambda架构,最后可能会逐渐演变成只有流计算的 高精准高时效 的Kappa架构。
FastReport.Net教程大全
转自博客
http://blog.csdn.net/ibigpig/article/details/8518184
FastReport.Net适用于那些使用Microsoft Visual Studio 2005/2008/2010,Delphi Prizm开发工具的开发人员。
【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库
本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了“高性能计算”和“大数据”的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储、数据处理和挖掘、机器学习以及深度学习等。