数据仓库介绍与实时数仓案例
1.数据仓库简介
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
搜索双链路实时计算体系@双11实战
该文章来自阿里巴巴技术协会(ATA)精选集
0. 前言
何为双链路实时计算体系?微观实时计算链路
a) 最细粒度商品/店铺/用户数据的实时
b) 底层模型的实时宏观实时计算链路
相比微观实时,宏观实时的对象粒度更粗,更上层
a) 以实时效果为目标,基于bandit learning的实
接着!!Apache Flink 全领域干货合集(持续更新)
Apache Flink 下一代开源大数据计算引擎, 可对有限数据流和无限数据流进行有状态计算,可部署在各种集群环境,对各种大小的数据规模进行快速计算。Flink 1.9.0 发布,在批流融合与功能特性上有重大更新,本专题将持续更新新增特性的具体说明及全领域干货。
Cassandra sstableloader工具使用及原理解析
sstableloader是cassandra提供的bulkload工具,可以将sstable文件导入到集群中。本文详细介绍其用法和实现原理。
用法
sstableloader工具在cassandra的bin目录下面,用法如下:
bin/sstableloader
大数据时代的结构化存储—HBase在阿里的应用实践
# 前言
时间回到2011年,Hadoop作为新生事物,在阿里巴巴已经玩得风生水起,上千台规模的"云梯"是当时国内名声显赫的计算平台。
这一年,Hadoop的好兄弟HBase由毕玄大师带入淘宝,开启了它的阿里之旅。