菜鸟供应链实时数仓的架构演进及应用场景
菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。
Apache HBase常用命令
一.简述
Apache HBase是基于Apache Hadoop的面向列的NoSQL数据库,是Google的BigTable的开源实现。HBase是一个针对半结构化数据的开源的、多版本的、可伸缩的、高可靠的、高性能的、分布式的和面向列的动态模式数据库。
大数据基础知识问答----spark篇,大数据生态圈
Spark相关知识点
1.Spark基础知识
1.Spark是什么?
UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架
dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
SARO平台发展和架构简介
背景
什么是搜索离线
搜索是因应互联网海量数据检索查找的需求而诞生的,阿里巴巴商品搜索亦是如此,随着淘宝/天猫商品数量的不断增加,如何为用户从海量的商品库中找到心仪的目标变成了越来越大的挑战。
hive与hbase整合
-- hbase shell filter --
create 'test1', 'lf', 'sf'
-- lf: column family of LONG values (binary value)
-- sf: column family of STRING values
-- 一个用户(userX),在什么时间(