kudu入门 _应用场景_kudu|学习笔记

简介: 快速学习kudu入门 _应用场景_kudu

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段)kudu入门 _应用场景_kudu】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/676/detail/11750


kudu入门 _应用场景_kudu


方案四:Kudu

首先对前面的内容做一个总结,应用难点在于

(1)保存实时流数据,逐条插入

(2)在此基础之上,要进行批量扫描

而kudu可以保存实时流数据,逐条插入,并且在此基础之上,要进行批量扫描。kudu可以弥补 HDFS 和 Hbase 的不足,它是介于 HDFS 和 Hbase 之间的存储引擎。

Kudu 必须要满足以下两点要求:

1.能够让 Spark Streaming 的数据能够以一小批或者一条一条的方式来进行插入

2.还要提供近似于 Hbase 随机插入性。即在随机读写性能上,媲美 Hbase。Hbase 逐条插入性能非常高,因此 kudu要具备此性能。

3.kudu 在扫描性能即大规模数据分析性能,媲美 HDFS 上的 Parquet。

image.png

因此 Kudu 特别适合随机读写,在随机扫描上也很好,但没有 Parquet 性能高。完美的解决方案是不存在的,但有多种选择。Kudu 虽然没有 Parquet 高性能,但能媲美 hbase 插入性能,kudu 具有全面能力。

相关文章
|
存储 分布式计算 Hadoop
impala入门(一篇就够了)
impala入门(一篇就够了)
592 0
|
人工智能
从零开始学写歌词:关键技巧和方法一网打尽,妙笔生词AI智能写歌词软件
从零开始学写歌词,掌握关键技巧和方法,探索歌词创作的奇妙世界。借助“妙笔生词智能写歌词软件”,利用AI智能生成、优化和解读歌词等功能,轻松找到灵感,提升创作水平,创作出动人的歌词。
|
Java API
Java时间戳教程
本文详细介绍Java中时间戳的处理方法,包括获取当前时间戳、使用`java.time`包、时间戳与日期的相互转换及格式化等。示例代码展示了如何利用`System.currentTimeMillis()`和`java.time.Instant`获取时间戳,以及如何通过`Date`和`ZonedDateTime`进行日期转换和时区处理。随着Java 8引入的`java.time`包,日期时间操作变得更加强大和便捷,推荐在新项目中优先采用。
970 8
|
消息中间件 SQL 关系型数据库
实时计算 Flink版产品使用合集之读取kafka数据然后入库到starrocks,出现未知问题如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
530 1
|
安全 Java 数据库连接
【Java】java.util.concurrent.ExecutionException异常
【Java】java.util.concurrent.ExecutionException异常
1173 0
|
SQL 消息中间件 Kafka
Flink报错问题之SQL作业中调用UDTF报错如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
Java 数据库连接 API
Flink报错问题之用Tumble窗口函数报错如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
easyexcel Java
EasyExcel的使用
EasyExcel的使用
433 0
|
存储 缓存 NoSQL
高性能的本地缓存方案选型,看这篇就够了!
高性能的本地缓存方案选型,看这篇就够了!
24514 0