这是我的第88篇原创
昨天参加了ClickHouse第二次线上大会,绝大多数时间都是俄罗斯老哥飙着带拐弯的俄罗斯口音英语,有点蒙圈。本来还想偷师,结果水平实在是不行,没听懂。
好在之前就已经了解过一些,要不昨天还白听了。
OLAP届的新秀
数据处理现在还是分为OLTP和OLAP。
OLTP(在线事务处理)优化的方向是高并发、高可用,是精确,是各种增删改查。所以面临和解决的问题都是怎么解决高并发下的增删改查,怎么解决脏读、脏写,保证数据一致性等问题。
OLAP(在线分析处理)的优化方向则是高速数据处理能力、高速读取能力。一般又分为两个优化方向,一个是预先计算好各个维度的数据,存成CUBE,分析的时候直接查询结果就行,这是MOLAP(Multidimensional OLAP,多维在线分析处理),典型代表的是Kylin。一个是结构化存好,然后用尽各种方法优化,分析的时候拼命计算,这是ROLAP(Relational OLAP,关系型在线分析处理),典型代表就是ClickHouse了。
ClickHouse有多火?在大数据领域,这个CK可是比内裤的CK更有吸引力的多!给你两张图感受一下:
注意看最后一个哈,经验不限,20-40K!
ClickHouse的特性
我以前是非常摒弃ROLAP的,因为实在是太慢了。ROLAP都是现算的,以前的套路基本都是生成一个巨复杂的sql扔到数据库里跑,那样能不慢么?
但是这个ClickHouse却不一样,它最显著的特性就是快!这不科学啊!
上图来自于Clickhouse-百分点分享
虽然各种测评都会选择偏向自己的指标,但是这也太悬殊了吧?ClickHouse的创始人yandex公司的同事出来解释过,有点让我失望,并不是一个非常牛的算法或者方案,而是从硬件开始向上一点一点的优化。是不是特别惊讶?
所以ClickHouse另外一个特性就是独立,不需要任何组件的依赖,貌似现在都有往这方面发展的趋势,比如Doris也是不需要依赖的。我们知道Kylin是需要依赖Hbase的。这就会引起各种各样的组件版本问题。想想就头大!
ClickHouse在运行的时候,会用掉服务器的所有资源,不仅仅是内存哦!甚至你查一个简单但是数据,都会吃掉50%以上的CPU!!!
另外,CK还有以下特性:
- PB级数据处理能力
- 列式数据存储
- 优秀的数据压缩
- 多核并行处理
- 多服务器分布式处理
- SQL支持(部分语句有点怪)
- 向量化引擎
- 支持实时数据更新
- 高吞吐写入
- 近似计算
- 少依赖,上手非常容易
至于不支持事务处理、不太支持删除、修改等问题,这根本就是不OLAP的需要好么?虽然说数仓也偶然会有改数据的可能,但要支持的那么好干啥?对吧?
ClickHouse的应用和支持
ClickHouse有中文社区,点击访问ClickHouse中文社区。
ClickHouse除了完成ROLAP基础操作之外,还可以结合各种技巧完成各种骚操作。
苏宁用CK结合bitmap做标签圈人和用户画像:
腾讯用CK来做实时、精准的游戏在线实时OLAP分析:
字节用CK搭建数据中台。