使用ClickHouse集群的7个基本技巧-阿里云开发者社区

使用ClickHouse集群的7个基本技巧

2024-10-13 75

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 使用ClickHouse集群的7个基本技巧

ClickHouse 是速度最快、资源效率最高的 OLAP 数据库，可以在毫秒内查询数十亿行，并受到数千家公司的实时分析信赖。

这里有七个技巧，可以帮助你启动一个生产的ClickHouse集群，避免最常见的错误。

提示 1：使用多个副本

在测试ClickHouse时，很自然地部署了一个只有一台主机的配置，因为您可能不想使用额外的资源或承担不必要的费用。

这在开发或测试环境中没有错，但如果您只想在生产环境中使用一台主机，这可能会付出代价。如果发生故障，并且只有一个副本和一台主机，则有丢失所有数据的风险。

对于生产负载，应使用多个主机并在它们之间复制数据。它不仅可以确保在主机发生故障时数据保持安全，还可以平衡多个主机上的用户负载，从而加快资源密集型查询的速度。

提示2：不要对RAM感到害羞

ClickHouse 速度很快，但其速度取决于可用资源，尤其是 RAM。在开发或测试环境中以最少的 RAM 运行 ClickHouse 集群时，您可以看到出色的性能，但随着负载的增加，这可能会发生变化。

在具有大量同时读取和写入操作的生产环境中，RAM 的不足将更加明显。如果您的 ClickHouse 集群没有足够的内存，它会变慢，并且执行复杂的查询将花费更长的时间。

最重要的是，当ClickHouse执行资源密集型操作时，它可能会与操作系统本身竞争RAM，最终导致OOM，停机和数据丢失。

ClickHouse 的开发人员建议使用至少 16 GB 的 RAM 来确保集群稳定。您可以选择较少的内存，但只有在您知道负载不会很高时才这样做。

提示 3：选择表格引擎时要三思而后行

ClickHouse 支持多种具有不同特性的表引擎，但 MergeTree 引擎很可能是理想的选择。专用表是为特定用途量身定制的，但具有乍一看可能并不明显的局限性。日志系列引擎似乎是日志的理想选择，但它们不支持复制，并且其数据库大小有限。

MergeTree系列中的表引擎是默认选择，它们提供了ClickHouse闻名的核心数据功能。除非您确切知道为什么需要不同的表引擎，否则请使用 MergeTree 系列中的引擎，它将涵盖您的大多数用例。

提示 4：主键不要使用超过三列

ClickHouse中的主键与传统数据库中的主键用途不同。它们不确保唯一性，而是定义数据的存储和检索方式。

如果使用所有列作为主键，则可能会受益于更快的查询。然而，ClickHouse的性能不仅取决于读取数据，还取决于写入数据。当主键包含许多列时，当数据写入整个集群时，整个集群的速度会变慢。

ClickHouse中主键的最佳大小是两列或三列，因此可以运行更快的查询，但不会减慢数据插入速度。选择列时，请考虑将要发出的请求，并选择通常会在筛选器中选择的列。

提示 5：避免使用小插件

当您在ClickHouse中插入数据时，它首先将包含此数据的部分保存到磁盘中。然后，它对这些数据进行排序、合并，并将其插入到后台数据库中的正确位置。如果您经常插入小块数据，ClickHouse 将为每个小插入创建一个部分。它会减慢整个集群的速度，您可能会收到“太多部分”错误。

为了有效地插入数据，请以大块的形式添加数据，并避免每秒发送多个插入语句。ClickHouse 可以高速插入大量数据——即使是每秒 100K 行也可以——但它应该是一个批量插入，而不是多个较小的插入。

如果数据分量很小，请考虑使用外部系统，例如用于制作批量数据。ClickHouse 与 Kafka 集成得很好，可以有效地使用其中的数据。<a>Managed Kafka</a>

提示6：想想你将如何摆脱重复的数据

ClickHouse中的主键并不能确保数据是唯一的。与其他数据库不同，如果您在ClickHouse中插入重复数据，它将按原样添加。

因此，最好的选择是在插入数据之前确保数据是唯一的。例如，您可以在流处理应用程序（如 Apache Kafka）中执行此操作。如果无法实现，则在运行查询时有一些方法可以处理它。一种选择是仅用于选择重复行的最后一个版本。您还可以使用设计删除重复条目的引擎。最后，您可以运行以合并数据部分，但这是一项资源要求很高的操作，并且只有在知道它不会影响集群性能时才应该运行它。`argMax`ReplacingMergeTree`OPTIMIZE TABLE ... FINAL`

提示 7：不要为每列创建索引

就像使用主键一样，您可能希望使用多个索引来提高性能。当您使用与索引匹配的筛选器查询数据时，可能会出现这种情况，但总体而言，它不会帮助您更快地进行查询。

同时，您肯定会体验到这种策略的缺点。多个索引会显著减慢数据插入速度，因为 ClickHouse 需要将数据写入正确的位置，然后更新索引。

如果要在生产集群中创建索引，请选择与主键关联的列。

使用ClickHouse集群的7个基本技巧

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

使用ClickHouse集群的7个基本技巧

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像