cassandra 查询超时-阿里云开发者社区

cassandra 查询超时

2019-07-10 3076

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： cassandra count 超时及建议解决方式

背景介绍

在对某个表做count时出现如下错误(在做业务性测试，生产环境请不要简单粗暴做count操作，耗时还可能不准)

Cassandra timeout during read query at consistency LOCAL_ONE (1 responses were required but only 0 replica responded)

很奇怪，另外一个表应该是跟他相同条数的，都能直接count出来，但是当前表count一直报错，而且数据还差2两条(跟ES里面的数据对比后得知)

问题查找

在网上可以直接查询相关问题，结果也出来了很多。其中我给出几个具有参考性的链接

【stackoverflow】Cassandra timeout during read query at consistency LOCAL_ONE

日志跟踪

在 cassandra system.log 看到了count产生的日志，前面后后观察了很长的日志，结果会出现如下一些情况

Redistributing index summaries


INFO  [ReadStage-18] 2019-07-08 23:02:30,820 NoSpamLogger.java:91 - Maximum memory usage reached (536870912), cannot allocate chunk of 1048576


ggregation query used without partition key

上面是3个有不同于常见日志的信息，下面是常见的日志信息

WARN  [ReadStage-1] 2019-07-10 03:27:07,652 ReadCommand.java:569 - Read 1221 live rows and 1221 tombstone cells for query SELECT * FROM data_repository.crawler_forecast_weather WHERE token(city_code) > -8205240754366621005 AND token(city_code) <= -8009162018439875451 LIMIT 5000 (see tombstone_warn_threshold)
WARN  [ReadStage-9] 2019-07-10 03:27:07,654 ReadCommand.java:569 - Read 1275 live rows and 1275 tombstone cells for query SELECT * FROM data_repository.crawler_forecast_weather WHERE token(city_code) > -4148410870856401753 AND token(city_code) <= -3960705342382018938 LIMIT 5000 (see tombstone_warn_threshold)

可能原因

这个问题曾经以为被定位到问题，但是最终却发现还是无能为力。这里说下历程

第一次以为找到缘由

做count 操作操作时，就跟其他读操作一样，需要将数据加载到缓存中。数据来源包括 SSTables，tombstone标记，这些数据都放在缓存中。

缓存的大小由cassandra.yaml中的 file_cache_size_in_mb设置控制。默认大小为 512 MB

count出问题这张表是因为有一个字段存了很长的文本内容，count整个表时，将所有数据(完整的每行数据)加载到内存就导致内存不足。

第二次

根据上面的方式解决count超时不久后又发现超时，但这次却是不同之前说的两个表。这次没有再去调配置大小，而是在社区朋友的指导下跟踪了cpu idle 跟磁盘的 %util

在跟踪的过程中刚好出现 %util 达到 100%, 99% 的情况。然后他认为是磁盘性能造成的超时。但是我跟踪了磁盘负载很高的时间刚好是定时任务在往cassandra里面写数据。那%util高应该是写入造成的，我在定时任务跑完然后再去执行count 也还是超时，所以我不太认同时磁盘性能造成count超时。当然，我们的确实存在磁盘性能，这个后续需要好好调优

最终无果

我之前执行count sql 时一直在 datagrip (一种cassandra的可视化管理)中操作。偶然想去cassandra 终端使用cqlsh执行，结果竟然有意外之喜

在cqlsh 首次执行也是超时，但是后面执行就能成功统计。而在datagrip中统计却一直出现超时错误。那这两个有什么表现不一样么

观察日志发现：在datagrip做操作时，system.log 会输出很多(全是查询的sql语句)，而在cqlsh中进行统计时，发现system.log 竟然只有少量的日志输出，甚至没有常见的查询日志，也是异常奇怪。目前找不到更多原因，只能记录存档了。

对于这个问题花费了很多力气，查过缓存不足，tombstone太多，cpu, 硬盘。但最后我更倾向这个操作违反了cassandra的设计，cassandra 是分布式的，记录是分区存储。当在做聚合查询时却没有带where带上分区键限制，那么很可能不能得到你预期的结果。count可以对一个数据量小小的table进行，但是数据量稍微大一点，可能就不能这么用了。

对于其他聚合查询请点击下面链接

建议解决

如果是业务层需要做count统计，需要根据分区键去做count

如果只是观察数据总条数，建议直接在cqlsh上进行统计(不要使用其他工具)，当然这个也依然存在超时的问题。所以这里推荐一个非常好的统计工具 brianmhess/cassandra-count

这个工具通过使用numSplits参数拆分令牌范围，可以减少每个查询计数的数量并减少超时的可能性。

目前使用下来效果还非常不错

cassandra 查询超时

背景介绍

问题查找

日志跟踪

可能原因

建议解决

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

cassandra 查询超时

背景介绍

问题查找

日志跟踪

可能原因

建议解决

热门文章

最新文章

相关电子书