开发者社区问答正文

rocksdb的block cache usage应该如何使用

通过 state.backend.rocksdb.metrics.block-cache-usage: true开启 rocksdb_block_cache_usage监控，上报到prometheus，对应的指标名称是 flink_taskmanager_job_task_operator_window_contents_rocksdb_block_cache_usage。

我们的作业一个TM的内存设置如下：

taskmanager.memory.process.size: 23000m taskmanager.memory.managed.fraction: 0.4

ui上显示的Flink Managed MEM是8.48G。

通过grafana配置出来的图，如果group by的维度是host，得出来的每个TM在作业稳定后是45G，超过8.48G了。

sum(flink_taskmanager_job_task_operator_window_contents_rocksdb_block_cache_usage{reportName=~"$reportName"}) by (host)

如果维度是host，operator_name，每个operator_name维度是22G。

sum(flink_taskmanager_job_task_operator_window_contents_rocksdb_block_cache_usage{reportName=~"$reportName"}) by (host,operator_name)

请问这个指标应该如何使用？ *来自志愿者整理的flink邮件归档

展开

收起

小阿矿 2021-12-07 11:45:37 2100 版权

1 条回答

写回答

取消提交回答

说了是一只鲳鱼

默认Flink启用了rocksDB 的managed memory，这里涉及到这个功能的实现原理，简单来说，一个slot里面的所有rocksDB实例底层“托管”内存的LRU block cache均是一个，这样你可以根据taskmanager和subtask_index 作为tag来区分，你会发现在同一个TM里面的某个subtask对应的不同column_family 的block cache的数值均是完全相同的。所以不需要将这个数值进行求和统计。 *来自志愿者整理的flink邮件归档

2021-12-07 16:18:03

赞同展开评论

问答分类：

监控流计算实时计算 Flink版可观测可视化 Grafana 版可观测监控 Prometheus 版

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

rocksdb的block cache usage应该如何使用

相关文章