转自钉钉群21789141:经常遇到 major GC 花了半分钟才完成,但一两秒以后又启动了,如此往复。这种情况下 Flink 很不稳定,随时可能挂掉,checkpoint 也完不成了,Flink 还在默默地往身上扛数据
这个问题能再拿出聊一下么?
Jerome:这种现象通过适当增加资源应该比较好解决吧
问:明明 off-heap 还有几十 GB 的空间,也开启 off-heap 选项了,后来发现状态这部分 Flink 是完全不用堆外的... 而且 snapshot 时各种 array copy 和 flatten, 内存很快就没了
付典:你用的heap statebackend,为什么不用rocksdb statebackend?
问:RocksDB 单用的话性能比不上 Heap...
放在 ramdisk / Alluxio 上效果会好一些,不过又要更多措施来保证数据可靠性了
如果把 local recovery 的 checkpoint stream 写入快速 SSD / offheap,结合 pre-allocate,那么扩容起来应该更快,只是成本就上去了
jerome:可以问问阿里同学怎么做的
他们数据量很大应该经常遇到性能问题
对了,他们自己实现了自己的statebackend
这个要贡献出来很有用
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。