如何保证零点3s起跳,对任务的全链路数据处理细节优化?
• 源头部分优化了DRC同步后 inlog的 写入,将源 的多queue缩减为单 queue,减少数据间隔时延。早期的开发没有正确评估各类目交易数据流量情况,而将 的queue数设置过大,导致单queue内流量很小,DataHub采集时默认的 cache size和频次,导致数据数据的间隔时延很大,从而放大了整体链路的时 延。DataHub多queue缩容后,数据间隔时延基本下降至秒级以内。 • 中间部分优化各类目的交易公共层的处理逻辑,消减逻辑处理时延。初版的TTP交易(国际 机票、火车票等)公共层,为了更多维的复用完全模仿了离线公共层的处理,将复杂且时延 较大的航段信息关联到一起,导致整个任务的处理时延达十几秒。为了精确平衡时延和复 用性,将旧有的多流Join后统一输出,改为多级Join输出,将GMV的处理时延降低到3s以 内。• 任务节点部分,调整参数配置,降低缓冲和IO处理时延。公共层和GMV统计部分,调整 miniBatch的allowLatency、cache size, 输出的flush interval,HBase输 出的flushsize等等。以上内容摘自《阿里云实时数仓Hologres最佳实践合集》电子书,点击https://developer.aliyun.com/topic/download?id=996 可下载完整版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
本技术圈将为大家分析有关阿里云产品Hologres的最新产品动态、技术解读等,也欢迎大家加入钉钉群--实时数仓Hologres交流群32314975