开发者社区 > 大数据与机器学习 > 实时数仓 Hologres > 正文

如何保证零点3s起跳,对任务的全链路数据处理细节优化?

已解决

如何保证零点3s起跳,对任务的全链路数据处理细节优化?

展开
收起
游客lmkkns5ck6auu 2022-09-26 22:47:12 503 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    • 源头部分优化了DRC同步后 inlog的 写入,将源 的多queue缩减为单 queue,减少数据间隔时延。早期的开发没有正确评估各类目交易数据流量情况,而将 的queue数设置过大,导致单queue内流量很小,DataHub采集时默认的 cache size和频次,导致数据数据的间隔时延很大,从而放大了整体链路的时 延。DataHub多queue缩容后,数据间隔时延基本下降至秒级以内。 • 中间部分优化各类目的交易公共层的处理逻辑,消减逻辑处理时延。初版的TTP交易(国际 机票、火车票等)公共层,为了更多维的复用完全模仿了离线公共层的处理,将复杂且时延 较大的航段信息关联到一起,导致整个任务的处理时延达十几秒。为了精确平衡时延和复 用性,将旧有的多流Join后统一输出,改为多级Join输出,将GMV的处理时延降低到3s以 内。• 任务节点部分,调整参数配置,降低缓冲和IO处理时延。公共层和GMV统计部分,调整 miniBatch的allowLatency、cache size, 输出的flush interval,HBase输 出的flushsize等等。以上内容摘自《阿里云实时数仓Hologres最佳实践合集》电子书,点击https://developer.aliyun.com/topic/download?id=996 可下载完整版

    2022-09-27 07:49:59
    赞同 展开评论 打赏

本技术圈将为大家分析有关阿里云产品Hologres的最新产品动态、技术解读等,也欢迎大家加入钉钉群--实时数仓Hologres交流群32314975

相关电子书

更多
挑战双11实时数据洪峰的流计算实践 立即下载
听云平台业务数据实时处理及性能可视化 立即下载
海量订单系统优化实践 立即下载