一方面是在线业务资源利用率不足,另一方面是离线计算长期超负载运行,那么将在线业务与离线计算进行混合部署的挑战是什么?
如何保障在线服务质量 在线集群的平均 CPU 利用率只有 10% 左右,混部的目标就是将剩余的资源提供给 MaxCompute 进行离线计算使用,从而达到节约成本的目的。那么,如何能够保障资源利用率提升的同时又能够保护在线服务不受影响呢?
如何保障离线稳定 当资源发生冲突时,第一反应往往是保护在线,牺牲离线。毕竟登不上淘宝天猫下不了单可是大故障。可是,离线如果无限制的牺牲下去,服务质量将会出现大幅度下降。试想,我在 DataWorks 上跑个 SQL,之前一分钟就出结果,现在十几分钟甚至一个小时都跑不出来,大数据分析的同学估计也受不了了。 3. 如何衡量资源质量 电商业务通过富容器的方式集成多种容器粒度的分析手段,但是前文描述过离线作业的特点,如何能够精准的对离线作业资源使用进行资源画像分析,如何能够评估资源受干扰的程度,混部集群的稳定性等问题,是对我们的又一个必须要解决的挑战。
以上内容摘自《“伏羲”神算》电子书,点击https://developer.aliyun.com/topic/download?id=873
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。