6.2.3 龙蜥社区助力阿里数据中心大幅降低成本
每年双十一创造奇迹的背后,是巨大的成本投入。为了完成对流量峰值的支撑,我们需要大量的计算资源,而在平时,这些资源往 往又是空闲的。另一方面,为了在极端情况下,如机房整体断电等还能保障阿里巴巴的业务不受损失,也需要在全国各地建立冗余 资源。而且就算是一天当中,在线服务的负载也是不一样的,白天一般情况下要比凌晨高得多。根据盖特纳和麦肯锡前几年的调研 数据,全球的服务器的CPU利用率只有6%到12%。即使通过虚拟化技术优化,利用率还是只有7%-17%,而阿里巴巴的在线服务整 体日均利用率也在10%左右。
另一方面,全球从IT时代全面走向了DT时代,现在又在向更深入的AI时代迈进。各各样的大数据处理框架不断涌现,从Hadoop到 Spark,从Jstorm到Flink,甚至包括深度学习框架 Tensorflow 的出现,成千上万的数据分析背后是大量的计算任务,占用了大量的 计算资源。由于计算任务占用的计算量很高,CPU水位通常在50%-60%以上,不同于在线服务,计算任务的峰值通常出现在凌晨, 水位甚至能达到70%以上。所以我们往往就会建立独立的计算任务集群。
混部能产生这么大的帮助,可是业界能使用在生产的没有几家公司,其原因也非常简单,第一个是规模,第二个是技术门槛。当你 机器规模不够大的时候,显然意义不大。而在技术上,计算型任务通常都可以把利用率跑到很高,如果计算型任务和在线型业务运 行在同一台机器上,怎么避免计算型任务的运行不会对在线型业务的响应时间等关键指标不产生太大的影响呢,这个需要在技术上 有全方位的突破,而阿里巴巴从无到有,花了4年多的时间才让这项技术在电商域得以大规模落地。