看云栖说云栖——神龙、含光、擎天、云超算

简介: 说说以神龙为代表的阿里云计算资源

遥远的东方有一条神龙,它不仅可以在天空(计算)、大地(存储)、海洋(网络)间自由穿梭,还能够在虚拟和现实之间幻化自如。

数据中心三大资源分别是计算、存储、网络,这次就让我们先聊一聊阿里云的计算基础设施,相关的内容来自杭州云栖大会2019以下三个专场:

  • 阿里云智能弹性计算专场
  • 阿里云异构计算专场
  • 阿里云智能弹性计算用户实践专场

在阿里云,神龙是计算资源的代表,阿里云及阿里巴巴经济体的百万台服务器都要统一到神龙架构下。
1.jpg
(图片来自于2019杭州云栖大会公开脱敏胶片)

世界上有两种云服务商:一种是有裸金属服务的,一种是没有裸金属服务的。所谓的裸金属就是直接提供物理服务器硬件给上层操作系统和应用。神龙就是阿里云提供裸金属计算服务的基础。

服务器虚拟化是云服务商进行大规模资源管理和分配的利器,可以说,没有虚拟化就没有今天云计算的发展,但总有一些应用场景是不太适合使用服务器虚拟化的,例如容器集群、深度学习、高性能计算,这样的场景越来越多。但直接提供物理服务器对云服务商的资源调度管理将带来严重挑战,这种挑战还不仅在于资源的初始化和重新分配方面,还在于需要同时保有虚拟化和物理机两个资源池,难免会出现闲置和不足同时发生的情况,另外,物理服务器对云服务商围绕虚拟化平台而构建起来的各种存储、计算资源的访问也会出现这样或者那样的问题。

神龙就是阿里云解决上述一切问题的答案,以下是第二代神龙的架构,这也是阿里巴巴生态体正在采用的一代架构。

2.jpg

(图片来自于2019杭州云栖大会公开脱敏胶片)

神龙架构包含软件和硬件两部分:

  • Dragonfly Hypervisor虚拟化层、是阿里云为神龙定制的服务器虚拟化系统,具有超轻薄(内存<1MB/VM),资源“零损耗”(CPU<0.1%);超平稳、性能“零抖动”(计算平稳性:99.9999%);超平滑,兼容原架构(兼容KVM架构,支持虚拟机互迁移)的特点。
  • 神龙板卡、不仅支持为虚拟机提供存储、网络资源还支持为物理服务器提供EBS弹性块存储和VPC网络支持,并提供远超物理硬件的存储和网络QOS保障能力。

在神龙服务器上运行容器平台,可在高负载场景下依然保证较低的网络和存储延时:

3.jpg

(图片来自于2019杭州云栖大会公开脱敏胶片)

神龙自从2017年发布以来,保持每年更新一代的迭代速度,在这次杭州云栖大会上,将发布第三代神龙。
4.jpg

(图片来自于2019杭州云栖大会公开脱敏胶片)

第三代神龙将更多的存储和网络IO功能加入到神龙芯片中,实现了更低的时延和性能抖动。
5.jpg

(图片来自于2019杭州云栖大会公开脱敏胶片)

说完了神龙,让我们来到阿里云异构计算分论坛,所谓的异构计算讨论的是除了CPU之外的其他计算单元,包括GPU、FPGA、也包括在这次大会上发布的含光800(NPU)。
阿里云的NPU芯片的定位是面向在线推理领域,在杭州城市大脑的应用场景下,4张含光800NPU卡所处理的主城区实时交通视频需要40张 GPU卡方可处理,使用NPU的延时是150ms而GPU的延时为300ms。
在淘宝网拍立淘场景下,10亿张图片的识别使用GPU下需要1个小时,而使用NPU只需要5分钟,效率提升了12倍
搭载含光800NPU的服务器实例AN1已经开始公测,号称性价比提升100%。
除了自研的NPU芯片,在这次云栖大会上还发布了擎天加速引擎:Ali-Perseus。
这是一个统一加速框架,可以让Tensorflow、Caffe、MXNET、PyTorch这些深度学习框架在阿里云上跑的更好,按照演讲者的说法就是可以让A级车有B级车的感受,让B级车跑出C级车的效果,至于实际表现,阿里云请到了小米的工程师以小爱老师作为应用案例进行现身说法。
在擎天加速引擎之外,在异构计算分论坛还发布了异构加速资源池。这个异构加速资源池希望解决异构计算场景下的以下这些问题:

  • 异构资源利用率低、要么是GPU卡闲置,要么是GPU的算力无法得到充分使用。
  • 资源碎片浪费、在大规模的异构集群调度场景下,因为GPU和CPU的配比问题而导致无法充分使用零散的碎片资源,导致浪费。
  • 系统可靠性难题、当出现故障时无法优雅的迁移当前任务。
  • AI芯片种类繁多适配难、在这个世界上的AI相关芯片实在是太多了。

在阿里云内部的开放测试环境中,通过引入异构加速资源池实现了GPU的高利用率,甚至超卖,在开发测试环境学生实习实训环境,能够进行GPU超卖可以显著降低这些环境对GPU资源的需求,从而降低了系统的总体成本。

说到对资源的充分利用,HPC高性能计算环境绝对有着最为迫切的需求。因为集群的管理和调度问题,一般的高性能计算集群的利用率能够到30%已经是非常好的了,为了解决这一问题,当年笔者还参与过一些HPC高性能计算集群的云化科研项目,在勘探和空气动力学领域都进行过一些尝试,勘探领域的问题是数据吞吐的问题,而在空气动力学领域是节点之间协同的问题。现在有了神龙,既能满足这些HPC环境对极致吞吐和稳定时延的要求,又能实现高效敏捷的管理和运维,阿里云基于神龙推出的E-HPC高性能计算服务已经在包括工业制造、地址勘探、生物医药、气候气象、电子设计等领域进行了广泛的应用。
在阿里云智能弹性计算用户实践专场,阿里云智能技术专家作了《SCC规格族:驱动制造工程仿真新未来》的演讲,对阿里云上的ebm(弹性物理服务器)和scc(高性能计算)实例家族进行了介绍:

  • 在神龙的加持之下,同属于物理服务器范畴的scc和ebm实例都可以接入到VPC虚拟网络中。
  • 都可以使用EBS弹性块存储服务提供的磁盘启动和存储数据。
  • 都可以选择GPU加速卡。
  • 高性能计算scc实例还可以使用低时延的50G/100G的RDMA网络。

最后,在客户有话说环节,请到了吉利汽车来介绍工程仿真高性能集群上云实践。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
存储 机器学习/深度学习 人工智能
《阿里云倚天:云计算领域的璀璨之星》
【10月更文挑战第1天】在数字化浪潮中,阿里云倚天凭借卓越性能、强大功能和创新技术,成为云计算领域的明星。它采用先进处理器和分布式存储系统,提供高速网络连接及多重安全防护,适用于企业数字化转型、人工智能、大数据分析及高性能计算等场景,具有高性能、低成本、易管理和丰富生态等优势,未来将持续推动技术创新与应用拓展。
66 4
|
7月前
|
弹性计算 负载均衡 Cloud Native
全球首发!龙蜥社区助力 Intel SPR 加速器上云
经典云原生应用 Envoy在新一代 Intel SPR 平台上将会碰撞出怎样的火花?
|
弹性计算 云栖大会 云计算
2023云栖大会来袭,弹性计算团队放票啦!
阿里云弹性计算团队本次带来近20场超级干货session,第八代通用计算实例、ECS倚天实例、通用算力型实例u1、经济型e实例、GPU云服务器、GPU云服务器基础产品性能增强包DeepGPU、弹性高性能计算平台等多个新品发布。
|
机器学习/深度学习 人工智能 调度
2023中国算力大会,我们在这里!
2023中国算力大会,我们在这里!
759 0
|
机器学习/深度学习 人工智能 边缘计算
首届中国算力大会,我们在这里!
首届中国算力大会,我们在这里!
199 0
|
Kubernetes Cloud Native IDE
2022云栖精选—中国移动算力网络云原生虚拟化技术
魏宝辉 中国移动信息技术技术中心PaaS架构师
2022云栖精选—中国移动算力网络云原生虚拟化技术
|
弹性计算 缓存 分布式计算
51万奖池邀你参战!第二届阿里云ECS CloudBuild开发者大赛来袭
一年一次的阿里云ECS cloudbuild开发者大赛重磅来袭,欢迎大家参与或者转发给身边的人。本次cloudbuild开发者大赛奖池超高,三大赛道,豪华的专家阵容;体验活动互动有趣,奖品丰富;如果都没有你的菜,就来抽个奖吧,AirPods也还不错~
51万奖池邀你参战!第二届阿里云ECS CloudBuild开发者大赛来袭
|
机器学习/深度学习 人工智能 自动驾驶
会 | 迈向算力时代 阿里云基础设施亮相首届中国算力大会
“智能计算服务+硬核技术+绿色低碳”的算力基础设施
会 | 迈向算力时代 阿里云基础设施亮相首届中国算力大会
|
弹性计算 Kubernetes NoSQL
阿里云新品发布会周刊第146期 丨 弹性计算生命科学最佳实践- 云计算情报局
新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会!
624 0
阿里云新品发布会周刊第146期 丨 弹性计算生命科学最佳实践- 云计算情报局
|
存储 弹性计算 运维
一文回顾阿里云弹性计算云栖大会精彩看点
10月22日,2021年的云栖大会圆满落幕,阿里云弹性计算团队在大会上星光熠熠:第四代神龙架构重磅亮相、无影云电脑全新升级、视觉计算解决方案发布……本文为您总结了阿里云弹性计算产品线在本次云栖大会的精彩看点,一起来enjoy~
一文回顾阿里云弹性计算云栖大会精彩看点