视觉、图形、虚拟现实、大数据和人工智能等新兴技术的发展和广泛应用对计算能力提出了更高的要求。传统计算机的计算主要是由计算机的中央处理器(CPU)完成的,CPU 除了必要的计算工作,还需要负责处理复杂的控制逻辑, 这就导致 CPU 的内部架构异常复杂,真正用于计算的部分占比并不高。随着芯片技术的发展,CPU 晶体管的数量不断增加,但是 CPU 的计算能力没办法得到质的提升。使用 CPU 对上述领域的数据进行处理,在经济性和实效性方面都无法满足实际应用的要求。异构计算因此而产生。
异构计算是相对于 CPU 的通用计算而言的,通过在现有 CPU 基础上引入新的硬件计算单元来解决上述问题。这些新的硬件单元针对特定的计算场景进行深度的优化和定制,在处理这一类计算任务时可以获得相比 CPU 几十倍甚至上百倍的效率提升。目前主流的异构计算解决方案有GPU、FPGA,在阿里云弹性计算的产品序列上, 它们分别对应GPU 云服务、FPGA 云服务和弹性加速实例服务(Elastic Acceleration Instance Service,EAIS)。
GPU 云服务器是基于GPU 应用的计算服务器。在GPU 硬件支持虚拟化之前, 已经在各个领域被广泛应用。GPU 在执行复杂的数学和几何计算方面有着独特的优势。特别是在浮点运算、并行计算等方面,GPU 可以提供上百倍于CPU 的计算能力。GPU 云服务器让GPU 的使用更便捷、成本更低,GPU 上云是大势所趋。GPU 云服务器发布和人工智能爆发在同一年,两者相互促进。GPU 云服务器已经成为人工智能应用依赖的基础设施。
和CPU 相比,GPU 硬件的使用需要复杂的生态软件支持,环境的构建较为复杂, 以NVIDIA 的GPU 硬件为例,底层安装的GPU 硬件驱动,并行计算需要CUDA、cuDNN 等基础库支持,上层应用还需要设置各种的环境变量,使用比较复杂。GPU 云服务器是虚拟化云服务器的一个规格族,具有虚拟化服务器的一切特性:在环境复用性上利用自定义镜像等功能,可以很便捷地规模化使用;支持停机迁移,GPU 或宿主机出现故障时,可以通过冷迁移,在几分钟内恢复起来。当前GPU 分片虚拟化技术已经成熟,各云服务提供商已经试水上线对应的规格,和GPU 直通相比,具容器服务对GPU 的支持已经非常成熟,GPU 硬件厂商对Docker 做了定制化的开发,在容器内可以获得GPU 全部功能,使用更加便捷。GPU 云服务器作为弹性的资源,在之上部署容器服务,从而实现弹性业务,这种架构方案已经被主流AI 公司广泛使用。
资料来源:《弹性计算—无处不在的算力》
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。