科幻小说《三体》里,世界上最快的计算机,运算速度达到100万亿次。而如今的机器计算力,已达到500万亿次,阿里云高性能计算研发负责人何万青博士表示,由此可见,科学幻想在机器计算方面,已经是很落后的了。
现实世界中,高速发展的计算力正推动着人工智能产业更大规模地爆发。
9月12日,阿里云异构计算家族首次亮相,推出全新一代异构加速平台——涵盖GPU、FPGA在内等6款异构实例,可满足从图形渲染到高性能计算及人工智能等复杂应用的计算需求。特别是在人工智能领域,可将深度学习成本缩减一半,大幅降低人工智能计算门槛;而基于阿里云异构平台的全新高性能计算实例E-HPC,可一键部署获得媲美大型超算集群环境的“云上超算中心”。
这是继企业级ECS家族全线升级后,阿里云再次在企业级市场推出专业服务,将异构计算的使能领域从人工智能扩大到更广的计算需求领域。
据雷锋网了解,新品具备更强的并行能力和多场景支持,不仅全力支撑人工智能计算力升级需求,也为图形计算、生命科学、材料力学、分子动力学等科研计算领域提供普惠计算能力。
而此番推出的异构计算加速平台,阿里云异构计算负责人张献涛对雷锋网表示,主要为了进一步完善人工智能产业生态,满足更多客户的核心业务需求。
1、
阿里云此次推出适用于深度学习在线推理(Inference)的GPU实例GN5i,采用了英伟达 Pascal架构P4图形处理器,提供最大45Tops INT8整型计算能力和11TFlops FP32单精度浮点计算能力。可根据深度学习计算力的要求,进行GPU实例的“Scale-out”水平扩容或“Scale-up”垂直变配,分钟级即可完成实例的创建。阿里云内部人士透露,下半年,还将推出搭载目前性能最强GPU V100的高性能GPU实例,大幅提升深度学习的处理效率。
据阿里云高级技术专家龙欣介绍,在面向AI深度学习在线推理场景时,GN5i实例依托专有推理型GPU和阿里云高性能SSD云存储和OSS存储服务,在满足数据处理IO的基础上,时延最低可达微秒级;另外,GN5i可一键部署TensorFlow、Caffe等主流深度学习框架,提供智能调度、自动运维、实时扩容等服务,有效降低人工智能在线服务成本50%以上。
作为异构计算近些年来的新宠,功耗低、实时性强的FPGA普遍被业界看好,提供云上基于FPGA的高效灵活场景化并行计算能力,已成为公共云的基础服务。
2017年初,阿里云推出基于英特尔Arria 10芯片的FPGA计算实例,已帮助大量用户通过自定义加速算法,实现云上FPGA加速业务的一键部署、快速研发和弹性伸缩,有效提升了人工智能及深度学习的效率,为企业节省成本。
而此次发布的F2实例基于赛灵思Xilinx KU115器件,提供145万逻辑门电路,单实例的单精度浮点计算性能可达1.5TFlops。随着集成英特尔(F1)和赛灵思(F2)芯片的FPGA计算实例相继面世,阿里云率先完成对主流FPGA方案的全覆盖,成为全球FPGA领域产品线最全、场景最多的公共云服务商。再加上阿里云业已推出的FPGA镜像市场,可帮助用户完成更多定制化FPGA加速方案,提高特定业务和算法的效率。
相比GPU和CPU,FPGA更适合非标数据位宽的人工智能、金融分析、基因匹配、物联网数据库等领域。
龙欣对雷锋网表示,阿里云针对非标准位宽场景做了大幅优化,以物联网时序数据库为例,F2的处理效率可比CPU高30倍,为用户大幅降低硬件加速时间和成本。“阿里云希望提供一个弹性、完善的FPGA开发环境,帮助用户缩短开发周期,并以最低的成本、最大的灵活度在云端快速搭建完整的硬件加速服务。“龙欣表示。
2、
针对传统对高性能计算有强烈需求的高校科研机构和企业用户,阿里云异构计算家族推出了弹性高性能计算实例E-HPC,这也是中国首个公共云上的HPC as a Service产品。
E-HPC基于阿里云异构计算平台在高性能虚拟化、并行计算、低延迟网络和HPC软件栈等方面的特性,帮助生命科学,气象预报,石油勘探,工业设计和航空航天等领域的客户,快速获得高性能计算集群计算能力、调度能力和软件能力,按需组建自己的“云上超算中心”,并可实现一键部署和弹性伸缩。
“如果把传统超算中心比作‘珠穆朗玛峰’,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,成为高性能计算的‘青藏高原’。” 阿里云资深专家何万青打比喻称。
实际上,阿里巴巴集团内部很多业务是通过异构计算取得非常好的计算加速效果,比如拍立淘、以图搜图、商品分类等,这些解决方案正通过阿里云对外输出;再加上阿里云基础设施在25G网络、第三代分布式存储、遍布全球的13个区域的数据中心及高可用骨干网等方面的不断创新,可为人工智能提供高性能、弹性伸缩和业务永续的加速引擎。
除了产品层面,阿里云还提供了全方位的人工智能产业服务,包括智能语音交互、图像/视频识别、交通预测、情感分析等技术服务,这些技术正通过阿里云ET为客户服务。过去一年,阿里云推出ET城市大脑、ET工业大脑、ET医疗大脑等行业垂直的人工智能系统,将人工智能技术落地到产业中去。
一直以来,HPC市场都是相比封闭的,由传统高校研发、运用、测试。在将这一传统技术由线下搬到线上时,必然将会遇到诸多困难。对于这一点,何万青对雷锋网(公众号:雷锋网)表示,放眼国际,很多原本做超算软件的公司,如今都转变为超算服务公司,提供了所谓的“云连接”。但此“云连接”之下,究竟使用的是专用集群还是其他公有云,你是看不见的。
况且,何万青表示,这个世界永远是新的生产关系和新的活跃的进取的人,活水搅动死水。足够积极得应对,才能把产业、行业做起来。
张献涛则补充称,云有自己的特点——弹性、多样性——绝大部分数据中心有自己的特殊架构设计和自己独特的使用方法。阿里云所具备的弹性和灵活性,是可以与传统超算中心进行差异化竞争的一个主要优势。