万字干货分享 | 阿里云CIPU技术解析
2022年6月,阿里云发布了云基础设施处理器CIPU(Cloud Infrastructure Processing Unit),将其定义为取代传统CPU的新一代云计算体系架构的核心。在这个全新体系架构下,CIPU向下对数据中心计算、存储、网络等底层基础设施快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器构建为一台超级计算机,实现资源的灵活编排和调度,给用户提供高质量弹性云计算算力集群。
机器学习领域技术大图:硬件算力
硬件算力可以说在人工智能三要素中处于发动机的角色,特别是深度学习在最近 10 年之所以获得突飞猛进的发展,很大程度得益于硬件算力在摩尔定律的驱动下获得持续的增长,如 GPU 在最近 10 年的理论算力获得了近几十倍的性能提升。所以,硬件算力也是阿里在人工智能技术领域的重中之重,并进行了重点布局和持续的技术研发投入,我们的技术核心战略是“通过建设核高基领域的研发能力,提供极致性价比的算力供给,奠定阿里云在 IaaS/PaaS 层具备产品易用性、多样性和差异化服务的能力”。
阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间
近日,阿里云机器学习平台 PAI 与香港大学吴川教授团队合作的论文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入选INFOCOM(IEEE International Conference on Computer Communications) 2022,论文提出了一个支持任意网络拓扑的同步流水线并行训练算法,有效减少大规模神经网络的训练时间。
再创佳绩!阿里云4篇论文入选顶会FAST 2023
2月21日至23日,计算机体系结构顶会USENIX FAST 2023在美国圣克拉拉召开,阿里云4篇论文被顶会收录,涉及分布式存储架构、云原生存储、用户态存储引擎等多个领域。其中,《Perseus:A Fail-Slow Detection Framework for Cloud Storage Systems》一文还斩获了大会最佳论文奖,这也是中国企业首次获此殊荣。