华为发布全球最快AI训练集群Atlas900,训练ResNet50仅需59.8秒,昇腾910加持

简介: 在 8 月华为最强 AI 芯片昇腾 910 正式发布之后,今天,华为在全联接大会上发布了全新的整体计算战略,并正式推出了基于最新 AI 芯片的服务器 Atlas 900。

华为总裁任正非在最近接受采访时曾表示,华为即将发布全世界最快的人工智能平台。在今天的全联接大会上,华为揭幕了这款 AI 训练集群 Atlas 900:它成为了目前全球计算机的巅峰,其总算力达到 256P~1024P FLOPS @FP16,相当于 50 万台 PC 的计算能力。


「特别感谢在这个关键时刻大家对于华为的支持,」华为副董事长胡厚崑在发布会上表示。「感谢大家的关心,在这里我也向大家报告一下,华为的状态确实还不错。就像今天早上上海的天气一样,秋高气爽,云淡风轻。


微信图片_20211201235549.jpg


全球训练最快的 AI 集群 Atlas900


华为今天推出的 Atlas 900 可谓目前最强的 AI 计算机集群,它由 1024 块昇腾 910 芯片组成,后者可谓目前业界单芯片算力最强,的处理器。每块昇腾 910 AI 处理器内置 32 个达芬奇 AI Core,单芯片可以提供比业界高出一倍的算力(256TFLOPS@FP16)。


微信图片_20211201235554.jpg


为了充分发挥 AI 芯片的能力,Atlas 900 AI 训练集群采用「HCCS、 PCIe 4.0、100G 以太」三类高速互联方式,实现了百 TB 级的全互联无阻塞专属参数同步网络,梯度同步时延可缩短 10~70%。


在 AI 服务器内部,昇腾 910 AI 处理器之间通过 HCCS 高速总线互联;昇腾 910 AI 处理器和 CPU 之间以最新的 PCIe 4.0(速率 16Gb/s)技术互联,其速率是业界主流采用的 PCIe 3.0(8.0Gb/s)技术的两倍,使得数据传输更加快速和高效。在集群层面,采用面向数据中心的 CloudEngine 8800 系列交换机,提供单端口 100Gbps 的交换速率,将集群内的所有 AI 服务器接入高速交换网络。


华为表示,在 AI 服务器内部,昇腾 910 AI 处理器之间通过 HCCS 高速总线互联;昇腾 910 AI 处理器和 CPU 之间则以最新的 PCIe 4.0(速率 16Gb/s)技术互联,其速率是业界主流采用的 PCIe 3.0(8.0Gb/s)技术的两倍。


微信图片_20211201235604.png


胡厚崑表示,使用 Atlas 900,人们只需 59.8 秒就可以完成典型神经网络 ResNet-50 在 ImageNet 数据集上的训练,在同等精度下比第 2 名快 15%。「这相当于在短跑赛场上头名撞线,然后喝完一瓶水才看到第二名跑到终点。」


微信图片_20211201235608.gif


Atlas900 的强大算力,可广泛应用于科学研究与商业创新,比如天文探索、气象预测、自动驾驶、石油勘探等领域。在现场,华为展示了在天文领域上的应用。在与上海天文台、SKA 合作的项目中,科学家们使用 Atlas 900 高达 256P FLOPS 的集群算力,仅需 10.02 秒即计算了 20 万颗星体的扫描,同时可以准确地对某一类星体进行定位,如果人类进行这项工作的话,需要 169 天时间。


华为表示:「在 Atlas 900 出现之后,一切计算瓶颈都会消失。」


基于 Atlas 900 的超强算力,华为云今天也发布基于昇腾的华为云 EI 集群服务,现在人们已可以注册并开始使用。


华为认为,未来计算的主流将是机器学习。「未来基于统计的计算可以帮助我们更好地解决没有固定规则定义的问题,」胡厚崑说道。「这一类计算奠定了今天人工智能突破发展的基础,在未来将会逐步成为计算的主流。我们认为,在未来的五年时间里,基于统计的计算消耗的算力有可能会占到整个社会算力消耗的 80% 以上。」


2 万亿计算产业新蓝海


华为认为,未来的云计算领域将会出现新的巨大市场。据 Gardner 预测,2023 年全球计算产业总空间将会达到 2 万亿美元,其中包括企业 IT 的软件、硬件、云服务等。


如此发展空间正在推动华为不断加码投入。去年,华为提出了全场景战略。在今天的 HC 大会上,华为进一步介绍了自己的整体计算战略,其将从四个方面来布局:


  • 架构创新。投资基础研究,打造出了达芬奇架构,重点解决全场景智能的架构问题。
  • 投资全场景处理器。包括面向通用计算的鲲鹏系列,面向 AI 的昇腾系列,面向智能终端的麒麟系列,以及面向智慧屏的鸿鹄系列,将来还有一系列处理器,面向更多的场景。
  • 商业策略。华为处理器不直接对外销售,以云服务和部件为主面向客户,优先支持合作伙伴发展整机。
  • 构建开放生态。重点推进沃土计划 2.0,使能全球合作伙伴发展应用及解决方案。


「我们认为,未来的十年会是整个计算产业新黄金十年,计算产业会出现巨大的新蓝海,」胡厚崑表示。「五年之内,全球将会出现每年高达两万亿美元的市场。因此华为将向计算产业进行大量投入。」


微信图片_20211201235611.jpg


2015 年,华为首次发布了沃土计划。在过去的四年中,华为已经发展了 130 多万开发者。在今天的发布会上,华为表示沃土计划在今年将继续投入 15 亿美元,使开发者的规模扩大到 500 万人。


华为不仅自研了鲲鹏、昇腾系列芯片,更围绕硬件打造了完整了配套体系。在今年初发布会上,华为同步推出三款搭载鲲鹏芯片的「泰山」系列服务器,分别定位均衡、存储以及高密度应用领域,表明了华为对于进军云服务市场的决心。在今天的发布会上,华为表示未来会进一步发布主板、服务器、操作系统、编译器和数据库等产品。


此外,为保证鲲鹏芯片在市场上实际落地,华为为鲲鹏打造了鲲鹏软件栈,并提供配套的指导服务,覆盖操作系统、中间件、web、大数据、数据库等业务类软件,管理和监控、应用工具等运维类软件,以及开发工具、编译工具等开发类软件。


微信图片_20211201235614.jpg


目前,华为已具备从服务器、中间件、基础云服务到企业智能云的全栈式产品序列。在短短一年中,华为几乎完成了在计算产业的全方位布局。


在应用上,华为与合作伙伴的鲲鹏产业生态基地目前已落地北京、上海、重庆、深圳、成都等城市。在未来,基于鲲鹏处理器的系列产品、解决方案和服务,将投向全球市场,在其他国家和地区逐步上市。


鲲鹏系列芯片在 ARM 架构服务器上的探索或许可以改变目前 x86 一家独大的情况——作为和移动设备类似的计算架构,ARM 服务器可向云手机、异构计算等任务和应用提供更好支持,对很多面向 C 端用户的业务,以及未来由 5G 衍生出的新类型业务提供了支撑。



9 月 26 日,DataFun Live 第 9 期邀请到美图高级算法专家陈文强,分享主题为「深度学习在美图个性化推荐的应用实践」。识别二维码或点击阅读原文,立即报名观看直播。


微信图片_20211201235618.jpg

相关文章
|
2月前
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
|
1月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
102 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
2月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记三十:yolov8_obb旋转框训练
本文介绍了如何使用AUTODL环境搭建YOLOv8-obb的训练流程。首先创建虚拟环境并激活,然后通过指定清华源安装ultralytics库。接着下载YOLOv8源码,并使用指定命令开始训练,过程中可能会下载yolov8n.pt文件。训练完成后,可使用相应命令进行预测测试。
|
2月前
|
人工智能 PyTorch 算法框架/工具
AI计算机视觉笔记二十二:基于 LeNet5 的手写数字识别及训练
本文介绍了使用PyTorch复现LeNet5模型并检测手写数字的过程。通过搭建PyTorch环境、安装相关库和下载MNIST数据集,实现了模型训练与测试。训练过程涉及创建虚拟环境、安装PyTorch及依赖库、准备数据集,并编写训练代码。最终模型在测试集上的准确率达到0.986,满足预期要求。此项目为后续在RK3568平台上部署模型奠定了基础。
|
2月前
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。
|
2月前
|
存储 人工智能 数据可视化
AI计算机视觉笔记二十一:PaddleOCR训练自定义数据集
在完成PaddleOCR环境搭建与测试后,本文档详细介绍如何训练自定义的车牌检测模型。首先,在`PaddleOCR`目录下创建`train_data`文件夹存放数据集,并下载并解压缩车牌数据集。接着,复制并修改配置文件`ch_det_mv3_db_v2.0.yml`以适应训练需求,包括设置模型存储目录、训练可视化选项及数据集路径。随后,下载预训练权重文件并放置于`pretrain_models`目录下,以便进行预测与训练。最后,通过指定命令行参数执行训练、断点续训、测试及导出推理模型等操作。
|
2月前
|
机器学习/深度学习 人工智能 测试技术
AI计算机视觉笔记二十五:ResNet50训练部署教程
该项目旨在训练ResNet50模型并将其部署到RK3568开发板上。首先介绍了ResNet50网络,该网络由何恺明等人于2015年提出,解决了传统卷积神经网络中的退化问题。项目使用车辆分类数据集进行训练,并提供了数据集下载链接。环境搭建部分详细描述了虚拟环境的创建和所需库的安装。训练过程中,通过`train.py`脚本进行了15轮训练,并可视化了训练和测试结果。最后,项目提供了将模型转换为ONNX和PT格式的方法,以便在RK3568上部署。
|
2月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记十九:Swin Transformer训练
本文介绍了使用自定义数据集训练和测试目标检测模型的步骤。首先,通过安装并使用标注工具labelme准备数据集;接着修改配置文件以适应自定义类别,并调整预训练模型;然后解决训练过程中遇到的依赖冲突问题并完成模型训练;最后利用测试命令验证模型效果。文中提供了具体命令及文件修改指导。
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
AI计算机视觉笔记二十三:PP-Humanseg训练及onnxruntime部署
本文介绍了如何训练并使用PaddleSeg的人像分割模型PP-HumanSeg,将其导出为ONNX格式,并使用onnxruntime进行部署。首先在AutoDL服务器上搭建环境并安装所需库,接着下载数据与模型,完成模型训练、评估和预测。最后,通过paddle2onnx工具将模型转换为ONNX格式,并编写预测脚本验证转换后的模型效果。此过程适用于希望在不同平台上部署人像分割应用的开发者。
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
【10月更文挑战第31天】2024年,AI大模型在软件开发领域的应用取得了显著进展,从自动化代码生成、智能代码审查到智能化测试,极大地提升了开发效率和代码质量。然而,技术挑战、伦理与安全问题以及模型可解释性仍是亟待解决的关键问题。开发者需不断学习和适应,以充分利用AI的优势。

热门文章

最新文章

下一篇
无影云桌面