带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(2)

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
无影云电脑企业版,4核8GB 120小时 1个月
资源编排,不限时长
简介: 带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(2)

带你读《弹性计算技术指导及场景应用》——3. Ada Lovelace架构解读及RTX 4090性能测试分析(1):https://developer.aliyun.com/article/1423694


∙        第四代Tensor Core

◦        Ada架构搭载的第四代Tensor Core,大部分特性跟Hopper架构一样,最重要的是引入了一个新的数据类型FP8。不同的是去掉了FP64的支持,增加了INT4的支持。

◦        Tensor Core性能上,AD102相比GH100,大概是1/3的水平,跟GA100接近,是GA1022倍。相比Ampere架构主要是新增了FP8的支持。

∙        L2缓存

◦        AD102L2缓存增大到了98304KB,是GA102(6144KB)16倍。

◦        更大的L2缓存使得HPCAI应用可以将更多的数据缓存到L2,而不是放到显存上,从而获得更高的读写速度,比如小batch size的深度神经网络的计算。

∙        GDDR6X显存

◦        高达1TGB/s24GBGDDR6X显存,目前最高速的GDDR显存。

∙        GPU Spec

◦        RTX 4090是最新一代面向图形计算场景的GPU卡,我们将RTX 4090与上一代Ampere架构Tesla A100RTX 3090 Ti的主要参数做了对比如下:

GPU Type

RTX 4090

RTX 3090 Ti

A100(SXM4-80G)

GPU Architechture

AD102(Ada Lovelace)

GA102(Ampere)

GA100(Ampere)

GPCs(Graphics Processing Clusters)

11

7

7

TPCs(Texture Processing Clusters)

64

42

54

SMs(Streaming Multiprocessors )

128

84

108

FP32 CUDA Cores

16384

10752

6912

INT32 CUDA Cores

8192

5376

6912

FP64 CUDA Cores

N/A

N/A

3456

Tensor Cores

512

336

432

RT Cores

128

84

N/A

Geometry Units

64

41

N/A

TMUs(Texture Units)

512

336

432

ROPs(Raster Operation Units)

176

112

160

INT4(TOPS)

1322/2644

640/1280

1248/2496

INT8(TOPS)

660.6/1322

320/640

624/1248

INT32(TIPS)

43

20

19.5

BF16(TFLOPS)

86

40

39

FP16(TFLOPS)

86

40

78

FP32(TFLOPS)

86

40

19.5

FP64(TFLOPS)

3

N/A

19.7

Tensor Core FP8(TFLOPS)

660.6/1322

N/A

N/A

Tensor Core FP16(TFLOPS)

330/660

160/320

312/624

Tensor Core TF32(TFLOPS)

86/165.2

40/80

156/312

Tensor Core FP64(TFLOPS)

N/A

N/A

19.5

RTX-OPS(TOPS)

191

78.1

N/A

GPU Memory

24 GB GDDR6X

24 GB GDDR6X

80 GB HBM2e

Memory Clock(MHz)

1325

1219

1593

Memory Interface Width

384-bit

384-bit

5120-bit(10*512-bit)

Memory Bandwidth(GB/s)

1008

1008

2039

Interconnect Bandwidth(GB/s)

PCIe Gen4:64

PCIe Gen4:64

NVLINK:600

Default Graphic Clock(MHz)

2230

1395

1155

Max Graphic Clock(MHz)

2520

1860

1410

Power(Watt)

450

350

400

 

Spec来看,使用新架构的RTX 4090相对于RTX 3090 TiCUDA CoreTensor Core以及RT Core的性能均提升了2倍左右,显存容量和带宽并没有变化。而相比Tesla A100 Tensor Core性能是基本相当,略高5%。但是Tesla A100的显存带宽是RTX 40902倍,受限于显存带宽4090的算力发挥会受影响,推测小bsAI任务RTX 4090会略有优势或者与A100接近,但是随着bs增大,Tesla A100的性能应该会更好,而且随着bs增大差距会拉大。

当然以上都是硬件的理论性能指标,那么RTX 4090的实际性能表现如何呢?下面通过一些实测数据来分析。

性能实测

我们测试了RTX 4090在图像分类、文本生成、图片生成这几个主要AI任务的训练和推理性能,并和Tesla A100做了相应对比。测试都是单卡,不考虑GPU间通信带宽对性能的影响。

从下面的测试结果来看,基本跟上面的分析差不多,RTX 4090算力略高于A100,但受限于显存带宽,实际小任务时性能与A100接近,大任务时A100优势更大。

图像分类(ResNet50)

图像分类测试的是TensorFlow ResNet50-v5 Training的性能:

TensorFlow ResNet50-v5 Training

GPU nums

batch size per GPU

precision

variable_update

local_parameter_device

all_reduce_spec

4090(images/sec)

A100-80G(images/sec)

A100/4090

1

64

fp16

parameter_server

cpu

None

1324

1274.46

96.26%

1

128

fp16

parameter_server

cpu

None

1356.46

17825

1346%

1

64

fp16

parameter_server

gpu

None

1614.9

1784.63

110.51%

1

128

fp16

parameter_server

gpu

None

14791

1978.99

134.36%

1

64

fp16

replicated

gpu

None

15949

1486.6

935%

1

128

fp16

replicated

gpu

None

1457.87

20165

138.05%

1

64

fp16

replicated

gpu

pscpu

1595.17

1627.92

1005%

1

128

fp16

replicated

gpu

pscpu

1460.31

2004.91

137.29%

1

64

fp16

replicated

gpu

nccl

1589.09

1786.49

1142%

1

128

fp16

replicated

gpu

nccl

15343

20513

1394%

 

从测试结果看,bs=644090性能与A100是接近的,但是到了bs=128时,差距可以达到30%以上。

文本生成(LLAMA

我们测试了LLAMA 7b文本生成推理任务,用吞吐也就是每秒生成的token数作为评估标准,值越大性能越好。

GPU

model size

precision

batch size

throught(tokens/s)

4090

7b

fp16

1

46.38

A100

7b

fp16

1

46.35

4090

7b

fp16

2

87.85

A100

7b

fp16

2

90.68

 

从测试结果可以看到:

Bs=14090A100差不多,bs=2A100就超过4090了。

图片生成(Stable Diffusion

Stable Diifusion 测试的是WEB UI场景固定sampling step=20生成512*512尺寸图片的时间,时间越短性能越好。测试了Pytorch native以及xformers加速后的生成时间。

 

GPU

加速库

sampling steps

image size

batch size

time(s)

4090

native

20

512*512

1

0.9

A100

native

20

512*512

1

1

4090

xformers

20

512*512

1

0.6

A100

xformers

20

512*512

1

0.8

4090

native

20

512*512

8

6.8

A100

native

20

512*512

8

5.4

4090

xformers

20

512*512

8

4.5

A100

xformers

20

512*512

8

4.1

 

从结果看,在bs=1时,4090性能是优于A100的,但是当bs增大到8时,A100的性能就明显超过4090了。

  

总结

RTX 4090Ada Lovelace架构继承了Hopper架构在AI计算方面的特性,同时搭载了新的第三代RT CoreAI性能和光追算力相比上一代RTX 3090 Ti均提升一倍,单GPU AI算力与A100接近。实际测试4090在小bs推理任务上可以与A100相当,但是首先显存带宽以及GPU间高速通信带宽的缺失,在多卡训练和推理任务上相比A100差距还是会很大。

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
3天前
|
机器学习/深度学习 安全 算法
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
130 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
|
2月前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
MarS 是微软亚洲研究院推出的金融市场模拟预测引擎,基于生成型基础模型 LMM,支持无风险环境下的交易策略测试、风险管理和市场分析。
60 8
MarS:微软开源金融市场模拟预测引擎,支持策略测试、风险管理和市场分析
|
16天前
|
测试技术 双11 开发者
一文分析架构思维之建模思维
软件里的要素不是凭空出现的,都是源于实际的业务。本文从软件设计本源到建模案例系统的介绍了作者对于建模的思维和思考。
|
23天前
|
消息中间件 监控 小程序
电竞陪玩系统架构优化设计,陪玩app如何提升系统稳定性,陪玩小程序平台的测试与监控
电竞陪玩系统架构涵盖前端(React/Vue)、后端(Spring Boot/php)、数据库(MySQL/MongoDB)、实时通信(WebSocket)及其他组件(Redis、RabbitMQ、Nginx)。通过模块化设计、微服务架构和云计算技术优化,提升系统性能与可靠性。同时,加强全面测试、实时监控及故障管理,确保系统稳定运行。
|
28天前
|
容灾 网络协议 数据库
云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践
本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
|
28天前
|
人工智能 运维 监控
云卓越架构:企业稳定性架构体系和AI业务场景探秘
本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
|
2月前
|
开发框架 .NET Java
C#集合数据去重的5种方式及其性能对比测试分析
C#集合数据去重的5种方式及其性能对比测试分析
36 11
|
2月前
|
开发框架 .NET Java
C#集合数据去重的5种方式及其性能对比测试分析
C#集合数据去重的5种方式及其性能对比测试分析
52 10
|
3月前
|
Cloud Native 安全 持续交付
深入理解微服务架构及其在现代软件开发中的应用
深入理解微服务架构及其在现代软件开发中的应用
101 32