服务器显卡直通和GPU问题分析

简介: 服务器显卡直通和GPU问题分析

从最开始买服务器的时候我就问了商家,能不能用显卡,商家答复厚度不超过2CM的刀卡是可以用的;并且在安装macOS的时候,我也发现3M的显存是真的不够用,上显卡的冲动再次涌上心头。


显卡适配关系


服务器作为比较特殊的设备,和普通PC不同,支持的显卡型号有限,以下为我从HPE官网找到的显卡适配关系,与其说是显卡,不如说是GPU,更偏向于计算,适合搞AI(所以一开始有朋友问我是不要开始搞大数据或者人工智能了,让大家失望了)。标红部分为已经查明的支持vGPU的显卡型号,也就是能按需分配给虚拟机。

1677204148568.jpg

这时我意识到,服务器有适配关系,那VMware ESXi是不是也有适配关系?我就找HPE的售后400工程师咨询了一下,大跌眼镜!直接丢给我一个查询配套关系的软件,下载原始链接如下:


http://h20195.www2.hpe.com/v2/redirect.aspx?/products/quickspecs/15033_div/15033_div.HTML


应该是GFW的原因,源链接打开失败,但是会跳转到一个新的链接:


http://h41370.www4.hpe.com/quickspecs/overview.html


这个是DL360 Gen9所有可扩展配置的配置表,最终查明这款机器只支持一款GPU:


HPE NVIDIA Quadro P4000 Graphics Accelerator

1677204165741.jpg

并且对电源有要求,好在我的500W电源应该是够用的。

 

1677204181454.jpg

上面的图里也有我查的价格,6500块差不多够我再买一台服务器了。并且咨询得知NVIDIA的显卡都涉及授权问题,之前的经验中NVIDIA会针对每个VDI(Virtual Desktop Infrastructure,约等于虚拟机)收取授权费用,大约为每个VDI每5年8000块;这么贵,不如直接去抢钱好了!


远程桌面


假设我是一个很有钱的工程师,我买了NVIDIA的显卡并且购买了授权。那我能不能实现在虚拟机里面打游戏呢?常规操作是不行的。

因为在使用windows远程桌面的时候,调用的不是虚拟机或者原主机的显卡。而是Windows 远程桌面虚拟的显示驱动,也就是说原本的物理显卡根本就没有调用过。微软的相关解释链接如下:


https://docs.microsoft.com/zh-cn/windows/win32/termserv/remote-desktop-protocol


部分说明如下(引用链接: Remote Desktop Protocol):

On the server, RDP uses its own video driver to render display output by constructing the rendering information into network packets by using RDP protocol and sending them over the network to the client. On the client, RDP receives rendering data and interprets the packets into corresponding Microsoft Windows graphics device interface (GDI) API calls. For the input path, client mouse and keyboard events are redirected from the client to the server. On the server, RDP uses its own keyboard and mouse driver to receive these keyboard and mouse events.


在服务器上,RDP通过使用RDP协议将渲染信息构造为网络数据包并将其通过网络发送到客户端,从而使用其自己的视频驱动程序来渲染显示输出。在客户端上,RDP接收渲染数据并将数据包解释为相应的Microsoft Windows图形设备接口(GDI)API调用。对于输入路径,客户端鼠标和键盘事件从客户端重定向到服务器。在服务器上,RDP使用其自己的键盘和鼠标驱动程序来接收这些键盘和鼠标事件。


这部分我在自己电脑上测试过,一台GT 740M(2G显存)显卡的电脑,打游戏帧率能到120帧以上;但是如果通过远程桌面来操作,会同时消耗本地PC的带宽和显卡资源。测试中使用无线网络时,占用十几兆的带宽资源游戏帧率也达不到10帧,已经卡成幻灯片了;当使用有线网络时,带宽占用超过50M时,帧率也没有达到30帧,操作还是会有卡顿。

1677204216150.jpg

说到这里,我对5G时代下的云端游戏功能产生了怀疑,我到底需要多大的带宽和多低的延迟才能远程打游戏?是不是有其他解决方案?


好像确实有,如果要调用vGPU,需要有特有的软件,才能启用物理显卡功能。现在新华三的CAS貌似有这个东西,远程桌面调用物理显卡。但是也可以用远程工具调用物理显卡,目前测试可行的就有向日葵、TeamViewer。比如说使用向日葵能达到和直接操作物理机比较接近的117 fps。

1677204369020.jpg


显卡直通


回到现实中,我没有那么多钱来买GPU和授权怎么办呢?我就不能让我的虚拟机用显卡了吗?


通过咨询专家还有上网查找资料,发现可以通过设置PCI设备直通来实现。简单地讲,就是把PCI插槽直接分配给虚拟机,这样的话,一定意义上就跳过了服务器的适配关系,直接在虚拟机上装驱动就可以了。


先检查一下ESXi是否支持。在ESXi管理页面,“管理”→“硬件”→“PCI设备”,选择PCI物理设备,再点击“切换直通”。可将PCI设备模式切换为直通模式(passthrough),这样就可以分配给主机了。

1677204397849.jpg

然后我就在京东上买了一块AMD的显卡(盈通的RX550,4G显存版本)。服务器的PCI扩展槽是这样的,主要是实现了将显卡从竖插变成了横插,同时将显卡厚度限制到了2CM。

 

1677204409505.jpg


插上显卡之后底面是这样的。

 

1677204423355.jpg

把PCI扩展插槽撞到服务器上,上面是这样的。

 

1677204430748.jpg


切换PCI直通模式


显卡就位之后开机,在iLO中的设备信息里面能看到识别到了显卡,显示信息为AMD Radeon。

 

1677204442806.jpg

登录VMware ESXi,在“管理”→“硬件”→“PCI设备”下面,要选择两个PCI物理设备(分别是图形和音频设备),再点击“切换直通”,这样显卡就切换到直通模式了。需要注意的是,切换直通之后需要重启服务器生效。

 

1677204454969.jpg


重启完成后,查看显卡的直通状态由“禁用”变成了“活动”。

 

1677204467380.jpg


虚拟机添加PCI设备


新建一台Windows7的虚拟机,与之前操作不同的是,现在可以添加“PCI设备”了。点击“添加其他设备”→“PCI设备”。

1677204478156.jpg

为避免出现问题,我两次添加设备,把显卡的图形设备和音频设备都添加上来了。

 

1677204494806.jpg

系统提示:添加PCI设备之后,需要为虚拟机预留所有内存才能启动,可以点击“预留所有内存”同步内存配置。最终虚拟机配置信息如下。

 

1677204501277.jpg


Windows7环境下尝试加载


启动虚拟机后发现视频设备是未识别的,首先通过安装VMware Tools可以解决基本系统设备的感叹号问题;VGA图形适配器则需要打设备驱动解决。

 

1677204514005.jpg

通过鲁大师检测硬件信息,硬件识别正常。

 

1677204525914.jpg

使用360驱动大师完成显卡和声卡的驱动更新。

 

1677204532295.jpg

发现有新的AMD Log Utility Driver设备未识别,上网查了一下,大概意思是说版本不匹配导致的。

 

1677204537867.jpg

那就去官网下一个匹配的吧,型号和操作系统都选好,下载好驱动;再把之前的驱动卸载。

 

1677204553941.jpg

AMD的最新驱动程序Radeon Software。

 

1677204559051.jpg

弹出信任驱动程序发布者的弹窗,一度让我认为快成功了。

 

1677204563816.jpg

实际上还是没有解决问题,很尴尬。

 

1677204568738.jpg



Windows10环境下尝试加载


我又想到Windows7去年停止维护了,是不是这个有影响?那就再装一台Windows10虚拟机,开机竟然直接识别了AMD的显卡。

 

1677204583960.jpg

装好VMware Tools之后,看上去好像没有问题了。

 

1677204599757.jpg

鲁大师硬件检测信息也正常了不少。

 

1677204604932.jpg

但是跑分性能极低!

 

1677204611334.jpg

更新驱动之后频率和带宽识别都不正常了。

 

1677204620067.jpg

搞得我有点慌了,赶紧找售后。售后先是答复显卡没有服务器的驱动,我说我装的Windows10操作系统;然后加了技术的QQ,技术一顿操作,还是解决不了显卡PCI-E速率和显卡速率不匹配的问题。呦呵,完蛋,可能还是和服务器PCI有关系,只能七天无理由退货了!


所以,没钱搞什么GPU?搞什么vGPU?搞什么显卡直通?只能友情提醒大家最近不要在京东买RX550这款显卡了,免得买到我退货的商品,显得尴尬!


相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
7天前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多种配置选项,包括CPU+GPU、CPU+FPGA等组合,支持高性能计算需求。本文汇总了阿里云GPU服务器的价格信息,涵盖NVIDIA A10、V100、T4、P4、P100等多款GPU卡,适用于人工智能、机器学习和深度学习等场景。详细价格表和实例规格见文内图表。
|
1月前
|
机器学习/深度学习 弹性计算 编解码
阿里云服务器计算架构X86/ARM/GPU/FPGA/ASIC/裸金属/超级计算集群有啥区别?
阿里云服务器ECS提供了多种计算架构,包括X86、ARM、GPU/FPGA/ASIC、弹性裸金属服务器及超级计算集群。X86架构常见且通用,适合大多数应用场景;ARM架构具备低功耗优势,适用于长期运行环境;GPU/FPGA/ASIC则针对深度学习、科学计算、视频处理等高性能需求;弹性裸金属服务器与超级计算集群则分别提供物理机级别的性能和高速RDMA互联,满足高性能计算和大规模训练需求。
|
1月前
|
机器学习/深度学习 人工智能 并行计算
StableDiffusion-01本地服务器部署服务 10分钟上手 底显存 中等显存机器 加载模型测试效果 附带安装指令 多显卡 2070Super 8GB*2
StableDiffusion-01本地服务器部署服务 10分钟上手 底显存 中等显存机器 加载模型测试效果 附带安装指令 多显卡 2070Super 8GB*2
28 0
|
3月前
|
编解码 分布式计算 Linux
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
阿里云服务器产品包含云服务器、轻量应用服务器、GPU云服务器等,本文汇总了这些云服务器当下最新的实时活动价格情况,包含经济型e实例云服务器价格、通用算力型u1实例云服务器价格、第七代云服务器价格、轻量应用服务器最新价格、GPU云服务器价格,以供大家参考。
最新阿里云服务器、轻量应用服务器、GPU云服务器活动价格参考
|
3月前
|
机器学习/深度学习 人工智能 弹性计算
阿里云AI服务器价格表_GPU服务器租赁费用_AI人工智能高性能计算推理
阿里云AI服务器提供多样化的选择,包括CPU+GPU、CPU+FPGA等多种配置,适用于人工智能、机器学习和深度学习等计算密集型任务。其中,GPU服务器整合高性能CPU平台,单实例可实现最高5PFLOPS的混合精度计算能力。根据不同GPU类型(如NVIDIA A10、V100、T4等)和应用场景(如AI训练、推理、科学计算等),价格从数百到数千元不等。详情及更多实例规格可见阿里云官方页面。
227 1
|
24天前
|
弹性计算 网络安全
阿里云国际OpenAPI多接口快速管理ECS服务器教程
阿里云国际OpenAPI多接口快速管理ECS服务器教程
|
1天前
|
存储 分布式计算 固态存储
阿里云2核16G、4核32G、8核64G配置云服务器租用收费标准与活动价格参考
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、Spark集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择。目前2核16G配置按量收费最低收费标准为0.54元/小时,按月租用标准收费标准为260.44元/1个月。4核32G配置的阿里云服务器按量收费标准最低为1.08元/小时,按月租用标准收费标准为520.88元/1个月。8核64G配置的阿里云服务器按量收费标准最低为2.17元/小时,按月租用标准收费标准为1041.77元/1个月。本文介绍这些配置的最新租用收费标准与活动价格情况,以供参考。
|
7天前
|
弹性计算
阿里云2核16G服务器多少钱一年?亲测价格查询1个月和1小时收费标准
阿里云2核16G服务器提供多种ECS实例规格,内存型r8i实例1年6折优惠价为1901元,按月收费334.19元,按小时收费0.696221元。更多规格及详细报价请访问阿里云ECS页面。
39 9
|
4天前
|
监控 Ubuntu Linux
使用VSCode通过SSH远程登录阿里云Linux服务器异常崩溃
通过 VSCode 的 Remote - SSH 插件远程连接阿里云 Ubuntu 22 服务器时,会因高 CPU 使用率导致连接断开。经排查发现,VSCode 连接根目录 ".." 时会频繁调用"rg"(ripgrep)进行文件搜索,导致 CPU 负载过高。解决方法是将连接目录改为"root"(或其他具体的路径),避免不必要的文件检索,从而恢复正常连接。
|
7天前
|
弹性计算 异构计算
2024年阿里云GPU服务器多少钱1小时?亲测价格查询方法
2024年阿里云GPU服务器每小时收费因实例规格不同而异。可通过阿里云GPU服务器页面选择“按量付费”查看具体价格。例如,NVIDIA A100的gn7e实例为34.742元/小时,NVIDIA A10的gn7i实例为12.710156元/小时。更多详情请访问阿里云官网。
41 2
下一篇
无影云桌面