AlexNet是2012年由Alex Krizhevsky使用五层卷积、三层完全连接层开发的CNN网络,并赢得了ImageNet竞赛(ILSVRC)。AlexNet 证明了CNN在分类问题上的有效性(15.3%错误率),而此前的图片识别错误率高达25%。这一网络的出现对于计算机视觉在深度学习上的应用具有里程碑意义。
AlexNet也是深度学习框架常用的性能指标工具,TensorFlow就提供的alexnet_benchmark.py可以测试GPU和CPU上的性能。我们尝试基于AlexNet在阿里云容器服务上简单快速地运行GPU应用,于是乎就写了这个攻略。
前提条件
需要基于北京HPC或者GN4规格族GPU云服务器的容器服务:
l 创建基于北京 HPC 的容器集群;
l 创建 GN4 型 GPU 云服务器集群。
操作步骤
1、 登录容器服务的管理控制台。
2、 单击左侧导航栏中的镜像与模板>镜像。
3、 在搜索框中输入alexNet_benchmark并单击全局搜索。
4、 单击 registry.cn-beijing.aliyuncs.com/tensorflow-samples/alexnet_benchmark:1.0.0-devel-gpu右边的创建应用。
5、 输入应用名称(本示例中为alexNet)并选择北京HPC或者GN4规格族ECS集群, 单击下一步。
6、 配置应用。
i 在基本配置中,单击选择镜像版本,选择镜像版本为 1.0.0-devel-gpu。
ii 在容器配置中,填写运行的命令行,比如python /alexnet_benchmark.py --batch_size 128 --num_batches 100。
iii 在标签中,填写阿里云gpu标签,标签名为aliyun.gpu,标签值为调度的GPU数量,本示例中为1。
7、 完成应用配置后,单击创建创建应用。 可以在应用列表页面,查看创建的alexNet应用。
这样就可以在管理控制台,直接通过容器日志服务查看AlexNet在EGS或者HPC上的性能。
操作路径:在应用列表页面,单击应用名称alexNet >单击容器列表页签>单击容器右边的日志。