自我介绍
22级计算机研究生,从同学处了解到在校学生可以通过"飞天加速计划"申请服务器,决定通过服务器搭建机器学习环境,方便远程训练简单模型.
搭建方法
- 通过飞天计划,通过了解云服务相关理论完成测试,获得阿里云服务器体验权限.
- 初步了解和熟悉阿里云管理操作,大致了解每个功能模块.在了解之后,发现目前没有可以一键部署机器学习环境的功能,于是考虑选择哪个官方环境.
- 在云服务管理工作台->概览->我的教程->部署开发环境,对于机器学习,目前的docker作为一个应用容器,查看它的仓库找到了许多机器学习相关环境,于是选择docker环境教程,按照教程要求,重置实例密码,下载SSH工具,完成了教程任务.
- 完成搭建后教程中结果是可以访问ngnix网站,但我这边是不能访问.
- 初步想到的原因可能是防火墙,端口限制这类问题,所以在网络与安全->安全组中,选择对应服务器,配置规则,添加对应端口的规则.最终可以访问,结果证明确实是这个问题.
- 通过在docker仓库查询,最终我决定使用tensorflow官方环境,通过ssh工具远程连接服务器.输入以下指令:
docker pull tensorflow/tensorflow docker run -it--rm-v$(realpath ~/notebooks):/tf/notebooks -p8888:8888 tensorflow/tensorflow:latest-jupyter
- 命令行会输出的信息中包含了目前开启服务的url信息,其中将url头部换成自己服务器的公网ip,发现访问不了,按照步骤5加入8888端口,网站就能打开了.
- 通过网页访问远程服务器url,在notebook中,新建文本,通过写入命令更新pip,安装sklearn,接下来就可以进行机器学习模型训练了.
总结
因为目前在做机器学习,相对于本地训练和天池自带的notebook,云服务器模型训练可以很方便远程训练,在训练要求不是很高的情况下,使用云服务器简单部署就能满足平时的练习,打比赛需要.docker和云服务功能很强大,之后还需要深入了解和学习.
截图