主要内容
一、第一部分实操与解说
二、第二部分实操与解说
一、第一部分实操与解说
登录ECS需要注意,ECS开始没有设置密码,登录ecs第一步需要手动设置密码,在实验手册中有完整操作流程,可以登录ECS详细页仔细浏览。该环节是重置ECS密码第一个环节,通过ECS云服务器左边产品手册,下方资源页签,云服务器中的管理可以进入ECS管理页面,可以在该页面右方界面进行操作与选择,选择重置密码,会弹出框,在该框架中设置自己的密码,可以选择在线重置,避免重复。
输入密码后,在下方有安全组管理,而有一些情况需要设置安全组,在本人账号有默认安全组,同时有授予权限,可以不用设置,根据个人情况而定。
在安全组中要把IP地址加入到允许的列表。在手册里,它有一个本机IP地址链接,可直接使用。
点进去后,会暴露公网VIP,可以直接使用。选择快速添加,把端口号2280443加入。下一步申请实验所使用的AccessKey,实验完,会释放资源,之前的也会释放掉,是一个临时的AccessKey。
由于乱序,再重复演示一遍。
首先添加AccessKey,选择下载csv文件,把AccessKey保存到本地,方便后续使用。登录ECS,下载和安装OSSUTIL工具。输入设置得ESC密码,登录到ECS页面。
y可以直接复制手册中的地址。第一步安装解压软件,先下载一个依赖软件包,接下来安装OSSUTIL,安装完毕后进行ossutil配置。选择回车,这里会要求填AccessKey。之后需要填写alntPoint,这些在云资源页面oss系统已经列出,只需填内网域名,OSSUTIL配置完毕。现在执行并观察参数,所有数据都可视,oss所有功能都可以通过OSSUTIL进行执行。
在创建实验桶下面,实验桶名需要填写资源中的Bucketname。
观察资源页签,可以把刚刚创建的统一复制过来。创建本地文件,通过ossutil进行上传。观察发现,文件上传完成后,存在两条目录,第一个是文件,对象存储没有文件夹概念,它采用带左斜线文件来模拟文件夹,在其他系统中检测到各种带斜线文件会优先把它识别为目录,OSS里目录模拟过程相同。
创建本地目录,把文件下载,在做完实验后把access key释放掉。其中实验流程比较短,先安装工具,再上传下载和access key释放。最后实验结束把资源释放就结束了。
删除access key时要确认输入access key。关于资源删除部分,需要注意结束时间时,有两个选项,默认会把资源释放掉。
需要选择市场资源,把所有资源全部释放完,应选右边,失误选到左边,会持续扣费。这就是整个实验操作。
二、第二部分实操与解说
介绍关于OSSFS设备,即把一个桶化为一个盘的工具。
首先开始申请资源,需要花费几分钟进行等待。资源创建完成后,可以在最左侧云产品资源标签中,看到所有自动开通场景跟资源实例。如果采用新的云起场景体验,在结束后,不管是手动还是自动,都会自动默认释放资源。手动也可以选择释放资源,都不会产生额外费用。根据左侧实验手册继续进行下一步,首先进行安全设置,设置ECS密码和安全处,操作流程一样。
在ECS服务器管理页面,在右边全部操作里找到重置密码并输入密码,进行登录尝试。登录成功即可进行下一步。
现在申请access key。因为刚才实验access key作废,需要再申请一次,跟刚才流程一样。会有手机短信验证进行安全验证的弹窗出现,在做过类似操作验证后,过一段时间内不会存在安全验证,需把access key保存。
在对象存储控制台上传文件,观察ossfs是否可查看到文件。点击左边资源页面,OSS管理,进到创建桶的管理页面。左边可选择文件列表,里面内容为空,可以随便找一个文件上传。扫描文件,选择一个上传,就完成了。此时文件列表在OSS设置中显示已经有一个文件。下一步进行OSS FS工具安装。登录ECS服务器,相关安装命令在手册中,可以直接复制下来使用。运行过程中需要确认是否安装,遇到这种情况,按照提示选择no或者yes。
这种情况下,直接选择ok。安装完成观察版本为1.91.3,是当前最新版本。接下来配置OSSFS,首先复制左边操作手册里面命令。
有几个参数需要填,分别是deckname、access key ID、access key secret.,将文件导出并复制。可以在资源页签里找到。
现在创建挂载目录,把ossfs挂载到目录下,有几个参数与刚刚下载的参数一致。将参数挂载至文件夹,第三个参数是对象存储alntpoint,在里面需要填内网域名。下一个参数是在OLIWET,还有一个参数表示预取数据。最后是o direct track set。
其他一些参数在阿里云官网ossfs手册中,方便展示,选取了连续大块顺序读取情况。有一些是小范围随机oss读出来的情况,在内容混合、OS混合读取模式以及读取模式里一些参数会有优化,但没有继续展示,操作流程太多,仔细浏览手册即可。
挂载完成,上传一个本地文件,通过写入盘方式上传到oss,它会直接在本地创造一个文件,并通过CUT模式下载。
下面进行输出时间,后面会尝试加载模型文件,可以在社区寻找。本次示范选择的是checkpoint模型文件,内存在5g左右,内存下载会需要一些时间,一般在六、七分钟左右,并且这里的上传下载都是需要等待的。模型下载完后,需要验证模型加载情况,下载后,先把它上传到地方存储,通过命令,把模型放到这去处理,此处需要时间去等待。下载完成后,可以发现目录已经有文件。接下来以pytorch形式来加载模型,需要提前安装必备工具。依旧点击OK。
下载包,以conda方式运行该脚本,安装脚本,点击回车,它会往下面刷新一直刷到确认协议地。
出来就选yes。点回车确认,它会自动安装。最后一步让确认验收任务,选yes,此时装置安装完成,版本是24.5.0。Conda完成后,通过Conda创建实验环境,名字先叫做麦延威。
开始创建环境的依赖。环境创建完成后进行激活。在左边小括号中是自己创建的环境。接下来安装pytorch。确认时选yes。这里主要运用到的是conda软件。该软件实际上是帮助准备pip环境,conda可以帮pip做区分和隔离,conda可以做版本软件包的管理,用起来会比较方便,此次示范主要是通过conda创建自己的实验环境,以及通过conda的软件管理来安装pytorch。
现在依赖安装完毕。它实际上利用的是pytorch中today函数来加载模型,ossfs在加载连续大文件中,脚本还会打印出整体的耗时。
同时,在加载时,可以再开一个窗口,窗口中可以看到右边网络包带宽情况,也可以看到峰值流量差不多是600兆。在其它模型文件中,io模式跟CTP可能不同,io模式需要大家在实际实验中去微调阅读参数,像上面的实验,把整个模型上传加载,在实验做完后释放Accesskey和实验资源,就跟刚才的最后一波流程是一样的。
Accesskey可以每次都删除,来确保安全有效。如果之后不需要保留,需要选择释放资源。