华为云ModelAtrs创建GPU环境训练模型
创建Notebook
首先需要创建新的Notebook
然后根据自己的训练需求选择要创建的镜像和规格。我这里选择mindspore的GPU进行创建,规格选择64GB的。
如果要选择SSH远程开发的话需要填写这个密钥对,没有的话选择点击立即创建之后就按照它的要求走就行。
添加数据存储
点击添加数据存储。如果没有并行文件系统,就选择新建并行文件系统。创建过程很简单就不多说了。
可以把我们的文件上传到这个并行文件系统,然后在这个选择需要挂载的文件夹目录,这样就可以在镜像中使用这些文件了。
上传文件至并行文件系统
上传方式推荐使用OBS Browser+
,这个软件可以在华为云的官网下载。安装后打开,界面如下图所示。
然后选择一种方式进行登录。
如果使用AK方式登录的话需要AccessKey,这个东西可以点击界面上的获取AccessKey
进行获取,然后输入进去登录就可以了。
登录之后,选择左侧的并行文件系统。
找到自己需要的那个并行文件系统,然后点击进去。之后就可以选择上传,可以上传文件也可以上传整个文件夹。
上传结束后就可以在里面看到自己上传的文件或文件夹了。
选择挂载文件目录
之后就可以返回刚才的界面选择并行文件系统中自己想要挂载的文件夹目录。本地挂载目录也可以按照自己的需求更改。
点击确定后等他挂载成功后就可以了,不想要的时候可以卸载。
找到挂载的文件
使用WinSCP连接镜像
获得图中的信息然后依次填写
需要注意的是,在连接的时候需要一个密钥文件,这个密钥文件就是之前创建密钥时下载的那个文件。这里需要将那个密钥文件加载进来。第一次加载可能会提示你格式不对需要转换之类的信息,只需要点击确定就行。
填完密钥后点击确定,之后就可以正常登录了。
使用VScode连接镜像
使用VScode通过ssh连接镜像需要下载插件。
安装完之后
配置完之后保存文件,就可以在左侧看到相应名称的对象了。
右击它然后选择第一个(在本窗口连接),第一次连接会让你选择平台,这里选择Linux就行。然后会询问你一个东西,输入yes就行。
之后慢慢等待一下就可以正常连接上去了。
之后选择打开文件夹,可以直接打开到我们之前挂载的文件夹目录,这样方便修改调试里面的代码。
使用MobaXterm连接镜像
打开软件,选择左上角的Session,再选择SSH。
按照要求填写内容以及添加密钥文件后点击OK。
成功连接。
训练模型
使用MobaXterm或者镜像自带的命令行进入挂载目录。
然后运行train.py(已经修改成使用GPU训练),查看训练结果。