【手把手教学】读屏族使用Autodl云端训练RVC模型

哲隐发表于 2023-6-24 14:46:40

Hello大家好，我是哲隐！最近AI变声器RVC非常的火。
那么经过我的研究和看了一些教程后，我来做一个个人经验分享。此分享将会手把手的，详细的带着大家使用Autodl云端训练RVC模型。
在此，感谢争渡论坛上的“平行世界”这位朋友分享的手机演示内录，下面是帖子链接：
http://www.zd.hk/thread-index-fid-6-tid-124534.htm
本分享使用的设备是Windows10，其他设备大同小异；
使用的屏幕阅读器是：争渡（ZDSR）2023 夏季版。
那么，我们开始吧！

首先，我们需要打开一个网站：
www.autodl.com
第一次使用的朋友们要先注册，打开注册页面，我们可以浏览到，手机号码输入框，这里输入你的手机号，然后是验证码输入框，一个发送验证码按钮的下面又是一个受保护的编辑框，这个受保护的编辑框就是你的账号密码，需要8个字符以上，包含数字和字母。
我们先填写手机号和密码，之后我们点击发送验证码按钮。
当你点击了这个按钮时，网页下面会有一个滑块验证，大家可以找身边的明眼人帮忙过一下。
通过了验证之后，你的手机将会收到验证码，将验证码填写进对应的编辑框，在点击注册按钮就行啦！

下面，我们需要往自己的账号上充值一点儿银子来租借显卡。
注册成功之后，好像是会跳转到个人中心的，我注册的时候忘记记录了，反正登录之后是会跳转到个人中心的，这个时候我们可以用光标件找到我的余额，人民币，多少多少。
在他的下面会有一个充值，我们用小回车点击他。
之后会跳转到充值页面，我们可以按光标键可以看到，有什么充值50RMB，100RMB这些我们都不用管他，我们往下找到其他金额，小回车点击。
这个时候，下面会弹出来一个充值金额组合框，我们输入想要冲的人民币金额就可以了。
一般的训练我们大约会耗费0.5RMB到2RMB不等，这里建议大家最好先充值2块钱或者三块钱，如果你要长期使用的话可以10快甚至更多。
由于我们这里是第一次，所以需要摸索，会浪费一点儿时间，所以建议大家充值3块钱。
下面选择支付方式在点击充值按钮就好啦！

下面我们开始选择显卡，租借显卡。
首先回到个人中心主页，按光标键找到：容器实例菜单项目，小回车点击。
然后，我们找到租用新实例按钮，点击他。
之后会弹出一个选择显卡的见面，首先是计费方式，我们没什么特殊需求的就选择按量计费。
然后选择租借显卡的地区，关于选择地区和显卡型号我是不太懂的，有懂的大佬可以在下面留言咳咳。其他小伙伴也可以上网查查怎么选显卡。
这里我的选择是这样的，地区：内蒙A区，GPU型号：我没有动，GPU数量：1。
之后在下面就是选择主机，就是具体的机器，在每一台机器的前面会有一个单选框，就是是否选中了这一台机器，然后默认是选中第一个机器的，对了，选择机器的是一个表格，我们可以使用浏览表格的操作方式来浏览。
我就租借默认的这个机器就好了，这里显示了这个机器的显卡，显卡的显存，还有CPU的型号等信息，我们需要关注的就是这个显存，当前默认的这个显存是24G，我们需要记下来，训练模型的时候需要填写的。
之后我们可以按CTRL+行尾跳转到网页的最末尾。
上光标找到镜像，在下光标找到社区镜像单选框，小回车选中。
网页下面会多出来一个编辑框：请输入Github项目搜索镜像可编辑文本，我们在里面输入RVC。
下光标找到：-Project/Retrieval-based-Voice-Conversion-WebUI/RVC_WebUI:v2。
注意，结尾一定有V2的标识，然后我们小回车点击他。
之后我们可以在核实一下订单信息，确认无误后我们就可以点击立即创建按钮了！
如果你在这个见面停留过长的话，点击创建按钮之后可能会在网页的最下端出现以下错误：
错误标题2
该主机已租满，请更换主机重新创建实例
意思就是，你当前选择的机器已经被别人租借走了，你需要重新选择，所以如果你已经熟悉了操作和流程，那么你一定要快速的完成上述操作哦！
如果你是第一次注册的话，需要你绑定微信才能租借显卡，当你点击立即创建按钮的下一刻，在网页的最下面会弹出一个要求你关注公众号绑定微信的提示，点击绑定，用手机扫码并关注公众号就好了！

当你成功租借到显卡后，浏览器将会自动跳转到个人中心里面的容器实例菜单项目，下面将会显示你已经租借的显卡列表。
我们找到刚刚租借的那一台机器，在找到对应的JupyterLab 按钮，小回车进入。
点击后，大家会发现，诶怎么啥也没有，过了一会儿...
靠怎么还是啥也没有，你不会在逗我玩儿吧！
不要着急，加载比较慢，大约要等待1到两分钟。加载出来后，默认会停留在输入命令的编辑框上，接着，我们在这个编辑框内输入以下命令：
cd /root/Retrieval-based-Voice-Conversion-WebUI && python infer-web.py --port 6006
然后大约过个几十秒，大家可以用OCR识别一下屏幕，当出现一个网址后面还带有一个6006的标识的时候，就代表运行成功了。
接下来，我们按下CTRL+Tab切换网页到点击JupyterLab 按钮的那个网页上去，也就是个人中心，容器实例菜单项目那里。
找到当前这台机器的自定义服务按钮，小回车点击。
同样，如果是第一次注册的朋友们会在网页的最下面出现要求实名认证的提示，此时此刻你按照要求认证就好了，只需要输入你的真实名字和身份证号就行，没有别的验证，如果你是未成年也不要着急，因为未成年也是能通过的，毕竟这又不是游戏，不会被禁止的。
点击了自定义服务按钮后，在网页最下面会出现两个按钮，我们点击访问按钮即可。
之后，浏览器会打开一个新网页，这就是RVC的UI窗口，我们接下来将会在这个窗口内完成训练模型。
打开了RVC的UI后，我们还需要进行一个操作，那就是上传要训练的数据集，俗称训练素材。
我们按下CTRL+Tab回到点击了JupyterLab 按钮之后跳转到的那个网页，也就是输入命令的那个网页。
这里有一个文件管理器，默认位置是在一个文件夹里面，我们回到根目录。
我们按光标键找到/root图形，在这里把鼠标一过来双击它，那么我们的目录位置就到了根目录。
这里说明一下，root是根目录的意思，也就是说，我们只要对着想要去的目录双击一下，那么下面的文件列表就会定位过去。
然后我们点击新建文件夹按钮，点击之后会弹出一个编辑框，我们输入Audio，也就是音频的意思，输入完毕回车。
那么我们就在根目录下建立了一个Audio的文件夹，我们找到刚刚创建的文件夹，双击它，进入。
在这里，我们需要上传我们的数据集到这个文件夹内，我们找到上传按钮，浏览器会弹出一个Windows的标准文件浏览框，选择完毕后，网页的最下面会弹出一个提示，问你是否要上传这个文件，我们点击上传即可。
在网页的最底下会出现上传的速度和一个进度条，等待文件上传完毕后，我们回到RVC的UI见面，同样是按CTRL+Tab切换过去。

接下来就是训练环节了，大家应该都懂，但是为了照顾刚接触的同学们，我还是做了讲解，会的同学可以先跳过。
我们按光标键找到训练按钮，小回车点击。
此时，下面就会出现关于训练的一系列选项，我们首先找到第一个，输入实验明，其实就是输入你要训练的模型的名称。
那么大家按照个人情况填写就好了，对了，不要有中文哦，说不好会报错的，包括刚刚的那个新建文件夹等东西，千万都不要用中文，防止报错。
接下来：目标采样率，我们可以不用管，默认的就好了。
模型是否带音高指导(唱歌一定要, 语音可以不要)，这个选项我还是建议大家都选true，因为哪怕你是用来普通的朗读语音转换，效果也是会好一些的，当然默认就是true，所以我们也可以不用动。
在接下来就是选择版本了，我们选择V2，V2会比V1更自然一点儿，以前V2有很多Bug，现在都修复了，所以大家放心使用。
提取音高和处理数据使用的CPU进程数，这里就默认最高就好啦，也不需要动。
输入训练文件夹路径，这里我们输入路径就好了，我们刚刚那个素材的路径是：/root/Audio/，注意，结尾最好也加上斜杠。
请指定说话人id，这里我暂时没搞懂能用来干嘛，大家就不动好了。
选择音高提取算法:输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢，这里听介绍就知道了，默认就是最高质量的算法，所以大家也不需要动。
接下来重点来啦：保存频率save_every_epoch，顾名思义，就是你要训练多少保存一次，可以用来对比训练不同次数的效果和质量。
总训练轮数total_epoch，就是你总共要训练多少次，最高是1000次。
当然，并不是越高越好，一般我们训练个50次到几百次效果就已经很OK了，如果你直接1000的话，可能还会降低质量，因为他说不定还会把你声音的一些瑕疵，不好听的东西也给你学习了，所以大家按需调整，也就是为什么刚刚会有一个保存评率了，就是让你对比，然后使用效果最好的那一个。
这里，我的保存评率设置为100，总次数改成200。
每张显卡的batch_size，这个选项的意思是，你用来训练的显存大小，我们在租借显卡的时候，配置是：显存24G，所以，这里我们可以填写比较高的数值。
我填写的是18，因为如果你填写了24G的话程序有可能会崩溃，所以我们最好预留一点儿显存，当然，18是非常保守的设置，大家可以适当地增大。
是否仅保存最新的ckpt文件以节省硬盘空间，我们在上面保存评率填写的是100，如果这里选择true也就是”是“的话，那么最终训练出来的成果就只有训练200轮的模型了，如果否，那么你就可以得到100轮和200轮的两个模型。
是否缓存所有训练集至显存. 10min以下小数据可缓存以加速训练, 大数据缓存会炸显存也加不了多少速，这个我也有点儿不懂，但是我知道的是，这个东西搞不好可能会炸内存，所以大家最好也不要去动它，让他默认就好。
是否在每次保存时间点将最终小模型保存至weights文件夹，这里选择true即可。
接下来的选项我们都不用管，直接找到一键训练按钮，点击就好啦！
接下来我们可以使用争渡的网页字母导航，按下E键来找到输出信息，当输出信息的结尾带有：“全流程结束”的标识后，我们的训练就正式结束啦。
训练是一个比较长的过程，如果是一段不长的音频，大约半个小时到一个多小时不等就可以训练结束啦。

接下来我们需要做的，就是把训练完成的模型文件下载下来，推理就可以在本地完成啦！
我们按CTRL+Tab，回到文件浏览器的页面，也就是输入命令的页面。
找到Root，并双击它，回到根目录。
然后再找到：Retrieval-based-Voice-Conversion-WebUI文件夹，双击进入。
在找到weights文件夹，并双击进入，里面就是我们的模型文件啦！
如果大家保存了不同次数的模型的话，那么这里会有多个模型，在模型名称的后面会标识对应的次数。
由于下载速度慢，我就下载一个最终模型就好啦，后面带有200的那个.pth文件。
我们把鼠标移动过来，右键，光标键找到下载并单击，就会把这个文件加入到下载队列当中啦，可以按CTRL+J打开下载页面查看下载进度。
另外吐槽一下，下载是真的慢，比某网盘还要慢，所以大家做好准备。
我们需要下载的不仅仅只是模型，还有声音特征文件，光标键找到/root下面的Retrieval-based-Voice-Conversion-WebUI Retrieval-based并双击。
然后在找到logs文件夹，双击进入。
里面能看到一个你在训练时填写的实验明文件夹，双击进入。
在这个文件夹内，你需要下载两个文件，一个是.index结尾的文件，另一个可以下载也可以不下载，他的后缀是.npy，俗称：男朋友哈哈！
用同样的方法下载这两个文件后，那么我们的训练模型的步骤算是彻底结束了，在下载的时候，我们就可以把这一台机器关机和释放了。
关闭这些网页，回到个人中心的容器实例菜单项目内。
找到关机按钮并点击，之后会在网页的底部出现一个提示框和两个按钮，点击确定即可。
接下来我们需要释放机器，找到更多按钮，点击后会在网页底部出现选项，找到最后一个项目：释放实例，并单击，然后再次在网页底部点击确定即可。
到此，我们所有所有的步骤就都结束了，哦对，你的模型还没有下载完毕捏哈哈哈哈！
声明：请不要将这一AI技术用于违法等行为……本分享仅仅只是操作分享，造成的后果我并不负任何责任，和我没有任何关系！
另外本分享如果有什么错误或者遗漏的地方，欢迎各位大佬批评指正，我也是一名小白，也有很多东西不太懂HHH！
如何使用模型和推理等一系列操作不在本篇分享的范围内。最后：感谢你能坚持到最后，看完这一篇啰嗦的分享！祝你使用愉快！

哲隐发表于 2023-6-29 19:52:09

回24楼哲隐

注意注意！纠正一个我说的错误，一个大大的错误！
点击自定义服务后出现出现了404，或者什么无数据等页面很有肯能是因为没有正确打开UI窗口导致的。并不是什么端口访问的原因，因为命令行那一串代码就是带有6006端口访问的，并且端口是6006，也并不是4什么的端口，这也是我的一个大错误。
那么为什么没有正确启动UI呢，那是因为大家在选择社区镜像的时候很有可能选择的不是我演示中的那个镜像，也就是：
下光标找到：-Project/Retrieval-based-Voice-Conversion-WebUI/RVC_WebUI:v2。
当时那句话我后面也强调要带有V2实际上后来这个社区镜像就更新了，有了48K的版本，这个版本后面也是带有V2的，并且排序是排在最后的，所以导致大家弄错了版本，启动命令自然也不能正常的打开UI了，那么这个新版本带有48K标识的V2版本我们可以使用以下命令来启动：
cd /root/Retrieval-based-Voice-Conversion-New && python infer-web.py --port 6006
好，那么祝大家使用愉快，我为之前的失误抱歉，因为我这几天没有训练模型，直到刚刚！

荷塘月色 发表于 2023-6-24 18:50:09

回楼主哲隐

这篇写的太好了，多谢楼主的分享！

哲隐发表于 2023-6-24 18:54:52

回沙发荷塘月色

你能看懂就好HHH！关于RVC，我看过很多视频教程，已经深恶痛绝了！看的我都绝望了，根本就不知道人家在操作啥，争渡论坛上的那位同志录的内录其实也很乱，只不过我把他的内录和明眼人的教程综合了一下，互相补充，才有了这个分享！折腾这些东西真的太难了......

清暝月华 发表于 2023-6-24 19:10:03

赞。
收藏。

陈丁博 发表于 2023-6-24 21:09:15

写的太好了，非常感谢

谁用了我的昵称 发表于 2023-6-25 07:18:14

留个脚印，感谢分享。

窗前雨 发表于 2023-6-25 09:07:19

感谢分享，我想请教几个问题，如果有了模型，rvc能在没有独立显卡的电脑上使用吗？如果不能，rvc能在云端制作AI翻唱吗？

季候风3207 发表于 2023-6-25 09:42:26

回楼主哲隐

感谢楼主的无私分享，现在这个金钱至上的时代，真不容易

哲隐发表于 2023-6-25 13:22:55

回7楼窗前雨

嗯，有了模型，是可以在没有独立显卡的电脑上推理、渲染的，但是音频好像是不能太长，像我的笔记本，I5的处理器，只能推理10分钟以内的音频，如果太长会报错，所以可以分段来。但是一般情况下都够用的，包括翻唱。云端的话，除了训练，也是可以推理的，也是用训练模型的那个UI见面，点击推理那个按钮，下面就会弹出来关于推理的选项和设置。

哲隐发表于 2023-6-25 13:24:06

回8楼季候风3207

哈哈谢谢！

空宇发表于 2023-6-25 19:59:16

请问语音变声有人用过吗？那几个数值争渡能不能调整，

山塘客 发表于 2023-6-25 23:52:22

回9楼哲隐

请教，训练模型的时候在哪一步上传音频文件呢，好像没有提到呀，另外有格式限制吗

宇宙之声 发表于 2023-6-26 12:36:43

感谢楼主，麻烦咨询楼主两个问题，第一我点那个404后面下一步叫什么自定义服务吧，然后直接就提示404的一个页面，现在我给关机了，另外就是我自己的电脑上每次训练结束后都无法生成那个h的文件，就是说w那个文件夹里面没有增加文件，谢谢。

哲隐发表于 2023-6-26 13:24:15

回11楼空宇

你说的可能是RVC的时时变声，主要的几个参数争渡的最新版本是做了简单的支持，但并不是全部参数都能调整到！但其实也能勉强用了

哲隐发表于 2023-6-26 13:26:38

回12楼山塘客

步骤跟着文字分享一部一部走就好了，文章里面在说上传音频文件的时候是在打开了UI窗口后在上传的，当然你在打开了输入命令的控制台窗口时，也能上传文件

哲隐发表于 2023-6-26 13:28:37

回12楼山塘客

哦对了，还有格式问题，目前我知道的就支持Mp3和Wav，好像还支持其他的格式，不过个人最好建议就上传Wav格式的，因为它的音质相比于其他会好一些，并且上传这一种格式是绝对不会有错的！

哲隐发表于 2023-6-26 13:32:11

回13楼宇宙之声

首先，你在输入命令之后是否有用OCR来查看屏幕上出现一行后面带有6006的网址，确认出现了之后再点击自定义服务，出现404的错误可能是因为当前没有打开任何UI窗口，所以出现的这个错误，当然也有其他错误的可能性。

哲隐发表于 2023-6-26 13:37:17

回13楼宇宙之声

啊啊为啥我总是忘记回复第二个问题！你的个人电脑上有显卡吗？有独立显卡吗？主板显卡是不可以拿来训练的，只能是N卡，也就是英伟达的显卡。而且在训练结束后，你有确定输出的那些信息中，最后有带有全流程结束的提示吗？如果没有，或者一直都显示开始训练的话，那么就多半是训练失败了！你也可以查看CPU占用率和内存占用率，看一下这些占用率高不高，如果突然变低了，并且输出信息中也没显示全流程结束，那么多半就失败了，自然在文件夹下不会创建模型文件！

一孩发表于 2023-6-27 07:25:16

给楼主点赞，厉害

山塘客 发表于 2023-6-27 08:11:39

再请教下楼主，走到点击自定义服务并确定进入后怎么一直提示：该网页无法正常运作标题1
region-8.seetacloud.com
未发送任何数据。
ERR_EMPTY_RESPONSE
重新加载按钮，关机后再开机也是如此？

页: [1] 2

视障者音乐制作交流基地's Archiver