|
马上注册,浏览本站更多内容。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
楼主 六弦音说: 大家好,我是六弦音,今天来给大家分享用RVC来训练模型的流程。
从0813的版本开始,RVC有了支持A卡和I卡的功能,根据自己电脑的设备情况,选择下载对应的集合包。
https://www.123pan.com/s/5tIqVv-QHNcv.html
https://pan.baidu.com/s/19530AOh2H3Feuti_D51cXw 提取码:reqy
A卡或I卡的用户,选择下载:
RVC0813AMD_Intel
N卡用户选择下载:
RVC0813Nvidia
下载了集合包以后,建议解压到磁盘的根目录下,注意路径中不要有中文和空格。
在RVC文件夹内,我们点击 go-web.bat,使用训练推理。点击后会默认打开命令行和网页,此时需要等待一下,网页通常会打开的慢一点。而在命令行内,可以看到软件工作的所有信息。
注意,整个RVC使用的过程中,命令行是不能关闭的,如果关闭了命令行,RVC将停止工作。
打开网页以后,跟普通网页操作基本一致,并无特殊之处。用tab可以在按钮、单选按钮、组合框、文字编辑框、参数值之间切换,用光标可以完整的浏览网页内容。在网页中首先看到的内容是:
模型推理 按钮
伴奏人声分离&去混响&去回声 按钮
训练 按钮
这3个分类就是RVC的主要功能,我们如果需要训练模型就要点击训练模型按钮,然后就进入了模型训练的操作界面。
下面我们就来具体看一下RVC训练模型的操作步骤:
step1: 填写实验配置. 实验数据放在logs下, 每个实验一个文件夹, 需手工输入实验名路径, 内含实验配置, 日志, 训练得到的模型文件.
输入实验名 可编辑文本
这里是我们编写训练模型名称的地方,名称不能有中文和空格。
目标采样率
40k 单选按钮
48k 单选按钮
这是选择数据集音质的地方,如果是无损的数据集,可以选48,弱数据集质量一般,选40即可。
模型是否带音高指导(唱歌一定要, 语音可以不要)
true 单选按钮
false 单选按钮
这里前者选择是,后者选择否,建议选择前者,尽管说话不需要音高,但是带有音高训练的模型还是会比没有的感觉好些。
版本
v1 单选按钮
v2 单选按钮
这里推荐选择第二个,也就是B2单选按钮。
提取音高和处理数据使用的CPU进程数
微调组合框
通常这里使用默认的即可,或者拉高一些。注意,不要拉满,不然容易报错。以上就完成了设置参数的第一个部分。
step2a: 自动遍历训练文件夹下所有可解码成音频的文件并进行切片归一化, 在实验目录下生成2个wav文件夹; 暂时只支持单人训练.
输入训练文件夹路径 可编辑文本
这里需要输入完整的路径,提供需要训练的数据集。如果是本地训练,可以在数据集文件夹那里按 alt加d,然后上光标,听到路径进行拷贝,接着把拷贝的路径粘贴到这个编辑框即可。如果是服务器训练,就按照上传数据集的路径填写即可。下面举例:
本地路径:
D:\xxx
服务器路径:
/root/xxx/
请指定说话人id
微调组合框 0
这里是可以添加多个音色到一个模型里,目前好像功能还没有开放,默认不动即可。
处理数据 按钮
以上的内容操作完了,就在这里点击处理数据,RVC就开始对数据集进行预处理。等CPU稳定以后,在命令行里就能看到处理好的提示:
end preprocess
当看到这个信息的时候,表示预处理完成,此时我们就可以继续下一个步骤了。
step2b: 使用CPU提取音高(如果模型带音高), 使用GPU提取特征(选择卡号)
以-分隔输入使用的卡号, 例如 0-1-2 使用卡0和卡1和卡2 可编辑文本 0
这里是可以选择多卡训练模型的,如果只有一张显卡,默认为0,不用动。弱有多张显卡,就在这里用减号隔开,后面写数字1、2、3……
显卡信息
选择音高提取算法:输入歌声可用pm提速,高质量语音但CPU差可用dio提速,harvest质量更好但慢,rmvpe效果最好且微吃CPU/GPU
pm 单选按钮
harvest 单选按钮
dio 单选按钮
rmvpe 单选按钮
rmvpe_gpu 单选按钮
这里是选择算法的,基本上越往下质量越好,但是越吃电脑配置,需要根据自己的电脑情况进行尝试。
rmvpe卡号配置:以-分隔输入使用的不同进程卡号,例如0-0-1使用在卡0上跑2个进程并在卡1上跑1个进程 可编辑文本 0-0
使用单卡或CPU训练的,这里也不用动。
特征提取 按钮
现在点击特征提取,RVC就开始提取特征了。稍等片刻,在命令行里一样可以看到完成的提示:
all-feature-done
这表示特征提取成功,然后继续操作下个步骤。
step3: 填写训练设置, 开始训练模型和索引
保存频率save_every_epoch
微调组合框 5
这里是你选择训练多少轮保存一个模型文件,推荐50轮保存一次。
总训练轮数total_epoch
微调组合框 20
这里是选择本次训练一共要训练多少轮,因为RVC的训练非常不确定,所以并不是越多越好,通常建议200到500左右。如果数据集的质量不高,训练的越多效果越差。
另外,总训练轮数要大鱼保存频率,及总轮数是保存频率的整倍数。
每张显卡的batch_size
微调组合框
这里是选择要使用多少显卡的显存来跑模型训练,默认的数值是显卡的百分之五十,也就是你的显卡实际的一半,可以根据电脑的配置网上拉一些,但是不要拉满,例如8GB的显卡默认是4,拉到5或者6就差不多了。
是否仅保存最新的ckpt文件以节省硬盘空间
是 单选按钮
否 单选按钮
这里建议选是,
是否缓存所有训练集至显存. 10min以下小数据可缓存以加速训练, 大数据缓存会炸显存也加不了多少速
是 单选按钮
否 单选按钮
如果数据集小于10分钟,且你的显存比较充分,这里可以选是,否则就选否。
是否在每次保存时间点将最终小模型保存至weights文件夹
是 单选按钮
否 单选按钮
这里是设置是否按照前面设置保存频率的轮数来保存模型,如果选否,训练结束就只有一个最终的模型,如果选是,则按照保存频率的轮数来保存模型。比如频率设置为50轮,总轮数300轮,那么训练结束除了最终模型外,还会有50轮、100轮、150轮等多个模型。
加载预训练底模G路径 可编辑文本 pretrained_v2/f0G40k.pth
加载预训练底模D路径 可编辑文本 pretrained_v2/f0D40k.pth
这里是加载底膜的路径,根前面的目标采样率选择有关,是根据前面的设置自动加载对应的底膜,默认即可。
以-分隔输入使用的卡号, 例如 0-1-2 使用卡0和卡1和卡2 可编辑文本 0
这里依然是选择单卡或多卡,一般不要动。
训练模型 按钮
训练特征索引 按钮
一键训练 按钮
这时候就可以开始训练了。建议先点击训练特征索引,点击后稍等片刻,在命令行里看到训练完成的提示:
all-feature-done
这是训练索引成功的提示,然后再点击训练模型。
如果电脑性能还不错的,可以直接点击一件训练,此时RVC会自动先训练特征索引,然后开始训练模型。
当模型开始训练的时候,在命令行里可以看到每轮的训练情况:
INFO:xg:====> Epoch: 3 [2023-08-16 06:33:24] | (0:00:20.317326)
这里的内容包括第多少轮,所用时间等信息。
最后,当轮数到达你设定的总轮数的时候,就会出现训练成功的信息:
INFO:xg:Training is done. The program is closed.
INFO:xg:saving final ckpt:Success.
出现这个提示则表示本次的模型训练全部完成。
这时候本地训练的就可以到RVC的logs文件夹内找到索引文件了,索引文件在你训练模型文件夹内,名为:
added_IVF698_Flat_nprobe_1_xg_v1.index。
模型文件则在RVC文件夹内的weights文件夹里,名字就是你训练模型所写的名字,格式为:
.pth。
服务器的用户则在root文件夹内找到同上的文件下载即可。
当我们能够找到索引文件和模型文件,恭喜你,此次的炼丹圆满成功了。接下来我们就可以用这些文件进行推理及声音克隆了。
训练模型的分享就到这里了,有兴趣一起交流的可以加群:
759776216
咱们一起交流一起进步,群里有大量无私者奉献的模型等资料。好了,今天的分享结束,下次见。
|
|