视障者音乐制作交流基地

标题: 写给新手看的RVC操作方法,推理篇 [打印本页]

作者: 六弦音    时间: 2023-8-23 11:41
标题: 写给新手看的RVC操作方法,推理篇
大家好,今天我们来分享用RVC推理干声的方法
当我们炼丹成功,就可以用练好的模型文件和索引文件进行推理干声了,及用模型的音色替换原本的干声音色。
进行人声推理需要两个文件,一个是.pth的模型文件,另一个是.index的索引文件,前者是音色,后者是声音特征。
本地训练的,在RVC的logs文件夹里有训练模型时已模型命名的文件夹,里面能找到后缀名是.index的索引文件。
而在RVC的weights文件夹里可以直接看到已模型命名的.pth的模型文件。
在本地训练模型的就不用动索引文件与模型文件了,推理的时候可以直接调用。
如果是服务器训练模型的,则在服务器的root文件夹内找到同名的logs和weights这两个文件夹,下载其中的.index和.pth这两个文件,并且复制到RVC内的同名文件夹内。

下面开始推理操作:

在RVC中点击 go-web.bat,首先会打开控制台,也就是命令行,此时稍等片刻,等待打开网页。
打开网页后,点击 模型推理 按钮,此时就显示了推理的操作界面。

推理音色 组合框 xxx.pth
刷新音色列表和索引路径 按钮
卸载音色省显存 按钮
这里的两个按钮就是字面意思,而组合框是我们选择模型的地方。建议在组合框先用alt加下光标打开,然后再用上下光标找到要使用的模型文件,接着回车一次即可。

请选择说话人id 滑块 0
这里是选择一个模型内多个音色的地方,目前此功能没有开放,所以不用动。

男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域.
变调(整数, 半音数量, 升八度12降八度-12) 微调组合框 0
按照8度有12个半音的原理,这里的数值是已半音为单位的方式进行调整的。
如果是女转男,及干声为女,模型为难,要把数值拉低,也就是在0以下为负数,通常是12个半音,但是根据模型音色和干声音色的情况,不一定都能拉到-12,可以根据情况,在-12附近上下调整,这个需要尝试后才能确定。
弱是男转女,及干声为男,模型为女,则情况相反,需要身高12个半音,同样也要根据音色的情况在12附近进行调整。
另外,男转男和女转女则默认为0,也可根据音色情况在0附近做适当调整。

输入待处理音频文件路径(默认是正确格式示例) 可编辑文本 E:\codes\py39\test-20230416b\todo-songs\冬之花clip1.wav
这里是输入要转换的干声的路径,根据提供的示例输入即可,值得注意的是,在路径的中间以及前后不要有符号或空格。

选择音高提取算法,输入歌声可用pm提速,harvest低音好但巨慢无比,crepe效果好但吃GPU,rmvpe效果最好且微吃GPU
pm 单选按钮
harvest 单选按钮
crepe 单选按钮
rmvpe 单选按钮
这里是选择推理用的算法,越往下品质越好,但越吃电脑配置,所以要根据自己的电脑情况选择。

>=3则使用对harvest音高识别的结果使用中值滤波,数值为滤波半径,使用可以削弱哑音 滑块 3
这里是一个EQ处理哑音的范围,通常默认即可,如果哑音明显的,可以尝试把数值调到5或7左右。

特征检索库文件路径,为空则使用下拉的选择结果 可编辑文本
自动检测index路径,下拉式选择(dropdown) 组合框 logs/xxx.index
这里就是选择声音索引文件的地方了,前面的编辑框可以手动输入索引.index文件的路径,后面的组合框可以直接选择索引文件,但索引.index的文件一定要在logs文件夹内,否则组合框里就识别不到。

检索特征占比
检索特征占比 滑块 0.75
这里是调整要使用多少模型声音特征的,拉满则完全使用索引训练的声音特征。0则为不使用索引,这时候推理会完全使用底膜的声音特征。
推荐索引特征调整在0.5到1之间,如果模型质量好可以拉高数值,弱模型质量差,就拉低,用底膜的特征来辅助。

后处理重采样至最终采样率,0为不进行重采样 滑块 0
这里是对采样率重新选择的设置,默认不动即可。

输入源音量包络替换输出音量包络融合比例,越靠近1越使用输出包络 滑块 0.25
这里是调整推理后音频音量的参数,拉满1的时候,使用RVC标准化后的音量,减小数值则靠近推理使用的原始音频音量。推荐直接拉满。

保护清辅音和呼吸声,防止电音撕裂等artifact,拉满0.5不开启,调低加大保护力度但可能降低索引效果 滑块 0.33
这里是保护清辅音和呼吸声的地方,拉低可以保护的更好,但是会损失声音的特征,拉满则表示关闭。

转换 按钮
以上的设置完成以后,就可以在这里点击转换推理了。点击转换后,下面的输出信息的下方,会有两行数值,上面的一行是时间的进度,下一行是参考本次转换的质量,数值越小质量越好。

另外要说明的是,RVC的模型推理界面,有相同的两套设置,前面的是单文件转换。当切到第一个转换按钮的时候,再往后就是第二套设置了,第二套则是批量转换,可以添加输入文件夹内的多个文件批量转换。
在第二套设置的最后,会有导出文件格式的选项,这个和第一套设置是二合一的。

导出文件格式
wav 单选按钮
flac 单选按钮
mp3 单选按钮
m4a 单选按钮
这里选择推理后的音频格式,建议选择wav。

当输出信息下方的两行数值消失候,就表示本次的推理已经成功完成了,点击网页内的播放按钮可以试听本次推理的音频文件。
你也可以点击网页中的点击显示更多媒体控件 菜单 更多选项 按钮,弹出菜单选项,点击后,第一个选项就是下载媒体 菜单项目,回车就可以下载本次推理后的音频文件了。

值得注意的是,第二套设置的开头,有输出文件夹可以手动指定一个推理完成后的成品存放路径,这时,推理完成后,就可以在你指定的文件夹内看到推理完成后的音频文件了。
指定输出文件夹 可编辑文本 opt
这里写上文件夹的绝对路径,例如:
D:\xxx

最后,在推理过程中当无意中关闭了网页,但没有关闭命令行,也不用慌张,打开浏览器,输入:
http://127.0.0.1:7897
可以重新打开网页看到推理的进度和成品。
好了,本次推理过程到此结束,欢迎互相交流经验!后续交流可加群:
759776216
下次见
作者: elephant    时间: 2023-8-31 06:32
六弦音,赞,很好,虽然大象暂时没能用的上,也感谢你及为你的奉献精神点赞,给你一个大大的good。




欢迎光临 视障者音乐制作交流基地 (http://szzyyzz.com/) Powered by Discuz! X3.2