视障者音乐制作交流基地

标题: 写给新手看的RVC操作方法，推理篇 [打印本页]

作者: 六弦音 时间: 2023-8-23 11:41
标题: 写给新手看的RVC操作方法，推理篇
大家好，今天我们来分享用RVC推理干声的方法
当我们炼丹成功，就可以用练好的模型文件和索引文件进行推理干声了，及用模型的音色替换原本的干声音色。
进行人声推理需要两个文件，一个是.pth的模型文件，另一个是.index的索引文件，前者是音色，后者是声音特征。
本地训练的，在RVC的logs文件夹里有训练模型时已模型命名的文件夹，里面能找到后缀名是.index的索引文件。
而在RVC的weights文件夹里可以直接看到已模型命名的.pth的模型文件。
在本地训练模型的就不用动索引文件与模型文件了，推理的时候可以直接调用。
如果是服务器训练模型的，则在服务器的root文件夹内找到同名的logs和weights这两个文件夹，下载其中的.index和.pth这两个文件，并且复制到RVC内的同名文件夹内。

下面开始推理操作：

在RVC中点击 go-web.bat，首先会打开控制台，也就是命令行，此时稍等片刻，等待打开网页。
打开网页后，点击模型推理按钮，此时就显示了推理的操作界面。

推理音色组合框 xxx.pth
刷新音色列表和索引路径按钮
卸载音色省显存按钮
这里的两个按钮就是字面意思，而组合框是我们选择模型的地方。建议在组合框先用alt加下光标打开，然后再用上下光标找到要使用的模型文件，接着回车一次即可。

请选择说话人id 滑块 0
这里是选择一个模型内多个音色的地方，目前此功能没有开放，所以不用动。

男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域.
变调(整数, 半音数量, 升八度12降八度-12) 微调组合框 0
按照8度有12个半音的原理，这里的数值是已半音为单位的方式进行调整的。
如果是女转男，及干声为女，模型为难，要把数值拉低，也就是在0以下为负数，通常是12个半音，但是根据模型音色和干声音色的情况，不一定都能拉到-12，可以根据情况，在-12附近上下调整，这个需要尝试后才能确定。
弱是男转女，及干声为男，模型为女，则情况相反，需要身高12个半音，同样也要根据音色的情况在12附近进行调整。
另外，男转男和女转女则默认为0，也可根据音色情况在0附近做适当调整。

输入待处理音频文件路径(默认是正确格式示例) 可编辑文本 E:\codes\py39\test-20230416b\todo-songs\冬之花clip1.wav
这里是输入要转换的干声的路径，根据提供的示例输入即可，值得注意的是，在路径的中间以及前后不要有符号或空格。

选择音高提取算法,输入歌声可用pm提速,harvest低音好但巨慢无比,crepe效果好但吃GPU,rmvpe效果最好且微吃GPU
pm 单选按钮
harvest 单选按钮
crepe 单选按钮
rmvpe 单选按钮
这里是选择推理用的算法，越往下品质越好，但越吃电脑配置，所以要根据自己的电脑情况选择。

>=3则使用对harvest音高识别的结果使用中值滤波，数值为滤波半径，使用可以削弱哑音滑块 3
这里是一个EQ处理哑音的范围，通常默认即可，如果哑音明显的，可以尝试把数值调到5或7左右。

特征检索库文件路径,为空则使用下拉的选择结果可编辑文本
自动检测index路径,下拉式选择(dropdown) 组合框 logs/xxx.index
这里就是选择声音索引文件的地方了，前面的编辑框可以手动输入索引.index文件的路径，后面的组合框可以直接选择索引文件，但索引.index的文件一定要在logs文件夹内，否则组合框里就识别不到。

检索特征占比
检索特征占比滑块 0.75
这里是调整要使用多少模型声音特征的，拉满则完全使用索引训练的声音特征。0则为不使用索引，这时候推理会完全使用底膜的声音特征。
推荐索引特征调整在0.5到1之间，如果模型质量好可以拉高数值，弱模型质量差，就拉低，用底膜的特征来辅助。

后处理重采样至最终采样率，0为不进行重采样滑块 0
这里是对采样率重新选择的设置，默认不动即可。

输入源音量包络替换输出音量包络融合比例，越靠近1越使用输出包络滑块 0.25
这里是调整推理后音频音量的参数，拉满1的时候，使用RVC标准化后的音量，减小数值则靠近推理使用的原始音频音量。推荐直接拉满。

保护清辅音和呼吸声，防止电音撕裂等artifact，拉满0.5不开启，调低加大保护力度但可能降低索引效果滑块 0.33
这里是保护清辅音和呼吸声的地方，拉低可以保护的更好，但是会损失声音的特征，拉满则表示关闭。

转换按钮
以上的设置完成以后，就可以在这里点击转换推理了。点击转换后，下面的输出信息的下方，会有两行数值，上面的一行是时间的进度，下一行是参考本次转换的质量，数值越小质量越好。

另外要说明的是，RVC的模型推理界面，有相同的两套设置，前面的是单文件转换。当切到第一个转换按钮的时候，再往后就是第二套设置了，第二套则是批量转换，可以添加输入文件夹内的多个文件批量转换。
在第二套设置的最后，会有导出文件格式的选项，这个和第一套设置是二合一的。

导出文件格式
wav 单选按钮
flac 单选按钮
mp3 单选按钮
m4a 单选按钮
这里选择推理后的音频格式，建议选择wav。

当输出信息下方的两行数值消失候，就表示本次的推理已经成功完成了，点击网页内的播放按钮可以试听本次推理的音频文件。
你也可以点击网页中的点击显示更多媒体控件菜单更多选项按钮，弹出菜单选项，点击后，第一个选项就是下载媒体菜单项目，回车就可以下载本次推理后的音频文件了。

值得注意的是，第二套设置的开头，有输出文件夹可以手动指定一个推理完成后的成品存放路径，这时，推理完成后，就可以在你指定的文件夹内看到推理完成后的音频文件了。
指定输出文件夹可编辑文本 opt
这里写上文件夹的绝对路径，例如:
D:\xxx

最后，在推理过程中当无意中关闭了网页，但没有关闭命令行，也不用慌张，打开浏览器，输入：
http://127.0.0.1:7897
可以重新打开网页看到推理的进度和成品。
好了，本次推理过程到此结束，欢迎互相交流经验！后续交流可加群：
759776216
下次见

作者: elephant 时间: 2023-8-31 06:32
六弦音，赞，很好，虽然大象暂时没能用的上，也感谢你及为你的奉献精神点赞，给你一个大大的good。

欢迎光临视障者音乐制作交流基地 (http://szzyyzz.com/)