欢迎访问视障者音乐制作交流基地(www.szzyyzz.com)!
我们的网站致力于为使用读屏软件的视障群体(以下简称“读屏族”)提供音乐制作方面的技术和信息。
如您是读屏族,我们希望能在这里为您提供您最需要的内容
如您是明眼朋友,可能会对论坛中的一些用语感到无比疑惑,那是因为这些都是基于读屏软件下的操作术语。
虽然这个论坛对于明眼人也许帮助不大,但我们却很希望能得到您的援助,您可以以远程协助的方式为读屏族解决音乐制作过程中所遇到的困难……

首页

 找回密码
 立即注册

QQ登录

只需一步,快速开始

7
查看: 4511|回复: 1
打印 上一主题 下一主题

[其他音乐软件操作技巧] 写给新手看的RVC操作方法,推理篇

[复制链接]

4

主题

8

帖子

707

积分

音乐尖子生

Rank: 4

积分
707
跳转到指定楼层
楼主
发表于 2023-8-23 11:41:37 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,浏览本站更多内容。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
楼主 六弦音说:
大家好,今天我们来分享用RVC推理干声的方法
当我们炼丹成功,就可以用练好的模型文件和索引文件进行推理干声了,及用模型的音色替换原本的干声音色。
进行人声推理需要两个文件,一个是.pth的模型文件,另一个是.index的索引文件,前者是音色,后者是声音特征。
本地训练的,在RVC的logs文件夹里有训练模型时已模型命名的文件夹,里面能找到后缀名是.index的索引文件。
而在RVC的weights文件夹里可以直接看到已模型命名的.pth的模型文件。
在本地训练模型的就不用动索引文件与模型文件了,推理的时候可以直接调用。
如果是服务器训练模型的,则在服务器的root文件夹内找到同名的logs和weights这两个文件夹,下载其中的.index和.pth这两个文件,并且复制到RVC内的同名文件夹内。

下面开始推理操作:

在RVC中点击 go-web.bat,首先会打开控制台,也就是命令行,此时稍等片刻,等待打开网页。
打开网页后,点击 模型推理 按钮,此时就显示了推理的操作界面。

推理音色 组合框 xxx.pth
刷新音色列表和索引路径 按钮
卸载音色省显存 按钮
这里的两个按钮就是字面意思,而组合框是我们选择模型的地方。建议在组合框先用alt加下光标打开,然后再用上下光标找到要使用的模型文件,接着回车一次即可。

请选择说话人id 滑块 0
这里是选择一个模型内多个音色的地方,目前此功能没有开放,所以不用动。

男转女推荐+12key, 女转男推荐-12key, 如果音域爆炸导致音色失真也可以自己调整到合适音域.
变调(整数, 半音数量, 升八度12降八度-12) 微调组合框 0
按照8度有12个半音的原理,这里的数值是已半音为单位的方式进行调整的。
如果是女转男,及干声为女,模型为难,要把数值拉低,也就是在0以下为负数,通常是12个半音,但是根据模型音色和干声音色的情况,不一定都能拉到-12,可以根据情况,在-12附近上下调整,这个需要尝试后才能确定。
弱是男转女,及干声为男,模型为女,则情况相反,需要身高12个半音,同样也要根据音色的情况在12附近进行调整。
另外,男转男和女转女则默认为0,也可根据音色情况在0附近做适当调整。

输入待处理音频文件路径(默认是正确格式示例) 可编辑文本 E:\codes\py39\test-20230416b\todo-songs\冬之花clip1.wav
这里是输入要转换的干声的路径,根据提供的示例输入即可,值得注意的是,在路径的中间以及前后不要有符号或空格。

选择音高提取算法,输入歌声可用pm提速,harvest低音好但巨慢无比,crepe效果好但吃GPU,rmvpe效果最好且微吃GPU
pm 单选按钮
harvest 单选按钮
crepe 单选按钮
rmvpe 单选按钮
这里是选择推理用的算法,越往下品质越好,但越吃电脑配置,所以要根据自己的电脑情况选择。

>=3则使用对harvest音高识别的结果使用中值滤波,数值为滤波半径,使用可以削弱哑音 滑块 3
这里是一个EQ处理哑音的范围,通常默认即可,如果哑音明显的,可以尝试把数值调到5或7左右。

特征检索库文件路径,为空则使用下拉的选择结果 可编辑文本
自动检测index路径,下拉式选择(dropdown) 组合框 logs/xxx.index
这里就是选择声音索引文件的地方了,前面的编辑框可以手动输入索引.index文件的路径,后面的组合框可以直接选择索引文件,但索引.index的文件一定要在logs文件夹内,否则组合框里就识别不到。

检索特征占比
检索特征占比 滑块 0.75
这里是调整要使用多少模型声音特征的,拉满则完全使用索引训练的声音特征。0则为不使用索引,这时候推理会完全使用底膜的声音特征。
推荐索引特征调整在0.5到1之间,如果模型质量好可以拉高数值,弱模型质量差,就拉低,用底膜的特征来辅助。

后处理重采样至最终采样率,0为不进行重采样 滑块 0
这里是对采样率重新选择的设置,默认不动即可。

输入源音量包络替换输出音量包络融合比例,越靠近1越使用输出包络 滑块 0.25
这里是调整推理后音频音量的参数,拉满1的时候,使用RVC标准化后的音量,减小数值则靠近推理使用的原始音频音量。推荐直接拉满。

保护清辅音和呼吸声,防止电音撕裂等artifact,拉满0.5不开启,调低加大保护力度但可能降低索引效果 滑块 0.33
这里是保护清辅音和呼吸声的地方,拉低可以保护的更好,但是会损失声音的特征,拉满则表示关闭。

转换 按钮
以上的设置完成以后,就可以在这里点击转换推理了。点击转换后,下面的输出信息的下方,会有两行数值,上面的一行是时间的进度,下一行是参考本次转换的质量,数值越小质量越好。

另外要说明的是,RVC的模型推理界面,有相同的两套设置,前面的是单文件转换。当切到第一个转换按钮的时候,再往后就是第二套设置了,第二套则是批量转换,可以添加输入文件夹内的多个文件批量转换。
在第二套设置的最后,会有导出文件格式的选项,这个和第一套设置是二合一的。

导出文件格式
wav 单选按钮
flac 单选按钮
mp3 单选按钮
m4a 单选按钮
这里选择推理后的音频格式,建议选择wav。

当输出信息下方的两行数值消失候,就表示本次的推理已经成功完成了,点击网页内的播放按钮可以试听本次推理的音频文件。
你也可以点击网页中的点击显示更多媒体控件 菜单 更多选项 按钮,弹出菜单选项,点击后,第一个选项就是下载媒体 菜单项目,回车就可以下载本次推理后的音频文件了。

值得注意的是,第二套设置的开头,有输出文件夹可以手动指定一个推理完成后的成品存放路径,这时,推理完成后,就可以在你指定的文件夹内看到推理完成后的音频文件了。
指定输出文件夹 可编辑文本 opt
这里写上文件夹的绝对路径,例如:
D:\xxx

最后,在推理过程中当无意中关闭了网页,但没有关闭命令行,也不用慌张,打开浏览器,输入:
http://127.0.0.1:7897
可以重新打开网页看到推理的进度和成品。
好了,本次推理过程到此结束,欢迎互相交流经验!后续交流可加群:
759776216
下次见
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

6

主题

74

帖子

931

积分

音乐尖子生

Rank: 4

积分
931
沙发
发表于 2023-8-31 06:32:52 | 只看该作者
沙发 elephant说:
六弦音,赞,很好,虽然大象暂时没能用的上,也感谢你及为你的奉献精神点赞,给你一个大大的good。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|视障者音乐制作交流基地(szzyyzz.com) ( 蜀ICP备15002464号免责声明:本站网友发表的言论属其个人观点,与本站立场无关!

GMT+8, 2024-4-28 04:59 , Processed in 0.063390 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表