【图片】AutoDL云端训练RVC模型经验分享【rvc吧】

高效率，省钱，效果好，可以解决index文件丢失的问题
因为贴吧手机版不能把图片插入段落所以不在主楼全写完，在楼里分段落写
产出镇楼

送TA礼物

IP属地:吉林

来自Android客户端1楼2025-05-13 14:29回复

第一步，训练集音频：
音质好的话不用刻意堆时长，如果音频噪音低质量高的话十分钟的效果就会很好了，训练集过大会出现一些问题
游戏内解包的角色语音也不要直接拿来用，需要进行筛选、去混响（部分）和降噪（全部）。
1.筛选以崩坏星穹铁道流萤的解包语音为例，叹气类的语音可以剔除，因为分支互动选项导致重复的语音可以剔除（不过需要手工一条条去听，没有耐心的话不剔除影响也不大，只是想降低训练集的重复和减少时长）。只保留有特点的说话语音。
2.去混响，流萤剧情语音中，有部分语音存在场景回音音效，需要选出来用UVR5的de-echo去除混响。
3.降噪
解包语音存在很重的呼吸和气流声，需要降噪才能得到好的效果。降噪非常重要，如果不降噪训练出来的模型质量很差，发音沙哑，咬字不清晰。
（关于UVR5，做AI翻唱需要下载的模块有MDX的bs roformer viperx 1297，这个比默认的23C效果好，其余VR Architecture需要的部分安装已经自带了，设置方面，MDX中间那个数字越大效果越好，但会拖慢速度，VR中间那个数字越小（320）效果越好，对速度影响不大）
其他影视剪切的音频、或真人录音也需要去环境音（bgm）和去混响降噪

IP属地:吉林

来自Android客户端2楼2025-05-13 14:32

第二部：租显卡，选镜像
租显卡的话，只需要看显存，不需要看这个显卡好不好是几代，平台提供的内存和CPU也是完全够用的，推荐选3090，比4090便宜四分之一而且显存跟4090一样是24G，训练速度也一样的
选镜像：选好一台电脑后配置镜像，在社区镜像搜索RVC，RVC版本越新效果越好bug越少，目前git上最新是20240624版本，但AutoDL的社区镜像里貌似没有，随便选一个1006版本也可以，这里推荐用懒人包。
（1006之前的版本，index文件没了的话抢救也生成不出来）

IP属地:吉林

来自Android客户端3楼2025-05-13 14:33

第三步：开机并启动RVC
开机后点jupyter lab
按照各个镜像详情里的说明操作，让控制台启动RVC，然后他会给你一个local url，如果这里不进行操作是进不去这个url的
重点：1006往后的版本在启动时没有通过public url进入web ui的选项（社区镜像里最早的官方版本可以，但这个版本不是1006，个人不是很推荐）
你需要点击自定义服务，然后他会给你弹一个弹窗，按他的操作去下载那个东西并且观看教程，然后复制SSH和密码进行代理才能执行。至于本地代理的端口，RVC控制台给你的local url是什么你就输入什么，然后通过这个SSHtools程序底下进入webui（不是点击控制台连接）就成功打开RVC的webui了。

IP属地:吉林

来自Android客户端4楼2025-05-13 14:34

第四步：准备训练
1.在tmp文件夹新建一个文件夹（图中的01）
去第一步准备好的音频素材文件夹里ctrl+A全选（所有音频都直接一个个放进这个文件夹，不能在文件夹里再建文件夹分类，因为jupyter lab不能下载和上传文件夹），然后通过拖拽来载入到AutoDL的文件夹

IP属地:吉林

来自Android客户端5楼2025-05-13 14:35

2.操作webui
step1 处理数据
后两项默认的true和v2不用动，采样率40k即可，因为音频素材在频段上也没有超过20kHz的，人耳能听到的最大频率也就20kHz，且48k会拖慢速度，而且效果不太好，最后一项CPU的不要动，他默认的就是最好的，实验名可以随便写，训练时候生成的各种东西文件夹用的名字是这个，最好不要有中文和特殊符号，用英文加数字即可
输入训练文件夹路径/root/autodl-tmp/01，输错了会秒出结果而且报错，正确流程是控制台里冒出很多wav文件
点击处理数据，等待控制台或者输出框显示end process（耗时会随音频总长度增加）
step2b所有选项都不用动，直接点特征提取，等待控制台或输出框显示all feature done再进行其他操作（如果这步未完成就去step3训练，会发生报错或者秒出模型，而且生成的模型是假的）
step3
轮数，batch size，保存频率的控制
batch size，系统根据你显卡生成的默认值就是最好的，调高了加快训练速度但会影响模型质量，可以适当调低来提高模型质量
先设置轮数，官方教程的参考是30分钟语音200轮，但因为batch size不同每轮的步数也不同所以仅做参考，我的流萤语音集是1小时5分钟（可以下载一个total player来统计文件夹里音频的总时长）所以我设置的450轮，但不要以为轮数越高效果越好，轮数太高的话会发生过拟合，模型效果会变差，比如沙哑，千万不要无脑拉1000轮，效果差还要花费双倍时间，而且非常容易丢文件
保存频率，建议10到20，需要能整除总轮数。最新ckpt选是，否则会使云端硬盘爆满导致无法继续训练。缓存，字面意思，训练集很长就选否。小模型强烈建议保存（这样前面的保存频率才生效），以便筛选效果最好的（因为本人对计算机技术和AI外行看不懂loss值，而且loss值波动很大，所以只能凭翻唱感觉去找最好的模型）
然后就可以点一键训练了，控制台那边会显示每个epoch的训练时间，以及loss值（也可以训练完后去文件夹里把trainlog提取出来读）

IP属地:吉林

来自Android客户端6楼2025-05-13 14:38

收起回复

期间可以关闭webui和jupyter lab，也就是关闭浏览器以及关机（关自己的电脑，不是AutoDL！！），云端是一直在训练的。但代价是如果最后没有index文件的话不能第一时间点击训练特征索引抢救了。所以有条件还是一直开着。
按照控制台显示的耗时你可以设定自动关机时间来省钱，但下次这台机器可能就没有GPU了，如果index文件丢失连补救都没机会（如果没问题的话可以设置无卡模式开机去下载生成好的模型）
但其实index也没那么重要，模型质量够好的话可以不用index进行翻唱，但咬字是跟着歌手来的，没有角色那味了，也可以用自己的模型搭配别人现成的index文件，但翻唱效果肯定比原配差一点
生成文件的位置
RVC1006/logs/实验名，这里面有各种ckpt，预处理音频，train log和index文件，其中翻唱要用的index是added开头那个
RVC1006/assets/weights（不是带UVR那个）里面是你生成的模型，后缀是pth，翻唱的主体。
如果训练集时长×轮数过大，会发生index文件难产的问题，可以现场点训练特征索引补救，如果期间关机了或者离开了webui也可以把ckpt文件拉过来然后点训练特征索引（反正是必须有训练过模型才能训练出特征索引）
这些autodl产出的东西右键下载到自己的电脑，不推荐多选然后下载，因为浏览器可能会吞几个，一个一个点吧
本人对AI和计算机科学比较外行，只是喜欢AI翻唱，专栏里的东西是凭感觉和经验写的，如有错误请指正
下载的内容：
RVC（本地翻唱用）：github
UVR5：官网

IP属地:吉林

来自Android客户端7楼2025-05-13 14:40

服了最后一段发一次被贴吧吞一次等申诉出来吧

IP属地:吉林

来自Android客户端11楼2025-05-13 14:49

如果你们看过其他教程，那我这里有省流版的经验教训：
音频一定要去混响和降噪
显卡选3090省钱，社区镜像选1006之后的版本通过SSH进入本地url
采样率最好40k不要48k，训练轮数别拉太大会过拟合（按30分钟素材200轮去配比），按频率保存小模型。
训练完成后多半会丢index，解决方法：云端实例没关就点训练特征索引，logs文件夹里会出现一个很大的total_fea.npy文件再等十分钟就生成了trained的index，再等十分钟就会生成added开头的index文件，added开头是翻唱要用的，大约几百MB（推荐用1006的原因就是更容易生出index，用老版容易几个小时都出不来）控制台里没有进程显示索引的训练
云端实例关了而且重启没显卡的话试试把两个G233/D233的pth文件下载覆盖到其他云端机然后点训练特征索引

IP属地:吉林

来自Android客户端12楼2025-05-13 14:57

IP属地:山东

13楼2025-06-07 10:52

日	一	二	三	四	五	六

AutoDL云端训练RVC模型经验分享

登录百度账号

扫二维码下载贴吧客户端