rvc吧 关注:648贴子:2,279
  • 10回复贴,共1

AutoDL云端训练RVC模型经验分享

只看楼主收藏回复

高效率,省钱,效果好,可以解决index文件丢失的问题
因为贴吧手机版不能把图片插入段落所以不在主楼全写完,在楼里分段落写
产出镇楼


IP属地:吉林来自Android客户端1楼2025-05-13 14:29回复
    第一步,训练集音频:
    音质好的话不用刻意堆时长,如果音频噪音低质量高的话十分钟的效果就会很好了,训练集过大会出现一些问题
    游戏内解包的角色语音也不要直接拿来用,需要进行筛选、去混响(部分)和降噪(全部)。
    1.筛选以崩坏星穹铁道流萤的解包语音为例,叹气类的语音可以剔除,因为分支互动选项导致重复的语音可以剔除(不过需要手工一条条去听,没有耐心的话不剔除影响也不大,只是想降低训练集的重复和减少时长)。只保留有特点的说话语音。
    2.去混响,流萤剧情语音中,有部分语音存在场景回音音效,需要选出来用UVR5的de-echo去除混响。
    3.降噪
    解包语音存在很重的呼吸和气流声,需要降噪才能得到好的效果。降噪非常重要,如果不降噪训练出来的模型质量很差,发音沙哑,咬字不清晰。
    (关于UVR5,做AI翻唱需要下载的模块有MDX的bs roformer viperx 1297,这个比默认的23C效果好,其余VR Architecture需要的部分安装已经自带了,设置方面,MDX中间那个数字越大效果越好,但会拖慢速度,VR中间那个数字越小(320)效果越好,对速度影响不大)
    其他影视剪切的音频、或真人录音也需要去环境音(bgm)和去混响降噪


    IP属地:吉林来自Android客户端2楼2025-05-13 14:32
    回复
      2025-08-08 07:49:38
      广告
      不感兴趣
      开通SVIP免广告
      第二部:租显卡,选镜像
      租显卡的话,只需要看显存,不需要看这个显卡好不好是几代,平台提供的内存和CPU也是完全够用的,推荐选3090,比4090便宜四分之一而且显存跟4090一样是24G,训练速度也一样的
      选镜像:选好一台电脑后配置镜像,在社区镜像搜索RVC,RVC版本越新效果越好bug越少,目前git上最新是20240624版本,但AutoDL的社区镜像里貌似没有,随便选一个1006版本也可以,这里推荐用懒人包。
      (1006之前的版本,index文件没了的话抢救也生成不出来)


      IP属地:吉林来自Android客户端3楼2025-05-13 14:33
      回复
        第三步:开机并启动RVC
        开机后点jupyter lab
        按照各个镜像详情里的说明操作,让控制台启动RVC,然后他会给你一个local url,如果这里不进行操作是进不去这个url的
        重点:1006往后的版本在启动时没有通过public url进入web ui的选项(社区镜像里最早的官方版本可以,但这个版本不是1006,个人不是很推荐)
        你需要点击自定义服务,然后他会给你弹一个弹窗,按他的操作去下载那个东西并且观看教程,然后复制SSH和密码进行代理才能执行。至于本地代理的端口,RVC控制台给你的local url是什么你就输入什么,然后通过这个SSHtools程序底下进入webui(不是点击控制台连接)就成功打开RVC的webui了。


        IP属地:吉林来自Android客户端4楼2025-05-13 14:34
        回复
          第四步:准备训练
          1.在tmp文件夹新建一个文件夹(图中的01)
          去第一步准备好的音频素材文件夹里ctrl+A全选(所有音频都直接一个个放进这个文件夹,不能在文件夹里再建文件夹分类,因为jupyter lab不能下载和上传文件夹),然后通过拖拽来载入到AutoDL的文件夹


          IP属地:吉林来自Android客户端5楼2025-05-13 14:35
          回复
            2.操作webui
            step1 处理数据
            后两项默认的true和v2不用动,采样率40k即可,因为音频素材在频段上也没有超过20kHz的,人耳能听到的最大频率也就20kHz,且48k会拖慢速度,而且效果不太好,最后一项CPU的不要动,他默认的就是最好的,实验名可以随便写,训练时候生成的各种东西文件夹用的名字是这个,最好不要有中文和特殊符号,用英文加数字即可
            输入训练文件夹路径/root/autodl-tmp/01,输错了会秒出结果而且报错,正确流程是控制台里冒出很多wav文件
            点击处理数据,等待控制台或者输出框显示end process(耗时会随音频总长度增加)
            step2b所有选项都不用动,直接点特征提取,等待控制台或输出框显示all feature done再进行其他操作(如果这步未完成就去step3训练,会发生报错或者秒出模型,而且生成的模型是假的)
            step3
            轮数,batch size,保存频率的控制
            batch size,系统根据你显卡生成的默认值就是最好的,调高了加快训练速度但会影响模型质量,可以适当调低来提高模型质量
            先设置轮数,官方教程的参考是30分钟语音200轮,但因为batch size不同每轮的步数也不同所以仅做参考,我的流萤语音集是1小时5分钟(可以下载一个total player来统计文件夹里音频的总时长)所以我设置的450轮,但不要以为轮数越高效果越好,轮数太高的话会发生过拟合,模型效果会变差,比如沙哑,千万不要无脑拉1000轮,效果差还要花费双倍时间,而且非常容易丢文件
            保存频率,建议10到20,需要能整除总轮数。最新ckpt选是,否则会使云端硬盘爆满导致无法继续训练。缓存,字面意思,训练集很长就选否。小模型强烈建议保存(这样前面的保存频率才生效),以便筛选效果最好的(因为本人对计算机技术和AI外行看不懂loss值,而且loss值波动很大,所以只能凭翻唱感觉去找最好的模型)
            然后就可以点一键训练了,控制台那边会显示每个epoch的训练时间,以及loss值(也可以训练完后去文件夹里把trainlog提取出来读)



            IP属地:吉林来自Android客户端6楼2025-05-13 14:38
            收起回复
              期间可以关闭webui和jupyter lab,也就是关闭浏览器以及关机(关自己的电脑,不是AutoDL!!),云端是一直在训练的。但代价是如果最后没有index文件的话不能第一时间点击训练特征索引抢救了。所以有条件还是一直开着。
              按照控制台显示的耗时你可以设定自动关机时间来省钱,但下次这台机器可能就没有GPU了,如果index文件丢失连补救都没机会(如果没问题的话可以设置无卡模式开机去下载生成好的模型)
              但其实index也没那么重要,模型质量够好的话可以不用index进行翻唱,但咬字是跟着歌手来的,没有角色那味了,也可以用自己的模型搭配别人现成的index文件,但翻唱效果肯定比原配差一点
              生成文件的位置
              RVC1006/logs/实验名,这里面有各种ckpt,预处理音频,train log和index文件,其中翻唱要用的index是added开头那个
              RVC1006/assets/weights(不是带UVR那个)里面是你生成的模型,后缀是pth,翻唱的主体。
              如果训练集时长×轮数过大,会发生index文件难产的问题,可以现场点训练特征索引补救,如果期间关机了或者离开了webui也可以把ckpt文件拉过来然后点训练特征索引(反正是必须有训练过模型才能训练出特征索引)
              这些autodl产出的东西右键下载到自己的电脑,不推荐多选然后下载,因为浏览器可能会吞几个,一个一个点吧
              本人对AI和计算机科学比较外行,只是喜欢AI翻唱,专栏里的东西是凭感觉和经验写的,如有错误请指正
              下载的内容:
              RVC(本地翻唱用):github
              UVR5:官网


              IP属地:吉林来自Android客户端7楼2025-05-13 14:40
              回复
                服了 最后一段发一次被贴吧吞一次 等申诉出来吧


                IP属地:吉林来自Android客户端11楼2025-05-13 14:49
                回复
                  2025-08-08 07:43:38
                  广告
                  不感兴趣
                  开通SVIP免广告
                  如果你们看过其他教程,那我这里有省流版的经验教训:
                  音频一定要去混响和降噪
                  显卡选3090省钱,社区镜像选1006之后的版本通过SSH进入本地url
                  采样率最好40k不要48k,训练轮数别拉太大会过拟合(按30分钟素材200轮去配比),按频率保存小模型。
                  训练完成后多半会丢index,解决方法:云端实例没关就点训练特征索引,logs文件夹里会出现一个很大的total_fea.npy文件 再等十分钟就生成了trained的index,再等十分钟就会生成added开头的index文件,added开头是翻唱要用的,大约几百MB(推荐用1006的原因就是更容易生出index,用老版容易几个小时都出不来)控制台里没有进程显示索引的训练
                  云端实例关了而且重启没显卡的话试试把两个G233/D233的pth文件下载覆盖到其他云端机然后点训练特征索引


                  IP属地:吉林来自Android客户端12楼2025-05-13 14:57
                  回复


                    IP属地:山东13楼2025-06-07 10:52
                    回复