2.操作webui
step1 处理数据
后两项默认的true和v2不用动,采样率40k即可,因为音频素材在频段上也没有超过20kHz的,人耳能听到的最大频率也就20kHz,且48k会拖慢速度,而且效果不太好,最后一项CPU的不要动,他默认的就是最好的,实验名可以随便写,训练时候生成的各种东西文件夹用的名字是这个,最好不要有中文和特殊符号,用英文加数字即可
输入训练文件夹路径/root/autodl-tmp/01,输错了会秒出结果而且报错,正确流程是控制台里冒出很多wav文件
点击处理数据,等待控制台或者输出框显示end process(耗时会随音频总长度增加)
step2b所有选项都不用动,直接点特征提取,等待控制台或输出框显示all feature done再进行其他操作(如果这步未完成就去step3训练,会发生报错或者秒出模型,而且生成的模型是假的)
step3
轮数,batch size,保存频率的控制
batch size,系统根据你显卡生成的默认值就是最好的,调高了加快训练速度但会影响模型质量,可以适当调低来提高模型质量
先设置轮数,官方教程的参考是30分钟语音200轮,但因为batch size不同每轮的步数也不同所以仅做参考,我的流萤语音集是1小时5分钟(可以下载一个total player来统计文件夹里音频的总时长)所以我设置的450轮,但不要以为轮数越高效果越好,轮数太高的话会发生过拟合,模型效果会变差,比如沙哑,千万不要无脑拉1000轮,效果差还要花费双倍时间,而且非常容易丢文件
保存频率,建议10到20,需要能整除总轮数。最新ckpt选是,否则会使云端硬盘爆满导致无法继续训练。缓存,字面意思,训练集很长就选否。小模型强烈建议保存(这样前面的保存频率才生效),以便筛选效果最好的(因为本人对计算机技术和AI外行看不懂loss值,而且loss值波动很大,所以只能凭翻唱感觉去找最好的模型)
然后就可以点一键训练了,控制台那边会显示每个epoch的训练时间,以及loss值(也可以训练完后去文件夹里把trainlog提取出来读)

