如何复刻你的老师——MockingBird拟声鸟AI拟声项目（2）

本文作者：23568Noct-Cp 本文分类：软件安装浏览：2425
阅读时间：2444字, 约2.5-4分钟

相信不少人都看了上一次的入门级教程
然后发现：这克隆出来的还不如直接拿微软语音合成呢
那么，个性化语音教程来咯

今天着重讲的是如何训练特定人的合成器

B站教程

这个有点复杂
我呢就给大家讲讲怎么克隆老师的声音

1、下载软件

Sound File Processing

就直接下载代即可
还需要一个字母生成软件
如果您有阿里云的话可以videosrt（github/gitee开源）
没有的话剪映或者网易见外都可以

2、制作数据集

首先您需要有特定人的录音（录在少量大文件里方便识别字幕，wav格式，最好有500+句长句）
然后使用字母识别软件（videosrt/网易见外/剪映）识别字幕，导出为srt
下载sound_file_processing，直接下载源码解压
进入sound_file_processing的文件夹，将wav拷进wav/input，将srt拷进srt文件夹（注意把原来的示例文件删掉）
在地址栏（或者使用cmd进入）中输入python long_file_cut_by_srt.py，回车
在询问短音频处理方式时输入2
如果报错，可能是哪个文件没有新建成功，像我就在transcript文件夹中手动新建了一个transcript_short.txt
请注意：
如果你的录音时长单文件大于1个小时，请先用格式工厂之类的分割一下（一个文件至少小于1个小时），不然会分割出一些44字节的东西，然后报错
然后就是比较无聊的一步：
打开transcript/transcript.txt
核对字幕，将所有字幕使用汉字或者拼音（比如“Snow”就可以叫做si5 nou4，5表示轻声）
（有出现英语单词的就放弃了吧，还有别想打transcript_short的主意，预处理的时候会被过滤掉的）
然后进入数据集的文件夹
还记得上次建的aidatatang_200zh文件夹吗？
进入，新建（或打开）corpus，新建train，把sound_file_processing中的wav/output文件夹整个拷进来，随便改个名字（比如改成演讲者的名字）
回到aidatatang_200zh的文件夹，新建文件夹transcript，在当中新建aidatatang_200_zh_transcript.txt，把修改过的transcript.txt的内容复制进来

3、预处理

然后，进入mockingbird的目录，在地址栏输入：python pre.py <datasets_root> -n <numbers>
注：datasets_root指aidatatang_200zh所在的目录，如我的就是D:\dataset\Snow
<numbers>指CPU并行数，实测没啥用
然后我们进入datasets_root，可以看见出现了一个SV2TTS文件夹
里面有一个synthesizer文件夹

4、改代码

首先打开synthesizer_train.py
有这样一行：

parser.add_argument("-s", "--save_every", type=int, default=1000, help= \

这是表示训练多少步保存一次，可以改小一点，像我改成了60
打开synthesizer/hparams.py

有这样一段：

        tts_schedule = [(2,  1e-3,  10_000,  12),   # Progressive training schedule
                        (2,  5e-4,  15_000,  12),   # (r, lr, step, batch_size)
                        (2,  2e-4,  20_000,  12),   # (r, lr, step, batch_size)
                        (2,  1e-4,  30_000,  12),   #
                        (2,  5e-5,  40_000,  12),   #
                        (2,  1e-5,  60_000,  12),   #
                        (2,  5e-6, 160_000,  12),   # r = reduction factor (# of mel frames
                        (2,  3e-6, 320_000,  12),   #     synthesized for each decoder iteration)
                        (2,  1e-6, 640_000,  12)],  # lr = learning rate

解释一下：
第一个我也不太清楚，但改了会报错
第二个是learning_rate，有什么算法，我不太清楚，总之基本不动
第三个是指步数，相当于定义域
第四个是指batch_size，即训练一步所抓取的示例数量，可以改大一点（每个都要改），我改成了24（有GPU加速的48乃至96都行）

5、训练模型

注：我发现在wsl里面练得比较快……不知为何
进入文件夹，在cmd中输入python synthesizer_train.py <name> <datasets_root>/SV2TTS/synthesizer
比如我的是python synthesizer_train.py Snow D:\dataset\Snow\SV2TTS\synthesizer
回车开练

6、按照作者进度进行训练（可选）

当你数据集较小，可选择按照作者进度训练
在运行一段时间，看到开始训练（即跳出来一行{Steps:|loss:| steps/s|}时）
进入synthesizer/saved_models/<name>中，把那个<name>.pt删了
把之前下好的pretrained-11-7-21_75k.pt拷进来，改名字，改成<name>.pt（如我的Snow.pt）
再次执行python synthesizer_train.py <name> <datasets_root>/SV2TTS/synthesizer
第一次可能报错，再次运行

7、停止训练

每500下会生成attention和loss图像，在synthesizer/saved_models/<name>/plots里面
attention如图，要是对角线走向
loss在0.4一下就基本可以用了
需要注意，并不是练得越久越好，如果loss反升，很可能已经过拟合，请立刻停止！
项目作者的知乎专栏，不定期收录炼丹心得：点我进入

就这些，大家谨慎使用~

你可能还想了解...

关于作者23568Noct-Cp

一个当之无愧的菜鸡
Email: syc071122@163.com
注册于: 2020-04-17 07:22:11