本文作者:23568Noct-Cp
本文分类:软件安装 浏览:2110
阅读时间:1713字, 约2-3分钟
有这么一个python开源项目
它10天上了Github Trending榜单
如今已有3.1k的fork和21.7k的star
它可以让您克隆任何人的中文语音
它就是传说中的软件 MockingBird
由前Facebook(不知道他现在是不是在Meta)大佬babysor Vega开发,工具箱使用Python语言写的,使用梅尔频谱进行ai合成。
话不多说,开始吧。
我的方法比这个稍微简单一点
1、安装Python
安装我就不多说了,只要您人工智能课听了一点就不至于不会。
2、安装FFmpeg
下载下来并解压
进入控制面板-【系统和安全】-系统下面的【允许远程访问】-上方选择【高级】-【环境变量】-下方系统变量中选择Path-点击【编辑】-右侧【添加】-输入解压的文件夹中"bin"文件夹的目录
就是我的图片中的D:\ffmpeg\bin
3、下载github上源代码
点击"Code"-[Download as zip]
或者您会Git cloning的话也可以(反正我不会)
下载后解压
4、安装pytorch
首先,您需要知道自己的GPU支不支持CUDA
如果支持但没有安装,建议您安装
在"Package"中选择"pip”
“Language”选"Python"
"Build"选择Stable就行了
OS自己看着选
选完以后下面有一行代码
打开命令行(Windows下按下win+r 输入cmd并回车)
输入这一行代码并回车
会跳出一堆白色长条
4、安装剩余依赖包
进入MockingBird-main文件夹
在上方地址栏输入cmd 回车(并不叱牛牵向北)
输入pip install -r requirements.txt
等着吧
要安装一会儿的
5、安装synthesizer模型
打开README-CN.md
前两个模型中任意下一个(都下也行)
在synthesizer中新建文件夹saved_models
复制进去
6、运行
这就准备完了?
对
在cmd中输入python demo_toolbox.py -d ./samples
等个几秒钟应该工具箱就打开了
注意最大化窗口
然后选择Browse打开一个人声音频或者选择record录音
音频建议wav(其实MP3也可以)
在右上方输入要合成的音频
点击synthesize
如果第一次左下角没有出现波形图,那么再点一次
如果您的波形图看上去是有声音的
先将vocoder选择为g_hifigan
点击右方vocode试听效果
如果过关了,换一个vocoder再次vocode(时间会久一点)
效果不错的话,点击export导出
6、制作数据集(可选)
如果你说:我有一个人很多的音频,怎么办?
那我建议你做一个数据集
注:数据集只是方便切换,并不会提升效果
找一个文件夹(如我选择D:\dataset\Snow)
新建一个文件夹aidatatang_200zh并进入
在aidatatang_200zh中新建一个文件夹corpus并进入
在corpus中新建一个文件夹叫test或者dev(都一样)并进入
在这个文件夹(我的是test)中新建一个文件夹,叫做这个人的名字(我的就叫做Snow)并进入
把所有这个人的大于5s的音频放进来
在进入工具箱时,换一个命令
python demo_toolbox.py -d <datasets_root>
这里的<dataset_root>是aidatatang_200zh所在的目录
比如我的就是D:\dataset\Snow
左上角的dataset有了
选择说话者和音频,点击load above
后面的synthesize和vocode都一样
如果这个音频不行的话切换就会方便很多
这个Auto Select Next就是说你每次点一下Load Above就会自动切到下一个
7、一个坑
如果你下载了readme中最后一个链接,下出来ceshi和pretrained
然后合成的都是杂音
请下载代码旧版本(老一点的好)
打开synthesizer\utils\symbols.py
修改
如果本来就是old one这样的就不用改了
今天的教程就到这里结束啦
大家一直说我的文章水,这篇文章也一如既往地水
但我是实在没有在网上看到过满意的教程
谢谢大家
关于作者23568Noct-Cp
- 一个当之无愧的菜鸡
- Email: syc071122@163.com
- 注册于: 2020-04-17 07:22:11
哈哈哈哈cpu跑深度学习的痛
我现在可终于有N卡了😆
u1s1您这篇文章已经比之前的好得多得多✅
。。。我训练个dbj整出来像jgy 大概是我的问题
@23 786 M1芯片上能用就是奇迹