此存储库是使用实时工作的声码器从说话人验证到多说话人文本到语音合成 (SV2TTS) 的迁移学习的实现。这是我的硕士论文。
SV2TTS是一个分三个阶段的深度学习框架。在第一阶段,人们从几秒钟的音频中创建声音的数字表示。在第二和第三阶段,此表示用作参考以生成给定任意文本的语音。
视频演示(点击图片):
网址 | 指定 | 标题 | 实现源 |
---|---|---|---|
1806.04558 | SV2TTS | 将学习从说话人验证转移到多说话人文本到语音合成 | 此回购 |
1802.08435 | WaveRNN (声码器) | 高效的神经音频合成 | 胖弦/波弦 |
1703.10135 | 塔科特龙(合成器) | Tacotron:迈向端到端语音合成 | 胖弦/波弦 |
1710.10467 | GE2E (编码器) | 扬声器验证的通用端到端损耗 | 此回购 |
就像深度学习中的其他一切一样,这个存储库很快就会过时。许多其他开源存储库或 SaaS 应用程序(通常付费)将为你提供比此存储库更好的音频质量。如果你关心要克隆的语音的保真度及其表现力,以下是替代语音克隆解决方案的一些个人建议:
venv
pip install -r requirements.txt
预训练模型现在会自动下载。如果这对你不起作用,你可以在此处手动下载它们。
在下载任何数据集之前,可以先使用以下方法测试配置:
python demo_cli.py
如果所有测试都通过,你就可以开始了。
对于单独使用工具箱,我只建议下载LibriSpeech/train-clean-100
。提取内容,因为其中是你选择的目录。工具箱中支持其他数据集,请参阅此处。你可以自由地不下载任何数据集,但是你将需要自己的数据作为音频文件,或者你必须使用工具箱进行录制。
<datasets_root>/LibriSpeech/train-clean-100
<datasets_root>
然后,你可以尝试使用工具箱:
python demo_toolbox.py -d <datasets_root>
python demo_toolbox.py
具体取决于你是否下载了任何数据集。如果你正在运行 X 服务器或遇到错误,请参阅此问题。
Aborted (core dumped)