1500字范文 > 语音合成（TTS)论文优选：Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cr

语音合成（TTS)论文优选：Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cr

时间：2021-07-08 18:37:59

相关推荐

语音合成（TTS)论文优选：Forward Attention in Sequence- To-Sequence Acoustic Modeling for Speech Synthesis
语音合成（TTS）论文优选：过平滑问题分析及优化Revisiting Over-Smoothness in Text to Speech
语音合成（TTS)论文优选：HIERARCHICAL PROSODY MODELING FOR NON-AUTOREGRESSIVE SPEECH SYNTHESIS
语音合成（TTS)论文优选：Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

本文章是google公司在.07.24更新的文章，主要做multilingualspeech synthesis 的工作，具体的文章链接/pdf/1907.04448.pdf

（我之所以写这篇文章，因为我目前做的一个方向也是multilingual & code switch，近期想总结一下该方向的发展状况，而这篇该领域最经典的文章是绕不过去的。先写这篇文章，后续整理该方向综述会更简便一些）

1研究方向

现在的TTS模型不仅需要支持多种语言，还要支持语言之间的切换自然。然而，大部分企业手中拥有不同说话人不同语言的语料，要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章使用单语言语料设计了支持多语言跨语言的TTS，而且可以支持语言切换。（研究背景实在不想再阐述了，其实目的只有一个：在缺乏同一个说话人拥有多种语言训练语料前提下，使该说话人的TTS模型支持多语言）

2详细设计

详细的系统的架构如图1所示。这个架构非常经典，之后发表的很多文章都是在这种架构上修修改改，毕竟是出自google。该架构由3部分组成：inference network, DAT（domain adversarial training)和synthesis network。inference network使用了变分自编码VAE来学习音频的隐含变量，比如韵律，噪声等等，该模块为非监督学习。DAT模块为图中绿色部分（adversarial loss，主要训练时候使用)，主要功能把语言信息和固定的speaker进行解耦。synthesis network模块为最下边的模块，本文使用tacotron2，该模块就是把语言特征转成声学特征。另外，本文研究方向为multilingual & multispeaker，因此额外添加language embedding和speaker embedding。此外，本文也对文本输入格式进行对比：characters/graphemes, uft8-bytes 和phonemes，后边的实验结果可以做个很好的经验。

3实验

本文实验主要测试客观指标：相似度和自然度。

首先，先测试英语EN，西班牙语ES，和中文CN之间的相似性，结果如table 1所示。由结果可知，ES和CN稍微相似一些，其值大于2，其它之间相似度很低。

接下来，先验证输入格式的效果对比：characters/graphemes, uft8-bytes 和phonemes。由table2可知，无论何种情况，使用phonemes都是效果最好（这个可以作为积累的经验记着）。

然后，可以对比一下adversarial 和residual encoder模块的作用（我按照自己的想法对本文章的实验顺序改了一下，这样看起来更好）。由table3可知，使用adversarial (DAT)的效果更好。由table 5可知，使用residual encoder的Mos值更高。

最后，比较一下miultilingual 的voice clone的效果，由table 4和图2可以看出，该系统可以很好迁移语言，使说话者可以说不同语言。

4总结

本文使用单语言语料来迁移语言特征，使任意说话人可以说多种语言。本文作为multilingual & code switch的经典文章不得不读，而且该系统可以很好扩展到其它domain的学习，google出品就是精品。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。