1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 语音合成(TTS)论文优选:Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cr

语音合成(TTS)论文优选:Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cr

时间:2021-07-08 18:37:59

相关推荐

语音合成(TTS)论文优选:Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cr

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

本文章是google公司在.07.24更新的文章,主要做multilingualspeech synthesis 的工作,具体的文章链接/pdf/1907.04448.pdf

(我之所以写这篇文章,因为我目前做的一个方向也是multilingual & code switch,近期想总结一下该方向的发展状况,而这篇该领域最经典的文章是绕不过去的。先写这篇文章,后续整理该方向综述会更简便一些)

1研究方向

现在的TTS模型不仅需要支持多种语言,还要支持语言之间的切换自然。然而,大部分企业手中拥有不同说话人不同语言的语料,要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章使用单语言语料设计了支持多语言跨语言的TTS,而且可以支持语言切换。(研究背景实在不想再阐述了,其实目的只有一个:在缺乏同一个说话人拥有多种语言训练语料前提下,使该说话人的TTS模型支持多语言)

2详细设计

详细的系统的架构如图1所示。这个架构非常经典,之后发表的很多文章都是在这种架构上修修改改,毕竟是出自google。该架构由3部分组成:inference network, DAT(domain adversarial training)和synthesis network。inference network使用了变分自编码VAE来学习音频的隐含变量,比如韵律,噪声等等,该模块为非监督学习。DAT模块为图中绿色部分(adversarial loss,主要训练时候使用),主要功能把语言信息和固定的speaker进行解耦。synthesis network模块为最下边的模块,本文使用tacotron2,该模块就是把语言特征转成声学特征。另外,本文研究方向为multilingual & multispeaker,因此额外添加language embedding和speaker embedding。此外,本文也对文本输入格式进行对比:characters/graphemes, uft8-bytes 和phonemes,后边的实验结果可以做个很好的经验。

3实验

本文实验主要测试客观指标:相似度和自然度。

首先,先测试英语EN,西班牙语ES,和中文CN之间的相似性,结果如table 1所示。由结果可知,ES和CN稍微相似一些,其值大于2,其它之间相似度很低。

接下来,先验证输入格式的效果对比:characters/graphemes, uft8-bytes 和phonemes。由table2可知,无论何种情况,使用phonemes都是效果最好(这个可以作为积累的经验记着)。

然后,可以对比一下adversarial 和residual encoder模块的作用(我按照自己的想法对本文章的实验顺序改了一下,这样看起来更好)。由table3可知,使用adversarial (DAT)的效果更好。由table 5可知,使用residual encoder的Mos值更高。

最后,比较一下miultilingual 的voice clone的效果,由table 4和图2可以看出,该系统可以很好迁移语言,使说话者可以说不同语言。

4总结

本文使用单语言语料来迁移语言特征,使任意说话人可以说多种语言。本文作为multilingual & code switch的经典文章不得不读,而且该系统可以很好扩展到其它domain的学习,google出品就是精品。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。