FastSpeech 2笔记

来源:互联网转载 | 更新日期:2023-09-05 20:59:13

参考链接:TTS paper阅读:FastSpeech 2 - 知乎 (zhihu.com)

参考链接:https://xiaoiedu.blog.csdn.net/article/details/129306374

Fundamental frequency contour和pitch contour 是相关的概念,它们描述了声音信号的感知音高随时间的变化

基频轮廓是指声音信号的基频随时间的变化。基频是一个复杂声音的最低频率成分,它对应于声音的感知音高。例如,如果你用乐器弹奏一个音符,基频就是与该音符的音高相对应的声波频率。

另一方面,音高轮廓指的是声音信号的感知音高随时间的变化。一个声音的音高是由基本频率以及其他因素决定的,如声音的谐波结构和听者的听觉处理。

在实践中,基频轮廓(Fundamental frequency contour)和音高轮廓(pitch contour)常常可以互换使用,因为基频的变化通常会导致声音的感知音高的相应变化。然而,在某些情况下,例如在分析语音信号时,这两种测量方法之间可能存在差异,因为语音中的音高感知受到音调和重音等因素的影响,这些因素可能并不总是与基频的变化直接相关。

与FastSpeech类似,encoder、decoder主体使用的是前馈Transformer block(自注意+1D卷积)。不同的是,FastSpeech 2不依靠teacher-student的蒸馏操作:直接用GT mel谱作为训练目标,可以避免蒸馏过程中的信息损失同时提高音质上限。variance adaptor包括duration、pitch、energy的预测器predictor,其中DP通过训练数据中提取的强制对齐获得时长信息,这比从自回归teacher模型中提取更准确。

如图1(a)所示,encoder将phoneme embedding转换成phoneme hidden seq,然后设计了variance adaptor引入不同的声学特征信息,最终decoder将adapted hidden seq并行地转换成mel谱。

 

VA是给phoneme hidden seq加上变化信息(各种声学特征),对于TTS的one-to-many映射提供帮助。作者在这里加上了三种:duration,pitch和energy。此外像emotion、style、speaker等信息都可以加到VA上。

VA的设计如图1(b)所示,GT的duration、pitch、energy一方面被用来在训练时作为condition预测mel谱,另一方面被用来训练声学特征预测器DP、PP和EP。

三个预测器的结构是一致的,如图1(c)所示,包括1个两层的1D卷积网络(ReLU+Layer Norm + Dropout)和一个线性层。

DP:输入phoneme hidden seq,输出每个音素对应的预测帧数(为便于预测转换成对数域)。DP训练用的是MSE loss,GT 音素时长是通过Montreal Forced Alignment(MFA)工具从原音频中提取的。

PP:以往的神经网络TTS的pitch预测通常是直接预测基频轮廓(pitch contour)。但由于实际pitch的变化往往很大,预测出来的pitch值分布与GT pitch的分布差距很大。所以本文使用连续小波变换(continuous wavelet transform,CWT)来将连续音高分解成pitch谱图(每帧的pitch被量化为对数域的256个可能值然后转成一个pitch embedding vector加到hidden seq中),以此为GT target计算MSE loss。

EP:对于每一STFT帧计算其幅度的L2范数作为能量值。然后将energy均匀量化成256个可能值,编码成energy embedding vector加到hidden seq中。同样和GT计算MSE loss。

要在FastSpeech2中向扩展的隐藏序列添加音调嵌入向量,可以按照以下步骤进行:

在FastSpeech2的编码器中,将音调嵌入向量与输入文本嵌入向量连接起来。输入文本嵌入向量通常是嵌入层的输出,它将输入文本序列映射到一个连续向量空间。

将连接好的向量通过编码器层来生成每个输入标记的隐藏表示。你可以使用原始FastSpeech2模型中使用的同一组编码器参数。

Experiment

数据集:LJSpeech,并用了g2p工具转成phoneme输入

结果

首先比较音质,FastSpeech2比自回归模型Tacotron2、非自回归TTS模型都要好

上一篇:Pix2Pix原理解析

下一篇:二阶无源低通滤波器的截止频率与RC关系

相关文章

Copyright © 网站出售-网站交易平台 版权信息

网站备案号:黔ICP备2023004141号