本文是我学习时对资料的一个个人学习笔记,资料来自于MEL原理
1. 声谱图
首先我们来弄明白比倒谱分析更易懂的声谱图
我们处理的是语音信号,那么我们该如何去描述它呢?最简单的方法当然是录下来一段语音,然后把直接它放到语音分析软件里,这时软件就会给我们一个语音的时序图 很显然,横轴是时间,纵轴是声音的震幅。
接下来我们要对这段波形进行傅里叶变换,但是我们不直接变换。在语音信号处理中我们一般先把语音切片成帧(frame),对每帧进行傅里叶变换,我们来看图
这里,这段语音被分为很多帧,每帧语音都对应于一个频谱(通过短时FFT计算),频谱表示频率与能量的关系。在实际使用中,频谱图有三种,即线性振幅谱、对数振幅谱、自功率谱(对数振幅谱中各谱线的振幅都作了对数计算,所以其纵坐标的单位是dB(分贝)。这个变换的目的是使那些振幅较低的成分相对高振幅成分得以拉高,以便观察掩盖在低幅噪声中的周期信号)
接下来,我们需要做的是分帧进行傅里叶变换后的谱图拼接起来,并且我们并不进行直接地拼接
拼接方式描述如下 > 我们先将其中一帧语音的频谱通过坐标表示出来,如上图左。现在我们将左边的频谱旋转90度。得到中间的图。然后把这些幅度映射到一个灰度级表示(也可以理解为将连续的幅度量化为256个量化值?),0表示黑,255表示白色。幅度值越大,相应的区域越黑。这样就得到了最右边的图。那为什么要这样呢?为的是增加时间这个维度,这样就可以显示一段语音而不是一帧语音的频谱,而且可以直观的看到静态和动态的信息。优点稍后呈上。
这样我们会得到一个随着时间变化的频谱图,这个就是描述语音信号的spectrogram声谱图。
也就是说,我们虽然对时域信号进行了傅里叶变换,但是由于我们对信号分帧再拼接,因此拼接的结果中横轴仍然是时间t,而纵轴则是频率。我们把这种图就叫做声谱图
下图便是一个实例 明暗代表这这一段语音信号的这段频率的强弱,图中的蓝线代表着共振峰
那我们为什么要在声谱图中表示语音呢? 首先,音素(Phones)的属性可以更好的在这里面观察出来。另外,通过观察共振峰和它们的转变可以更好的识别声音。隐马尔科夫模型(Hidden Markov Models)就是隐含地对声谱图进行建模以达到好的识别性能。还有一个作用就是它可以直观的评估TTS系统(text to speech)的好坏,直接对比合成的语音和自然的语音声谱图的匹配度即可。
2.倒谱分析
首先区分一下语谱图(Spectrogram)与语音的频谱图(Spectrum)。 我们上面所说的便是语谱图 而如果将一段语音直接进行傅里叶变换,得到的便是语音的频谱图
接下来我们来看一个语音的频谱图 >下面是一个语音的频谱图。峰值就表示语音的主要频率成分,我们把这些峰值称为共振峰(formants),而共振峰就是携带了声音的辨识属性(就是个人身份证一样)。所以它特别重要。用它就可以识别不同的声音。 既然它那么重要,那我们就是需要把它提取出来!我们要提取的不仅仅是共振峰的位置,还得提取它们转变的过程。所以我们提取的是频谱的包络(Spectral Envelope)。这包络就是一条连接这些共振峰点的平滑曲线。 我们可以这么理解,将原始的频谱由两部分组成:包络和频谱的细节。这里用到的是对数频谱,所以单位是dB。那现在我们需要把这两部分分离开,这样我们就可以得到包络(Spectral Envelop)了。
这里插一个个人的小想法:如果对一段语音的频谱,再进行一次傅里叶变换,也就是求Spectrum的Spectrum,接着进行低通滤波,会怎么样呢?会不会在控制好参数的情况下也能得到包络呢?哈哈有时间一定要来试试。
说回正题:我们要注意,上图中纵轴的单位都是dB,也就是说这都是对数化了的谱。 现在我们的目标是要取出语音的频谱图中的包络与"频谱的细节"。怎么做? 一个可行的方法是,对上图对数化了的频谱再进行一次傅里叶变换。进行这种变换之后,横轴自然就不是频率了,而是频率的频率。我们也可以叫它"伪频率"(pseudo-frequency),此时再对这个频率的频谱图取低频部分,它就与包络大致相对应(不是一样是对应);相应的,而高频部分就大致与频率的细节相对应。
试想,我们如果对包络进行IFFT,那么得到的应该是一个低频部分;而对细节进行IFFT,那么得到的应该是高频部分。当然,进行IFFT后横轴并不是时间,因为进行IFFT的谱的纵轴是对数化了的,因此IFFT后不应该是时间t。
得到谱的包络有什么作用呢?谱的包络往往包含着说话的语义成分--它是声道所对应的部分。而精细的部分对应着人的声门。试想,每个人的声门(声带)都不一样,但是我们仍然能从不同的人的发声上听出相同的"字",这是因为"字"的发声方法是我们在成长过程中学会的、是由声道控制的。 这样,我们就能进行ASR了。 >自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术
在实际中咱们已经知道log X[k],所以我们可以得到了x[k]。那么由图可以知道,h[k]是x[k]的低频部分,那么我们将x[k]通过一个低通滤波器就可以得到h[k]了!没错,到这里咱们就可以将它们分离开了,得到了我们想要的h[k],也就是频谱的包络。
x[k]实际上就是倒谱Cepstrum(这个是一个新造出来的词,把频谱的单词spectrum的前面四个字母顺序倒过来就是倒谱的单词了)。而我们所关心的h[k]就是倒谱的低频部分。h[k]描述了频谱的包络,它在语音识别中被广泛用于描述特征。
那现在总结下倒谱分析,它实际上是这样一个过程:
语音-->FFT-->log-->IFFT-->倒谱 在FFT与IFFT之间加了一个取log而已
1)将原语音信号经过傅里叶变换得到频谱:X[k]=H[k]E[k]; 只考虑幅度就是:|X[k] |=|H[k]||E[k] |; 2)我们在两边取对数:log||X[k] ||= log ||H[k] ||+ log ||E[k] ||。 3)再在两边取逆傅里叶变换得到:x[k]=h[k]+e[k]。
这实际上有个专业的名字叫做同态信号处理。它的目的是将非线性问题转化为线性问题的处理方法。对应上面,原来的语音信号实际上是一个卷性信号(声道相当于一个线性时不变系统,声音的产生可以理解为一个激励通过这个系统),第一步通过卷积将其变成了乘性信号(时域的卷积相当于频域的乘积)。第二步通过取对数将乘性信号转化为加性信号,第三步进行逆变换,使其恢复为卷性信号。这时候,虽然前后均是时域序列,但它们所处的离散时域显然不同,所以后者称为倒谱频域。
注: 1. 倒谱中的横轴与时间t类似,而又不是真正的时间,也可以叫做它伪频率 2. 声音的产生可以理解为声门和声道的线性卷积 3. 语音信号的倒谱经过低倒谱窗,获得声道响应信号,可分析得到共振峰参数; 语音信号的频谱高倒谱窗,经过声门激励信号,可分析得到基音参数
3.MEL频率
通过对人耳听力的研究发现,人耳对低频的声音更为敏感,对高频的声音相对不敏感。 比如说,对于一个500hz的声音和1000hz的声音相比,人的听力系统并不会感觉到后者的音调就是前者的两倍,实际的听力感觉是不到两倍。
而Mel频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量(人的听觉对频率是有选择性的)。也就说,它只让某些频率的信号通过,而压根就直接无视它不想感知的某些频率信号。但是这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,他们分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。
所谓的mel频率,就是根据人的听力,将线性的频率进行一个变换,使得在mel频率域中,“1000hz”听起来就是"500hz"的两倍音调一样
将普通频率转化到Mel频率的公式是:\[mel(f)=2595\times log_{10}(1+\frac{f}{700})\]
由下图可以看到,它可以将不统一的频率转化为统一的频率,也就是统一的滤波器组。
注意mel频率的单位是mel,是一种“伪频率” ### 4.MFCC与FBANK
总结下提取MFCC特征的过程:(具体的数学过程网上太多了,这里就不想贴了) 1)先对语音进行预加重、分帧和加窗; 2)对每一个短时分析窗,通过FFT得到对应的频谱; 3)将上面的频谱通过Mel滤波器组得到Mel频谱; 4)在Mel频谱上面进行倒谱分析(取对数,做逆变换,实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征;
下面是一个更完整的图,前面增加了AD转换(采样与量化),后面增加了求两阶差分,暂时可以不管这两步。 对语音信号提取MFCC特征的过程包括--高频预加重,加哈明窗分帧,DFT变换并平方获得能量谱,通过20个MEL滤波器组,对数运算,DCT变换获得倒谱特征,再加上一阶和二阶动态特征
在MEL滤波后,得到的便是FBANK参数
### 5.FBank Filter bank和MFCC的计算步骤基本一致,只是没有做IDFT而已(但是包括了求对数) 这里有一篇好例子实例
FBank与MFCC对比:
1.计算量:MFCC是在FBank的基础上进行的,所以MFCC的计算量更大
2.特征区分度:FBank特征相关性较高(相邻滤波器组有重叠),MFCC具有更好的判别度,这也是在大多数语音识别论文中用的是MFCC,而不是FBank的原因
3.使用对角协方差矩阵的GMM由于忽略了不同特征维度的相关性,MFCC更适合用来做特征。
4.DNN/CNN可以更好的利用这些相关性,使用fbank特征可以更多地降低WER。
MFCC与基本倒谱分析的对比
mfcc是一个倒谱参数,它与倒谱分析有相似之处,区别在于 1.多了预加重(使得高频部分变得相对更平坦)
2.FFT后取绝对值或者平方(模取平方平方对应着能量谱) 3.进行了mel滤波,也就是进行了一个频率的非线性变换,参考前面所述的公式 4.IFFT换成了DCT 5.它得到的是一个12维的向量,代表了声音的特征。实际上因为取得是前12维,因此更多地包含了语义(共振峰)参数,利用这个向量,我们就可以进行很多东西了
在实际中使用的语音特征,往往是各种特征的组合。比如,常用的39维MFCC特征,其组成如下:
12 MFCC feature 1 energy feature 12 delta MFCC features 12 double-delta MFCC features 1 delta energy feature 1 double-delta energy feature