MFCC(Mel-frequency cepstral coefficients):梅爾頻率倒譜系數(shù)。梅爾頻率是基于人耳聽覺特性提出來的, 它與Hz頻率成非線性對應(yīng)關(guān)系。梅爾頻率倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系,計算得到的Hz頻譜特征。主要有 以下幾個步驟:預(yù)加重,分幀,加窗,快速傅里葉變換(FFT),梅爾濾波器組,離散余弦變換(DCT)。 1. 預(yù)加重(Pre-Emphasis) 將數(shù)字語音信號s(n)通過一個高通濾波器(high pass filter),公式如下: y(t)=x(t)?αx(t?1) 一般 α 取值為0.95/0.97。 作用: 1)加強高頻信息,因為一般高頻能量比低頻小 2)避免FFT操作中的數(shù)值問題 3)可能增大信噪比(Signal to Noise Ratio) 注意的是,現(xiàn)代的系統(tǒng)可以將這步用mean normalization代替。 2. 分幀(framing) 這里的幀(frame)代表一小段時間t的語音數(shù)據(jù)。幀由N個采樣點組成。 我們要對語音數(shù)據(jù)做傅里葉變換,將信息從時域轉(zhuǎn)化為頻域。但是如果對整段語音做FFT,就會損失時序信息。因此,我們假設(shè)在很短的一段時間t內(nèi)的頻率信息不變,對長度為t的幀做傅里葉變換,就能得到對語音數(shù)據(jù)的頻域和時域信息的適當表達。 一般來說,幀的長度取值區(qū)間在20ms到40ms之間,相鄰幀有50%的重疊(overlapping)。 常用的參數(shù)設(shè)置:幀長25ms,步長(stride)10ms(15ms的重疊) 幀長(T),語音數(shù)據(jù)采樣頻率(F )和幀的采樣點(N)之間的關(guān)系: T=N/F 3. 加窗(window) 將信號分幀后,我們將每一幀代入窗函數(shù),窗外的值設(shè)定為0,其目的是消除各個幀兩端可能會造成的信號不連續(xù)性(即譜泄露 spectral leakage)。常用的窗函數(shù)有方窗、漢明窗和漢寧窗等,根據(jù)窗函數(shù)的頻域特性,常采用漢明窗(hamming window)。公式如下: w[n]=0.54?0.46cos(2πnN?1) 窗口長度為N,0≤n≤N?10≤n≤N?1 , 該函數(shù)形狀如下: 4. 快速傅里葉變換(Fast-Fourier-Transform) 對分幀加窗后的各幀信號進行N點傅里葉變換得到各幀的頻譜。N為每幀的采樣點,通常情況下N的值為256或512。這也叫STFT(Short-Time Fourier-Transform)。 其中xi是信號x的第i個幀。 這里需要先介紹下Nyquist頻率,奈奎斯特頻率(Nyquist頻率)是離散信號系統(tǒng)采樣頻率的一半,因哈里·奈奎斯特(Harry Nyquist)或奈奎斯特-香農(nóng)采樣定理得名。采樣定理指出,只要離散系統(tǒng)的奈奎斯特頻率高于被采樣信號的最高頻率或帶寬,就可以避免混疊現(xiàn)象。在語音系統(tǒng)中我通常采樣率取16khz,而人發(fā)生的頻率在300hz~3400hz之間,按照Nyquist頻率的定義就有Nyquist頻率等于8khz高于人發(fā)生的最高頻率,滿足Nyquist頻率的限制條件。FFT就是根據(jù)Nyquist頻率截取采樣率的一半來計算,具體來說就是,假設(shè)一幀有512個采樣點,傅里葉變換的點數(shù)也是512,經(jīng)過FFT計算后輸出的點數(shù)是257(N/2+1),其含義表示的是從0(Hz)到采樣率/2(Hz)的N/2+1點頻率的成分。也就是說在經(jīng)過FFT計算時不僅把信號從時域轉(zhuǎn)到了頻域并且去除了高于被采樣信號的最高頻率的點的影響,同時也降低了維度。 5.梅爾濾波器組(Mel Filter Banks) 由于人耳對不同頻率的敏感程度不同,且成非線性關(guān)系,因此我們將頻譜按人耳敏感程度分為多個Mel濾波器組,在Mel刻度范圍內(nèi),各個濾波器的中心頻率是相等間隔的線性分布,但在頻率范圍不是相等間隔的,這個是由于頻率與Mel頻率轉(zhuǎn)換的公式形成的,公式如下: 將能量譜通過一組Mel尺度的三角形濾波器組,定義一個有M個濾波器的濾波器組(濾波器的個數(shù)和臨界帶的個數(shù)相近),采用的濾波器為三角濾波器,一般用40個濾波器,每個濾波在中心頻率的響應(yīng)都是1,然后線性下降,一直到相鄰三角濾波的中心頻率處為0,如圖所示: 6. 離散余弦變換(Discrete Cosine Transform) 濾波器組得到的系數(shù)是相關(guān)性很高的,因此我們用離散余弦變換(Discrete Cosine Transform)來去相關(guān)并且降維。一般來說,在自動語音識別(Automatic Speech Recognition)領(lǐng)域,保留得到的倒頻譜系數(shù)的第2-13個,剩下的拋棄。 reference: http:///2016/04/21/speech-processing-for-machine-learning.html http://blog.csdn.net/fengzhonghen/article/details/51722555 http://www.speech.cs./15-492/slides/03_mfcc.pdf |
|
來自: taotao_2016 > 《計算機》