計(jì)算機(jī)交互技術(shù)通過幾年連續(xù)開發(fā),語音信號(hào)中包含的情感信息越來越受到關(guān)注。通常,語音信號(hào)的感情特征多通過語音韻律的變化來表現(xiàn)。例如,當(dāng)人們生氣或驚訝時(shí),演講速度會(huì)增加,音量會(huì)增加,音調(diào)也會(huì)改變,而當(dāng)你憂郁或傷心時(shí),聲音往往很低。因此,振幅的結(jié)構(gòu)、發(fā)音的持續(xù)時(shí)間、說話速度等語音信號(hào)的特征是所有重要的研究特征。 在進(jìn)行語音識(shí)別的過程中,系統(tǒng)的處理對(duì)象是有效語音信號(hào)。尤其在在多人說話的情況下,如果不對(duì)輸入信號(hào)做分離處理而直接進(jìn)行語音識(shí)別的話,識(shí)別效果會(huì)很差。這時(shí),需要從輸入信號(hào)中找到語音部分的起止點(diǎn)和終止點(diǎn),從中抽取語音情感識(shí)別所需的信號(hào)特征。這樣的語音信號(hào)“切割”過程被稱為語音端點(diǎn)檢測(cè)(Voice Activity Detection,VAD),是一種驅(qū)動(dòng)性的語音信號(hào)處理技術(shù)。 簡(jiǎn)單來說,VAD就是將有效的語音信號(hào)和無用的語音信號(hào)或者噪音信號(hào)進(jìn)行分離,以使后續(xù)的說話人識(shí)別、語義識(shí)別及語音情感分析等工作更加高效,是語音處理過程非常必要且關(guān)鍵的環(huán)節(jié)。 1.在存儲(chǔ)或傳輸語音的場(chǎng)景下,從連續(xù)的語音流中分離出有效語音可以降低存儲(chǔ)或傳輸?shù)臄?shù)據(jù)量; 2.只針對(duì)有效語音信號(hào)進(jìn)行識(shí)別工作,在不降低語音信息量的前提下,可大大降低語音識(shí)別系統(tǒng)的運(yùn)算量; 3.由于去除了非語音信號(hào)的中噪聲的干擾,系統(tǒng)的識(shí)別準(zhǔn)確率也得到了極大提高;VAD技術(shù)的興起。 在VAD技術(shù)應(yīng)用比較廣就是智能電話機(jī)器人的開發(fā),很多行業(yè)內(nèi)部人士已經(jīng)接觸過電銷機(jī)器人,并且我們?cè)谏钪幸步拥竭^許多機(jī)器人打來的電話。比如,一些來自企業(yè)招聘、教育培訓(xùn)、電話服務(wù)、等企業(yè)的銷售電話。機(jī)器人代替人工作業(yè)已經(jīng)屢見不鮮,但機(jī)器人代替人工打電話并且進(jìn)行推銷業(yè)務(wù),這樣的電話機(jī)器人好不好用,行業(yè)間一直有此疑問。 其次就是騷擾電話的層出不窮,好在今年3.15整治下,一些使用泛濫技術(shù)的企業(yè)都得到了應(yīng)有的懲罰。同時(shí)為了整頓行業(yè)內(nèi)部,也出臺(tái)了相關(guān)的規(guī)定,在諸多條件的限制下,語音交互市場(chǎng)也慢慢走上了正軌。 回到上面的話題從最早1959年,貝爾實(shí)驗(yàn)室率先將VAD技術(shù)應(yīng)用于電話傳輸,到后來日本、英國、美國等各國專家相繼提出基于頻域、基于人工神經(jīng)網(wǎng)絡(luò)算法、基于倒譜距離等多種語音端點(diǎn)檢測(cè)方法,語音技術(shù)便進(jìn)入高速發(fā)展階段。 目前,端點(diǎn)檢測(cè)的方法主要有兩大類,一是基于語音特征的檢測(cè)方法,該方法的關(guān)鍵在于對(duì)信號(hào)提取其魯棒性特征,以便能夠很好地區(qū)分語音/非語音。近幾年使用該方法的檢測(cè)算法主要有:基于能量特征、基于周期特征及基于多特征融合等算法,此方法對(duì)多種低信噪比(信噪比越低,混在信號(hào)里的噪聲越大)的情況有著較好的檢測(cè)正確率。 第二種是決策規(guī)則的檢測(cè)方法,包括基于統(tǒng)計(jì)模型和基于機(jī)器學(xué)習(xí)的檢測(cè)方法,是近年來的研究熱點(diǎn)。其中基于機(jī)器學(xué)習(xí)的端點(diǎn)檢測(cè)方法是將語音的檢測(cè)轉(zhuǎn)換成一個(gè)二元分類的問題,然后訓(xùn)練其學(xué)習(xí)其語音和噪聲的不同特性。 VAD技術(shù)的應(yīng)用難點(diǎn)和要求 目前,許多VAD算法都需要用到一些假設(shè)來保證實(shí)現(xiàn)良好的檢測(cè)性能,如: · 在比較長的一段時(shí)間內(nèi),背景噪音是平穩(wěn)的; · 語音能量要高于噪音的能量,即信噪比高(混在信號(hào)里的噪聲?。?/span> · 語音譜比噪音普更加有序; · 語音信號(hào)的周期性要比噪音的周期性好; 如果上述假設(shè)都可以滿足,我們就可以使用較為簡(jiǎn)單的檢測(cè)算法做出正確的檢測(cè)。但在實(shí)際情況中 ,上述假設(shè)很難同時(shí)滿足。因此,一個(gè)性能良好的VAD算法需要滿足以下要求: · 在較低信噪比下仍有精準(zhǔn)的檢測(cè)能力; · 使用多個(gè)特征聯(lián)合進(jìn)行檢測(cè),特別是那些可以充分表征語音信號(hào)和噪音信號(hào)之間差異的特征; · 在背景噪音有變化或未知噪音類型的情況下仍能較好的檢測(cè),即噪音適應(yīng)性好; · 對(duì)于與噪音特性相似的清音、爆破音和摩擦音等信號(hào),能夠?qū)⑵湔_檢測(cè)為語音,盡可能的避免丟失。 以歐能智能的產(chǎn)品為例,通過語音情緒識(shí)別等情感計(jì)算技術(shù)為教學(xué)“賦能”,幫助企業(yè)和用戶提供更個(gè)性化的指導(dǎo)。對(duì)語音信號(hào)處理技術(shù)VAD的逐步應(yīng)用和深入研究,這些方面的研發(fā)將幫助歐能研發(fā)團(tuán)隊(duì)大幅縮短數(shù)據(jù)處理時(shí)間,提高語音識(shí)別系統(tǒng)準(zhǔn)確率,快速驅(qū)動(dòng)更高效的產(chǎn)品落地。 智能語音技術(shù)是人工智能應(yīng)用最成熟的技術(shù)之一,并擁有交互的自然性,因而具有巨大的市場(chǎng)空間??萍季揞^都在打造自己的智能語音生態(tài)系統(tǒng),在語音識(shí)別程序中,為了解決電話機(jī)器人好不好用的問題,減少了17%的運(yùn)算時(shí)間,從而使得識(shí)別準(zhǔn)確率相對(duì)提高了1%。 |
|