每日科普|嘈雜的環(huán)境里，AI為什么聽不懂指令？

小天使_ag 2020-08-26

展開全文

不知道你是否有這樣的經(jīng)歷，月底窮困潦倒的你中午走進人潮喧嘩的食堂，正在心里瘋狂比較哪個菜更便宜時，忽然聽到五米開外某人的一聲“咱們發(fā)工資了”，于是你理直氣壯地對食堂大媽喊道：“加個雞腿！”

還有，不管在哪里，周圍有多吵，一旦有人叫自己的名字，總是能聽到。人能夠在如此嘈雜的環(huán)境下精確捕捉到想聽到的聲音，甚至還能知道聲音的方位，相比之下，現(xiàn)在的很多智能設(shè)備卻做不到這一點，這究竟是為什么呢？

人的聽覺為什么具有選擇性

說起人的聽覺，有一個著名的效應(yīng)——雞尾酒會效應(yīng)，它是指在喧鬧的雞尾酒會上，參會者大腦中的聽覺系統(tǒng)可以將他的注意力集中約束在他感興趣的談話內(nèi)容上，而自動忽略其他“無關(guān)”的噪聲，即使周圍環(huán)境非常嘈雜。

然而，這種我們?nèi)祟愑脙芍欢渚湍芨愣ǖ男栴}，對于智能音箱等語音交互設(shè)備來說，卻并不是那么容易的。當它們身處嘈雜的環(huán)境時，很容易就受到各種來路不明的聲音的“連環(huán)暴擊”，最終陷入“我是誰我在哪我在干嘛”的死循環(huán)中無法自拔……

于是，工程師們本著大力出奇跡的原則，不惜斥巨資為它們裝上很多個金光閃閃的麥克風(fēng)用來接收聲音，又去全世界各地搜羅各種各樣的聲音數(shù)據(jù)，沒日沒夜地改造它們。但是，機器們學(xué)習(xí)的效果不是十分理想，雞尾酒會問題至今仍然困擾著世界各地的語音工程師們。

這時有的同學(xué)可能就要坐不住了：“就這還用學(xué)？”

然而，事情可并不像你想象中那么簡單。

其實，你能具有這種聽覺選擇能力首先要感謝你的耳朵，這使得你的耳膜并不是像麥克風(fēng)一樣直接裸露在空氣中。你的耳廓、頭部、肩膀、軀干等身體部位對于聲音來說像是一個“迷宮”，來自不同方位的聲音需要從不同的入口進入，經(jīng)歷上述部位的一系列反射后最終到達“迷宮”的中心——耳膜，然后你的大腦就能感知到這個聲音了。

由于聲波所走過的路徑不同，它們的頻譜也會發(fā)生不同程度的修改。在這個“迷宮”的不同位置，仿佛潛伏著一群“造型師”，聲波路過時總是難免被“改造”一番。由于這些造型師們風(fēng)格迥異、水平參差不齊，在大腦看來，這些聲波就變得各有特色，很容易區(qū)分。

因此，當你還是個小嬰兒的時候，你還沒能累積足夠多的聽音經(jīng)驗，你的大腦對這些改造過的聲音可能一時無法辨認，因此導(dǎo)致你對聲音的辨別能力可能比較弱。隨著你慢慢長大，聽到的聲音越來越多，你的大腦就會慢慢摸清套路，建立一套自己的算法（數(shù)據(jù)庫），這樣即使是好幾個聲音同時出現(xiàn)在你面前，你也能很輕松地區(qū)分他們。

機器怎么獲取辨音能力

能不能讓機器像我們?nèi)艘粯?，擁有能夠分辨不同聲音的能力呢？答案是肯定的。前不久，中科院聲學(xué)所的楊軍研究員團隊就提出了一種基于聲學(xué)超材料的單通道多聲源定位與分離系統(tǒng)，只使用一個帶有超材料外殼的單通道傳聲器，即可實現(xiàn)三維空間中多個同時發(fā)聲聲源的實時定位與分離。研究成果發(fā)表在了綜合類期刊Advanced Science上。

通俗地講，就是給麥克風(fēng)做了一個“大耳朵”，不過這個耳朵跟我們的耳朵差別有點大，它長圖中這樣。

左圖：超材料結(jié)構(gòu)模型圖右圖：超材料結(jié)構(gòu)實物圖圖片來源：作者繪制與拍攝

我們暫且叫他“蜂窩耳”吧。這個“蜂窩耳”由外中內(nèi)三層半球殼嵌套而成，每一層球殼上都隨機設(shè)置大小不一的圓孔，球殼之間隨機插入了若干塊橫向和縱向的擋板來制造大小不一的腔體，在球心位置則放著一個單通道的麥克風(fēng)。這些大小隨機的圓孔和隔板使“蜂窩耳”具有高度的空間不對稱性，因此會對來自不同方向的聲波起到不同的調(diào)制效果。

這個“蜂窩耳”中的聲學(xué)結(jié)構(gòu)就像是一個個風(fēng)格迥異的造型師，聲波經(jīng)過時總是難逃老師們的“改造”，這位老師畫個眉毛，那位老師涂個口紅，所以等它到麥克風(fēng)的面前時，早就不是它原本的樣子了。

你可能已經(jīng)猜到，“蜂窩耳”的學(xué)名就是聲學(xué)濾波器。剛才所說的聲波的“改造”過程其實就是濾波過程，濾波后的聲信號頻譜會發(fā)生相應(yīng)的改變，因此被麥克風(fēng)接收到的信號就會產(chǎn)生與來波方向有關(guān)的差異性了。

那么問題又來了——聲波們長得不一樣，機器就能很快辨別出來嗎？當然不能。

我們還需要訓(xùn)練一個算法，讓機器提取這些聲波身上的獨家特征，最終定位和識別來自不同方向的聲音。擁有這個算法就好像擁有了一本《造型百科全書》，里面記錄了各位老師的改造技能和偏愛風(fēng)格。

機器戴耳記

一切準備就緒，我們的“蜂窩耳”就可以正式上崗了。

來自不同方向的聲波從外表面不同的位置進入“蜂窩耳”，經(jīng)過不同的傳播路徑時被不同的造型師改造，被球心的麥克風(fēng)接收；熟讀《造型百科全書》的算法對接收信號進行處理，最終重建出它們的來波方向和聲音的內(nèi)容。這種超材料結(jié)構(gòu)+智能算法的組合，只用一個麥克風(fēng)就能實現(xiàn)多聲源的實時定位和分離。工程師們再也不用擔心麥克風(fēng)數(shù)量不夠用了。

“蜂窩耳”的工作流程圖片來源：作者繪制

你是不是也很好奇“蜂窩耳”的效果如何呢？來看看研究人員針對多個生活場景進行的聽音測試。

實驗場景圖片來源：作者拍攝

“蜂窩耳”放在中間，周圍均勻放置16個音響用于播放測試所用的聲音。測試所用到的聲音包括馬路上的鳴笛聲、動物的叫聲、各種樂器聲、人說話的聲音等等。不過，這對訓(xùn)練有素的“蜂窩耳”來說簡直是小菜一碟。當空間中同時發(fā)聲的聲源不超過三個，定位與分離的準確率可以達到90%以上，耗時也不超過1秒。

當然，現(xiàn)在的“蜂窩耳”還只能算一個“小嬰兒”，它的聲學(xué)結(jié)構(gòu)設(shè)計和后端算法仍有待進一步的磨合和提升，研究人員也正在馬不停蹄地研發(fā)“蜂窩耳”2.0版本。隨著語音技術(shù)的發(fā)展，我們身邊越來越多的電子設(shè)備都搭載了語音交互系統(tǒng)，希望這個“蜂窩耳”能讓這些設(shè)備更加智能，使人與機器之間的交互更加流暢和便捷。

參考文獻：

SUN Xuecong, JIA Han, ZHANG Zhe, YANG Yuzhen, SUN Zhaoyong, YANG Jun. Sound Localization and Separation in 3D Space Using a Single Microphone with a Metamaterial Enclosure. Advanced Science n/a, 1902271.

論文鏈接：https:///10.1002/advs.201902271

出品：科普中國

監(jiān)制：中國科學(xué)院計算機網(wǎng)絡(luò)信息中心