現(xiàn)代生活已經產生微妙變化。在節(jié)日期間,我們會與家中的智能音箱對話:“愛麗絲,請播放些圣誕歌曲”,“Google,請打開美妙的燈光”,“Siri,請問烤火雞還需要多長時間出爐”,就如同與家里成員一樣對話,而這種無形的指令幾乎是瞬時得到執(zhí)行。 包括亞馬遜、谷歌、蘋果的這類裝置已經出現(xiàn)在英國五分之一的家庭中。2019年,全球已經銷售了1.47億套,2020年銷量預計會增加10%。令人驚訝的是,智能音箱已經達到了很高的語音識別能力和精確性。這些都歸因于高靈敏度的語音傳感器和用來解釋語音的復雜機器學習算法。 從正常講話轉換為文本需要兩個過程:(1)一個語音傳感器將接收的聲波轉換為電信號;(2)使用軟件識別出語音中的詞語。對于第二階段,電信號首先由模擬信號轉換為數(shù)字信號,然后用快速傅里葉變換找出不同頻率信號隨時間的振幅變化。用算法語言將單音(phones)與標準的音素(phoneme)進行比較,由此構成完整講話。在語音識別過程中,機器學習非常重要,可以用來提高精確度。計算程序會記住我們對所說話的修正,因此在解讀我們個人的聲音時變得更加精確。 靈敏度聲學探測器源于19世紀末。最初的聲音傳感器是碳粉接觸式麥克風,由美國的 E. Berliner 和 T. Edison,英國的 D. Hughes獨立發(fā)明。這種麥克風將碳粉顆粒壓縮在兩片金屬板之間,然后在兩側加上電壓。傳入的聲波使得其中一個金屬膜片產生振動。在壓縮過程中,碳顆粒變形而增加了相互接觸面積,使接觸電阻下降引起電流增加。隨著膜片運動使得聲音可以通過電流變化記錄下來。 然而,直到1952年才首次實現(xiàn)語音識別技術。美國的貝爾電話實驗室設立了 “自動數(shù)字識別機”(Audrey)項目,可以在普通電話中識別數(shù)字0—9,用于語音撥號,然而需要對用戶聲音進行訓練,以及許多其他電子儀器。 從Audrey設立以來,語音識別的計算方面已經有了長足的發(fā)展,語音傳感器也接受了嚴格考驗。出現(xiàn)了鋁帶式麥克風、動圈式麥克風、碳粒麥克風等,但先后淡出市場,而電容式傳感器卻一直是主流。1916年美國西部電子工程實驗室的 E. C. Wente 發(fā)明了電容傳感器,利用一個電容器平板之間的電壓與間距有關的物理效應。在一個固定的背板和一個運動的薄膜兩面加上電壓,隨著外部聲波振動的薄膜引起電容兩端電壓的變化,由此可以計算出不同頻率聲波引起的振幅變化。 貝爾電話實驗室的 G. Sessler 等人于1962年發(fā)明了駐極體電容麥克風(ECM)。駐極體材料(如聚四氟乙烯)具有本征的表面電荷,可以在電容器兩端保持固定的電壓,從而降低了輸入功率。直徑為 3—10 mm的 ECM 占據(jù)了麥克風市場大約50年時間。然而,減小傳感器尺寸會導致信噪比和穩(wěn)定性下降,特別是在溫度變化的環(huán)境中。 與時俱進的語音傳感器。自從19世紀E. Berliner (左),T. Edison和D. Hughes首次發(fā)明了碳粒麥克風以來,語音傳感器經歷了很大進展;(中)駐極體電容麥克風;(右)MEMS電容式麥克風 當用于語音識別時,多數(shù)ECM傳感器已經被微機電系統(tǒng)(MEMS)電容傳感器所取代。智能音箱中的這種傳感器直徑約 20—1000 mm。MEMS傳感器與ECM的區(qū)別在于內部的模擬—數(shù)字轉換電路。與ECM相比,MEMS器件對電子噪聲不敏感,尺寸也更小,采用半導體工藝線加工,因而更易于批量制作。MEMS 傳感器的缺點是壽命不長,不適于惡劣的工作環(huán)境。沉積在膜片的顆粒、雨水和附著在膜片表面的空氣層都會降低其靈敏度。 盡管電容式傳感器已經在工業(yè)界占據(jù)了數(shù)十年主導地位,但并非是未來發(fā)展的首選。美國Vesper公司設計了壓電語音傳感器,成為新的解決方案。這家2014年建立的公司最初的設計是源于公司CEO Bobby Littrelld 博士的研究。 壓電語音傳感器采用壓電材料制成的膜片,如鋯鈦酸鉛壓電材料,將機械能直接轉換為電響應。當壓電薄膜接收到聲波,其內部離子間距離會增長,從而產生電偶極子,使得結構中的離子形成能量最低的分布。這種偶極子只能存在于非中心對稱結構晶體單胞中。偶極子在晶體中的累積效果會產生電壓,電壓隨著晶體內應變的變化而變化。 與電容式語音傳感器相比,壓電式傳感器具有的優(yōu)勢是不會沾上污染物、空氣或者水分,因此壽命更長。另外,這種器件是自供電的,節(jié)省了用于電池的空間。 然而,像這樣的薄膜設備——以及電容式設計——往往很難制備,需要在高真空甚至超高真空環(huán)境。需要選擇合適的襯底,按照單胞的某一晶體取向生長薄膜,以便在機械應變條件下生長的偶極子均朝向同一方向。需要高溫來提高原子的遷移性,使得原子在襯底的最低能量位置上形成理想點陣。然而,單晶的薄膜必須生長在有序的結構上,而柔性襯底是非晶結構,難于生長單晶薄膜。 在語音識別領域中,韓國KAIST的團隊發(fā)展了一種新的模仿人類聽力的壓電傳感器。他們的壓電傳感器具有與人類耳蝸的基底膜類似的形狀,因此,可以收集常規(guī)電容式傳感器兩倍的信息。這一優(yōu)勢源于,不僅可以收集含有所有頻率的單一信號,從中提取頻率與振幅信息,而且能在薄膜不同的位置獲取多個信號。豐富的信息使得語音識別更加準確。這種設計的精確度和靈敏度占優(yōu)勢,可以獲取遠處的音頻信號,并且能夠分辨單個聲音。 他們研究中的棘手問題是分析來自這些通道的信號,給出不同頻率信號的相對振幅,這是由于振幅受到了通道共振行為的調制。該團隊認為已經找到了適于這種探測器的通道數(shù),但是必須在收集更多信息以提高精確度與適當大小的處理器之間取得平衡。 語音識別技術并不限于將傳感器放置在房屋各個角落,或者你的口袋里。用于探測喉部振動而不是探測聲波的傳感器,對于聲音幾乎無法傳播的場合是非常重要的,如在嘈雜的工業(yè)環(huán)境,或者人們佩戴笨重的防毒面具時。2019年韓國浦項科技大學做出了突破性工作,研制出柔性并且可以貼在皮膚上的電容傳感器。這種傳感器通過探測喉部環(huán)狀軟骨上的皮膚振動來感知人的聲音。由于喉部皮膚的加速度與聲壓存在線性關系,因此,可以通過測量電容值的變化感知喉部加速度,進而轉換為聲壓。團隊制備了厚度小于 5 μm 的環(huán)氧樹脂薄膜,用以模擬自然界中柔性的聚合物材料。 語音識別探測器的未來是面向應用的智能裝置,如靈敏度高,能夠識別作為密碼或者指紋的個體聲音信息。 本文選自《物理》2021年第1期 (北京大學 朱 星 編譯自 Pip Knight. Physics World,2020,(12):25) 原標題:智能音箱與語音傳感器 來源: 中國物理學會期刊網 |
|