2019年12月底,探境科技一舉發(fā)布了由低功耗系列、主打系列、旗艦系列組成的三大系列、6顆AI芯片組成的產(chǎn)品矩陣。值得一提的是在產(chǎn)品矩陣中,探境發(fā)布了具備AI雙麥降噪功能的語音識別方案,即Voitist音旋風(fēng)612。 此外,探境還公布首個離在線一體的語音識別解決方案——Voitist音旋風(fēng)621。 伴隨智能家居語音市場的火熱,算法公司和芯片公司都嗅到了無限潛力。但在語音控制技術(shù)層面仍面臨諸多挑戰(zhàn)。例如:由于高噪聲、遠(yuǎn)場識別環(huán)境造成低信噪比情況、由于非穩(wěn)態(tài)噪聲對于降噪算法產(chǎn)生影響、以及在語音識別期間,同時播放電視劇、音樂造成的多聲源問題。 如何解決復(fù)雜環(huán)境甚至嚴(yán)苛環(huán)境下的語音識別?探境科技給出了自己的答案。 AI降噪+HONN,無懼家居噪音 在日常生活的一些典型的高噪聲使用場景中,如抽油煙機(jī)或者掃地機(jī)器人,噪聲最低也有70分貝;并且MIC也距離這些噪聲源非常近,而實(shí)際用戶往往距離MIC的距離會遠(yuǎn)些,這些因素疊加會導(dǎo)致我們語音識別設(shè)備采集到的信噪比非常低。 信噪比,是衡量需要識別的目標(biāo)聲源與其它干擾聲源強(qiáng)度比值的對數(shù)。一般將信噪比低于15dB的稱為噪聲環(huán)境。信噪比越低,識別難度越大。 在語音識別的研發(fā)過程中,一個完整的識別鏈路可以簡化為麥克風(fēng)輸入、降噪處理、語音識別、識別結(jié)果輸入四個環(huán)節(jié)。想做好識別,首先要在降噪處理上下功夫。 探境自研的AI降噪算法基于深度學(xué)習(xí),不僅能夠處理穩(wěn)態(tài)的噪聲,非穩(wěn)態(tài)的突發(fā)性噪聲也能很好的過濾。 據(jù)探境科技副總裁李同治介紹,為了驗(yàn)證探境AI降噪算法的有效性,他曾將一批信噪比在3dB左右的語音數(shù)據(jù)送到一個知名的云端公開語音識別引擎做了測試,降噪后比降噪前提高30%識別準(zhǔn)確率。 在對聲音進(jìn)行降噪處理之后,就進(jìn)入到了語音識別環(huán)節(jié)。在這一環(huán)節(jié)中,神經(jīng)網(wǎng)絡(luò)模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。 在傳統(tǒng)的語音識別算法里,用的最多的是全連接的操作,叫DNN/DTNN。據(jù)了解,國內(nèi)有多家語音識別芯片采用的都是DNN的方法。 相比較于全連接操作,卷積操作能夠提供更高的計算強(qiáng)度,且卷積運(yùn)算與人類大腦負(fù)責(zé)感知模塊的處理方法類似,能夠提取滿足大腦認(rèn)知的本質(zhì)特征。 探境將其計算機(jī)視覺中的一些經(jīng)驗(yàn)遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設(shè)計了一個高計算強(qiáng)度的神經(jīng)網(wǎng)絡(luò),即HONN(High Operation Neural Network)。
圖:DNN與HONN區(qū)別 在高計算強(qiáng)度神經(jīng)網(wǎng)絡(luò)里,每一個處理單元變成了立體維度的,優(yōu)于平面上的處理,因此高計算強(qiáng)度神經(jīng)網(wǎng)絡(luò)的信息量和計算密度,也遠(yuǎn)遠(yuǎn)超過傳統(tǒng)DNN/DTNN的方法,帶來的直接效果是,多了一個維度的識別,性能提升是顯而易見的。 可以看出高計算強(qiáng)度的模型僅需要350k的存儲空間,而DNN需要1.6M的存儲空間。更低的存儲需求意味著我們可以使用存儲更少、成本更低的芯片來做語音識別。 同時DNN與HONN所需的算力相反,處理高強(qiáng)度模型單幀時,HONN需要超過100MOps,而一般的DNN模型需要3.2MOPs的算力。兩者相差超過30倍。對于神經(jīng)網(wǎng)絡(luò)來說,模型所需的算力決定了模型識別率的上限。 相對安靜的環(huán)境下兩者之間差別不大,但是當(dāng)信噪比進(jìn)一步降低時,基于HONN的方法識別優(yōu)勢非常明顯。 正是依托于AI降噪技術(shù)+HONN神經(jīng)網(wǎng)絡(luò),探境的Voitist音旋風(fēng)611,可以覆蓋絕大部分的生活場景,無懼各種噪音干擾。 然而信噪比還有一種更嚴(yán)苛的情況,即0dB和負(fù)dB,望詞知意,0dB意味著噪聲和信號強(qiáng)度一樣,甚至噪聲比語音信號還要強(qiáng)。探境如何解決這一問題呢? 端到端雙麥加持攻克0dB環(huán)境 “生活中超強(qiáng)噪音在所難免,噪聲和距離不該成為阻礙我們享受AI科技的絆腳石。為了提升低這些場景下的識別率,還需要使用麥克風(fēng)陣列來增強(qiáng)語音信號。探境在雙麥算法上有自己的獨(dú)門絕技—FCSP雙麥識別算法。” 傳統(tǒng)的麥克風(fēng)陣列處理算法有幾個缺點(diǎn),首先在語音信號增強(qiáng)模塊,波束成形依賴于聲源定位(DOA),DOA依賴于單麥克喚醒詞檢測。遠(yuǎn)場環(huán)境喚醒詞檢測使用單麥信號不用增強(qiáng)后的信號,會影響最終的喚醒率。 其次,傳統(tǒng)的陣列處理算法包含降噪、信號增強(qiáng)和識別多個環(huán)節(jié),這些環(huán)節(jié)并不以降低識別率為優(yōu)化目標(biāo),優(yōu)化目標(biāo)為提高人耳聽覺的舒適度和最終的識別率并不完全等價,會出現(xiàn)不適配的情況。 再次,由于整套流程對麥克風(fēng)以及電容元器件的一致性要求非常高,提高了物料成本。“有時候大家在實(shí)驗(yàn)室做得很好,但是量產(chǎn)后發(fā)現(xiàn)識別率變差,就是因?yàn)椴ㄊ尚魏吐曉炊ㄎ坏囊蟾?,一旦出現(xiàn)了波動,會影響識別效果。” 另外,波束成形算法原理是增強(qiáng)特定方向波束內(nèi)的信號強(qiáng)度,衰減波束外的信號幅度。當(dāng)干擾聲源和目標(biāo)聲源方向非常接近的時候,兩者在同一個波束內(nèi),信號和噪聲同時被增強(qiáng),無法提升信噪比。 因此,傳統(tǒng)的麥克風(fēng)陣列處理算法效果并不理想。 “為了克服傳統(tǒng)分模塊語音增強(qiáng)算法的這些缺點(diǎn),我們設(shè)計出了基于FCSP的端到端AI雙麥算法。”李同治對記者表示。FCSP(FrequencyComplex Subspace Projection)是探境自研的頻域復(fù)數(shù)子空間投影算法的簡稱。 這個算法直接輸入陣列信號,輸出的是最終的識別結(jié)果,中間部分全部交給基于深度學(xué)習(xí)的AI算法來處理,不再使用傳統(tǒng)的數(shù)字信號處理方法。信號增強(qiáng)與識別模塊整體以降低識別錯誤率為目標(biāo)進(jìn)行優(yōu)化,避免了語音增強(qiáng)與語音識別模塊錯配的問題。 另外,在模型訓(xùn)練期間,采取了“注意力增強(qiáng)”的學(xué)習(xí)方法,能夠靈敏的檢測到喚醒詞和命令詞,即使干擾信號與目標(biāo)信號方向接近,也能靈敏的進(jìn)行喚醒和識別。 “這個類似于在一個嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應(yīng)過來?!崩钔巫隽艘粋€形象的比喻。 “端到端”是目前國際上最前沿的處理算法。一些大廠如亞馬遜、谷歌公司,也是通過類似的方法。據(jù)媒體報道,谷歌公司采用了Factored Model in Frequency的算法,相對錯誤率降低至16%,雙麥達(dá)到了傳統(tǒng)算法7麥的識別率。探境科技采取了頻域復(fù)數(shù)子空間投影,抗噪性能強(qiáng),在信噪比為0dB時,相對于傳統(tǒng)的處理算法,相對識別錯誤率降低超過20%。 通過AI語音算法+HONN神經(jīng)網(wǎng)絡(luò)模型來提升識別率,再通過FCSP“端到端”的雙麥處理算法簡化識別流程,降低最終識別錯誤率,探境的語音算法實(shí)現(xiàn)了跨越式的升級。 當(dāng)然,AI芯片不可能脫離芯片只談算法。性能優(yōu)異的算法,一定需要算力強(qiáng)勁且通用性強(qiáng)的AI芯片來支持,才能展現(xiàn)出強(qiáng)悍的實(shí)力。 探境自研的SFA架構(gòu),以存儲驅(qū)動計算,具有能效比高、資源利用率高、通用性強(qiáng)等特點(diǎn)。在SFA架構(gòu)上實(shí)現(xiàn)深度學(xué)習(xí)時,只需要一個較高層次的神經(jīng)網(wǎng)絡(luò)描述。SFA的編譯器首先將這個神經(jīng)網(wǎng)絡(luò)進(jìn)行全部融合,然后根據(jù)具體架構(gòu)實(shí)現(xiàn)的規(guī)模產(chǎn)生一個統(tǒng)一的存儲流圖,再進(jìn)行存儲節(jié)點(diǎn)的時空映射,最后根據(jù)各個節(jié)點(diǎn)之間的計算類型配置計算單元,組合起來形成一個統(tǒng)一的固件供SFA控制器使用。 在28nm常規(guī)工藝芯片的對比測試中,SFA架構(gòu)在乘法器數(shù)目相同情況下,結(jié)果如下表。(DRAM為LPDDR4)。
注:測試方法為帶有卷積加速器擴(kuò)展指令的DSP模式與SFA架構(gòu)模式的對比 這意味著SFA架構(gòu)所采用的各種微觀和宏觀調(diào)度算法,比較“類CPU架構(gòu)”采用的基于總線和指令集的映射方法,在近似存儲量、近似算力、近似外部存儲帶寬、近似功耗約束的前提下,可以獲得8~12倍的利用率收益。 “SFA(存儲優(yōu)先)架構(gòu)是探境的產(chǎn)品基石,正是借助SFA的優(yōu)勢,我們的AI芯片產(chǎn)品才能‘裂變式’的推出,大大加快了探境的商業(yè)化落地速度。”探境CEO魯勇這樣評價SFA架構(gòu)的意義。 多種產(chǎn)品規(guī)格實(shí)現(xiàn)百萬級出貨 探境首次曝光了由低功耗系列、主打系列、旗艦系列組成的三大系列、6顆AI芯片組成的產(chǎn)品矩陣。 除了支持AI雙麥的Voitist音旋風(fēng)612之外,還包括在離線一體的Voitist音旋風(fēng)621、以及語音芯片的旗艦產(chǎn)品——可支持本地NLP的音旋風(fēng)7系列。 探境目前擁有約30家合作伙伴,出貨量已達(dá)百萬級別。探境的戰(zhàn)略合作伙伴關(guān)系既有美的、海爾等智能家居制造的大廠,也有像世強(qiáng)科技這樣在垂直領(lǐng)域頗具影響力的渠道商。據(jù)透露知名智能家居制造商阿凡達(dá)智控也剛剛與探境達(dá)成合作。 據(jù)魯勇透露,未來探境還會將語音產(chǎn)品進(jìn)行二次升級,推出更多在線離線一體化方案。 “探境不僅僅是一個語音芯片公司,而是一家語音、圖像整體結(jié)合的AI芯片公司。AI芯片的蛋糕非常大,探境希望可以聯(lián)合上下游一起,開發(fā)生態(tài),開放SDK和工具鏈,不僅僅是大家可以直接使用我們的產(chǎn)品,我們也希望有大量的合作伙伴,完成更多的場景開發(fā)?!濒斢孪蛴浾弑硎?。 另外,探境公布了首個圖像芯片的IPS/W高達(dá)800,是目前已知圖像芯片中最高的。在已公布的發(fā)展戰(zhàn)略中,探境還瞄準(zhǔn)了工業(yè)視覺、新零售、安防、輔助駕駛等市場。這并不畫餅充饑,據(jù)魯勇介紹,探境的圖像芯片在2019年Q4就已經(jīng)流片成功,圖像的某些領(lǐng)域甚至已經(jīng)開始產(chǎn)生營收了。 魯勇認(rèn)為,AI芯片這一領(lǐng)域不像手機(jī)APP那樣,瞬間可以憑一款應(yīng)用獲得數(shù)百萬的用戶,AI芯片更像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達(dá)終點(diǎn),誰在中途不走岔路。 探境作為創(chuàng)業(yè)公司,將從智能家居領(lǐng)域開始,先打好地基,再逐漸加碼,等待市場大潮的到來。 |
|