乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      Google,微軟,科大訊飛的語音識別引擎對比

       quasiceo 2015-08-03
      Google提供了一個在線語音識別的API接口,通過該API可以進(jìn)行中文、英文等語言的識別。
      API地址:http://www.google.com/speech-api/v1/recognize?xjerr=1&client=chromium&lang=zh-CN&maxresults=1

      —參數(shù)解釋

      xjerr:錯誤標(biāo)準(zhǔn)

      client: 客戶端類型

      lang:待識別語言類型,en-US是英文,中文為zh-CN,

      maxresults:最大返回識別結(jié)果數(shù)量

      —識別基本流程:

      從音頻輸入設(shè)備獲取原始音頻并編碼或直接調(diào)用音頻文件。

      將音頻POST至接口地址。

      分析處理返回的JSON并得出結(jié)果。

      —請求接口

      地址:如前

      請求方式:http post

      請求數(shù)據(jù):編碼后的音頻數(shù)據(jù)

      音頻編碼格式:wav、speex或flac。

      音頻采樣頻率:8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz

      —主要優(yōu)點

      語音識別引擎龐大,識別精度很高,適用于文本語音識別。提供多國語言的語音識別。

      任何平臺都可以進(jìn)行訪問,容易使用。

      —主要缺點

      API未開放,未能獲知具體開發(fā)細(xì)節(jié)。

      識別引擎位于服務(wù)器端,識別的速度和網(wǎng)絡(luò)質(zhì)量有關(guān),識別速度較慢。

      待識別音頻的格式、大小、時長的限制。





      MicrosoftSpeech SDK
      —Microsoft Speech SDK是微軟公司提供在Windows平臺上開發(fā)語音識別和語音合成應(yīng)用程序的開發(fā)包,簡稱為SAPI,內(nèi)含SR(Speech Recognition)和SS(Speechsynthesis)引擎,因此可以很方便地在自己的應(yīng)用程序中添加這些功能。
      —該語音引擎支持多種語音的識別和朗讀,包括英文、日文、中文等。微軟推出的應(yīng)用編程接口API,雖然現(xiàn)在不是業(yè)界標(biāo)準(zhǔn),但是應(yīng)用比較廣泛。
      —識別基本流程:
      從音頻輸入設(shè)備獲取原始音頻并編碼或直接調(diào)用音頻文件。
      設(shè)定語音引擎和識別上下文等內(nèi)容,配置本地訪問屬性。
      分析處理得到的文本結(jié)果
      —請求接口
      請求方式:本地訪問
      請求數(shù)據(jù):編碼后的音頻數(shù)據(jù)
      音頻編碼格式:wav
      音頻采樣頻率:8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz
      —主要優(yōu)點
      基于COM組件,便于與DirectShow中的組件整合。
      語音識別引擎位于本地,便于訪問,識別速度較快。
      待識別音頻的大小、時長無限制。
      —主要缺點
      缺少其他平臺的支持,僅支持windows平臺。
      語音識別引擎不夠龐大,識別精準(zhǔn)度較低。
      僅提供中日英三種語言的語音識別功能。



      iFLY Mobile Speech Platform 2.0
      —科大訊飛為開發(fā)者提供了語音應(yīng)用開發(fā)平臺,提供語音合成、語音聽寫、語音識別、聲紋識別等服務(wù),為語音應(yīng)用開發(fā)愛好者提供方便易用的開發(fā)接口,使得用戶能夠基于該開發(fā)接口進(jìn)行多種語音應(yīng)用開發(fā)。
      —其主要功能有:
      實現(xiàn)基于HTTP協(xié)議的語音應(yīng)用服務(wù)器,支持語音合成、語音聽寫、語音識別、聲紋識別等服務(wù)
      提供基于移動平臺和PC上的語音客戶端子系統(tǒng),內(nèi)部集成音頻處理和音頻編解碼模塊,提供關(guān)于語音合成、語音聽寫、語音識別和聲紋識別完善的API
      —只需要在http://open.上申請成為開發(fā)者,便可以下載相關(guān)的SDK和開發(fā)文檔。

      —主要優(yōu)點
      支持平臺豐富,各個平臺上都有相應(yīng)的詳細(xì)SDK文檔
      語音識別引擎較龐大,對中文的識別精度很高。
      具端點檢測功能,便于劃分識別文本的句子。
      —主要缺點
      識別引擎位于服務(wù)器端,須遠(yuǎn)程訪問,識別速度較慢。
      對語言支持不如Google,目前僅支持中文聽寫。
      需要使用1028端口,在某些地方會有使用限制。
      當(dāng)軟件用戶達(dá)到百萬次后,需要開始收費。



      —測試流程:
      從麥克風(fēng)輸入語音并編碼或直接調(diào)用音頻文件,調(diào)用的音頻文件主要是從電影或是新聞節(jié)目中提取其音頻,前者主要體現(xiàn)識別語音口音的多樣性,后者是體現(xiàn)識別語音口音的正規(guī)性,從麥克風(fēng)輸入體現(xiàn)對針對某個人特定的口音。主要測試音頻文件格式為wav和flac(flac需要由相同采樣率的wav轉(zhuǎn)換而來)測試采樣率有8KHz、16KHz、24KHz、32KHz、44.1KHz。
      分析各個引擎的識別準(zhǔn)確度和花費時間時,選取了5段時長為25S、平均長度為150個中文字符的音頻作為其測試音頻,記錄識別正確的文字和花費時間,準(zhǔn)確度以識別正確的文字/文本總字?jǐn)?shù),同時包含識別出的單獨的字、詞,花費時間對于非本地引擎需要考慮音頻傳送和結(jié)果返回的時間。
      分析各個引擎中語速對識別準(zhǔn)確度的影響,針對同一文本,測試不同語速(分為慢速、中速、快速)的音頻,且時間均控制在25S,僅選取了24KHz和44.1KHz音頻進(jìn)行測試,因為由測試準(zhǔn)確度的測試中,已經(jīng)得出在24KHz和44.1KHz情況下,識別精確度較高。
      分別用google、Microsoft和科大訊飛語音識別引擎對測試音頻文件進(jìn)行測試。其中使用google和科大訊飛引擎需通過訪問其相關(guān)服務(wù)器,而Microsoft的語音識別引擎則是從本地進(jìn)行訪問。
      對所得結(jié)果進(jìn)行數(shù)據(jù)分析,列出數(shù)據(jù)表格,分析各自引擎的優(yōu)缺點。


      測試結(jié)果:
      語速對識別時間的影響
                              慢速                 中速                   快速
      Google              8s                   8.94s               10.125s
      SAPI                6.06s               6.63s                 5.375s
      科大訊飛          34.6s               35s                     23.6s
        語速對識別精度的影響
                              慢速                 中速                   快速
      Google           78.93%           77.52%               11.58%
      SAPI               28.7%             42.79%               6.81%
      科大訊飛         78.2%             80.48%              15.53%

      結(jié)果評價:
      —1.Google
      Google語音識別引擎可以識別wav格式音頻,但是測試所用wav均為非原始wav故識別精度很低,若將其轉(zhuǎn)換為flac后則識別精度增加。對于flac格式中文音頻,快速語音準(zhǔn)確率達(dá)到11.58%,中速語音準(zhǔn)確率達(dá)到72.52%,平均花費時間8.94S。慢速語音準(zhǔn)確率達(dá)到78.93%,平均花費時間為8S。對于英文音頻,快速語音準(zhǔn)確率達(dá)到40.22%,中速語音準(zhǔn)確率達(dá)到89.2%,慢速語音準(zhǔn)確率達(dá)到80.58%,平均花費時間各為9.2s,8.5s和9.9s。
      不同的音頻采樣率對識別效果和花費時間有影響,識別效果主要體現(xiàn)在音頻中間部分名詞和音頻末端1s的識別結(jié)果,于中文而言新聞類平均準(zhǔn)確率為72.37%,電影類平均準(zhǔn)確率為44.36%。于英文而言,電影類平均準(zhǔn)確率為35.3%。平均花費時間采樣率越大,識別時間越短,如24KHz和44.1KHz的同樣內(nèi)容音頻,后者時間少1S左右。
      對于google語音識別引擎,由于語速過快會導(dǎo)致識別不準(zhǔn)確,會出現(xiàn)多個音識別為一個字的現(xiàn)象,故所用時間較短,但是準(zhǔn)確度較差。而語速過慢時,雖然語音的特征更加明晰會使得準(zhǔn)確率上升,但是字與字之間的聯(lián)系不密切,會出現(xiàn)本該是一個詞卻識別為同音的兩個字,導(dǎo)致準(zhǔn)確率下降,故其平均準(zhǔn)確率和中速識別率相當(dāng),另一方面是所需識別的字較少,故識別時間相對中速短。
      對于視頻流提取的音頻和麥克風(fēng)輸入人聲的識別,麥克風(fēng)輸入人聲的平均準(zhǔn)確度高于視頻流中的的平均準(zhǔn)確度,原因是視頻流中的人聲會帶有各種口音一般帶有背景噪音,而麥克風(fēng)輸入人聲是單一的穩(wěn)定的,背景噪音較小。準(zhǔn)確度順序大致為:新聞類>特定人>電影類,但不能忽略電影中也存在普通話標(biāo)準(zhǔn)發(fā)音。對于時間長度為20s以上的快速語音,測試期間無法識別,一直未能返回正確結(jié)果。不知原因。對于特定人輸入的音頻,音頻頭尾都可正確識別。若是輸入視頻流中音頻,頭尾1S的內(nèi)容都不能很好的識別,容易出錯。
      Google語音識別引擎數(shù)據(jù)庫豐富,可以識別大部分日常用語,還包括當(dāng)下流行詞匯,人名,地名等。對于新聞類詞匯判別比較準(zhǔn),而特定專業(yè)類名詞通常以同音字代替。
      對于google識別的時間包括網(wǎng)絡(luò)發(fā)送音頻數(shù)據(jù)包時間,識別花費時間,返回結(jié)果時間。由于引擎位于服務(wù)器,需要通過網(wǎng)絡(luò)訪問,故網(wǎng)絡(luò)質(zhì)量在識別時間上占據(jù)極重要的位置,識別過程中經(jīng)常會發(fā)生訪問延遲、訪問超時和請求無效等錯誤,故應(yīng)該在網(wǎng)絡(luò)良好的條件下使用google引擎,這也是非本地語音引擎庫的缺點。同時音頻文件超過1M時,也無法正確返回結(jié)果,估計是服務(wù)器的文件限制。
      若考慮語音的精準(zhǔn)度,則傾向于選擇google語音識別引擎。



      —2.SAPI
      微軟的SAPI語音識別引擎可以識別任意采樣率的wav格式音頻,當(dāng)采樣率比較低時如僅為8KHz,音頻內(nèi)容采樣過程中會缺失,故識別不準(zhǔn)確,理論上來說,采樣率越高,識別精度越好。但是采樣率超過一定值后,改進(jìn)并不明顯。經(jīng)過測試得出以44.1KHz采樣率識別精度較好,且花費時間較短??焖僬Z音準(zhǔn)確率為6.81%,中速語音準(zhǔn)確率達(dá)到42.79%,平均花費時間6.63S。慢速語音準(zhǔn)確率達(dá)到28.7%,平均花費時間為6.06S。識別效果主要體現(xiàn)在音頻中間部分名詞和音頻末端1s的識別結(jié)果,新聞類平均準(zhǔn)確率51.48%,電影類平均準(zhǔn)確率為41.43%,特定人平均準(zhǔn)確率為53.06%。
      對于特定人輸入的音頻,音頻頭尾都可正確識別。若是輸入視頻流中音頻,頭尾1S的內(nèi)容容易漏識別,且漏識別內(nèi)容并非不顯示,而是以其他文字代替諸如“他、淡”等字,影響了識別結(jié)果的理解。
      微軟語音識別引擎數(shù)據(jù)庫位于本地,訪問方便、快捷,無需考慮網(wǎng)絡(luò)延遲、音頻文件過大無法傳送等問題。其缺點便是本地數(shù)據(jù)庫的大小限制了其識別精度,需要通過長時間的訓(xùn)練才有可能達(dá)到比較高的精準(zhǔn)度,而相比之下google引擎數(shù)據(jù)庫可以收集網(wǎng)絡(luò)上的所有資料,訓(xùn)練文本并不缺乏,容易達(dá)到很高的精準(zhǔn)度。SAPI可以識別大部分日常用語和常用的新聞詞匯,但是對當(dāng)下流行詞匯,人名,地名識別精度很低,對特定專業(yè)類名詞通常也以同音字代替。


      —3.科大訊飛
      科大訊飛語音識別引擎僅可識別wav格式音頻,為了達(dá)到理想的效果,有諸如條件限制,如音頻須為采樣率16KHz、每采樣一點16bit、單聲道,且音頻長度小于90s。由于具有端點檢測功能,每句話的長度不宜過長。快速語音準(zhǔn)確率達(dá)到17.63%,平均花費時間29.2S。中速語音準(zhǔn)確率達(dá)到80.48%,平均花費時間35S。慢速語音準(zhǔn)確率達(dá)到78.2%,平均花費時間為34.6S。平均花費時間比另外兩個引擎多了許多,主要原因是其端點檢測功能,故一次能識別的語句長度有限制,需要分段識別,因此加長了識別的時間。
      端點檢測的好處是方便音頻中句子的分段,易于對對識別結(jié)果的理解。
      其引擎庫也是位于服務(wù)器,需要通過網(wǎng)絡(luò)訪問,識別的時間包括網(wǎng)絡(luò)發(fā)送音頻數(shù)據(jù)包時間,識別花費時間,返回結(jié)果時間。網(wǎng)絡(luò)質(zhì)量在識別時間上也占據(jù)極重要的位置,且其需要開啟80/1028端口后才能有效使用該引擎。待識別的音頻需要質(zhì)量清晰,一般對于網(wǎng)上流媒體而言,聲音質(zhì)量不高,識別較困難。


      以上的SAPI和科大訊飛的測試DEMO都是用他們SDK里自帶的。GOOGLE的C#代碼可參照http://www.cnblogs.com/eboard/archive/2012/02/29/speech-api.html
      另外介紹關(guān)于google語音識別的內(nèi)容還可以參照http://blog.csdn.net/dlangu0393/article/details/7214728本文中有轉(zhuǎn)載其小部分內(nèi)容。




      由于測試樣本數(shù)量并不算多,因此以上測試僅供參考。


        本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評論

        發(fā)表

        請遵守用戶 評論公約

        類似文章 更多