乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      絕佳的ASR學(xué)習(xí)方案:這是一套開(kāi)源的中文語(yǔ)音識(shí)別系統(tǒng)

       taotao_2016 2019-02-11

      作者:AI檸檬博主


      語(yǔ)音識(shí)別目前已經(jīng)廣泛應(yīng)用于各種領(lǐng)域,那么你會(huì)想做一個(gè)自己的語(yǔ)音識(shí)別系統(tǒng)嗎?這篇文章介紹了一種開(kāi)源的中文語(yǔ)音識(shí)別系統(tǒng),讀者可以借助它快速訓(xùn)練屬于自己的中文語(yǔ)音識(shí)別模型,或直接使用預(yù)訓(xùn)練模型測(cè)試效果。所以對(duì)于那些對(duì)語(yǔ)音識(shí)別感興趣的讀者而言,這是一個(gè)學(xué)習(xí)如何搭建 ASR 系統(tǒng)的極好資料。


      ASRT 是一套基于深度學(xué)習(xí)實(shí)現(xiàn)的語(yǔ)音識(shí)別系統(tǒng),全稱為 Auto Speech Recognition Tool,由 AI 檸檬博主開(kāi)發(fā)并在 GitHub 上開(kāi)源(GPL 3.0 協(xié)議)。本項(xiàng)目聲學(xué)模型通過(guò)采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和連接性時(shí)序分類(CTC)方法,使用大量中文語(yǔ)音數(shù)據(jù)集進(jìn)行訓(xùn)練,將聲音轉(zhuǎn)錄為中文拼音,并通過(guò)語(yǔ)言模型,將拼音序列轉(zhuǎn)換為中文文本。基于該模型,作者在 Windows 平臺(tái)上實(shí)現(xiàn)了一個(gè)基于 ASRT 的語(yǔ)音識(shí)別應(yīng)用軟件它同樣也在 GitHub 上開(kāi)源了。


      • ASRT 項(xiàng)目主頁(yè):https://asrt.

      • GitHub 項(xiàng)目地址:https://github.com/nl8590687/ASRT_SpeechRecognition


      這個(gè)開(kāi)源項(xiàng)目主要用于語(yǔ)音識(shí)別的研究,作者希望它可以一步步發(fā)展為極高準(zhǔn)確率的 ASR 系統(tǒng)。此外,因?yàn)槟P秃陀?xùn)練代碼都是開(kāi)源的,所以能節(jié)省開(kāi)發(fā)者很多時(shí)間。同樣,如果開(kāi)發(fā)者想要根據(jù)需求修改這個(gè)項(xiàng)目,那也非常簡(jiǎn)單,因?yàn)?ASRT 的代碼都是經(jīng)過(guò)高度封裝的,所有模塊都是可以自定義的。如下展示了該項(xiàng)目的一些特征:



      系統(tǒng)流程


      特征提?。簩⑵胀ǖ?wav 語(yǔ)音信號(hào)通過(guò)分幀加窗等操作轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)需要的二維頻譜圖像信號(hào),即語(yǔ)譜圖。


      聲學(xué)模型:基于 Keras 和 TensorFlow 框架,使用這種參考了 VGG 的深層的卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型,并訓(xùn)練。



      CTC 解碼:在語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型輸出中,往往包含了大量連續(xù)重復(fù)的符號(hào),因此,我們需要將連續(xù)相同的符號(hào)合并為同一個(gè)符號(hào),然后再去除靜音分隔標(biāo)記符,得到最終實(shí)際的語(yǔ)音拼音符號(hào)序列。



      語(yǔ)言模型:使用統(tǒng)計(jì)語(yǔ)言模型,將拼音轉(zhuǎn)換為最終的識(shí)別文本并輸出。拼音轉(zhuǎn)文本本質(zhì)被建模為一條隱含馬爾可夫鏈,這種模型有著很高的準(zhǔn)確率。


      使用流程


      如果讀者希望直接使用預(yù)訓(xùn)練的中文語(yǔ)音識(shí)別系統(tǒng),那么直接下載 Release 的文件并運(yùn)行就好了:


      下載地址:https://github.com/nl8590687/ASRT_SpeechRecognition/releases/tag/v0.4.2


      如果讀者希望修改某些模塊,或者在新的數(shù)據(jù)集上進(jìn)行訓(xùn)練,那么我們可以復(fù)制整個(gè)項(xiàng)目到本地,再做進(jìn)一步處理。首先我們通過(guò) Git 將本項(xiàng)目復(fù)制到本地,并下載訓(xùn)練所需要的數(shù)據(jù)集。作者在項(xiàng)目 README 文件中提供了兩個(gè)數(shù)據(jù)集,即清華大學(xué) THCHS30 中文語(yǔ)音數(shù)據(jù)集和 AIShell-1 開(kāi)源版數(shù)據(jù)集。


      $ git clone https://github.com/nl8590687/ASRT_SpeechRecognition.git


      THCHS30 和 ST-CMDS 國(guó)內(nèi)下載鏡像:http://cn-mirror./


      在下載數(shù)據(jù)集后,我們需要將 datalist 目錄下的所有文件復(fù)制到 dataset 目錄下,也就是將其與數(shù)據(jù)集放在一起:


      $ cp -rf datalist/* dataset/


      在開(kāi)始訓(xùn)練前,我們還需要安裝一些依賴庫(kù):


      • python_speech_features

      • TensorFlow

      • Keras

      • wave


      當(dāng)然,其它如 NumPy、Matplotlib、Scipy 和 h5py 等常見(jiàn)的科學(xué)計(jì)算庫(kù)也都是需要的。一般有這些包后,環(huán)境應(yīng)該是沒(méi)什么問(wèn)題的,有問(wèn)題也可以根據(jù)報(bào)錯(cuò)安裝對(duì)應(yīng)缺少的庫(kù)。


      訓(xùn)練模型可以執(zhí)行命令行:


      $ python3 train_mspeech.py


      測(cè)試模型效果可以運(yùn)行:


      $ python3 test_mspeech.py


      測(cè)試之前,請(qǐng)確保代碼中填寫(xiě)的模型文件路徑存在。最后,更多的用法和特點(diǎn)可以查看原 GitHub 項(xiàng)目和文檔。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多