10行內(nèi)Python代碼實現(xiàn)語音識別

gfergfer 2023-08-07 發(fā)布于遼寧

展開全文

要調(diào)用百度AI開放平臺的API，首先需要一個百度賬號。

登錄https://ai.baidu.com/，注冊用戶，然后創(chuàng)建應(yīng)用。

創(chuàng)建應(yīng)用完成后，進入管理頁面，可以看到應(yīng)用對應(yīng)的 “AppID”、“API Key”與“Secret Key”，這些信息在調(diào)用語音識別需要提供。

創(chuàng)建了應(yīng)用，我們便可以調(diào)用接口實現(xiàn)語音識別了。相關(guān)的文檔在這個網(wǎng)址：

https://ai.baidu.com/ai-doc

文檔中對于使用不同編程語言的調(diào)用方法做了詳細說明。

使用Python調(diào)用該接口之前，需要安裝一個外部庫，

pip install baidu-aip -i https://pypi.tuna./simple

接下來進行進行客戶端的創(chuàng)建，在Python編輯器中輸入以下語句：

from aip import AipSpeech
''' 你的 APPID AK SK '''APP_ID = '你的 App ID'API_KEY = '你的 Api Key'SECRET_KEY = '你的 Secret Key'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

其中，“AppID”、“API Key”與“Secret Key”都可以從我們剛剛創(chuàng)建的應(yīng)用中得到。這幾行代碼便實現(xiàn)了一個可以與百度AI開放平臺交互的客戶端。

接下來進行文件的讀取，這部分使用Python的IO操作：

# 讀取文件def get_file_content(filePath): with open(filePath, 'rb') as audio: return audio.read()

接下來，便是驚心動魄的語音識別過程了：

# 識別本地文件res= client.asr(get_file_content('test.wav'), 'wav', 16000, {'dev_pid': 1536, })print(res['result'][0])

在這里，我們提前錄制了一個語音文件“test.wav”并放在當前Python文件的同一目錄下。

client.asr(get_file_content('test.wav'), 'wav', 16000, {'dev_pid': 1536, })

這一行代碼實現(xiàn)了具體的語音識別過程，其中，get_file_content('test.wav')表示“test.wav”中的內(nèi)容，'wav'表示文件類型，16000表示采樣率,{'dev_pid': 1536, }表示識別類型為普通話。下面的print(res['result'][0])可以實現(xiàn)識別結(jié)果的輸出。

所有的代碼展示如下：

from aip import AipSpeech
''' 你的 APPID AK SK '''APP_ID = '你的 App ID'API_KEY = '你的 Api Key'SECRET_KEY = '你的 Secret Key'client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
# 讀取文件def get_file_content(filePath):    with open(filePath, 'rb') as audio:        return audio.read()# 識別本地文件res = client.asr(get_file_content('test.wav'), 'wav', 16000, {'dev_pid': 1536, })print(res['result'][0])