要調(diào)用百度AI開放平臺的API,首先需要一個百度賬號。 登錄https://ai.baidu.com/,注冊用戶,然后創(chuàng)建應(yīng)用。 創(chuàng)建應(yīng)用完成后,進入管理頁面,可以看到應(yīng)用對應(yīng)的 “AppID”、“API Key”與“Secret Key”,這些信息在調(diào)用語音識別需要提供。 創(chuàng)建了應(yīng)用,我們便可以調(diào)用接口實現(xiàn)語音識別了。相關(guān)的文檔在這個網(wǎng)址:
文檔中對于使用不同編程語言的調(diào)用方法做了詳細說明。 使用Python調(diào)用該接口之前,需要安裝一個外部庫, pip install baidu-aip -i https://pypi.tuna./simple 接下來進行進行客戶端的創(chuàng)建,在Python編輯器中輸入以下語句:
其中,“AppID”、“API Key”與“Secret Key”都可以從我們剛剛創(chuàng)建的應(yīng)用中得到。這幾行代碼便實現(xiàn)了一個可以與百度AI開放平臺交互的客戶端。 接下來進行文件的讀取,這部分使用Python的IO操作: # 讀取文件 def get_file_content(filePath): with open(filePath, 'rb') as audio: return audio.read() 接下來,便是驚心動魄的語音識別過程了:
在這里,我們提前錄制了一個語音文件“test.wav”并放在當前Python文件的同一目錄下。 client.asr(get_file_content('test.wav'), 'wav', 16000, {'dev_pid': 1536, }) 這一行代碼實現(xiàn)了具體的語音識別過程,其中,get_file_content('test.wav')表示“test.wav”中的內(nèi)容,'wav'表示文件類型,16000表示采樣率,{'dev_pid': 1536, }表示識別類型為普通話。下面的print(res['result'][0])可以實現(xiàn)識別結(jié)果的輸出。 所有的代碼展示如下:
除去注釋一共十行,可以說非常方便耐用了。但是這個API也有一些缺點,比如待識別的錄音需要上傳完整的錄音文件,并且錄音文件時長不超過60s;此外,對單個應(yīng)用的每秒查詢率也有一定限制。感興趣的朋友可以嘗試一下。 |
|