前期介紹過很多語音合成的模型,比如,微軟語音合成大模型,其模型隨著技術(shù)的不斷發(fā)展,模型說話的聲音也越來越像人類,雖然 seed-tts 可以進行語音合成等功能,但是其模型并沒有開源,本期介紹的MaskGCT文本轉(zhuǎn)語音模型是一個開源的模型,不僅可以生成語音,還可以模仿任何人說話的聲音,且可以進行語氣的轉(zhuǎn)換。

大規(guī)模的文本轉(zhuǎn)語音(TTS)系統(tǒng)通常被劃分為自回歸系統(tǒng)與非自回歸系統(tǒng)。自回歸系統(tǒng)雖隱式地對時長予以建模,然而在魯棒性層面呈現(xiàn)出一定的短板,且時長的可控性匱乏。非自回歸系統(tǒng)于訓(xùn)練期間,需要文本和語音之間的顯性對齊信息,并對語言單位(諸如音素)的時長進行預(yù)測,此舉或許會折損其自然度。而 Masked Generative Code Transformer(MaskGCT),此乃一個全然非自回歸的 TTS 模型,它既無需文本和語音監(jiān)督之間的顯性對齊信息,也無需音素級時長預(yù)測。
MaskGCT 屬于一個兩階段模型:在第一階段,該模型憑借文本預(yù)測從語音自監(jiān)督學(xué)習(xí)(SSL)模型中萃取的語義標記;在第二階段,模型對以這些語義標記為條件的聲學(xué)標記予以預(yù)測。MaskGCT 遵循掩碼和預(yù)測的學(xué)習(xí)范式。在訓(xùn)練進程中,MaskGCT 會依據(jù)給定的條件和提示,學(xué)習(xí)預(yù)測被遮蔽的語義或聲學(xué)標記。在推理過程里,該模型能夠以并行的方式生成指定長度的標記。針對 10 萬小時的自然語音展開的實驗表明,MaskGCT 在質(zhì)量、相似度以及可理解性等方面,皆勝于當(dāng)下最為先進的零樣本 TTS 系統(tǒng)。

MaskGCT 由四個主要部分組成:
(1)語音語義表示編解碼器將語音轉(zhuǎn)換為語義標記;
(2)文本到語義模型使用文本預(yù)測語義標記并提示語義標記;
(3)語義到聲學(xué)模型根據(jù)語義標記預(yù)測聲學(xué)標記;
(4)語音聲學(xué)編解碼器根據(jù)聲學(xué)標記重建語音波形。

MaskGCT模型根據(jù)用戶提供的聲音與文本,識別輸入數(shù)據(jù)的語音語調(diào),通過輸入其他的文本,合成具有相同語音語調(diào)的聲音。

在很多自媒體創(chuàng)作中,很多配音都是合成的聲音,若是自己拿稿進行配音,不僅需要重復(fù)調(diào)整,還需要花費大量的時間與精力,而使用MaskGCT模型,就沒有這個擔(dān)憂,直接讓模型學(xué)習(xí)下自己的語音語調(diào),然后就可以一次性輸入自己的文案,讓模型進行配音了,這樣就大大節(jié)省了人工配音的時間成本(更不需要一個專業(yè)的錄音設(shè)備)

MaskGCT模型不僅可以模仿說話者的聲音,也可以根據(jù)需要調(diào)整說話人的情緒,比如高興的,生氣等,這樣就可以輸入MaskGCT模型多段文案,然后控制每段文案的情緒,就可以得到完美的配音了。

當(dāng)然MaskGCT模型也可以針對原始語音進行調(diào)整修改,可以直接修改原始語音的文案,讓MaskGCT模型生成其他的語音。更多使用場景可以到MaskGCT模型 GitHub 上面查看。而官方也放出了在線體驗地址,可以進行在線體驗。

https://maskgct./
https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct/README.md
https://voice./