MaskGCT

前期介紹過很多語音合成的模型，比如，微軟語音合成大模型，其模型隨著技術(shù)的不斷發(fā)展，模型說話的聲音也越來越像人類，雖然 seed-tts 可以進行語音合成等功能，但是其模型并沒有開源，本期介紹的MaskGCT文本轉(zhuǎn)語音模型是一個開源的模型，不僅可以生成語音，還可以模仿任何人說話的聲音，且可以進行語氣的轉(zhuǎn)換。

大規(guī)模的文本轉(zhuǎn)語音（TTS）系統(tǒng)通常被劃分為自回歸系統(tǒng)與非自回歸系統(tǒng)。自回歸系統(tǒng)雖隱式地對時長予以建模，然而在魯棒性層面呈現(xiàn)出一定的短板，且時長的可控性匱乏。非自回歸系統(tǒng)于訓(xùn)練期間，需要文本和語音之間的顯性對齊信息，并對語言單位（諸如音素）的時長進行預(yù)測，此舉或許會折損其自然度。而 Masked Generative Code Transformer（MaskGCT），此乃一個全然非自回歸的 TTS 模型，它既無需文本和語音監(jiān)督之間的顯性對齊信息，也無需音素級時長預(yù)測。

MaskGCT 屬于一個兩階段模型：在第一階段，該模型憑借文本預(yù)測從語音自監(jiān)督學(xué)習(xí)（SSL）模型中萃取的語義標記；在第二階段，模型對以這些語義標記為條件的聲學(xué)標記予以預(yù)測。MaskGCT 遵循掩碼和預(yù)測的學(xué)習(xí)范式。在訓(xùn)練進程中，MaskGCT 會依據(jù)給定的條件和提示，學(xué)習(xí)預(yù)測被遮蔽的語義或聲學(xué)標記。在推理過程里，該模型能夠以并行的方式生成指定長度的標記。針對 10 萬小時的自然語音展開的實驗表明，MaskGCT 在質(zhì)量、相似度以及可理解性等方面，皆勝于當(dāng)下最為先進的零樣本 TTS 系統(tǒng)。

MaskGCT 由四個主要部分組成：

（1）語音語義表示編解碼器將語音轉(zhuǎn)換為語義標記；

（2）文本到語義模型使用文本預(yù)測語義標記并提示語義標記；

（3）語義到聲學(xué)模型根據(jù)語義標記預(yù)測聲學(xué)標記；

（4）語音聲學(xué)編解碼器根據(jù)聲學(xué)標記重建語音波形。

MaskGCT模型根據(jù)用戶提供的聲音與文本，識別輸入數(shù)據(jù)的語音語調(diào)，通過輸入其他的文本，合成具有相同語音語調(diào)的聲音。

在很多自媒體創(chuàng)作中，很多配音都是合成的聲音，若是自己拿稿進行配音，不僅需要重復(fù)調(diào)整，還需要花費大量的時間與精力，而使用MaskGCT模型，就沒有這個擔(dān)憂，直接讓模型學(xué)習(xí)下自己的語音語調(diào)，然后就可以一次性輸入自己的文案，讓模型進行配音了，這樣就大大節(jié)省了人工配音的時間成本（更不需要一個專業(yè)的錄音設(shè)備）

MaskGCT模型不僅可以模仿說話者的聲音，也可以根據(jù)需要調(diào)整說話人的情緒，比如高興的，生氣等，這樣就可以輸入MaskGCT模型多段文案，然后控制每段文案的情緒，就可以得到完美的配音了。

當(dāng)然MaskGCT模型也可以針對原始語音進行調(diào)整修改，可以直接修改原始語音的文案，讓MaskGCT模型生成其他的語音。更多使用場景可以到MaskGCT模型 GitHub 上面查看。而官方也放出了在線體驗地址，可以進行在線體驗。

https://maskgct./
https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct/README.md
https://voice./

乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

MaskGCT