- 發佈於
BreezyVoice 台灣口音語音合成
趕上先進模型進度?
- 作者

- 作者
- ChrisTorng

聯發創新基地全面開源 MediaTek Research Breeze 2 多模態基礎模型群,實現繁中 AI 助理
我看到這個,想玩其中的 mtkresearch/BreezyVoice 語音合成,在 Windows 上裝不起來,改用 WSL 就成功了。若有人想參考方法,我有簡單紀錄在 ChrisTorng/BreezyVoice/README.md 的開頭。
在我的 3070 NB 上跑,載入就要花 1:10,產出一小段五秒左右也要 0:11。看 GPU VRAM 8M 滿載,原本想可能有些是 CPU offload 了所以比較慢,但看 CPU 也不忙,大概還是排隊在 GPU 跑。雖然有 batch inference 程式,但看起來每次都要重新載入 (意即重新讀取參考來源語音並學習),才能產出一次合成語音,而不是讀入並學習一次,可重覆產出不同字串的結果,感覺效率很低。稍微看程式,也不太確定是否真能多次產出,沒有再試下去了。
合成語音效果,有的一開始停頓兩秒才開始 (音檔一開頭就靜音兩秒),有的中間有莫名其妙的短停頓 (不流暢),有的在靜音階段有怪雜音 (似乎像呼吸? 但總之就是不自然),也還是有稍微大陸口音的感覺。
附上原始範例來源音檔:
以及三個範例輸出:
這些是官方範例感覺比較正常,比較少上述的問題。也許是我的錄音品質較差?
我先前曾試過的 E2/F5-TTS,也附上相同參考音檔的結果:
這個語速較快 (可以調,我直接用預設),開頭會有怪音,E2 中英混雜較差,大陸腔較重。
就我先前做語音交談的經驗來說,在最複雜的情境下,對方講完話,要趕快 STT/LLM/TTS 三步做完之後才能播放回答語音。因此語音前面的靜音時間最好是 0,也就是語音一開始播就要有聲音出來。像前面有開頭兩秒靜音的例子,就會導致有明顯回答遲緩的感覺。而且產出兩秒靜音,也是完全浪費 GPU 運算資源。我猜在預備訓練資料時可能沒有特別注意這個 (應該要能快速反應的) 目標,沒有特別處理這個問題。
另這個專案是由阿里巴巴 FunAudioLLM/CosyVoice 一代之延伸,有看到有人反應 Any Plans for CosyVoice 2 Upgrade or Dataset Release? 是否預計要支援 CosyVoice 2,但官方回覆是不保證。我覺得這種台灣自產的東西,經常就有這種跟不太上別人最新成果的問題,好像也很難克服。
我再由 CosyVoice2-0.5B - Studios 產出,結果覺得還不錯,倒也沒有明顯大陸口音:
(網頁播放只有一次,不曉得下載檔案為何播放兩次)