BreezyVoice 台灣口音語音合成

聯發創新基地全面開源 MediaTek Research Breeze 2 多模態基礎模型群，實現繁中 AI 助理

我看到這個，想玩其中的 mtkresearch/BreezyVoice 語音合成，在 Windows 上裝不起來，改用 WSL 就成功了。若有人想參考方法，我有簡單紀錄在 ChrisTorng/BreezyVoice/README.md 的開頭。

在我的 3070 NB 上跑，載入就要花 1:10，產出一小段五秒左右也要 0:11。看 GPU VRAM 8M 滿載，原本想可能有些是 CPU offload 了所以比較慢，但看 CPU 也不忙，大概還是排隊在 GPU 跑。雖然有 batch inference 程式，但看起來每次都要重新載入 (意即重新讀取參考來源語音並學習)，才能產出一次合成語音，而不是讀入並學習一次，可重覆產出不同字串的結果，感覺效率很低。稍微看程式，也不太確定是否真能多次產出，沒有再試下去了。

合成語音效果，有的一開始停頓兩秒才開始 (音檔一開頭就靜音兩秒)，有的中間有莫名其妙的短停頓 (不流暢)，有的在靜音階段有怪雜音 (似乎像呼吸? 但總之就是不自然)，也還是有稍微大陸口音的感覺。

附上原始範例來源音檔:

以及三個範例輸出:

這些是官方範例感覺比較正常，比較少上述的問題。也許是我的錄音品質較差?

我先前曾試過的 E2/F5-TTS，也附上相同參考音檔的結果:

這個語速較快 (可以調，我直接用預設)，開頭會有怪音，E2 中英混雜較差，大陸腔較重。

就我先前做語音交談的經驗來說，在最複雜的情境下，對方講完話，要趕快 STT/LLM/TTS 三步做完之後才能播放回答語音。因此語音前面的靜音時間最好是 0，也就是語音一開始播就要有聲音出來。像前面有開頭兩秒靜音的例子，就會導致有明顯回答遲緩的感覺。而且產出兩秒靜音，也是完全浪費 GPU 運算資源。我猜在預備訓練資料時可能沒有特別注意這個 (應該要能快速反應的) 目標，沒有特別處理這個問題。

另這個專案是由阿里巴巴 FunAudioLLM/CosyVoice 一代之延伸，有看到有人反應 Any Plans for CosyVoice 2 Upgrade or Dataset Release? 是否預計要支援 CosyVoice 2，但官方回覆是不保證。我覺得這種台灣自產的東西，經常就有這種跟不太上別人最新成果的問題，好像也很難克服。

我再由 CosyVoice2-0.5B - Studios 產出，結果覺得還不錯，倒也沒有明顯大陸口音:

(網頁播放只有一次，不曉得下載檔案為何播放兩次)