訓練一個 TTS 語音模型,最大的門檻從來不是算力——而是錄音。你需要同一個人清晰地念幾千句話,品質穩定、沒有背景噪音。對 AI Vtuber 創作者、遊戲獨立開發者來說,這條路要嘛太貴,要嘛根本做不到。
Voice Design Cloner 的解法是:連錄音都不需要。用 AI 設計一個聲音,再用這個聲音生成全部訓練語料。
三階段工作流程
第一階段 — Voice Design:輸入文字描述(例如「年輕女性,溫柔但帶點活潑感」),Qwen3-TTS 生成一段試音。不滿意就調整提示詞重新生成,直到聲音特質符合預期。
第二階段 — 批次合成:用確定好的聲音,把幾百到幾千句語料全部合成。內建 ITA、ROHAN、MANA 三套日文語料庫,共 4,000+ 句,也可以自訂語料。
第三階段 — 自動預處理:重採樣到 44.1kHz、生成 esd.list 元資料檔,輸出格式直接相容 Style-Bert-VITS2 的訓練管線。
技術棧
核心是 Qwen3-TTS,Alibaba 開源的多語言 TTS 模型。Voice Design Cloner 在上面加了兩層:
faster-qwen3-tts:用 CUDA Graph 預先編譯推理計算圖,讓 GPU 不用每次推理都重新調度 kernel,速度提升 6–10 倍。批次生成幾千句語料時,這個差距非常顯著。如果 GPU 不支援,自動 fallback 到標準推理。
M2M-100 翻譯:讓內建的日文語料庫可以自動翻譯成其他語言,10 種語言的語料生成都能支援。
支援的語言與語料庫
| 語料庫 | 句數 | 語言 |
|---|---|---|
| ITA | ~600 | 日文 |
| ROHAN | ~3,000 | 日文 |
| MANA | ~500 | 日文 |
| 自訂語料 | 任意 | 任意(支援翻譯) |
UI 支援日文、英文、中文三種介面語言,語音生成支援 10 種語言。
硬體需求與安裝
最低需求:NVIDIA GPU,8GB VRAM 以上(Qwen3-TTS 需要 GPU 推理)
# Windows
setup.bat
# Linux / WSL2
bash setup.sh
安裝腳本會自動:
- 建立 Python 虛擬環境(支援 3.10–3.12)
- 偵測 NVIDIA GPU,自動安裝 faster-qwen3-tts 加速後端
- 下載所需模型權重
安裝完成後執行:
python app.py
# 開啟瀏覽器 http://localhost:7860
典型使用場景
AI Vtuber 角色聲音
設計一個符合角色設定的聲音,批次生成角色台詞語料,訓練出可以即時推理的角色 TTS 模型,不需要真人配音。
遊戲 NPC 配音
獨立遊戲開發者最頭痛的問題之一。每個 NPC 用不同的聲音設計批次生成,成本從「找配音演員」降到「一台 RTX GPU 跑一個晚上」。
多語言內容本地化
用 M2M-100 翻譯語料,同一個聲音設計跑出多語言版本,給內容創作者批次生產不同語言的語音內容。
與直接用 Qwen3-TTS 的差異
Qwen3-TTS 本身可以做 voice cloning,但 Voice Design Cloner 解決的是它做不到的事:
| 功能 | 直接用 Qwen3-TTS | Voice Design Cloner |
|---|---|---|
| 聲音設計(無需錄音) | 有限支援 | 核心功能 |
| 批次語料生成 | 需要自己寫腳本 | 內建 GUI |
| TTS 訓練格式輸出 | 不支援 | Style-Bert-VITS2 格式 |
| 語料庫管理 | 無 | 內建 ITA/ROHAN/MANA |
| 推理加速 | 標準速度 | CUDA Graph 快 6-10 倍 |
限制與注意事項
VRAM 需求:8GB 是最低標,跑 faster-qwen3-tts 建議 12GB 以上才穩定。沒有 NVIDIA GPU 目前無法使用。
聲音一致性:Qwen3-TTS 的 voice design 還不是每次都能精準復現同一個聲音,批次生成時偶爾會有細微偏差。訓練語料如果一致性不夠,最終 TTS 模型的表現也會受影響。
輸出格式限制:目前直接對應 Style-Bert-VITS2,其他 TTS 訓練框架需要自己轉換格式。
結語
Voice Design Cloner 把「從零訓練 TTS 模型」的門檻往下拉了一大截。以前的流程是:找配音員 → 錄音 → 預處理 → 訓練。現在是:設計聲音 → 批次生成 → 訓練。
對 AI 內容創作者、Vtuber 開發者、遊戲獨立開發者來說,這個工具的意義是:你不需要再為「沒有錄音資料」而卡住。有一張 RTX 顯卡,就可以開始。