Voice Design Cloner：不需要錄音，用 AI 設計聲音、直接生成 TTS 訓練資料

訓練一個 TTS 語音模型，最大的門檻從來不是算力——而是錄音。你需要同一個人清晰地念幾千句話，品質穩定、沒有背景噪音。對 AI Vtuber 創作者、遊戲獨立開發者來說，這條路要嘛太貴，要嘛根本做不到。

Voice Design Cloner 的解法是：連錄音都不需要。用 AI 設計一個聲音，再用這個聲音生成全部訓練語料。

三階段工作流程

Loading diagram...

第一階段 — Voice Design：輸入文字描述（例如「年輕女性，溫柔但帶點活潑感」），Qwen3-TTS 生成一段試音。不滿意就調整提示詞重新生成，直到聲音特質符合預期。

第二階段 — 批次合成：用確定好的聲音，把幾百到幾千句語料全部合成。內建 ITA、ROHAN、MANA 三套日文語料庫，共 4,000+ 句，也可以自訂語料。

第三階段 — 自動預處理：重採樣到 44.1kHz、生成 esd.list 元資料檔，輸出格式直接相容 Style-Bert-VITS2 的訓練管線。

Loading diagram...

核心是 Qwen3-TTS，Alibaba 開源的多語言 TTS 模型。Voice Design Cloner 在上面加了兩層：

faster-qwen3-tts：用 CUDA Graph 預先編譯推理計算圖，讓 GPU 不用每次推理都重新調度 kernel，速度提升 6–10 倍。批次生成幾千句語料時，這個差距非常顯著。如果 GPU 不支援，自動 fallback 到標準推理。

M2M-100 翻譯：讓內建的日文語料庫可以自動翻譯成其他語言，10 種語言的語料生成都能支援。

UI 支援日文、英文、中文三種介面語言，語音生成支援 10 種語言。

最低需求：NVIDIA GPU，8GB VRAM 以上（Qwen3-TTS 需要 GPU 推理）

# Windows
setup.bat

# Linux / WSL2
bash setup.sh

安裝腳本會自動：

安裝完成後執行：

python app.py
# 開啟瀏覽器 http://localhost:7860

AI Vtuber 角色聲音
設計一個符合角色設定的聲音，批次生成角色台詞語料，訓練出可以即時推理的角色 TTS 模型，不需要真人配音。

遊戲 NPC 配音
獨立遊戲開發者最頭痛的問題之一。每個 NPC 用不同的聲音設計批次生成，成本從「找配音演員」降到「一台 RTX GPU 跑一個晚上」。

多語言內容本地化
用 M2M-100 翻譯語料，同一個聲音設計跑出多語言版本，給內容創作者批次生產不同語言的語音內容。

Qwen3-TTS 本身可以做 voice cloning，但 Voice Design Cloner 解決的是它做不到的事：

VRAM 需求：8GB 是最低標，跑 faster-qwen3-tts 建議 12GB 以上才穩定。沒有 NVIDIA GPU 目前無法使用。

聲音一致性：Qwen3-TTS 的 voice design 還不是每次都能精準復現同一個聲音，批次生成時偶爾會有細微偏差。訓練語料如果一致性不夠，最終 TTS 模型的表現也會受影響。

輸出格式限制：目前直接對應 Style-Bert-VITS2，其他 TTS 訓練框架需要自己轉換格式。

Voice Design Cloner 把「從零訓練 TTS 模型」的門檻往下拉了一大截。以前的流程是：找配音員 → 錄音 → 預處理 → 訓練。現在是：設計聲音 → 批次生成 → 訓練。

對 AI 內容創作者、Vtuber 開發者、遊戲獨立開發者來說，這個工具的意義是：你不需要再為「沒有錄音資料」而卡住。有一張 RTX 顯卡，就可以開始。