在 TTS 這個領域,過去幾年的主流敘事一直是「模型越大越好」。ElevenLabs、OpenAI TTS、Google 的 Journey、Microsoft 的 VALL-E 全都往雲端跑,參數量動輒數百 M 到 B 級,延遲靠 GPU 推理堆出來,單次呼叫的成本由你來負擔。Kyutai Labs 的 Pocket TTS 走了相反方向:100M 參數、CPU-only、開源 MIT、4k+ stars,一台 MacBook Air M4 用兩顆核心就能跑到即時速度的 6 倍。
為什麼這件事值得寫
大多數「輕量 TTS」的宣稱都帶條件:要嘛延遲高、要嘛音質爛、要嘛只能跑英文單句。Pocket TTS 的數字是:
- 參數量:100M(同級競品普遍 300M 以上)
- 延遲:首段音訊 ~200ms
- 速度:MacBook Air M4 + 2 CPU 核心,6x 即時
- 硬需求:PyTorch 2.5,CPU,沒了
沒有 GPU、沒有雲端、沒有付費 API。這不是那種「放著看看」的 demo,而是一個你今天就能塞進筆電、手機端 App、Discord bot、離線遊戲裡的東西。
Kyutai Labs 是誰
巴黎的開放科學實驗室,背後是 Iliad Group、CMA CGM 和 Schmidt Sciences。他們之前的作品都圍繞「語音原生 AI」這條線:
- Moshi — 第一個語音原生對話系統,端到端低延遲
- Mimi — 神經音訊 codec
- Unmute — 開源的語音 LLM pipeline
Pocket TTS 是這條線的延伸:把語音合成這塊從雲端拉回本地,讓整個語音 AI 堆疊都能在使用者的裝置上跑。
定位:在 TTS 光譜中的位置
左邊是雲端方案,音質最好但有 API 成本與隱私問題。中間是本地的大型開源模型,音質不差但需要獨立顯卡。Pocket TTS 的定位是最右邊那格:音質夠用、完全本地、硬體門檻等於 0。
效能數字對比
CPU 推理速度(相對即時倍率,越高越好)
對比其他開源本地方案在純 CPU 環境下的表現,Pocket TTS 是目前唯一明顯超越即時的選項。其他模型在沒有 GPU 的情況下基本上沒法拿來做互動式應用。
怎麼用
安裝:
pip install pocket-tts
# 或不安裝直接跑
uvx pocket-tts generate --text "Hello world" --voice alba
啟動本地服務(內建 FastAPI server):
pocket-tts serve
# http://localhost:8000
Python API:
from pocket_tts import PocketTTS
tts = PocketTTS()
tts.set_voice("alba")
audio = tts.generate("Hello, this runs on your laptop.")
audio.save("output.wav")
沒有帳號、沒有 token、沒有 quota。
技術細節裡比較值得注意的三件事
1. Streaming-first 設計
Pocket TTS 不是設計來做批次生成的,而是一開始就假設輸出會 streaming 出去。這讓「首段音訊 200ms」這個數字變得有意義——你聽到聲音時,模型還在算後面的句子。做語音助理、對話機器人、直播配音這類場景必備。
2. Voice cloning 用 safetensors 儲存
自訂聲音不是存一堆 embedding 或做 LoRA,而是把 voice state 直接匯出成 safetensors 檔案。一個人的聲音就是一個小檔案,可以到處傳、版本控管、熱切換。
3. 量化未完工但在路上
官方 README 裡提到 optional torchao int8 量化正在開發中。100M 參數本來就小,如果再壓到 int8,手機端 App 基本上可以直接塞進去。
生態系擴散速度
MIT 授權加上 CPU-only 的特性讓社群移植很快,README 列出的下游專案包括:
- Rust / WebAssembly / C++ / C# / MLX 的原生 port
- Discord bot、瀏覽器擴充套件
- 遊戲 mod(把 NPC 對話接上 TTS)
- 本地語音 agent 的替換引擎
這是開源 AI 工具裡典型的「降低門檻 → 爆發式派生」的模式。一旦把硬體門檻從 GPU 降到 CPU、把授權門檻從受限研究版改成 MIT,社群就會自動幫你把它移植到所有你想像得到的平台。
結語
Pocket TTS 沒有打破什麼技術邊界——它的音質並不超越 ElevenLabs,voice cloning 也沒有比 XTTS v2 厲害。它的價值在於把一件事做到可用的極致:在你的電腦上、不花錢、不上網、即時出聲。
這是 TTS 從「付費雲端服務」往「系統級原生能力」移動的一步。未來幾年,語音合成會變成跟拼字檢查一樣,是作業系統或瀏覽器內建的東西。Pocket TTS 不一定是那個最終贏家,但它示範了「100M 參數 + CPU + streaming」這個組合是真的 work 的。值得追蹤。