Pocket TTS：100M 參數、CPU 上比即時快 6 倍的語音合成

在 TTS 這個領域，過去幾年的主流敘事一直是「模型越大越好」。ElevenLabs、OpenAI TTS、Google 的 Journey、Microsoft 的 VALL-E 全都往雲端跑，參數量動輒數百 M 到 B 級，延遲靠 GPU 推理堆出來，單次呼叫的成本由你來負擔。Kyutai Labs 的 Pocket TTS 走了相反方向：100M 參數、CPU-only、開源 MIT、4k+ stars，一台 MacBook Air M4 用兩顆核心就能跑到即時速度的 6 倍。

為什麼這件事值得寫

大多數「輕量 TTS」的宣稱都帶條件：要嘛延遲高、要嘛音質爛、要嘛只能跑英文單句。Pocket TTS 的數字是：

參數量：100M（同級競品普遍 300M 以上）
延遲：首段音訊 ~200ms
速度：MacBook Air M4 + 2 CPU 核心，6x 即時
硬需求：PyTorch 2.5，CPU，沒了

沒有 GPU、沒有雲端、沒有付費 API。這不是那種「放著看看」的 demo，而是一個你今天就能塞進筆電、手機端 App、Discord bot、離線遊戲裡的東西。

Kyutai Labs 是誰

巴黎的開放科學實驗室，背後是 Iliad Group、CMA CGM 和 Schmidt Sciences。他們之前的作品都圍繞「語音原生 AI」這條線：

Moshi — 第一個語音原生對話系統，端到端低延遲
Mimi — 神經音訊 codec
Unmute — 開源的語音 LLM pipeline

Pocket TTS 是這條線的延伸：把語音合成這塊從雲端拉回本地，讓整個語音 AI 堆疊都能在使用者的裝置上跑。

定位：在 TTS 光譜中的位置

Loading diagram...

左邊是雲端方案，音質最好但有 API 成本與隱私問題。中間是本地的大型開源模型，音質不差但需要獨立顯卡。Pocket TTS 的定位是最右邊那格：音質夠用、完全本地、硬體門檻等於 0。

效能數字對比

CPU 推理速度（相對即時倍率，越高越好）

對比其他開源本地方案在純 CPU 環境下的表現，Pocket TTS 是目前唯一明顯超越即時的選項。其他模型在沒有 GPU 的情況下基本上沒法拿來做互動式應用。

怎麼用

安裝：

pip install pocket-tts
# 或不安裝直接跑
uvx pocket-tts generate --text "Hello world" --voice alba

啟動本地服務（內建 FastAPI server）：

pocket-tts serve
# http://localhost:8000

Python API：

from pocket_tts import PocketTTS

tts = PocketTTS()
tts.set_voice("alba")
audio = tts.generate("Hello, this runs on your laptop.")
audio.save("output.wav")

沒有帳號、沒有 token、沒有 quota。

技術細節裡比較值得注意的三件事

1. Streaming-first 設計

Pocket TTS 不是設計來做批次生成的，而是一開始就假設輸出會 streaming 出去。這讓「首段音訊 200ms」這個數字變得有意義——你聽到聲音時，模型還在算後面的句子。做語音助理、對話機器人、直播配音這類場景必備。

2. Voice cloning 用 safetensors 儲存

自訂聲音不是存一堆 embedding 或做 LoRA，而是把 voice state 直接匯出成 safetensors 檔案。一個人的聲音就是一個小檔案，可以到處傳、版本控管、熱切換。

3. 量化未完工但在路上

官方 README 裡提到 optional torchao int8 量化正在開發中。100M 參數本來就小，如果再壓到 int8，手機端 App 基本上可以直接塞進去。

生態系擴散速度

MIT 授權加上 CPU-only 的特性讓社群移植很快，README 列出的下游專案包括：

Rust / WebAssembly / C++ / C# / MLX 的原生 port
Discord bot、瀏覽器擴充套件
遊戲 mod（把 NPC 對話接上 TTS）
本地語音 agent 的替換引擎

這是開源 AI 工具裡典型的「降低門檻 → 爆發式派生」的模式。一旦把硬體門檻從 GPU 降到 CPU、把授權門檻從受限研究版改成 MIT，社群就會自動幫你把它移植到所有你想像得到的平台。

結語

Pocket TTS 沒有打破什麼技術邊界——它的音質並不超越 ElevenLabs，voice cloning 也沒有比 XTTS v2 厲害。它的價值在於把一件事做到可用的極致：在你的電腦上、不花錢、不上網、即時出聲。

這是 TTS 從「付費雲端服務」往「系統級原生能力」移動的一步。未來幾年，語音合成會變成跟拼字檢查一樣，是作業系統或瀏覽器內建的東西。Pocket TTS 不一定是那個最終贏家，但它示範了「100M 參數 + CPU + streaming」這個組合是真的 work 的。值得追蹤。