ACE-Step 1.5：A100 上 2 秒生一首歌，開源音樂生成現在能做到什麼程度

在文字轉圖片這條賽道上，Stable Diffusion 花了兩年把「生成速度」這道門檻打穿。音樂生成現在站在同一個節點上——ACE-Step 1.5 在 A100 上不到 2 秒出一首歌，RTX 3090 也在 10 秒內，MIT 授權，9.2k stars。這不再是「能跑但速度像在等外送」的研究展示，而是一個你今天可以接進工作流的東西。

ACE Studio + StepFun 做了什麼

這個專案由 ACE Studio（專業 AI 音樂工具商）與 StepFun（步躍）聯合發布。兩家都有各自的商業音樂產品，把這個底層模型開源是在賭一件事：底層引擎開放，上面的應用護城河才算真的深。

ACE-Step 1.5 是他們的第二代架構，前身 ACE-Step v1 已有一定社群基礎，1.5 版在速度、多語言覆蓋和訓練效率上做了系統性升級。

架構：Hybrid LM + Diffusion Transformer

ACE-Step 1.5 的架構設計比單純的「把 LLM 加進去」更有意思。它的核心是兩個模組的協作：

Loading diagram...

LM Planner 負責把文字語義轉換成結構化的音樂意圖表示，DiT 負責把這個意圖擴散成實際的音訊波形。兩者分工清楚：LM 做語言理解和音樂結構規劃，Diffusion Transformer 做高品質的聲音生成。

兩個版本的規格差異：

版本	DiT 參數	LM 規模	VRAM 要求
Standard	2B	0.6B / 1.7B	8GB+
XL	4B	1.7B	12GB+

Standard 版適合 RTX 3090 / 4090 這類消費級卡，XL 版留給需要更高音質的場景或有 A100 的環境。

訓練機制：Intrinsic RL 去掉外部獎勵模型

ACE-Step 1.5 的訓練裡有一個值得注意的設計決策：用 Intrinsic RL（內在強化學習） 代替傳統的外部獎勵模型。

傳統的 RLHF/RLAIF 流程需要一個單獨訓練的 reward model 來給分，這個 reward model 本身就會帶入 bias——它評分的偏好不一定對齊實際聽感，而且在音樂這種主觀性極強的領域，bias 問題特別顯著。

Intrinsic RL 的做法是讓模型從自身的生成過程中提取獎勵訊號，不依賴外部評分器。這讓訓練更穩定，也避免了「迎合獎勵模型」而非「生成好音樂」的 reward hacking 問題。

生成速度：實際的數字

每首歌生成時間（秒，越低越好）

A100 的 1.8 秒不是「生成片段」的時間，而是完整一首歌。即使在 RTX 3090 上，10 秒以內也是可以做批次工作流的速度。更重要的是，它支援 batch 最大 8 首同時生成，這讓批次製作 playlist 或為遊戲生成大量 BGM 變得可行。

能力邊界：這個模型可以做什麼

語言覆蓋：50+ 種語言的歌詞生成，包含中文、日文、韓文、粵語。這對亞洲市場特別重要——過去大多數音樂生成模型的多語言支援只是表面上的，實際在中文歌詞上效果很差。

樂器支援：官方文件標榜 1000+ 種樂器。更精確的說法是：你可以在 prompt 裡指定特定樂器，模型會嘗試遵循。傳統民樂器（琵琶、二胡）也在支援範圍內。

時長：10 秒到 10 分鐘。這個範圍覆蓋了從短 jingle 到完整曲目的大部分用例。

生成控制：除了純文字 prompt，也支援旋律哼唱輸入（melody conditioning）和歌詞直接輸入。後者讓「我有歌詞、我要配曲」這個創作場景變得直接可用。

LoRA 訓練：8 首歌、1 小時、RTX 3090

這是 ACE-Step 1.5 最值得關注的使用者側功能之一：在消費級 GPU 上做風格定制訓練。

官方給的數字是 8 首歌、RTX 3090 上約 1 小時完成 LoRA fine-tuning。這讓以下場景變得可行：

# 安裝
pip install ace-step

# 以自有音樂素材訓練風格 LoRA
ace-step train-lora \
  --data ./my_songs \
  --output ./lora_output \
  --base-model standard \
  --epochs 50

# 使用訓練好的 LoRA 生成
ace-step generate \
  --prompt "indie folk, fingerpicking guitar, melancholic" \
  --lora ./lora_output/checkpoint-final \
  --duration 180

8 首歌是一個很低的門檻。一個獨立音樂人把自己過去的作品餵進去，就能讓模型生成有自己風格簽名的新素材——不用雲端服務、不用分享訓練資料給第三方。

實際使用的三個場景

遊戲/影片製作的 BGM 工廠：給 Prompt 陣列批次生成，速度夠快，MIT 授權不需要擔心版權清算。這對獨立遊戲開發者和 Vtuber 這類使用者最直接。

風格原型快速驗證：製作人或詞曲人在進正式錄音前，用這個工具快速把「我想要一首 70s funk 風格、帶 soul vocal、副歌衝擊感強」的想法音訊化。這比跟 session musician 反覆溝通快得多。

互動應用的即時音樂生成：在 A100 環境下 2 秒一首，這個速度讓「根據使用者狀態動態生成音樂」在技術上不再是奢望。

限制和誠實評估

ACE-Step 1.5 在聲音品質上不是無懈可擊的。和 Suno v4 或 Udio 這類商業服務相比，在人聲細節和複雜編曲的層次感上仍有差距。這是開源模型的現實處境，不是刻意迴避的問題。

XL 版（4B DiT）在音質上比 Standard 版有明顯提升，但 12GB VRAM 的要求會把一部分使用者擋在門外。RTX 3080 以下的卡只能跑 Standard 版。

LoRA 訓練的效果也取決於訓練資料的品質和一致性。8 首風格散亂的歌可能不如 4 首風格高度一致的歌效果好。

結語

音樂生成這條賽道在過去一年的發展比多數人預期的快。ACE-Step 1.5 的意義不是「又一個能生成音樂的模型」，而是在速度、多語言和本地訓練這三個維度同時做到了消費級可用。

MIT 授權加上 LoRA 支援，這個組合讓「用 AI 做音樂工具」的創業門檻大幅降低。未來 12 個月，在這個基礎上長出的垂直應用會比模型本身更值得追蹤。