跳到主要內容

ACE-Step 1.5:A100 上 2 秒生一首歌,開源音樂生成現在能做到什麼程度

ace-step/ACE-Step-1.5 on GitHub

在文字轉圖片這條賽道上,Stable Diffusion 花了兩年把「生成速度」這道門檻打穿。音樂生成現在站在同一個節點上——ACE-Step 1.5 在 A100 上不到 2 秒出一首歌,RTX 3090 也在 10 秒內,MIT 授權,9.2k stars。這不再是「能跑但速度像在等外送」的研究展示,而是一個你今天可以接進工作流的東西。


ACE Studio + StepFun 做了什麼

這個專案由 ACE Studio(專業 AI 音樂工具商)與 StepFun(步躍)聯合發布。兩家都有各自的商業音樂產品,把這個底層模型開源是在賭一件事:底層引擎開放,上面的應用護城河才算真的深

ACE-Step 1.5 是他們的第二代架構,前身 ACE-Step v1 已有一定社群基礎,1.5 版在速度、多語言覆蓋和訓練效率上做了系統性升級。


架構:Hybrid LM + Diffusion Transformer

ACE-Step 1.5 的架構設計比單純的「把 LLM 加進去」更有意思。它的核心是兩個模組的協作:

Loading diagram...

LM Planner 負責把文字語義轉換成結構化的音樂意圖表示,DiT 負責把這個意圖擴散成實際的音訊波形。兩者分工清楚:LM 做語言理解和音樂結構規劃,Diffusion Transformer 做高品質的聲音生成。

兩個版本的規格差異:

版本DiT 參數LM 規模VRAM 要求
Standard2B0.6B / 1.7B8GB+
XL4B1.7B12GB+

Standard 版適合 RTX 3090 / 4090 這類消費級卡,XL 版留給需要更高音質的場景或有 A100 的環境。


訓練機制:Intrinsic RL 去掉外部獎勵模型

ACE-Step 1.5 的訓練裡有一個值得注意的設計決策:用 Intrinsic RL(內在強化學習) 代替傳統的外部獎勵模型。

傳統的 RLHF/RLAIF 流程需要一個單獨訓練的 reward model 來給分,這個 reward model 本身就會帶入 bias——它評分的偏好不一定對齊實際聽感,而且在音樂這種主觀性極強的領域,bias 問題特別顯著。

Intrinsic RL 的做法是讓模型從自身的生成過程中提取獎勵訊號,不依賴外部評分器。這讓訓練更穩定,也避免了「迎合獎勵模型」而非「生成好音樂」的 reward hacking 問題。


生成速度:實際的數字

每首歌生成時間(秒,越低越好)

A100 的 1.8 秒不是「生成片段」的時間,而是完整一首歌。即使在 RTX 3090 上,10 秒以內也是可以做批次工作流的速度。更重要的是,它支援 batch 最大 8 首同時生成,這讓批次製作 playlist 或為遊戲生成大量 BGM 變得可行。


能力邊界:這個模型可以做什麼

語言覆蓋:50+ 種語言的歌詞生成,包含中文、日文、韓文、粵語。這對亞洲市場特別重要——過去大多數音樂生成模型的多語言支援只是表面上的,實際在中文歌詞上效果很差。

樂器支援:官方文件標榜 1000+ 種樂器。更精確的說法是:你可以在 prompt 裡指定特定樂器,模型會嘗試遵循。傳統民樂器(琵琶、二胡)也在支援範圍內。

時長:10 秒到 10 分鐘。這個範圍覆蓋了從短 jingle 到完整曲目的大部分用例。

生成控制:除了純文字 prompt,也支援旋律哼唱輸入(melody conditioning)和歌詞直接輸入。後者讓「我有歌詞、我要配曲」這個創作場景變得直接可用。


LoRA 訓練:8 首歌、1 小時、RTX 3090

這是 ACE-Step 1.5 最值得關注的使用者側功能之一:在消費級 GPU 上做風格定制訓練

官方給的數字是 8 首歌、RTX 3090 上約 1 小時完成 LoRA fine-tuning。這讓以下場景變得可行:

# 安裝
pip install ace-step

# 以自有音樂素材訓練風格 LoRA
ace-step train-lora \
  --data ./my_songs \
  --output ./lora_output \
  --base-model standard \
  --epochs 50

# 使用訓練好的 LoRA 生成
ace-step generate \
  --prompt "indie folk, fingerpicking guitar, melancholic" \
  --lora ./lora_output/checkpoint-final \
  --duration 180

8 首歌是一個很低的門檻。一個獨立音樂人把自己過去的作品餵進去,就能讓模型生成有自己風格簽名的新素材——不用雲端服務、不用分享訓練資料給第三方。


實際使用的三個場景

遊戲/影片製作的 BGM 工廠:給 Prompt 陣列批次生成,速度夠快,MIT 授權不需要擔心版權清算。這對獨立遊戲開發者和 Vtuber 這類使用者最直接。

風格原型快速驗證:製作人或詞曲人在進正式錄音前,用這個工具快速把「我想要一首 70s funk 風格、帶 soul vocal、副歌衝擊感強」的想法音訊化。這比跟 session musician 反覆溝通快得多。

互動應用的即時音樂生成:在 A100 環境下 2 秒一首,這個速度讓「根據使用者狀態動態生成音樂」在技術上不再是奢望。


限制和誠實評估

ACE-Step 1.5 在聲音品質上不是無懈可擊的。和 Suno v4 或 Udio 這類商業服務相比,在人聲細節和複雜編曲的層次感上仍有差距。這是開源模型的現實處境,不是刻意迴避的問題。

XL 版(4B DiT)在音質上比 Standard 版有明顯提升,但 12GB VRAM 的要求會把一部分使用者擋在門外。RTX 3080 以下的卡只能跑 Standard 版。

LoRA 訓練的效果也取決於訓練資料的品質和一致性。8 首風格散亂的歌可能不如 4 首風格高度一致的歌效果好。


結語

音樂生成這條賽道在過去一年的發展比多數人預期的快。ACE-Step 1.5 的意義不是「又一個能生成音樂的模型」,而是在速度、多語言和本地訓練這三個維度同時做到了消費級可用

MIT 授權加上 LoRA 支援,這個組合讓「用 AI 做音樂工具」的創業門檻大幅降低。未來 12 個月,在這個基礎上長出的垂直應用會比模型本身更值得追蹤。