Matrix-Game 3.0:Skywork 開源的互動式世界模型,720p 即時 40fps
生成式影片模型大家都見過了,但「你可以互動地控制」的影片生成還在早期——每一幀都要和前面保持一致,又要即時回應使用者的操作輸入。Skywork AI 的 Matrix-Game 3.0 把這件事推進到一個新階段:5B 蒸餾模型、720p、40fps、長時序保持一致。
什麼是互動式世界模型?
傳統 text-to-video 模型是「一次性生成」——給一段文字,產出一段幾秒的影片。互動式世界模型不一樣:它必須持續生成,根據使用者即時的操作輸入(像打電動一樣用 WASD 移動)產生下一幀,而且要和過去的場景保持一致。
這個任務的難度在兩個點:
- 長時序一致性:走回原地應該看到同樣的場景,不能每次都長得不一樣
- 即時性:40fps 意味著每幀只有 25ms,包含推理、解碼、後處理
三個關鍵技術決策
1. Camera-aware Memory
模型顯式記住每個視角對應的空間區域。當鏡頭旋轉回到之前去過的位置,camera-aware memory 提供對應的空間記憶,讓場景保持一致,不會發生「走兩步回頭看,牆變成另一種顏色」的 drift 問題。
2. Prediction Residuals + Frame Re-injection
預測殘差機制讓模型不必從零生成每一幀,而是預測「和前幀的差異」。同時把前幀重新注入生成流程,形成自我修正迴路,降低錯誤累積。
3. 多段自回歸蒸餾
原本的大模型太慢,團隊用多段自回歸蒸餾(multi-segment autoregressive distillation)壓到 5B 參數,搭配模型量化和 VAE decoder 優化,達成 40fps at 720p。
效能與規模
Matrix-Game 3.0 生成速度(720p)
Matrix-Game 3.0 提供兩個版本:
| 版本 | 參數規模 | 用途 | 硬體需求 |
|---|---|---|---|
| 5B Distilled | 5B | 即時互動、遊戲原型 | 單張 H/A 系列 GPU |
| 28B-MoE | 2×14B MoE | 離線高品質生成、研究 | 多 GPU FSDP |
5B 版本為了即時性做了大量壓縮,畫質上有一些取捨;28B MoE 版本則是純粹追求畫質和泛化能力。兩個版本都開源。
訓練資料的三個來源
- Unreal Engine 合成資料:在 UE 裡建構可控環境,大量產出高精度 ground truth(場景 + 操作 + 下一幀)
- 自動化 AAA 遊戲資料:大規模抓取真實 AAA 遊戲的畫面和操作,讓模型學會真實世界的視覺複雜度
- 真實影片增強:加入真實拍攝的影片,補足合成資料的 domain gap
這個組合比純合成資料的舊世代世界模型更能處理光影、材質、動態細節。
技術棧
# Python 3.12
# FlashAttention(注意力加速)
# FSDP(多 GPU 訓練/推理)
# 64GB RAM 最低需求
# H 系列或 A 系列 GPU
FlashAttention 是 720p 即時推理的關鍵——在高解析度下,注意力的記憶體頻寬是瓶頸,FlashAttention 把它從 O(N²) 記憶體降到 O(N)。
FSDP 讓 28B MoE 版本可以在多卡上分散,使得沒有超大單卡(例如 H100 80GB)的研究團隊也能跑。
和 Matrix-Game 1/2 的差異
| 版本 | 特色 |
|---|---|
| Matrix-Game 1 | 初代互動世界模型,概念驗證 |
| Matrix-Game 2 | 提升畫質與場景豐富度 |
| Matrix-Game 3 | 即時 40fps + 長時序記憶 + MoE 擴展 |
Matrix-Game 3 是第一個把「即時互動性」真正做到可以「玩起來」的版本。前兩代更像是科研 demo,3.0 已經接近遊戲原型工具的門檻。
使用場景
遊戲原型開發:獨立遊戲開發者可以用 Matrix-Game 3 快速做互動式場景原型,先驗證遊戲感覺,再用傳統 engine 重製。
世界模型研究:互動式世界模型是 AGI 方向的重要子領域(DeepMind Genie、Google SIMA),開源大幅降低研究門檻。
訓練環境生成:強化學習需要大量訓練環境,傳統做法是手刻 UE/Unity,世界模型可以直接生成可互動環境。
影片內容生成:傳統 text-to-video 做不到的「使用者可控」場景,例如互動式敘事影片、虛擬旅遊、教育示範。
怎麼開始?
# 建立 conda 環境
conda create -n matrix-game python=3.12
conda activate matrix-game
# 從 HuggingFace 下載權重
git clone https://github.com/SkyworkAI/Matrix-Game.git
cd Matrix-Game/Matrix-Game-3
# 安裝依賴
pip install -r requirements.txt
# 跑互動推理
python inference.py --model 5B-distilled --image scene.png --prompt "森林小徑"
輸入是一張初始圖像加上文字提示,然後可以透過 action 參數(對應鍵盤操作)控制生成。整個流程有點像在跑一個 LLM-driven 的小型遊戲引擎。
結語
Matrix-Game 3 的意義不在於單一技術突破,而在於把「即時互動世界模型」從研究室 demo 推到「可用工具」這條線。2.1k stars 和 229 forks 說明社群在這個方向上的關注度在快速上升。
對獨立遊戲開發者、世界模型研究者、互動內容創作者來說,這是目前最值得關注的開源世界模型之一。如果 AGI 的其中一條路是「模型理解並生成可互動的物理世界」,Matrix-Game 3 正在這條路上往前推一步。