Moonshot AI 提出 Attention Residuals：Transformer 殘差連接的根本性升級

MoonshotAI/Attention-Residuals on GitHub

殘差連接（Residual Connection）是現代 Transformer 的基石之一——ResNet 提出後幾乎所有深度網絡都用它。但這個設計從 2015 年到現在沒怎麼變過：每一層的輸出都用固定權重 1.0 加回到主幹上。Moonshot AI 的 Kimi 團隊問了一個簡單的問題：為什麼權重要固定？

他們的答案是 Attention Residuals (AttnRes)——讓每一層用學習式的注意力，從前面所有層的輸出裡選擇性地聚合資訊。在 Kimi Linear 48B 訓練上，GPQA-Diamond 提升 7.5 分、HumanEval 提升 3.1 分。

標準殘差連接的問題

Loading diagram...

PreNorm 架構的 Transformer（基本上現在所有主流 LLM 都用 PreNorm）有一個記錄良好的問題：隱藏狀態的數值會隨深度無限膨脹。原因就是每一層的輸出都用固定權重累加，模型越深，累積的東西越多，數值越大。

這帶來兩個壞處：

訓練不穩定：超大的隱藏狀態導致梯度爆炸或消失
層的貢獻被稀釋：早期層的訊號淹沒在後面層的累積裡

過去的解法多是工程性 hack——調 norm 參數、加 scale factor、改 init。AttnRes 從根本重新設計這個機制。

AttnRes 的核心想法

每一層不再用固定權重 1.0 累加，而是用一個學習出來的偽 query，對所有前面層的輸出做 softmax attention：

# 標準殘差
hidden_state = sum(layer_outputs)  # 全部用權重 1.0

# Attention Residuals
weights = softmax(pseudo_query @ layer_outputs.T)
hidden_state = sum(weights * layer_outputs)  # 學習權重

關鍵字是 input-dependent——權重不是固定的，而是根據當前內容動態計算。模型自己學會：「處理這個 token 時，第 5 層的輸出比第 12 層更重要」。

兩種變體：Full vs Block

Full AttnRes 雖然效果最好，但記憶體成本是 O(L·d)，層數越多越貴。Kimi 團隊提出 Block AttnRes 作為實用折衷：

Loading diagram...

Block AttnRes 把 N 層切成大約 8 個 block，block 內部用標準殘差連接，只在 block 之間使用 attention residuals。記憶體開銷大幅降低，效能仍然接近 Full AttnRes。

這是典型的「90% 收益用 10% 成本拿到」的工程取捨——對實際生產模型來說非常重要。

在 Kimi Linear 48B 上的成果

AttnRes 在 Kimi Linear 48B 上的提升（百分點）

GPQA-Diamond 是科學推理 benchmark，提升 7.5 分非常顯著——這類困難推理任務對架構改進通常很敏感。HumanEval（程式碼生成）提升 3.1 分也是有意義的數字。MMLU 提升 1.1 分，雖然小但代表通用知識也有受益。

更重要的是 scaling 實驗的結論：Block AttnRes 在相同算力下，達到的效能等同於 baseline 用 1.25 倍算力訓練出來的結果。換句話說，這是一個 25% 的「免費」算力增益——只要你願意改架構。

為什麼這個改進有效？

研究團隊提供了兩個關鍵分析：

1. 隱藏狀態的數值受控
標準殘差連接讓 hidden state 隨深度膨脹，AttnRes 透過 softmax 權重讓累積保持在合理範圍。這直接緩解 PreNorm 的稀釋問題。

2. 梯度範數分布更均勻
標準架構的梯度往往集中在某些層，導致其他層學得不夠。AttnRes 讓梯度範數在不同層之間更均勻分布，每一層都能得到有效的學習訊號。

這兩個效果加起來，讓深度網絡的訓練動態變得更穩定，最終體現在 benchmark 分數上。

對 LLM 工程的意義

AttnRes 是少數架構層級的真正改進——而不是「再加一個技巧」式的優化。它的特點是：

特性	說明
Drop-in 替換	可以直接替換現有 Transformer 的殘差連接，不需要重新設計
與其他技術正交	不和 RoPE、GQA、MoE、長上下文等技術衝突
訓練時加入即可	不需要特殊推理基礎設施
Block 變體成本可控	O(N·d) 記憶體增量，可接受

如果你在訓練自己的 LLM，這是值得評估加入的改動之一。不是「能不能用」，而是「為什麼不用」。

Moonshot AI 與 Kimi 生態

Moonshot AI 是中國最受關注的 LLM 公司之一，旗下 Kimi 模型在中文長上下文場景表現出色。這個團隊近期在架構創新上連續發表幾個成果：

Kimi Linear：線性注意力的高效實作
Attention Residuals：本文討論的殘差連接升級
Kimi K2.5：開源的 MoE 推理模型

連續的架構研究說明 Moonshot 不是只在堆參數和資料，而是在 Transformer 架構本身做投資。對開源 LLM 生態來說這是好事——這些技術最終會擴散到整個產業。

結語

Attention Residuals 解決的是一個被忽略了 10 年的根本問題：殘差連接的固定權重設計。Kimi 團隊用簡單而優雅的方式（每層一個學習式 pseudo-query）實現了顯著的效能提升，而且 Block 變體保持了實用的記憶體成本。

對 LLM 研究者和工程師來說，這是 2026 年最值得關注的架構層改進之一。如果你在訓練模型，認真考慮把它加進去——25% 的算力等效收益不是隨便就能撿到的。