跳到主要內容

Moonshot AI 提出 Attention Residuals:Transformer 殘差連接的根本性升級

MoonshotAI/Attention-Residuals on GitHub

殘差連接(Residual Connection)是現代 Transformer 的基石之一——ResNet 提出後幾乎所有深度網絡都用它。但這個設計從 2015 年到現在沒怎麼變過:每一層的輸出都用固定權重 1.0 加回到主幹上。Moonshot AI 的 Kimi 團隊問了一個簡單的問題:為什麼權重要固定?

他們的答案是 Attention Residuals (AttnRes)——讓每一層用學習式的注意力,從前面所有層的輸出裡選擇性地聚合資訊。在 Kimi Linear 48B 訓練上,GPQA-Diamond 提升 7.5 分、HumanEval 提升 3.1 分。


標準殘差連接的問題

Loading diagram...

PreNorm 架構的 Transformer(基本上現在所有主流 LLM 都用 PreNorm)有一個記錄良好的問題:隱藏狀態的數值會隨深度無限膨脹。原因就是每一層的輸出都用固定權重累加,模型越深,累積的東西越多,數值越大。

這帶來兩個壞處:

  1. 訓練不穩定:超大的隱藏狀態導致梯度爆炸或消失
  2. 層的貢獻被稀釋:早期層的訊號淹沒在後面層的累積裡

過去的解法多是工程性 hack——調 norm 參數、加 scale factor、改 init。AttnRes 從根本重新設計這個機制。


AttnRes 的核心想法

每一層不再用固定權重 1.0 累加,而是用一個學習出來的偽 query,對所有前面層的輸出做 softmax attention:

# 標準殘差
hidden_state = sum(layer_outputs)  # 全部用權重 1.0

# Attention Residuals
weights = softmax(pseudo_query @ layer_outputs.T)
hidden_state = sum(weights * layer_outputs)  # 學習權重

關鍵字是 input-dependent——權重不是固定的,而是根據當前內容動態計算。模型自己學會:「處理這個 token 時,第 5 層的輸出比第 12 層更重要」。


兩種變體:Full vs Block

Full AttnRes 雖然效果最好,但記憶體成本是 O(L·d),層數越多越貴。Kimi 團隊提出 Block AttnRes 作為實用折衷:

Loading diagram...

Block AttnRes 把 N 層切成大約 8 個 block,block 內部用標準殘差連接,只在 block 之間使用 attention residuals。記憶體開銷大幅降低,效能仍然接近 Full AttnRes。

這是典型的「90% 收益用 10% 成本拿到」的工程取捨——對實際生產模型來說非常重要。


在 Kimi Linear 48B 上的成果

AttnRes 在 Kimi Linear 48B 上的提升(百分點)

GPQA-Diamond 是科學推理 benchmark,提升 7.5 分非常顯著——這類困難推理任務對架構改進通常很敏感。HumanEval(程式碼生成)提升 3.1 分也是有意義的數字。MMLU 提升 1.1 分,雖然小但代表通用知識也有受益。

更重要的是 scaling 實驗的結論:Block AttnRes 在相同算力下,達到的效能等同於 baseline 用 1.25 倍算力訓練出來的結果。換句話說,這是一個 25% 的「免費」算力增益——只要你願意改架構。


為什麼這個改進有效?

研究團隊提供了兩個關鍵分析:

1. 隱藏狀態的數值受控
標準殘差連接讓 hidden state 隨深度膨脹,AttnRes 透過 softmax 權重讓累積保持在合理範圍。這直接緩解 PreNorm 的稀釋問題。

2. 梯度範數分布更均勻
標準架構的梯度往往集中在某些層,導致其他層學得不夠。AttnRes 讓梯度範數在不同層之間更均勻分布,每一層都能得到有效的學習訊號。

這兩個效果加起來,讓深度網絡的訓練動態變得更穩定,最終體現在 benchmark 分數上。


對 LLM 工程的意義

AttnRes 是少數架構層級的真正改進——而不是「再加一個技巧」式的優化。它的特點是:

特性說明
Drop-in 替換可以直接替換現有 Transformer 的殘差連接,不需要重新設計
與其他技術正交不和 RoPE、GQA、MoE、長上下文等技術衝突
訓練時加入即可不需要特殊推理基礎設施
Block 變體成本可控O(N·d) 記憶體增量,可接受

如果你在訓練自己的 LLM,這是值得評估加入的改動之一。不是「能不能用」,而是「為什麼不用」。


Moonshot AI 與 Kimi 生態

Moonshot AI 是中國最受關注的 LLM 公司之一,旗下 Kimi 模型在中文長上下文場景表現出色。這個團隊近期在架構創新上連續發表幾個成果:

  • Kimi Linear:線性注意力的高效實作
  • Attention Residuals:本文討論的殘差連接升級
  • Kimi K2.5:開源的 MoE 推理模型

連續的架構研究說明 Moonshot 不是只在堆參數和資料,而是在 Transformer 架構本身做投資。對開源 LLM 生態來說這是好事——這些技術最終會擴散到整個產業。


結語

Attention Residuals 解決的是一個被忽略了 10 年的根本問題:殘差連接的固定權重設計。Kimi 團隊用簡單而優雅的方式(每層一個學習式 pseudo-query)實現了顯著的效能提升,而且 Block 變體保持了實用的記憶體成本。

對 LLM 研究者和工程師來說,這是 2026 年最值得關注的架構層改進之一。如果你在訓練模型,認真考慮把它加進去——25% 的算力等效收益不是隨便就能撿到的。