Claude Opus 4.7：+13% 程式碼、3x SWE 生產任務、新 xhigh effort——Anthropic 直接瞄準代理工程場景

來源：Anthropic News

Claude Opus 4.7 不是一個全面升級的通用版本——Anthropic 很清楚地把它定位在一件事上：讓 AI agent 真正能做完一個完整的軟體工程任務，而不是在複雜多步驟工作流程的中途跌倒。這個判斷反映了過去一年 agentic 開發的核心痛點，而 4.7 給出的答案相當直接。

核心架構變化

Loading diagram...

四個改動方向：軟體工程 agent 能力、視覺理解擴展、指令遵循精準度、以及跨工作階段的記憶持久性。其中對實際工程場景衝擊最大的是前三個，記憶持久性則是長期 agentic 工作流程的基礎設施補齊。

數字先說話

Claude Opus 4.7 vs Opus 4.6 相對表現（Opus 4.6 = 100 基準）

Rakuten 的 3x 數字最值得關注，因為那是生產環境的真實任務，不是評估集。「解決任務數量是三倍」意味著：在複雜多步驟的工程場景中，4.6 每完成一個，4.7 完成三個。這個差距在商業場景下是決定性的。

SWE-bench 這類學術評估的改進空間已經趨近天花板，Anthropic 轉而強調 Rakuten 這樣的實戰數據，是一個務實且值得肯定的方向。

xhigh：填補一個真實的缺口

high 和 max 之間長久以來有一個沒有名字的空白：high 有時不夠，max 太貴、太慢。4.7 正式引入 xhigh 作為第四個 effort 等級，落在這兩者中間。

對工程師來說，這意味著什麼？精確的模糊任務不再需要用 max 來賭——xhigh 提供了一個合理的中間地帶，在複雜的多步驟程式碼任務、需要深度推理但又不需要全力以赴的場景下節省 token 消耗。

新的 effort 等級序列：low → medium → high → xhigh → max

視覺理解：從夠用到真正可用

解析度上限從過去的 ~680px（約 1MP）提升到 2,576px（~3.75MP），大約是 3 倍。

這個改動對程式碼工作流程的影響比看起來更深：過去把截圖、UI 設計稿、錯誤訊息圖片交給模型分析，低解析度會讓細節文字模糊不清。現在 Retina 截圖、完整的 Figma frame、長截圖都在合理處理範圍內。

視覺理解和 agentic coding 的交叉點——比如「看這個截圖裡的錯誤然後修程式碼」——在 4.7 才開始真正可靠。

指令遵循：更精確，但需要注意 prompt 相容性

4.7 在指令遵循上變得「更字面、更精確」——這是好事，但有一個實際的成本：現有的 prompt 可能需要重新調整。

過去模型會主動「補足」你沒說清楚的意圖。4.7 傾向於嚴格執行你實際寫下的內容，而不是猜你想要什麼。如果你的 prompt 有歧義或依賴模型的隱性補足，這會造成行為改變。

這個方向是對的——sycophantic 的補足讓 agent 系統難以預測和測試。但升級前務必在你的 prompt 套件上做回歸測試。

同樣值得提：4.7 更「有主見」（opinionated）。它會主動指出邏輯錯誤，對有問題的請求給出推推而不是直接服從。這是設計選擇，不是 bug。

跨 Session 記憶：agent 基礎設施的關鍵補齊

file-system-based memory 讓 4.7 可以在多個工作階段之間保留上下文，而不是每次對話都從零開始。

對長期軟體專案的 agentic 工作流程——比如一個跑幾天的程式碼重構任務——這是基礎設施層面的改動。過去每次新 session 都要重新建立大量上下文，現在模型可以持續累積對同一個 codebase 的理解。

這個功能的細節還需要更多實戰測試，但方向很清楚：Anthropic 在把 Opus 往「可以做真實長期專案的 agent」這個方向推。

Tokenizer 更新：同樣的輸入，多 0-35% 的 token

4.7 更新了 tokenizer。相同的輸入文字在 4.7 下會產生 1.0 到 1.35 倍的 token 數量，取決於內容類型。

這是一個需要明確計算的成本因素。定價保持和 4.6 相同（ $5/M input，$ 25/M output），但 tokenizer 效率的變化可能讓實際帳單在最壞情況下增加 35%。在把 4.7 推上生產之前，先用你的典型輸入測一下 token 數量變化。

新功能清單

/ultrareview（Claude Code）：在 Claude Code 裡觸發更深度的程式碼審查模式，比標準 review 花更多推理資源在找潛在問題。

Task budgets（公測）：讓你對 agent 任務設定 token 或時間上限，防止 agentic 工作流程失控消耗資源。這是在 agentic 場景中做成本控制的實用工具。

Auto mode（Max 方案）：自動根據任務複雜度選擇 effort 等級，不需要手動調。適合不想管這層細節的使用者。

Project Glasswing：4.7 是第一個整合 Anthropic 自動化網路安全防護的模型，涵蓋已知漏洞的自動偵測和攔截。

可用性與定價

API model ID：claude-opus-4-7
定價： $5/M input tokens，$ 25/M output tokens（與 Opus 4.6 相同）
平台：Anthropic API、Claude.ai、Amazon Bedrock、Google Vertex AI、Microsoft Azure AI Foundry

值得說清楚的事

4.7 不是一個讓每個任務都更好的版本。它是一個在長時間、多步驟、需要真實工具使用的工程任務上大幅領先的版本。

如果你的用例是短對話、一次性問答、或者創意寫作，升級的收益不會這麼明顯。tokenizer 效率下降反而是真實的成本。

但如果你在建 agentic coding 工具、自動化程式碼審查管線、或者任何需要模型在一個長工作流程中可靠地完成多步驟任務——4.7 是目前最接近「實際可用」的選擇，數字支持這個判斷。

Anthropic 在 4.7 上做的賭注很清楚：他們相信 agentic 工程場景是接下來 AI 工具的主戰場，而且他們把資源集中在那裡。SWE-bench 的邊際改進已經不再是核心敘事，Rakuten 的 3x 才是。