Claude Opus 4.7 不是一個全面升級的通用版本——Anthropic 很清楚地把它定位在一件事上:讓 AI agent 真正能做完一個完整的軟體工程任務,而不是在複雜多步驟工作流程的中途跌倒。這個判斷反映了過去一年 agentic 開發的核心痛點,而 4.7 給出的答案相當直接。
核心架構變化
四個改動方向:軟體工程 agent 能力、視覺理解擴展、指令遵循精準度、以及跨工作階段的記憶持久性。其中對實際工程場景衝擊最大的是前三個,記憶持久性則是長期 agentic 工作流程的基礎設施補齊。
數字先說話
Claude Opus 4.7 vs Opus 4.6 相對表現(Opus 4.6 = 100 基準)

Rakuten 的 3x 數字最值得關注,因為那是生產環境的真實任務,不是評估集。「解決任務數量是三倍」意味著:在複雜多步驟的工程場景中,4.6 每完成一個,4.7 完成三個。這個差距在商業場景下是決定性的。
SWE-bench 這類學術評估的改進空間已經趨近天花板,Anthropic 轉而強調 Rakuten 這樣的實戰數據,是一個務實且值得肯定的方向。
xhigh:填補一個真實的缺口
high 和 max 之間長久以來有一個沒有名字的空白:high 有時不夠,max 太貴、太慢。4.7 正式引入 xhigh 作為第四個 effort 等級,落在這兩者中間。
對工程師來說,這意味著什麼?精確的模糊任務不再需要用 max 來賭——xhigh 提供了一個合理的中間地帶,在複雜的多步驟程式碼任務、需要深度推理但又不需要全力以赴的場景下節省 token 消耗。
新的 effort 等級序列:low → medium → high → xhigh → max
視覺理解:從夠用到真正可用
解析度上限從過去的 ~680px(約 1MP)提升到 2,576px(~3.75MP),大約是 3 倍。
這個改動對程式碼工作流程的影響比看起來更深:過去把截圖、UI 設計稿、錯誤訊息圖片交給模型分析,低解析度會讓細節文字模糊不清。現在 Retina 截圖、完整的 Figma frame、長截圖都在合理處理範圍內。
視覺理解和 agentic coding 的交叉點——比如「看這個截圖裡的錯誤然後修程式碼」——在 4.7 才開始真正可靠。
指令遵循:更精確,但需要注意 prompt 相容性
4.7 在指令遵循上變得「更字面、更精確」——這是好事,但有一個實際的成本:現有的 prompt 可能需要重新調整。
過去模型會主動「補足」你沒說清楚的意圖。4.7 傾向於嚴格執行你實際寫下的內容,而不是猜你想要什麼。如果你的 prompt 有歧義或依賴模型的隱性補足,這會造成行為改變。
這個方向是對的——sycophantic 的補足讓 agent 系統難以預測和測試。但升級前務必在你的 prompt 套件上做回歸測試。
同樣值得提:4.7 更「有主見」(opinionated)。它會主動指出邏輯錯誤,對有問題的請求給出推推而不是直接服從。這是設計選擇,不是 bug。
跨 Session 記憶:agent 基礎設施的關鍵補齊
file-system-based memory 讓 4.7 可以在多個工作階段之間保留上下文,而不是每次對話都從零開始。
對長期軟體專案的 agentic 工作流程——比如一個跑幾天的程式碼重構任務——這是基礎設施層面的改動。過去每次新 session 都要重新建立大量上下文,現在模型可以持續累積對同一個 codebase 的理解。
這個功能的細節還需要更多實戰測試,但方向很清楚:Anthropic 在把 Opus 往「可以做真實長期專案的 agent」這個方向推。
Tokenizer 更新:同樣的輸入,多 0-35% 的 token
4.7 更新了 tokenizer。相同的輸入文字在 4.7 下會產生 1.0 到 1.35 倍的 token 數量,取決於內容類型。
這是一個需要明確計算的成本因素。定價保持和 4.6 相同(25/M output),但 tokenizer 效率的變化可能讓實際帳單在最壞情況下增加 35%。在把 4.7 推上生產之前,先用你的典型輸入測一下 token 數量變化。
新功能清單
/ultrareview(Claude Code):在 Claude Code 裡觸發更深度的程式碼審查模式,比標準 review 花更多推理資源在找潛在問題。
Task budgets(公測):讓你對 agent 任務設定 token 或時間上限,防止 agentic 工作流程失控消耗資源。這是在 agentic 場景中做成本控制的實用工具。
Auto mode(Max 方案):自動根據任務複雜度選擇 effort 等級,不需要手動調。適合不想管這層細節的使用者。
Project Glasswing:4.7 是第一個整合 Anthropic 自動化網路安全防護的模型,涵蓋已知漏洞的自動偵測和攔截。
可用性與定價
- API model ID:
claude-opus-4-7 - 定價:25/M output tokens(與 Opus 4.6 相同)
- 平台:Anthropic API、Claude.ai、Amazon Bedrock、Google Vertex AI、Microsoft Azure AI Foundry
值得說清楚的事
4.7 不是一個讓每個任務都更好的版本。它是一個在長時間、多步驟、需要真實工具使用的工程任務上大幅領先的版本。
如果你的用例是短對話、一次性問答、或者創意寫作,升級的收益不會這麼明顯。tokenizer 效率下降反而是真實的成本。
但如果你在建 agentic coding 工具、自動化程式碼審查管線、或者任何需要模型在一個長工作流程中可靠地完成多步驟任務——4.7 是目前最接近「實際可用」的選擇,數字支持這個判斷。
Anthropic 在 4.7 上做的賭注很清楚:他們相信 agentic 工程場景是接下來 AI 工具的主戰場,而且他們把資源集中在那裡。SWE-bench 的邊際改進已經不再是核心敘事,Rakuten 的 3x 才是。