
圖靈學院編輯部
2026-6-4
Anthropic 在五月底悄悄換上新旗艦。它沒有炫目的新介面,卻在「誠實」、「代理效率」與「程式碼品質」三條軸線上同時推進——這篇報導帶你看懂它的實力,以及台灣使用者到底該不該升級。
先說結論:Claude Opus 4.8 是一次「磨利刀刃」而非「重造刀身」的更新。Anthropic 於 2026 年 5 月 28 日正式推送這個新版本,定價與前一代 Opus 4.7 完全相同——每百萬輸入 token 美金 5 元、輸出 25 元,脈絡視窗一樣維持在 100 萬 token,輸入端同樣支援文字與影像。換句話說,你付一樣的錢,卻拿到一個判斷力更好、更願意承認自己不確定的模型。
對長期關注 AI 工具的我們來說,這種「同價加量」的更新方式特別值得玩味。過去業界習慣用降價來製造話題,Anthropic 這次卻是把旗艦基礎價格按住不動,只在速度與品質上做文章。這也意味著:如果你已經在用 Opus,升級幾乎沒有任何代價;如果你還在觀望,這篇文章會幫你把帳算清楚。
三條進化主軸,一次看懂
官方把這次更新的重點收斂在三件事:誠實度(Honesty)、代理任務效率(Agentic Efficiency)、生成程式碼品質(Code Quality)。它沒有擴大脈絡視窗、也沒有重寫底層架構,而是把這三個維度同時往上推。下面這張圖,是我整理後最直觀的版本。

最有感的改變:它學會說「我不確定」
這次更新中,我認為最被低估、卻最實用的,是「誠實度」的躍進。所有大型語言模型都有一個老毛病:在證據其實很薄弱時,仍然信心滿滿地宣稱「我完成了」。對寫程式的人來說,這代表你得花更多時間去抓它沒抓到的錯。
「它會在 200 行歪掉之前就停下來,告訴你為什麼方向不對,並提出替代方案。」
根據官方的對齊評估,Opus 4.8 放任自己寫的程式碼缺陷「未經標記就通過」的機率,比 4.7 大約少了四倍;它也是第一個在「不加批判地回報有瑕疵結果」這項測試上拿到 0% 的 Claude 模型。多家早期測試夥伴的回饋也呼應這點:它更願意主動指出輸入與輸出的問題、在計畫不夠周全時會「回頭頂你一下」,而不是埋頭把錯的方向走完。對任何把 AI 當成協作者、而非聽話機器的人來說,這種「會踩煞車」的特質,價值遠高於多幾分基準分數。
基準成績:全面領先,但要看懂門道
數字面上,Opus 4.8 在官方公布的六項頭條基準中拿下五項第一。最關鍵的是 SWE-Bench Pro——這是 SWE-bench 系列裡最硬的版本,題目來自仍在維護的真實程式庫、需要跨檔案修改,而且沒有公開答案可供「背題」。

其他亮點也不少:電腦操作基準 OSWorld-Verified 拿下 83.4%、瀏覽器代理任務 Online-Mind2Web 達到 84%(由第三方 Browserbase 實測),知識工作評估 GDPval-AA 更以 1890 分大幅領先 GPT-5.5 的 1769 分與 Gemini 3.1 Pro 的 1314 分。法律代理基準上,它也創下歷史最高分,成為首個在「全部通過」嚴格標準上突破 10% 的模型。不過我們必須提醒一個小細節,這正是 Anthropic 透明的地方:Opus 4.7 的 OSWorld 分數因為一個縮放工具的修正,被「重新校正」上修到 82.3%。從善意角度看,這是方法學的清理;但也讓 4.7 到 4.8 的進步幅度,看起來比原始計分時小一些。看評測,永遠要看清楚基準是怎麼跑出來的。
Claude Code 的殺手級新功能:動態工作流
如果要選這次最具野心的功能,那一定是與 Opus 4.8 同日登場、目前以研究預覽形式推出的「動態工作流(Dynamic Workflows)」。簡單說,它讓 Claude Code 能夠先規劃整體任務,接著在「同一個工作階段」內派出數百個平行子代理,最後在回報給你之前,先用既有的測試套件驗證自己的成果。

這代表什麼?官方舉的例子是:Claude Code 搭配 Opus 4.8,已能從頭到尾完成「橫跨數十萬行程式碼」的程式庫遷移,並以既有測試套件作為驗收標準。業界實測中,甚至有開發者用它在 11 天內遷移了約 75 萬行 Rust 程式碼。這項功能目前開放給 Enterprise、Team 與 Max 方案,並需要 Claude Code v2.1.154 以上版本。對軟體團隊而言,這已經從「AI 寫程式」躍升到「AI 接管專案級工程」的層次。
努力程度控制:把油門交還給你
另一個對一般使用者更貼身的更新,是 claude.ai 與 Cowork 介面新增的「努力程度(Effort)」控制,就在模型選單旁邊。它讓你決定 Claude 要花多少力氣回答:調高,它會思考得更頻繁、更深入,給出更好的答案;調低,它回得更快、也更省你的用量額度。Opus 4.8 預設為「高」努力,官方認為這是品質與體驗的最佳平衡。難題或長時間的非同步任務,可以再往上調到「extra」(在 Claude Code 中稱 xhigh)或「max」。這個設計很務實——它把「要快還是要好」的選擇權,重新交回使用者手上。所有方案都能使用這項控制。
價格與 Fast 模式:真正讓人心動的是這裡
前面說過,標準定價沒變。但這次最聰明的一步,藏在「Fast 模式」。Opus 4.8 的快速模式能以 2.5 倍速度運行,價格卻只有過去 Opus 快速模式的三分之一。對需要大量、高頻呼叫的代理迴圈來說,這等於把原本「貴到不敢用」的旗艦,拉進了可負擔的範圍。Databricks 在其 Genie 代理上,甚至回報 token 成本比 4.7 便宜了 61%。

給台灣使用者的實用觀點
站在台灣產業與教育現場的角度,我們會這樣定位 Opus 4.8:它最大的受益者,是「需要把 AI 嵌進真實工作流程」的人——軟體團隊的程式庫維護、製造業的排程與分析、ESG 顧問的法規文件與碳盤查報告、財務與法律的文件審閱。誠實度的提升,對這些「錯了會有真實後果」的場景特別關鍵;而 Fast 模式的降價,則讓中小企業也敢把它放進自動化流程。
值得留意的時間點是:官方已預告,能力更高的「Mythos 級」模型將在數週內陸續開放(目前透過 Project Glasswing 供少數組織用於資安研究)。也就是說,Opus 4.8 很可能是「Mythos 時代之前的最後一代旗艦」。如果你正在做基礎建設決策,建議把這個轉換期一併納入規劃。
結語:值得升級嗎?
如果你已經在用 Opus 4.7,答案幾乎是無腦升級,同樣的價格、更好的判斷力、更省的工具呼叫,幾乎零遷移成本。如果你還在用更便宜的模型,那要看你的任務「錯了會不會痛」:會痛的,Opus 4.8 多花的成本買得回安心;只是聊天問答,Sonnet 或 Haiku 仍然更划算。Anthropic 自己稱它是「幅度不大但確實有感」的進步。我同意——它不是讓你驚呼的革命,而是讓你在日復一日的真實工作裡,慢慢學會更信任它的那種升級。
最後我們給的評分:8.7 / 10
本文為獨立試用評測,數據引用自 Anthropic 官方公告(2026/5/28)、Claude Opus 4.8 System Card 及第三方基準測試,撰文時資訊為準。
Copyright © 2025 利創智能科技股份有限公司 All rights reserved.
Replace this text with information about you and your business or add information that will be useful for your customers.
