Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

Claude Opus 4.8 實測評測:誠實度躍進、動態工作流,與三倍便宜的 Fast 模式

 


圖靈學院編輯部
2026-6-4


    Anthropic 在五月底悄悄換上新旗艦。它沒有炫目的新介面,卻在「誠實」、「代理效率」與「程式碼品質」三條軸線上同時推進——這篇報導帶你看懂它的實力,以及台灣使用者到底該不該升級。


    先說結論:Claude Opus 4.8 是一次「磨利刀刃」而非「重造刀身」的更新。Anthropic 於 2026 年 5 月 28 日正式推送這個新版本,定價與前一代 Opus 4.7 完全相同——每百萬輸入 token 美金 5 元、輸出 25 元,脈絡視窗一樣維持在 100 萬 token,輸入端同樣支援文字與影像。換句話說,你付一樣的錢,卻拿到一個判斷力更好、更願意承認自己不確定的模型。


    對長期關注 AI 工具的我們來說,這種「同價加量」的更新方式特別值得玩味。過去業界習慣用降價來製造話題,Anthropic 這次卻是把旗艦基礎價格按住不動,只在速度與品質上做文章。這也意味著:如果你已經在用 Opus,升級幾乎沒有任何代價;如果你還在觀望,這篇文章會幫你把帳算清楚。


三條進化主軸,一次看懂


    官方把這次更新的重點收斂在三件事:誠實度(Honesty)、代理任務效率(Agentic Efficiency)、生成程式碼品質(Code Quality)。它沒有擴大脈絡視窗、也沒有重寫底層架構,而是把這三個維度同時往上推。下面這張圖,是我整理後最直觀的版本。

圖一 Opus 4.8 不擴張規格,而是把誠實、效率、品質三條軸線同時往上推。


最有感的改變:它學會說「我不確定」


    這次更新中,我認為最被低估、卻最實用的,是「誠實度」的躍進。所有大型語言模型都有一個老毛病:在證據其實很薄弱時,仍然信心滿滿地宣稱「我完成了」。對寫程式的人來說,這代表你得花更多時間去抓它沒抓到的錯。


「它會在 200 行歪掉之前就停下來,告訴你為什麼方向不對,並提出替代方案。」


    根據官方的對齊評估,Opus 4.8 放任自己寫的程式碼缺陷「未經標記就通過」的機率,比 4.7 大約少了四倍;它也是第一個在「不加批判地回報有瑕疵結果」這項測試上拿到 0% 的 Claude 模型。多家早期測試夥伴的回饋也呼應這點:它更願意主動指出輸入與輸出的問題、在計畫不夠周全時會「回頭頂你一下」,而不是埋頭把錯的方向走完。對任何把 AI 當成協作者、而非聽話機器的人來說,這種「會踩煞車」的特質,價值遠高於多幾分基準分數。

 

基準成績:全面領先,但要看懂門道


    數字面上,Opus 4.8 在官方公布的六項頭條基準中拿下五項第一。最關鍵的是 SWE-Bench Pro——這是 SWE-bench 系列裡最硬的版本,題目來自仍在維護的真實程式庫、需要跨檔案修改,而且沒有公開答案可供「背題」。

圖二 在最難的 SWE-Bench Pro 上,Opus 4.8 領先 GPT-5.5 約 10.6 分、領先 Gemini 3.1 Pro 約 15 分。


    其他亮點也不少:電腦操作基準 OSWorld-Verified 拿下 83.4%、瀏覽器代理任務 Online-Mind2Web 達到 84%(由第三方 Browserbase 實測),知識工作評估 GDPval-AA 更以 1890 分大幅領先 GPT-5.5 的 1769 分與 Gemini 3.1 Pro 的 1314 分。法律代理基準上,它也創下歷史最高分,成為首個在「全部通過」嚴格標準上突破 10% 的模型。不過我們必須提醒一個小細節,這正是 Anthropic 透明的地方:Opus 4.7 的 OSWorld 分數因為一個縮放工具的修正,被「重新校正」上修到 82.3%。從善意角度看,這是方法學的清理;但也讓 4.7 到 4.8 的進步幅度,看起來比原始計分時小一些。看評測,永遠要看清楚基準是怎麼跑出來的。


Claude Code 的殺手級新功能:動態工作流


    如果要選這次最具野心的功能,那一定是與 Opus 4.8 同日登場、目前以研究預覽形式推出的「動態工作流(Dynamic Workflows)」。簡單說,它讓 Claude Code 能夠先規劃整體任務,接著在「同一個工作階段」內派出數百個平行子代理,最後在回報給你之前,先用既有的測試套件驗證自己的成果。

圖三 動態工作流讓單一階段能編排數百個子代理,並在回報前自我驗證——可承接「整個程式庫」級別的遷移任務。


    這代表什麼?官方舉的例子是:Claude Code 搭配 Opus 4.8,已能從頭到尾完成「橫跨數十萬行程式碼」的程式庫遷移,並以既有測試套件作為驗收標準。業界實測中,甚至有開發者用它在 11 天內遷移了約 75 萬行 Rust 程式碼。這項功能目前開放給 Enterprise、Team 與 Max 方案,並需要 Claude Code v2.1.154 以上版本。對軟體團隊而言,這已經從「AI 寫程式」躍升到「AI 接管專案級工程」的層次。

 

努力程度控制:把油門交還給你


    另一個對一般使用者更貼身的更新,是 claude.ai 與 Cowork 介面新增的「努力程度(Effort)」控制,就在模型選單旁邊。它讓你決定 Claude 要花多少力氣回答:調高,它會思考得更頻繁、更深入,給出更好的答案;調低,它回得更快、也更省你的用量額度。Opus 4.8 預設為「高」努力,官方認為這是品質與體驗的最佳平衡。難題或長時間的非同步任務,可以再往上調到「extra」(在 Claude Code 中稱 xhigh)或「max」。這個設計很務實——它把「要快還是要好」的選擇權,重新交回使用者手上。所有方案都能使用這項控制。


價格與 Fast 模式:真正讓人心動的是這裡


    前面說過,標準定價沒變。但這次最聰明的一步,藏在「Fast 模式」。Opus 4.8 的快速模式能以 2.5 倍速度運行,價格卻只有過去 Opus 快速模式的三分之一。對需要大量、高頻呼叫的代理迴圈來說,這等於把原本「貴到不敢用」的旗艦,拉進了可負擔的範圍。Databricks 在其 Genie 代理上,甚至回報 token 成本比 4.7 便宜了 61%。


給台灣使用者的實用觀點


    站在台灣產業與教育現場的角度,我們會這樣定位 Opus 4.8:它最大的受益者,是「需要把 AI 嵌進真實工作流程」的人——軟體團隊的程式庫維護、製造業的排程與分析、ESG 顧問的法規文件與碳盤查報告、財務與法律的文件審閱。誠實度的提升,對這些「錯了會有真實後果」的場景特別關鍵;而 Fast 模式的降價,則讓中小企業也敢把它放進自動化流程。


    值得留意的時間點是:官方已預告,能力更高的「Mythos 級」模型將在數週內陸續開放(目前透過 Project Glasswing 供少數組織用於資安研究)。也就是說,Opus 4.8 很可能是「Mythos 時代之前的最後一代旗艦」。如果你正在做基礎建設決策,建議把這個轉換期一併納入規劃。


結語:值得升級嗎?


    如果你已經在用 Opus 4.7,答案幾乎是無腦升級,同樣的價格、更好的判斷力、更省的工具呼叫,幾乎零遷移成本。如果你還在用更便宜的模型,那要看你的任務「錯了會不會痛」:會痛的,Opus 4.8 多花的成本買得回安心;只是聊天問答,Sonnet 或 Haiku 仍然更划算。Anthropic 自己稱它是「幅度不大但確實有感」的進步。我同意——它不是讓你驚呼的革命,而是讓你在日復一日的真實工作裡,慢慢學會更信任它的那種升級。

 

最後我們給的評分:8.7 / 10
 

 

本文為獨立試用評測,數據引用自 Anthropic 官方公告(2026/5/28)、Claude Opus 4.8 System Card 及第三方基準測試,撰文時資訊為準。