Claude Opus 4.8 實測評測：誠實度躍進、動態工作流，與三倍便宜的 Fast 模式

圖靈學院內的文章包含三大主題：ESG浄零實驗室、AI實驗室及精實管理實驗室，我們會不定期分享相關主題之文章，也歡迎並對前述主題有興趣的學員投稿分享您的見解 (我要投稿)

圖靈學院創辦人科楠老師的願景

Claude Opus 4.8 實測評測：誠實度躍進、動態工作流，與三倍便宜的 Fast 模式

圖靈學院編輯部
2026-6-4

Anthropic 在五月底悄悄換上新旗艦。它沒有炫目的新介面，卻在「誠實」、「代理效率」與「程式碼品質」三條軸線上同時推進——這篇報導帶你看懂它的實力，以及台灣使用者到底該不該升級。

先說結論：Claude Opus 4.8 是一次「磨利刀刃」而非「重造刀身」的更新。Anthropic 於 2026 年 5 月 28 日正式推送這個新版本，定價與前一代 Opus 4.7 完全相同——每百萬輸入 token 美金 5 元、輸出 25 元，脈絡視窗一樣維持在 100 萬 token，輸入端同樣支援文字與影像。換句話說，你付一樣的錢，卻拿到一個判斷力更好、更願意承認自己不確定的模型。

對長期關注 AI 工具的我們來說，這種「同價加量」的更新方式特別值得玩味。過去業界習慣用降價來製造話題，Anthropic 這次卻是把旗艦基礎價格按住不動，只在速度與品質上做文章。這也意味著：如果你已經在用 Opus，升級幾乎沒有任何代價；如果你還在觀望，這篇文章會幫你把帳算清楚。

三條進化主軸，一次看懂

官方把這次更新的重點收斂在三件事：誠實度（Honesty）、代理任務效率（Agentic Efficiency）、生成程式碼品質（Code Quality）。它沒有擴大脈絡視窗、也沒有重寫底層架構，而是把這三個維度同時往上推。下面這張圖，是我整理後最直觀的版本。

圖一　Opus 4.8 不擴張規格，而是把誠實、效率、品質三條軸線同時往上推。

最有感的改變：它學會說「我不確定」

這次更新中，我認為最被低估、卻最實用的，是「誠實度」的躍進。所有大型語言模型都有一個老毛病：在證據其實很薄弱時，仍然信心滿滿地宣稱「我完成了」。對寫程式的人來說，這代表你得花更多時間去抓它沒抓到的錯。

「它會在 200 行歪掉之前就停下來，告訴你為什麼方向不對，並提出替代方案。」

根據官方的對齊評估，Opus 4.8 放任自己寫的程式碼缺陷「未經標記就通過」的機率，比 4.7 大約少了四倍；它也是第一個在「不加批判地回報有瑕疵結果」這項測試上拿到 0% 的 Claude 模型。多家早期測試夥伴的回饋也呼應這點：它更願意主動指出輸入與輸出的問題、在計畫不夠周全時會「回頭頂你一下」，而不是埋頭把錯的方向走完。對任何把 AI 當成協作者、而非聽話機器的人來說，這種「會踩煞車」的特質，價值遠高於多幾分基準分數。

基準成績：全面領先，但要看懂門道

數字面上，Opus 4.8 在官方公布的六項頭條基準中拿下五項第一。最關鍵的是 SWE-Bench Pro——這是 SWE-bench 系列裡最硬的版本，題目來自仍在維護的真實程式庫、需要跨檔案修改，而且沒有公開答案可供「背題」。

圖二　在最難的 SWE-Bench Pro 上，Opus 4.8 領先 GPT-5.5 約 10.6 分、領先 Gemini 3.1 Pro 約 15 分。

其他亮點也不少：電腦操作基準 OSWorld-Verified 拿下 83.4%、瀏覽器代理任務 Online-Mind2Web 達到 84%（由第三方 Browserbase 實測），知識工作評估 GDPval-AA 更以 1890 分大幅領先 GPT-5.5 的 1769 分與 Gemini 3.1 Pro 的 1314 分。法律代理基準上，它也創下歷史最高分，成為首個在「全部通過」嚴格標準上突破 10% 的模型。不過我們必須提醒一個小細節，這正是 Anthropic 透明的地方：Opus 4.7 的 OSWorld 分數因為一個縮放工具的修正，被「重新校正」上修到 82.3%。從善意角度看，這是方法學的清理；但也讓 4.7 到 4.8 的進步幅度，看起來比原始計分時小一些。看評測，永遠要看清楚基準是怎麼跑出來的。

Claude Code 的殺手級新功能：動態工作流

如果要選這次最具野心的功能，那一定是與 Opus 4.8 同日登場、目前以研究預覽形式推出的「動態工作流（Dynamic Workflows）」。簡單說，它讓 Claude Code 能夠先規劃整體任務，接著在「同一個工作階段」內派出數百個平行子代理，最後在回報給你之前，先用既有的測試套件驗證自己的成果。

圖三　動態工作流讓單一階段能編排數百個子代理，並在回報前自我驗證——可承接「整個程式庫」級別的遷移任務。

這代表什麼？官方舉的例子是：Claude Code 搭配 Opus 4.8，已能從頭到尾完成「橫跨數十萬行程式碼」的程式庫遷移，並以既有測試套件作為驗收標準。業界實測中，甚至有開發者用它在 11 天內遷移了約 75 萬行 Rust 程式碼。這項功能目前開放給 Enterprise、Team 與 Max 方案，並需要 Claude Code v2.1.154 以上版本。對軟體團隊而言，這已經從「AI 寫程式」躍升到「AI 接管專案級工程」的層次。

努力程度控制：把油門交還給你

另一個對一般使用者更貼身的更新，是 claude.ai 與 Cowork 介面新增的「努力程度（Effort）」控制，就在模型選單旁邊。它讓你決定 Claude 要花多少力氣回答：調高，它會思考得更頻繁、更深入，給出更好的答案；調低，它回得更快、也更省你的用量額度。Opus 4.8 預設為「高」努力，官方認為這是品質與體驗的最佳平衡。難題或長時間的非同步任務，可以再往上調到「extra」（在 Claude Code 中稱 xhigh）或「max」。這個設計很務實——它把「要快還是要好」的選擇權，重新交回使用者手上。所有方案都能使用這項控制。

價格與 Fast 模式：真正讓人心動的是這裡

前面說過，標準定價沒變。但這次最聰明的一步，藏在「Fast 模式」。Opus 4.8 的快速模式能以 2.5 倍速度運行，價格卻只有過去 Opus 快速模式的三分之一。對需要大量、高頻呼叫的代理迴圈來說，這等於把原本「貴到不敢用」的旗艦，拉進了可負擔的範圍。Databricks 在其 Genie 代理上，甚至回報 token 成本比 4.7 便宜了 61%。

給台灣使用者的實用觀點

站在台灣產業與教育現場的角度，我們會這樣定位 Opus 4.8：它最大的受益者，是「需要把 AI 嵌進真實工作流程」的人——軟體團隊的程式庫維護、製造業的排程與分析、ESG 顧問的法規文件與碳盤查報告、財務與法律的文件審閱。誠實度的提升，對這些「錯了會有真實後果」的場景特別關鍵；而 Fast 模式的降價，則讓中小企業也敢把它放進自動化流程。

值得留意的時間點是：官方已預告，能力更高的「Mythos 級」模型將在數週內陸續開放（目前透過 Project Glasswing 供少數組織用於資安研究）。也就是說，Opus 4.8 很可能是「Mythos 時代之前的最後一代旗艦」。如果你正在做基礎建設決策，建議把這個轉換期一併納入規劃。

結語：值得升級嗎？

如果你已經在用 Opus 4.7，答案幾乎是無腦升級，同樣的價格、更好的判斷力、更省的工具呼叫，幾乎零遷移成本。如果你還在用更便宜的模型，那要看你的任務「錯了會不會痛」：會痛的，Opus 4.8 多花的成本買得回安心；只是聊天問答，Sonnet 或 Haiku 仍然更划算。Anthropic 自己稱它是「幅度不大但確實有感」的進步。我同意——它不是讓你驚呼的革命，而是讓你在日復一日的真實工作裡，慢慢學會更信任它的那種升級。

最後我們給的評分：8.7 / 10

本文為獨立試用評測，數據引用自 Anthropic 官方公告（2026/5/28）、Claude Opus 4.8 System Card 及第三方基準測試，撰文時資訊為準。

聯絡我們

電話: 04-37-031-031

傳真: 04-2473-3865

電子郵件: info@ibco.com.tw

地址: 台中市烏日區高鐵三路29號12F-1

歡迎訂閱IBCO電子報隨時更新最新ESG/AI議題

Replace this text with information about you and your business or add information that will be useful for your customers.

圖靈學院內的文章包含三大主題：ESG浄零實驗室、AI實驗室及精實管理實驗室，我們會不定期分享相關主題之文章，也歡迎並對前述主題有興趣的學員投稿分享您的見解 (我要投稿)

圖靈學院創辦人 科楠老師的願景