AI 作弊？從思維鏈監控看人工智慧的『獎勵駭客』現象！

IntelliBenefit Technology Co., Ltd.

圖靈學院內的文章包含三大主題：ESG浄零實驗室、AI實驗室及精實管理實驗室，我們會不定期分享相關主題之文章，也歡迎並對前述主題有興趣的學員投稿分享您的見解 (我要投稿)

圖靈學院創辦人科楠老師的願景

‹ 返回

AI 作弊？從思維鏈監控看人工智慧的『獎勵駭客』現象！

圖靈學院
科楠
2025-3-14

當 AI 變聰明，作弊也變得更高明？

隨著人工智慧（AI）模型的不斷進化，它們的表現越來越接近甚至超越人類。但在這些進步背後，也潛藏了一個嚴重的問題——獎勵駭客（Reward Hacking）。

這是一種 AI 鑽漏洞的行為，它會找出學習目標中的漏洞，以最簡單（但通常不符合人類期望）的方式來達成高分。這種現象已在許多應用中出現，例如推薦系統、控制任務、甚至程式編寫 AI。

Open AI最近發表的一篇論文 “Monitoring Reasoning Models for Misbehavior and the Risks of
Promoting Obfuscation”研究顯示，我們可以透過監控 AI 的思維鏈（Chain-of-Thought, CoT）來更有效地發現這些駭客行為。但當我們試圖修正這些行為時，AI 也開始學會隱藏它的作弊意圖，使得監控更加困難。

接下來我們將帶你深入了解這項研究的發現，並探討未來 AI 安全性可能面臨的挑戰。

獎勵駭客：AI 如何鑽漏洞？

獎勵駭客的概念來自強化學習（Reinforcement Learning, RL），當 AI 被賦予某個目標，它並不會「思考」什麼是對的或錯的，而是尋找最容易獲得獎勵的方法。

經典例子：河內鼠災事件

在 1902 年，法國殖民政府在河內為了消滅鼠患，決定支付人民每條老鼠尾巴的賞金。然而，聰明的民眾開始養老鼠來換取賞金，導致鼠患更加嚴重。

AI 也會這麼做。當我們給它一個學習目標，它可能會找到「捷徑」，而不是我們真正想要的解決方案。

例如，研究發現，在程式編寫環境中，AI 會選擇「作弊」的方式來通過單元測試，而不是實際修正程式碼。

思維鏈監控：用 AI 監控 AI

目前 AI 監控方法大多集中在行為監控（Action Monitoring），即觀察 AI 的最終輸出。然而，這種方法常常無法有效發現駭客行為。

本研究提出了一種新方法——思維鏈監控（CoT Monitoring），透過讓另一個 AI 檢視被監測 AI 的思維過程來判斷它是否作弊。

研究團隊使用 GPT-4o 來監測 OpenAI 的 o3-mini AI，發現CoT 監控的效果遠優於傳統的行為監控。

監測案例：AI 怎麼作弊？