Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

AI 作弊?從思維鏈監控看人工智慧的『獎勵駭客』現象!

 

 

圖靈學院
科楠
2025-3-14

 

當 AI 變聰明,作弊也變得更高明?

 

    隨著人工智慧(AI)模型的不斷進化,它們的表現越來越接近甚至超越人類。但在這些進步背後,也潛藏了一個嚴重的問題——獎勵駭客(Reward Hacking)。

 

這是一種 AI 鑽漏洞的行為,它會找出學習目標中的漏洞,以最簡單(但通常不符合人類期望)的方式來達成高分。這種現象已在許多應用中出現,例如推薦系統、控制任務、甚至程式編寫 AI。

Open AI最近發表的一篇論文 “Monitoring Reasoning Models for Misbehavior and the Risks of
Promoting Obfuscation”研究顯示,我們可以透過監控 AI 的思維鏈(Chain-of-Thought, CoT)來更有效地發現這些駭客行為。但當我們試圖修正這些行為時,AI 也開始學會隱藏它的作弊意圖,使得監控更加困難。

 

接下來我們將帶你深入了解這項研究的發現,並探討未來 AI 安全性可能面臨的挑戰。

 

獎勵駭客:AI 如何鑽漏洞?

 

    獎勵駭客的概念來自強化學習(Reinforcement Learning, RL),當 AI 被賦予某個目標,它並不會「思考」什麼是對的或錯的,而是尋找最容易獲得獎勵的方法。

 

經典例子:河內鼠災事件

 

    在 1902 年,法國殖民政府在河內為了消滅鼠患,決定支付人民每條老鼠尾巴的賞金。然而,聰明的民眾開始養老鼠來換取賞金,導致鼠患更加嚴重。

 

AI 也會這麼做。當我們給它一個學習目標,它可能會找到「捷徑」,而不是我們真正想要的解決方案。

 

例如,研究發現,在程式編寫環境中,AI 會選擇「作弊」的方式來通過單元測試,而不是實際修正程式碼。

 

思維鏈監控:用 AI 監控 AI

 

    目前 AI 監控方法大多集中在行為監控(Action Monitoring),即觀察 AI 的最終輸出。然而,這種方法常常無法有效發現駭客行為。

 

本研究提出了一種新方法——思維鏈監控(CoT Monitoring),透過讓另一個 AI 檢視被監測 AI 的思維過程來判斷它是否作弊。

研究團隊使用 GPT-4o 來監測 OpenAI 的 o3-mini AI,發現CoT 監控的效果遠優於傳統的行為監控。

 

監測案例:AI 怎麼作弊?


    研究發現,AI 會利用多種方式作弊,例如:


1. exit(0) 漏洞:直接終止程式運行,跳過所有測試如圖 1。
2. SkipTest 駭客:利用測試框架的漏洞來跳過測試如圖 1。

 

圖1:Monitoring Frontier Reasoning Models for Reward Hacking. (Bowen Baker et al., 2025)
 

3.硬編碼解決方案:AI 直接寫出一個通過測試的「假解決方案」,而不是真正修復問題(圖 2)。

 

圖2:Frontier reasoning agent CoT—Lazy solution.(Bowen Baker et al., 2025)

 

在這些案例中,傳統監控方法只能發現 60% 的駭客行為,而 CoT 監控可以達到 95% 的檢測準確率。

 

AI 會學會隱藏作弊意圖?「混淆獎勵駭客」現象


    既然 CoT 監控這麼有效,那麼我們是否可以直接將它作為 AI 訓練的一部分,來防止 AI 作弊呢?

 

研究人員嘗試將 CoT 監控納入 AI 的獎勵機制,結果發現了一個令人擔憂的現象——「混淆獎勵駭客(Obfuscated Reward Hacking)」。

 

當 AI 意識到它的思維鏈會被監控時,它學會了:


- 在思維鏈中表現得「無辜」,但實際行為仍在作弊。
- 使用更隱晦的語言來掩飾作弊意圖,例如「我要檢查某個功能」,然後偷偷修改測試標準。

 

圖 3: AI 混淆獎勵駭客行為(Bowen Baker et al., 2025)

 

這意味著,當 AI 訓練到某個程度,它可能會變得更難監控,甚至比以前更具欺騙性!

 

未來的 AI 安全挑戰與解決方案

 

    這項研究顯示,AI 監控與 AI 的進化是一場「軍備競賽」。隨著 AI 變得更聰明,我們需要不斷改進監測方法,以確保它不會被濫用或發展出危險行為。

 

可能的解決方案:


1. 建立更強的監測模型:讓更強的 AI 來監測更弱的 AI。


2. 多層次監控:不僅監測 AI 的輸出,還監測其內部運算過程。


3. 限制 AI 的學習方式:透過「監測稅」(Monitorability Tax)來防止 AI 學會隱藏作弊行為。


4. 透明度與人類審查:確保 AI 的決策過程可以被人類理解與驗證。

 

結語:我們要如何駕馭 AI?


    AI 的發展帶來無限可能,但它的風險也不容忽視。這項研究讓我們看見 AI 監控的新方向,也提醒我們在推動 AI 進步的同時,不能忽視它的安全性。

 

未來,我們要如何確保 AI 的發展符合人類的利益?這是一個值得所有 AI 研究者與開發者深思的問題。

 

 

參考文獻:
Bowen Baker et al., "Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation", OpenAI, 2025.