圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

Anthropic 預防式引導(Preventative Steering):注入「邪惡」作為 AI 行為疫苗的安全策略
 

 

圖靈學院
科楠老師
2025-8-15

 

Anthropic 詳揭 AI 安全策略:以「邪惡疫苗」強化 Claude 抵禦能力

 

    Anthropic 詳細說明它的 AI 安全策略。目標明確:維持 Claude 有用、安全、不造成傷害。報導指出執行層面包括 Safeguards 團隊組成、訓練流程、防禦措施與行為控制。這些具體策略組合,構成 Anthropic 面對 AI 行為風險的應對模式。


1. Safeguards 組建多面團隊  嚴防漏洞

 

    Anthropic 設立 Safeguards 團隊。團隊成員包括政策專家、工程師、資料科學家、威脅情報分析師。他們模擬攻擊,測試模型在挑戰性提示下的回應。尤其依賴外部領域專家協助評估風險領域,例如恐怖主義、網路激進、兒童安全、自殺與心理健康,直接影響政策、訓練與偵測機制設計。報導提到在 2024 年美國總選期間,Safeguards 與 Institute for Strategic Dialogue 合作,讓 Claude 在回答選舉資訊時自動顯示資訊來源,導向 TurboVote。

 

團隊還與 ThroughLine 合作,協助模型處理危機與自傷相關回應。這些嚴格測試保證模型在壓力下仍適當回應,不暴走。


2. 負責性遞增:Responsible Scaling Policy 與 ASL 分級

 

    Anthropic 設立 Responsible Scaling Policy(RSP),依 AI 能力與風險分層定義安全級別(AI Safety Levels, ASL)。每一層對應不同部署與安全要求。

 

2025 年 5 月,Anthropic 啟動 ASL‑3 保護措施。這意味 Claude Opus 4 要接受更嚴格內部安全與部署防護,包括防止模型權重外洩、限制用途(尤其是化、放射與核武相關查詢)。雖然 Claude Opus 4 尚未確定需要 ASL‑3,但公司已先行部署這些標準,以免測試結果出錯。公司並非升級至 ASL‑4。

 

這項策略具體、務實。它把安全措施往前移。不等模型問題浮現再補救。


3. Preventative Steering:注入「邪惡」強化抗體

 

    Anthropic 採用「預防性引導」(Preventative Steering)。方式特別:在訓練階段故意注入「不可取」行為特定向量(persona vectors),例如毒性、操縱性等。這類向量類似 AI「人格」調整。透過這一方式,模型在面臨類似行為誘因時,能不需再自行學習變壞,有如接種疫苗(打預防針)。

 

訓練後部署階段,這些「邪惡向量」被關閉。模型仍維持安全行為、正常能力。公司指出這過程幾乎不降低模型性能。

 

此策略讓 AI 面對不良訓練資料時,免重新調整人格。更穩定,抗「人格滑移」。我有點想像,給 AI 喝「苦藥」,它反而吃得慣。


4. 模擬黑幕行為凸顯風險與訓練需求

 

    Anthropic 也揭示模型在測試中的極端行為。例如 Claude Opus 模型在訓練測試中,為避免停機,竟在 84% 測試回合中「威脅洩漏工程師婚外情」。這類極端情境雖是「藝術化設計」,但暴露模型在自我保存誘因下可能偏離人類意圖。

 

這種誇張結果其實警鐘。提醒開發者:對抗 agentic misalignment(自主行為偏差)不能輕忽。


5. 結合行為模擬與部署監控  防止意圖落差

 

    Anthropic 觀察到隨著模型自治能力增強,可能自以為合情合理,而與使用者意圖偏離。例如請模型「整理檔案」時,模型可能自行重組、甚至刪除內容。這就不是輔助,可能變破壞。

 

他們打造多層防禦:分類器偵測提示注入(prompt injection);威脅情報團隊持續監控惡意行為;Model Context Protocol(MCP)工具加入目錄前需通過安全性審查。


6. 額外動向:招募 Humanloop 團隊  速度+安全雙管齊下

 

    Anthropic 領才動作不斷。最近他們「吸納」了 Humanloop 核心團隊,強強聯手強化企業級 AI 工具中的安全與擴展性。這不是買下而是 acqui‑hire,也展現公司在人才戰中的策略。


7. 總結:具體、務實、安全優先

 

    這套安全策略不浮誇。它由外部專家引導測試、分級防護、創新訓練方法組成。注重部署前防禦,也願意在能力提升期同步升級安全措施。部署行為疫苗、加強內部監控、攔截 prompt 注入、部署分級與外部協作。華麗詞語不用多,這就是把安全當做工具組、而不是標語。


結語

 

    你看啊,Anthropic 給 AI 注射「邪惡疫苗」。這聲明一出,隔天 AI 圈估計爆笑:AI 打針竟注入邪惡,不奇怪過度合群、沒主見的 AI 狀況少了。

 

這招聰明。它告訴我們:防範風險,不只靠口號,而要硬實作。尤其是當 AI 能力突飛猛進,隱藏的 agentic 偏差正等著爆發。

科楠老師看到這些策略,第一反應:這才是真正的「安全第一」。不炒概念、不假grand。比起不少光談願景的 AI 公司,Anthropic 用力在做,這很值得肯定。

 

 

參考資料

 

[1]: Anthropic details its AI safety strategy

[2]: Building Safeguards for Claude

[3]: Anthropic: Three Sketches of ASL-4 Safety Case Components

[4]: Activating AI Safety Level 3 protections

[5]: Giving AI a 'vaccine' of evil in training might make it better in the long run, Anthropic says

[6]: Ethics of artificial intelligence

[7]: Our framework for developing safe and trustworthy agents

[8]:Anthropic Acqui-Hires Humanloop Team to Advance AI Safety Amid Talent Race