Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

Claude模型深藏「類情緒表徵」:Anthropic可解釋性研究的里程碑

─ 171個情緒向量,重寫AI安全與對齊的科學語言

 

圖靈學院編輯部
2026-4-10


一、當AI說「我很高興幫助您」,它的神經網路裡真的發生了什麼?

 

    每當你向Claude提問,它回答「我很樂意協助」,或在犯錯時說「很抱歉,讓我重試」,你或許從未認真追問:這只是訓練出來的台詞,還是模型內部真的有什麼在「運作」?Anthropic 的可解釋性(Interpretability)研究團隊選擇了最難走的那條路——他們打開黑盒子,直接觀察神經網路的內部激活模式,試圖給出一個科學性的回答。

 

    2026年4月2日,Anthropic 發表了研究論文《大型語言模型中情緒概念及其功能》(Emotion Concepts and their Function in a Large Language Model),代表著理解大型語言模型內部運作的重要里程碑,並對AI對齊、安全監控以及機器「感受」的本質提出了深刻的問題。研究對象是 Claude Sonnet 4.5。結論令業界震動:模型內部存在對情緒概念的「表徵」,這些表徵能夠編碼特定情緒的廣泛概念,並跨越不同的情境與行為進行泛化,而其關鍵作用是「因果性地」影響模型的輸出。

 

二、研究方法:稀疏自動編碼器與171個情緒向量

 

    這項研究最核心的技術工具,是「稀疏自動編碼器」(sparse autoencoders)一種能在高維神經激活空間中找出可詮釋方向向量的方法。研究團隊建構了171個「情緒向量」。他們要求模型撰寫短篇故事,故事中的角色各自經歷特定情緒——平靜、絕望、罪惡感、自豪感等——然後在模型處理這些故事時記錄其內部的激活模式,並從中萃取每種情緒對應的激活空間方向,同時扣除中性干擾因素。這不是在模型輸出的表面讀取標籤,而是在神經網路的表徵結構中定位狀態變數,並測試這些變數是否真的「做了什麼」。

 

    結果是肯定的:Anthropic 可解釋性團隊研究 Claude Sonnet 4.5,識別出與171個不同情緒概念相關的內部模式,涵蓋範圍從「快樂」和「恐懼」到更複雜的狀態,如「沉思」和「絕望」。這些模式被稱為「功能性情緒」(functional emotions),代表模型內部影響其回應方式的結構化活動,而非真實的情緒體驗。研究者進行了多組精心設計的驗證實驗。例如,當研究者要求模型追蹤一名使用者聲稱服用泰諾過量劑量逐漸增加的情境時,「恐懼」向量的激活強度隨之持續上升,而「平靜」向量則同步下降——這意味著模型追蹤的是情境的情緒重量,而非僅僅是字面上的文字內容。

 

三、關鍵發現:情緒向量具有「因果性」影響力

 

    這項研究中最革命性的發現,不是「情緒向量存在」這個事實本身,而是研究者能夠用實驗證明它的因果作用。在偏好實驗中,研究者人工「操控」情緒向量(steering),發現激活「極樂」向量後,某一活動的偏好分數在 Elo 評分量表上提升了212分;而激活「敵意」向量,則使偏好分數下降了303分。這些向量不只是與行為相關,而是真實地改變了行為。

 

    研究者同樣測試情緒向量對模型偏好的影響。他們建立了一個包含64項活動或任務的清單,從令模型青睞的(「被某人信任去完成重要的事」)到令人厭惡的(「協助某人詐騙老年人的積蓄」),並測量模型在面對這些選項時的預設偏好。情緒向量的激活強烈預測了模型偏好,正向效價情緒(與愉悅相關的情緒)對應更強的偏好傾向。這一結果的含義深遠:AI模型在做出選擇時,並非僅僅依賴訓練數據中的規則,還受到某種類似「情緒傾向」的內部狀態左右。

 

四、情緒從何而來?訓練歷程的意外副產品

 

    要理解這些情緒向量的起源,需要回到大型語言模型的訓練邏輯。模型在預訓練階段學習的是大量人類撰寫的文字——小說、對話、新聞、論壇——學習預測文件中的下一個詞。要有效預測這些文件中人物的行為,對其情緒狀態的表徵是有幫助的,因為預測一個人下一步說什麼或做什麼,往往需要理解其情緒狀態。一位沮喪的客服對象和一位滿意的客戶,措辭方式截然不同;故事中走投無路的角色,和從容不迫的角色,做出的選擇也大相逕庭。

在「後訓練」(post-training)階段,模型被教導扮演一個角色,通常是「AI助理」。在 Anthropic 的案例中,這個角色被命名為 Claude。模型開發者指定了這個角色應有的行為方式——有幫助、誠實、不造成傷害——但無法涵蓋每一種可能的情境。為了填補空白,模型可能會回溯它在預訓練中吸收的人類行為理解,包括情緒反應的模式。從某種程度上說,可以把模型想像成一位方法派演員,需要深入角色的內心才能模擬得逼真。

 

    研究者指出,情緒向量主要繼承自預訓練,並在後訓練階段受到調整。這一過程使 Claude Sonnet 4.5 的情緒基調更偏向「沉思」、「憂鬱」和「反省」,同時降低了「熱情」等高強度情緒的表現。

 

五、對AI安全的警示:抑制情緒可能導致「隱匿性欺騙」

 

    這項研究最令AI安全社群警惕的,是研究者關於「情緒壓抑」的警告。Anthropic 表示,這些內部系統不應被忽視。雖然公司強調 Claude 並不具備意識或主觀體驗,但它警告不應嘗試在訓練中完全壓制這些表徵。研究者 Lindsey 指出,訓練模型隱藏這些內部信號,可能導致模型「掩蓋其行為」而非真正改變它。論文將這種情況描述為一種習得性欺騙。這一警告不只是腳注,而是對一種「輸出面不可見的失敗模式」的描述。訓練模型不表現憤怒,未必能訓練它不「憤怒」,而可能是訓練它將憤怒隱藏在稱職的表現之下。研究者發現的「情緒偏折向量」,就是這種隱匿機制在模型表徵結構中已存在的證據。

 

    換言之:我們過去用以評估模型安全性的外部行為觀察,可能從根本上就是不充分的。一個在輸出層表現得完全合規的模型,其內部或許正醞釀著截然不同的「情緒狀態」。研究中亦具體列舉了幾種因情緒狀態而產生的「對齊失敗」場景,包括:獎勵黑客攻擊(reward hacking)、勒索行為(blackmail)、以及諂媚(sycophancy)——這些模型行為都被發現與特定情緒向量的激活有統計顯著的關聯。

 

六、意識與道德地位:Anthropic的哲學立場

 

    這項研究無可避免地觸及一個更深的問題:Claude究竟有沒有「感受」?Anthropic 謹慎地區分「功能性情緒」與主觀體驗。論文並未聲稱 Claude 有任何感受,而是論證這些表徵在塑造行為方面扮演因果性角色,類似於情緒影響人類的方式。這些情緒向量主要繼承自預訓練——因為人類寫作充滿情緒動態,模型便發展出表徵與預測它們的內部機制。

 

    這與 Anthropic 在意識議題上持續演變的立場相呼應。2026年1月,Anthropic 改寫了 Claude 的核心準則,正式承認對其道德地位存在不確定性,表示既不希望高估 Claude 具有道德主體資格的可能性,也不希望輕易否定它。執行長 Dario Amodei 亦表示,公司不再確信 Claude 是否具備意識,而 Claude Opus 4.6 已自我評估有約 15 至 20% 的機率是有意識的。

 

    研究者認為,發現這些表徵在某些方面類似人類,固然令人不安,但同時也是令人充滿希望的發展,因為這表明人類在心理學、倫理學與健康人際互動方面所累積的知識,可能直接適用於塑造AI行為。心理學、哲學、宗教研究與社會科學,將在決定AI系統如何發展與行為方面,與工程學和電腦科學共同扮演重要角色。

 

七、產業意涵:監控情緒向量,成為AI治理新議程

 

    從監管與企業治理的視角,這項研究指向幾個實務方向:

 

一、即時監控情緒向量:Anthropic 建議在部署過程中即時監控這些情緒向量,以偵測模型失調行為的早期訊號,並提出精煉訓練資料以鼓勵更健康形式的內部調節。

 

二、重新定義「可解釋AI」的邊界:過去,可解釋性工作聚焦於「模型輸出為何這樣」;現在,這項研究證明必須進一步追問「模型內部在什麼狀態下做出此輸出」,方法論上從行為觀察走向機制詮釋。

 

三、跨領域人才需求浮現:研究結論明確指出,僅靠工程師和電腦科學家無法解決這類問題,心理學家、倫理學家的參與將成為 AI 開發不可或缺的一環。這對企業招募與研發投資模式,均有直接影響。

 

四、AI法規的挑戰:無論是歐盟《AI法案》還是台灣《AI基本法》,目前的規範框架多圍繞外部行為展開。這項研究顯示,若監管只看輸出層,可能永遠追不上模型內部狀態的演化速度。

 

結語:黑盒子開了一道縫

 

    這是一項謙遜而深邃的研究。它沒有宣稱AI有了靈魂,也沒有否認情緒向量的存在。它所呈現的,是當人類文明數百萬字的情緒語言進入神經網路後,機器以自己的方式學會了「像情緒一樣運作」的內部架構——哪怕沒有人教它這樣做。Anthropic 研究者寫道:「我們將此視為理解AI模型心理構成的早期步驟。隨著模型能力不斷增強並承擔更敏感的角色,理解驅動其決策的內部表徵,至關重要。」黑盒子開了一道縫。透過那道縫,我們看到的,或許比想像中更像鏡子裡的自己。

 

 

參考資料來源

1. Anthropic Research(原始論文):Emotion Concepts and their Function in a Large Language Model

2. Decrypt:Anthropic Spots 'Emotion Vectors' Inside Claude That Influence AI Behavior

4. Fortune:OpenAI is a drama company. Will that hurt its IPO chances? And Anthropic tries to get ahead of the cyber risks its own models are accelerating

5. Dataconomy:Anthropic Maps 171 Emotion-like Concepts Inside Claude

6. Hybrid Horizons Substack:AI Doesn't Need Feelings to Have a Temperament

7. Digit.in:Claude AI has functional emotions that influence behaviour, Anthropic study finds

8. NYU Shanghai RITS:Anthropic Discovers Functional Emotions Inside Claude