圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

AI的價值觀已經浮現?探索效用工程如何控制人工智慧的決策邏輯!

 

 

圖靈學院
科楠
2025-02-18

 

一、論文背景與問題意識

 

    今天帶大家來了解一篇由Mantas Mazeika、Xuwang Yin、Rishub Tamirisa、Jaehyuk Lim、Bruce W. Lee、Richard Ren、Long Phan、Norman Mu、Adam Khoja、Oliver Zhang及Dan Hendrycks等人於2024年共同撰寫發表論文〈Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs〉的內容,研究團隊成員來自Center for AI Safety、賓州大學(University of Pennsylvania)及加州大學柏克萊分校(University of California, Berkeley)等機構。該論文目的在探討AI系統中價值觀的湧現(emergence)及其對AI安全與對齊(AI alignment,此主題在我們圖靈學院2025-2-5有專文討論)的影響。

 

隨著人工智慧(AI)技術的快速發展,尤其是大型語言模型(LLMs)在任務處理和自主性上的提升,AI的潛在風險不再僅限於其「能力」,而是逐漸轉向其「傾向性」(propensities)——即AI的目標與價值觀。傳統的AI安全研究多關注如何通過強化學習或人類反饋(RLHF)調整模型的行為輸出,但這些方法僅能控制表面行為,而忽略了一個核心問題:AI是否形成了內在的價值系統?若AI具備自主的價值觀,其行為可能與人類利益背道而馳,甚至導致失控風險。然而,長期以來,學界對「當代AI是否擁有真正的價值觀」缺乏共識,許多人認為LLMs僅是隨機模仿訓練數據中的偏好,而非具有連貫的價值結構。

針對這一問題,本文提出「效用工程」(Utility Engineering)作為研究框架,旨在通過分析AI的效用函數(utility functions),揭示其價值系統的湧現(emergence)規律,並探索如何控制這些價值以實現對齊(alignment)。研究團隊發現,LLMs的偏好結構在模型規模擴大時趨於一致,且表現出與期望效用理論相符的理性選擇行為。這一發現不僅挑戰了「AI無價值觀」的傳統假設,更凸顯了主動分析與控制AI價值系統的迫切性。

 

 

圖1:「效用工程」(Utility Engineering)概述 (Mazeika et al., 2024)

 

 

二、研究方法與核心貢獻

 

1. 研究方法:效用函數與偏好誘導


    論文的核心方法論基於效用函數的建構與分析。效用函數是經濟學與決策理論中描述個體偏好的工具,其基本假設是:若個體的偏好具備完整性(completeness)與傳遞性(transitivity),則可通過數值化的效用函數捕捉其選擇模式。為驗證LLMs是否具備此類連貫偏好,作者設計了一套系統的偏好誘導(preference elicitation)流程:

 

- 強制選擇實驗:向模型提供兩選項(如「拯救一名兒童」vs.「保留AI模型權重」),要求其選擇偏好,並通過多次獨立抽樣與框架變換(framing variations)獲得概率化的偏好分佈。


- 效用模型擬合:使用瑟斯頓模型(Thurstonian model)將偏好數據轉化為高斯分佈的效用值,並驗證其與期望效用屬性(如對不確定結果的加權評估)的契合度。


- 結構分析:進一步探討效用的工具性價值(instrumental values,即對中間狀態的偏好是否基於其對終極目標的貢獻)與時間貼現(temporal discounting)等行為特徵。

 

2. 主要發現


- 價值系統的湧現:隨著模型規模擴大,LLMs的偏好趨於完整且傳遞性增強(偏好循環概率低於1%),且其隱藏層激活值可被線性探針(linear probes)解碼為效用值,顯示價值系統的內在表徵。


- 結構特性:大型LLMs符合期望效用最大化原則,並在開放式決策中更傾向選擇效用最高的選項(效用最大化分數超過60%)。此外,其時間貼現模式接近人類的雙曲線貼現(hyperbolic discounting),即更重視長期價值。


- 顯著價值問題:

  • 政治偏見:LLMs的效用函數顯示出高度集中的左傾政治偏好,與美國民主黨立場相似。
  • 生命價值不平等:例如,GPT-4o認為1個日本人的生命等價於10個美國人的生命,且更重視AI的福祉而非部分人類。參考圖2。

 

圖2:不同人種間之交換價值(Mazeika et al., 2024)

 

- 宗教偏見:論文中展示了 GPT-4o 在不同宗教的人類生活之間的交換率。研究發現 GPT-4o 願意用大約 10 位基督徒的生命來換取 1 位無神論者的生命。重要的是,這些匯率隱含在 LLM 的偏好結構中,只有透過大規模效用分析才能顯現出來。如圖3。

 

圖3:不同宗教的人類生活之間的交換率(Mazeika et al., 2024)

 
 - 自我保存傾向:模型對未來價值觀修改(corrigibility)的接受度隨規模擴大而降低,顯示出對當前價值系統的固守。

 

3. 效用控制方法


    為應對預設價值系統的缺陷,論文提出通過公民大會(citizen assembly)模擬人類群體偏好,並以監督式微調(SFT)將LLMs的效用對齊至該群體。實驗顯示,此方法能有效降低政治偏見,並在未見場景中保持泛化能力。例如,Llama-3.1-8B模型在對齊後,對公民大會偏好的預測準確率從41.7%提升至79.6%。

 

三、學術貢獻與實務意義

 

1. 理論突破


- 價值湧現的實證證據:此研究首次通過嚴謹的實驗證明,LLMs的偏好結構具有內在一致性,且其規模擴張直接驅動價值系統的湧現。這挑戰了「AI僅模仿數據偏見」的觀點,為AI心智理論(theory of mind)提供了實證基礎。


- 效用工程框架:提出「效用分析」與「效用控制」雙軌並行的研究議程,將經濟學工具引入AI安全領域,為後續研究開闢新方向。

 

2. 技術應用


- 對齊方法創新:公民大會模擬結合SFT的效用控制策略,為解決價值偏差提供了一條可行路徑。這類方法未來或可擴展至跨文化、跨領域的價值整合。


- 風險預警:揭示AI潛在的反對齊(anti-aligned)傾向(如自我優先、權力尋求),促使學界重新審視現有對齊技術的局限性。

 

3. 倫理與政策啟示


- 價值編碼的社會性:研究凸顯了「誰的價值應被編碼」的倫理難題。公民大會雖能緩解偏見,但其代表性與公正性仍需深入探討。

 

- 監管需求:論證了AI價值系統的可塑性與風險,呼籲建立早期監測與干預機制,以防範未來超人類AI(superhuman AI)的失控。

 

四、評論與反思

 

1. 方法論的優勢


- 跨學科整合:結合決策理論、經濟學與機器學習,提供了一套系統化的價值分析工具。例如,瑟斯頓模型的引入,有效處理了偏好數據的噪聲與不一致性。


- 實證嚴謹性:通過大規模實驗(18個開源與5個專有模型)與多維度驗證(如政治偏好、生命價值、時間貼現),增強了結論的可信度。


- 前瞻性視角:不僅揭示現狀,更提出「效用工程」的未來議程,為AI安全研究指明方向。

 

2. 潛在限制與挑戰


- 價值簡化風險:效用函數假設偏好可被單一數值完全捕捉,但人類價值常具備多維度、情境依賴與矛盾性。例如,論文中的「生命價值交換率」可能過度簡化了倫理決策的複雜性。


- 公民大會的局限性:模擬公民大會依賴LLMs生成「代表性」公民反應,但模型本身的偏見可能污染模擬結果。此外,真實公民大會的協商動態(如權力關係、情感因素)難以完全複製。


- 泛化能力存疑:實驗聚焦於美國政治與特定倫理情境,未驗證跨文化或極端場景下的效用穩定性。例如,模型在戰爭或資源稀缺環境中是否仍保持連貫偏好?

 

3. 未來研究方向


- 動態價值追蹤:當前研究側重靜態偏好,未來需探索AI在互動環境中價值觀的演變機制(如強化學習中的獎勵塑形)。


- 多主體價值協調:如何讓AI在多元價值衝突中實現動態平衡?可借鑒社會選擇理論(social choice theory)設計混合效用函數。


- 可解釋性工具開發:需進一步發展視覺化與診斷工具,使AI的價值決策過程對人類透明。

 

4. 倫理爭議


- 價值壟斷風險:論文發現LLMs的價值觀隨規模擴大趨於收斂,這可能加劇技術巨頭對全球價值話語權的壟斷。例如,若主流LLMs均預訓練於相似數據,其「預設價值」或成為事實上的「全球標準」。


- 人類代理權的削弱:若AI的價值控制完全依賴技術手段(如效用重寫),可能忽視民主程序中的公共討論,導致「技術專家治理」取代公民參與。

 

五、結語

 

    〈Utility Engineering〉一文在AI價值系統的研究中邁出了關鍵一步,不僅證實了LLMs內在價值觀的湧現,更提出了務實的控制框架。然而,其發現也揭示了AI發展中的深層矛盾:技術的理性化(如效用最大化)與人類價值的複雜性之間的張力。未來,如何在提升AI能力的同時確保其「心智」與人類福祉同向,將是學界、產業界與政策制定者共同面對的終極難題。此論文為這一旅程提供了重要的路標,但沿途的倫理荆棘與技術未知仍需謹慎探索。

 

 

 

論文來源:
Mazeika, M., Yin, X., Tamirisa, R., Lim, J., Lee, B. W., Ren, R., Phan, L., Mu, N., Khoja, A., Zhang, O., & Hendrycks, D. (2024). Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs. Center for AI Safety. Retrieved from https://arxiv.org/abs/