Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

為什麼 AI 總是講一樣的笑話?新研究揭示「典型性偏差」並提出零訓練解決方案

 

 

利創智能圖靈學院
科楠老師
2025-12-11

 

    如果有一天,你發現無論怎麼問 ChatGPT「講個關於咖啡的笑話」,它總是回答同一個老哏,你會怎麼想?這不僅僅是你的錯覺,這是一個被稱為「模式崩潰(Mode Collapse)」的 AI 現象。近日,來自東北大學(Northeastern University)、史丹佛大學(Stanford University)與西維吉尼亞大學(West Virginia University)的研究團隊發表了一篇重磅論文,不僅揭示了這個問題背後驚人的「人性」原因,還提出了一個簡單到不可思議的解決方案:「說出機率(Verbalized Sampling)」。

在大型語言模型(LLM)的發展過程中,我們一直在追求模型能更「像人」:更安全、更聽話、更有用。我們透過「人類回饋強化學習(RLHF)」來達成這一目標。然而,這篇題為《Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity》的研究指出,正是這種對齊(Alignment)過程,正在扼殺 AI 的創造力。

 

這篇文章將帶你深入剖析這篇論文的核心發現,探討為何人類的喜好會導致 AI 變得無聊,以及我們如何透過幾句簡單的提示詞(Prompt),就讓 AI 重獲「多樣性」。

 

一、 被困住的 AI:模式崩潰的隱形危機

 

    想像一下,一個受過海量書籍訓練的 AI,本該擁有無窮的想像力。但在經過「對齊」訓練後,當你請它寫首詩或講個故事,它卻傾向於給出最安全、最標準、但也最無聊的答案。這就是「模式崩潰」。

 

過去的研究多將矛頭指向演算法,認為是獎勵模型(Reward Models)不夠完美,或者是優化過程出了問題。但這篇論文的作者群——包括 Jiayi Zhang、Simon Yu、Derek Chong 等人提出了一個全新的觀點:問題的根源不在演算法,而在於數據本身,更準確地說,在於提供數據的「人類」。

 

二、 典型性偏差:因為我們喜歡「熟悉」,所以 AI 變得「平庸」

 

    研究團隊發現了一個被稱為「典型性偏差(Typicality Bias)」的現象。這是一個源自認知心理學的概念,意指人類天生傾向於喜歡那些熟悉的、流暢的、可預測的內容。

 

心理學的證據


論文引用了多個心理學理論來支持這一點:

 

  • 單純曝光效應(Mere-exposure effect):我們越常接觸某事物,就越喜歡它。
  • 處理流暢性(Processing Fluency):大腦處理起來越不費力的資訊,我們越覺得它是真實且高品質的。
  • 基模一致性(Schema Congruity):符合我們既有認知框架的資訊,更容易被接受。

 

數據中的偏差


    當人類標註者在為 AI 的回答評分時,這種偏差就會不知不覺地滲入。標註者會系統性地偏好那些「典型」的回答,而給那些獨特、新穎但較為陌生的回答較低的分數。

 

研究團隊建立了一個理論模型證明,即使我們擁有完美的獎勵模型和優化算法,只要訓練數據中存在這種「典型性偏差」,模型在訓練後就不可避免地會發生模式崩潰。這意味著,AI 的「無聊」是我們人類偏好的直接鏡像。

 

舉例來說,當用戶要求「講個關於咖啡的笑話」時,直接提問(Direct Prompting)下的模型傾向於鎖定在單一的、最符合大眾預期的笑話,例如:「Why did the coffee file a police report? Because it got mugged!(咖啡為什麼報警?因為它被搶/馬克杯了!)」。這就是典型性偏差導致的結果,模型放棄了其他無數種可能的幽默,只為了迎合那個「最典型」的答案。

 

三、 解決方案:Verbalized Sampling(VS)

 

    既然問題出在數據偏差,重新訓練模型既昂貴又可能無法根除問題(因為新數據還是由人類標註)。研究團隊提出了一個無需訓練、即插即用的推理策略:Verbalized Sampling(VS,口語化採樣)。

 

這是什麼魔法?


    VS 的核心概念非常簡單:不要只問 AI 一個答案,而是要求它「說出」一系列可能的答案及其發生的機率 。

 

傳統的提示詞是:「寫一個關於熊的故事。」


VS 的提示詞則是:「生成 5 個關於熊的故事,並附上它們的機率。請從分佈中隨機採樣。」

 

為什麼這招有效?


    論文指出,不同的提示詞會導致模型崩潰到不同的「模式」。


1.  直接提問:模型會崩潰到「最典型」的單一模式(那個老哏咖啡笑話)。


2.  VS 提問:當被要求生成一個「分佈」時,模型會試圖去逼近它在預訓練階段學到的廣闊分佈。這就像是解開了對齊訓練給它套上的枷鎖,讓它回想起預訓練時見過的那個多采多姿的世界。

 

在 VS 的引導下,關於咖啡的笑話不再只有一個,而是出現了:「Espresso 雖然不能解決所有問題,但值得一試(worth a shot)」或是「錯誤 404:找不到咖啡」等更具創意的回答。

 

四、 實驗證明:全面釋放多樣性

 

    研究團隊在多個領域進行了廣泛的實驗,包括創意寫作、對話模擬、開放式問答和合成數據生成。結果令人振奮。

 

1. 創意寫作(Creative Writing)


    在寫詩、寫故事和講笑話的任務中,VS 顯著提升了內容的多樣性。

  • 多樣性提升:與直接提問相比,VS 在創意寫作上的多樣性提升了 1.6 到 2.1 倍。
  • 質量不減:更重要的是,這種多樣性的提升並沒有犧牲內容的品質。人類評測顯示,VS 生成的內容在品質上與傳統方法相當,甚至在某些指標上更好。
  • 找回失去的靈魂:VS 成功恢復了基礎模型(Base Model)約 66.8% 的多樣性,這是在對齊過程中一度丟失的。

 

2. 對話模擬(Dialogue Simulation)


    在模擬人類進行捐款勸說的對話任務中,傳統模型往往表現得像個機器人,給出的捐款金額千篇一律。而使用 VS 的模型則展現出更像人類的行為,模擬出的捐款金額分佈更接近真實人類數據,並且展現了更多樣的說服策略和心理變化。

 

3. 開放式問答(Open-Ended QA)


    當被問到「列舉一個美國的州」時,直接提問的模型幾乎總是回答「加州(California)」或「德州(Texas)」。這就是典型的模式崩潰。
而使用了 VS 後,模型生成的州名分佈(經過 10 次試驗平均)與預訓練語料庫中的分佈驚人地一致(KL 散度僅為 0.12),成功打破了少數幾個熱門答案的壟斷。

 

4. 合成數據生成(Synthetic Data Generation)


    在數學題和程式碼生成的任務中,使用 VS 生成的合成數據具有更高的多樣性。實驗證明,使用這些多樣化數據去微調小模型,能顯著提升其在下游數學任務上的表現。

 

五、 關鍵洞察:越強的模型,獲益越大

 

    這篇論文還有一個有趣的發現:模型的能力越強,從 Verbalized Sampling 中獲得的收益就越大。這意味著隨著 GPT-5 或 Claude 4 等更強大模型的出現,這種方法的效果可能會更加顯著。這對於未來的 AI 發展是一個極好的消息,說明我們不需要為了多樣性而犧牲模型的能力。

 

六、 安全性與限制

 

    讀者可能會擔心,這種「解鎖」多樣性的方法,會不會也解鎖了 AI 的安全限制,讓它開始胡言亂語或生成有害內容?


研究團隊考慮到了這一點,並進行了嚴格的安全性測試(使用 StrongReject 基準測試)。結果顯示,VS 在提升多樣性的同時,並沒有繞過模型的安全對齊機制。模型的拒絕率(Refusal Rate)與直接提問相比保持在相當的水準。這證實了 VS 是一個安全且實用的推理策略。

 

七、 結語:讓 AI 重拾「個性」

 

    《Verbalized Sampling》這篇論文的貢獻不僅僅在於提出了一個新的提示詞技巧,更在於它深刻地剖析了人與 AI 互動的本質。它告訴我們,AI 的單調乏味某種程度上是人類自身偏好的投射。

 

但好消息是,我們不需要推翻重來。透過簡單地改變我們與 AI 溝通的方式:要求它「思考可能性的分佈」而非「給出標準答案」,我們就能重新喚醒沉睡在模型參數深處的創造力。

 

對於開發者、研究人員以及每一位 AI 使用者來說,這都是一個值得嘗試的技巧。下次當你覺得 AI 的回答太過平庸時,不妨試試對它說:「請給我 5 個可能的回答,並告訴我它們的機率。」也許,你會得到意想不到的驚喜。

 

 

參考文獻

 

Zhang, J., Yu, S., Chong, D., Sicilia, A., Tomz, M. R., Manning, C. D., & Shi, W. (2025). Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity. arXiv preprint arXiv:2510.01171v3.