圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

強化學習真的能提升大型語言模型的推理能力嗎?對《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》的批判性評論

 

圖靈學院
科楠
2025-5-19


引言

 

    近年來,大型語言模型(LLMs)在數學推理、程式碼生成等複雜任務上的表現突飛猛進,其中強化學習與可驗證獎勵(Reinforcement Learning with Verifiable Rewards, RLVR)被廣泛認為是推動這一進步的關鍵技術。這篇由北京清華大學LeapLab團隊發表在arXiv preprint的論文《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》對這一主流觀點提出了挑戰,通過系統性實驗得出了令人驚訝的結論:RLVR訓練實際上並未賦予模型超越基礎模型(base model)的新推理能力,而僅僅是提高了模型對已有正確推理路徑的採樣效率。這一發現對當前LLM訓練範式提出了根本性質疑,值得我們深入探討。

 

 

Source: Yue et al.(2025)

 

論文核心論點與方法論評析

    

    該研究團隊設計了一系列嚴謹實驗來驗證RLVR對LLM推理能力的真實影響。他們創新性地採用pass@k指標(k值很大)來測量模型的「推理能力邊界」,並在多個數學、編程和視覺推理基準測試中比較基礎模型與RLVR訓練模型的表現。結果顯示,雖然在小k值(如k=1)時RL訓練模型表現更好,但當k值增大到數十或數百時,基礎模型反而能解決更多問題。這表明RLVR並未創造新的推理能力,只是讓模型更傾向於輸出那些已被基礎模型掌握的、能獲得獎勵的推理路徑。

 

    從方法論角度看,這項研究具有幾個顯著優勢。首先,pass@k指標的選擇十分巧妙,它避免了傳統單次採樣或少量採樣方法可能低估模型真實潛力的問題,為評估模型的「能力上限」提供了更全面的視角。其次,研究涵蓋多種模型家族(Qwen、LLaMA等)、不同規模(7B到32B參數)以及多樣化任務領域(數學、編程、視覺推理),增強了結論的普適性。再者,作者不僅依賴自動化指標,還通過人工檢查思維鏈(Chain-of-Thought, CoT)的有效性來驗證結果可靠性,這種混合方法值得肯定。

 

    然而,這項研究也存在一些方法論局限。首先,實驗主要聚焦於「零RL」(zero-RL)設定,即直接對基礎模型進行RL訓練而無需監督微調(SFT)。雖然這有助於純粹研究RL的效果,但實際應用中RL通常是在經過SFT的模型上進行的,這可能影響結論的適用性。其次,研究未充分探討模型規模對RLVR效果的影響是否更大的基礎模型(如百億參數級別)會表現出不同的模式?此外,實驗中使用的溫度參數(temperature=0.6)和top-p值(0.95)雖然合理,但不同採樣參數是否會顯著影響pass@k曲線的形狀?這些問題值得進一步探究。

 

對論文核心發現的解讀與評價

 

    論文中最引人注目的發現是:RLVR訓練實際上可能縮小模型的推理能力邊界。這一結論直指當前LLM發展中的一個關鍵問題:我們是否過高估計了RL的貢獻?從積極方面看,研究證實RLVR能有效提高模型在少量採樣時的表現(pass@1),這解釋了為何RL訓練在實際應用中廣受歡迎。然而,當允許大量採樣時,基礎模型反而展現出更廣泛的問題解決能力,這表明RL的「效率提升」是以犧牲探索能力為代價的。

 

    這一現象可通過「探索-利用困境」(exploration-exploitation tradeoff)來理解。RL訓練本質上是一種利用(exploitation)過程,它強化那些已知能獲得獎勵的行為,但同時也抑制了對新路徑的探索(exploration)。在語言模型這種動作空間極大的環境中,這種偏向性可能導致模型快速收斂到局部最優,而無法發現更優或更創新的解決方案。這與人類學習中的「過度訓練」現象有相似之處——過度專注於已知的正確方法可能限制創造性思維。

 

    論文中關於「蒸餾(distillation)能真正擴展模型能力邊界」的發現尤其值得關注。這表明,與RL不同,通過從更強大教師模型(如DeepSeek-R1)中蒸餾知識,學生模型確實能獲得基礎模型原本不具備的推理能力。這一發現為改進LLM訓練提供了重要方向:結合蒸餾與RL的方法可能比單純使用RL更有效。

 

理論意義與實踐啟示

 

    這項研究的理論意義在於,它挑戰了「RL能引導模型發展出超越基礎能力的新興行為」這一流行假設。實際上,RLVR的作用更類似於一種「搜尋策略優化」它讓模型更高效地提取和利用基礎模型中已有的知識,而非創造新知識。這與傳統RL(如AlphaGo)能通過自我對弈不斷突破能力邊界形成鮮明對比,突顯出語言模型RL的特殊性。

 

從實踐角度看,這項研究對LLM開發流程有重要啟示:


1. 評估指標的選擇:不應過度依賴pass@1等少量採樣指標,而應結合大k值的pass@k來全面評估模型能力邊界。


2. 訓練策略的平衡:需要在RL的「利用」與基礎模型的「探索」潛力之間找到平衡,避免過度優化導致能力窄化。


3. 蒸餾的價值重估:應更重視從強大教師模型到學生模型的知識蒸餾,這可能是突破能力邊界的更有效途徑。


4. RL算法的改進方向:當前RL算法在「採樣效率差距」(ΔSE)上仍有很大改進空間,需要開發能更好平衡探索與利用的新方法。

 

未來研究方向與開放問題

 

    基於這項研究的發現,我們認為以下方向值得進一步探索:

 

1. 混合訓練範式:結合蒸餾與RL的混合方法,既能擴展模型的能力邊界,又能提高解決問題的效率。例如,可以先通過蒸餾引入新知識,再使用RL進行微調。

 

2. 改進的探索策略:設計專門針對語言模型RL的探索機制,如定向噪音注入、基於好奇心的獎勵等,以緩解RL訓練導致的探索不足問題。

 

3. 基礎模型架構的影響:研究不同架構(如MoE模型)的基礎模型與RLVR的互動方式是否存在差異。某些架構可能更適合保留探索能力。

 

4. 長期訓練的動態:論文中顯示隨著RL訓練步數增加,pass@256持續下降。這是否意味著存在一個「最優訓練時長」?需要更系統地研究訓練動態。

 

5. 超越可驗證獎勵:當前RLVR依賴於二值化(正確/錯誤)獎勵,這可能過於粗糙。更細粒度的獎勵信號(如部分正確獎勵)是否能更好保留模型的探索能力?

 

結論

 

    這篇登在arXiv預發行論文對RL在大型語言模型中的作用提出了重要且反直覺的見解,挑戰了該領域的某些主流假設。研究表明,RLVR的主要價值在於提高已有推理路徑的採樣效率,而非創造新的推理能力,甚至可能以犧牲模型的探索潛力為代價。這些發現促使我們重新思考如何更有效地提升LLM的推理能力,或許我們應該減少對純RL的過度依賴,更多地關注蒸餾、架構創新以及探索友好的訓練範式。

 

    這項工作的意義不僅在於其具體發現,更在於它展示了一種批判性研究態度 “對廣泛接受的技術實踐進行嚴格驗證”。在LLM快速發展的今天,這種嚴謹的科學精神尤為珍貴。未來的研究應當以此為基礎,深入探索如何真正突破(而不僅僅是優化)大型語言模型的推理能力邊界。

 

 

Reference:
Yue, Y., Chen, Z., Lu, R., Zhao, A., Wang, Z., Song, S., & Huang, G. (2025). Does reinforcement learning really incentivize reasoning capacity in LLMs beyond the base model? arXiv. https://arxiv.org/abs/2504.13837