Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

LLMs 的思考問題:探索 o1-Like 模型的「思考不足」現象

 

 

圖靈學院
科楠
2025-2-7

 

    近年來,大型語言模型(LLMs)如 OpenAI 的 o1 在複雜推理任務上的表現令人驚艷,展現了類似人類深度思考的能力。然而,來自 Tencent AI Lab、蘇州大學和上海交通大學的研究團隊發表了一篇題為《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》的論文,探討了一個被忽視但至關重要的問題:這些模型是否真的在「深度思考」,或者它們是否存在「思考不足」(underthinking)的現象?

 

研究背景:LLMs 的推理能力


    LLMs 透過擴展測試時(test-time)的計算來模仿人類的深層推理,例如 o1 模型及其開源替代方案(如 Qwen、DeepSeek 和 Kimi)通常使用「鏈式思考」(Chain of Thought, CoT)技術來解決複雜的數學與邏輯問題。然而,這些模型在解題過程中是否足夠深入地探索合理的推理路徑,仍然是一個值得探討的問題。


研究團隊提出了一個關鍵的觀察:o1 類模型的推理過程往往呈現「思考不足」的現象,即這些模型頻繁切換不同的推理策略,卻未能深入探索任何一條路徑,導致解題表現不佳。


主要發現:頻繁切換推理策略的影響


1. 思考不足的現象


研究團隊透過對三個挑戰性數據集(MATH500、GPQA Diamond、AIME2024)的測試,發現 o1 類模型在解題過程中往往頻繁切換推理策略,而不是堅持並深入探索某一條推理路徑。這種行為在高難度問題上尤為明顯。


具體來說,模型在錯誤答案中的思考切換次數遠高於正確答案。例如,在 AIME2024 測試集中,錯誤答案的平均思考切換次數比正確答案多 418%,導致額外的 225% 令牌生成,但這些額外的內容並未帶來準確率的提升。


2. 思考不足的衡量指標


為了量化這一現象,研究團隊引入了一個新的「思考不足指標」(Underthinking Metric, UT Score),用來衡量錯誤回答中可用令牌的比例。具體而言,該指標計算錯誤回答中首次產生正確思路之前所消耗的令牌比例。


數據顯示,在 MATH500-Hard 測試集中,QwQ-32B-Preview 模型的 UT Score 為 58.2,DeepSeek-R1-671B 模型的 UT Score 則高達 65.4,表明更高的 UT Score 代表更多的推理資源被浪費。


表1:在具挑戰性的測驗集上,思考不足會導致得分偏低(Wang et. Al., 2025)

 

 

圖1:在具挑戰性的 AIME2024 測試集上對思考不足問題的說明:在類 o1 模型(例如 QwQ-32B-Preview 和 DeepSeek-R1-671B)中,錯誤答案通常比正確答案更頻繁地切換推理策略(圖 b),導致回應時間更長,但準確度沒有提高(圖 a)。相反地,傳統的 LLM(例如 Qwen-Math-72B 和 Llama3.3-70B)則顯示錯誤答案和正確答案的回應長度沒有顯著差異。(Wang et. Al., 2025)


3. 錯誤回答中包含大量正確思路但未被充分探索


研究進一步發現,在超過 70% 的錯誤回答中,模型其實有過正確的推理方向,但這些思路往往很快被放棄,轉而尋找新的推理策略。例如,在 AIME2024 測試集中,模型前幾步的推理往往是正確的,但它們並沒有繼續沿著這條路徑深入,而是選擇了新的方向,導致最終答案錯誤。


可能的解決方案:降低思考切換的懲罰機制


1. 思考切換懲罰(TIP)機制


為了解決思考不足的問題,研究團隊提出了一種新的解碼策略——思考切換懲罰機制(Thought Switching Penalty, TIP)。該方法通過對模型生成過程中的思考切換行為施加懲罰,來鼓勵其更深入地探索當前的推理路徑。


該方法的核心思想是,當模型在推理過程中產生「alternatively」等表示轉換思路的詞彙時,降低其出現的機率,從而讓模型更加專注於當前推理方向。


2. TIP 機制的實驗結果


實驗結果顯示,TIP 機制可以顯著提升模型的準確率。例如:

  • 在 AIME2024 測試集中,QwQ-32B-Preview 模型的準確率由 41.7% 提升至 45.8%,UT Score 則從 72.4 下降至 68.2。

  • 在 MATH500-Hard 測試集中,準確率由 82.8% 提升至 84.3%,UT Score 下降 1.4。

  • 在 GPQA Diamond 測試集中,準確率由 57.1% 提升至 59.3%,UT Score 下降 2.6。

 

 

表2:使用 TIP 的建議解碼結果(Wang et. Al., 2025)

 

這些結果表明,TIP 機制有效減少了模型的思考不足現象,使其能夠更深度地探索合理的推理路徑,進而提高準確率。


結論與未來展望


    這項研究揭示了 o1 類 LLMs 在推理過程中的一個重要問題——思考不足。這些模型在遇到困難問題時,往往會過早放棄潛在的正確推理路徑,轉而嘗試其他方法,導致計算資源的浪費和準確率的下降。


透過引入思考切換懲罰(TIP)機制,研究團隊成功地減少了這一問題,並提升了模型的整體表現。這項發現對於未來的 LLMs 發展具有重要的啟示:


1.模型需要更有效的推理管理機制,確保其能夠深入探索合理的推理路徑,而不是頻繁切換策略。


2.未來研究可探索動態自適應機制,讓模型能夠自動評估何時應該繼續當前思考,何時應該切換策略。


3.可以結合人類反饋與 RL 技術,進一步優化 LLMs 的推理深度,使其更加接近人類的思考方式。


這項研究為 LLMs 的發展提供了新的方向,未來的 AI 推理能力將不僅僅關注「思考是否足夠廣」,更要關注「思考是否足夠深」!

 

 

詳細論文內容請參考:

Wang, Y., Liu, Q., Xu, J., Liang, T., Chen, X., He, Z., Song, L., Yu, D., Li, J., Zhang, Z., Wang, R., Tu, Z., Mi, H., & Yu, D. (2025). Thoughts are all over the place: On the underthinking of o1-like LLMs. arXiv. 
https://arxiv.org/abs/2501.18585