圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

LLMs 的思考問題:探索 o1-Like 模型的「思考不足」現象

 

 

圖靈學院
科楠
2025-2-7

 

    近年來,大型語言模型(LLMs)如 OpenAI 的 o1 在複雜推理任務上的表現令人驚艷,展現了類似人類深度思考的能力。然而,來自 Tencent AI Lab、蘇州大學和上海交通大學的研究團隊發表了一篇題為《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》的論文,探討了一個被忽視但至關重要的問題:這些模型是否真的在「深度思考」,或者它們是否存在「思考不足」(underthinking)的現象?

 

研究背景:LLMs 的推理能力


    LLMs 透過擴展測試時(test-time)的計算來模仿人類的深層推理,例如 o1 模型及其開源替代方案(如 Qwen、DeepSeek 和 Kimi)通常使用「鏈式思考」(Chain of Thought, CoT)技術來解決複雜的數學與邏輯問題。然而,這些模型在解題過程中是否足夠深入地探索合理的推理路徑,仍然是一個值得探討的問題。


研究團隊提出了一個關鍵的觀察:o1 類模型的推理過程往往呈現「思考不足」的現象,即這些模型頻繁切換不同的推理策略,卻未能深入探索任何一條路徑,導致解題表現不佳。


主要發現:頻繁切換推理策略的影響


1. 思考不足的現象


研究團隊透過對三個挑戰性數據集(MATH500、GPQA Diamond、AIME2024)的測試,發現 o1 類模型在解題過程中往往頻繁切換推理策略,而不是堅持並深入探索某一條推理路徑。這種行為在高難度問題上尤為明顯。


具體來說,模型在錯誤答案中的思考切換次數遠高於正確答案。例如,在 AIME2024 測試集中,錯誤答案的平均思考切換次數比正確答案多 418%,導致額外的 225% 令牌生成,但這些額外的內容並未帶來準確率的提升。


2. 思考不足的衡量指標


為了量化這一現象,研究團隊引入了一個新的「思考不足指標」(Underthinking Metric, UT Score),用來衡量錯誤回答中可用令牌的比例。具體而言,該指標計算錯誤回答中首次產生正確思路之前所消耗的令牌比例。


數據顯示,在 MATH500-Hard 測試集中,QwQ-32B-Preview 模型的 UT Score 為 58.2,DeepSeek-R1-671B 模型的 UT Score 則高達 65.4,表明更高的 UT Score 代表更多的推理資源被浪費。


表1:在具挑戰性的測驗集上,思考不足會導致得分偏低(Wang et. Al., 2025)

 

 

圖1:在具挑戰性的 AIME2024 測試集上對思考不足問題的說明:在類 o1 模型(例如 QwQ-32B-Preview 和 DeepSeek-R1-671B)中,錯誤答案通常比正確答案更頻繁地切換推理策略(圖 b),導致回應時間更長,但準確度沒有提高(圖 a)。相反地,傳統的 LLM(例如 Qwen-Math-72B 和 Llama3.3-70B)則顯示錯誤答案和正確答案的回應長度沒有顯著差異。(Wang et. Al., 2025)


3. 錯誤回答中包含大量正確思路但未被充分探索


研究進一步發現,在超過 70% 的錯誤回答中,模型其實有過正確的推理方向,但這些思路往往很快被放棄,轉而尋找新的推理策略。例如,在 AIME2024 測試集中,模型前幾步的推理往往是正確的,但它們並沒有繼續沿著這條路徑深入,而是選擇了新的方向,導致最終答案錯誤。


可能的解決方案:降低思考切換的懲罰機制


1. 思考切換懲罰(TIP)機制


為了解決思考不足的問題,研究團隊提出了一種新的解碼策略——思考切換懲罰機制(Thought Switching Penalty, TIP)。該方法通過對模型生成過程中的思考切換行為施加懲罰,來鼓勵其更深入地探索當前的推理路徑。


該方法的核心思想是,當模型在推理過程中產生「alternatively」等表示轉換思路的詞彙時,降低其出現的機率,從而讓模型更加專注於當前推理方向。


2. TIP 機制的實驗結果


實驗結果顯示,TIP 機制可以顯著提升模型的準確率。例如:

  • 在 AIME2024 測試集中,QwQ-32B-Preview 模型的準確率由 41.7% 提升至 45.8%,UT Score 則從 72.4 下降至 68.2。

  • 在 MATH500-Hard 測試集中,準確率由 82.8% 提升至 84.3%,UT Score 下降 1.4。

  • 在 GPQA Diamond 測試集中,準確率由 57.1% 提升至 59.3%,UT Score 下降 2.6。

 

 

表2:使用 TIP 的建議解碼結果(Wang et. Al., 2025)

 

這些結果表明,TIP 機制有效減少了模型的思考不足現象,使其能夠更深度地探索合理的推理路徑,進而提高準確率。


結論與未來展望


    這項研究揭示了 o1 類 LLMs 在推理過程中的一個重要問題——思考不足。這些模型在遇到困難問題時,往往會過早放棄潛在的正確推理路徑,轉而嘗試其他方法,導致計算資源的浪費和準確率的下降。


透過引入思考切換懲罰(TIP)機制,研究團隊成功地減少了這一問題,並提升了模型的整體表現。這項發現對於未來的 LLMs 發展具有重要的啟示:


1.模型需要更有效的推理管理機制,確保其能夠深入探索合理的推理路徑,而不是頻繁切換策略。


2.未來研究可探索動態自適應機制,讓模型能夠自動評估何時應該繼續當前思考,何時應該切換策略。


3.可以結合人類反饋與 RL 技術,進一步優化 LLMs 的推理深度,使其更加接近人類的思考方式。


這項研究為 LLMs 的發展提供了新的方向,未來的 AI 推理能力將不僅僅關注「思考是否足夠廣」,更要關注「思考是否足夠深」!

 

 

詳細論文內容請參考:

Wang, Y., Liu, Q., Xu, J., Liang, T., Chen, X., He, Z., Song, L., Yu, D., Li, J., Zhang, Z., Wang, R., Tu, Z., Mi, H., & Yu, D. (2025). Thoughts are all over the place: On the underthinking of o1-like LLMs. arXiv. 
https://arxiv.org/abs/2501.18585