LLMs 的思考問題：探索 o1-Like 模型的「思考不足」現象

IntelliBenefit Technology Co., Ltd.

圖靈學院內的文章包含三大主題：ESG浄零實驗室、AI實驗室及精實管理實驗室，我們會不定期分享相關主題之文章，也歡迎並對前述主題有興趣的學員投稿分享您的見解 (我要投稿)

圖靈學院創辦人科楠老師的願景

LLMs 的思考問題：探索 o1-Like 模型的「思考不足」現象

圖靈學院
科楠
2025-2-7

近年來，大型語言模型（LLMs）如 OpenAI 的 o1 在複雜推理任務上的表現令人驚艷，展現了類似人類深度思考的能力。然而，來自 Tencent AI Lab、蘇州大學和上海交通大學的研究團隊發表了一篇題為《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》的論文，探討了一個被忽視但至關重要的問題：這些模型是否真的在「深度思考」，或者它們是否存在「思考不足」（underthinking）的現象？

研究背景：LLMs 的推理能力

LLMs 透過擴展測試時（test-time）的計算來模仿人類的深層推理，例如 o1 模型及其開源替代方案（如 Qwen、DeepSeek 和 Kimi）通常使用「鏈式思考」（Chain of Thought, CoT）技術來解決複雜的數學與邏輯問題。然而，這些模型在解題過程中是否足夠深入地探索合理的推理路徑，仍然是一個值得探討的問題。

研究團隊提出了一個關鍵的觀察：o1 類模型的推理過程往往呈現「思考不足」的現象，即這些模型頻繁切換不同的推理策略，卻未能深入探索任何一條路徑，導致解題表現不佳。

主要發現：頻繁切換推理策略的影響

1. 思考不足的現象

研究團隊透過對三個挑戰性數據集（MATH500、GPQA Diamond、AIME2024）的測試，發現 o1 類模型在解題過程中往往頻繁切換推理策略，而不是堅持並深入探索某一條推理路徑。這種行為在高難度問題上尤為明顯。

具體來說，模型在錯誤答案中的思考切換次數遠高於正確答案。例如，在 AIME2024 測試集中，錯誤答案的平均思考切換次數比正確答案多 418%，導致額外的 225% 令牌生成，但這些額外的內容並未帶來準確率的提升。

2. 思考不足的衡量指標

為了量化這一現象，研究團隊引入了一個新的「思考不足指標」（Underthinking Metric, UT Score），用來衡量錯誤回答中可用令牌的比例。具體而言，該指標計算錯誤回答中首次產生正確思路之前所消耗的令牌比例。

數據顯示，在 MATH500-Hard 測試集中，QwQ-32B-Preview 模型的 UT Score 為 58.2，DeepSeek-R1-671B 模型的 UT Score 則高達 65.4，表明更高的 UT Score 代表更多的推理資源被浪費。

表1：在具挑戰性的測驗集上，思考不足會導致得分偏低(Wang et. Al., 2025)

圖1：在具挑戰性的 AIME2024 測試集上對思考不足問題的說明：在類 o1 模型（例如 QwQ-32B-Preview 和 DeepSeek-R1-671B）中，錯誤答案通常比正確答案更頻繁地切換推理策略（圖 b），導致回應時間更長，但準確度沒有提高（圖 a）。相反地，傳統的 LLM（例如 Qwen-Math-72B 和 Llama3.3-70B）則顯示錯誤答案和正確答案的回應長度沒有顯著差異。(Wang et. Al., 2025)

3. 錯誤回答中包含大量正確思路但未被充分探索

研究進一步發現，在超過 70% 的錯誤回答中，模型其實有過正確的推理方向，但這些思路往往很快被放棄，轉而尋找新的推理策略。例如，在 AIME2024 測試集中，模型前幾步的推理往往是正確的，但它們並沒有繼續沿著這條路徑深入，而是選擇了新的方向，導致最終答案錯誤。

可能的解決方案：降低思考切換的懲罰機制

1. 思考切換懲罰（TIP）機制

為了解決思考不足的問題，研究團隊提出了一種新的解碼策略——思考切換懲罰機制（Thought Switching Penalty, TIP）。該方法通過對模型生成過程中的思考切換行為施加懲罰，來鼓勵其更深入地探索當前的推理路徑。

該方法的核心思想是，當模型在推理過程中產生「alternatively」等表示轉換思路的詞彙時，降低其出現的機率，從而讓模型更加專注於當前推理方向。

2. TIP 機制的實驗結果

實驗結果顯示，TIP 機制可以顯著提升模型的準確率。例如：

在 AIME2024 測試集中，QwQ-32B-Preview 模型的準確率由 41.7% 提升至 45.8%，UT Score 則從 72.4 下降至 68.2。
在 MATH500-Hard 測試集中，準確率由 82.8% 提升至 84.3%，UT Score 下降 1.4。
在 GPQA Diamond 測試集中，準確率由 57.1% 提升至 59.3%，UT Score 下降 2.6。

表2:使用 TIP 的建議解碼結果(Wang et. Al., 2025)

這些結果表明，TIP 機制有效減少了模型的思考不足現象，使其能夠更深度地探索合理的推理路徑，進而提高準確率。

結論與未來展望

這項研究揭示了 o1 類 LLMs 在推理過程中的一個重要問題——思考不足。這些模型在遇到困難問題時，往往會過早放棄潛在的正確推理路徑，轉而嘗試其他方法，導致計算資源的浪費和準確率的下降。

透過引入思考切換懲罰（TIP）機制，研究團隊成功地減少了這一問題，並提升了模型的整體表現。這項發現對於未來的 LLMs 發展具有重要的啟示：

1.模型需要更有效的推理管理機制，確保其能夠深入探索合理的推理路徑，而不是頻繁切換策略。

2.未來研究可探索動態自適應機制，讓模型能夠自動評估何時應該繼續當前思考，何時應該切換策略。

3.可以結合人類反饋與 RL 技術，進一步優化 LLMs 的推理深度，使其更加接近人類的思考方式。

這項研究為 LLMs 的發展提供了新的方向，未來的 AI 推理能力將不僅僅關注「思考是否足夠廣」，更要關注「思考是否足夠深」！

詳細論文內容請參考:

Wang, Y., Liu, Q., Xu, J., Liang, T., Chen, X., He, Z., Song, L., Yu, D., Li, J., Zhang, Z., Wang, R., Tu, Z., Mi, H., & Yu, D. (2025). Thoughts are all over the place: On the underthinking of o1-like LLMs. arXiv.
https://arxiv.org/abs/2501.18585