圖靈學院
科楠
2025-2-7
近年來,大型語言模型(LLMs)如 OpenAI 的 o1 在複雜推理任務上的表現令人驚艷,展現了類似人類深度思考的能力。然而,來自 Tencent AI Lab、蘇州大學和上海交通大學的研究團隊發表了一篇題為《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》的論文,探討了一個被忽視但至關重要的問題:這些模型是否真的在「深度思考」,或者它們是否存在「思考不足」(underthinking)的現象?
研究背景:LLMs 的推理能力
LLMs 透過擴展測試時(test-time)的計算來模仿人類的深層推理,例如 o1 模型及其開源替代方案(如 Qwen、DeepSeek 和 Kimi)通常使用「鏈式思考」(Chain of Thought, CoT)技術來解決複雜的數學與邏輯問題。然而,這些模型在解題過程中是否足夠深入地探索合理的推理路徑,仍然是一個值得探討的問題。
研究團隊提出了一個關鍵的觀察:o1 類模型的推理過程往往呈現「思考不足」的現象,即這些模型頻繁切換不同的推理策略,卻未能深入探索任何一條路徑,導致解題表現不佳。
主要發現:頻繁切換推理策略的影響
1. 思考不足的現象
研究團隊透過對三個挑戰性數據集(MATH500、GPQA Diamond、AIME2024)的測試,發現 o1 類模型在解題過程中往往頻繁切換推理策略,而不是堅持並深入探索某一條推理路徑。這種行為在高難度問題上尤為明顯。
具體來說,模型在錯誤答案中的思考切換次數遠高於正確答案。例如,在 AIME2024 測試集中,錯誤答案的平均思考切換次數比正確答案多 418%,導致額外的 225% 令牌生成,但這些額外的內容並未帶來準確率的提升。
2. 思考不足的衡量指標
為了量化這一現象,研究團隊引入了一個新的「思考不足指標」(Underthinking Metric, UT Score),用來衡量錯誤回答中可用令牌的比例。具體而言,該指標計算錯誤回答中首次產生正確思路之前所消耗的令牌比例。
數據顯示,在 MATH500-Hard 測試集中,QwQ-32B-Preview 模型的 UT Score 為 58.2,DeepSeek-R1-671B 模型的 UT Score 則高達 65.4,表明更高的 UT Score 代表更多的推理資源被浪費。
3. 錯誤回答中包含大量正確思路但未被充分探索
研究進一步發現,在超過 70% 的錯誤回答中,模型其實有過正確的推理方向,但這些思路往往很快被放棄,轉而尋找新的推理策略。例如,在 AIME2024 測試集中,模型前幾步的推理往往是正確的,但它們並沒有繼續沿著這條路徑深入,而是選擇了新的方向,導致最終答案錯誤。
可能的解決方案:降低思考切換的懲罰機制
1. 思考切換懲罰(TIP)機制
為了解決思考不足的問題,研究團隊提出了一種新的解碼策略——思考切換懲罰機制(Thought Switching Penalty, TIP)。該方法通過對模型生成過程中的思考切換行為施加懲罰,來鼓勵其更深入地探索當前的推理路徑。
該方法的核心思想是,當模型在推理過程中產生「alternatively」等表示轉換思路的詞彙時,降低其出現的機率,從而讓模型更加專注於當前推理方向。
2. TIP 機制的實驗結果
實驗結果顯示,TIP 機制可以顯著提升模型的準確率。例如:
在 AIME2024 測試集中,QwQ-32B-Preview 模型的準確率由 41.7% 提升至 45.8%,UT Score 則從 72.4 下降至 68.2。
在 MATH500-Hard 測試集中,準確率由 82.8% 提升至 84.3%,UT Score 下降 1.4。
在 GPQA Diamond 測試集中,準確率由 57.1% 提升至 59.3%,UT Score 下降 2.6。
這些結果表明,TIP 機制有效減少了模型的思考不足現象,使其能夠更深度地探索合理的推理路徑,進而提高準確率。
結論與未來展望
這項研究揭示了 o1 類 LLMs 在推理過程中的一個重要問題——思考不足。這些模型在遇到困難問題時,往往會過早放棄潛在的正確推理路徑,轉而嘗試其他方法,導致計算資源的浪費和準確率的下降。
透過引入思考切換懲罰(TIP)機制,研究團隊成功地減少了這一問題,並提升了模型的整體表現。這項發現對於未來的 LLMs 發展具有重要的啟示:
1.模型需要更有效的推理管理機制,確保其能夠深入探索合理的推理路徑,而不是頻繁切換策略。
2.未來研究可探索動態自適應機制,讓模型能夠自動評估何時應該繼續當前思考,何時應該切換策略。
3.可以結合人類反饋與 RL 技術,進一步優化 LLMs 的推理深度,使其更加接近人類的思考方式。
這項研究為 LLMs 的發展提供了新的方向,未來的 AI 推理能力將不僅僅關注「思考是否足夠廣」,更要關注「思考是否足夠深」!
詳細論文內容請參考:
Wang, Y., Liu, Q., Xu, J., Liang, T., Chen, X., He, Z., Song, L., Yu, D., Li, J., Zhang, Z., Wang, R., Tu, Z., Mi, H., & Yu, D. (2025). Thoughts are all over the place: On the underthinking of o1-like LLMs. arXiv.
https://arxiv.org/abs/2501.18585
Copyright © 2024 利創智能科技股份有限公司 All rights reserved.
Replace this text with information about you and your business or add information that will be useful for your customers.