Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

🔹「AI能玩《超級瑪利歐兄弟》嗎?Claude 3.7勝出,GPT-4o與Gemini陷入困境!」🔹

 

 

圖靈學院
科楠
2025-03-10

 

    根據 Digital Watch Observatory 的報導,來自加州大學聖地牙哥分校 Hao AI 實驗室的研究人員發現,《超級瑪利歐兄弟》對人工智慧(AI)的挑戰比預期更大。在近期的實驗中,AI 模型被要求玩這款遊戲,結果顯示,Anthropic 的 Claude 3.7 表現最佳,而 Google 的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則遇到困難。 

 

這次實驗並非使用 1985 年的原版遊戲,而是在一個與 GamingAgent 整合的模擬器中進行。該架構為 AI 提供基本指令和截圖,以控制瑪利歐的行動。AI 需要根據指令生成輸入,例如 Python 代碼,來引導瑪利歐通過遊戲中的各種挑戰。研究人員發現,雖然遊戲需要模型規劃複雜的操作和策略,但像 OpenAI 的 o1 這樣的推理模型表現反而不如非推理模型。這是因為推理模型通常需要更長的時間來決定行動,而在像《超級瑪利歐兄弟》這樣的即時遊戲中,時機至關重要。 

 

長期以來,遊戲一直被用作 AI 的基準測試,但一些專家對將遊戲技能作為技術進步衡量標準的相關性提出質疑。OpenAI 的研究科學家 Andrej Karpathy 曾對當前的 AI 評估過程表示關切,稱其為「評估危機」。儘管存在這些疑慮,觀察 AI 挑戰《超級瑪利歐兄弟》仍提供了一個有趣的視角,讓我們了解 AI 的發展程度,即使這些基準測試的意義尚不明確。 

 

總而言之,這項研究揭示了 AI 在應對即時策略和操作要求高的遊戲時所面臨的挑戰,強調了在這些環境中時機和決策速度的重要性。😊