圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

🔹「AI能玩《超級瑪利歐兄弟》嗎?Claude 3.7勝出,GPT-4o與Gemini陷入困境!」🔹

 

 

圖靈學院
科楠
2025-03-10

 

    根據 Digital Watch Observatory 的報導,來自加州大學聖地牙哥分校 Hao AI 實驗室的研究人員發現,《超級瑪利歐兄弟》對人工智慧(AI)的挑戰比預期更大。在近期的實驗中,AI 模型被要求玩這款遊戲,結果顯示,Anthropic 的 Claude 3.7 表現最佳,而 Google 的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則遇到困難。 

 

這次實驗並非使用 1985 年的原版遊戲,而是在一個與 GamingAgent 整合的模擬器中進行。該架構為 AI 提供基本指令和截圖,以控制瑪利歐的行動。AI 需要根據指令生成輸入,例如 Python 代碼,來引導瑪利歐通過遊戲中的各種挑戰。研究人員發現,雖然遊戲需要模型規劃複雜的操作和策略,但像 OpenAI 的 o1 這樣的推理模型表現反而不如非推理模型。這是因為推理模型通常需要更長的時間來決定行動,而在像《超級瑪利歐兄弟》這樣的即時遊戲中,時機至關重要。 

 

長期以來,遊戲一直被用作 AI 的基準測試,但一些專家對將遊戲技能作為技術進步衡量標準的相關性提出質疑。OpenAI 的研究科學家 Andrej Karpathy 曾對當前的 AI 評估過程表示關切,稱其為「評估危機」。儘管存在這些疑慮,觀察 AI 挑戰《超級瑪利歐兄弟》仍提供了一個有趣的視角,讓我們了解 AI 的發展程度,即使這些基準測試的意義尚不明確。 

 

總而言之,這項研究揭示了 AI 在應對即時策略和操作要求高的遊戲時所面臨的挑戰,強調了在這些環境中時機和決策速度的重要性。😊