「AI能玩《超級瑪利歐兄弟》嗎？Claude 3.7勝出，GPT-4o與Gemini陷入困境！」

圖靈學院內的文章包含三大主題：ESG浄零實驗室、AI實驗室及精實管理實驗室，我們會不定期分享相關主題之文章，也歡迎並對前述主題有興趣的學員投稿分享您的見解 (我要投稿)

圖靈學院創辦人科楠老師的願景

🔹「AI能玩《超級瑪利歐兄弟》嗎？Claude 3.7勝出，GPT-4o與Gemini陷入困境！」🔹

圖靈學院
科楠
2025-03-10

根據 Digital Watch Observatory 的報導，來自加州大學聖地牙哥分校 Hao AI 實驗室的研究人員發現，《超級瑪利歐兄弟》對人工智慧（AI）的挑戰比預期更大。在近期的實驗中，AI 模型被要求玩這款遊戲，結果顯示，Anthropic 的 Claude 3.7 表現最佳，而 Google 的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 則遇到困難。

這次實驗並非使用 1985 年的原版遊戲，而是在一個與 GamingAgent 整合的模擬器中進行。該架構為 AI 提供基本指令和截圖，以控制瑪利歐的行動。AI 需要根據指令生成輸入，例如 Python 代碼，來引導瑪利歐通過遊戲中的各種挑戰。研究人員發現，雖然遊戲需要模型規劃複雜的操作和策略，但像 OpenAI 的 o1 這樣的推理模型表現反而不如非推理模型。這是因為推理模型通常需要更長的時間來決定行動，而在像《超級瑪利歐兄弟》這樣的即時遊戲中，時機至關重要。

長期以來，遊戲一直被用作 AI 的基準測試，但一些專家對將遊戲技能作為技術進步衡量標準的相關性提出質疑。OpenAI 的研究科學家 Andrej Karpathy 曾對當前的 AI 評估過程表示關切，稱其為「評估危機」。儘管存在這些疑慮，觀察 AI 挑戰《超級瑪利歐兄弟》仍提供了一個有趣的視角，讓我們了解 AI 的發展程度，即使這些基準測試的意義尚不明確。

總而言之，這項研究揭示了 AI 在應對即時策略和操作要求高的遊戲時所面臨的挑戰，強調了在這些環境中時機和決策速度的重要性。😊

聯絡我們

電話: 04-37-031-031

傳真: 04-2473-3865

電子郵件: info@ibco.com.tw

地址: 台中市烏日區高鐵三路29號12F-1

歡迎訂閱IBCO電子報隨時更新最新ESG/AI議題

Replace this text with information about you and your business or add information that will be useful for your customers.

圖靈學院內的文章包含三大主題：ESG浄零實驗室、AI實驗室及精實管理實驗室，我們會不定期分享相關主題之文章，也歡迎並對前述主題有興趣的學員投稿分享您的見解 (我要投稿)

圖靈學院創辦人 科楠老師的願景