Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

運用 AI  Agent 突破 ARC-AGI 挑戰,開啟人工通用智慧新時代

 

 

圖靈學院
科楠
2025-01-20

 

重新定義AI的能力範疇

 

    學習開車是一個反映人類學習能力的經典例子。從少量示範中,我們可以迅速掌握基礎技能,應用於各類車型及複雜場景。然而,當前的人工智慧(AI)系統依賴於海量數據訓練,無法像人類一樣靈活應變。人工通用智慧(Artificial General Intelligence, AGI)的核心目標正是讓AI突破這一限制,實現跨場景的知識概括應用。ARC(Abstraction and Reasoning Corpus,抽象推理挑戰)成為測試AGI能力的重要基準。

在本文中,我們將探討ARC的挑戰特性,現有解決方案的局限,並介紹如何運用AI代理突破ARC,邁向AGI的未來。


ARC的挑戰與重要性

 

什麼是ARC?


    ARC由Google研究員François Chollet設計,旨在衡量AI系統的概括能力。與傳統AI基準不同,ARC不僅依賴模式匹配,而是要求AI從少量範例中提取規則,並應用於全新問題。

 

ARC的挑戰特性


1. 輸出要求嚴格:  
   每個ARC任務輸出的是一個30x30的彩色網格,AI需完全匹配,單一錯誤即視為失敗。


2. 少量學習:  
   每個任務只有2-4個訓練範例,限制AI依賴大量數據進行模式匹配。


3. 任務獨特性:  
   每個謎題包含唯一的輸入-輸出轉換,無法直接重用過去的學習結果。


4. 避免捷徑解法:  
   ARC的設計防止AI通過記憶或簡單規則投機取巧,迫使系統真正理解底層規律。

 

為何ARC對AGI關鍵?


    ARC提供了一個高標準的測試環境,讓研究者能準確評估AI的真正概括能力。François Chollet指出:「據我們所知,現有機器學習技術無法解決ARC挑戰」。因此,ARC成為AGI發展的試金石。

 

現有解決方案的局限性

 

1. 蠻力搜尋:缺乏靈活性
在2020年的Kaggle競賽中,參賽者透過預定義轉換規則進行蠻力搜尋,嘗試解決ARC謎題。雖然這些方法能在某些情境下有效,但它們本質上依賴於人工設計的規則,缺乏真正的理解能力。

 

2. 最小描述長度(MDL):有限的模式表達力
MDL方法試圖使用壓縮語言描述網格模式,並通過簡潔性找到最佳解釋。然而,該方法在處理高複雜度任務時效率較低,並無法涵蓋ARC中所有的轉換可能性。

 

3. 大型語言模型(LLM):無法應對空間推理
儘管LLM在自然語言處理中展現卓越能力,但在解決ARC時面臨挑戰。直接使用LLM進行輸出預測,容易產生錯誤,尤其是在需要高精度的空間推理時。

 

AI代理:解決ARC挑戰的核心方法

 

    AI代理是一種動態學習系統,通過結合符號推理、神經網路和語言模型等多種技術,實現即時適應性。以下是我們的方法與成果。

 


Fig. AI Agent Solution

 

1. 模仿人類解決問題行為


我們的AI代理模仿人類的解決問題流程:
- 分析範例,識別輸入-輸出的關聯性。
- 假設規則,撰寫轉換函數。
- 測試結果並反覆改進。

 

此過程強調創新假設的重要性,而非對錯誤假設進行無效修補。

 

2. 選擇最佳大型語言模型(LLM)


在ARC挑戰中,我們測試了多個LLM,最終發現Claude 3.5 Sonnet在模式識別和效能表現上優於其他模型,如GPT-4。Claude能準確識別細微轉換,並以更快的速度完成推理任務。

 

3. 結合多種技術,實現動態適應


AI代理將以下技術整合,根據任務需求進行靈活調整:
- 符號系統:適用於精確推理,如幾何轉換。
- 神經網路:擅長模式識別與數據分析。
- 語言模型:用於抽象推理與程式碼生成。
- 搜尋演算法:有效探索可能的解決方案空間。

 

4. 反覆改進的突破


研究發現,對錯誤假設的反覆改進通常徒勞無功。更有效的方法是捨棄有缺陷的假設,基於新見解重新建立規則。這種策略反映了人類的創新思維模式。

 

成功案例與成果

 

ARC挑戰的突破


    在ARC評估集中,我們的AI代理達到了近30%的準確度,顯著超越基準方法。這一結果證明模仿人類行為的有效性,並展示AI代理在解決抽象問題上的潛力。

 

Claude 3.5 Sonnet的優勢
- 效能:準確度是GPT-4o的兩倍。
- 效率:執行時間僅為GPT-4o的1/7。
- 穩定性:表現一致,適應多樣化任務需求。

 

未來展望:邁向AGI的藍圖

 

    ARC挑戰的解決僅是AGI旅程中的一小步。未來的AGI需具備以下能力:


1. 更高層次的抽象能力:能理解並應用深層規律。
2. 多模態整合:結合視覺、語音和文本數據進行決策。
3. 自主學習與適應:在動態環境中快速適應新挑戰。

 

AI代理將成為實現這些目標的關鍵工具,並推動智能技術向更高層次發展。

 

AI代理如何重塑智能未來

 

    ARC挑戰驗證了AI代理的強大潛力。我們的方法不僅提升了ARC任務的準確度,還為實現AGI奠定了堅實基礎。隨著技術的不斷進步,AGI將不再只是理論,而是切實可行的未來願景。
AI代理正在改變我們對智能的理解,開啟了AI從工具到智慧伙伴的全新時代。

 

 

Reference:
You can find the solution of WLTech.AI (WebLab Technology) from here:

https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing