圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

運用 AI  Agent 突破 ARC-AGI 挑戰,開啟人工通用智慧新時代

 

 

圖靈學院
科楠
2025-01-20

 

重新定義AI的能力範疇

 

    學習開車是一個反映人類學習能力的經典例子。從少量示範中,我們可以迅速掌握基礎技能,應用於各類車型及複雜場景。然而,當前的人工智慧(AI)系統依賴於海量數據訓練,無法像人類一樣靈活應變。人工通用智慧(Artificial General Intelligence, AGI)的核心目標正是讓AI突破這一限制,實現跨場景的知識概括應用。ARC(Abstraction and Reasoning Corpus,抽象推理挑戰)成為測試AGI能力的重要基準。

在本文中,我們將探討ARC的挑戰特性,現有解決方案的局限,並介紹如何運用AI代理突破ARC,邁向AGI的未來。


ARC的挑戰與重要性

 

什麼是ARC?


    ARC由Google研究員François Chollet設計,旨在衡量AI系統的概括能力。與傳統AI基準不同,ARC不僅依賴模式匹配,而是要求AI從少量範例中提取規則,並應用於全新問題。

 

ARC的挑戰特性


1. 輸出要求嚴格:  
   每個ARC任務輸出的是一個30x30的彩色網格,AI需完全匹配,單一錯誤即視為失敗。


2. 少量學習:  
   每個任務只有2-4個訓練範例,限制AI依賴大量數據進行模式匹配。


3. 任務獨特性:  
   每個謎題包含唯一的輸入-輸出轉換,無法直接重用過去的學習結果。


4. 避免捷徑解法:  
   ARC的設計防止AI通過記憶或簡單規則投機取巧,迫使系統真正理解底層規律。

 

為何ARC對AGI關鍵?


    ARC提供了一個高標準的測試環境,讓研究者能準確評估AI的真正概括能力。François Chollet指出:「據我們所知,現有機器學習技術無法解決ARC挑戰」。因此,ARC成為AGI發展的試金石。

 

現有解決方案的局限性

 

1. 蠻力搜尋:缺乏靈活性
在2020年的Kaggle競賽中,參賽者透過預定義轉換規則進行蠻力搜尋,嘗試解決ARC謎題。雖然這些方法能在某些情境下有效,但它們本質上依賴於人工設計的規則,缺乏真正的理解能力。

 

2. 最小描述長度(MDL):有限的模式表達力
MDL方法試圖使用壓縮語言描述網格模式,並通過簡潔性找到最佳解釋。然而,該方法在處理高複雜度任務時效率較低,並無法涵蓋ARC中所有的轉換可能性。

 

3. 大型語言模型(LLM):無法應對空間推理
儘管LLM在自然語言處理中展現卓越能力,但在解決ARC時面臨挑戰。直接使用LLM進行輸出預測,容易產生錯誤,尤其是在需要高精度的空間推理時。

 

AI代理:解決ARC挑戰的核心方法

 

    AI代理是一種動態學習系統,通過結合符號推理、神經網路和語言模型等多種技術,實現即時適應性。以下是我們的方法與成果。

 


Fig. AI Agent Solution

 

1. 模仿人類解決問題行為


我們的AI代理模仿人類的解決問題流程:
- 分析範例,識別輸入-輸出的關聯性。
- 假設規則,撰寫轉換函數。
- 測試結果並反覆改進。

 

此過程強調創新假設的重要性,而非對錯誤假設進行無效修補。

 

2. 選擇最佳大型語言模型(LLM)


在ARC挑戰中,我們測試了多個LLM,最終發現Claude 3.5 Sonnet在模式識別和效能表現上優於其他模型,如GPT-4。Claude能準確識別細微轉換,並以更快的速度完成推理任務。

 

3. 結合多種技術,實現動態適應


AI代理將以下技術整合,根據任務需求進行靈活調整:
- 符號系統:適用於精確推理,如幾何轉換。
- 神經網路:擅長模式識別與數據分析。
- 語言模型:用於抽象推理與程式碼生成。
- 搜尋演算法:有效探索可能的解決方案空間。

 

4. 反覆改進的突破


研究發現,對錯誤假設的反覆改進通常徒勞無功。更有效的方法是捨棄有缺陷的假設,基於新見解重新建立規則。這種策略反映了人類的創新思維模式。

 

成功案例與成果

 

ARC挑戰的突破


    在ARC評估集中,我們的AI代理達到了近30%的準確度,顯著超越基準方法。這一結果證明模仿人類行為的有效性,並展示AI代理在解決抽象問題上的潛力。

 

Claude 3.5 Sonnet的優勢
- 效能:準確度是GPT-4o的兩倍。
- 效率:執行時間僅為GPT-4o的1/7。
- 穩定性:表現一致,適應多樣化任務需求。

 

未來展望:邁向AGI的藍圖

 

    ARC挑戰的解決僅是AGI旅程中的一小步。未來的AGI需具備以下能力:


1. 更高層次的抽象能力:能理解並應用深層規律。
2. 多模態整合:結合視覺、語音和文本數據進行決策。
3. 自主學習與適應:在動態環境中快速適應新挑戰。

 

AI代理將成為實現這些目標的關鍵工具,並推動智能技術向更高層次發展。

 

AI代理如何重塑智能未來

 

    ARC挑戰驗證了AI代理的強大潛力。我們的方法不僅提升了ARC任務的準確度,還為實現AGI奠定了堅實基礎。隨著技術的不斷進步,AGI將不再只是理論,而是切實可行的未來願景。
AI代理正在改變我們對智能的理解,開啟了AI從工具到智慧伙伴的全新時代。

 

 

Reference:
You can find the solution of WLTech.AI (WebLab Technology) from here:

https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing