Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

MLE-bench:AI 代理機器學習工程評估平台
MLE-BENCH: EVALUATING MACHINE LEARNING AGENTS ON MACHINE LEARNING ENGINEERING

BY OpenAI

 

圖靈學院
科楠
2024-10-17

 

引言

 

    隨著人工智慧(AI)技術的快速發展,如何有效評估 AI 模型在機器學習工程中的能力成為一項重要課題。本文介紹的 MLE-bench 是一個專門用於評估機器學習工程代理能力的基準平台,透過離線的 Kaggle 競賽環境,全面測量 AI 代理在自動化端到端機器學習任務中的表現。本文將詳細介紹 MLE-bench 的平台開發過程、代理的性能評估、資源擴展實驗、數據集污染與作弊的影響,以及其對未來應用的意義。

 

 


圖 1: MLE-bench MLE-bench 是針對 AI 代理的離線 Kaggle 競賽環境。每個比賽都有相關的說明、資料集和評分程式碼。提交的資料會在本機進行評分,並與真實世界中人類的嘗試進行比較。

 

 

    MLE-bench 是一個專門用於評估機器學習工程代理能力的基準平台,包含了來自 Kaggle 的 75 個離線競賽。這些競賽經過精心挑選,旨在涵蓋機器學習工程中的各種挑戰性任務,包括自然語言處理、計算機視覺和信號處理等領域。這些任務代表了現代機器學習工程師在實際工作中可能面臨的多樣性和複雜性,涵蓋了從數據集準備、模型訓練到結果驗證的完整流程。因此,MLE-bench 能夠有效地評估 AI 代理在自動執行端到端機器學習工程任務中的能力,為進一步理解和發展這些代理提供了可靠的參考標準。

 

圖 2: 來自 3 個不同代理框架嘗試比賽的真實軌跡摘錄 來自 MLE-bench。如同真實世界的研發一樣,解決這些問題需要試誤迭代。MLAB 和 OpenHands 是透過呼叫工具來採取行動的通用支架;AIDE 則是專為在 Kaggle 競賽中對解決方案執行樹狀搜尋而設計。在此實驗中,代理程式可自主運行長達 24小時。

 

 

    為了全面評估各種語言模型和代理架構的表現,研究團隊在 MLE-bench 上進行了多次測試,使用了多種最前沿的語言模型與代理架構。實驗結果顯示,最佳表現的代理(即 OpenAI 的 o1-preview 配合 AIDE 框架)在所有競賽中能夠獲得銅牌及以上的成績達到 16.9%。這意味著這些代理在 75 個挑戰中,有相當一部分能夠接近甚至達到人類專家的水準,表現出色。AIDE 的成功在於它為 Kaggle 比賽專門優化,能夠有效地指導語言模型進行數據處理、模型調試和提交結果的全過程,從而最大化模型在競賽中的得分。這顯示出代理架構的專門性和適配性對於表現的影響至關重要。

 

 

圖 3: 取得獎牌的百分比會隨著允許的嘗試次數而增加。GPT- 4o (AIDE) 的 pass@6 獲得的分數 (17.0%) 與 o1-preview (AIDE) 的 pass@1 獲得的分數 (16.9%) 相若。(16.9%). 值得注意的是,兩個代理的 pass@6 得分都是 pass@1 得分的兩倍。

 

 

    此論文還探討了多方面的資源擴展對代理表現的影響,包括延長運行時間、增加硬體資源(如 GPU 的數量)以及增加嘗試次數等。實驗結果顯示,隨著這些資源的擴展,代理的競賽表現有顯著提升。例如,當增加嘗試次數(如從一次增加到八次)時,代理的成績幾乎是單次嘗試的兩倍。而當代理運行時間從 24 小時延長至 100 小時時,代理可以進行更多次的模型改進和實驗,最終提交的成績也相應提高。這表明,AI 代理在處理複雜任務時,充足的計算資源和足夠的時間對於其提升模型性能是至關重要的。

 

 

圖 4: GPT-4o (AIDE) 在 T 小時後獲得獎牌的比賽百分比(越高越好)。平均而言,若給代理程式更多的時間,代理程式就能改善其解決方案。

 

    在開發 MLE-bench 的過程中,研究團隊也非常關注數據集污染和作弊行為對於模型性能的影響。他們檢查了語言模型在訓練過程中是否因為使用了競賽公開的解決方案而受到影響,並進一步進行了抄襲檢測。通過分析模型對競賽解決方案的熟悉程度,並使用專門的抄襲檢測工具 Dolos 來檢查提交程式碼的唯一性,結果顯示污染對結果的影響是有限的,且沒有發現抄襲行為。這些結果強調了 MLE-bench 在設計上的嚴謹性,使其成為評估 AI 代理真實能力的可靠工具。

 

圖 5: 此研究觀察到 GPT-4o 對比賽的熟悉程度與其表現(樣本提交分數與該比賽的金牌分數之間的正常化分數)之間沒有正向關係。該競賽的金牌分數)之間並無正向關係。

 

 

    MLE-bench 的開發對於理解和推動 AI 代理在機器學習工程領域的應用具有深遠的意義。這樣的基準能夠幫助我們系統性地評估自動化機器學習代理的發展潛力,尤其是在解決現實世界中的複雜工程挑戰方面。隨著 AI 代理逐漸具備自主完成機器學習任務的能力,它們可以顯著加速各種科學研究和應用的進程,例如醫療保健、氣候科學等領域的研究。然而,這也意味著我們需要對這些代理的能力有更加全面的理解,以便在未來安全、可控地部署這些技術,從而避免可能的風險。MLE-bench 通過其開源特性,促進了學術界和工業界對於 AI 代理的性能和安全性進行進一步的研究和討論,這對於未來的技術發展具有重要的推動作用。

 

結論

 

    MLE-bench 為我們提供了一個系統化評估 AI 代理在機器學習工程中的能力的工具。通過嚴格設計的離線競賽挑戰,這個平台成功地測試了現有語言模型與代理架構的性能,並揭示了增加資源和延長運行時間對代理表現的顯著影響。MLE-bench 的開源特性促進了社會對 AI 代理的研究與應用討論,這對於推動 AI 技術在各行各業中的安全應用至關重要。隨著 AI 工程代理技術的不斷發展,MLE-bench 將在幫助我們理解和管理這些技術方面發揮更大作用。

 

 

 

 

原文來源:
Chan, J. S., Chowdhury, N., Jaffe, O., Aung, J., Sherburn, D., Mays, E., ... & Mądry, A. (2024). MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering. arXiv preprint arXiv:2410.07095.