圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

探索異質機器人學習:HPT為通用機器人模型帶來新希望

 

 

 

圖靈學院
科楠
2024-10-31

 

    在機器人學習的世界中,異質性(Heterogeneity)是模型訓練和應用過程中一項巨大挑戰。當機器人必須在不同的環境中完成各種任務並使用不同硬體架構時,如何讓機器人模型在多種配置下保持穩定且有效的性能成為了難題。針對這一問題,麻省理工學院 (MIT) 的 CSAIL 團隊與 Meta 的 FAIR 團隊聯合提出了 “異質預訓練轉換器 (Heterogeneous Pre-trained Transformers, HPT)”,並於 NeurIPS 2024 上發表了這項突破性研究。

 

我們將深入剖析該論文的研究重點與創新之處,並探討 HPT 對機器人學習領域的深遠影響,並且透過論文中的圖表來輔助讀者理解其核心架構和實驗結果。

 

異質性的挑戰:為何通用機器人模型難以實現?

 

    目前的機器人學習模型大多在固定任務和單一機器人架構上進行訓練。當模型在不同機器人或任務上運行時,往往會因缺乏跨越多種環境和裝置的泛化能力而表現不佳。根據論文中的說法,機器人異質性主要體現在以下幾個方面:

  • 硬體異質性:不同的機器人具有不同的物理結構,如關節數、自由度、末端效應器的配置等,這使得每一機器人的動作控制需求不同。
  • 感知異質性:不同機器人搭載不同的攝像頭、傳感器,攝像頭的位置和視角差異導致視覺數據的變化,進一步影響任務執行的精確性。
  • 環境異質性:每個機器人執行任務的場景也不相同,如光照條件、場景佈局等都會干擾感知數據的處理。

 

這些差異導致了模型需要針對不同的設置進行個別訓練,而無法形成能夠適應多種環境和裝置的通用策略。該論文提出,解決這些問題的關鍵在於構建「不依賴特定機器人或任務」的共享表示空間,讓模型在各種異質配置下仍能高效運行。

 

HPT 架構:如何克服異質性?

 

    HPT 的核心架構包括了三大模組:“Stem(莖)”、“Trunk(軀幹)” 及 “Head(頭)”。每個模組都有特定的功能,協助模型在異質數據的基礎上進行學習,並保證模型的通用性與擴展性。

 

圖1:HPT架構。 HPT 被模組化為Stem、Trunk和Head。由本體感覺標記器和視覺標記器組成的Trunk將不同實施例的視覺和本體感覺觀察映射到固定數量(例如16)的標記。共享Trunk是一個 Transformer,它將連接的標記映射到共享表示。然後,Head將處理後的令牌對應到不同下游任務中的操作。對於特定實施例,啟動一對Stem/Head(由開關表示)。Trunk透過監督學習在動作標記資料上進行共享和預訓練,然後轉移到新的實施例。此過程可擴展到 52 個資料集和 1B 個參數。

 

  • Stem 模組:負責將不同機器人的視覺和自體感知數據轉換為固定的向量表示,這些表示稱為「token」。每一個機器人配置都會有專屬的 Stem,負責處理該機器人的傳感器數據並轉化為統一格式的表示。
  • Trunk 模組:HPT 的核心組件,為所有機器人和任務共享的 Transformer。Trunk 模組能夠接收來自 Stem 模組的 token,並將其映射到一個共享的潛在空間中。在這個階段,模型不依賴具體的機器人硬體和任務環境,實現了異質性數據的融合。
  • Head 模組:負責將 Trunk 的輸出映射到各機器人的動作空間。每一個新的任務或機器人配置都會配置一個專屬的 Head,從而實現模型的靈活適應性。

 

HPT的工作原理:Stem 首先將每個機器人的傳感器輸入轉換為一組標準化的 token,然後傳遞至共享的 Transformer Trunk 模組進行處理,最後經過特定任務的 Head 模組輸出動作指令。這樣的設計能夠在不同機器人和任務之間進行遷移學習,使 HPT 成為一個強大的通用型機器人模型。

 

大規模異質性數據預訓練:HPT 的訓練策略

 

    HPT 透過異質性數據集進行大規模預訓練,其中包括52個數據集,涵蓋真實機器人、模擬環境以及人類視頻數據(例如 EPIC Kitchen)。此預訓練策略的創新在於,它不僅讓模型學會處理不同機器人平台上的異質性數據,還進一步擴展了其在不同任務場景中的適應能力。

 

 

圖2:機器人技術中的資料集異質性。我們展示了來自不同領域的資料集混合的插圖(每種顏色是一個不同的實施例),包括真實的機器人遠端操作、部署的機器人、模擬和人類視訊。

 

論文中的實驗結果顯示,HPT 在多個模擬和真實環境中相較於其他基準方法提升了超過 20% 的性能。此外,HPT 還能夠通過少量微調(fine-tuning),在未見過的任務中也能展現出穩定的遷移學習效果。

 

實驗結果:HPT 在不同環境中的表現

 

    論文中的實驗設計展示了 HPT 在模擬和真實機器人環境中的廣泛應用性。研究團隊對 HPT 進行了以下幾個方面的測試:

 

  • 模擬環境中的遷移學習:HPT 預訓練模型在 Meta-World、RoboMimic 以及 Fleet-Tools 等多個模擬環境中展現了優越的學習性能,特別是在未見過的任務中能夠成功執行。

 

圖3: 模擬實驗的成功率。論文中評估了從 HPT-B 到 HPT-XL 的模型在 4 個不同模擬器基準測試任務上的遷移學習效能。

 

  • 真實環境中的適應性:HPT 模型也被應用於真實機器人操作任務中,包括寵物照護和精密組裝等。在這些場景中,HPT 相較於從零訓練模型表現出更高的成功率及穩定性,並且顯示出對不同照明和場景配置的適應能力。

 

 

圖4:現實世界中的遷移學習。研究中在四個任務/兩個實施例上評估預訓練的 HPT。每種方法進行 45 次試驗後,計算出標準差的平均成功率。在論文中之實驗中使用 HPT-Base 的預設預訓練設定。

 

這些實驗結果不僅驗證了 HPT 的效能,還顯示了其在不同環境中的強大適應性。


未來發展的啟示與影響

 

    HPT 的提出對機器人學習領域具有深遠的影響。其模組化的架構設計和異質數據的預訓練策略提供了一種全新的方式來應對機器人異質性挑戰。隨著越來越多的異質數據可供利用,HPT 類似的通用模型有望在多種不同的機器人應用場景中發揮作用。

未來,研究人員可以在以下幾個方向上進行探索:

 

  • 跨模態學習:HPT 在視覺和自體感知的基礎上進行了預訓練,未來可以探索將觸覺、語音等更多模態數據融入模型中,從而實現更加豐富的感知能力。
  • 強化學習的整合:目前 HPT 的訓練主要基於監督學習,未來可以考慮與強化學習相結合,使模型能夠根據實時的反饋進行學習,進一步提升其智能決策能力。
  • 持續學習和模型更新:隨著環境和任務的變化,機器人模型需要不斷更新以適應新的需求。HPT 提供了一種較為靈活的架構,未來可以在此基礎上開發持續學習的方法,使其成為真正的智慧型學習系統。

 

結語


    HPT 的研究成果為機器人學習領域帶來了重要的突破,其通用型的模型架構和對異質性數據的有效處理使其成為構建智能機器人系統的重要基礎。隨著更多多模態數據和異質性數據的出現,HPT 類似的模型將在機器人應用領域中發揮越來越重要的作用,推動機器人技術邁向更高效、更靈活的未來。

 

 

內文圖片及論文來源:
Wang, L., Chen, X., Zhao, J., He, K. (2024). Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers. “38th Conference on Neural Information Processing Systems (NeurIPS 2024)”.  


論文介紹及實驗影片