圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

圖靈學院創辦人 科楠老師的願景

雙臂機器人泛化新突破!國立新加坡大學邵林團隊發表 Bi-Adapt,靠「語義對應」解鎖全新物體操作

 

科楠老師(譚芃楠 博士)

2026-6-9

 

引言:雙臂機器人的「泛化之痛」與具身智能的新曙光

 

    在具身智能(Embodied AI)的浪潮中,讓機器人像人類一樣靈巧地運用雙手操作世界,一直是學術界與工業界的終極夢想之一 。不論是摺疊筆電、拔開瓶蓋、還是剪開包裝,雙臂協作(Bimanual Manipulation)在人類日常環境中無處不在 。然而,在機器人學中,雙臂操作的難度並非「1+1=2」的線性增加,而是呈現幾何級數的爆炸 。

 

傳統的雙臂操作方法往往面臨三大嚴峻挑戰:

 

1. 動輒數萬條的專家演示數據(Expert Demonstrations):採集成本極其高昂且勞動強度大 。


2. 極差的跨品類泛化能力(Cross-Category Generalization):機器人在特定物體(如訓練集內的剪刀)上表現完美,但一旦面對外形稍有差異的全新物體品類(如未見過的鉗子),操作策略便會徹底失效 。


3. 巨大的「模擬到真實」鴻溝(Sim-to-Real Gap):在虛擬環境中表現良好的力控與協作,轉換至真實硬體時容易崩潰 。

 

    為了解決這一長久以來的技術瓶頸,新加坡國立大學(NUS)助理教授邵林帶領的研究團隊(聯合上海期智研究院、北京大學、香港大學等頂尖機構學者)發表了名為 《Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence》 的重磅論文 。

該論文創新地提出了 `Bi-Adapt` 框架,將視覺大模型(Vision Foundation Models)與少樣本自適應機制(Few-Shot Adaptation)相結合,成功讓雙臂機器人具備了強大的「觸類旁通」能力 。這項研究不僅打破了數據採集的死胡同,更為通用具身智能大模型的落地開闢了嶄新路徑 。


核心創新:大模型功能性映射與「倒流」動作學習機制

 

    Bi-Adapt 的核心邏輯可以用一個非常形象的人類行為來對比:當一個人類第一次見到一把「沒見過的藍色水管鉗」時,他並不需要重新去讀說明書,而是會自發聯想到自己操作過「剪刀」或「普通鉗子」的經驗,並透過一兩次的嘗試微調力量與角度,就能成功使用它 。為了賦予機器人這種高階的認知與操作能力,Bi-Adapt 架構主要由三個核心支柱構成 :

 

1. 動作學習與逆向數據流訓練(Action Learning on Supporting Set)

 

    在最初階段,Bi-Adapt 在一個有限的「支持數據集(Supporting Set)」上學習跨物體的基本操作技巧 。雙臂協同的動作空間極其龐大(包含兩組 $SE(3)$ 參數:接觸點與夾爪朝向) 。為了降低模型的學習複雜度,團隊設計了一個解耦的感知模組(Perception Module),將雙臂的複合動作拆解為「順序條件動作」 :

  • 左手模組(Gripper 1)預測第一個動作 ;
  • 右手模組(Gripper 2)則在左手動作的基礎上進行條件預測 。

 

    最精妙的是,團隊在訓練時採用了「逆向數據流(Reversed Dataflow)策略」:先訓練右手模組(使其學會適應各種多樣的左手位置),再訓練左手模組(使其提出最容易讓右手協同的優化起點) 。這種策略從根本上確保了雙臂操作的「最優協同效益」 。每個模組均由「動作提議網路(A)」和「動作打分網路(C)」組成,硬性把控動作質量 。

 

2. 基於大模型的跨品類功能性映射(Affordance Transfer via DIFT)

 

    這是 Bi-Adapt 最具突破性的地方。當機器人遇到未見過的新品類物體(Novel Categories)時,它會利用預訓練視覺大模型(如 DINOv2 或擴散模型特徵 DiFT)所湧現出的「跨品類語義對應(Semantic Correspondence)」能力 。模型提取源圖像(已知物體)和目標圖像(新品類物體)的擴散特徵(Diffusion Features),透過計算像素間特徵的餘弦相似度(Cosine Similarity),精準找到兩者在幾何與功能上的語義對應點 。如公式:


    透過這種方式,模型將已知物體成功的操作接觸點(2D Affordance),完美映射到新品類物體的 2D 圖像上,再利用深度圖反投影為 3D 空間中的接觸點(3D Contact Points) 。這意味著機器人直接跳過了耗時的功能性學習階段,直接繼承了視覺大模型的通用常識 。

 

3. 少樣本在線自適應優化(Few-Shot Adaptation)

 

    僅靠大模型的零樣本預測是不夠的,因為大模型的視覺預測容易受到視角和圖像質量的干擾,可能映射出無效的點,且無法準確預估新品類的特異物理屬性(如阻力、重心變化)。Bi-Adapt 引入了在線自適應程序:模型會在新品類的少數實例上進行極少次(例如 50 次以內)的實際交互嘗試 。在交互過程中,打分網路與提議網路會快速吸收「成功或失敗」的反饋,動態過濾掉無效的接觸點,並微調夾爪的拉伸方向(Action Direction Adaptation) 。經過這幾次微調後,模型便能立刻對該新品類下所有從未見過的其他實例(Unseen Instances)實現高成功率的零樣本操作泛化!


實驗結果解密:以壓倒性優勢碾壓傳統基準方法

 

    為了驗證 Bi-Adapt 的實戰能力,邵林教授團隊在 SAPIEN 物理仿真環境 以及 真實世界機器人硬體環境 中進行了極其嚴苛的基準測試 。實驗設定了 5 項極具挑戰性的複雜雙臂任務,包括:

 

1. Unfolding(展開)(例如:打開筆記型電腦) 
2. Opening(打開)(例如:操作剪刀/鉗子張開) 
3. Closing(關閉)(例如:將張開的物件合攏) 
4. Uncapping(拔蓋/分離)(例如:拉開雙向抽屜或分離組合管件) 
5. Capping(合蓋/套合) 

 

    這些任務要求目標關節的移動距離或角度必須跨越極高的閾值,且過程中物體絕不能倒塌或翻轉,難度極高 。

 

1. 新品類泛化成功率對比(Simulation 數據)

 

    在面對「全新物體品類的未見實例」時,Bi-Adapt 展示出了斷層式的領先優勢(定量實驗結果摘錄如下表) :


數據解讀:

  • 手工規則(Heuristic)方法由於缺乏對複雜異形幾何結構的應變能力,表現不佳 。
  • 先前最頂尖的雙臂協作學習模型 DualAfford,在已知品類表現優異,但一旦跨入新品類,其成功率便會呈斷崖式下跌(普遍跌至 20%~35%) 。
  • 相比之下,Bi-Adapt 在各項高難度任務中均穩定維持在 60% ~ 70% 的超高成功率,實現了跨越式的技術鴻溝跨越 。

 

2. 消融實驗(Ablation Study)與自適應效率

 

論文的消融實驗深入剖析了各個組件的貢獻 :

 

  • 移除大模型映射(Ours w/o AT):模型退化為盲目探索,功能性預測精準度大幅暴跌,無法有效橋接新舊品類 。

  • 移除少樣本微調(Ours w/o FA):直接執行大模型預測的點,成功率極低,證實了在線交互微調對於過濾無效點和調整拉伸方向(力控與角度自適應)的不可或缺性 。

 

    在效率方面(Efficiency),Bi-Adapt 展現出了極其陡峭的學習曲線 。實驗表明,隨着交互數據預算的增加,Bi-Adapt 的成功率上升速度顯著快於傳統方法 。特別是在關閉(Closing)任務中,僅僅 3 個 Budget 的演示更新就為模型帶來了超過 30% 的成功率飆升,展現出無與倫比的樣本效率 。


真實世界實機驗證:突破 Sim-to-Real 瓶頸

 

    為了將學術成果推向真正的產業應用,團隊在真實世界中搭建了硬體測試平台:使用兩台 UFactory xArm6 六軸工業機械手臂,配備自帶的夾爪,並在正前方部署了一台 Intel RealSense D435 深度相機 。真實世界中物件的材質多變、摩擦力各異,且充滿了幾何噪點 。研究人員利用 SAM (Segment Anything) 大模型將目標物體從紛繁複雜的背景中切割出來,接著透過 FoundationPose 算法高精度估計其 3D 位姿,並重構出點雲 。

在實際操作中,Bi-Adapt 展現了驚人的實機泛化能力 :

 

  • 機器人成功將「從未見過」的真實筆記型電腦、工具櫃順利展開(Unfolding) 。
  • 面對各種類型的真實紙箱、包裝盒,也都能精準定位雙臂的接觸點,實現流暢的協同操作 。

 

    這項實機測試的成功,有力地證明了 Bi-Adapt 框架具備極強的抗噪性與實用價值,成功跨越了阻礙許多 AI 算法落地的 Sim-to-Real 技術鴻溝 。


專家點評與行業啟示:具身智能大模型的下一步

 

    Bi-Adapt 的成功發表,對於整個機器人與具身智能行業而言,至少帶來了三個層面的深度啟示:

 

1. 「以物體功能為中心」的架構優勢:傳統 VLA(視覺-語言-動作)大模型傾向於讓神經網路一步到位、強行去猜測硬體的關節扭矩 。而 Bi-Adapt 證明了「先利用視覺大模型錨定物體的功能語義,再微調動作方向」的兩階段策略,在現階段更具工程可行性與泛化彈性 。


2. 解鎖工業與服務機器人的「少樣本部署」:在未來的自動化工廠或家庭護理場景中,當引入全新的工件或日用品時,工廠經理或使用者不再需要花費數週時間重新採集數據訓練機器人。機器人只需自己「摸索、試探操作幾次」,就能迅速掌握新物件的操作精髓 。這將使雙臂機器人的部署成本降低數個數量級 。

 

3. 對長序列複雜任務的基石作用:儘管目前 Bi-Adapt 主要專注於短序列(Short-Horizon)的原子級雙臂協作任務(如單純的開、關、拔) ,但它為未來的多物體交互、長序列(Long-Horizon)複雜任務(例如自動組裝一件傢俱)提供了最為關鍵的操作基石 。


結論

 

    新加坡國立大學助理教授邵林團隊發表的 Bi-Adapt 框架,無疑是近年來雙臂操作領域一項極具代表性的硬核成果 。它精妙地借用了 2D 視覺大模型的通用常識,來為高維度、高難度的 3D 雙臂機器人控制「導航」,再輔以極具樣本效率的少樣本自適應機制,完美破解了「泛化困難」與「數據飢渴」的雙重魔咒 。隨着該團隊自研底座技術與物理仿真平台的進一步融合,我們有理由相信,這種軟硬一體、具備自我進化能力的雙臂具身智能大模型,將在不遠的將來真正走出實驗室,走進千家萬戶和現代化柔性工廠,實現真正的通用機器人願景 。


參考文獻

Zhou, J., Wu, R., Liu, Y., Hou, Y., Zhou, X., Yu, C., Zhong, L., & Shao, L. (2026). Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence. arXiv preprint arXiv:2602.08425v2 [cs.RO].