Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

雙臂機器人泛化新突破!國立新加坡大學邵林團隊發表 Bi-Adapt,靠「語義對應」解鎖全新物體操作

 

科楠老師(譚芃楠 博士)

2026-6-9

 

引言:雙臂機器人的「泛化之痛」與具身智能的新曙光

 

    在具身智能(Embodied AI)的浪潮中,讓機器人像人類一樣靈巧地運用雙手操作世界,一直是學術界與工業界的終極夢想之一 。不論是摺疊筆電、拔開瓶蓋、還是剪開包裝,雙臂協作(Bimanual Manipulation)在人類日常環境中無處不在 。然而,在機器人學中,雙臂操作的難度並非「1+1=2」的線性增加,而是呈現幾何級數的爆炸 。

 

傳統的雙臂操作方法往往面臨三大嚴峻挑戰:

 

1. 動輒數萬條的專家演示數據(Expert Demonstrations):採集成本極其高昂且勞動強度大 。


2. 極差的跨品類泛化能力(Cross-Category Generalization):機器人在特定物體(如訓練集內的剪刀)上表現完美,但一旦面對外形稍有差異的全新物體品類(如未見過的鉗子),操作策略便會徹底失效 。


3. 巨大的「模擬到真實」鴻溝(Sim-to-Real Gap):在虛擬環境中表現良好的力控與協作,轉換至真實硬體時容易崩潰 。

 

    為了解決這一長久以來的技術瓶頸,新加坡國立大學(NUS)助理教授邵林帶領的研究團隊(聯合上海期智研究院、北京大學、香港大學等頂尖機構學者)發表了名為 《Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence》 的重磅論文 。

該論文創新地提出了 `Bi-Adapt` 框架,將視覺大模型(Vision Foundation Models)與少樣本自適應機制(Few-Shot Adaptation)相結合,成功讓雙臂機器人具備了強大的「觸類旁通」能力 。這項研究不僅打破了數據採集的死胡同,更為通用具身智能大模型的落地開闢了嶄新路徑 。


核心創新:大模型功能性映射與「倒流」動作學習機制

 

    Bi-Adapt 的核心邏輯可以用一個非常形象的人類行為來對比:當一個人類第一次見到一把「沒見過的藍色水管鉗」時,他並不需要重新去讀說明書,而是會自發聯想到自己操作過「剪刀」或「普通鉗子」的經驗,並透過一兩次的嘗試微調力量與角度,就能成功使用它 。為了賦予機器人這種高階的認知與操作能力,Bi-Adapt 架構主要由三個核心支柱構成 :

 

1. 動作學習與逆向數據流訓練(Action Learning on Supporting Set)

 

    在最初階段,Bi-Adapt 在一個有限的「支持數據集(Supporting Set)」上學習跨物體的基本操作技巧 。雙臂協同的動作空間極其龐大(包含兩組 $SE(3)$ 參數:接觸點與夾爪朝向) 。為了降低模型的學習複雜度,團隊設計了一個解耦的感知模組(Perception Module),將雙臂的複合動作拆解為「順序條件動作」 :

  • 左手模組(Gripper 1)預測第一個動作 ;
  • 右手模組(Gripper 2)則在左手動作的基礎上進行條件預測 。

 

    最精妙的是,團隊在訓練時採用了「逆向數據流(Reversed Dataflow)策略」:先訓練右手模組(使其學會適應各種多樣的左手位置),再訓練左手模組(使其提出最容易讓右手協同的優化起點) 。這種策略從根本上確保了雙臂操作的「最優協同效益」 。每個模組均由「動作提議網路(A)」和「動作打分網路(C)」組成,硬性把控動作質量 。

 

2. 基於大模型的跨品類功能性映射(Affordance Transfer via DIFT)

 

    這是 Bi-Adapt 最具突破性的地方。當機器人遇到未見過的新品類物體(Novel Categories)時,它會利用預訓練視覺大模型(如 DINOv2 或擴散模型特徵 DiFT)所湧現出的「跨品類語義對應(Semantic Correspondence)」能力 。模型提取源圖像(已知物體)和目標圖像(新品類物體)的擴散特徵(Diffusion Features),透過計算像素間特徵的餘弦相似度(Cosine Similarity),精準找到兩者在幾何與功能上的語義對應點 。如公式:


    透過這種方式,模型將已知物體成功的操作接觸點(2D Affordance),完美映射到新品類物體的 2D 圖像上,再利用深度圖反投影為 3D 空間中的接觸點(3D Contact Points) 。這意味著機器人直接跳過了耗時的功能性學習階段,直接繼承了視覺大模型的通用常識 。

 

3. 少樣本在線自適應優化(Few-Shot Adaptation)

 

    僅靠大模型的零樣本預測是不夠的,因為大模型的視覺預測容易受到視角和圖像質量的干擾,可能映射出無效的點,且無法準確預估新品類的特異物理屬性(如阻力、重心變化)。Bi-Adapt 引入了在線自適應程序:模型會在新品類的少數實例上進行極少次(例如 50 次以內)的實際交互嘗試 。在交互過程中,打分網路與提議網路會快速吸收「成功或失敗」的反饋,動態過濾掉無效的接觸點,並微調夾爪的拉伸方向(Action Direction Adaptation) 。經過這幾次微調後,模型便能立刻對該新品類下所有從未見過的其他實例(Unseen Instances)實現高成功率的零樣本操作泛化!


實驗結果解密:以壓倒性優勢碾壓傳統基準方法

 

    為了驗證 Bi-Adapt 的實戰能力,邵林教授團隊在 SAPIEN 物理仿真環境 以及 真實世界機器人硬體環境 中進行了極其嚴苛的基準測試 。實驗設定了 5 項極具挑戰性的複雜雙臂任務,包括:

 

1. Unfolding(展開)(例如:打開筆記型電腦) 
2. Opening(打開)(例如:操作剪刀/鉗子張開) 
3. Closing(關閉)(例如:將張開的物件合攏) 
4. Uncapping(拔蓋/分離)(例如:拉開雙向抽屜或分離組合管件) 
5. Capping(合蓋/套合) 

 

    這些任務要求目標關節的移動距離或角度必須跨越極高的閾值,且過程中物體絕不能倒塌或翻轉,難度極高 。

 

1. 新品類泛化成功率對比(Simulation 數據)

 

    在面對「全新物體品類的未見實例」時,Bi-Adapt 展示出了斷層式的領先優勢(定量實驗結果摘錄如下表) :


數據解讀:

  • 手工規則(Heuristic)方法由於缺乏對複雜異形幾何結構的應變能力,表現不佳 。
  • 先前最頂尖的雙臂協作學習模型 DualAfford,在已知品類表現優異,但一旦跨入新品類,其成功率便會呈斷崖式下跌(普遍跌至 20%~35%) 。
  • 相比之下,Bi-Adapt 在各項高難度任務中均穩定維持在 60% ~ 70% 的超高成功率,實現了跨越式的技術鴻溝跨越 。

 

2. 消融實驗(Ablation Study)與自適應效率

 

論文的消融實驗深入剖析了各個組件的貢獻 :

 

  • 移除大模型映射(Ours w/o AT):模型退化為盲目探索,功能性預測精準度大幅暴跌,無法有效橋接新舊品類 。

  • 移除少樣本微調(Ours w/o FA):直接執行大模型預測的點,成功率極低,證實了在線交互微調對於過濾無效點和調整拉伸方向(力控與角度自適應)的不可或缺性 。

 

    在效率方面(Efficiency),Bi-Adapt 展現出了極其陡峭的學習曲線 。實驗表明,隨着交互數據預算的增加,Bi-Adapt 的成功率上升速度顯著快於傳統方法 。特別是在關閉(Closing)任務中,僅僅 3 個 Budget 的演示更新就為模型帶來了超過 30% 的成功率飆升,展現出無與倫比的樣本效率 。


真實世界實機驗證:突破 Sim-to-Real 瓶頸

 

    為了將學術成果推向真正的產業應用,團隊在真實世界中搭建了硬體測試平台:使用兩台 UFactory xArm6 六軸工業機械手臂,配備自帶的夾爪,並在正前方部署了一台 Intel RealSense D435 深度相機 。真實世界中物件的材質多變、摩擦力各異,且充滿了幾何噪點 。研究人員利用 SAM (Segment Anything) 大模型將目標物體從紛繁複雜的背景中切割出來,接著透過 FoundationPose 算法高精度估計其 3D 位姿,並重構出點雲 。

在實際操作中,Bi-Adapt 展現了驚人的實機泛化能力 :

 

  • 機器人成功將「從未見過」的真實筆記型電腦、工具櫃順利展開(Unfolding) 。
  • 面對各種類型的真實紙箱、包裝盒,也都能精準定位雙臂的接觸點,實現流暢的協同操作 。

 

    這項實機測試的成功,有力地證明了 Bi-Adapt 框架具備極強的抗噪性與實用價值,成功跨越了阻礙許多 AI 算法落地的 Sim-to-Real 技術鴻溝 。


專家點評與行業啟示:具身智能大模型的下一步

 

    Bi-Adapt 的成功發表,對於整個機器人與具身智能行業而言,至少帶來了三個層面的深度啟示:

 

1. 「以物體功能為中心」的架構優勢:傳統 VLA(視覺-語言-動作)大模型傾向於讓神經網路一步到位、強行去猜測硬體的關節扭矩 。而 Bi-Adapt 證明了「先利用視覺大模型錨定物體的功能語義,再微調動作方向」的兩階段策略,在現階段更具工程可行性與泛化彈性 。


2. 解鎖工業與服務機器人的「少樣本部署」:在未來的自動化工廠或家庭護理場景中,當引入全新的工件或日用品時,工廠經理或使用者不再需要花費數週時間重新採集數據訓練機器人。機器人只需自己「摸索、試探操作幾次」,就能迅速掌握新物件的操作精髓 。這將使雙臂機器人的部署成本降低數個數量級 。

 

3. 對長序列複雜任務的基石作用:儘管目前 Bi-Adapt 主要專注於短序列(Short-Horizon)的原子級雙臂協作任務(如單純的開、關、拔) ,但它為未來的多物體交互、長序列(Long-Horizon)複雜任務(例如自動組裝一件傢俱)提供了最為關鍵的操作基石 。


結論

 

    新加坡國立大學助理教授邵林團隊發表的 Bi-Adapt 框架,無疑是近年來雙臂操作領域一項極具代表性的硬核成果 。它精妙地借用了 2D 視覺大模型的通用常識,來為高維度、高難度的 3D 雙臂機器人控制「導航」,再輔以極具樣本效率的少樣本自適應機制,完美破解了「泛化困難」與「數據飢渴」的雙重魔咒 。隨着該團隊自研底座技術與物理仿真平台的進一步融合,我們有理由相信,這種軟硬一體、具備自我進化能力的雙臂具身智能大模型,將在不遠的將來真正走出實驗室,走進千家萬戶和現代化柔性工廠,實現真正的通用機器人願景 。


參考文獻

Zhou, J., Wu, R., Liu, Y., Hou, Y., Zhou, X., Yu, C., Zhong, L., & Shao, L. (2026). Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence. arXiv preprint arXiv:2602.08425v2 [cs.RO].