
科楠老師(譚芃楠 博士)
2026-6-9
引言:雙臂機器人的「泛化之痛」與具身智能的新曙光
在具身智能(Embodied AI)的浪潮中,讓機器人像人類一樣靈巧地運用雙手操作世界,一直是學術界與工業界的終極夢想之一 。不論是摺疊筆電、拔開瓶蓋、還是剪開包裝,雙臂協作(Bimanual Manipulation)在人類日常環境中無處不在 。然而,在機器人學中,雙臂操作的難度並非「1+1=2」的線性增加,而是呈現幾何級數的爆炸 。
傳統的雙臂操作方法往往面臨三大嚴峻挑戰:
1. 動輒數萬條的專家演示數據(Expert Demonstrations):採集成本極其高昂且勞動強度大 。
2. 極差的跨品類泛化能力(Cross-Category Generalization):機器人在特定物體(如訓練集內的剪刀)上表現完美,但一旦面對外形稍有差異的全新物體品類(如未見過的鉗子),操作策略便會徹底失效 。
3. 巨大的「模擬到真實」鴻溝(Sim-to-Real Gap):在虛擬環境中表現良好的力控與協作,轉換至真實硬體時容易崩潰 。
為了解決這一長久以來的技術瓶頸,新加坡國立大學(NUS)助理教授邵林帶領的研究團隊(聯合上海期智研究院、北京大學、香港大學等頂尖機構學者)發表了名為 《Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence》 的重磅論文 。
該論文創新地提出了 `Bi-Adapt` 框架,將視覺大模型(Vision Foundation Models)與少樣本自適應機制(Few-Shot Adaptation)相結合,成功讓雙臂機器人具備了強大的「觸類旁通」能力 。這項研究不僅打破了數據採集的死胡同,更為通用具身智能大模型的落地開闢了嶄新路徑 。
核心創新:大模型功能性映射與「倒流」動作學習機制
Bi-Adapt 的核心邏輯可以用一個非常形象的人類行為來對比:當一個人類第一次見到一把「沒見過的藍色水管鉗」時,他並不需要重新去讀說明書,而是會自發聯想到自己操作過「剪刀」或「普通鉗子」的經驗,並透過一兩次的嘗試微調力量與角度,就能成功使用它 。為了賦予機器人這種高階的認知與操作能力,Bi-Adapt 架構主要由三個核心支柱構成 :
1. 動作學習與逆向數據流訓練(Action Learning on Supporting Set)
在最初階段,Bi-Adapt 在一個有限的「支持數據集(Supporting Set)」上學習跨物體的基本操作技巧 。雙臂協同的動作空間極其龐大(包含兩組 $SE(3)$ 參數:接觸點與夾爪朝向) 。為了降低模型的學習複雜度,團隊設計了一個解耦的感知模組(Perception Module),將雙臂的複合動作拆解為「順序條件動作」 :
最精妙的是,團隊在訓練時採用了「逆向數據流(Reversed Dataflow)策略」:先訓練右手模組(使其學會適應各種多樣的左手位置),再訓練左手模組(使其提出最容易讓右手協同的優化起點) 。這種策略從根本上確保了雙臂操作的「最優協同效益」 。每個模組均由「動作提議網路(A)」和「動作打分網路(C)」組成,硬性把控動作質量 。
2. 基於大模型的跨品類功能性映射(Affordance Transfer via DIFT)
這是 Bi-Adapt 最具突破性的地方。當機器人遇到未見過的新品類物體(Novel Categories)時,它會利用預訓練視覺大模型(如 DINOv2 或擴散模型特徵 DiFT)所湧現出的「跨品類語義對應(Semantic Correspondence)」能力 。模型提取源圖像(已知物體)和目標圖像(新品類物體)的擴散特徵(Diffusion Features),透過計算像素間特徵的餘弦相似度(Cosine Similarity),精準找到兩者在幾何與功能上的語義對應點 。如公式:

透過這種方式,模型將已知物體成功的操作接觸點(2D Affordance),完美映射到新品類物體的 2D 圖像上,再利用深度圖反投影為 3D 空間中的接觸點(3D Contact Points) 。這意味著機器人直接跳過了耗時的功能性學習階段,直接繼承了視覺大模型的通用常識 。
3. 少樣本在線自適應優化(Few-Shot Adaptation)
僅靠大模型的零樣本預測是不夠的,因為大模型的視覺預測容易受到視角和圖像質量的干擾,可能映射出無效的點,且無法準確預估新品類的特異物理屬性(如阻力、重心變化)。Bi-Adapt 引入了在線自適應程序:模型會在新品類的少數實例上進行極少次(例如 50 次以內)的實際交互嘗試 。在交互過程中,打分網路與提議網路會快速吸收「成功或失敗」的反饋,動態過濾掉無效的接觸點,並微調夾爪的拉伸方向(Action Direction Adaptation) 。經過這幾次微調後,模型便能立刻對該新品類下所有從未見過的其他實例(Unseen Instances)實現高成功率的零樣本操作泛化!
實驗結果解密:以壓倒性優勢碾壓傳統基準方法
為了驗證 Bi-Adapt 的實戰能力,邵林教授團隊在 SAPIEN 物理仿真環境 以及 真實世界機器人硬體環境 中進行了極其嚴苛的基準測試 。實驗設定了 5 項極具挑戰性的複雜雙臂任務,包括:
1. Unfolding(展開)(例如:打開筆記型電腦)
2. Opening(打開)(例如:操作剪刀/鉗子張開)
3. Closing(關閉)(例如:將張開的物件合攏)
4. Uncapping(拔蓋/分離)(例如:拉開雙向抽屜或分離組合管件)
5. Capping(合蓋/套合)
這些任務要求目標關節的移動距離或角度必須跨越極高的閾值,且過程中物體絕不能倒塌或翻轉,難度極高 。
1. 新品類泛化成功率對比(Simulation 數據)
在面對「全新物體品類的未見實例」時,Bi-Adapt 展示出了斷層式的領先優勢(定量實驗結果摘錄如下表) :

數據解讀:
2. 消融實驗(Ablation Study)與自適應效率
論文的消融實驗深入剖析了各個組件的貢獻 :
移除大模型映射(Ours w/o AT):模型退化為盲目探索,功能性預測精準度大幅暴跌,無法有效橋接新舊品類 。
移除少樣本微調(Ours w/o FA):直接執行大模型預測的點,成功率極低,證實了在線交互微調對於過濾無效點和調整拉伸方向(力控與角度自適應)的不可或缺性 。
在效率方面(Efficiency),Bi-Adapt 展現出了極其陡峭的學習曲線 。實驗表明,隨着交互數據預算的增加,Bi-Adapt 的成功率上升速度顯著快於傳統方法 。特別是在關閉(Closing)任務中,僅僅 3 個 Budget 的演示更新就為模型帶來了超過 30% 的成功率飆升,展現出無與倫比的樣本效率 。
真實世界實機驗證:突破 Sim-to-Real 瓶頸
為了將學術成果推向真正的產業應用,團隊在真實世界中搭建了硬體測試平台:使用兩台 UFactory xArm6 六軸工業機械手臂,配備自帶的夾爪,並在正前方部署了一台 Intel RealSense D435 深度相機 。真實世界中物件的材質多變、摩擦力各異,且充滿了幾何噪點 。研究人員利用 SAM (Segment Anything) 大模型將目標物體從紛繁複雜的背景中切割出來,接著透過 FoundationPose 算法高精度估計其 3D 位姿,並重構出點雲 。
在實際操作中,Bi-Adapt 展現了驚人的實機泛化能力 :
這項實機測試的成功,有力地證明了 Bi-Adapt 框架具備極強的抗噪性與實用價值,成功跨越了阻礙許多 AI 算法落地的 Sim-to-Real 技術鴻溝 。
專家點評與行業啟示:具身智能大模型的下一步
Bi-Adapt 的成功發表,對於整個機器人與具身智能行業而言,至少帶來了三個層面的深度啟示:
1. 「以物體功能為中心」的架構優勢:傳統 VLA(視覺-語言-動作)大模型傾向於讓神經網路一步到位、強行去猜測硬體的關節扭矩 。而 Bi-Adapt 證明了「先利用視覺大模型錨定物體的功能語義,再微調動作方向」的兩階段策略,在現階段更具工程可行性與泛化彈性 。
2. 解鎖工業與服務機器人的「少樣本部署」:在未來的自動化工廠或家庭護理場景中,當引入全新的工件或日用品時,工廠經理或使用者不再需要花費數週時間重新採集數據訓練機器人。機器人只需自己「摸索、試探操作幾次」,就能迅速掌握新物件的操作精髓 。這將使雙臂機器人的部署成本降低數個數量級 。
3. 對長序列複雜任務的基石作用:儘管目前 Bi-Adapt 主要專注於短序列(Short-Horizon)的原子級雙臂協作任務(如單純的開、關、拔) ,但它為未來的多物體交互、長序列(Long-Horizon)複雜任務(例如自動組裝一件傢俱)提供了最為關鍵的操作基石 。
結論
新加坡國立大學助理教授邵林團隊發表的 Bi-Adapt 框架,無疑是近年來雙臂操作領域一項極具代表性的硬核成果 。它精妙地借用了 2D 視覺大模型的通用常識,來為高維度、高難度的 3D 雙臂機器人控制「導航」,再輔以極具樣本效率的少樣本自適應機制,完美破解了「泛化困難」與「數據飢渴」的雙重魔咒 。隨着該團隊自研底座技術與物理仿真平台的進一步融合,我們有理由相信,這種軟硬一體、具備自我進化能力的雙臂具身智能大模型,將在不遠的將來真正走出實驗室,走進千家萬戶和現代化柔性工廠,實現真正的通用機器人願景 。
參考文獻
Zhou, J., Wu, R., Liu, Y., Hou, Y., Zhou, X., Yu, C., Zhong, L., & Shao, L. (2026). Bi-Adapt: Few-Shot Bimanual Adaptation for Novel Categories of 3D Objects Via Semantic Correspondence. arXiv preprint arXiv:2602.08425v2 [cs.RO].
Copyright © 2025 利創智能科技股份有限公司 All rights reserved.
Replace this text with information about you and your business or add information that will be useful for your customers.
