圖靈學院內的文章包含三大主題:ESG浄零實驗室、AI實驗室及精實管理實驗室,我們會不定期分享相關主題之文章,也歡迎並對前述主題有興趣的學員投稿分享您的見解  (我要投稿)

探索Mobility VLA:結合長上下文視覺語言模型與拓撲圖的智能導航

圖靈學院/2024年7月17日/科楠


    在現代機器人導航研究中,創建能理解自然語言和圖像指令的智能代理一直是一個令人嚮往的目標。為了實現這一目標,來自Google DeepMind的研究團隊提出了一個名為Mobility VLA的分層導航策略,結合了長上下文視覺語言模型(Vision-Language Model, VLM)和拓撲圖來提升機器人的導航能力。這篇文章將探討Mobility VLA的架構策略及其低層目標達成算法的詳細分析。

 

Mobility VLA的架構策略

 

Mobility VLA的架構設計包括兩個主要部分:高層策略和低層策略。這種分層架構允許系統在處理複雜指令和具體導航行動時各司其職,實現高效且準確的導航。

 

高層策略:理解和推理

 

高層策略的核心是使用長上下文VLM來處理來自用戶的多模態指令(例如語言和圖像指令)。具體步驟如下:

 

1.輸入處理:接收示範視頻和多模態用戶指令。
2.VLM推理:長上下文VLM解析示範視頻和用戶指令,找出與指令最匹配的視頻幀,即目標幀。
3.目標幀輸出:生成目標幀的索引,作為低層策略的輸入。

 

低層策略:導航和執行

 

低層策略負責具體的導航行動。它使用拓撲圖和當前觀察圖像來生成每個時間步的導航指令,確保機器人從當前位置到達高層策略確定的目標幀。

 

Low-level Goal Reaching using Topological Graphs演算法分析
 
低層目標達成策略的關鍵在於如何利用拓撲圖來生成精確的導航行動指令。這個算法包括以下步驟:

 

1. 輸入與初始化

  •  目標幀索引 g:高層策略提供的目標幀索引。
  •  拓撲圖 G:根據示範視頻離線構建的環境拓撲圖。


2. 過程詳述

  •  初始化步驟計數器:timestep 初始化為 0。
  •  迴圈開始:在每個時間步執行以下操作,直到達到最大步數或者成功達到目標。
  •  獲取當前觀察圖像 O:使用機器人的相機捕捉當前環境圖像。
  •  定位當前位置:

     a.根據當前觀察圖像 O 在拓撲圖 G 中找到最接近的起始頂點 vs。

     b.計算機器人的當前姿態 T。

  •  檢查是否到達目標:

     a.如果當前頂點 vs 等於目標頂點 vg,則導航成功,退出迴圈。

  •  計算最短路徑:

     a.使用Dijkstra算法計算從當前頂點 vs 到目標頂點 vg 的最短路徑 S,路徑表示為一系列頂點 [vs, v1, ..., vg]。

  •  生成導航指令:

     a.根據當前姿態 T 和下一頂點 v1 之間的相對位置,計算導航行動指令 a。

  •  執行導航指令:

     q.執行生成的導航行動指令 a,使機器人朝向下一頂點移動。

  •  更新步驟計數器:timestep 增加 1。
  •  迴圈結束:返回步驟3,繼續下一個時間步的導航。

 

Algorithm 1 低層目標達成策略


1: 輸入: 目標幀索引 g, 離線構建的拓撲圖 G.
2: while timestep ≤ maximum steps do
3:    獲取當前觀察圖像 O
4:    在 G 中定位當前頂點 vs 和機器人姿態 T
5:    if vs == vg then
6:        導航目標達成, 結束
7:    end if
8:    計算最短路徑 S = [vs, v1, ..., vg]
9:    計算導航行動指令 a 從 T 到 v1
10:    執行導航行動指令 a
11:    更新步驟計數器 timestep
12: end while

 

優勢與未來展望

 

Mobility VLA利用長上下文VLM進行環境理解和推理,並結合拓撲圖實現精確導航,展示了處理複雜指令和多模態輸入的強大能力。這種分層策略不僅提高了導航的精度和效率,還使得機器人能夠更自然地與人類進行交互。

 

未來的工作可以包括:


1.自動探索:集成現有的自動探索機制,使機器人能夠自主學習和更新環境模型。
2.提升VLM效率:通過優化VLM推理時間和方法,提高整體系統的反應速度和用戶體驗。

 

Mobility VLA為智能機器人導航開啟了新的篇章,其創新的架構和算法設計為機器人在真實世界中的應用提供了強有力的支持。


Quote:
Chiang, H. T. L., Xu, Z., Fu, Z., Jacob, M. G., Zhang, T., Lee, T. W. E., ... & Tan, J. (2024). Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs. arXiv preprint arXiv:2407.07775.