以Mobile ALOHA為代表的模仿學習的爆發：從Dobb·E、Gello到斯坦福ALOHA、UMI、DexCap、伯克利FMB

shiyijing 2025-03-05 設備原理 16 次瀏覽 0個評論

前幾天，斯坦福的炒蝦機器人火爆全網，讓包括我在內的所有人目瞪口呆，我在朋友圈評論道：

多模態 + 大模型 + AI agent可以全方位賦能機器人
一年前我決心徹底寫清楚ChatGPT原理
一年前，因為對ChatGPT背后技術原理巨大的「好奇心」，加之極高的「分享熱情」、以及想寫一篇關于其原理最全面最深入最細致文章的「決心」，徹底改變了過去一年的軌跡
?最后，博客證明了技術研究能力，課程證明了教學教研能力，項目證明了帶隊開發能力

一年后的今天，我下定決心準備徹底研究下機器人
剛好今年q1本身要做一個AI agent小項目，希望q2起，有機會做這個機器人agent大項目，如能和某高校實驗室或資本合作更好

說干就干

一方面，我組建了一個大模型機器人小組(作為我司的第4項目組)，準備復現一系列開源的大模型機器人
后續，我們和合作伙伴共同把斯坦福的UMI、DexCap成功復現了(應該是國內最早復現這兩模型的團隊或之一了)，然后接下來會把這兩者的所有硬件全部換成國產平替

且為不斷擴大整個大模型機器人的開發隊伍，需要從課程中選拔更多人才
故開了：

且我司七月的機器人開發團隊已開始給一些工廠做解決方案(結合工廠的業務場景做定制開發)
二方面，我準備把大模型機器人的發展史以及其中涉及到的所有關鍵技術細節，全部都梳理一下(畢竟新聞稿只能看個大概，但想精準理解，必須結合一系列論文理解)

總之，不要看一篇新聞稿覺得很行，再看一篇又覺得不行了，不要人云亦云被新聞稿帶節奏(比如，雖然其有些動作是被遠程操控完成的，但還是有很多動作是其自主完成，比如對于一些簡單的任務，Mobile ALOHA可以在50次學習之后達到90%的行動成功率)

在這項工作中，紐約大學一研究團隊通過引入Dobb-E(這是其論文：On Bringing Robots Home，Submitted on 27 Nov 2023)，提出了家庭教學機器人的框架，其只需五分鐘就能學會一項新任務，這要歸功于用廉價零件和iphone制作的示范收集工具，具體來說，Dobb-E的關鍵組件包括：

硬件方面，主要使用了一種名為“棒”的演示收集工具(如下圖A所示，相當于數據收集工具，然后可以在機器人上使用類似的設置，如下圖C所示，最終機器人本身通過模仿人類的操作實現行為克隆，如下圖D所示)，該工具結合了3D打印組件和iPhone的可負擔伸展抓取器。此外，將iPhone安裝在機器人上，以便實現從棒直接傳輸數據，無需進行域適配
Hardware: The primary interface is our demonstration collection tool, termed the "Stick."?It combines an affordable reacher-grabber with 3D printed components and an iPhone.?Additionally,an iPhone mount on the robot facilitates direct data transfer from the Stick without needing domain adaptation.
預訓練數據集：使用棒工具收集了一個為期13小時的數據集，名為紐約只家(HoNY)，其中包含來自22個紐約家庭共216個環境的5620個演示。這些演示支持我們系統的適應性，并被用于Dobb-E預訓練表示模型
Pretraining Dataset: Leveraging the Stick, we amass a 13 hour dataset called Homes of NewYork (HoNY), comprising 5620 demonstrations from 216 environments in 22 New York homes,bolstering our system's adaptability.?This dataset serves to pretrain representation models forDobb-E.
模型和算法：基于預訓練數據集，他們成功構建了一種流線型視覺模型，即家庭預訓練表示(HPR)，并采用先進的自監督學習(SSL)技術進行訓練
對于新任務而言，僅需進行24次迭代調整即可微調該視覺模型，并結合視覺和深度信息來實現3D推理
Models and algorithms: Given the pretraining dataset we train a streamlined vision model, called Home Pretrained Representations (HPR), employing cutting-edge self-supervised learning (SSL)techniques. For novel tasks, a mere 24 demonstrations sufficed to finetune this vision model,incorporating both visual and depth information to account for 3D reasoning.
集成：他們的整體系統，封裝硬件，模型和算法，以商用移動機器人為中心:Hello Robot Stretch

最終讓Dobb-E在10個家庭中進行了為期30天的實驗，在此期間，它嘗試了109個任務，并成功學習了102個任務，其表現為50%，總體成功率為81%。同時，發現

簡單方法的驚人效果：Dob-E采用了視覺模仿學習的簡單行為克隆配方，利用ResNet模型[Deep residual learning for image recognition]進行視覺表示提取，并使用雙層神經網絡[The perceptron: a probabilistic model for information storage and organization in the brain，這竟然是1958年的一篇老論文，我是沒想到的，^_^?]進行動作預測
Surprising effectiveness of simple methods: Dobb-E follows a simple behavior cloning recipefor visual imitation learning using a ResNet model [5] for visual representation extraction anda two-layer neural network [6] for action prediction

平均而言，僅通過收集每個任務在5分鐘內91秒的數據，Dob-E能夠在家中實現81%的成功率
有效SSL預訓練對結果產生了影響：我們基于家庭數據訓練的HPR基礎視覺模型，在與其他基礎視覺模型相比，在更大規模互聯網數據集上訓練時至少提高了23%任務成功率
Impact of effective SSL pretraining: Our foundational vision model, HPR trained on home dataimproves tasks success rate by at least 23% compared to other foundational vision models [7-9],which were trained on much larger internet datasets
里程計、深度和專業知識：Dob-E的成功在很大程度上依賴于操縱桿提供高度準確的里程計和iPhone姿態與位置感應動作，以及iPhone激光雷達所提供的深度信息
此外，收集演示數據的易用性也使得使用操縱桿進行迭代研究問題變得更加快速、便捷
Odometry, depth, and expertise: The success of Dobb-E is heavily reliant on the Stick providinghighly accurate odometry and actions from the iPhones' pose and position sensing, and depthinformation from the iPhone's Lidar.?Ease of collecting demonsrations also makes iterating onresearch problems with the Stick much faster and easier
剩余挑戰：機器人力量、范圍和電池壽命等硬件限制限制了機器人可以解決物理任務的能力(詳見第3.3.3節)，而該策略框架則受到模糊感知和更復雜臨時擴展任務等因素影響

本質上，Dob-E是一個行為克隆框架[10]。而行為克隆是模仿學習的一種形式，通過觀察和模仿人類或其他專家代理的行為來學習執行任務。行為克隆涉及訓練模型以模仿演示的動作或行為，并通常使用標記的訓練數據將觀察映射到期望的動作

在作者的方法中，他們首先對一個輕量級基礎視覺模型進行預訓練，在家庭演示數據集上進行實驗
然后在新家庭中給定新任務時，收集了一些演示并微調他們的模型以解決該任務

整個方法可以分為4個階段：

設計一個硬件設置，以便收集演示及其無縫轉移到機器人身上
在不同的家庭中使用該硬件設置收集數據
對該數據上預訓練基礎模型(pretraining foundational models on this data)
將經過訓練的模型部署到家庭中

1.1.1 硬件設計

該系統并未要求用戶移動整個機器人，而是利用一款價格便宜的25美元可伸縮末端執行器創建了一個“你好機器人”的復制品，并通過3D打印的iPhone支架進行增強，此外，iPhone Pro(版本12或更新)配備的攝像頭設置和內部陀螺儀能夠以每秒30幀的速度獲取RGB圖像、深度數據以及6D位置信息(包括平移和旋轉)

使用已安裝在iPhone上的Record3D來捕獲演示數據，該應用程序能夠保存

從相機記錄的1280×720像素的RGB數據
激光雷達傳感器記錄的256×192像素的深度數據(注意，如paper第21頁最后所說，adding depth perception to the model helps it perform much better than the model with RGB-only input)
不過，最終模型訓練時，上面這兩塊數據會被縮放到256×256像素
以及iPhone內部的里程表(odometry)和陀螺儀記錄的手柄運動(6D的平移和旋轉數據)

然后以30 FPS速率將這些數據記錄到手機中，并進行導出和處理

所有的系統都部署在Hello Robot Stretch上，這是一款單臂移動機械手機器人，已經可以在公開市場上購買。我們在所有實驗中使用Stretch RE1版本，其靈巧的手腕附件賦予了機器人6D運動能力。它成本低廉、便攜輕便(僅重51磅/23公斤)，并且可以通過電池供電長達兩個小時。此外，Stretch RE1還配備了Intel NUC計算機，可以以30 Hz的頻率運行學習策略

1.1.2 對預訓練數據集(Pretraining Dataset)的大量收集

憑借上面的硬件設置，只需將手柄帶回家，將iPhone連接到手柄上，并使用Record3D應用程序記錄時進行任何演示者想要展示的操作，最終在一些志愿者的協助下收集了一個名為紐約之家(HoNY)的家庭任務數據集

該數據集由22個不同家庭中志愿者共同創建，在總計13小時錄制時間內包含5620個演示視頻，總計近150萬幀圖像
志愿者專注于八個廣泛定義好的任務類別：開關按鈕、開門、關門、抽屜打開、抽屜關閉、揀選和放置物品、手柄抓取以及游戲數據。對于游戲數據，我們要求志愿者記錄他們使用手柄在家中進行任意活動時產生的相關數據。這種有趣行為過去已被證明對表示學習目標具有潛力[21, 24]
指導志愿者花費約10分鐘來記錄他們所處環境或場景中每個演示視頻。最初選擇的演示任務是多樣化且具有一定挑戰性，但對機器人而言仍然可行

盡管iPhone可以提供末端執行器的姿態數據(the pose of the end-effector)，但無法直接獲取夾持器本身的開啟或關閉狀態。為了解決這一問題，我們訓練了一個模型來追蹤夾持器尖端

從數據集中選取了500個隨機幀，并在這些幀上使用像素坐標標記了兩個夾持器尖端的位置
然后，利用該數據集對一個由三層ConvNet構成的夾持器模型進行訓練，該模型試圖將夾持器尖端之間的距離預測為0到1之間的標準化數值，該模型在heldout評估集上獲得了0.035的MSE驗證誤差(以0-1尺度表示)
We trained a gripper model on that dataset, which is a3-layer ConvNet that tries to predict the distance between the gripper tips as a normalized number between 0 and 1
隨后被用于標記數據集中其余幀中夾持器的值(介于0到1之間)

1.1.3?Policy Learning with Home Pretrained Representations

擁有多樣化的家庭數據集之后，下一步的任務是訓練一個基礎的視覺模仿模型，以便在家中進行輕松地修改和部署。他們的策略由兩個簡單組件構成：一個視覺編碼器和一個策略頭

ResNet34足夠小，可以在機器人的機載計算機上運行
使用MoCo-v3自監督學習算法在他們收集的數據集上對視覺編碼器進行60個epochs的預訓練，稱這個模型為家庭預訓練表示(HPR)模型，部署的所有策略都是基于這個模型訓練的
We pretrainour visual encoder on our collected dataset with the MoCo-v3 self-supervised learning algorithm for60 epochs. We call this model the Home Pretrained Representation (HPR) model, based on which allof our deployed policies are trained.

且比較了使用他們自己的視覺編碼器與在不同數據集和算法上訓練的視覺編碼器(如R3M [8]、VC1 [9]和MVP [7])甚至只是在ImageNet-1K [59]上進行預訓練后效果之間的差異
We compare the effects of using our own visual encoder vs. apretrained visual encoder trained on different datasets and algorithms, such as R3M [8], VC1 [9], andMVP [7], or even only pretraining on ImageNet-1K [59], in Section 3.4.1.
下游策略學習方面，在每個新任務中，根據所捕獲到深度值和視覺編碼器進行簡單操縱策略學習。該策略輸入空間為256×256像素大小RGB-D圖像(4通道)，輸出空間為一個7維向量，其中前三個維度表示相對平移，接下來三個維度表示相對旋轉(軸角表示)，最后一個維度表示夾持器值范圍介于0到1之間
Downstream Policy Learning On every new task, we learn a simple manipulation policy based onour visual encoder and the captured depth values. For the policy, the input space is an RGB-D image(4 channels) with shape 256×256 pixels, and the output space is a 7-dimensional vector, where thefirst 3 dimensions are relative translations, next 3 dimensions are relative rotations (in axis anglerepresentation), and the final dimension is a gripper value between 0 and 1. 具體而言，他們設計了一個簡單結構用于實現該策略：首先應用于RGB通道的圖像表達模型，并通過中位池化操作應用于深度通道；然后經過兩層全連接層將512 維圖像表達和512 維深度值投影到7 維動作空間
Our policy is learned topredict an action at 3.75 Hz, since that is the frequency with which we subsample our trajectories. The policy architecture simply consists of our visual representation model applied to the RGB channelsin parallel to a median-pooling applied on the depth channel, followed by two fully connected layersthat project the 512 dimensional image representation and 512 dimensional depth values down to 7dimensional actions.

在監督訓練期間, 網絡從觀察到動作映射進行學習, 并未凍結任何參數, 學習速率設置為 3×10^?5 進行50次迭代更新(During this supervised training period where the network learns to map fromobservation to actions, we do not freeze any of the parameters, and train them for 50 epochs with alearning rate of 3×10 ?5)

網絡采用均方誤差(MSE)損失函數進行訓練，在計算損失之前將每個軸上動作標準化為零均值和單位標準差 (We train our network with a mean-squared error (MSE) loss, and normalizethe actions per axis to have zero mean and unit standard deviation before calculating the loss)

1.1.4 部署到一個新的家庭

為了解決新任務，首先簡要收集一些任務示范。通常會收集24個新示范作為經驗數據，對于簡單的5秒任務來說這是足夠的。在實際操作中，收集這些示范大約需要5分鐘時間。然而，在某些環境下重置所需時間更長，在這種情況下，收集示范可能需要更多時間

為了使機器人策略具備一定的空間泛化能力，我們通常從任務設置前各種位置開始收集數據，并且通常在一個小型4×6或5×5網格中進行
一旦數據收集完成，將R3D文件中的數據轉換為數據集格式需要約5分鐘。接著，在GPU RTX A4000上進行50次訓練平均需時約20分鐘。因此，從開始數據收集到獲得可在機器人上部署的策略，平均時間為30分鐘
然后使用安裝在手臂上的iPhone和Record3D應用程序，通過USB將RGB-D圖像流傳輸到機器人計算機上
為了獲得預測動作，他們對輸入圖像和深度進行處理。利用基于PyKDL的逆運動學求解器，在機器人末端執行器上執行預測的相對動作
We use the iPhone mounted on the arm and the Record3D app to stream RGB-Dimages via USB to the robot computer. We run our policy on the input images and depth to get the predicted action. We use a PyKDL based inverse kinematics solver to execute the predicted relative action on the robot end-effector.

由于模型預測攝像頭幀中的運動，他們在機器人URDF中添加了一個關節來連接額外攝像頭，從而可以直接執行預測動作，無需精確計算從攝像頭幀到機器人末端執行器幀之間的轉換
Since the model predicts the motion in the camera frame, we addeda joint in the robot’s URDF for the attached camera, and so we can directly execute the predicted action without exactly calculating the transform from the camera frame to the robot end-effectorframe

對于夾持關閉操作，采用二進制方式根據任務變化應用閾值來預測夾持狀態。通過接收觀察并命令機器人執行策略預測的動作，并等待其完成以接收下一個觀察，在機器人上同步運行策略
For the gripper closing, we binarize the predicted gripper value by applying a threshold that can vary between tasks. We run the policy synchronously on the robot by taking in an observation,commanding the robot to execute the policy-predicted action, and waiting until robot completes theaction to take in the next observation.
針對評估實驗，通常每個任務會使用10個不同初始起始位置(如上圖b所示)，這些起始位置改變了機械臂夾持裝置垂直和水平方向上的初始位置。在這10次試驗之間，我們會手動重置機械臂和環境
For our evaluation experiments we generally use 10 initialstarting positions for each robot task (Figure 9 (b)). These starting positions vary our robot gripper’s starting position in the vertical and horizontal directions. Between each of these 10 trials, we manuallyreset the robot and the environment.

23年9月，來自UC Berkeley的研究者們(Philipp Wu、Yide Shentu、Zhongke Yi、Xingyu Lin、Pieter Abbeel)提出了Gello——一種通用、低成本且直觀的機器人操作框架

構建一個遠程操作系統，目前一般有兩種方式

一種是從較低成本的商品電子設備（如3D鼠標[17]、VR控制器[18]、[19]或攝像頭）捕獲控制信號，然后轉換為機器人動作。然而，這些系統抽象掉了機器人的運動學約束，對于新用戶來說可能不直觀
還有一種是，類似“低成本開源硬件系統用于雙手遠程操作”——ALOHA，其利用現成的伺服驅動臂來控制具有相似尺寸和運動學的操縱器，盡管是單向的，但在細粒度操作任務中表現出色的遠程操作能力[9]
然而，ALOHA系統針對特定的機器人手臂進行了定制，并且由于為用戶提供了額外的機器人手臂作為控制器，因此成本較高

包括下文即將要介紹的Mobile?ALOHA，也是在23年ALOHA的工作基礎上迭代優化出來的，不是一蹴而就，以下是關于ALOHA的一系列重要信息

ALOHA項目地址：
論文地址：
這是其解讀，論文中首次系統闡述了作為“無論是最新系統Mobile ALOHA還是其前身系統ALOHA中的關鍵技術”：即動作分塊算法ACT
代碼地址：
該代碼倉庫友情提醒：
To build ALOHA, follow the Hardware Assembly Tutorial and the quick start guide below.
To train imitation learning algorithms, you would also need to install ACT.
硬件安裝指南：?(文檔標題為：ALOHA 🏖?: A Low-cost Open-source Hardware for Bimanual Teleoperation)
基于動作分塊算法ACT的訓練代碼：https://github.com/tonyzhaozh/act
關于ALOHA的更多信息，以及到底什么是ACT，請詳見此文：《》

GELLO 的組裝說明見：

2.2.1?伺服選擇

在a) 伺服選擇上：使GELLO構建成為可能的關鍵組件是低成本、全功能伺服的可用性。具體來說，作者使用了DYNAMIXEL XL330系列[58]。盡管價格低廉，這些伺服配備了高分辨率的12位編碼器，能夠在機械角度的0.088度內進行關節測量。這些編碼器提供伺服器位置的測量，允許將控制器的配置精確映射到目標手臂

原則上，構建GELLO甚至不需要伺服器，因為只需讀取關節位置。然而，在實踐中，伺服器包提供了一種易于使用的現成、自包含的解決方案，它具有編碼器和通信協議，簡化了構造、使用和維護，進一步實現了易于復制的目標

此外，當用戶反向驅動伺服器時，伺服器致動器提供物理阻力，充當自然阻尼并提高用戶的穩定性。出于這個原因，作者使用XL-330-288T，它提供最高的齒輪比，提供最大的阻力

2.2.2?縮放的運動學等效結構

在b) 縮放的運動學等效結構上：作者將GELLO構建為目標機械臂的小規模版本，具有運動學等效結構。這意味著GELLO的關節和連桿直接對應目標機械臂的關節和連桿，使用戶能夠像在動力教學[59]中那樣，直接控制目標機械臂一樣控制GELLO操縱器

運動學等效結構是通過采用DH參數生成的目標機械臂，然后通過一個因子α來縮放長度。雖然舒適的最佳α值取決于用戶和機器人，但作者在實現中使用了α=0.5，發現其效果良好

關節位置從GELLO設備讀取，并直接作為關節指令發送到目標機械臂進行操作，避免了計算逆運動學的需要。當關節接近運動學奇異點或關節極限時，用戶可以從控制器感受到阻力，因此對這些故障更加警覺，從而實現更可靠的遠程操作

同時，小型化設計使控制器更便攜，但仍允許用戶操作全尺寸機器人臂

2.2.3?關節正則化

僅使用被動伺服電機時，機械臂在操作過程中會被重力拖拽至不理想的配置。作者發現，通過添加簡單的關節正則化器，可以抵消重力對機械手的影響，使用戶更容易控制

作者采用基本但有效的被動關節正則化方法，使用彈簧或橡皮筋等機械組件，確保設備保持“自然”姿態。這可以防止機械臂采取其他運動學上可行但不常規的位置，如下圖圖2所示，這可能導致碰撞

作者僅在機械臂默認靜止位置中對重力表現出最大阻力的關節添加關節正則化元素，對于UR設計，這是第二和第三個關節

作者在下圖圖3中對此進行了定量研究。還發現關節正則化為用戶提供了被動的力反饋，這種反饋在關節范圍的極限附近有所不同。這可以幫助用戶了解機械臂的當前配置

2.2.4 3D打印部件

在GELLO中使用3D打印部件允許高度定制化，使用戶可以設計和打印與特定機器人硬件匹配的部件。3D打印使作者能夠輕松設計適用于三種運動學不同的機器人的GELLO系統

3D打印也是一種生產部件的成本效益高的方法，進一步體現了GELLO的低成本特性。遵循這些簡單的設計原則，作者實例化并測試了三種常用的機器人手臂，UniversalRobot UR5、uFactory xArm7 和 Franka Panda

下圖圖 4 展示了作者可以使用 GELLO 在不同機器人上執行的示例任務。直接關節控制的控制設置導致軟件棧非常簡單。關節角度直接從 GELLO 設備中讀取，使用 DYNAMIXEL 提供的 python API，然后命令給從動機器人

作者使用每種機器人類型的各種 python API 向從動機器人發送命令。且使用 ZMQ [60] 在進程之間進行消息傳遞，并提供了一個簡單的協議以擴展到新的機器人類型

在機器人技術領域，通過對人類示范進行模仿學習已經取得了令人矚目的成績。然而，目前大多數研究結果都集中在桌面操作上，缺乏完成一般任務的移動性和靈活性

近日，斯坦福一研究團隊(Zipeng Fu、Tony Z. Zhao、Chelsea Finn)開發了一個系統：Mobile ALOHA

項目地址(可總覽所有重要信息)：
論文地址：
硬件代碼：hardware code之
軟件代碼：learning code之，本質就是ACT(關于什么是ACT，詳見下節)
數據地址：
硬件安裝指南：，該文檔中涵蓋了安裝前身ALOHA的指南鏈接(簡單粗暴理解的話，mobile aloha相當于在其前身aloha的基礎上增加了移動底盤，即mobile aloha = aloha + mobile，至于前身ALOHA的更多信息詳見下節)

由于其可以做各種家務，比如炒菜、刷碗等等，使得其一經發布便火爆全網

該系統用于模仿需要全身控制的雙臂移動操作任務(In this work, we develop a systemfor imitating mobile manipulation tasks that are bi-manual and require whole-body control)

首先提出了Mobile ALOHA系統，作為低成本全身遠程操作系統來收集數據(通過一個移動底座和一個全身遠程操作界面增強了其前身ALOHA 系統)
We first present Mobile ALOHA, a low-cost and whole-body teleoperation system for data collection. It augmentsthe ALOHA system [104] with a mobile base, and a whole-body teleoperation interface.
之后利用Mobile ALOHA 收集的示范數據(說白了，人類先做示范，然后機器人向人類學習)，進行有監督的行為克隆(behavioral cloning)，且和其前身ALOHA收集到的靜態(示范)數據進行協同訓練co-training
Using data col-lected with Mobile ALOHA, we then perform super-vised behavior cloning and find that co-training with existing static ALOHA datasets boosts performance on mobile manipulation tasks.
對于每個任務，只要用新平臺采集的包含50條示范數據，然后結合前身ALOHA的靜態示范數據，經過協同訓練后成功率可達到90%，使得Mobile ALOHA能夠自主完成復雜的移動操作任務，如炒蝦、打開雙門壁柜存放沉重的烹飪鍋、呼叫并進入電梯以及使用廚房水龍頭輕輕沖洗用過的平底鍋。
With 50 demonstra-tions for each task, co-training can increase successrates by up to 90%, allowing Mobile ALOHA to au-tonomously complete complex mobile manipulation tasks such as sauteing and serving a piece of shrimp,opening a two-door wall cabinet to store heavy cook-ing pots, calling and entering an elevator, and lightlyrinsing a used pan using a kitchen faucet.

3.2.1?Mobile ALOHA 硬件的總體情況

在此之前

能夠即插即用的全身遙控硬件是比較昂貴的，比如像PR2、TIAGo這樣的機器人價格一般超過20萬美刀
且之前的機器人也沒法完成復雜的需要雙手互相配合的各種靈活操作，畢竟人類的十指多么靈活
雖然最近的許多研究表明，在細粒度的多模態操作任務中，高表達能力的策略類方法(如擴散模型和Transformer)可以取得良好效果(While many recent works demon-strate that highly expressive policy classes such asdiffusion models and transformers can perform wellon fine-grained)，但目前尚不清楚這些方法是否適用于移動操作：隨著附加自由度增加，手臂與基礎動作之間的相互作用可能變得復雜，微小偏差可能導致手臂末端執行器姿態大幅漂移

而Mobile ALOHA 是一種低成本的移動機械手，可以執行各種家庭任務，其繼承了原始 ALOHA 系統的優點，即低成本、靈巧、可維修的雙臂遠程操作裝置，同時將其功能擴展到桌面操作之外，且重點做到了以下4點

移動能力：移動速度與人類行走速度相當，約為1.42m/s
穩定性：在操作重型家用物品(比如鍋和櫥柜)時它能保持穩定
全身遙控操作：手臂和底盤可以同時運動
無線：具有機載電源和計算設備(數據收集和推斷期間的所有計算都是在配備了Nvidia 3070 Ti GPU (8GB VRAM)和Intel i7-12800H的消費級筆記本電腦上進行)

如上圖所示

上圖左側部分(Mobile ALOHA has two wrist cameras and one top camera, with onboard power and compute)
展示了研究者發現將操作員的腰部與移動底座系在一起的設計是最簡單直接的解決方案
上圖中間部分(Middle: The teleoperation setup can be removed and only two ViperX 300 [3] are used during autonomous execution. Both arms can reach a min/max height of 65cm/200cm, and extends 100cm from the base)中的數據表明
機械手相對于地面的垂直高度為 65 厘米至 200 厘米，可伸出底座 100 厘米，可舉起 1.5 千克重的物體，并可在 1.5 米高處施加 100 牛的拉力
這樣的設計讓 Mobile ALOHA 可以完成很多任務，包括實物烹飪、家務管理、人機互動等
上圖右側部分中列出了 Mobile ALOHA 的更多技術規格
除了現成的機器人外，研究者還開源了所有的軟件和硬件部件，并提供了詳細的教程，包括三維打印、組裝和軟件安裝

3.2.2 硬件材料清單與硬件制作步驟

首先，準備一系列硬件材料，比如

三個羅技C922x RGB的網絡攝像頭，分辨率為480 × 640，頻率為50Hz(兩個攝像頭安裝在跟隨者機器人的手腕上，第三個攝像頭面向前方)
筆記本電腦還通過USB串行端口接收來自所有4個手臂的本體感覺流，通過CAN總線接收來自移動的輪式底盤Tracer的本體感覺流

3.2.2.1 硬件材料清單Bill of Materials

Part

Quantity

Link

Price?

(per unit)

Robots

從動臂ViperX 300 Robot Arm 6DOF

ViperX 300 Robot Arm 6DOF

$5,695.95

主動臂WidowX 250 Robot Arm 6DOF

WidowX 250 Robot Arm 6DOF - X-Series Robotic Arm

$3,295.95

移動的輪式底盤Tracer AGV

AgileX Tracer AGV

$8,999.95

Onboard Compute

Lambda Labs Tensorbook?

Deep Learning Laptop - RTX 3080 Max-Q | Razer x Lambda Tensorbook

$2,399.00

Robot Frame

4040 800mm x 8

Amazon.com (2 pcs)

$42.29

4040 500mm x 6

Amazon.com (4 pcs)

$58.99

4040 400mm x 2

Amazon.com (1 pcs)

$22.99

4040 300mm x 7

Amazon.com (4 pcs)

$59.99

4040 L-shape connectors x 28

Amazon.com (6 pcs)

$32.99

4040 T-shape connectors x 4

Amazon.com (6 pcs)

$30.99

4040 45-degree corner connectors

Amazon.com?

$21.99

4040 Corner Bracket and T-Slot Sliding Nuts

Amazon.com?

$24.99

4040 caps

Amazon.com?

$9.81

M6 20mm

(for mounting robot)

Amazon.com?

$9.99

M6 T nuts for 4040

(for mounting robot)

Amazon.com?

$14.16

Camera setup

相機Logitech C922x Pro Stream Webcam

Amazon.com

$98.35

USB Hub

Amazon.com

$19.99

Power

Battery Pack

Amazon.com?

$699.00

600W DC Supply

Amazon.com?

$59.00

12V DC Cable

Amazon.com?

$15.99

Fork Spade Connectors

Amazon.com?

$13.69

USB-A to Micro USB Cable

Amazon.com?

$17.87

Wheel Odometry

DYNAMIXEL XL430-W250-T

DYNAMIXEL XL430-W250-T - ROBOTIS?

$49.90

U2D2

U2D2 - ROBOTIS?

$32.10

U2D2 Power Hub Board Set

U2D2 Power Hub Board Set - ROBOTIS?

$19.00

Jumper Wire

Amazon.com?

$9.99

Weights

Amazon.com: ACCRETION 1 Oz Grey Adhesive Backed Wheel Weights (24 Oz Pack) : Automotive?

$14.65

Misc

Rubber Band

Amazon.com

$9.99

Gripping Tape

Amazon.com?

$54.14

Common equipments

Allen keys

Hot glue gun

Total

$31,757.8

3.2.2.2?3D Printed Parts

對于人遙控端和機器操作端方面的執行器，請按照ALOHA的教程進行操作：。關于wheel odometry，以下是所需零件的清單(共6件)：

3.2.2.3 硬件安裝指南Hardware Guide

硬件材料準備齊全后，按以下步驟一步步執行

Install ALOHA end-effectors
通過6個步驟打造ALOHA：，單純打造這個還不具備移動功能的ALOHA便得花費3萬刀中的1.9萬刀
Build the robot frame
Mount the robots and the cameras
Cable connections

3.3.1?靜態ALOHA 數據的組成情況

對于機器人的訓練，數據是一個很大的問題

使用模仿學習(imitation learning)來解決現實世界機器人任務的典型方法依賴于在特定機器人硬件平臺上收集的目標任務數據集。然而，這種方法雖夠但數據本身收集的過程過于冗長，因為在特定機器人硬件平臺上，人類操作員需要從頭開始為每個任務收集演示數據
The typical approach for using imitation learning to solve real-world robotics tasks relies on using thedatasets that are collected on a specific robot hard-ware platform for a targeted task. This straightfor-ward approach, however, suffers from lengthy datacollection processes where human operators collect demonstration data from scratch for every task onthe a specific robot hardware platform.

且由于這些專門數據集中視覺差異有限，在這些數據集上訓練得到的策略通常對感知干擾(如干擾和照明變化)不夠魯棒
The policie strained on these specialized datasets are often not ro-bust to the perceptual perturbations (e.g. distractorsand lighting changes) due to the limited visual diver-sity in these datasets [95]
好在最近，在從不同但類似類型的機器人收集的各種真實數據集上進行co-training，在單臂操作和導航方面已經顯示出了有希望的結果
Recently, co-training ondiverse real-world datasets collected from different but similar types of robots have shown promising results on single-arm manipulation [11, 20, 31, 61],and on navigation [79].

斯坦福的研究者在這項工作中便使用的Co-training，且利用現有的靜態ALOHA 數據集來提高移動操作的模仿學習性能，尤其是雙臂動作

不含移動底盤的前身ALOHA收集到的靜態數據集總共有 825 個示范動作，任務包括密封密封袋、拿起叉子、包裝糖果、撕紙巾、打開帶蓋塑料瓶、玩乒乓球、分發膠帶、使用咖啡機、交接鉛筆和操作螺絲刀等

需要注意的是，靜態ALOHA 數據都是在黑色桌面上收集的，主動臂和從動臂都是固定在桌面上朝著對方(更多詳見此文《》) 這種設置與移動 ALOHA 不同，移動 ALOHA 的背景會隨著移動底盤的變化而變化，主動臂和從動臂的兩臂均平行朝著前方
在Co-training中，研究者沒有對靜態ALOHA 數據中的 RGB 觀察結果或雙臂動作使用任何特殊的數據處理技術

3.3.2 基于兩套數據(靜態ALOHA示范數據和移動ALOHA示范數據)訓練損失函數

任務的移動操作策略的訓練目標是最小化模擬損失函數

其中表示觀察結果，包括兩個手腕攝像頭RGB(two wrist camera RGB observations)的、一個安裝在手臂和手臂關節之間、以自我為中心的頂部攝像頭RGB觀察(top camera RGB observation mounted，其固定不動)，和14維的從臂關節位置，如下圖左上角所示

我們以相同概率從靜態ALOHA數據和移動ALOHA數據中進行抽樣(兩者占比其實影響不大，比如如果占比30%或50%，則成功率都最終能達到95%，當然如果占比70%，則成功率最終能達到90%)，并將批量大小設置為16

由于靜態ALOHA數據沒有移動基本動作，我們對動作標簽進行零填充處理(zero-padding)，使得來自兩個數據集的動作具有相同維度，我們還忽略了靜態ALOHA數據中的前置攝像頭(front camera)，因此兩個數據集都有3個攝像頭：2個wrist camera、1個top camera
Since static ALOHA datapoints have no mobile base actions, we zero-pad the action labels so actions from both datasets have the same dimension.We also ignore the front camera in the static ALOHA data so that both datasets have 3 cameras.

怎么定位這個前置攝像頭(front camera)呢，好在ALOHA的論文原文中標記了具體哪個是前置攝像頭，詳見此文《》的1.2節)
同時，我們僅根據移動ALOHA數據集的統計信息對每個動作進行標準化處理
We normalize every action based on the statistics of the Mobile ALOHA dataset Dm mobile alone
在實驗中，我們將這種協同訓練方法與多種基本模仿學習方法(如ACT [Learning fine-grained bimanual manipulation with low-cost hardware]、擴散策略[Diffusion policy: Visuomotor policy learning via action diffusion]和VINN [The surprising effectiveness of representation learning for visual imitation])結合使用
In our experiments, we combine this co-training recipe with multiple base imitation learning approaches, including ACT [104], Diffusion Policy [18], and VINN [63]

再次提醒，關于ACT的技術細節包括其代碼實現，詳見此文《》，講得非常細致

最終該團隊選擇了 7 個任務，它們涵蓋了現實應用中可能出現的各種功能、對象和交互，分別是擦拭葡萄酒、煮蝦、沖洗鍋、使用櫥柜、呼叫電梯、推椅子和擊掌

下圖則是機器人在執行任務時的導航移動軌跡

在實驗中回答兩個核心問題：

移動ALOHA是否能夠通過協同訓練co-training和少量移動操作數據來獲得復雜的移動操作技能？
Can Mobile ALOHA acquire complex mobile manipulation skills with co-training and a small amount of mobile manipulation data?
移動ALOHA是否能夠與不同類型的模仿學習方法一起工作，包括ACT、擴散策略和基于檢索的VINN？
Can Mobile ALOHA work with different types of imita-tion learning methods, including ACT [104], Diffu-sion Policy [18], and retrieval-based VINN [63]?

作為初步研究，我們將使用“動作分塊”[action chunking]這種方法，在該方法中一個策略預測未來一系列動作，而不是每個時間步只預測一個動作。這種方法已經被應用于ACT和擴散策略，并且可以簡單地添加到VINN中(As a preliminary, all methods we will examine em-ploy “action chunking” [104], where a policy predictsa sequence of future actions instead of one action ateach time step)

采用動作分塊對于操作至關重要，它提高了生成軌跡的一致性，并減少了逐步策略推斷所帶來的延遲
We found action chunking to be crucial formanipulation, improving the coherence of generated trajectory and reducing the latency from per-steppolicy inference.
我們觀察到移動基座目標速度與實際速度之間存在延遲，而位置控制手臂則具有更小的延遲。為了解釋移動基座d步驟上出現的延遲情況，我們使機器人執行長度為k-d 的第一個k-d 手臂行為以及最后一個k-d 基座行為
We observe a delay between target and actual veloc-ities of our mobile base, while the delay for position-controlled arms is much smaller. To account for adelay of d steps of the mobile base, our robot exe-cutes the first k ?d arm actions and last k ?d baseactions of an action chunk of length k.

3.4.1?協同訓練提高了性能且比預訓練效果更好

研究發現，Co-training可以提高ACT性能。在7項具有挑戰性的移動操作任務中，與靜態ALOHA數據集進行Co-training可持續提高ACT的成功率

比如協同訓練在擦拭酒的任務中的表現，成功率95%，大大優于預訓練的成功率40% 在預訓練過程中，作者首先用static ALOHA的數據訓練了10k步，然后用mobile ALOHA的數據繼續訓練
作者發現預訓練的方式并沒有提高模型的表現，猜測模型可能在使用mobile ALOHA數據進行微調的階段已經忘記了在static ALOHA上學到的知識
那為何協同訓練可以提高效果呢？作者認為，static ALOHA數據中關于抓取和接近物體的運動先驗知識對訓練mobile ALOHA的模型有很大幫助，尤其是其中腕部視角是具有不變性的，對場景的變換有較強的抗干擾能力

3.4.2?兼容ACT、擴散策略和VINN

除了ACT，還使用Mobile ALOHA訓練了兩種最新的模仿學習方法，即擴散策略[18]和VINN[63](We train two recent imitation learning methods,Diffusion Policy [18] and VINN [63], with Mobile ALOHA in addition to ACT.)

擴散策略通過逐步細化動作預測來訓練神經網絡。為提高推理速度，采用DDIM調度器并對圖像觀測應用數據增強以防止過擬合。co-training數據管道與ACT相同，在附錄A中有更多的訓練細節可供參考
Diffusion policy trains aneural network to gradually refine the action predic-tion. We use the DDIM scheduler [85] to improve in-ference speed, and apply data augmentation to image observations to prevent overfitting. The co-training data pipeline is the same as ACT, and we includemore training details in the Appendix A.3.
VINN利用BYOL[Bootstrap your own latenta new approach to self-supervised learning]訓練一個視覺表示模型(簡單地用移動和靜態數據的組合對BYOL編碼器進行co-training)，并使用該模型從具有最近鄰演示數據集中檢索動作。且采用本體感知特征增強VINN檢索，并調整相對權重以平衡視覺和本體感知特征的重要性
VINN trains a visual representation model, BYOL [37] anduses it to retrieve actions from the demonstrationdataset with nearest neighbors. We augment VINNretrieval with proprioception features and tune therelative weight to balance visual and proprioceptionfeature importance

此外，進行了動作塊的檢索而非單個動作，并發現類似于Zhao等人的顯著性能改進
We also retrieve an action chunkinstead of a single action and find significant per-formance improvement similar to Zhao et al.. For

總之，帶分塊的VINN、擴散策略和ACT在Mobile ALOHA上都取得了良好的性能，并且受益于與靜態ALOHA的協同訓練Co-training

當然，在協同訓練Co-training的過程中

ACT的表現最好
diffusion policy略差
雖然它的模型表達能力比較強，但作者認為，50條的示教數據量可能不夠
VINN最差
比如對于VINN+擦紅酒任務，Co-training的表現比起單獨訓練反而變差了，作者認為，這是由于VINN算法本身沒有辦法利用測試(應用)場景分布之外的數據(一種在測試時尋找訓練集中nearest neighbour的方法），static ALOHA的數據對于VINN來講就可能沒那么有效

最終，僅用32000美元的預算，通過靜態ALOHA數據Co-training的模仿學習，Mobile ALOHA只需要20-50個演示就能學會各種復雜的任務

斯坦福Mobile ALOHA向所有人展示了機器人在各種應用場景的潛力，甚至機器人開源實現了人人可復刻

本部分已獨立成文，詳見：

24年1月下旬，加州大學伯克利分校智能機器人實驗室(RAIL)的研究團隊提出了FMB(Functional Manipulation Benchmark for Generalizable Robotic Learning)

項目主頁：https://functional-manipulation-benchmark.github.io/
論文地址：FMB: a Functional Manipulation Benchmark for Generalizable Robotic Learning
共同第一作者主頁：https://people.eecs.berkeley.edu/~jianlanluo/
https://charlesxu0124.github.io/

6.1.1 物體和任務

FMB 中的任務大致分為兩類：單物體多步驟操控任務和多物體多步驟操控任務。這些任務旨在測試機器人的基本技能，如抓取、重新定位和裝配等，這些都是完成整個任務所必需的技能。FMB 中的任務要求機器人不僅能完成單一的操控技能，還要求機器人能夠將這些技能組合起來，完成更為復雜的多步驟任務。

FMB 的任務設計靈活多變，研究人員可以根據需要選擇專注于單一技能，深入研究機器人的操控能力，也可以研究完整的多步驟任務，這需要機器人進行長期規劃并具備從失敗中恢復的能力。由于涉及選擇合適的物體并推理操控物體的順序，更為復雜的多步驟任務要求機器人能夠做出復雜的實時決策

6.1.2 大型數據集

為了使機器人更好地理解和掌握復雜的任務

研究團隊收集了一個涵蓋上述任務的大規模專家人類示范數據集，包含超過22550個操作軌跡
研究團隊采用了4個不同的攝像機記錄這些示范數據，其中兩個攝像機安裝在機器人的末端執行器上，另外兩個安裝在箱子兩側以提供全局視角(we have four Intel RealSense D405cameras, two of which are mounted on the robot end-effector, and the rest are placed on each side of the bin to provide a complementary view of objects inthe bin)
這些攝像機捕捉了對于機器人學習解決任務至關重要的 RGB 彩色圖像信息、深度信息等數據，且提供了可做校準的相機內聯功能，這種校準可以在必要時將深度圖像轉換為點云(We simultaneously capture RGB and depthimages from these cameras, and we also provide calibrated camera intrinsics.?This calibration allows for the conversion of depth images into point clouds when necessary)
此外，數據集還記錄了機器人末端執行器的力 / 扭矩信息，這對于像裝配這樣需要接觸大量物體的的任務非常重要

通過這些豐富的數據，機器人能夠深入理解任務的每個細節，更加精確地模仿人類的操作技巧。正是由于數據的深度和廣度，為機器人學習提供了堅實的基礎。這使得機器人在執行復雜任務時，能夠更加人性化和更靈巧地對任務作出響應

6.2.1?基于 Transformer 和 ResNet 的兩種策略模型

簡而言之，基于 Transformer 和 ResNet 的兩種模型都使用了共享權重的ResNet 編碼器，讓其對每個圖像視圖進行編碼，然后與本體感知信息、可選的物體、以及相應的機器人技能編碼特征結合，以預測 7 自由度的動作，具體而言

在下圖左側所示的基于Transformer的策略中，他們提出了一個僅解碼器Transformer架構(最近的研究表明，在機器人控制中，Transformer的主要優勢在于處理多模態輸入和利用大規模、多樣化數據集進行擴展)

且為了對來自多個攝像機視角的圖像進行標記，他們采用了共享權重的ResNet-34編碼器(We use weight-shared ResNet-34 encoders to tokenize images from multiple camera views)

但為了滿足策略輸入的需要，還在輸入側添加了FiLM層來對object ID或primitive ID進行條件處理
We additionally add FiLM (Perez et al.,?2018) layers to condition on the object ID or primitive ID if they are required as part of the inputs to the policies.
機器人本體信息通過MLP單獨標記，并與正弦位置嵌入連接后通過具有4個注意力頭和4個MLP層的自注意力層進行處理
Robot proprioceptive information is tokenized via an MLP separately.?These tokens, after being concatenated together with sinusoidal position embeddings, are then processed through self-attention layers with four attention heads and four MLP layers.
訓練期間使用高斯量化器將連續6D機器人動作空間每個維度離散化為256個箱子，運行時向機器人發送命令時會將離散化動作空間轉換回連續值
Each dimension of the continuous 6D robot actionspace is discretized into 256 bins during training byusing a Gaussian quantizer.?The discretized actionspace is converted back into continuous values whensending commands to the robot at runtime.

而在上圖右側所示的基于ResNet的策略中，該結構由ResNet-34視覺骨干和一個MLP作為策略頭組成(It is composed of ResNet-34 vision backbones and an MLP as the policy head)，且在所有任務中都采用這個通用結構，只對每個任務的特定輸入進行調整

首先，對多張RGB圖像和深度圖像(且如paper 第11頁右上角所述，同時使用深度和RGB信息訓練的ResNet策略，始終優于使用相同數據數量訓練的僅使用RGB的策略)，使用共享權重的ResNets進行編碼，然后再連接特征(It takes multiple RGB and depth images and encodes them separately with weight-shared ResNets before concatenating the features)
然后，如上圖右側的左下角所示，系統還融合了機器人本體感知信息(如末端執行器姿態、扭轉或力/扭矩測量)，在進行線性投影之后進入MLP層
It also takes the robot’s proprioceptive information, such as end-effector pose, twist, or force/torque?measurements, then performs linear projection before being fed into the MLP
且系統還能夠調節object ID和manipulation skill ID，并以one-hot向量形式表示(這種機制對于處理長時間、多階段任務非常重要)，同樣的，在進行線性投影之后進入MLP層
the system iscapable of conditioning on both the object ID and manipulation skill ID, which are represented as one-hot vectors，This mechanism is crucial for employing a hi-erarchical approach to effectively address long-horizon,multi-stage tasks.
最終的輸出結果包括6D末端執行器扭轉和一個二進制變量，指示夾子是否應該打開或關閉(The output is a 6D end-effector twist as well as a binary variable that indicates whether the gripper should open or close)

6.2.2?多步驟任務的解決：分級控制 (hierarchical control)

對于一些簡單任務，他們tested the performance of ResNet policies with and without action chunking(這個動作分塊算法即斯坦福一研究團隊提出的ACT),along with a Transformer-based policy without action chunking on seen and unseen objects.

在已見和未見物體上，ResNet策略沒有動作分塊時在旋轉技能方面表現優于“有動作分塊的ResNet策略”，和Transformer
The ResNetpolicy without action chunking outperforms its coun-terpart with action chunking and Transformer on therotate skill.
然而，在夾具放置和重新抓取技能方面，相比有或沒有動作分塊的ResNet策略，Transformer策略表現更佳
In contrast, the Transformer policies out-perform ResNet policies with or without action chunk-ing for the place on fixture and regrasp skills

但對于多步驟任務，傳統的 ResNet、Transformer 和 Diffusion 方法均未能奏效，好在該論文中提出的分級控制 (hierarchical control) 方法顯示出了潛力

具體而言

復雜任務要求機器人能夠像人類一樣連續完成多個步驟。此前的方法是讓機器人學習整個過程，但這種方法容易因為單一環節的錯誤而不斷累計誤差，最后導致整個任務失敗
無論是在單物體還是多物體操控任務中，這種方法的成功率均為 0/10
針對累積誤差問題，研究團隊采用了分層控制策略
分層策略通過將任務分解成若干小塊，每完成一塊便相當于通過一個決策點，即使出現錯誤也能迅速糾正，避免影響后續環節
例如，如果機器人在抓取過程中未能穩固抓住物體，human oracle會持續讓機器人嘗試直至成功(The hierarchical policiesuse a human oracle as the high-level policy)

雖說有人類的高級策略賦予一定的先驗知識了，但到底用什么樣的策略可以做更好呢

如下圖所示，對于Multi-Object Multi-Stage Manipulation任務而言，分層策略采用人類預測作為高級策略，依次觸發具有每個階段適當的原始和對象ID的低級策略(sequentially triggering a low-level policy with the appropriate primitive and object IDs for each stage)

與單一對象聚類任務相似，所有無條件策略均未能成功。值得注意的是，基于Transformer的策略表現出色，成功率達到7/10(Similar to single-object ma-nipulation tasks, all unconditioned policies achieved zerosuccess.?Remarkably, the Transformer-based policy outper-formed others, achieving a success rate of 7/10)
之所以如此，與基于ResNet的策略相比，基于Transformer的策略能夠有效地排除與任務無關的模態，例如在任務中不必要地插入第4個攝像機
這一屬性在FMB任務的多階段、多任務模仿學習環境中特別有益
In contrast to the ResNet-basedpolicies, the Transformer-based policies learned to ef-fectively ignore task-irrelevant modalities, such as thenon-essential fourth camera in the insertion task.
Thisattribute is particularly beneficial in the multi-stage,multi-task imitation learning settings characteristic of FMB tasks.

最終，機器人在學習后能夠自主進行功能操控

24年1月，CMU一團隊通過這篇論文《Adaptive Mobile Manipulation for Articulated Objects In the Open World》提出了開放世界移動操作系統(Open-World Mobile Manipu-lation System)，這是一個全棧方法，用于解決開放世界中真實關節物體的移動操作問題

通過“帶有相關參數的結構化動作空間”來實現有效的學習
Efficient learning is enabled by a structured ac-tion space with parametric primitives
自適應學習允許機器人通過在線RL從自我實踐數據中不斷學習
by pretraining the Adaptive learning allows the robot to keep learning fromself-practice data via online RL
作者介紹了一種低成本的移動操作硬件平臺，該平臺具備高有效載荷，使其能夠與物體進行重復交互。例如，在開放世界環境下穿越各種門以及在狹窄和雜亂的空間中導航等任務都可以完成
We introduce a low-cost mobile manipulation hardware plat-form that offers a high payload, making it capable of repeatedinteraction with objects, e.g. a heavy, spring-loaded door, anda human-size, capable of maneuvering across various doorsand navigating around narrow and cluttered spaces in theopen world.

為了測試系統的有效性，我們對大學校園內4棟建筑中的8個新物體進行了現場測試，并發現自適應收益將成功率從預訓練策略的50%提高到適應后的95%
We conducted a field test of 8 novel objectsranging across 4 buildings on a university campus to test the effectiveness of our system, and found adaptive earningboosts success rate from 50% from the pre-trained policy to 95% after adaptation

7.1.1 策略的初始化：通過收集到的演示數據進行行為克隆

為了實現高效學習，采用了一個結構化的分層動作空間。該空間包括一個固定的高級動作策略和可學習的低級控制參數。通過利用遙操作演示產生不同數據集進行行為克隆(BC)，然后初始化了策略(To achieve efficient learning, we use astructured hierarchical action space.?This uses a fixed high-level action strategy and learnable low-level control param-eters.?Using this action space, we initialize our policy viabehavior cloning (BC) with a diverse dataset of teleoperated demonstrations)

然而，在開放世界環境中，對象變化范圍廣泛，因此初始的BC策略可能無法適應機器人可能遇到的每個未見物體。為解決這一問題，我們使機器人能夠從在線樣本中持續學習和適應，并描述了在線學習過程(we enable the robot to learn from the online samples it collects to continually learn andadapt.?We describe the continual learning process as well asdesign considerations for online learning)

為了提高學習效率，采用參數化的基本動作空間(parameterized primitive action space)

具體來說，假設使用一個被g參數化的抓取原語G(.)進行訪問
Concretely, we assume access to a?grasping primitive?G(.)?parameterized by?g.
此外，還引入了一個受限的移動操作原語M(.)，其中包含兩個參數：一個離散參數C和一個連續參數c
We also havea constrained mobile-manipulation primitives?M(.), whereprimitive?M(.)?takes two parameters, a discrete parameter C?and a continuous parameter?c.
軌跡以開環方式執行，即在每個抓取原語之后跟隨一組N個受限的移動操作原語
Trajectories are executed in an open-loop manner, a grasping primitive followed by asequence of N constrained mobile-manipulation primitives:

其中Is代表初始觀察圖像，G(g)和M(Ci,ci)分別表示參數化抓取和約束操作原語，If代表最終觀察圖像，ris表示軌跡的獎勵(where?Is?is the initial observed image,?G(g),?M(Ci,ci))denote the parameterized grasp and constrained manipulationprimitives respectively,?I?f?is the final observed image, and?ris the reward for the trajectory)

盡管這個結構化空間在表達能力上不如完整的動作空間強大，但它足以學習我們每天遇到的鉸接對象的有效策略，并包括20個不同門、抽屜和冰箱等開放世界環境中的情景。該結構只需使用20-30個軌跡序列就能從少量樣本中進行學習

7.1.2 自適應學習：模仿學習 + 在線RL

給定初始觀測圖像 $I_s$ ，我們使用分類器 $pi_{phi}left(left{C_{i} ight}_{i=1}^{N} mid I ight)$ 來預測 $N$ 個離散參數 $left{C_{i} ight}_{i=1}^{N}$ 序列的約束移動操作，并利用條件策略網絡 $pi_{ heta}left(g,left{c_{i} ight}_{i=1}^{N} mid I,left{C_{i} ight}_{i=1}^{N} ight)$ 生成抓取原語的連續參數和 $N$ 個約束移動操作原語序列(Given an initial observation image Is, we use a classifierπφ({Ci}Ni=1|I) to predict the a sequence of N discrete pa-rameters {Ci}Ni=1 for constrained mobile-manipulation, anda conditional policy network πθ(g,{ci}Ni=1|I,{Ci}Ni=1) whichproduces the continuous parameters of the grasping primi-tive and a sequence of N constrained mobile-manipulationprimitives)，機器人按照開環方式逐個執行參數化原語(The robot executes the parameterized primitivesone by one in an open-loop manner)

模仿學習
模仿學習旨在通過學習策略參數 $pi_{ heta, phi}$ ，以最大化專家動作的可能性(The imitation learning objective is to learn policy pa-rameters πθ,φ that maximize the likelihood of the expertactions)
具體而言，對于給定圖像觀測數據集 $I_s$ 和相應的動作 $left{g,left{C_{i} ight}_{i=1}^{N},left{c_{i} ight}_{i=1}^{N} ight}$ ，模仿學習目標是：

在線RL
在線RL面臨著一個核心挑戰，即操作新的鉸接對象，這些對象不符合行為克隆訓練數據分布(The central challenge we face is operatingnew articulated objects that fall outside the behavior cloningtraining data distribution)。為了解決這一問題，作者使策略能夠利用機器人收集的在線樣本進行持續改進。換言之，作者致力于最大化策略下預期獎勵總和? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 由于作者采用了前文所述的高度結構化的行為空間，因此可以使用相對簡單的強化學習算法來優化該目標。具體而言，作者應用了REINFORCE目標(分別定義為公式3、公式4)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 其中R代表軌跡執行結束時所獲得的獎勵。需要注意的是，我們只有單個時間步長過渡，并且所有動作都由觀察到的圖像 $I_s$ 決定，并以開環方式執行(where R is the reward provided at the end of trajectory execution. Note that we only have a single time-step transition, all actions are determined from the observed image Is , and executed in an open-loop manner)
整體微調
為了確保策略不會與模擬數據集的初始化偏離過大，在微調時采用加權目標進行優化。整體損失函數定義如下(定義為公式5)：其中，在線采樣數據的損失通過上面的公式4進行優化，而批量離線數據的損失則通過上面公式2的BC算法進行優化。在執行更新操作時，我們對在線和離線數據使用相同大小的批次

7.2.1?抓取細節與受限的移動操作

給定從真實感相機獲得的場景RGBD圖像，使用現有的視覺模型[Detecting twenty-thousand classes using image-level supervision]，[Segment anything]來獲取門和手柄的掩碼，并僅提供文本提示

此外，由于門是一個平面，我們可以利用相應的掩碼和深度圖像來估計門的表面法線Furthermore, since the door is aflat plane, we can estimate the surface normals of the doorusing the corresponding mask and the depth image
這被用于將底座移動到靠近門位置并使其垂直，并設置抓取手柄時的方向角(This is used to move the base close to the door and align it tobe perpendicular, and also to set the orientation angle forgrasping the handle)
通過使用相機標定將手柄2D掩碼中心投影到3D坐標中，即可得到名義上的抓取位置
The center of the 2d mask of the handle is projected into 3d coordinates using camera calibration,and this is the nominal grasp position.?
抓取原語的低級控制參數指示了抓取位置偏移量。這對于不同類型手柄可能需要稍微調整位置以達到最佳效果非常有幫助，并且可以通過學習低級連續值參數來實現
The low-level control parameters to the grasping primitive indicate an offset for this position at which to grasp.?This is beneficial since dependingon the type of handle the robot might need to reach a slightlydifferent position which can be learned via the low-levelcontinuous valued parameters

在SE2平面中，我們有一個9維向量對機器人手臂末端執行器和機器人底座的速度進行控制，其中前6個維度對應于手臂控制，最后3個維度對應于底座。我們所采用原語對該空間施加以下約束(We use velocity control for the robot arm end-effector and the robot base. With a 6dof arm and 3dof motion for the base (in the SE2 plane), we have a 9-dimensional vector -)：

且對這個空間施加的約束如下

對于控制部分，策略輸出與要執行原始數據相關聯索引及其相應運動低級參數。低級控制命令范圍為-1至1，并具有固定持續時間執行時間。參數符號決定速度控制方向，在解鎖和旋轉時順時針或逆時針，在打開時向前或向后
For control, the policy outputs an index corresponding to which primitive is to executed, as well as the corresponding low-level parameters for the motion. The low-level control command is continuous valued from -1 to 1 and executed for a fixed duration of time. The sign of the parameters dictates the direction of the velocity control, either clockwise or counter-clockwise for unlock and rotate, and forward or backward for open

7.2.2 預訓練數據集

在此項目中考慮鉸接對象由三個剛性部分組成：基座部分、框架部分和手柄部分

為了在操作未見過的新型鉸接物體時提供泛化效益，我們首先收集了一個離線演示數據集。我們在BC訓練數據集中包括每個類別3個對象，并為每個對象收集10個演示軌跡，共產生120條軌跡記錄

此外，在泛化實驗中還從每個類別中選取2個測試對象。訓練和測試對象在視覺外觀方面具有顯著差異，例如紋理、顏色；在物理動力學方面也存在差異，例如彈簧加載；以及驅動方式上可能出現順時針或逆時針等差異性質量特征

7.2.3 自主和安全的在線適應設計

如前所述，為了更好的操作BC訓練領域之外的新對象，該團隊開發了一個能夠完全自主強化學習(RL)在線適應的系統

安全感知探索：確保機器人在進行探索時所采取行動對其硬件是安全的至關重要，特別是因為它需要與對象進行關節約束下交互。然而，由于我們使用低成本手臂（如xarm-6），無法精確支持力感應

為了部署我們的系統，在線采樣期間讀取關節電流并設置一種基于此機制來確保安全性。如果機器人采樣到一個導致關節電流達到閾值的動作，則會立即終止該事件并重置機器人，以防止手臂從潛在地對自身造成損害，并提供負獎勵以阻止此行為
獎勵規格：在作者的主要實驗中，一名人類操作員會根據機器人是否成功打開門來給予獎勵。成功打開門則得到+1分，失敗則得到0分，違反安全規定則得到-1分。這種設置是可行的，因為系統只需要很少樣本進行學習(ahuman operator provides rewards- with +1 if the robot suc-cesfully opens the doors, 0 if it fails, and -1 if there is a safetyviolation. This is feasible since the system requires very fewsamples for learning)
然而，在自主學習中，我們希望消除依賴人類參與的瓶頸。因此，故研究了使用大型視覺語言模型作為獎勵來源的方法(For autonomous learning however, wewould like to remove the bottleneck of relying on humansto be present in the loop. We investigate using large visionlanguage models as a source of reward)

具體而言，我們使用CLIP計算兩個文本提示和機器人執行后觀察到的圖像之間的相似性得分，而所使用的兩個提示是“關閉的門”和“打開的門”(Specifically, we use CLIP [52] to compute the similarity score between two textprompts and the image observed after robot execution. Thetwo prompts we use are - ”door that is closed” and ”door that is open”)
然后通過計算最終觀察到圖像與這些提示之間的相似性得分(We compute the similarity score of the finalobserved image and each of these prompts)
$ightarrow$ ? 如果圖像更接近指示門被打開，則給予+1獎勵；否則給予0獎勵(assign areward of +1 if the image is closer to the prompt indicatingthe door is open, and 0 in the other case)
$ightarrow$ ? 如果違反安全規定，則給予-1獎勵
重置機制：機器人采用視覺里程計，并利用底座上安裝的T265跟蹤攝像頭導航回初始位置。每次情節結束時，機器人釋放夾具并移動回原始SE2基地位置，并獲取IF圖像以計算獎勵值。隨后，在基地SE2位置上應用隨機擾動以增強策略學習魯棒性
The robot employs visual odometry,utilizing the T265 tracking camera mounted on its base,enabling it to navigate back to its initial position. At theend of every episode, the robot releases its gripper, andmoves back to the original SE2 base position, and takes animage of I f for computing reward. We then apply a randomperturbation to the SE2 position of the base so that the policylearns to be more robust
此外，在獲得+1獎勵（即成功打開門）時，機器人有一個腳本程序來關閉門

// 待更

??????斯坦福炒蝦機器人爆火全網！華人團隊成本22萬元，能做滿漢全席還會洗碗，新智元發的新聞稿
，機器之心發的新聞稿
..

轉載請注明來自青島峻峰水處理設備有限公司，本文標題：《以Mobile ALOHA為代表的模仿學習的爆發：從Dobb·E、Gello到斯坦福ALOHA、UMI、DexCap、伯克利FMB》

shiyijing 398篇文章站點微博

每一天，每一秒，你所做的決定都會改變你的人生！

? 2025年4月 ?
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

chenyahui管理員

最新文章

網站收藏

以Mobile ALOHA為代表的模仿學習的爆發：從Dobb·E、Gello到斯坦福ALOHA、UMI、DexCap、伯克利FMB

1.1.1 硬件設計

1.1.2 對預訓練數據集(Pretraining Dataset)的大量收集

1.1.3?Policy Learning with Home Pretrained Representations

1.1.4 部署到一個新的家庭

2.2.1?伺服選擇

2.2.2?縮放的運動學等效結構

2.2.3?關節正則化

2.2.4 3D打印部件

3.2.1?Mobile ALOHA 硬件的總體情況

3.2.2 硬件材料清單與硬件制作步驟

3.2.2.1 硬件材料清單Bill of Materials

3.2.2.2?3D Printed Parts

3.2.2.3 硬件安裝指南Hardware Guide

3.3.1?靜態ALOHA 數據的組成情況

3.3.2 基于兩套數據(靜態ALOHA示范數據和移動ALOHA示范數據)訓練損失函數

3.4.1?協同訓練提高了性能且比預訓練效果更好

3.4.2?兼容ACT、擴散策略和VINN

6.1.1 物體和任務

6.1.2 大型數據集

6.2.1?基于 Transformer 和 ResNet 的兩種策略模型

6.2.2?多步驟任務的解決：分級控制 (hierarchical control)

7.1.1 策略的初始化：通過收集到的演示數據進行行為克隆

7.1.2 自適應學習：模仿學習 + 在線RL

7.2.1?抓取細節與受限的移動操作

7.2.2 預訓練數據集

7.2.3 自主和安全的在線適應設計

最近發表

友情鏈接

文章目錄

chenyahui管理員

最新文章

網站收藏

以Mobile ALOHA為代表的模仿學習的爆發：從Dobb·E、Gello到斯坦福ALOHA、UMI、DexCap、伯克利FMB

1.1.1 硬件設計

1.1.2 對預訓練數據集(Pretraining Dataset)的大量收集

1.1.3?Policy Learning with Home Pretrained Representations

1.1.4 部署到一個新的家庭

2.2.1?伺服選擇

2.2.2?縮放的運動學等效結構

2.2.3?關節正則化

2.2.4 3D打印部件

3.2.1?Mobile ALOHA 硬件的總體情況

3.2.2 硬件材料清單與硬件制作步驟

3.2.2.1 硬件材料清單Bill of Materials

3.2.2.2?3D Printed Parts

3.2.2.3 硬件安裝指南Hardware Guide

3.3.1?靜態ALOHA 數據的組成情況

3.3.2 基于兩套數據(靜態ALOHA示范數據和移動ALOHA示范數據)訓練損失函數

3.4.1?協同訓練提高了性能且比預訓練效果更好

3.4.2?兼容ACT、擴散策略和VINN

6.1.1 物體和任務

6.1.2 大型數據集

6.2.1?基于 Transformer 和 ResNet 的兩種策略模型

6.2.2?多步驟任務的解決：分級控制 (hierarchical control)

7.1.1 策略的初始化：通過收集到的演示數據進行行為克隆

7.1.2 自適應學習：模仿學習 + 在線RL

7.2.1?抓取細節與受限的移動操作

7.2.2 預訓練數據集

7.2.3 自主和安全的在線適應設計

眉山網紅街規劃最新消息，揭開未來繁華面貌的神秘面紗，眉山網紅街規劃揭秘，未來繁華面貌展望

固原中院最新動態，審判工作穩步推進，司法改革成效顯著，固原中院審判工作穩步推進，司法改革成果豐碩

海南高速新區最新信息網，海南高速新區資訊速遞

滎經租房最新信息查詢網，滎經租房信息一網打盡

長壽道路招標公示網最新，長壽道路招標公示網最新信息發布

最新版錄音圣手，功能升級與用戶體驗的完美結合，錄音圣手最新版，功能升級與用戶體驗的無縫融合

鄭州網紅詐騙事件最新進展，揭露事實真相，警惕網絡欺詐風險，鄭州網紅詐騙事件揭秘，最新進展警醒公眾，防范網絡欺詐風險

對美國最新態度的深度評論，多元視角的審視與理解，美國最新態度的深度解讀，多元視角的審視與理解

“2025新澳門天天官方免費大全”·最新分析_青島峻峰水處理設備有限公司

“新奧什么時候出”·即刻解析_青島峻峰水處理設備有限公司

“777778888精準免費四肖”·動態掌控_青島峻峰水處理設備有限公司

“澳門正版資料免費大全新聞”·即時資訊_青島峻峰水處理設備有限公司

“2025澳門天天開好彩大全體育新澳門”·及時洞悉_青島峻峰水處理設備有限公司

“2025澳門原料免費大全1”·最新趨勢_青島峻峰水處理設備有限公司

“2025澳門開獎結果查詢”·持續跟進_青島峻峰水處理設備有限公司

“2025年新澳門天天開好彩”·熱點挖掘_青島峻峰水處理設備有限公司

最近發表

友情鏈接

文章目錄