观测不匹配问题
观测不匹配问题指的是人类视频中的观测对象与机器人实际观测的对象存在差异。(视频的视角不是机器人的视角)
动作缺失问题
-
提取动作 计算机视觉领域的人体姿态估计(Human Pose Estimation)技术可以实现这一目标:核心思路:在人体上指定关键点(通常是关节,如肘部、腕部、指关节等);检测这些关节后,将其连接形成人体骨架,得到一个低维状态空间(根据定义的关节数量,人体状态空间通常约为17个自由度);通过计算两个连续帧中人体关节状态的差异,即可得到人类的动作信息。
-
动作重新定位 这一领域被称为动作重新定位(Action Retargeting),核心思路如下:确定人类手部的关节或末端连杆位置;在机器人上指定参考坐标系;通过计算对应关节之间的相对距离,利用逆运动学(Inverse Kinematics)计算机器人的运动学参数,从而得到机器人动作。
基于人类视频数据的学习方法
- 预训练+微调:基于人类视频和提取的人类动作预训练策略网络;利用遥操作收集的机器人数据(输入为机器人观测,输出为机器人动作)微调网络。
- 混合训练:将人类和机器人的图像同时输入同一个网络;网络同时输出人类动作和机器人动作;所有训练数据在一个批次中训练,迫使网络学习“不依赖具体载体的动作规律”(例如无论载体是人类还是机器人,如何移动末端执行器)。
- 粗略动作+人类在环校正:基于人类观测和粗略的机器人动作训练策略;由于动作粗略,无法直接应用于真实机器人,需通过Human-in-the-Loop进行校正(本质上类似预训练+微调的思路)。
world model
world model 缺乏动作信息,如何恢复?
- 学习逆动力学模型(Inverse Dynamic Model):需通过遥操作收集机器人数据集;训练网络:输入两个时间步的观测(两帧图像),预测能使机器人从第一个状态转移到第二个状态的动作;缺陷:仍需依赖遥操作收集的机器人数据,违背了“仅通过视频学习”的初衷。
- 基于光流的对应关系学习:利用成熟的计算机视觉库(如OpenCV)计算两帧图像之间的光流(Optical Flow);基于光流计算机器人手臂的对应关系(即构建一个矩阵,使机器人能实现预测的光流效果);优势:无需专门训练,直接利用现有技术即可恢复动作。
遥操vs仿真vs视频
- 遥操:成本高昂:需要大量人员参与数据收集;效率极低且能力有限:遥操作天然会给操作者带来精神负担,导致任务执行效率低下,且许多任务难以完成。
- 仿真:环境构建成本极高:现实生活中的环境种类繁多,要在仿真中构建对应的环境,需要大量博士或高薪工程师投入巨大精力;任务扩展性差:无法构建出与日常生活中遇到的环境数量接近的仿真环境,难以支撑复杂任务的训练。任务扩展性差:无法构建出与日常生活中遇到的环境数量接近的仿真环境,难以支撑复杂任务的训练。
- 视频:观测模态单一:仅包含视觉观测,缺乏触觉反馈;遮挡问题:若视频中存在严重遮挡,无法从视觉信息中恢复动作;生成式模型的不稳定性:生成式AI(如GPT)生成的机器人相关视频可能不符合指令(示例:要求生成“机械臂推动红色方块”的视频,但生成结果中桌子晃动,未完成推动动作)。