首页 >> 科学研究 >> 科研进展 >> 正文

Vi-TacMan: 视触觉融合的铰链物体操作框架

信息来源: 计算认知与常识推理研究中心     发布时间:2026-02-27     浏览量:

无需显式运动学模型,也能精准操控各类铰链物体。北京大学朱毅鑫团队提出的 Vi-TacMan 框架,创新性融合视觉全局感知与触觉局部反馈,以"粗引导+精执行"的分层架构,系统性解决机器人操作铰链物体时"在哪里抓"和"往哪里拉"两大核心问题。相关论文Vi-TacMan: Articulated Object Manipulation via Vision and Touch已被IEEE International Conference on Robotics and Automation (ICRA) 2026接收。


家居环境中的铰链物体(柜门、冰箱、烤箱等)在外观、几何和运动学特性上存在巨大差异,机器人实现可靠操作需同时满足交互定位与运动约束的双重精准性。纯视觉方法擅长全局推理但对隐藏运动学的估计不够精确;纯触觉方法擅长局部精确控制但依赖外部提供的初始化条件。Vi-TacMan首次系统性地将视触觉的互补优势统一于同一框架:视觉检测可移动与可抓持部件、生成抓取方案并估计粗略交互方向;触觉控制器接管后续执行,以50Hz实时接触调节完成精确操作。通过引入表面法线作为几何先验、以von Mises-Fisher(vMF)分布建模方向不确定性,Vi-TacMan在超过50,000个仿真物体和多种真实物体数据上验证了跨类别的稳健泛化能力,所有对比实验中均取得统计显著的性能提升(p<0.0001)。


图1. Vi-TacMan利用视觉与触觉的互补优势来操作未见过的铰链物体。视觉提供全局上下文信息,用于提出抓取方案并估计粗略的交互方向,以此初始化触觉控制器;触觉控制器则利用局部接触反馈实现精确且稳健的执行。


家庭服务机器人要在人类生活环境中有效工作,必须掌握铰链物体的操作技能。然而,日常生活中具有铰链结构的家具——橱柜、冰箱、烤箱、桌子——在外观、几何形状和运动学特性上千差万别,精确的先验建模几乎不可行。可靠的操作需要同时满足两个条件:准确定位交互点,以及精确执行运动学约束下的操作动作。面对这一挑战,一个基本问题浮现:哪种感知模态最适合解决问题的哪个方面?

现有方法主要依赖两类感知范式,但各自存在根本性局限:

视觉驱动范式:通过视觉重建物体运动学参数(如关节类型、旋转轴位置等)来规划操作。视觉的全局感受野使其擅长识别物体上的交互区域,但铰链机构通常隐藏在物体内部,迫使视觉系统从有限的表面观测中"猜测"运动学。这一逆问题在面对陌生物体时极为脆弱——即使在大规模数据集上训练的最先进方法,也常因运动学估计不精确而导致执行失败,在安全性要求高的家庭场景中尤为棘手。

触觉驱动范式:不恢复精确运动学,而是通过连续的接触调节维持成功的操作。触觉反馈能够直接感知视觉无法获取的局部接触几何信息,在只给定粗略初始条件(一个可行抓取和大致运动方向)的情况下即可实现可靠执行。然而,这些初始条件本身仍需由外部提供

  这一格局揭示了一种天然的分工:视觉负责全局粗引导,触觉负责局部精执行。Vi-TacMan正是基于这一洞察——精确的运动学恢复并非必要条件,只要视觉能提供足够的线索来初始化触觉控制即可——将视觉与触觉系统性地整合于同一操作框架中。该框架无需显式的运动学模型:触觉控制器通过维持接触稳定性来自适应地弥补视觉估计中的误差。由此,Vi-TacMan在同一框架内实现了视觉与触觉的系统性协同。

Vi-TacMan将操作问题分解为层级化的两阶段流程。在第一阶段,视觉模块完成三项任务:检测物体上的可移动部件和可抓持部件;在可抓持区域生成稳定的抓取方案;基于可移动部件的位移场估计粗略的交互方向。在第二阶段,触觉控制器以视觉提供的抓取和方向为初始化,接管全部后续执行——通过GelSight型触觉传感器以50Hz频率感知接触状态变化,实时修正末端执行器位姿,维持稳定接触的同时沿正确方向推进。


1.视觉感知与粗引导

视觉模块处理RGB-D数据与表面法线信息,完成全局感知任务。基于DINOv3骨干网络和Transformer检测头训练的检测器识别可移动部件与可抓持部件,在测试集上达到0.86 mAP。检测结果经由SAM2分割模型生成精细的实例级语义掩码。在可抓持区域内,采用采样式方法规划无碰撞的夹持抓取。基于PointNet++的位移估计网络预测可移动部件上各点的运动位移,通过Kabsch算法恢复刚体变换,进而推断交互方向。

2.vMF方向分布建模与表面法线先验

面对陌生物体时,单一确定性的方向估计往往不够可靠。Vi-TacMan将交互方向建模为单位球面上的von Mises-Fisher(vMF)分布,通过Fréchet均值估计最优交互方向,同时量化方向不确定性。在位移估计网络中引入表面法线作为几何先验,为方向推断提供了额外的物理约束,在所有基线对比中均取得统计显著的性能提升。

3.触觉控制与精确执行

视觉给出初始抓取与粗略方向后,所有后续操作均由触觉策略接管。基于GelSight型触觉传感器,控制器以50Hz频率提取被激活标记点的变形信息,通过点配准算法实时计算末端执行器位姿修正量,在维持稳定接触的同时自适应地推进操作。论文同时公开了触觉传感器弹性体的完整制作工艺,包括标记点定位、朗伯涂层和保护层的喷涂流程。

研究团队构建了大规模仿真评测体系与真实机器人实验平台,对Vi-TacMan进行了系统性评估。在训练与测试物体类别完全独立的条件下,框架在多样化铰链物体上完成从视觉感知到触觉执行的完整操作闭环,展现出稳健的sim-to-real部署潜力。


数据集与评估设置

从PartNet-Mobility数据集中选取385个铰链物体,覆盖8个类别,在SAPIEN仿真器中以光线追踪模式从多达72个视角渲染,共生成超过55,000个样本训练集与测试集在物体类别层面完全分离——训练使用微波炉、冰箱、储物柜和垃圾桶四类,测试使用洗碗机、门、烤箱和桌子四类——以严格评估跨类别泛化能力。此外,采集了四个真实世界物体样本用于验证仿真到真实的迁移效果。

图2. 在真实世界中未见过的物体类别上进行方向估计的预测结果可视化。

方向估计精度

在5,836个来自训练中未见类别的测试样本上,Vi-TacMan(含法线先验)的平均角度误差为8.13°±6.54°,相较FlowBot3D(13.92°±9.45°)和无法线消融版本(10.10°±6.57°)均取得显著提升。值得注意的是,仅使用表面法线均值的零学习基线(Normal-only)即可达到12.66°±8.25°的竞争性表现,验证了表面法线作为几何先验的有效性。单侧配对t检验确认Vi-TacMan相对所有基线的改进均具有统计显著性(p<0.0001)。

图3. 在未见过的物体类别上进行方向估计的定量结果


真实世界验证

在Kinova Gen3七自由度机械臂上,配备自制GelSight型触觉传感器和Femto Bolt RGB-D相机,Vi-TacMan在多种真实铰链物体上——涵盖单部件与多部件结构、棱柱关节与旋转关节——成功完成了从视觉感知到触觉操作的完整流程。机器人自动建立稳定的把手抓取,沿估计的交互方向运动,并通过触觉反馈实时修正执行偏差,展现出可靠的仿真到真实迁移能力。

图4. 真实世界实验平台


面向未来扩展与广泛应用,Vi-TacMan在设计上内置了丰富的扩展空间:透明决策、柔性拓展、开放复现;三者共同体现该研究的方法论延展性与工程实用性。


层级化设计的可解释性:Vi-TacMan将视觉"意图"(交互方向与抓取方案)与触觉"执行"显式分离,这一中间表示可暴露给人类用户——例如通过增强现实展示预期轨迹或在执行前进行语音提示——为人机协作场景中的安全性与可预测性奠定基础。


从刚性到柔性物体的拓展:当前框架基于刚体假设估计运动位移,未来可扩展至柔性或多阶段铰链结构(如弹性把手、嵌套关节),通过可变形物体跟踪或序贯状态估计实现更广泛的适用性。


触觉传感器制作的开放性:论文详细公开了GelSight型触觉传感器弹性体的完整制作流程——从Smooth-On Solaris硅胶的浇注、激光切割模板的标记点定位,到朗伯涂层与保护层的喷枪工艺——降低了触觉传感器制作与复现的门槛

Vi-TacMan以"视觉粗引导、触觉精执行"的分层架构,通过将表面法线引入为几何先验、用vMF分布建模方向不确定性,在无需显式运动学模型的条件下,实现了对多种铰链物体的可靠操作与跨类别泛化。这一研究表明:系统性的视触觉融合,能让粗略的视觉感知驱动精确的物理操作,从而为非结构化环境中的自主系统提供了一种可扩展的感知-执行新范式。

论文共同第一作者包括中国科学院大学博士生崔镭耀、北京大学人工智能研究院博士生赵秭杭、北京大学人工智能研究院实习生谢斯睿和张文焕;通讯作者为北京大学人工智能研究院博士生赵秭杭、中国科学院沈阳自动化研究所研究员韩志和北京大学心理与认知科学学院及人工智能研究院助理教授朱毅鑫。