type
Post
status
Published
date
May 6, 2026 10:44
slug
summary
tags
具身智能
category
学习路径
icon
password
VLM 擅长语义理解和高层规划,但不擅长直接完成毫米级空间控制;因此需要用显式 3D 空间结构、任务记忆和执行反馈,把 VLM 的语义推理能力转化为可执行的机器人操作策略。
这篇文章和我目前关注的 VLA 高精度操作、视觉 grounding、subtask 分解、ROI/局部视觉证据验证等问题非常接近。不过它更多是一个 VLM + RGB-D + ROS + 显式几何结构 的系统框架,而不是一个端到端 VLA 内部机制改进方法。

1. 研究背景:为什么纯 VLM 难以完成高精度操作?

机器人装配任务往往需要同时满足几个条件:
  1. 理解复杂空间关系;
  1. 能从粗运动切换到精细控制;
  1. 能维护任务进度和空间语义一致性;
  1. 能在失败后进行修正;
  1. 最终达到高精度插入、对接或组装。
VLM 在语义层面很强,例如能够理解“把连接器插入插槽”“将桁架部件组装到对应位置”。但真正落到机器人执行时,问题会变成:
  • 目标物体的精确 3D 位置在哪里?
  • 插入方向和孔轴是否对齐?
  • 当前是否已经接触?
  • 如果插入失败,是偏左、偏右、姿态不对,还是抓取点有问题?
  • 下一步应该退回、微调,还是继续插入?
这些问题不是单靠 VLM 的语言推理就能稳定解决的。因此,文章提出用显式空间结构来承接 VLM 的语义判断,并用几何验证和闭环反馈降低 VLM 幻觉和误判。

2. 总体架构:Progressive VLM Planning

这篇文章的整体架构可以分成三大阶段:
也就是说,它不是一次性让 VLM 规划完整任务,而是一个闭环系统:
这和我之前构想的 Subtask Expert、ROI Expert、Completion Verifier、Uncertain Fallback 有相似之处:都不是让一个大模型直接从图像到动作,而是把高精操作拆成多个可验证阶段。

3. Stage 1:空间-语义映射

第一阶段负责把图像中的任务相关区域映射到机器人操作空间中。
输入包括:
系统先通过 VLM 对图像进行任务相关目标筛选或 panoptic segmentation,得到与任务有关的像素区域。随后结合深度图、相机内参和机器人坐标变换,把这些像素映射到机器人 base frame 中。
直观来说:
这一点非常关键。文章并没有让 VLM 自己估计毫米级空间关系,而是让 VLM 做语义筛选,再由 RGB-D 和几何模块完成空间定位。

多分辨率空间划分

作者还把空间按距离分成三层:
越靠近机器人末端和操作目标,空间表示越精细;越远离操作区域,表示越粗。这体现了一个很重要的高精度操作先验:
高精度视觉和几何计算不应该平均分配给全场景,而应该集中在当前 subtask 相关、距离操作目标最近的区域。
这对 peg-in-hole、plug-in-hole 等任务很有启发。真正需要高精度的不是整幅图,而是 peg tip、hole center、socket rim、contact region 这些局部区域。

4. Stage 2:双层场景表示

第二阶段是文章最核心的设计:dual-layer representation
它包含两层:
2D Topology Graph:语义关系层、3D Spatial Network:几何空间层

4.1 2D Topology Graph:语义拓扑图

拓扑图记作:
其中:
  • V 表示物体节点;
  • E 表示对象之间的关系;
  • F 表示由 VLM 生成的结构化语义特征。
每个节点大致包含:
每条边则描述对象关系,例如:
这一层解决的问题是:

4.2 3D Spatial Network:几何空间网络

空间网络用 Gaussian envelope 表示物体的几何位置、空间范围和方向:
其中:
  • μ_i 是物体中心;
  • Σ_i 表示空间范围和方向。
这样,拓扑图中的语义对象可以通过 spatial index 连接到对应的 3D 几何包络。
简单理解:
这就是文章所谓的 spatial-semantic fusion

5. 语义关系必须经过几何验证

这篇文章很值得借鉴的一点是:它不完全相信 VLM。
系统会先让 VLM 判断对象之间的语义关系,例如:
但这些关系不会直接进入系统,而是会通过 3D spatial network 做几何验证。作者使用 Gaussian envelope 的中心距离和协方差估计对象关系是否物理合理。只有当 VLM 的语义判断和几何验证一致时,系统才会在拓扑图中添加对应边。
这个设计非常重要,因为 VLM 容易产生看似合理但物理错误的判断。对于高精度机器人任务来说,“看起来合理”远远不够,必须经过物理空间验证。
这对我的研究也有直接启发:

6. Task Memory:任务记忆结构

文章维护了一个任务记忆结构:
分别表示:

TTP:任务拓扑路径

表示任务的层级依赖和执行顺序。例如连接器对接可以分成:

SS:子任务状态

记录当前子任务执行状态,例如:

MSH:运动序列历史

记录过去执行过的动作策略和失败/成功历史,用于后续策略调整。
这一点和我之前思考的 skill.json、completion predicate、fallback strategy 很接近。不同的是,这篇文章的 task memory 更偏运行时状态记录,而我的设想更偏“技能先验 + 执行验证 + fallback 机制”。

7. Stage 3:面向任务的 VLM 交互

第三阶段负责把前面维护的空间结构和任务记忆组织成 prompt,让 VLM 生成下一步执行策略。
它根据末端执行器与目标之间的距离,切换两种模式:

7.1 Coarse Motion

当机器人距离目标较远时,系统重点关注:
此时 prompt 会包含:

7.2 Fine Manipulation

当机器人接近目标后,系统进入精细操作模式,prompt 会更加关注:
例如在连接器对接中,fine manipulation 需要关注:
这个 coarse-to-fine 设计非常符合高精操作的本质。对于 peg-in-hole,也可以对应为:

8. ROS 在架构中的作用

论文中 VLM 最终生成的是 Sub-Task ROS Functions,而不是连续动作向量。
这意味着 VLM 不直接输出:
而是输出更结构化的动作调用,例如:
ROS 的作用是把 VLM 的高层规划结果转成机器人系统中可执行、可验证、可调试的函数调用。
这样做有几个好处:
  1. 避免 VLM 直接控制底层连续动作;
  1. 可以复用运动规划、IK、碰撞检测、控制器等成熟模块;
  1. 可以在执行前检查目标是否可达、路径是否安全;
  1. 方便执行后反馈状态;
  1. 更适合真实机器人系统部署。
但这也说明:这篇文章不是端到端 VLA,而是一个 VLM + 显式机器人系统的组合框架。

9. 实验结果与消融

论文用了两个任务:
其中 Aviation Connector Docking 更接近高精度对接任务,需要精确抓取、亚毫米级对齐和失败恢复。
文章使用四个指标:
这个指标设计非常值得借鉴。它没有只看最终成功率,而是拆成了:
实验显示,纯 VLM 虽然可能有较高 TPSR,但 TSR 可以为 0。这说明 VLM 能做出看似合理的计划,但如果没有空间 grounding 和执行层支撑,计划无法落地。论文的 dual-layer framework 显著提升了 SLPC、MSR 和 TSR。
消融实验中,去掉 Dual-Layer Module 后,SLPC 和 TSR 直接降到 0,即使 TPSR 仍然较高。这说明:
高层规划成功并不代表真实执行成功;语义计划必须被 grounding 到物理空间中。
这对我目前研究 π0.5 action expert 是否真的使用视觉证据也很有启发。

10. 与我的研究方向的关系

这篇文章和我当前关注的问题非常接近,但并不完全重合。

相似点

  1. 都关注高精度操作;
  1. 都认为纯 VLM/VLA 直接从图像到动作不可靠;
  1. 都强调 subtask 分解;
  1. 都需要视觉 grounding;
  1. 都强调错误恢复和闭环反馈;
  1. 都试图构建语义与空间之间的桥梁。

不同点

这篇文章是:
而我更关注的是:
它没有研究:
所以它可以作为一个强相关工作,但不完全撞车。

11. 对我后续研究的启发

这篇文章给我的最大启发是:
高精操作中的视觉 grounding 不应该只是“框出目标”,而应该是构建一层可验证的 subtask-relevant visual evidence。
对于 PegInsertion,可以构建一个轻量 evidence structure:
然后将其作为:
进一步验证:
这就能把这篇文章的显式空间结构思想,迁移到端到端 VLA 的内部机制分析中。

12. 文章优点

  1. 问题定义清晰:VLM 高层强,但精细空间执行弱;
  1. 架构设计合理:语义拓扑图 + 3D 空间网络 + 任务记忆;
  1. 粗细阶段切换符合高精操作规律;
  1. 几何验证降低了 VLM 幻觉风险;
  1. 闭环反馈使系统具备错误恢复能力;
  1. 指标拆解比单纯 success rate 更有解释力。

13. 文章局限

  1. VLM performs panoptic segmentation 这一步描述过于理想,实际稳定性存疑;
  1. Gaussian envelope 对孔口、针脚、接触边缘等高精局部结构可能过粗;
  1. ROS function 设计依赖大量工程先验;
  1. 任务规模有限,泛化性仍需更多验证;
  1. 它不是端到端 VLA,不能直接回答 action expert 是否使用视觉证据的问题;
  1. 实验对比中,系统工程方法和端到端模型之间的条件并不完全一致。

14. 我的最终理解

这篇文章的核心不是“VLM 很强,所以能做高精操作”,而是:
它真正有价值的地方是证明了:
高精操作需要的不只是视觉识别,而是一套从语义到空间、从空间到动作、从动作到反馈的可验证链路。
对我自己的方向来说,这篇文章提醒我:
如果要做 π0.5 高精操作,不应该只问“怎么让注意力看向 ROI”,而应该问:
这比单纯做一个 ROI detector 或 soft attention map 更有科研价值。
 
【VLA】HiVLA 论文阅读笔记:简单的idea,优秀的实现第一篇文章
Loading...