type
Post
status
Published
date
Apr 9, 2026
slug
summary
tags
具身智能
category
学习路径
icon
password
很多 VLA 论文都在想办法“增强视觉”,但大多数方法其实只是在输入端补信息,却没有回答一个更本质的问题:模型在生成动作时,真的一直在看对地方吗?DeepVision-VLA 最有价值的地方就在于,它先系统分析了多种 VLA 的内部机制,发现模型越到深层越容易“看丢”任务相关视觉区域;随后提出了 VL-MoT 和 AGVP 两个设计,把更强的视觉表征重新注入到动作生成深层,并且只保留和当前动作最相关的视觉 token,从而明显提升了复杂操作任务中的精度和鲁棒性。

深层动作生成阶段会逐渐“看不清”
这篇文章最有意思的地方,不是上来就提新模块,而是先问了一个非常关键的问题:VLA 模型在不同深度的层里,到底有没有持续利用视觉信息来生成动作?
作者对 OpenVLA、π0 以及自定义的 QwenVLA-OFT 做了系统分析,发现一个相当一致的现象:
- 在浅层,模型对被操作物体、机械臂、接触区域这类任务相关区域有比较明显的关注;
- 但到了深层,这种对关键视觉区域的敏感性会逐渐减弱,注意力变得更发散,甚至跑到背景或无关区域上;
- 当作者在不同层中遮掉 ROI 对应的视觉 token 时,浅层遮挡会显著恶化动作预测,而深层遮挡的影响却越来越小。
这意味着一个很重要的结论:很多 VLA 虽然“输入了图像”,但在真正生成动作的深层阶段,视觉 grounding 其实是在衰减的。

从研究视角看,这个发现很值钱。因为它指出的问题不是“视觉编码器不够强”,而是:视觉信息没有在动作链路的后半段被持续有效利用。
VL-MoT:把更强的视觉表征重新送进深层
为了修复这个问题,作者提出了 Vision-Language Mixture-of-Transformers(VL-MoT)。
它的核心思想非常直接:
- 既然浅层还看得比较准,深层却逐渐“看丢”
- 那就不要只在输入端注入一次视觉信息
- 而是要把一个更强的视觉基础模型作为 Vision Expert
- 在 VLA 的深层 再次注入多层视觉表征
具体来说,DeepVision-VLA 建立在 QwenVLA-OFT 上:
- 原始 VLA 分支: 使用 SigLIP2-Large 作为视觉编码器,Qwen3-VL (4B) 作为主干,采用并行动作预测和 L1 回归输出动作。
- 新增视觉专家分支: 额外引入 DINOv3 作为 Vision Expert,用更高分辨率图像提取更细粒度的视觉特征。
- 融合方式: 不是简单拼接中间特征,而是在深层把 Vision Expert 和 VLA 主干各自的 Q / K / V 拿出来,做一次 shared attention,让两个分支直接在注意力层面进行信息交换。
这种设计的高明之处在于:
- 它不是粗暴地让所有特征一起混合,而是保持两个分支各自的处理路径;
- 它把融合位置放在最需要补视觉信息的深层,而不是浅层输入端;
- 它使用的是 Vision Expert 的后几层多级特征,因为论文实验发现,DINOv3 的后层比前层更适合机器人精细操作。

可以把它理解成:普通 VLA 是“开始看得见,后面越做越凭惯性”;
DeepVision-VLA 则是在动作真正要落地的深层阶段,再给模型递一次“视觉放大镜”。
AGVP:不是把所有视觉信息都塞进去,而是只保留关键区域
如果只是把 DINOv3 的高分辨率特征全部接进来,问题也会很明显:
- token 太多
- 背景噪声太大
- 计算开销会上升
- 无关区域反而会稀释任务关键线索
所以作者又设计了一个非常实用的模块:Action-Guided Visual Pruning(AGVP)。这个模块的核心逻辑是:
- 利用浅层 VLA 中 action token → visual token 的 attention map;
- 把多个 action token 的注意力做平均,再跨多个浅层做平均;
- 得到一个更稳定的 task-relevant saliency map;
- 再把这个注意力图插值到 Vision Expert 的高分辨率 token 空间;
- 最后只保留 Top-K 最重要的视觉 token,其余剪掉。
也就是说,AGVP 并不是在问:图像里哪儿最显著?而是在问:对当前动作来说,图像里哪儿最重要?
这一点非常关键。因为机器人操作不是单纯识别目标,而是要考虑:
- 夹爪和物体的相对位置
- 接触点
- 边界
- 目标容器或把手的位置
- 当前动作下一步该去哪里
论文的消融实验也证明了,拿 action-to-vision attention 来做剪枝引导,比用 task instruction 或 CLS token 这种更全局、更语义化的信号效果更好。
从我的理解来看,这个设计特别有启发性,因为它其实体现了一种很重要的思想:或许不是所有“更强视觉信息”都有用,真正有用的是“和动作条件绑定之后的视觉信息”。
DeepVision-VLA 为什么会比普通视觉增强更有效
这篇文章和一些“给 VLA 加辅助视觉损失”“让模型重建目标物体”“增加外部视觉 prompt”的工作相比,最大的不同在于它对问题的切入点更深。
传统做法更像是在说:
- 我给你更多视觉提示
- 我给你额外视觉监督
- 我希望你能学会关注目标区域
而 DeepVision-VLA 的思路更像是在说:
- 我先确认你到底是在哪里开始看丢
- 再在那个深度位置把视觉信息重新补进去
- 同时只保留对动作最有意义的部分
所以它不是单纯“增强视觉”,而是在解决:视觉信息如何在动作生成链路里持续存活并真正参与控制。
这也是为什么它对一些特别依赖精细空间定位的任务更有效,比如:
- 扫入簸箕
- 架子放酒杯
- 白板写字
- 倒可乐进瓶子
这些任务都要求模型不仅要“知道目标是什么”,更要在连续控制中持续盯住关键位置。
实验结果:仿真和真实环境都很强
RLBench 仿真实验
作者在 10 个 RLBench 任务上做了测试,DeepVision-VLA 的平均成功率达到 83%,超过:
- HybridVLA:74%
- π0.5:65%
- CogACT:61%
- QwenVLA-OFT baseline:69%
在 10 个任务里拿到了 8 个最佳结果。
消融实验
消融实验基本把作者的几个关键判断都验证了一遍:
- 融合范式比较
- vanilla baseline:65.5
- early fusion:73
- mid align:67
- VL-MoT:88
这说明“深层 shared-attention 融合”比简单拼接或中间表征对齐更有效。
- 视觉特征层选择
- DINOv3 前 16 层:61.5
- 全局均匀采样 16 层:85
- 后 16 层:88
说明 DINOv3 后层更适合操作任务。
- 剪枝引导方式
- CLS token:65.5
- Task instruction:84
- Action token:88
说明对机器人操作来说,“当前动作相关性”比单纯语言语义更重要。

真实机器人实验
真实实验中,作者使用单臂 Franka 机器人,在四类任务上测试:
- stack coke cans
- write letter “S”
- pick fruit to the plate
- pour coke to bottle
平均成功率方面:
- DeepVision-VLA:91.7%
- π0.5:84.2%
- QwenVLA-OFT:74.2%
- OpenVLA-OFT:71.7%
其中最亮眼的是:
- 写字任务:95%
- pick fruit 两阶段:95% / 95%
- pour coke 两阶段:100% / 100%
我觉得这很能说明问题。因为这几类任务都要求模型一直盯住关键边界、接触区域和相对位置,而不是“一次识别完就可以靠惯性做完”。
泛化与鲁棒性
作者还测试了两种 zero-shot 扰动:
- 新背景
- 新光照
在 Pick fruit 任务中,baseline 在新背景和新光照下都有比较明显的下降,而 DeepVision-VLA 的下降幅度更小,说明它的视觉增强机制确实提高了对环境变化的鲁棒性。
这部分让我更相信一个判断:它学到的并不只是“这个训练场景长什么样”,而是更稳定的任务相关空间表征。
这篇文章最值得借鉴的地方
1. 先做机制诊断,再做结构设计
它不是拍脑袋加模块,而是先通过 attention map、Grad-CAM、ROI masking 证明问题真实存在,再对症下药。
这比很多“加一点监督、试一试有没有提升”的工作更扎实。
2. 视觉增强不该只做在输入端
很多时候我们会本能地觉得:“视觉不够强,那就换更强 encoder / 更高分辨率输入。”但这篇文章提醒我们:真正的问题,可能不是看不见,而是看见的信息没能活到动作生成后期。
3. 动作条件本身就是最强的视觉筛选信号
AGVP 的成功说明:在操作任务里,判断“该看哪里”的最好信号,往往不是图像本身、也不是语言本身,而是当前动作意图。
小结与心得体会
总结来说,DeepVision-VLA 的核心贡献并不是简单地“引入了更强的视觉 backbone”,而是指出并修复了一个非常关键的内部机制问题:VLA 在深层动作生成阶段,对任务相关视觉区域的敏感性会明显衰减。
作者通过 VL-MoT 把 DINOv3 的多层视觉特征重新注入深层,又通过 AGVP 只保留和动作真正相关的视觉区域,从而让模型在复杂操作中保持更稳定、更精细的视觉 grounding。
这篇文章对我最大的启发是:
想提升 VLA 的视觉能力,不能只盯着“输入看到了什么”,还要盯着“深层到底还在不在看”。
另外,这篇文章也让我更明确了一点:
对于具身智能中的视觉增强问题,很多真正有价值的改进,可能并不是增加一个“大而全”的辅助模块,而是找到视觉信息在策略网络里衰减的具体位置,然后做有针对性的补强。
附:这篇文章与 π0 思路的关系
比较维度 | π0 的特点 | DeepVision-VLA 的思想 | 我对两者关系的理解 |
1. 核心问题意识 | 更强调连续动作生成与 open-world generalization | 更强调 VLA 深层动作生成阶段的视觉衰减问题 | DeepVision-VLA 更像是在问“动作生成后期还看不看得准” |
2. 动作建模范式 | 基于 flow matching 的连续动作建模 | 基于 QwenVLA-OFT 的并行动作预测基线展开 | 两者动作头机制不同,所以方法不能直接 1:1 照搬 |
3. 视觉增强位置 | 通常仍依赖 VLM trunk 的整体表征 | 明确把视觉增强放在深层,重新给动作链路补视觉 | 这一点对 π0 很有启发,因为论文分析表明 π0 也存在深层视觉敏感性下降 |
4. 视觉选择机制 | 没有本文这种显式 action-guided pruning | 利用浅层 action-to-vision attention 选 ROI,再剪枝高分辨率视觉 token | 这一部分我觉得是最容易迁移到 π0 的思想 |
5. 研究价值 | 强在动作生成范式与泛化 | 强在视觉表征如何持续服务动作控制 | 两者并不是互斥关系,反而可以互补 |
一句话总结,如果说很多 VLA 工作是在想“怎么让模型看见更多”,那么 DeepVision-VLA 真正解决的是:怎么让模型在最需要做精细动作的时候,依然看着对的地方。
- 作者:CreamGreen.
- 链接:www.creamgreen.com/article/342555f7-8779-80ad-bc36-de2f6e22e59c
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章


.png?table=block&id=28e555f7-8779-80ec-b81a-d42f2e03ca40&t=28e555f7-8779-80ec-b81a-d42f2e03ca40)
.png?table=block&id=297555f7-8779-80ee-912a-f9920dd2cd23&t=297555f7-8779-80ee-912a-f9920dd2cd23)




