type
status
date
slug
summary
tags
category
icon
password
Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey是一篇发表于2025年10月底的综述。这篇文章系统性回顾了提高VLA效率的方法,其重点在于降低延迟、内存占用以及训练和推理成本。将现有解决方案分为四个维度:模型架构、感知特征、动作生成和训练/推理策略,并总结了每个类别中的代表性技术。
VLA效率的核心矛盾四大影响因素
现代VLA所面临的最大问题,即是理论研究与仿真过程中的参数数量多、内存消耗大、推理速度慢的问题。这些问题使得VLM难以被边缘设备(如机械臂)负载,而不科学、不严谨的压缩容量或推理剪枝,则会导致VLM性能的大幅削减。

图中所示即为综述的概览图(btw,感觉图片为了美观性牺牲了可读性…除了这张图,文章中的其他图真的都很好)关于VLM效率的讨论分为四个核心维度:高效模型架构、高效感知特征、高效行动生成和高效训练-推理策略。
综述中对于文章结构的说明如下:
为了实现这些贡献,本综述遵循 VLA 系统的处理流程,涵盖架构、感知特征、动作生成以及训练/推理,并提供针对提高效率的技术的重点回顾,最后对开放挑战和有前景的方向进行前瞻性讨论。本文的其余部分组织如下:
- 第 2 节:VLA 模型的演进。我们回顾 VLA 模型的发展轨迹,追溯其演进过程,并总结塑造其当前格局的代表性里程碑和技术改进。
- 第 3 节:高效模型架构。我们从静态骨干选择和动态计算路径规划两个角度考察如何构建计算高效的 VLA 架构。它还讨论了双系统设计的潜在效率提升。
- 第 4 节:高效感知特征。我们调查了降低前端成本的方法,包括去除单帧内的空间冗余以及跨时间步长重用感知特征。
- 第 5 节:高效动作生成。我们分析和比较了两种主流动作表示——原始动作和推理动作——并回顾了加速其生成的方法。
- 第 6 节:高效训练和推理。我们回顾了模型全生命周期的优化技术,涵盖了经济高效的训练范式和部署推理优化。
- 第 7 节:未来展望。我们探讨了 VLA 模型未来的发展,并概述了为提高 VLA 效率以适应这些新兴趋势所需的必要研究重点。

在VLM架构演进方面,基本与我读的上一篇综述相似,此处不再赘述。后续我们将依照综述作者的论述顺序对如何提高VLM效率进行逐点分析:
高效模型架构
模型架构是系统效率的主要决定因素:它直接影响训练成本、推理延迟和存储需求。因此,设计高效的基础架构仍然是研究的核心焦点。
1.静态Backbone选择
当代的 VLA 模型通常依赖于大规模预训练的 VLM 骨干网络,利用在预训练过程中获取的广泛世界知识。实证研究表明,大部分延迟都来自语言模型组件,这促使人们采用更轻量级语言模型或以效率为导向的语言模型设计作为常见策略。RoboMamba、TinyVLA、NORA都尝试用轻量级替代方案替换大规模骨干网络。这种紧凑Backbone架构的趋势日益突出。
2.动态计算路径
另一条研究路线则是在训练过程中保留大规模骨干网络,但在推理时引入动态路径选择。通过这种方式,模型既保留了大型架构的表达能力,又能在特定任务上下文中丢弃冗余计算,实现科学的运算剪枝。具体的剪枝策略包括静态层剪枝、门控剪枝、相似度剪枝等。
3.双系统设计
受认知科学中双系统理论的启发,这种方法将模型分为一个用于复杂推理和长期规划的慢系统,以及一个用于快速、直觉性响应的快系统。这两个子系统协同工作,使 VLA 模型能够管理复杂的高层任务,同时在简单场景中同时确保低延迟推理。这种策略通常采用异构模型架构:慢系统依赖于大规模多模态语言模型(MMLM)以满足语义理解和推理的需求,而快系统采用轻量级模型以快速响应感知输入。这两个系统通过潜在标记或嵌入交换信息,以协作完成任务。

未来研究必须在几个方向上取得进展以克服每种处理策略中存在的问题:首先,应通过跨不同任务和实验条件进行评估,探索针对 VLA 模型的扩展规律,以阐明模型规模、泛化能力和效率之间的权衡,并确定最适合当前数据可用性的骨干规模。其次,动态计算路径可以从自适应和自动化机制中受益,例如用于层跳过的强化学习,以便执行层数由在线确定而非由手动设计的启发式方法固定。最后,由于许多 VLA 应用场景需要边缘部署,架构设计应明确考虑云边划分:轻量级的快速子系统可以本地部署以确保低延迟控制,而较重的推理模块则在云端运行。此类框架必须考虑通信延迟、带宽限制和隐私要求,以确保稳健运行。
高效感知特征
视觉输入对模型的总 token 序列长度贡献最大,常常主导模型的内存和计算开销。然而,并非所有视觉信息对决策过程都同等重要。在许多任务中,输入图像的很大一部分,如背景区域、与任务无关的物体或时间上不变的内容,并不会显著影响动作选择。由此出现了互补的两种提高感知特征的技术方案:
选择性token处理
并非图像中的所有像素都重要(比如背景)。通过注意力机制筛选出关键Token,丢弃无关信息。可以在信息进入下游网络之前,对其进行剪枝、压缩或变换,进而提高效率。

时序复用
机器人在连续几帧看到的画面可能变化不大。机器人任务中,相邻时刻的状态相关性很强 。利用帧间相似性来避免重复计算。

目前的研究存在以下挑战:剪枝方法通常依赖于手动预定义的阈值或固定的剪枝比例,缺乏适应动态变化任务或环境的能力。因此,在一种环境下表现最优的剪枝策略,在另一种环境下可能会降低性能甚至导致任务失败。此外,大多数感知表示仍然局限于 2D RGB 输入。最近的努力将 3D 表示纳入其中以提升空间感知能力。然而,3D 处理往往带来巨大的计算开销,损害实时性能,从而限制了实际应用。
未来研究预计将沿着两个方向推进。首先,开发用于动态调整剪枝比例和策略的自适应机制将至关重要,使模型能够根据任务复杂性和环境变化优化特征选择,从而在效率和性能之间实现更稳健的平衡。其次,对于 3D 视觉表示,进展将取决于更高效的建模和压缩策略。有前景的方向包括基于单目线索的轻量级深度估计、体素或点云压缩以降低数据密度,以及利用基于图像特征的效率同时保留重要空间结构的混合 2D-3D 融合方法。这些方法旨在在不产生过重成本的情况下保留 3D 感知的好处,如深度推理和空间一致性。
高效动作生成
动作分块
一次推理不是只输出这一刻的动作,而是预测未来一连串的动作(即Action Chunk),通过时域集成(Temporal Ensemble)来平滑动作并减少推理次数。
推理增强
使用生成“思维链”(Chain-of-Thought,CoT)、将大任务拆解为子任务、提取视觉与语义关键点等形式提高模型的泛化能力,释放推理模型潜能,虽然这增加了计算量,但对于长序列任务能提高成功率。
基于推理的视觉-语言-行动模型很可能成为主流范式——无论是显式还是隐式——因为推理极大地增强了跨不同场景的泛化能力,并提供了对现实世界决策至关重要的可解释性。展望未来,未来的研究应专注于开发实用的加速机制,以实现高效推理而不牺牲这些优势。一个核心挑战是协调推理的深度和灵活性与计算效率的限制。有前景的方向包括选择性推理、分层规划以及平衡可解释性、泛化和速度的混合架构,为可扩展和可部署的推理驱动视觉-语言-行动智能体铺平道路。
高效训练/推理
训练效率技术
近期研究开发了互补策略,包括参数高效微调、知识蒸馏、参数剪枝和量化,这些策略共同减少了资源消耗,同时保持了具有竞争力的任务性能。
并行解码
传统视觉-语言-行动(VLA)模型通常采用自回归(AR)解码范式,按顺序生成输出标记。这种方法易于实现且训练高效,但固有的顺序依赖性引入了主要的计算瓶颈。在需要低延迟的应用场景中,如高频人机交互或实时机器人控制,缺乏并行性会严重限制响应速度。除自回归解码外,另一种新兴范式是基于扩散的解码,它通过多步去噪过程生成输出。然而,扩散方法由于需要大量迭代去噪步骤,导致推理速度缓慢,因此不适合实时应用。为解决这一局限性,近期研究探索了非自回归(NAR)或并行解码范式,如图所示。这些方法旨在通过并行计算减少推理延迟,同时采用特定的训练策略来保持性能。

- 作者:CreamGreen.
- 链接:www.creamgreen.com/article/2ad555f7-8779-8034-b9d7-ebcc94d6da88
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章

