type
Post
status
Published
date
Mar 10, 2026 16:18
slug
summary
tags
具身智能
category
学习路径
icon
password
制定高效的VLA策略对于实际机器人部署至关重要,但当前方法面临着高昂的计算成本和资源需求。现有基于扩散的 VLA 策略需要数十亿参数模型和庞大的数据集才能实现强劲性能。为了解决这个问题,FLOWER VLA提出了两个策略:创新的中间模态融合和动作空间特定的全局 AdaLN。
创新的中间模态融合 (Intermediate-Modality Fusion)
现有的 VLA 模型面临一个矛盾:保留完整的 VLM(视觉语言模型)会占用大量计算资源,而缩小 VLM 又会丢失执行指令所需的关键语义特征,FLOWER 创造性地剪枝了预训练 VLM(如 Florence-2)30% 到 50% 的层。

FLOWER提取 VLM 中间层的隐藏状态注入到 Flow Transformer 中,因为中间层保留了丰富的语义基础,而舍弃的后半部分仅仅是为“预测下一个 Token”而过度专业化的层。这种做法既保留了强大的语义理解能力,又成倍提高了训练和推理的效率。
在联合编码视觉 ( ViT ) 和文本词元后,从 VLM 主干的中间层提取隐藏状态。这些中间特征既保留了丰富的上下文信息,又避免了过度专注于下一个词元的预测,同时降低了计算成本,从而能够实现更高效的 VLA 设计。

FLOWER根据 VLM 的架构对其进行剪枝:对于Encoder–Decoder VLM(例如 Florence-2),它移除完整的decoder解码器,仅保留编码器 LLM 层。这减少了约50%的层数,同时提高了其性能和效率。对于Decoder-Only VLM(例如 SmolFlow2-Video),它删除 Transformer 层的最后30%层。这种针对性的剪枝方法可以减少 20% 到 35% 的参数,并降低每步延迟。
动作空间特定的全局 AdaLN (Global-AdaLN Conditioning)

不同的机器人有着不同的动作空间(比如机械臂末端位姿控制 vs. 关节角度控制),处理这些差异通常需要给网络增加大量参数。作者在 Flow Transformer 中设计了 Action-Space Global-AdaLN-Zero 机制,所有 Transformer 层共享统一的调制权重,只需为不同的动作类别生成独特的调制信号。搭配每一层轻量级的 LoRA 适配器,这种设计在完全不损失模型表达能力的前提下,将生成头的参数量砍掉了 20%。
高效的 Rectified Flow 动作生成
与pi0相似,FLOWER 采用流匹配来生成连续的动作序列,它能在高斯噪声和数据分布之间建立直线速度场。这种机制大大降低了推理时的计算量,单臂任务仅需 4 步去噪,双臂高频任务仅需 8 步。这使得 FLOWER 的推理吞吐量高达 311Hz,比 OpenVLA 快了 5000% 以上,极大地满足了现实机器人部署对低延迟的要求。
极致的“性价比”与泛化能力
体积小、显存占用低:总参数量仅为 950M(不到 10 亿),推理仅需 1.85GB VRAM,远低于 OpenVLA 的 14.57GB。
训练成本极低:仅仅使用了约 25 万条混合机器人轨迹数据,在 4 张 H100 显卡上训练了 48 小时(约 200 GPU 小时)就完成了预训练,计算成本不到现行大模型的 1%。
多榜单霸榜:尽管只有不到 10 亿参数,FLOWER 在 CALVIN、LIBERO 等 10 个仿真和现实基准测试的 190 个任务中,全面超越了 77 亿参数的 OpenVLA 和 33 亿参数的 。它不仅在 CALVIN ABC 基准上以 4.53 的得分创下新的 SoTA,在真实厨房环境应对新物体、背景干扰和光照变化时,也展现出了极强的鲁棒性。
小结与心得体会
总结来说,FLOWER 并不是靠堆砌算力和数据拿到的 SoTA,而是通过极具巧思的网络剪枝融合和高效的流架构设计,证明了参数量不到 10 亿的模型也能在复杂的机器人控制任务上战胜百亿级大模型。
这篇文章表明中间层的信息对视觉能力的体现是最有用的,这或许对我正在做的其他项目有所启发……
另外,我个人对native AdaLN的理解还不够深入,导致我暂时还没看懂这里改为全局共享统一的调制权重为何高明,还需要多加努力才能学懂……
附:与FLOWER核心思想对比
比较维度 | π0 的做法 | FLOWER 的思想 | 核心原理解析 |
1. 骨干网络与融合策略 | 全量 VLM + 晚期融合 (Late Fusion)。使用大规模预训练 VLM(如 PaliGemma),在模型末端接入动作头。 | 中间融合 (Intermediate Fusion)。剪掉 VLM 30%-50% 的冗余层,通过 Cross-Attention 提取中间层语义特征。 | 去伪存真:舍弃了 VLM 后半部分用于“文本预测”的层,只保留对机器人控制最有用的语义信息。 |
2. 参数分配博弈 | 偏向编码器。总参数约 3.3B,绝大部分消耗在庞大的视觉/语言编码器上,导致推理缓慢。 | 资源再分配。总参数仅 0.95B。通过剪枝 VLM 节省空间,用来增强 Flow Transformer(动作头) 的深度和容量。 | 头重脚轻 vs. 强力执行:FLOWER 认为一个更强大的“动作头”比过度臃肿的“视觉编码器”对动作预测更有利。 |
3. 条件调制机制 | 标准 AdaLN (逐层独立)。每一层 Transformer 都有独立的缩放和平移参数,参数量随深度激增。 | 全局 AdaLN (Global-AdaLN)。设计全局共享调制层,根据机器人类型和动作空间生成统一信号。 | 参数平权:减少了动作头 20% 的参数量,且能快速适配不同机器人(如从 Franka 切换到 Aloha)。 |
4. 训练与推理效率 | 高投入、重资源。依赖大量闭源数据和数千 GPU 小时的训练,推理延迟相对较高。 | 极简主义。基于 Rectified Flow 的直线路径,推理频率达 311Hz;训练仅需 200 GPU 小时。 | 以小博大:证明了“高质量精选数据 (OXE-soup) + 巧妙架构”可以实现甚至超越巨型模型的泛化性能。 |
- 作者:CreamGreen.
- 链接:www.creamgreen.com/article/31f555f7-8779-80bb-aee1-d72d70d7e5d3
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章

.png?table=block&id=31f555f7-8779-80bb-aee1-d72d70d7e5d3&t=31f555f7-8779-80bb-aee1-d72d70d7e5d3)
.png?table=block&id=28e555f7-8779-80ec-b81a-d42f2e03ca40&t=28e555f7-8779-80ec-b81a-d42f2e03ca40)
.png?table=block&id=297555f7-8779-80ee-912a-f9920dd2cd23&t=297555f7-8779-80ee-912a-f9920dd2cd23)

.png?table=block&id=31f555f7-8779-8001-b661-eaf1de6b2a02&t=31f555f7-8779-8001-b661-eaf1de6b2a02)
.png?table=block&id=31e555f7-8779-8075-acc1-c1e50ca5a6e0&t=31e555f7-8779-8075-acc1-c1e50ca5a6e0)