【VLA】长程多目标类任务benchmark调研

type

Post

status

Published

date

Mar 10, 2026 09:26

slug

summary

1. CALVIN

CALVIN 是目前评估长程和语言条件操作最火热的桌面级基准之一。

项目主页: calvin.cs.uni-freiburg.de (包含各类 SOTA 模型的 Leaderboard 和任务视频展示)

GitHub 代码库: mees/calvin (包含数据集下载、环境配置和评测脚本)

论文: CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks (IEEE RA-L 2022 Best Paper)

2. LIBERO (包含 LIBERO-Long)

专注于终身学习（Lifelong Learning）和知识迁移的基准，其 LIBERO-Long 任务分片专门用于评估 10 步以上的复杂长程空间记忆与多物品操作。

项目主页: libero-project.github.io

GitHub 代码库: Lifelong-Robot-Learning/LIBERO (包含 130 个任务的程序化生成管道和高质量人类演示数据集)

相关延伸库: LIBERO-PRO (针对原版 LIBERO 增加了空间位置、视觉、语义等更多维度泛化测试的进阶版)

论文: LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning (arXiv:2306.03310)

3. VIMA & VIMA-Bench

核心亮点在于多模态提示（Multimodal Prompts），任务链条高度依赖于视觉堆叠（Visual Manipulation/Stacking）和图像指令跟踪。

项目主页: vimalabs.github.io

GitHub 代码库 (仿真环境): vimalabs/VimaBench (包含 17 种图文交互桌面任务的 Gym 接口环境)

GitHub 代码库 (算法模型): vimalabs/VIMA (官方 Transformer 模型实现及预训练权重)

论文: VIMA: General Robot Manipulation with Multimodal Prompts (ICML 2023, arXiv链接)

4. BEHAVIOR-1K

由斯坦福大学 (StanfordVL) 主导，基于 OmniGibson 高保真物理仿真器，面向极长程（100+步）、高物理约束的日常家务。这是目前最难的具身基准之一。

项目主页: behavior.stanford.edu

GitHub 代码库: StanfordVL/BEHAVIOR-1K (包含 1000 种日常活动和 5000+ 物理属性标注的物品)

论文: BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation (CoRL 2022 / arXiv:2403.09227)

5.VLABench

划分了 6 个核心评估维度：网格与纹理理解、空间理解、常识与世界知识应用、语义指令理解、物理定律理解以及长程推理。复合任务（Composite Tasks）的平均时间步长超过 500 步。任务不仅要求代理规划多步操作，还要求结合视觉和常识进行逻辑推演甚至数学计算（例如通过堆叠数字方块来回答数学题）

项目主页: vlabench.github.io

GitHub 代码库: OpenMOSS/VLABench (专注于大规模语言条件控制与长程推理任务的机器人操作基准，提供包含跨类别泛化、常识应用、跨任务等 6 个维度的评估 Tracks，以及标准化的微调与评估数据集)

论文: VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks (ICCV 2025 / arXiv:2412.18194)

6.VLA-Arena

每个任务都包含三个难度级别（L0 到 L2），用于精确测量模型从分布内记忆到分布外泛化的能力边界。包含场景构建、数据收集、数据格式转换（如转为 RLDS 或 LeRobot 格式）、模型微调（原生支持 OpenVLA, Pi0, UniVLA 等）和标准化评估的完整框架。

项目主页: PKU-Alignment/VLA-Arena

GitHub 代码库:PKU-Alignment/VLA-Arena (包含 170 个不同种类和难度的基于 CBDDL 定义的任务，覆盖安全、干扰、泛化和长程 4 大领域，并附带完整的端到端工具链)

论文: VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models (arXiv:2512.22539)

Benchmark 名称	发布时间	底层物理引擎 / 框架	GPU 显存 (VRAM) 需求参考	核心任务特征 (长程/堆叠)
CALVIN	2022	PyBullet (轻量级桌面级仿真)	≥ 12GB	连续执行 5 个以上无重置语言指令；包含基础积木堆叠与滑动交互。
LIBERO (特指 LIBERO-Long)	2023	MuJoCo (基于 robosuite 框架)	≥ 16GB	长达 10 步以上的序列空间记忆与多物品操作；侧重跨环境与跨物体的知识迁移。
VIMA-Bench	2023	PyBullet (基于 Ravens 深度定制)	≥ 8GB	基于多模态提示（图文交错）；强调目标导向的复杂视觉堆叠与仿射变换。
BEHAVIOR-1K	2022	OmniGibson (基于 NVIDIA Omniverse / PhysX 5)	≥ 16GB	超长程 (100+ 步) 宏观家务；包含高物理保真度的软体、流体、热力学状态以及不规则物品堆叠。
VLABench	2024	MuJoCo & dm_control (基于 OpenMOSS 框架构建。原生提供脚本，可一键将数据转换为适配 OpenVLA/Octo or LeRobot格式。)	≥ 24GB	极度强调常识应用与多步逻辑推理。其长程任务不仅要求模型完成多物品的精准抓取与堆叠，还要求模型能理解富含上下文的复杂语义指令（隐式意图）
VLA-Arena	2025	MuJoCo(基于 RoboSuite 仿真平台构建)	未给出具体最低显存要求	共包含 170 个L0-L2不同难度分级和种类的任务。其长程任务要求模型组合多个已学的原子技能来完成多步规划。此外，该基准极度强调在长程操作中的安全性（如避开动态障碍、维持容器水平状态）以及抵抗多模态扰动的鲁棒性。