从零构建 VLA 模型时，视觉、语言和动作模块应如何设计？｜小米算法面经解析

60 秒回答模板

从零构建 VLA 模型时，我会先定义任务和动作接口：模型输入是视觉观测、语言指令和必要的状态，输出是机器人或智能体可以执行的动作。结构上可以分成六层。第一层是感知编码，把 RGB、深度、点云、 proprioception 或历史帧编码成视觉和状态 token。第二层是语言理解，把自然语言目标、约束和上下文转成可 grounding 的语义表示。第三层是跨模态对齐，让语言里的物体、位置、动作词和视觉场景中的实体对应起来。第四层是策略或动作头，把融合表示转成离散动作、连续控制量、轨迹 waypoint 或低层控制器参数。第五层是训练数据和学习范式，包括人类演示、机器人轨迹、仿真数据、视频数据、行为克隆和必要的强化学习微调。第六层是评估和安全，按任务成功率、动作稳定性、碰撞率、泛化场景、长程任务完成和 sim-to-real gap 评估。回答时要强调 VLA 不是只把图像和文本送进 LLM，而是必须有可执行动作空间、时序状态和闭环控制。

考点 输入输出契约

难度 真实面经题

回答目标 设计 VLA 模块架构

深入解析

先定义任务和动作空间

VLA 的核心是把视觉、语言和动作连成闭环。面试回答第一步要问清楚场景：是机械臂操作、移动导航、桌面交互还是通用工具使用。不同场景决定动作空间是离散命令、连续控制、轨迹点、末端执行器姿态还是调用低层技能。

感知模块负责状态表达

视觉模块可以处理 RGB 图像、深度、点云、多相机视角或历史帧；机器人还可能有关节角、速度、力反馈等本体状态。感知编码器要输出可被策略使用的 token 或状态向量，并尽量保留物体、空间关系、可达性和场景变化。

语言模块负责目标和约束

语言不是装饰输入，而是提供目标、对象、顺序、约束和人类偏好。例如把杯子放到左边、避开障碍、先打开抽屉再取物。语言表示要和视觉中的实体、位置和动作建立 grounding，否则模型可能理解指令但无法落到可执行动作。

融合层连接感知和语言

融合层可以用 cross-attention、统一 token 序列、共享 Transformer 或轻量 adapter，把视觉状态、语言指令和历史动作放在同一个决策上下文里。关键不是形式多复杂，而是能否让模型回答三个问题：目标是什么，当前状态在哪里，下一步动作应该是什么。

动作头决定可执行性

动作头可以输出离散技能、连续控制、轨迹 waypoint、末端位姿或调用低层控制器。高层 VLA 通常不直接替代所有控制环，而是把语义决策和运动控制分层。这样可以利用已有控制器保证稳定性，同时让大模型负责长程任务和语义规划。

数据、训练和评估闭环

训练可以从演示数据、机器人轨迹、仿真环境、视频数据和人工标注中学习，常见起点是行为克隆，再根据任务需要加入 RL、偏好优化或在线纠错。评估要看任务成功率、泛化到新物体和新场景、动作平滑性、碰撞和失败恢复，以及仿真到真实环境的差距。

易错点

把 VLA 答成普通视觉语言模型，只讲视觉问答，不讲动作输出。
没有先定义任务场景和动作空间，导致结构设计无法落地。
忽略语言 grounding，把自然语言目标和视觉实体割裂开。
让大模型直接承担全部低层控制，忽略控制器、安全和实时性。
只讲训练，不讲评估、失败恢复和仿真到真实迁移。

面试官追问

VLA 的动作表示怎么选？

取决于执行平台。机械臂可以输出末端位姿、关节控制或 waypoint；移动机器人可以输出导航动作；复杂任务可以输出高层技能，再交给低层控制器执行。

为什么不能只用 LLM 直接生成控制命令？

LLM 擅长语义推理，但低层控制需要实时状态、连续动力学和安全约束。更稳的是让 VLA 做语义决策或轨迹规划，再由控制器保证执行稳定。

VLA 训练数据不足时怎么办？

可以结合仿真数据、专家演示、远程操作轨迹、任务分解、数据增强和主动采样。关键是让数据覆盖视觉变化、语言表达变化和失败恢复。

如何评估 VLA 的泛化能力？

用未见过的物体、布局、光照、语言表达和任务组合测试，而不是只在训练场景上看平均成功率。还要统计失败类型和恢复能力。

sim-to-real gap 主要来自哪里？

主要来自视觉分布、物体物理属性、传感器噪声、控制延迟、摩擦和环境随机性。需要域随机化、真实数据微调和保守的安全控制来缓解。