Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents

三思而后行：面向具身智能体的验证器引导动作选择

摘要：构建能够解决复杂现实任务的通用型具身智能体，仍是人工智能领域的一项根本性挑战。多模态大语言模型（MLLMs）通过强大的视觉-语言知识与思维链（CoT）推理，显著提升了此类智能体的推理能力，但在面对具有挑战性的分布外场景时仍显脆弱。为解决这一问题，我们提出验证器引导动作选择（VeGAS），这是一种测试时框架，旨在通过显式的验证步骤提升基于MLLM的具身智能体的鲁棒性。在推理阶段，VeGAS不直接执行单一解码动作，而是采样一组候选动作，并使用生成式验证器识别最可靠的选择，同时不修改底层策略。关键在于，我们发现直接使用现成的MLLM作为验证器并无改进效果，这促使我们提出基于LLM的数据合成策略——该策略自动构建包含多样化失败案例的课程，使验证器在训练阶段暴露于丰富的潜在错误分布中。在涵盖Habitat和ALFRED环境的具身推理基准测试中，VeGAS持续提升泛化能力，在最具挑战性的多目标、长周期任务上，相较于强CoT基线实现了高达36%的相对性能提升。