三思而后行:面向具身智能体的验证器引导动作选择
摘要:构建能够解决复杂现实任务的通用型具身智能体,仍是人工智能领域的一项根本性挑战。多模态大语言模型(MLLMs)通过强大的视觉-语言知识与思维链(CoT)推理,显著提升了此类智能体的推理能力,但在面对具有挑战性的分布外场景时仍显脆弱。为解决这一问题,我们提出验证器引导动作选择(VeGAS),这是一种测试时框架,旨在通过显式的验证步骤提升基于MLLM的具身智能体的鲁棒性。在推理阶段,VeGAS不直接执行单一解码动作,而是采样一组候选动作,并使用生成式验证器识别最可靠的选择,同时不修改底层策略。关键在于,我们发现直接使用现成的MLLM作为验证器并无改进效果,这促使我们提出基于LLM的数据合成策略——该策略自动构建包含多样化失败案例的课程,使验证器在训练阶段暴露于丰富的潜在错误分布中。在涵盖Habitat和ALFRED环境的具身推理基准测试中,VeGAS持续提升泛化能力,在最具挑战性的多目标、长周期任务上,相较于强CoT基线实现了高达36%的相对性能提升。