PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM：面向序列决策的感知与推理交错框架

摘要：将基于LLM的具身智能体从纯文本环境扩展到复杂的多模态场景仍是一项重大挑战。近期研究指出，独立的视觉-语言模型（VLM）存在感知-推理-决策的脱节问题，这类模型常常忽略任务关键信息。本文提出PRISM框架，通过动态问答（DQA）流水线将感知模块（VLM）与决策模块（LLM）紧密耦合。LLM不再被动接受VLM的描述，而是对其提出批判、以目标导向的问题对VLM进行探查，并综合生成简洁的图像描述。这种闭环交互机制能够形成对场景的精准且任务驱动的理解。我们在ALFWorld和Room-to-Room（R2R）基准上评估了PRISM。实验表明：（1）PRISM显著优于当前最先进的基于图像的模型；（2）我们提出的交互式目标导向感知流水线带来了系统且实质性的性能提升；（3）PRISM完全自动化，无需人工设计问题或答案。