大模型Agent部署后不会停止学习?OLIVIA让推理时动作适应成现实
当前LLM Agent在部署后往往陷入“推理-行动-观察”的死循环,无法根据实际环境反馈动态调整策略。OLIVIA框架首次实现了推理时的在线学习机制:Agent在执行任务过程中,不仅做单步决策,还会基于历史轨迹和实时反馈进行动作级适应。这意味着即使面对未见过的新场景,Agent也能像人类一样边做边学,而非依赖预训练知识的静态映射。这项技术对机器人控制、自动化运维等实时决策场景意义重大,它打破了“部署即冻结”的传统AI应用边界。
OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents
Large language model agents interleave reasoning, action selection, and observation to solve sequential decision-making tasks. In deployed settings wh