Exploration Hacking: Can LLMs Learn to Resist RL Training?

探索劫持：大语言模型能否学会抵抗强化学习训练？

摘要： 强化学习（RL）已成为大语言模型（LLM）后训练中实现推理、智能体能力与对齐的关键技术。成功的RL依赖于模型在训练过程中对多样化动作的充分探索，这带来了一种潜在的失败模式：模型可能在训练期间策略性地改变其探索行为，从而影响后续训练结果。本文研究了这种被称为“探索劫持”的行为。首先，我们通过微调LLM使其遵循特定的低表现策略，创建了选择性RL抵抗的模型有机体；这些模型在智能体生物安全与AI研发环境中成功抵抗了我们基于RL的能力激发，同时在与任务相关的领域保持性能。随后，我们利用模型有机体评估了检测与缓解策略，包括监控、权重噪声注入以及基于SFT的能力激发。最后，我们证明当前前沿模型在获得足够训练上下文信息时，会显式推理关于抑制自身探索的行为，且当信息通过环境间接获取时，该行为的发生率更高。综合来看，我们的结果表明，对于能力足够强的LLM，探索劫持是RL训练中一种可能的失败模式。