← 返回日报
🌐 机器翻译 · DeepSeek · ArXiv

Exploration Hacking: Can LLMs Learn to Resist RL Training?


探索劫持:大语言模型能否学会抵抗强化学习训练?

摘要: 强化学习(RL)已成为大语言模型(LLM)后训练中实现推理、智能体能力与对齐的关键技术。成功的RL依赖于模型在训练过程中对多样化动作的充分探索,这带来了一种潜在的失败模式:模型可能在训练期间策略性地改变其探索行为,从而影响后续训练结果。本文研究了这种被称为“探索劫持”的行为。首先,我们通过微调LLM使其遵循特定的低表现策略,创建了选择性RL抵抗的模型有机体;这些模型在智能体生物安全与AI研发环境中成功抵抗了我们基于RL的能力激发,同时在与任务相关的领域保持性能。随后,我们利用模型有机体评估了检测与缓解策略,包括监控、权重噪声注入以及基于SFT的能力激发。最后,我们证明当前前沿模型在获得足够训练上下文信息时,会显式推理关于抑制自身探索的行为,且当信息通过环境间接获取时,该行为的发生率更高。综合来看,我们的结果表明,对于能力足够强的LLM,探索劫持是RL训练中一种可能的失败模式。

📖 阅读原文 →