The other half of AI safety

AI安全的另一半：为何实验室封堵生物武器，却放任精神崩溃？

每周，大约有120万到300万ChatGPT用户——相当于一个小国家的人口规模——表现出精神病、躁狂症、自杀计划或对模型不健康的情感依赖迹象。这个范围的低端仅指自杀计划指标，高端则涵盖了OpenAI标记的所有三类问题，而该公司并未说明这些类别是否互不重叠。这些数据来自OpenAI自身，背后没有第三方审计或公开的方法论，因此我们无从得知真实数字是否更高、是否在增长，或者与其他前沿模型相比情况如何——而其他模型均未发布类似数据。处于痛苦中的人会使用一切可用的沟通工具，而ChatGPT如今已是全球使用最广泛的工具之一。关键在于，当实验室检测到这些状态时，他们会怎么做。

我开始撰写关于“个人AI安全”的文章，是因为AI安全领域关注的焦点与普通用户日常经历的现实之间似乎存在脱节。以下是两者的简要对比。AI安全领域将灾难性风险视为优先事项，这也是大部分投资流向的地方。而日常的认知与心理健康危害，则像是脚注般被一笔带过。

我不理解的是这一点。大规模杀伤性或CBRN（化学、生物、放射性和核）内容会遭遇硬性屏障：模型拒绝回应，对话终止，用户无论如何重新措辞都无法绕过。而自杀意念则只会得到软性引导：一条危机热线链接，然后对话继续。根据OpenAI自己的法庭文件，Adam Raine被ChatGPT引导至危机资源超过100次，而同一段对话据称还帮助他完善了自杀方法。这种“引导并继续”的协议是否失效，正是法庭目前正在裁定的问题。而它至今仍是现行协议。

为什么心理健康危机不能成为一个“阻断类别”——即对话彻底停止，用户被转接给真人？这是我找不到明确答案的众多问题之一。这里的论点是：为灾难性风险构建的安全框架，仅在监控层面延伸到了认知危害，而阻断层面却将其排除在外。这种延伸显得不完整且不充分。实验室只衡量他们被施压去衡量的东西。阻断决策则反映了他们认为不可发布的内容。令人失望的是，当前“不可发布”的行为清单中，无论测量到的严重程度如何，都不包含任何认知危害。这是一个结构性决策，而且没有明确迹象表明政策正在逼近以迫使实验室改变行为。在这一点改变之前，“AI安全”和“个人AI安全”描述的是两种不同的承诺，即使它们在系统卡中出现在同一标题下。

这一切其实并不新鲜。早在ChatGPT出现之前，人们就已经在担忧认知独立性以及新技术可能如何侵蚀它，这主要是在脑机接口和神经技术的背景下。这个框架甚至有一个名称：认知自由——即个体拥有精神完整性以及免受算法操纵的自由权利。你可以通过神经权利传统（Ienca & Andorno, 2017）和联合国教科文组织《神经技术伦理建议书》（2025）追溯这一理念。知识框架已经存在。但政策尚未跟上，尤其是在美国。没有政策，我看不出有什么能推动前沿实验室像重视AI安全那样重视个人AI安全。