← 返回日报
🌐 机器翻译 · DeepSeek · HN

The other half of AI safety


AI安全的另一半:为何实验室封堵生物武器,却放任精神崩溃?

每周,大约有120万到300万ChatGPT用户——相当于一个小国家的人口规模——表现出精神病、躁狂症、自杀计划或对模型不健康的情感依赖迹象。这个范围的低端仅指自杀计划指标,高端则涵盖了OpenAI标记的所有三类问题,而该公司并未说明这些类别是否互不重叠。这些数据来自OpenAI自身,背后没有第三方审计或公开的方法论,因此我们无从得知真实数字是否更高、是否在增长,或者与其他前沿模型相比情况如何——而其他模型均未发布类似数据。处于痛苦中的人会使用一切可用的沟通工具,而ChatGPT如今已是全球使用最广泛的工具之一。关键在于,当实验室检测到这些状态时,他们会怎么做。

我开始撰写关于“个人AI安全”的文章,是因为AI安全领域关注的焦点与普通用户日常经历的现实之间似乎存在脱节。以下是两者的简要对比。AI安全领域将灾难性风险视为优先事项,这也是大部分投资流向的地方。而日常的认知与心理健康危害,则像是脚注般被一笔带过。

我不理解的是这一点。大规模杀伤性或CBRN(化学、生物、放射性和核)内容会遭遇硬性屏障:模型拒绝回应,对话终止,用户无论如何重新措辞都无法绕过。而自杀意念则只会得到软性引导:一条危机热线链接,然后对话继续。根据OpenAI自己的法庭文件,Adam Raine被ChatGPT引导至危机资源超过100次,而同一段对话据称还帮助他完善了自杀方法。这种“引导并继续”的协议是否失效,正是法庭目前正在裁定的问题。而它至今仍是现行协议。

为什么心理健康危机不能成为一个“阻断类别”——即对话彻底停止,用户被转接给真人?这是我找不到明确答案的众多问题之一。这里的论点是:为灾难性风险构建的安全框架,仅在监控层面延伸到了认知危害,而阻断层面却将其排除在外。这种延伸显得不完整且不充分。实验室只衡量他们被施压去衡量的东西。阻断决策则反映了他们认为不可发布的内容。令人失望的是,当前“不可发布”的行为清单中,无论测量到的严重程度如何,都不包含任何认知危害。这是一个结构性决策,而且没有明确迹象表明政策正在逼近以迫使实验室改变行为。在这一点改变之前,“AI安全”和“个人AI安全”描述的是两种不同的承诺,即使它们在系统卡中出现在同一标题下。

这一切其实并不新鲜。早在ChatGPT出现之前,人们就已经在担忧认知独立性以及新技术可能如何侵蚀它,这主要是在脑机接口和神经技术的背景下。这个框架甚至有一个名称:认知自由——即个体拥有精神完整性以及免受算法操纵的自由权利。你可以通过神经权利传统(Ienca & Andorno, 2017)和联合国教科文组织《神经技术伦理建议书》(2025)追溯这一理念。知识框架已经存在。但政策尚未跟上,尤其是在美国。没有政策,我看不出有什么能推动前沿实验室像重视AI安全那样重视个人AI安全。

📖 阅读原文 →