← 返回日报
🌐 机器翻译 · DeepSeek · HN

Ontario auditors find doctors' AI note takers routinely blow basic facts


安大略省审计人员发现医生使用的AI笔记工具频繁出现基本事实错误

AI + 机器学习 病态且错误:安大略省审计人员发现医生使用的AI笔记工具频繁出现基本事实错误 审计人员称,60% 的受评估AI笔记系统在患者病历中混淆了处方药物 Brandon Vigliarolo 发布于 2026年5月14日 星期四 21:50 UTC

根据对20家已获批供应商系统的省级审计,安大略省医疗机构批准的AI系统频繁遗漏关键细节、插入错误信息,并编造患者或临床医生从未提及的内容。这些发现来自加拿大安大略省审计长办公室,并包含在一份关于该省公共服务中AI使用状况的更广泛报告中。报告特别针对AI笔记系统(AI Scribe program),该项目由安大略省卫生部发起,面向医生、执业护士以及更广泛医疗领域的其他医疗专业人员。在采购过程中,官员们使用模拟的医患录音进行了评估。随后,医疗专业人员将原始录音与AI生成的笔记进行对比,以评估其准确性。

他们发现的情况,坦率地说,对于任何关心AI在关键场景中准确性的人来说,都令人震惊。据报道,20个AI系统中有9个“编造了信息,并对患者的治疗方案提出建议”,而这些内容在录音中从未讨论过。根据报告,评估人员在样本报告中发现了可能造成毁灭性后果的错误信息,例如“未发现肿块”或“患者焦虑”,尽管这些内容在录音中从未被提及。20个受评估系统中有12个将错误的药物信息插入患者笔记,而17个系统“遗漏了录音中讨论过的关于患者心理健康问题的关键细节”。报告称,其中6个系统“完全或部分遗漏了患者的心理健康问题,或缺少关键细节”。

OntarioMD(一个为医生采用新技术提供支持并参与AI笔记系统采购流程的组织)建议医生手动检查AI生成的笔记以确保准确性,但报告指出,所有获批的AI笔记系统中均没有强制性的认证功能。

糟糕的评估也无济于事

AI系统出错并不完全令人震惊。正如我们此前报道的,面向消费者的AI倾向于向用户提供不良的医疗信息,一些研究发现,大语言模型在约80%的测试案例中未能生成适当的鉴别诊断。但这里评估的工具是为医生设计的,而非消费者,如此糟糕的表现需要解释。

报告将很大一部分原因归咎于系统的评估方式。根据报告,AI笔记系统各项表现类别的权重分配存在问题。一个平台评估分数的30%仅取决于其是否在安大略省有本地业务,而医疗笔记的准确性仅占总分的4%。

更多背景信息

偏见控制仅占总评估分数的2%;威胁、风险和隐私评估占另外2%;SOC 2 Type 2合规性贡献了额外的4个百分点。换句话说,与准确性、偏见控制以及关键安全和隐私保障相关的标准,在AI笔记系统的总评估分数中只占很小一部分。

报告在评价该评分机制时指出:“不准确的权重可能导致选择那些AI工具可能产生不准确或有偏见的医疗记录,或缺乏充分保护措施来保障敏感个人健康信息的供应商。”

《The Register》联系了安大略省卫生部,希望了解其对这份报告的看法,以及是否会遵循报告中对AI笔记系统的建议,但尚未立即收到回复。卫生部一位发言人周三告诉CBC,安大略省有超过5000名医生正在参与AI笔记系统项目,目前尚无已知的与该技术相关的患者伤害报告。

ai and ml ai + ml ai software canada healthcare

📖 阅读原文 →