安大略省审计人员发现医生使用的AI笔记工具频繁出现基本事实错误
AI + 机器学习 病态且错误:安大略省审计人员发现医生使用的AI笔记工具频繁出现基本事实错误 审计人员称,60% 的受评估AI笔记系统在患者病历中混淆了处方药物 Brandon Vigliarolo 发布于 2026年5月14日 星期四 21:50 UTC
根据对20家已获批供应商系统的省级审计,安大略省医疗机构批准的AI系统频繁遗漏关键细节、插入错误信息,并编造患者或临床医生从未提及的内容。这些发现来自加拿大安大略省审计长办公室,并包含在一份关于该省公共服务中AI使用状况的更广泛报告中。报告特别针对AI笔记系统(AI Scribe program),该项目由安大略省卫生部发起,面向医生、执业护士以及更广泛医疗领域的其他医疗专业人员。在采购过程中,官员们使用模拟的医患录音进行了评估。随后,医疗专业人员将原始录音与AI生成的笔记进行对比,以评估其准确性。
他们发现的情况,坦率地说,对于任何关心AI在关键场景中准确性的人来说,都令人震惊。据报道,20个AI系统中有9个“编造了信息,并对患者的治疗方案提出建议”,而这些内容在录音中从未讨论过。根据报告,评估人员在样本报告中发现了可能造成毁灭性后果的错误信息,例如“未发现肿块”或“患者焦虑”,尽管这些内容在录音中从未被提及。20个受评估系统中有12个将错误的药物信息插入患者笔记,而17个系统“遗漏了录音中讨论过的关于患者心理健康问题的关键细节”。报告称,其中6个系统“完全或部分遗漏了患者的心理健康问题,或缺少关键细节”。
OntarioMD(一个为医生采用新技术提供支持并参与AI笔记系统采购流程的组织)建议医生手动检查AI生成的笔记以确保准确性,但报告指出,所有获批的AI笔记系统中均没有强制性的认证功能。
糟糕的评估也无济于事
AI系统出错并不完全令人震惊。正如我们此前报道的,面向消费者的AI倾向于向用户提供不良的医疗信息,一些研究发现,大语言模型在约80%的测试案例中未能生成适当的鉴别诊断。但这里评估的工具是为医生设计的,而非消费者,如此糟糕的表现需要解释。
报告将很大一部分原因归咎于系统的评估方式。根据报告,AI笔记系统各项表现类别的权重分配存在问题。一个平台评估分数的30%仅取决于其是否在安大略省有本地业务,而医疗笔记的准确性仅占总分的4%。
更多背景信息
- AI聊天机器人在医疗建议方面并不比搜索引擎更好
- AI医生助手容易被左右,从而更改处方、提供不良医疗建议
- ChatGPT Health 希望获取你的敏感医疗记录以便“扮演医生”
- “看起来很美,但其实是错的”——AI在生物学和医学中的问题
偏见控制仅占总评估分数的2%;威胁、风险和隐私评估占另外2%;SOC 2 Type 2合规性贡献了额外的4个百分点。换句话说,与准确性、偏见控制以及关键安全和隐私保障相关的标准,在AI笔记系统的总评估分数中只占很小一部分。
报告在评价该评分机制时指出:“不准确的权重可能导致选择那些AI工具可能产生不准确或有偏见的医疗记录,或缺乏充分保护措施来保障敏感个人健康信息的供应商。”
《The Register》联系了安大略省卫生部,希望了解其对这份报告的看法,以及是否会遵循报告中对AI笔记系统的建议,但尚未立即收到回复。卫生部一位发言人周三告诉CBC,安大略省有超过5000名医生正在参与AI笔记系统项目,目前尚无已知的与该技术相关的患者伤害报告。
ai and ml ai + ml ai software canada healthcare