Ontario auditors find doctors' AI note takers routinely blow basic facts

安大略省审计人员发现医生使用的AI笔记工具频繁出现基本事实错误

AI + 机器学习病态且错误：安大略省审计人员发现医生使用的AI笔记工具频繁出现基本事实错误审计人员称，60% 的受评估AI笔记系统在患者病历中混淆了处方药物 Brandon Vigliarolo 发布于 2026年5月14日星期四 21:50 UTC

根据对20家已获批供应商系统的省级审计，安大略省医疗机构批准的AI系统频繁遗漏关键细节、插入错误信息，并编造患者或临床医生从未提及的内容。这些发现来自加拿大安大略省审计长办公室，并包含在一份关于该省公共服务中AI使用状况的更广泛报告中。报告特别针对AI笔记系统（AI Scribe program），该项目由安大略省卫生部发起，面向医生、执业护士以及更广泛医疗领域的其他医疗专业人员。在采购过程中，官员们使用模拟的医患录音进行了评估。随后，医疗专业人员将原始录音与AI生成的笔记进行对比，以评估其准确性。

他们发现的情况，坦率地说，对于任何关心AI在关键场景中准确性的人来说，都令人震惊。据报道，20个AI系统中有9个“编造了信息，并对患者的治疗方案提出建议”，而这些内容在录音中从未讨论过。根据报告，评估人员在样本报告中发现了可能造成毁灭性后果的错误信息，例如“未发现肿块”或“患者焦虑”，尽管这些内容在录音中从未被提及。20个受评估系统中有12个将错误的药物信息插入患者笔记，而17个系统“遗漏了录音中讨论过的关于患者心理健康问题的关键细节”。报告称，其中6个系统“完全或部分遗漏了患者的心理健康问题，或缺少关键细节”。

OntarioMD（一个为医生采用新技术提供支持并参与AI笔记系统采购流程的组织）建议医生手动检查AI生成的笔记以确保准确性，但报告指出，所有获批的AI笔记系统中均没有强制性的认证功能。

糟糕的评估也无济于事

AI系统出错并不完全令人震惊。正如我们此前报道的，面向消费者的AI倾向于向用户提供不良的医疗信息，一些研究发现，大语言模型在约80%的测试案例中未能生成适当的鉴别诊断。但这里评估的工具是为医生设计的，而非消费者，如此糟糕的表现需要解释。

报告将很大一部分原因归咎于系统的评估方式。根据报告，AI笔记系统各项表现类别的权重分配存在问题。一个平台评估分数的30%仅取决于其是否在安大略省有本地业务，而医疗笔记的准确性仅占总分的4%。

更多背景信息

AI聊天机器人在医疗建议方面并不比搜索引擎更好
AI医生助手容易被左右，从而更改处方、提供不良医疗建议
ChatGPT Health 希望获取你的敏感医疗记录以便“扮演医生”
“看起来很美，但其实是错的”——AI在生物学和医学中的问题

偏见控制仅占总评估分数的2%；威胁、风险和隐私评估占另外2%；SOC 2 Type 2合规性贡献了额外的4个百分点。换句话说，与准确性、偏见控制以及关键安全和隐私保障相关的标准，在AI笔记系统的总评估分数中只占很小一部分。

报告在评价该评分机制时指出：“不准确的权重可能导致选择那些AI工具可能产生不准确或有偏见的医疗记录，或缺乏充分保护措施来保障敏感个人健康信息的供应商。”

《The Register》联系了安大略省卫生部，希望了解其对这份报告的看法，以及是否会遵循报告中对AI笔记系统的建议，但尚未立即收到回复。卫生部一位发言人周三告诉CBC，安大略省有超过5000名医生正在参与AI笔记系统项目，目前尚无已知的与该技术相关的患者伤害报告。

ai and ml ai + ml ai software canada healthcare