AI还做不了“万能医生”,却是当下最好的“场景工具包”

编者按:

礼来以24亿美元收购Orna
重新划分40种微生物栖息地
Meta斥资100亿美元新建1吉瓦数据中心
中国大模型密集上新
达摩院开源首个有时空记忆的具身大脑基模
美国能源部启动“创世纪使命联盟”
3D打印新技术“数字非相干全息光场合成”
捷龙三号“一箭七星”成功发射,首颗AI大模型卫星上太空
长征十号低空演示验证与梦舟载人飞船系统最大动压逃逸飞行试验
2026年科创要闻第7期(2月9日-2月14日)

责任编辑:黄金萍

在四天的时间里(2月6日-9日),两项接连发表于《自然-医学》的研究共同展示了AI在医疗领域应用的复杂图景。

2月6日,谷歌DeepMind、斯坦福大学、谷歌Research的研究团队联合在《自然-医学》(Nature Medicine)发表研究论文A large language model for complex cardiology care ,介绍了一个基于Gemini 2.0 Flash大语言模型构建的医疗人工智能系统——AMIE(Articulate Medical Intelligence Explorer),专门用于处理复杂的心脏病病例,能够综合分析多种检查结果,包括心电图、心脏超声、心脏磁共振成像和心肺运动试验等。在临床数据测试中,AMIE能够显著提升心脏病医生的诊断质量、减少错误和关键信息遗漏,提高医生的工作效率和信心。

全球心脏病学亚专科资源短缺,尤其在遗传性心肌病诊断中,大量患者因缺乏专家评估而延误治疗。AMIE能有效提升普通心脏科医生对复杂心脏病的诊疗能力,减少错误和信息遗漏,为缓解专科资源短缺提供了新路径。

值得注意的是,上述研究测试中有6.5%的案例AMIE出现了临床显著幻觉(如虚构影像报告的检查结果),但可通过医生的质疑及时纠正。这强调了在现阶段的诊疗流程中,人类医生的监督和质控不可或缺。

2月9日,牛津大学的研究团队在《自然-医学》(Nature Medicine)发表论文Reliability of LLMs as medical assistants for the general public: a randomized preregistered study 。该研究进行了一项大规模随机对照试验,以测试大语言模型(LLM)作为公众医疗助手的实际效果,结果显示,在各种医学考试中表现优异、甚至堪比人类专家的大语言模型,却在真实的医疗场景中不能有效帮助公众诊断疾病并作出正确的健康决策。

研究团队在进一步的人工检查中发现,问题不在于LLM的医学知识储备,而在于人类与LLM的交互难题。在真实的医疗场景中,患者往往无法准确、完整地描述症状,而LLM可能过度依赖专业术语,未能将医学知识“翻译”成通俗语言,还会生成误导性的信息,导致沟通失效。研究团队建议,LLM在医疗领域大规模部署前需进行系统的人类用户测试。

刚刚过去的2025年,是全球“AI+医疗”大模型爆发的一年。

谷歌的MedGemma、OpenAI的o1模型凭借强大的多模态理解和逻辑推理能力,在复杂的临床诊断任务中表现突出;Hippocra

登录后获取更多权限

立即登录

校对:赵立宇

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}