挑战真医生?AI医生刚刚上路

“一位医生能够握住病人的手,向他分享自己的情绪,这在很多时候是价值非凡的。AI也许能够输出表达同情的文本,但无法输出人性。”

无论从模型质量还是患者隐私的角度,监管层都应将大模型的数据库纳入监管。医疗数据的品质关系到AI医疗决策的安全性,现阶段的大模型产品依然依赖人类医生的贡献。

即使只是以辅助决策的身份介入,AI也会为复杂的中国医患关系平添波澜。比如,当医生建议与AI不同时,患者可能会怀疑医生“另有考虑”,从而恶化互信关系。

根据相关规定,以辅助诊断产品申请三类证是医疗大模型最有可能走的审批道路。若按此规定,医疗大模型就必须经国家药监局审批,并开展临床试验。

责任编辑:曹海东

2019年6月21日,广州,某行业展会展出的应用在医疗领域的智能机器人。 (视觉中国/图)

它展现出了真人医生一样的问诊素养。

“您说的甲状腺结节四年前是怎么发现的?当时有什么症状?这四年来结节有没有变大或其它症状?您是否定期复查?最近一次复查什么时候?”

这些连珠炮似的提问,令从医十余年的李惠感到惊讶。因为提问来自一款医疗大语言模型(下称“大模型”)MedGPT,又称AI(人工智能)医生。李是一位肾内科副主任医师。

就在2023年6月底,李惠与9位来自心内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿外科等科室的医生,联手挑战MedGPT。后者于2023年5月推出,号称国内首款医疗大模型。

这场在成都的一家医院举行的测试,也被业内誉为人类与AI在医学领域的一次公开比拼。

最终经过7位专家的评审,真人医生综合得分为7.5分,AI医生综合得分为7.2分。AI医生与三甲主治医生在比分结果上的一致性达到了96%。

考虑到大模型不断自我学习成长的能力,眼前的成果难免令人对AI医生的应用前景浮想联翩。据南方周末记者不完全统计,2023年5月以来,国内已至少有医联、商汤科技、京东健康、联影智能、上海联通等企业相继发布了医疗AI大模型。7月27日,谷歌亦发布全球首个全科医疗AI大模型Med-PaLM M。

不过,在医疗大模型投入应用前,从诊断的准确性和可解释性,到医疗数据的来源,再到AI医生与真人医生的关系,许多伦理问题仍待厘清。

医疗大模型亟须人机一致性测试

和大火的ChatGPT一样,MedGPT的界面也是一组简洁的对话框,可见对话与问答功能是其核心所在。在一则现场问诊视频中,患者与MedGPT、真人医生的对话气泡分别用蓝色和绿色表示。但即使不借助颜色,二者之间也有着显见的差别。

问诊中,病人自诉腰疼,AI会追问,左侧还是右侧?“如果是单侧疼痛,也有可能是肾周感染,但更要考虑结石或肿瘤。”李惠告诉南方周末记者,AI在不能查体的情况下,能通过对话弥补一部分差距。

从文本上看,人类医生的表述更加口语化也更简洁。MedGPT则透露着机器特有的耐心和客气。它的回复往往以“您好!感谢您的配合”开场,接着是长篇大段的解答,有时也会连续发问。

“问诊比较详细,它对于每个细节都很注重,作为临床医生的补充是非常有帮助的。”作为评委的北京阜外医院心内科主任医师杨跃进表示,“但详细有时候意味着重点不突出,有些问题就需要一查到底,未来还需要继续凝练。”

“我们没想到一致性得分会这么高,大家都很兴奋很满意。”互联网医疗企业医联MedGPT项目负责人王磊表示。

从最近层出不穷的新品发

登录后获取更多权限

立即登录

校对:胡晓

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}