作者 | 伊泽贝尔
(资料图片)
不是帮忙写病历,不是辅助看报告,不是手术导航定位,更不是智能导诊,真正能看病的 "AI 医生 " 可能要来了。
中国的医疗科技公司正在自主研发基于 Transformer 架构的医疗大语言模型,并应用于真实医疗场景的 AI 医生产品 "MedGPT"。而这款产品的首次 " 出圈 ",是因为一场上百人规模的真实世界试验。
这场 6 月 30 日在成都进行的 " 大型公开测评 ",参与者包括 120 多位真实患者和 10 名四川大学华西医院的主治医师,还有 7 位全国各地三甲医院专家作为陪审。毕竟大模型能不能用来看病这件事,最有发言权的,还是专家医生。
最终,"AI 医生 " 与三甲主治医生在比分结果上的一致性达到了 96%。
8 月 10 日,其研发企业医联 Medlinker 对外公布了该产品的最近进展。据介绍,医联 MedGPT 又完成了 1052 例医生临床测试,不断通过数据刷新 AI 医生临床有效性记录,并持续验证医疗安全性。
围绕这款横空出世的 "AI 医生 " 产品和其实际效果,本文试图讨论几个核心问题:
1.MedGPT 看病靠谱吗?评价是否靠谱的标准是什么?
2.MedGPT 能在哪些环节帮助提升就医体验、诊疗效率和质量?
3.MedGPT 走向成熟和普及之时,地域资源不平衡、看病难的医疗痼疾能否被推动解决?
MedGPT 看病,靠谱吗?
鉴于患者和医生之间存在巨大的信息鸿沟,判断 MedGPT 可靠性的标准和结果,都来自经验丰富的医生专家。
其实施过程是,邀请 120 位真实患者使用 "AI 医生 " 问诊,过程中实习医生辅助将信息同步传达给 10 位四川大学华西医院的真人医生(职级主治及以上),双方在互不影响的情况下分别给出独立判断。
评估结果时,将上述过程切分为问询、诊断、给出治疗建议、开具辅助检查方案、分析检查结果、提供可信解释等 6 个环节,由来自北京阜外医院、中日友好医院、北大人民医院等三甲医院的 7 位主任专家,针对每个环节分别给 AI 和真人按照准确性、专业性等统一标准进行打分。
最终,真人医生的综合得分为 7.5,而 AI 医生得分为 7.2,二者一致性为 96%。评测疾病涵盖消化科、心内科、老年呼吸科、骨科、泌尿外科、肾内科等多个领域。
一位专家在打分时,甚至对 AI 给出了高于真人医生的分数,理由是在专业水平接近的情况下,MedGPT 更加细致,不易误诊漏诊,甚至对患者表现出更大的人文关怀。
据医联对外公布的数据,MedGPT 目前的参数规模为 100B 规模,预训练阶段使用了超过 20 亿的医学文本数据,微调训练阶段使用了 800 万条的高质量结构化临床诊疗数据,并投入超过 1000 名医生参与人工反馈监督微调训练。
在短短 40 天左右的时间里,MedGPT 的患者测试案例实现从百到千的十倍量级增长,不难看出医联对这一产品的投入程度。据了解,在过去的几个月内,其医疗专家和技术专家团队 " 以小时为单位 " 进行着迭代和调优。在这个过程中,已有超过 1000 名三甲医院医生参与到产品的研发、测试、优化过程中。
值得一提的是,在全球范围内,这种 "AI 医生 " 与人类医生同时面对真实患者的 " 双盲实验 " 还是首次完成,这也为检验医疗 GPT 的有效性和准确性等开拓了标准范式。任何产品或业务,涉及到医疗领域都是一件严肃的事情,但在当前,各国相关监管部门还尚未提出对医疗大模型产品的注册审查标准,则更需要最早的产品研发者对自身提出要求,需要市场的行业自律。如今临床测试的数量已经达到了 1052 例,而在以往创新药物或医疗器械的临床试验项目中,千人量级均属于超大型规模水平。
数字医疗的全新引擎
在此之前,医疗领域已经诞生了不少应用 AI 技术开发的产品,比如电子病历、智能导诊分诊系统、医学影像辅助诊断产品以及手术机器人(或称手术导航定位系统)等,这些产品都是 " 碎片化 " 地聚焦分布在诊疗流程的某一个具体环节,帮助优化就医体验、提升就医效率和质量。
但大语言模型的技术突破,让 AI 技术在医疗场景下的应用,有了更进一步参与或跟踪整个诊疗流程的可能。
理论上,除了需要动手术、拍片子和取药等必须在线下实体进行的环节,其他步骤如咨询、诊断、开具检查、报告解读、给出治疗方案和康复建议等,均可以在对话中完成,并且通过上传检查结果等交互行为,MedGPT 可以 " 补上 " 线下未参与部分,进而做出可靠回答。
此时,于患者而言,MedGPT 的实际角色变成了一个可以识别和诊断大部分常见疾病,并给出进一步线下检查或用药、诊疗建议的 "AI 家庭医生 "。
特别是当用户养成随手问诊的行为依赖,持续反馈不同医院的线下就诊信息,而 MedGPT 又能储存并自动调取历史记录时,就俨然成为了一个身边最清楚你过去病史和身体状况变化的、普通人也能拥有的全天候随时守护的 " 家庭医生 ";
对医生而言,MedGPT 可以成为一个帮助高年资医生完成基础工作,进行信息核对、查漏补缺、跟踪随访及进行患者管理的 "AI 助理医师 ",也可以是一个帮助低年资医生快速学习和成长、随时探讨病例并分析思路的 "AI 医生导师 ",还可以是一个帮助一线医生及时获取前沿治疗指南和专家共识、更新自身专业储备的 " 学术推广 AI 医生 "。
而对于整个医疗医药行业而言,大模型 AI 技术则可能成为一个为行业带来新一轮发展动力的全新 " 引擎 ",将这一垂类模型应用于不同的场景、不同载体上,能够不断碰撞产生新的火花。
MedGPT 的研发企业医联,其自身已在医疗领域深耕近十年。2014 年公司成立,2017 年获得互联网医院牌照,2018 年开设首个互联网医院科室感染科,同期启动自主研发的丙肝患者管理体系。目前平台拥有数十万名注册医生,覆盖肿瘤、心脑血管、糖尿病、呼吸、慢性肾病、感染、精神心理、消化、神经、中医等多个病种学科领域。
MedGPT 同样也是医联的全新引擎,作为第一个大模型应用在医疗场景应用的探索者,有望引领行业真正进入数字医疗 2.0 时代。
医联 MedGPT 项目负责人早就 " 喊话 ",希望业内 AI 科技、医学、院校机构、医疗多模态应用等各种类型的合作伙伴,共同开发建设通用型人工智能技术的医疗应场景为医疗行业的技术发展贡献力量。
当前其主要征集的合作伙伴包括三大类:一是数据合作,包括三甲医院、相关医疗数据企业等;二是科室建设合作,包括三甲医院、医学专家、数字医疗企业、数字疗法等;三是多模态模型合作,包括但不限于辅助诊断模型、治疗推荐模型、预后评估模型、药物发现模型和流行病学模型等。
世界性难题,往往由颠覆性科技推动解决
尽管 MedGPT 的出现令众多医生惊艳,也让我们进一步打开了未来就医便捷化的可能性,但不难猜想,当前一定还存在些许优化空间。
比如,为了保证结果 " 不出错 ",医疗 GPT 给出的建议是否存在过度诊疗的倾向?
又比如,医疗 GPT 对患者疾病做出诊断和治疗方案,都是基于目前现有的专家共识或者诊疗指南,但一些新开发的药物的临床应用,仍然需要一线专家去探索尝试,现阶段 AI 技术的应用大概率还不会突破人类医生自身的认识边界。
不过,这并不会影响这项技术所带来的兴奋和未来的想象空间。
医疗改革一向是个世界性难题,对于中国这个人口庞大、地域广袤的发展中国家而言则更甚。早自 2009 年起我国便开始探索和鼓励公立医院医生多点执业,2015 年起我国正式提出并开始在多个城市试点分级诊疗制度,近年来各地医联体、医共体持续推行远程医疗等,均是为了改善医疗卫生资源在不同地区分配不平衡、百姓看病难的问题。
科技的发展或许难以对抗自然规律的生老病死,但我们可以展望的是,有了 MedGPT,无论身处何时何地,我们将能够以自然对话的最低门槛形式,即时获取自己关心或者迫切需要的权威医疗健康信息。
所谓 " 低门槛对话 ",一方面要求技术在于打破时间和空间的限制,另一方面还在于用户体验上,语言沟通的 " 无障碍 "。
因此 "AI 医生 " 的自然语言交互能力也格外重要,除了准确、靠谱、专业,能听到患者非专业用语表达的 " 大白话 ",是保证用户体验的基本。
例如在真实评测体验中,对于一句通俗的 " 肚子疼 ",AI 医生会进一步引导患者说出具体的疼痛部位、疼痛持续的频率、疼痛方式等,并通过询问饮食情况、有无外力撞击、有无相关病史等细节、不断缩小范围、排除错误判断,最终给出确切答案。
AI 医生没有问诊的时间限制,也不懂何为压力和情绪,可以不厌其烦地 7*24 小时接诊。
目前,医联 MedGPT 已经可以覆盖我国最新疾病分类标准(ICD10)中 60% 的疾病病种,并在近期将研发重心倾斜在多发疾病,以提升数字医院的普惠率。据悉预计在 2023 年底,可以覆盖 80% 病种的就诊需求。有一天,当 MedGPT 真正走向成熟和普及,不仅有助于打破医疗资源的地域不平衡,对于消除医学专业信息鸿沟、减少误诊漏诊,提升国民整体的健康素养和健康水平,都有巨大帮助。
与此同时,MedGPT 会不断沉淀用户关于疾病和患者诊疗行为的真实世界数据,其中不仅包括原本静静躺在各个公立医院电脑信息系统内的诊疗数据,也包括医院所无法持续追踪的院外数据,随着相关法律法规的健全,这些海量数据也有望被释放出来,对于罕见疾病的新药研发、常见病的健康管理甚至是针对精准人群的健康保险产品开发等,都具有重要意义。
届时,我们能够真正期待全新的 " 健康新世界 "。