界面新闻记者 | 张熹珑
在大模型推动下,AI在医疗场景的应用正往影像领域延伸。
9月17日,“聆音”EchoCare超声大模型在香港发布。这是目前所知首个训练规模超过400万张的超声影像数据集,构建了国内首个覆盖多中心、多地区、多人种、多器官(52+全身器官)的大规模超声数据集。
EchoCare由中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)研发。“大模型作为医生的工具,我们的开发目的是让超声设备用起来更简单,另一方面提升对超声数据的理解程度和诊断水平。综合而言,要让医生这个职业变成一个脑力工作者,而不是一个体力工作者。”CAIR主任刘宏斌研究员在发布会上指出。
刘宏斌表示,最新发布的预训练基座大模型,可以理解为一个模型的编码器,也就是把数据压缩成更容易处理下游任务的关键模块,基座模型也计划开源给医院团队和科研机构。下一步,要把模型适配到临床实际场景中。而跟头部超声影像企业合作、把该模型加载到设备上,也会是技术转化的重要路径之一。
巨大的缺口
作为医学常规筛查和首选筛查手段,超声技术在疾病诊断、健康检测和临床医疗的作用不可替代。在中国,每年超声检查量达到20亿次,在常规医疗检查(如CT、MRI、X光等)中的年检量位列第一。
与之形成反差的是供给端的巨大缺口。公开数据显示,国内超声医生缺口至少达到15万。这是由于,传统超声技术对操作经验和解读能力的要求极高,培养一名合格超声医生需要3到5年,产筛领域甚至要5到8年,这也限制了超声检查的普及。
香港中文大学医学院外科学系教授、心胸外科主任黄鸿亮对此深有体会。“在香港,如果不是紧急病症,检查分流要等很久,甚至几个月。而普通检查,等一年以上也是有的。”他向界面新闻表示。
黄鸿亮在业内首创性提出用超声前期筛查心胸主动脉疾病,也认为需要在急诊室引入超声以避免漏诊,“主动脉撕裂导致的死亡率很高,会在很短的时间致命。因此急诊室在短时间快速检查病症,以及用超声手段进行前期筛查、预防并发症很重要。但是老实说,目前香港急诊室还没有这个筛查过程。与此同时,医生都是超负荷工作,要处理海量病例。”
2015年,香港中文大学医学院跟香港威尔斯亲王医院合作面向超过1500名病人开展超声波普查的研究。但不管是门诊普查,还是急诊室筛查,超声检查目前仍未推广开来,缺乏专门的超声医生、专科操作员培训周期和成本大都是掣肘,“在香港现有医疗系统下,专门培训在急诊室做超声波的检查员是不可能的,操作的非标准化也是超声检查另一个很大的挑战。”
这种情况下,黄鸿亮希望“有一个智能化系统进行人力补充和操作标准化”。在香港医管局牵头下,黄鸿亮团队在2024年跟CAIR开展合作,提供了超过2万张匿名化病例影像进行训练。
“香港虽然数据量上不占优势,但这边的理念很超前,诊疗手段、手术方式也跟国际接轨,对AI接受度很高。医疗大模型以临床需求为驱动,例如香港中文大学医学院外科提出的超声波筛查主动脉疾病就很前沿。”CAIR副主任孟高峰研究员接受界面新闻采访时指出。
这一背景下,香港超声领域的AI应用迎来突破。
搭建规模最大数据集
事实上,在EchoCare之前,AI应用已是香港医学界的共识。
黄鸿亮对界面新闻提到,近几年在香港医管局推动下,本地医院已经引入了AI技术,例如AI辅助查看胸部X线平片,会对异常情况进行提示,但是还没延伸到其他影像类型。
此外,传统超声AI诊断面临诸多挑战,包括高质量超声标注数据稀缺、医学数据固有的长尾分布、模型跨中心跨设备泛化性差,以及传统模型嵌入医学知识困难,这都限制了AI超声在临床上的大规模普及。
直到大模型技术诞生,超声图像特征学习与下游任务适配的关键难题出现了解答。EchoCare是目前已知规模最大的超声图像数据集,450多万张图像涵盖了138个常用数据集。孟高峰提及,数据来自20多个国家或者地区,“多中心可以理解为,数据不是来自单一地区或单一医院。如果只选取单一对象,模型训练出来后就存在泛化性问题,不同医院的设备也不一样,模型换了一个地方性能就会大打折扣。”
相较传统大模型,EchoCare首创纯数据驱动的结构化对比自监督学习方法,不需要大量的数据标注,即可实现特征学习与下游任务的解耦,实现超声领域先验知识内化以及跨任务知识迁移。
孟高峰指出,以前的模型训练是监督学习,需要人为标注“标准答案”,模型进行输入和输出,模型输出和人为标注对比后,再调参数模型。而在自监督学习下,不需要再靠人力标注,数据内部之间存在联系,“就像把一幅画的一部分遮住,可以根据周围推理出被遮住的部分。用数据本身的关系构造学习任务,再用任务驱动模型学习。后面做很具体的下游任务就只需要标注少量数据。这种模式的精度效果也超过全监督学习。”
EchoCare另一个创新性在于连续学习。孟高峰分析道,大模型数据的收集不是一次性工作,不同应用场景需要新的数据,而历史数据也需要更新。连续学习解决的就是模型越用越差的问题,基于少部分数据,模型能不断迭代、跟上最新情况,“特别是需要多中心应用时,每个中心的数据不同,也对连续学习提出要求,这跟医疗场景很契合。”
针对器官识别、器官分割、甲状腺结节检测分类以及病灶分类管理检测等项目任务,该模型进行了测试,相较传统的SOTA模型,性能平均能提高3到5个百分点。
“我们提供了约600个病例的数据。从训练的model来看,平均误差是1毫米左右,在某一些定位是零点几毫米,这是相当不错的数据。不仅是心胸外科,内科也是合作方,医生对于正确关键帧、病变图像的需求很大。”黄鸿亮说。
下一步如何发展?
从实验室到实际应用,一项成果需要经过回溯性研究、前瞻性研究、医疗证取证等几个阶段。目前,EchoCare目前已完成临床上的第一阶段,即回溯性研究。
模型在山东大学齐鲁医院、中南大学湘雅医院和香港中文大学医学院进行了临床回溯性验证。结果显示,基于山东大学齐鲁医院妇产科1556例卵巢肿瘤超声病例,模型分类灵敏度达到85.6%,特异度88.7%,肿瘤良恶性分类灵敏度相对SOTA方法提升8%。
刘宏斌提到,除了上述医院,也在跟国内不少医院推动合作,例如中山大学第一附属医院、四川大学华西医院等,“我们正跟五、六家医院接洽将大模型适配在临床上,内地医院的优势在于数据规模,像中山一附院、湘雅医院都是万级以上,齐鲁医院也接近万级。在训练模型过程中,也用了大量国际开源数据以作冷启动。当然,不管是内地还是香港,病人数据的伦理问题,如何平衡模型训练需要和病人隐私保护,都在逐步解决。”
部署到医院是下一步方向。黄鸿亮告诉界面新闻,在前瞻性研究上,会在病例上部署大模型,并跟心脏科医生的诊疗数据进行对比,通过临床研究进一步证明数据的准确度。前瞻性研究耗时更长,可能需要两到三年。
他认为,急诊室会是未来超声大模型最好的切入点,“每年因为心痛、胸痛到急诊室的病人很多,如何鉴别病症,到底是心肌梗塞、肺动脉血栓还是主动脉破裂,是急诊室很重要的问题。但现在的问题是,很多病人连超声波也做不了,需要让AI解决这个步骤,后面再做更详细的检查。试验过程中,大模型会对主动脉不同位置进行标注,如果尺寸出现异常会提出警示,给出高危标签,这将是急诊室预防漏诊的一个关键。”
针对大模型的商业化路径,刘宏斌向界面新闻表示,会联合头部超声设备企业,将大模型跟设备结合起来,通过临床验证后把模型授权给企业。后续的医疗器械取证等环节则交由企业进行,“已经有三家企业通过其他渠道了解到我们的研究成果,在跟我们进行接洽了。”