一个医院无法单独解决的问题
在疫情最严重的几个月里,全球的医院面临着同样的运营矛盾:他们拥有足够的数据来训练人工智能模型,以预测哪些患者会恶化,但却无法共享这些数据。美国的HIPAA、欧洲的GDPR,以及数十个国家的类似法规,使得每次转移病历都面临数千万美元的法律风险。结果是荒谬的碎片化:每个机构都用小规模样本训练自己的模型,这些工具在自己的墙内运作良好,但一走出大门就崩溃了。
EXAM——这一在20家医院间合作开发的模型——从其架构上解决了这一矛盾。它没有请求数据,而是请求更聪明的东西:这些数据所生成的经验。
通过使用联邦学习,每家医院在自己本地对其胸部X光和临床历史进行模型训练,然后仅共享模型的数学更新,而不是患者的记录。全球模型吸收了来自20个不同来源的分布式学习,而没有任何数据跨越机构边界。结果是精确度提高了16%,而泛化能力提高了38%,相比于用同质数据集集中训练的模型。这一差异并非边际统计:在重症监护的分类中,每一个百分点的精确度都有其名字和身份。
为什么泛化能力比局部精确度更重要
我对EXAM最感兴趣的指标不是16%的精度提升,而是38%的泛化能力提升。这正是大多数人对这项工具分析时所忽视的战略论点。
在医院中表现良好的健康AI模型,如果在另一家医院失败,其商业价值几乎为零。实际上,它是一个不可转移的资产。当NYU Langone开发自己的模型时,用5200张X光片达到了80%的COVID-19严重进展预测精度,这为NYU Langone构建了一个强大的工具。但未解答的问题是,患者的人口特征、成像协议或放射设备发生变化时,这种表现能否持续。
EXAM由于在20个不同机构的异质性上同时训练,因此构建了一个已经经历过变异的模型。它在训练过程中吸收了这些变异,因此不需要再去泛化。这对任何考虑采用此类工具的医院都有直接意义:一个具有38%泛化能力的模型,显著减少了本地重新训练的成本,而在医疗AI项目中,这部分费用可能占实施预算的30%至60%。
联邦架构不仅是隐私保护的机制,更是为每个参与节点降低变动成本的机制。
无需信任的协作经济
EXAM构建的,在激励结构上,是制药行业数十年来试图但未能实现的:在不让渡战略资产的情况下进行竞争性合作。每个医院放弃了学习,却保留了数据,数据是支撑它们在未来模型中地位的专有原料。
这种架构解决了一个治理问题,这个问题曾使数十个类似倡议停滞不前。大学医院不会与竞争的机构共享临床数据,不是因为它们是恶意组织,而是因为患者数据同时是一个受监管的资产、研究资产和法律负担。任何要求让渡这一资产的合作模型都面临着只有良好意愿合同无法超越的制度壁垒。
联邦学习消除了这一壁垒,并通过消除它,开启了基于本应永远孤立的数据构建全球模型的可能性。麻省总医院开发了自己的肺部严重程度评分系统,基于超过224,000张斯坦福的CheXpert数据集X光片预训练,并在314个COVID案例上进行微调。这对数据工程是相当可观的努力,但在EXAM的背景下,这样的样本只是网络中的一个节点。
规模差异不仅是技术上的。这也是每个模型能够可靠回答的问题类型的差异。那些基于单一来源的数万张X光片进行训练的模型,回答的很好的问题是关于该来源的。基于20个不同医院系统的异质性进行训练的模型则能够回应关于人类状况的一般性问题。
一项关于应用于COVID-19胸部X光片的AI的九项研究的meta分析报告显示,曲线下面积为0.98,这在任何其他诊断上下文中都是异常的数字。然而,同一分析指出,仅有22%的审查研究使用了外部验证。剩余的78%则构建了在诞生背景之外无人验证的工具。
医疗行业需要模仿的模型
EXAM直接打断了健康数字化在失败中展示出的结构模式。通常的惯性导致一个行业,每个大型医院中心开发自己的AI工具,通常依赖不可回收的研究资金,没有营利架构,并且在发布后缺乏维护能力。结果是一个学术上稳固、运营上死亡的模型墓地。
联邦架构开启了一种不同的逻辑。一个共享模型更新(而非数据)的医院联盟,可以维持一个集体资产,该资产的维护成本在所有参与者之间分配,而收益则随着每个额外节点的增加而扩展。这是一种具有与孤立的专有开发十分不同属性的成本模型。
对于评估临床AI投资的医疗行业高管而言,操作性问题不再是是否采用这些工具,而是他们的机构在设计这些工具时,是为了被困在自我围墙里,还是为了在每个新加入网络的合作伙伴身上变得更精确。一个能够随着时间推移而提高,而不会妥协患者隐私的模型,不仅是技术优势;它是医疗AI长期可持续的唯一架构。
今天在医疗领域做出技术架构决策的领导者在选择是构建在孤立中贬值的资产,还是构建在合作中升值的资产。EXAM的证据表明,第二种选择的回报更高,维护成本更低,并且无需牺牲任何敏感资产。所有医疗界的C级高管在签署下一个AI合同之前,都应该进行这样的审计:他们的技术投资模型是否将患者的数据视为被封闭的可开采原料,还是具备将这些信息转化为提升整个网络诊断能力的燃料的架构。












