通过联邦学习启用数据共享首席数字官的政

通过联邦学习实现数据共享:首席数字官的政策思考

重点摘要

在医疗领域,联邦学习 作为一项新技术,能够显著加速对中风患者的诊断过程,提升研究质量与决策水平。通过将数据安全地分散在不同医疗机构而不会移出其防火墙,联邦学习为医生和研究人员提供了使用人工智能处理医疗数据的新模式。这种方法不仅遵循各类数据保护法规,如GDPR和HIPAA,还带来了性能和隐私保护上的优势。

本文由Nitin Kumar撰写,他是T和T咨询服务公司的首席数据科学家。

在本文中,我们将探讨联邦学习在医疗领域的重要性及其潜在影响。该方法能够借助AWS服务的云原生架构,为心脏中风患者、医生和研究人员提供快速诊断、更丰富的决策信息以及更全面的病症研究。

心脏中风诊断挑战

根据(CDC)的统计,在美国,每年有超过795,000人体验第一次中风,其中约25%会出现复发中风。它是美国第五大死亡原因,根据的说法,它也是导致残疾的主要原因。因此,迅速的诊断和治疗至关重要,以减少急性中风患者的大脑损伤和其他并发症。

CT和MRI是对不同类型中风进行分类的黄金标准影像技术,对于患者的初步评估、确定根源和治疗方案至关重要。尤其在急性中风的情况下,影像诊断所需的时间是一个重要挑战,一般平均需要,而如果急诊部门人满为患,可能会更长。

医生和医疗工作人员需要快速且准确的图像诊断,以评估患者的状况并提出治疗方案。正如Dr. Werner Vogels在中所说:“每一秒钟中风患者都至关重要。”中风患者每缺乏治疗大约会损失1.9亿个神经元。

医疗数据障碍

机器学习(ML)可以帮助医生和研究人员加快诊断过程。然而,构建ML模型并获得可靠结果所需的数据集存在于不同的医疗系统和组织的孤岛中。这些孤立的传统数据如果合并使用,潜力极大。那么,为什么它们尚未被利用呢?

在处理医疗领域的数据集和构建ML解决方案时面临多个挑战,包括患者隐私、个人数据安全以及某些官僚政策限制。此外,研究机构在数据共享方式上也趋于严格。这些障碍同样阻碍了国际研究团队在多样化且丰富的数据集上协作,这可能拯救生命并防止由中风引起的残疾等诸多益处。

政策和法规如(GDPR)、(HIPAA)和(CCPA)对来自医疗领域的数据共享,尤其是患者数据设定了许多限制。此外,各个机构、组织和医院的数据集通常过小、不均衡或分配有偏见,导致模型泛化能力受限。

联邦学习:概述

联邦学习(FL)是一种去中心化的ML形式,是一种动态的工程方法。在这种去中心化的ML方法中,模型在不同组织之间共享,对其专有数据子集进行训练,而不是在传统的集中式ML训练中使用聚合数据集。数据仍然保留在组织的防火墙或虚拟私有云(VPC)后面,而模型及其元数据则被共享。

在训练阶段,全球FL模型会在各个组织之间发布并同步,以便在各自的数据集上进行训练,然后返回本地训练的模型。最终的全球模型可供所有参与者进行预测,还可以作为进一步训练以构建各参与组织本地自定义模型的基础。该方法能够显著降低数据在传输过程中的网络安全要求,因为不需要数据越出组织的边界。

下面的图示展示了一个示例架构:

![示例架构图](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2024/03/12/ML-16237-New- 删除)

接下来的部分,我们将探讨联邦学习如何提供帮助。

联邦学习的应用:拯救生命

为了获得良好的人工智能(AI),需要良好的数据。

在联邦领域中,传统系统经常面临显著的数据处理挑战,阻碍了有价值的数据智能提供给决策者。这导致决策时可能基于传统数据的不准确判断,因为传统数据的价值常常比较小的新数据集更高。我们需要有效而不繁琐的方式来解决数据整合的瓶颈,避免手动整合和集成这些数据集所需的巨大工作量(包括繁琐的映射过程),这种耗时可能需要几个月甚至几年的时间。传统数据非常珍贵,因为它含有有关长期变化和模式的重要背景信息,对于准确的决策和良好的模型训练至关重要。

打破这些数据孤岛,联合分散的数据潜力能够拯救并改变许多生命。它还能加速与心脏中风相关的二级健康问题的研究。该解决方案可以帮助您解决因政策和其他原因而在机构之间孤立的数据共享问题,无论是医院、研究机构还是其他专注于健康数据的组织。它能帮助制定更明智的研究方向和诊断决策。此外,这将形成一个安全、私密且全球范围内的智能知识库。

![安全、隐私、弹性、性能](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2024/02/21/ML-16237-image002-Security- 删除)

联邦学习赋予医疗数据环境多重益处,包括:

安全与隐私特性: - 保持敏感数据远离互联网,同时利用其进行ML,并通过差分隐私增强其智能。 - 使您能够在不带来数据安全风险的情况下,构建、训练和部署公正且可靠的模型。 - 解决由多方管理数据带来的障碍。 - 消除交叉站点数据共享和全球治理的需求。 - 通过差分隐私保护隐私,并提供本地训练的安全多方计算。

性能提升: - 解决医学影像领域小样本问题及高成本标注过程。 - 平衡数据分布。 - 使您可以结合大多数传统ML和深度学习方法。 - 利用集中式图像集提高统计能力,克服各个机构样本数量限制。

弹性益处: - 如果某一方决定退出,不会妨碍训练。 - 新医院或机构可以随时加入,且不会依赖具体的节点数据集。 - 无需庞大的数据工程管道处理分散在不同地理位置的传统数据。

这些特性可以帮助打破在相似领域内保存孤立数据集的机构之间的隔阂。该解决方案能够通过发掘分散数据集的联合力量,成为效能的倍增器,显著提升效率,同时在不增加基础设施负担的情况下,彻底改善可扩展性。该方法帮助ML充分发挥潜力,其能力已不仅止于研究层面,也达到了临床级别。

联邦学习的性能与常规ML相当,以下是NVidia Clara进行的一项 (使用BRATS2018数据集进行医疗模式存档(MMAR)),该实验显示FL的图像分割性能超过80%,相当于集中式数据训练。

应用蓝图:联邦学习的简便性

要开始使用FL,您可以选择许多高质量数据集。例如,脑部影像数据集包括(自闭症脑影像数据交换计划)、(阿尔茨海默病神经影像计划)、(美国放射学会)脑部CT、(多模态脑肿瘤影像分割基准),定期更新以应对(宾夕法尼亚大学)下的脑肿瘤分割挑战,UKBioBank(涉及以下NIH ),以及。对于心脏影像,您可以选择一些公开的选项,包括ACDC(自动心脏诊断挑战),这是一个由国家医学图书馆提及的心脏MRI评估数据集,完整注释在以下中,以及M&M(多中心、多供应商、多疾病)心脏分割挑战,在以下论文中提到。

以下图像展示了ATLASR1.1数据集:
(根据,中风是脑损伤的主要病因之一。)

![病灶重叠图](https://d2908q01vomqb2.cloudfront.net/f1f836cb4ea6efb2a0b1b99f41ad8b103eff4b59/2024/02/21/ML-16237-image009-Probalistic- 删除)

对于电子健康记录(EHR)数据,遵循(FHIR)标准的数据集有几种可用。该标准通过消除异构、非标准数据集的一些挑战,使您能够更简单地构建试点,实现数据集的无缝、安全交换和整合,最大程度地实现互操作性。可用的数据集示例包括(重症监护医疗信息库)。其他一些高质量的数据集虽然当前不是FHIR,但可以轻松转换,例如(CMS)公共使用文件(PUF)和麻省理工学院(MIT)的。还有其他资源正在推出,提供基于FHIR的数据集。

实现FL的生命周期可以包括以下:任务初始化、选择、配置、模型训练、客户端/服务器通信、调度与优化、版本控制、测试、部署和终止。准备医疗影像数据以供传统ML使用需要大量时间,这在以下中有详细说明。在某些情况下,可能需要领域知识来预处理原始患者数据,尤其是考虑到其敏感性和私人性质。这些要求在FL中可以被整合或有时省略,从而节省宝贵的训练时间,提供更快的结果。

实施

FL工具和库的普及使得在不需要重大额外负担的情况下使用FL变得简单。现在可用许多好资源和框架选项来开始。您可以参考以下,其中包括FL领域最为流行的框架和工具,如、、、、、和。其中提供了一份初学者项目列表,帮助您快速上手和建立基础。

可以与实现云原生的方法,与无缝协作,保持每个节点的训练在其各自的VPC的私有子网上,并通过私有IPv4地址进行通信。此外,在上进行模型托管能够在不共享模型权重的情况下,公开端点API。

它还消除了潜在的高阶计算挑战,借助于(Amazon EC2)的资源。您可以使用和(AmazonS3)在AWS上实现FL客户端和服务器,并通过(IAM)角色对数据和模型进行受管访问,利用(AWSSTS)增强客户端安全性。您还可以使用Amazon EC2构建您自己的FL系统。

有关在SageMaker上使用框架实现FL的详细概述,以及与分布式训练的差异讨论,请参见。

以下图示展示了FL中迁移学习的架构。

删除)

解决FL数据难题

联邦学习也面临着自己的数据挑战,包括隐私和安全,但这些都比较容易解决。首先,需要解决因数据存储于不同站点和参与组织而产生的医疗影像数据的异构性问题,这被称为_域转变_问题(在FL系统中也称为_客户端转变_问题,此问题在以下中强调),这可能会导致全球模型收敛性差异。

其他需要考虑的因素还包括确保源头数据质量与一致性、将专业知识融入学习过程,以增强医疗专业人员对系统的信心,以及实现模型精度。有关您在实施过程中可能面临的一些潜在挑战的更多信息,请参见以下。

AWS通过提供AmazonEC2的灵活计算能力和SageMaker中预构建的来帮助您解决这些挑战,实现轻松部署。您可以解决客户端组织的非平衡数据和计算资源问题,也可以解决服务器端的学习问题,例如通过(AmazonVPC)、和其他安全规范防止客户端数据被污染,并实施AWS异常检测服务。

AWS支持解决现实世界中的实施挑战,这可能包括与当前或传统医院系统的集成挑战、兼容性问题及用户采纳障碍等,提供灵活、易于使用且轻松升降的技术解决方案。

借助AWS服务,您可以实现大规模的基于FL的研究及临床实施和部署,覆盖全球的多个站点。

最近的互操作性政策强调了

Leave a Reply

Required fields are marked *