分享丨Nature:为高维度医学成像设计可临床转变的人工自动体系
发布日期:2022-03-19 作者:WLT 点击:
转自AI科技评论
编译 | 王晔
编纂 | 青暮
本文来自于《Nature Machine Intelligence》。作家Rohan Shad是Hiesinger试验室气度内科系博士后研发员。他和队伍为心血管成像(超声心动图和心脏MRI)建立新式计算机视觉体系,以及应用转录组学和蛋白质设计研发心脏病的潜在体制,为严重心力衰竭患者设计设施。
文中讨论了高维临床影像信息所面对的特有战斗,并注重了开发机械学习体系所牵扯的部分技巧和伦理方面的参考,更好地表现了影像形式的高维本质。另外,他们认定尝试处理可阐明性、不确认性和成见的方式应被视为一切临床机械学习体系的中心构成一些。
2018年,美国国度卫生研发院确认将人工自动归入医学成像将来成长的重点行业,以及为图片收集、算法、信息规范化和可转变的临床抉择追随体系的研发制订了根基线路。
报表中提到,虽然信息的可用性、对新式计算架构的需要和可阐明的人工自动算法等在过去几年已然获得了较大的进展,但现在仍旧是一个要害性问题。
另外,在初期的开发流程中,还必需参考到信息同享的转变目的、为监管部门核准而进行的功能验证、可推行性并且加重无意的成见等问题。
1.主题
算力的提升、深度学习架构和顾问标志信息集的进步刺激了医学影像人工自动(AI)体系的成长。
但是,运用人工自动体系来帮助完结临床任务是十分拥有战斗性的。机械学习算法的目标是减小临床推理所需的时间。而在临床中进行运用,有也许无意中会耽误患者的治愈。当分开可操控的试验室场景时,人工自动体系的终端客户必需可以操控填写品质,以及可以处理网络延缓等问题,设计出将这类体系调整到既定临床实践中的方式。
初期对可转换的临床机械学习的尝试标明,设计的体系要在既定的临床工作过程中常态工作,就必需要在算法开发之初就做出少量的调整积极。由于在将来布置该体系时,迭代的机会十分有限。
紧随开源机械学习软件库的逐渐增加和计算机功能的不停进步,研发职员越来越较易开发出高难的对于特定临床问题的人工自动体系。除了探测重病诊疗的特点外,下一代人工自动体系必需参考训练信息的体系成见,更为直观地提示终端客户预判中固有的不确认性,并容许客户可以开拓妥协释预判的体制。
该观念以这类要害的率先行业为根基,以加快医学行业的根基人工自动研发。咱们概括了信息集的细微差异和高维医学成像机械学习的详细架构注重事项,同时研讨了这类体系的可阐明性、不确认性和误差。在此流程中,咱们为有兴致处理建立临床可翻译 AI 体系,所带来的部分问题和战斗的研发职员供应了一个模板。
2.高维医学影像信息
咱们估计,在可预感的将来,可用的高端量 "AI-ready "注释的医学信息集将仍旧不可满足需要。回过头来分派临床事实标签须要临床顾问投入少量的时间,况且将多机构的信息汇总起来公然公布也存在较大的阻碍。除了须要以在硬放射学真正标签上训练的模型为特点的“诊疗人工自动”之外,还须要依据潜在的更高难的临床综合结果目的训练的 "重病预判人工自动 "。拥有规范化的图片收集协定和临床根本事实判决的前瞻性信息采集,是建立拥有配对临床结果的大范围多核心成像信息集的必须方法。
大范围的多核心成像信息聚会构成不少隐私和责任问题,这类问题与文件中嵌入的潜在敏感信息相关。医学数字成像和通信(DICOM)规范广泛被拿来捕捉、存储和供应医学图片的工作过程治理。成像文件(以.dcm文件或嵌套文件夹构造的形态存储)含盖像素信息和有关元信息。众多的开源和专有工具能够辅助对DICOM文件进行去辨认化。后端医院数据学框架,如Google Healthcare API,是一类革除也许含盖敏感数据的元信息域的方式,也通过 "安全列表 "追随DICOM去标记化。
在面向客户方面,MIRC临床实验解决器匿名器是一类盛行的代替方式,虽然它须要应用某类遗留软件。有据可查的Python软件包(如pydicom)也可用来在应用或转给协作机构此前解决DICOM文件。接着能够提炼成像信息并以各类机械可读体例存储。这类信息集能够快速变得巨大且蠢笨,固然信息存储体例的细节超越了本观念的研讨范畴,但医学成像AI的一个要害参考原因是图片辨别率的保留。
智能去辨认方式或脚本时常被提及的一个毛病是受庇护的健康数据有也许被 "刻录 "在影像文件中。虽然有DICOM规范,但生产商的不同,促使难以通过MIRC临床实验解决器等工具来形成简洁的规则,以屏蔽也许位于受庇护健康数据的领域。咱们倡议应用一个简洁的机械学习体系来屏蔽 "烧录 "的受庇护健康数据。
以超声心动图为例,有一个预约义的扫描领域,在那边能够看见心脏。其余潜在的选取是基于机械学习的光学字符辨认工具,以辨认和屏蔽有印刷文本的领域。DICOM标签自身可用来提炼扫描级数据和特定形式的标签。比如,在超声心动图和心脏磁共振成像 (MRI) 的状况下,能够轻盈地从DICOM元信息中提炼首要的扫描级别数据,比如收集帧速度和日期或MRI序列 (T1/T2)。
图1:基于云的合作式注释工作过程。基于云的工具可用来形成顾问注释信息集,并通过安全连通与临床顾问进行评价。图为MD.ai的一个施行计划,此中临床顾问进行各类2D探测以测评心脏性能。
针对牵扯人工自动体系与临床医师进行侧面基准测验的研发工作,或在临床注释者的辅助下计划大型信息集,咱们倡议以DICOM体例存储扫描的副本。如此就能够通过可扩展和易于应用的云端注释工具进行布置。现在有几种处理计划用来分派扫描信息供临床顾问评价。需要的范畴也许从简洁的扫描级标签到全面的特定行业的解剖学分隔掩码。在咱们的机构,咱们布置了MD.ai (New York, New York),这是一个基于云的注释体系,可原生解决存储在机构核准的云存储供应商(谷歌云存储或亚马逊 AWS)上的DICOM文件。代替品供应相似的性能,如ePadLite(Stanford, California),它能够免费应用。基于云的注释方式的另一个优势是,扫描能够持续远古的辨别率和品质,实时合作模仿 "基于队伍 "的临床抉择,注释和标签能够较容易地导出用来下游解析。最首要的是,此中不少工具都能够用任意网络浏览器近程访问,以及极易操控,极大地提升了客户感受并加重了临床协作者的技巧包袱。
最终,较新的机械学习训练范式,如联邦学习,也许有助于规避不少与信息同享有关的阻碍。Kaissis等人检查了联邦学习的准则、安全危害和施行战斗。这类方式的首要特征是在每个机构都训练本地算法副本,唯独同享的数据是神经网络在训练流程中学习到的特点。在预约的时间间隔内,从每个机构的算法中学到的数据(训练的权重)被集中起来并从新分派,高效地从一个大型的多核心信息集中学习,而不须要传输或分享任意医学成像信息。这有助于迅速训练算法,从胸部计算机断层扫描中探测COVID-19的特点。
虽然在医学成像行业已然有了联合学习的顺利示范,而在将这类方式用来常规临床应用时,仍旧存在少量技巧战斗。特别是在高维成像机械学习体系的布景下,从多个参加核心传输和刷新训练的权重而引入的网络延缓,变成训练更大神经网络的根本速度限定方法。研发职员还必需保证训练后的权重在参加机构之间的传输是安全和加密的,这进一步加大了网络延缓。另外,在设计研发时,假设不可访问源信息,计划信息集的品质和一致性也许极具战斗性。不少概念上相似的联合学习框架仍旧假设对源信息有绝对水平的访问。
3.计算架构
当代临床机械学习中应用的神经网络架构,首要来自于那些对于大型照片或视频辨认任务28进行优化的架构。纵然在细粒度分类的其余战斗性任务中,这类架构也十分稳健,此中类拥有玄妙的类内差别(狗的品类),而不是拥有高类间差别的显著不同目标(飞机与狗)。通过对大型信息集(比如ImageNet)进行十足的预训练,这类 "现成 "架构的功能优于为其量身定做的细粒度分类器。此中不少架构可用来盛行的机械学习框架,如TensorFlow和Pytorch。最首要的是,这类框架往往为各类不同的神经网络架构供应ImageNet预训练权重,使研发职员可以快速将它们从新用来专门的医学成像任务。
不幸的是,绝大多数的临床成像方法都不是简洁的静态 "图片"。比如,超声心动图是一类心脏的二维(2D)超声影像。这类 "视频 "能够从多个不同的视角拍摄,进而能够对心脏进行更广泛的评价。CT和MRI扫描能够被认定是一堆二维图片,必需按图片次序进行解析,不然医师有也许错过器官之间沿某一轴线的有价值的联系。
因而,这类 "成像 "形式更相似于视频。将其成为图片拆开解析,也许会造成空间或时间布景的遗失。比如,将视频每一帧成为独立的图片进行解析解决,会造成每一帧视频之间时间数据的遗失。在借用超声心动图、CT和MRI扫描的各类任务中,基于视频的神经网络算法比其 2D算法有相当大的改善,但集成多个不同的视图平面带来了额外的维度,很难将其归入当下框架。
与全面的基于图片的预训练网络库不同,对视频算法的追随仍旧有限。对布置新架构感兴致的研发职员也许须要自身在大型公然的视频信息集(如Kinetics和UCF101(中佛罗里达大学101--动作辨认信息集))上施行预训练方法。另外,视频网络的训练计算本钱也许要高几个数目级。固然应用大型自然景物信息集进行预训练是开发临床成像机械学习体系的一个公认的方略,但不可确保功能的提高。对于预训练的功能改善的报表很常见,特别是在应用较小的信息集时,但紧随训练信息集的加大,其优势会渐渐减小。
在2018年美国国度卫生研发院的线路图中,缺少特定于医学成像的架构被认定是一项要害战斗。咱们进一步衍生,提出训练这类架构的方式,对这类体系将转变为现实方面阐扬侧重要功效。咱们认定,下一代的高维医学成像AI 将须要对更充足、更有布景意思的目的进行训练,而不是简洁的分类标签。
现在,大多数医学成像AI体系专注于从常态布景下诊疗个别重病。典型的方式是在训练这类算法时分派一个数字标签(重病:1;常态:0)。这与临床受训职员学习从成像扫描中诊疗不同的重病的方法有较大不同。为了供应更多的 "医学常识",而不是简洁地对自然图片或视频进行预训练,Taleb等人提出了一系列应用大型无标签医学成像信息集的新式自我监督预训练技巧,旨在帮助开发基于3D医学成像的人工自动体系。
神经网络首先通过施行一组 "署理任务 "来学习 "描绘 "成为填写的成像扫描。比如,通过让网络像拼图同样 "从新组合 "填写的扫描信息,它们能够被训练成 "解读 "在各类病理和心理状况下哪类解剖构造是互相一致的。将成像扫描的信息与放射学报表配对是另一个有趣的方略,基于胸部X射线的人工自动体系获得了相当大的顺利。
本着供应更细微的临床布景并将更多的 "常识 "嵌入神经网络的精神,报表中的文本通过最超前的自然话语机械学习算法进行解决,随后训练视觉网络,以更好地解读让各类重病 "不同"的原因。但是,最首要的是,他们标明应用这类方式能够将特定下游分类任务的标志信息量减小多达两个数目级。因而,未标志的成像研发,不管是单独的还是结合成对的文本报表,都能够成为有效预训练的根基。随后,对较小的高端量根基实况信息样件进行微调,以完结特定的监督学习任务。
虽然这类方法有助于调节现有的神经网络架构,使其应用于医学成像,但为特定任务设计新的架构须要专业常识。模型架构相似于大脑,而训练后的权重(训练中优化的数学函数)相似于头脑。进化搜刮算法的进展借用机械学习方式来发掘为特定任务订制的新架构,进而构成比人类建立的架构更高效和更高功能的架构。这类都为成像形式特定架构的成长供应了一个独到的契机。
训练深度学习算法依附图形解决单元(GPU)来施行大范围的并行矩阵乘法运算。云计算 "随用随付 "的GPU资源和拥有高内存容量的消费级GPU的可用性,都有助于减低对开发医学成像机械学习体系感兴致的研发职员的准入门坎。虽然有了这类进展,而在大型视频信息集上训练高难的当代网络架构须要多个GPU持续运作数周。
临床研发小组理应注重,固然在相对廉价的计算机上训练单一模型也许是可行的,但要搜到最好功能的准确设置组合,几乎一直须要应用专门的设备和计算集群来在合理的时间范畴内返回结果。强力的抽象层(比如,Pytorch Lightning)还容许研发小组创建内部规范,以模块化的形态建立其代码。采取如此的模块化方式,神经网络架构和信息集能够较容易地被更换,有助于迅速将过去为临床成像形式设计的体系从新用来新的用例。这类方式也有助于通过以新的方法集成子组件来扩展这类体系的性能。
4.时间-事情解析和不确认性量化
紧随医疗人工自动体系从 "诊疗 "转向更多的 "预后 "运用,时间到事情的预判(而不是简洁的二进制预判)将在临床场景中发掘更多的有关性。时间-事情解析的特征是可以预判成为时间函数的事情几率,而二分类器只可供应一个预约时间的预判。与二元分类器不同的是,时间-事情解析参考到了信息的删减,以参考到那些得到随访或在观测时间范畴内没有历经有关事情的人。生存解析在临床研发中很常见,也是制订循证明践指南的中心。
用基于图片和视频的机械学习来扩展传统的生存模型,能够对组织切片或医学成像扫描中的特点的预后价值供应强有力的洞察力。比如,将Cox比率损失函数的扩展调整到传统的神经网络架构中,促使仅从组织病理学切片中预判癌关键果变成也许。咱们不主张应用此类视觉网络来划定怎样进行护理,而是主张将其用作标志临床医师漏掉早期恶性肿瘤特点的病例的方式。
归入时间-事情解析在临床大将越来越首要,由于在重病不安稳或初期阶段拥有的可探测特点,在绝对时间后也许会快速成长。
比如,可诊疗为黄斑变性的视网膜特点通常须要数年时间才能表现出去。拥有早期重病特点的患者也许会被标志为“常态”,这让神经网络企图预判将来产生黄斑变性并发症的危害。归入生存和检查的概念也许有助于训练体系更好地将常态人与那些轻度、中度和正在迅速成长中的重病个人分隔。一样,训练视觉网络进行时间-事情解析也许会在用来肺癌筛查,有助于依据预料的侵略性扩散后劲进行危害分层。这类转变工作的要害是要有强力的、经过十足验证的Cox回归的深度学习扩展。在过去的几年里,已然描绘了少量Cox模型的深度学习实行。Kvamme等人提出了一系列的Cox模型的比率和非比率扩展,过去还描绘了更多的生存方式的实行,如DeepSurv和DeepHit46(图2)。
图 2:量化机械学习流出中的不确认性。
正如Sensoy等人所描绘的那样,纵然在不准确的状况下,应用规范方式训练的机械学习模型也能够十分自大。左图:当一个数字被转动180°时,体系自大地分派了一个从 "1 "到 "7 "的标签。右图:但是,用参考分类不确认性的方式,体系会分派一个不确认性分数,能够辅助提示临床医师潜在的错误预判。
但是,从可操控的角度来看,时间-事情预判也许存在问题。在肺癌筛查的如果示例中,胸部计算机断层扫描中的可疑结节也许会构成一个预判,即在有或没有恰当的治愈干预的状况下的中位生存率。对临床医师来说,理解机械学习体系对个人病人的预判的有多大的掌控也许是较有意义的。当对一项任务没有掌控时,人类通常会谨严行事。机械学习体系也反映了这一点,此中流出是0到1范畴内的“类型几率”或“准确的也许性”。但是,现在文献中描绘的大多数医学影像机械学习体系,当供应给模型的填写信息超越散布范畴时,缺少说 "我不知晓 "的隐含本领。比如,纵然填写图片是猫的图片,训练用来从计算机断层扫描(比如)预判肺炎的分类器在设计上也被逼迫供应流出(肺炎或非肺炎)。
在他们对于深度学习中的不确认性量化的论文中,Sensoy等人用一系列的损失函数来处理这类问题,这类损失函数分派了一个 "不确认性分数",以此来以免错误的、但有掌控的预判。在项目标转变阶段,当人工自动体系被布置在与人类客户一块工作的场景中时,不确认性量化的益处就显现了。信念度量是AlphaFold2的一个要害原因,该蛋白质折叠机械学习体系在第14届蛋白质构造预判要害评价(CASP14)战斗中获得了无与伦比的确切性,给DeepMind研发队伍供应了一类方式来掂量他们理应对正在形成的预判赋予多大的信赖。不少不确认性量化方式的实行全是在许可的状况下进行的,以及与常用的机械学习框架兼容。归入不确认性量化也许有助于提升高危害的医学成像机械学习体系的可阐明性和牢靠性,并减小智能化误差的也许性。
5.可阐明性人工自动和损害危害
除了量化某类机械学习体系的预判成效外,针对建立这类体系的工程师和应用它们的临床医师来说,他们更感兴致的是理解这类机械学习体系是怎样得出论断的。明显性图和类激活图实际上仍旧是阐明机械学习算法怎样进行预判的规范。
Adebayo等人较近的研发标明,只是依附明显性图的视觉外表也许会构成误导,纵然乍一看它们与布景有关。在一系列全面的测验中,他们发掘,不少盛行的形成过后明显性图的方式并没有从模型权重中获取真实的意思,而是与 "边界探测器"(简洁映照像素强度之间的刺耳过渡领域的算法)没有差别。另外,纵然这类可视化方式见效,除了机械学习算法正在寻找的 "位子 "之外,也几乎不能破译。在许多示例中,不管是准确还是错误的明显性图看起来几乎是同样的。当 "抱病 "状况和 "常态 "状况之间的差别须要关心图片或视频的同一领域时,这类毛病就愈加显著了。
图3:过后模型阐明的误导性。
a, Adebayo等人用MNIST信息集的真正标签训练的模型(上)和随机噪声训练的模型(下)进行的试验。当通过大多数可视化方式进行评价时,在随机噪声上训练的模型仍旧构成圆形外形。b,超声心动图视图平面的探测:错误的分类(左上)和准确的分类(右上)都构成相似的明显性图(下)。
临床医师理应注重,仅靠热图不够以阐明AI体系的性能。在尝试用如上图所示的可视化方式来辨认故障形式时,必需谨严。一个更精致的方式也许牵扯到持续遮挡测验,即在有意袒护临床医师拿来进行诊疗或预判的领域后,评价图片的功能。这个思想十分直观:在已知对诊疗某种重病很首要的领域被掩蔽的图片上运作算法,比如,在企图诊疗心力衰竭时掩蔽左心室,理应能够看见功能的急剧下落。
这有助于确定人工自动体系正在关心有关行业。特别是在高维医学成像研发的布景下,激活图也许为视频类成像研发的某类时间阶段的相对首要性供应独到的看法。比如,某类重病也许在心脏紧缩时表现出病理特点,而针对其余重病也许须要人们关心心脏疏松时的状况。往往如此的试验也许标明,机械学习体系从临床医师传统上不会应用的图片领域中辨认出潜在的数据特点。除了采集对于这类机械学习体系怎样构成其流出的数据外,严酷的可视化试验也许供应一个独到的机会,能够从被评价的机械学习体系中学习生物学的看法。
另一方面,激活与临床上已知的首要领域的误差也许预示着网络正在学习非特同性的特点,使它们不太也许较好地归纳到其余信息集。
机械学习体系学习的特点也许取决于架构的设计。更首要的是,机械学习体系会依据供应给它的训练信息和目的来学习和持续体系性的不平等。紧随医疗保健人工自动体系不停向将来的重病预判成长,必需愈加谨严地参考到这类群体在获取医疗保健和结果方面的较大差别。
在较近的评论中,Chen等人深入概括了从问题选取到布置后阶段的潜在误差来历。在这里,咱们重点研讨机械学习体系开发初期的潜在处理计划。部分人主张用部分方式来阐明当代机械学习体系的其余 "黑箱 "预判,而其余人则主张一开启就限定应用更可阐明的模型。除了在训练全部AI体系时结合构造化信息的填写之外,旁边方式还牵扯应用黑盒模型训练医学成像神经网络。
这能够通过创建 "交融网络 "来实行,此中表格信息被归并到基于图片或视频的神经网络中,或其余拥有相近根本目的的更超前的方式(形成组合信息的低维表达的智能编码器)。纵然没有将人口统计学填写归入高维视觉网络,研发小组通过较为不异性别、种族、地域和收益群体的表现来核验他们的模型也很首要。
机械学习体系也许会无意中学会进一步持续和鄙视个别民族和有色人种,因而在模型开发流程的初期理解这类成见是至关首要的。对机械学习体系的信赖针对更全面的采取至关首要,正如开拓特定的特点或变量怎样并且为什么会造成预判同样,通过结合明显性图和预计特点首要性的模型无关的方式。
另一类方式是在训练逻辑中限定机械学习算法,保证产生优化方法以操控感兴致的人口统计学变量。这种似于多变量回归模型,此中感兴致的危害原因的牵连能够独立于基线人口统计学变量来研发。从技巧角度看,这将牵扯到在训练循环中插入一个额外的责罚性损失,并紧记与稍低的模型功能的潜在掂量。比如,Fairlearn 是用来评价传统机械学习模型公道性的盛行工具包,以及已然开发了基于Fairlearn算法 (FairTorch) 的束缚优化,这是在训练流程中调整误差调节的有期望的开拓性尝试。有不少开源工具包能够辅助研发职员确认不同变量和填写流(图片预判,并且类似性别和种族等变量)的相对首要性。这类技巧也许容许开发更公道的机械学习体系,乃至能够发掘没有预期到的暗藏成见。
6.总结
虽然计算架构和获得高端量信息是建立优良模型的要害,但为高维成像形式开发可转换的机械学习体系方面还须要积极,以更好地代表信息的 "视频 "本质。另外还须要在模型开发的初期阶段创建有助于处理成见、不确认性和可阐明性的性能。对医学成像和人工自动的质疑是有益的,况且在大多数状况下拥有绝对道理。
咱们期望,通过创建容许研发职员评价临床表现、医院工作过程中的调整、与临床医师的互动并且社会人口损害的下游危害的性能,能够在改进人工自动的交付方面迈出有意思的措施。咱们期望研发职员会发掘这个观念较有用,由于它概括了在临床布置方面续等他们的潜在战斗,以及在处理此中部分问题时能够阐扬引导性意思。