产后烦闷预判模型的分类与较为
发布日期:2022-07-30 作者:康为 点击:
产后烦闷(postpartum depression,PPD)是女性临盆后最常见的情感阻碍,会导致产妇、伴侣和婴儿显现多种精神健康问题,从而对家庭和社会构成长远的牵连。PPD的产生往往牵扯生物学、生理和社会场景等多维度的风险原因[1,2,3,4]。临床预判模型[5]是指对拥有某类特点表型的特定群体运用多原因回归创建统计模型进行评价,预判(诊疗)重病的存在或预判(诊疗)重病将来某种结局事情的产生几率。模型建立后能够通过评价误差危害对预判模型的确切性和应用性进行评估及验证[6]。近年来,临床预判模型被全面运用于医学行业,医护职员基于患者当下的健康状况,可量化患者将来患某病的危害,为患者供应个人化医疗倡议,有利于减低医疗本钱,乃至牵连患者的诊疗与结局[7]。
女性自妊娠至临盆这一特殊期间时间跨度较长,往往随同着生理搅扰,并会构成较大的生理应激反应[8],而负面的生理应激反应与PPD息息有关,因而产前运用临床预判模型对PPD的产生危害进行预判可为初期辨认和干预PPD供应时间和空间,并有利于督促临床医疗抉择和减小不良结局的产生。本文旨在对不同型号的PPD预判模型进行分类与较为,以期为PPD研发供应1个更全面的视角,为产前防备及干预工作供应科学根据。1 文献检索方略
本研发检索了PubMed和华夏学术期刊全文(CNKI)信息库。采取医学主旨标题(MeSH)、标题和摘要中的单词并且要害词的组合,以"post-natal depression/ post-partum depression/postnatal depression/postpartum depression"和"risk prediction/prediction model/predictive model"为英文检索词,以"产后烦闷/产后烦闷症"和"危害预判/预判模型"为中文检索词。采取主旨词和要害词相结合的方法进行检索,并对归入文献的考虑文献进行手工检索。英文检索式:post-natal depression or post-partum depression OR postnatal depression or postpartum depression AND risk prediction OR prediction model OR predictive model ;中文检索式:"产后烦闷" OR "产后烦闷症" AND "危害预判" OR "预判模型" 。归入规范:(1)研发目标为年纪≥18岁的孕产妇;(2)研发内容为产后烦闷产生危害的预判模型,拥有完好的模型创建、验证和评估流程;(3)研发型号含盖前瞻性队列研发、回首性队列研发、病例对比研发和横断面研发。消除规范:(1)仅为产后烦闷预判原因、牵连原因研发,未建立预判模型;(2)述评、体系综述、Meta解析、理论研发等型号的研发;(3)反复刊登、品质较差、缺少可用的远古信息的研发;(4)模型含盖的预判变量少于2个。2 PPD的概括
PPD的概念由PITT[9]在1968年初次提出,并将PPD归类于临盆后非典型烦闷病症。美国精神医学学会出版的第4版《精神重病诊疗与统计手册》(The Diagnostic and Statistical Manual of Mental Disorders,DSM-4)中将PPD定论为既往无精神重病史的女性在产后4周内显现显著的烦闷病症或伴随典型的烦闷发作,起码连续两周,导致产妇严重的性能阻碍,往往须要专业治愈[10]。DSM-5中加大了围产期烦闷的概念,并界定烦闷病症产生在妊娠时期或临盆后的前4周内[11],促使PPD的概念及诊疗更拥有科学性和现实意思。
一项涵盖世界56个国度、296 284例产妇的体系综述标明,17.7%的产妇患有PPD[12]。因为新式冠状病毒肺炎(COVID-19)的世界大盛行,超越四分之一的妊妇在COVID-19盛行时期显现比往常更多的临床烦闷病症,围产期烦闷抱病率高达25.6%[13]。成长华夏家因为财务资源不够、卫生体系薄弱等多种原因,PPD的抱病率比发达国度更高[14]。近年来,华夏大陆女性围产期烦闷综合抱病率为16.3%,此中产前烦闷(prenatal depression,PND)抱病率为19.7%,PPD的抱病率为14.8%[15],且展现逐年升高形势[16]。
成为世界上人口最多的国度,我国为了努力应付人口老龄化、进一步优化生育政策,施行了"二孩""三孩"政策,这有利于改进人口构造,但也标志着产后女性也许担当更多的哺育任务,面对着更大的家庭和工作压力,存在着生理健康危害。同时因为缺少本土化的PPD诊疗规范及指南来引导孕期生理健康,生理咨询服务的可及性仍旧有限[17],因而PPD的发病率逐年上升。进行PPD的初期预判、为孕产妇供应有效的防备和治愈服务对制定拥有本土文化布景的医疗制度及保健政策供应首要循证数据显得分外首要。3 PPD预判模型的分类
PPD的产生牵扯生物-生理-社会多维度原因的一同功效,紧随医学形式的改变,个人化医学的进一步推动,面临妊妇海量的诊断数据并且不同的临床病症和体征,选择紧密有关的风险原因归入预判模型及选择最适合的模型建立方式对PPD个人化精确预判尤为要害。建立PPD属性化预判模型通常应用传统逻辑回归方式,比如Logistic回归解析,预判内容含盖PPD的诊疗和预后[18]。紧随大信息发掘和解析的成长,运用非属性化模型即非属性化的机械学习算法建立预判模型越来越受欢迎。机械学习算法通常含盖抉择树、追随向量机(support vector machine,SVM)和K-近邻算法(K-NN)等[19]。运用机械学习算法建立PPD预判模型为PPD的初期预判供应了新的途径。3.1 PPD的属性化模型
现在大一些PPD属性化预判研发将能否产生PPD成为二分类结局变量,从而采取Logistic回归解析方式讨论PPD的风险原因,依据风险原因预判PPD的产生几率,并通过OR值解析预判原因与PPD的关联强度。
属性化模型能够依据PPD有关变量的偏回归系数建立危害评分公式,依据公式能够计算PPD的产生危害,以初期辨认有PPD偏向的产妇。MARACY等[20]依据伊朗乡村地方保健核心采集的6 627例产妇的横断面自我报表问卷材料,应用属性化Logistic回归模型解析问卷中的变量,结果显现烦闷史、受教育水平和意外妊娠等是牵连PPD的首要风险原因。依据这类风险原因建立的危害评分公式形态简洁,易于解读,医护职员能够便利应用。由此因此,运用属性化模型对PPD进行预判拥有很好的可阐明性,对卫生保健专业职员评价PPD能否产生供应了证据追随。
属性化模型也能够通过计算风险原因与PPD之间的关联强度,预判其对PPD的牵连水平。NAKANO等[21]于2020年回首性解析了日本爱知县妇幼保健服务机构2013年7月至2015年6月1 050例孕产妇在妊娠第11周、临盆后14 d内、临盆后1个月及临盆后3个月的信息,并进行Logistic回归解析,表露原因与PPD之间的关联由OR值和95%可信区间确认,结果显现,PPD产前预判原因含盖产前患有精神重病〔OR=4.84,95%CI(2.09,11.19)〕、缺少社会追随〔OR=4.93,95%CI(1.54,15.74)〕、年纪<24岁〔OR=2.43,95%CI(1.37,4.30)〕。通过对风险原因与PPD的关联强度进行解析,能够即时筛选出PPD的高危人群,为有对于性地进行防备及干预奠奠基础。
值得注重的是,建立属性化预判模型时还要参考模型的应用前提并且变量之间的有关性,以免显现过量拟合的状况[22]。?ANKAYA[23]采取前瞻性队列研发设计,采集研发目标孕早期及产后6~8周的通常人口学材料及孕期社会生理健康评价量表(PPHAS)评分,建立2个时间点的Logistic回归模型;结果显现在妊娠时期遭遇丈夫或其余家庭成员的暴力,存在婚姻问题,产前显现烦闷、焦急和高度感觉压力的产妇患PPD的危害很高,能够成为PPD的预判原因,此中妊娠时期遭遇丈夫或其余家庭成员暴力的女性PPD产生率高过未受暴力牵连的女性〔OR=0.056,95%CI=(0.014,0.236)〕。但因为研发中应用的PPHAS量表总分与其余变量之间拥有高度有关性〔r≥ 0.800,P<0.001,方差膨胀因子(VIF)≥3 000〕,即存在多重共线性,因而并未归入Logistic回归模型。属性化模型不能处理非线性问题,对变量各程度上信息散布不平衡的问题也难以解决,而能否存在多重共线性决议着自变量能否被归入回归模型。针对属性化回归模型变量筛选存在多重共线性的处理方式之一便是运用正则化技术中的岭回归、Lasso回归[24]并且弹性网络的方式。3.2 PPD的非属性化模型
近年来非属性化机械学习算法变成医疗预判行业研发的热点方式。临床医学研发信息拥有量大、混同及随机性的特征,借用传统的统计方式预判重病的产生流程常存在绝对的限于性,非属性化机械学习算法能够依据信息型号全智能或半智能地寻找信息中的目的内容,发掘有用常识,频频屡次总结法则,辅助研发者做出抉择或预判。这类通过大信息发掘对重病进行预判的方式适合循证医学和精确医疗的需要。现在运用非属性化机械学习算法创建PPD预判模型的方式含盖基于抉择树的算法、基于朴实贝叶斯的算法、基于追随向量机的算法和基于人工神经网络的算法。3.2.1 基于抉择树的算法
抉择树[25]是一类简洁但全面应用的分类器,因相似于过程图的树构造、能够模拟人类做出抉择的流程而命名。建立抉择树能够对新的信息进行分类。随机树林(random forest,RF)[26]是专门为抉择树分类器设计而成的集成学习方式,含盖多个抉择树,每棵"树"的散布相近,其预判结果综合了多个抉择树的分类结果,因而终极结果会愈加牢靠[27]。同时RF也能很好地解决信息的缺省值问题,拥有很高的分类精度[28],因而RF算法更遭到研发者的青睐。肖美好等[29]采取RF算法对406例妊妇根据能否产生PPD进行抉择分类,综合人口学材料、生物-生理-社会等多个维度的牵连原因,根据变量首要性评分进行排序,罗列了排在前10位的首要预判变量,且该模型预判确切率为80.10%。
除了RF算法外,梯度提高树(gradient boosting decision tree,GBDT)算法也是一类基于抉择树的集成学习方式,该算法一样由多棵抉择树构成,但终极结果为一切抉择树预判论断的积累,因而通过GBDT算法建立的模型更为高难。为了操控模型的高难水平,CHEN等[30]以GBDT为框架,对目的函数添加了正则化项,创建了极度梯度提高(XGBoost)算法。HOCHMAN等[31]依据以色列最大保健组织的电子健康记载信息库,通过应用XGBoost算法建立预判模型并评价临盆后1年内患PPD的危害,结果显现:ROC曲线以下积(AUC)为0.712〔95%CI(0.690,0.733)〕,提醒该模型拥有中等程度的预判功能。运用XGBoost算法能够智能阐明自变量之间的交互功效,同时能够通过解决每个抉择树分类的遗失信息评价不同子集的模型功能。通过XGBoost算法建立PPD预判模型、解析PPD预判原因的首要性并进行排序能够将产妇根据不同的危害群体进行分层,有助于进行初期PPD的探测和干预。3.2.2 基于朴实贝叶斯的算法
朴实贝叶斯[32]发祥于古老数学理论,是一类安稳、构造简洁且非常高效的分类算法,其原理基于前提独立性如果,即一切预判变量之间互相独立,当面临高维度、多分类的信息集时,朴实贝叶斯可迅速对信息集进行分类。JIMéNEZ-SERRANO等[33]应用西班牙7所综合医院1 397例妊妇的产前材料成为信息集,选择此中11个变量建立模型并用来预判临盆后第1周能否产生PPD,结果在训练集中朴实贝叶斯模型实行了灵敏度、特异度和确切性之间的优良平衡,AUC为0.75,展现了最好预判功能。朴实贝叶斯算法简洁,可以解决多分类任务,施行速率快且易于阐明,但朴实贝叶斯算法在变量散布不平衡时分类成效较差,因而应用朴实贝叶斯算法前须要参考变量散布的平衡性以以免预判成效不佳问题[34]。3.2.3 基于SVM的算法
SVM拥有强力的学习性能[35],是机械学习中最常用的一类线性与非线性分类方式,其根本原理是借用恰当的核函数搜到1个超平面,对信息类型进行分开,使训练集的点与超平面之间存在最大也许的距离,以到达信息分类的目标。ZHANG等[36]通过采集508例妊妇孕期的数据,分别采用两类特点选取方式:顾问函询和Filter过滤法,开发了基于SVM的PPD预判模型;结果显现该预判模型筛选出的最首要的3个预判原因是生理顺应本领、孕早期烦闷和月收益程度。两类特点选取方式在模型预判功能的有效性方面没有显著差别,但采取Filter过滤法进行特点选取的SVM模型预判成效更好(灵敏度=0.69,特异度=0.83,AUC=0.78)。除了特点选取方式外,样件量的大小也牵连着PPD预判模型的功能,而因为SVM是一类基于构造危害最小化原则的算法,因而当样件量较小时,采取SVM算法能够以免过量拟合。此外之外,应用SVM算法建立预判模型拥有很好的泛化本领[37]。3.2.4 基于人工神经网络
人工神经网络(artificial neural network,ANN)是从数据解决角度解读和抽象了人脑的神经元网络[38],可创建简洁模型并按不同的连通方法构成不同的网络。多层感觉器(multilayer perceptron,MLP)是一类前馈人工神经网络模型[39],其在单层神经网络的根基上引入了一到多个暗藏层,采用规范反向传递算法(backpropagation algorithm,BP)[40]训练多层感觉器,使多层神经元协同工作,并从信息集中进行学习。FATIMA等[41]提出了一类通过交际媒介平台上客户的文本数据预判PPD的新方式,应用"话语开拓与字词计数"(linguistic inquiry and word count,LIWC)软件提炼交际媒介上形成的话语特点,借用MLP算法并基于话语特点对通常性研讨、PPD和非PPD内容进行分类及PPD人群预判,结果显现,MLP预判模型的确切性为80.36%,精确性为75.11%。MLP可以基于填写特点集导出顶级特点,以及已然发掘该算法更应用于从海量、高难的信息中筛选出有价值的数据[39]。4 PPD预判模型的较为4.1 基于机械学习算法的PPD预判模型的较为
SHIN等[42]通过选择美国重病操控和防备核心PRAMS 2012—2013年的28 755例孕产妇的孕期信息,采取9种不同的机械学习算法建立PPD预判模型,含盖RF、随机梯度提高(gradient boosting model,GBM)、SVM、递归分开与回归树(RPART)、朴实贝叶斯、k-NN、自顺应提高算法(adaptive boosting,AdaBoost算法)、Logistic回归和ANN,并采取了10倍交叉验证进行评价;结果显现:9种预判模型AUC均大于0.5,呈现出优良的预判成效,此中RF算法AUC很高,为0.884(灵敏度=0.732,特异度=0.865),其次是SVM,AUC为0.864(灵敏度=0.791,特异度=0.788)。ANDERSSON等[43]基于瑞典一项群体队列研发中4 277例妇女的信息(含盖人口学信息、临床及生理丈量信息),通过机械学习算法创建PPD预判模型,模型含盖:岭回归、Lasso回归、GBM、散布式RF、极度随机树(XRT)、朴实贝叶斯和重叠组合模型(stacked ensembles models),并评价了不同机械学习算法预判模型的功能。所选机械学习算法的分类功能在确切性、阳性预判值、AUC方面没有显著差别。但是,在灵敏度、特异度和阴性预判值方面差别比较显著。XRT供应了高精度、均衡的灵敏度和特异度的预判功能(确切性:73%,灵敏度:72%,特异度:75%,阴性预判值:33%,阳性预判值:94%,AUC:81%)。通过XRT筛选出相对奉献高过0.9的首要牵连原因为妊娠时期的烦闷和焦急。采取不同机械学习算法建立预判模型的选取是个高难流程,应应用统计软件并通过功能指标判定预判模型的预判确切度,同时也须要结合医疗专业常识和临床实际状况进行判定,参考模型施行的多方面原因。4.2 PPD属性化和非属性化预判模型的较为
运用属性化和非属性化机械学习算法建立PPD预判模型均可以有效预判产妇PPD产生危害,以及大一些预判模型的确切度很高,有利于医护职员即时进行医疗抉择。传统的属性化模型含盖线性回归和逻辑回归,可通过描绘结局指标与1个或多个阐明性变量之间的联系对预判结果进行解析[44]。属性化模型形态简洁、易于解读,拥有很好的阐明性,通过预判原因的权重能够看见不同预判原因对PPD的牵连水平。PPD属性化预判模型以几率的形态流出结果,能够对不同型号的孕产妇进行危害分层,有对于性地进行辅助抉择,因而更应用于医护职员临床运用,但应用属性化模型须要参考信息的散布及共线性问题。
因为妊娠期至产后时间跨度较长、PPD的牵连原因众多、信息构造高难,因而借用传统的属性化建模方式预判PPD的产生也许存在较大的限于性。这时,面临变量的高难状况,非属性化预判模型更具优势。非属性机械学习算法众多,基于抉择树的算法是一类分类精度高、体现形态相对简洁的算法[45],况且能够用图形展现,加大了临床应用性,但不能给出明确的公式,且因为对信息的改变十分敏感,造成安稳性相针对属性化模型较差。另一类全面运用的非属性分类模型是朴实贝叶斯模型,其算法较为简洁,施行速率更快,可是须要计算先验几率,假设变量之间存在关联则其预判成效较差。若信息存在非线性问题,可采取SVM算法,其算法相对高难,信息量大时训练时间较长,因而SVM更合适对小样件量信息供应高效的计算,并以免了过量拟合,进而构成更好的预判结果[46]。相针对Logistic回归、抉择树等算法,ANN是一类高难的非属性化算法,往往须要大批的属性,品种繁琐且不易于阐明,难以得出医学论断来追随临床抉择,但ANN针对大样件临床材料的调整性能有很强优势,诊疗的确切性及分类的确切度很高,拥有高速运算的本领,能够迅速寻找1个高难问题的优解除。另外,ANN还能以通过影像学材料筛选出有诊疗和辨别意思的特点,因而将来的研发能够通过ANN联合影像学特点对PPD进行预判。
针对PPD预判模型的创建,要害是针对信息的解决、特点解析并且模型的选取和算法的运用。因为研发方式、评价规范有所不同,不同机械学习算法预判模型的预判成效有所差异,因而评价每个模型的成效并选取最好预判模型显得至关首要。将来的研发应基于研发队列对终极模型进行外部验证,并对模型的临床有效性进行解析。值得注重的是,将机械学习算法运用于PPD预判的多数研发归入的预判因子牵扯社会人口学及生理社会原因,但很少有研发联合生物遗传学原因进行预判。因而,结合PPD生物-生理-社会3个维度的原因进行模型建立至关首要。同时应注重,应用大信息集可减低预计方差,进而供应更好的预判功能,而运用预判原因数目少且不变化预判功能的预判模型标志着能够加重采集数据的包袱,因此此类预判模型更较易施行和推行。总之,紧随数据科学技术不停成长,信息不停改善,在将来的研发中能够联合生物-生理-社会3个维度的预判原因,应用机械学习算法开发PPD的综合预判模型成为产后烦闷的精确预判工具。5 研发预测
现阶段PPD预判模型的研发如火如荼,"二胎"及"三胎"政策布景下,高危孕产妇数目将不停增加,对属性化、非属性化PPD预判模型进行分类与较为对选取适合的模型建立方式至关首要。值得注重的是,笔者在较为属性化与非属性化模型的流程中发掘,不管哪种模型,均有其对应的应用范畴,在选取适合的模型时也应参考到模型的实用性。因而,倡议在将来研发中建立PPD预判模型时注重下列事项。
首先,预判变量的维度牵连着PPD预判模型的安稳性与确切性。一方面,因为PPD牵连原因高难多样,归入模型的预判原因参差不齐,模型拟合及筛选较优模型存在差别,也许漏掉某类首要牵连原因,因而广泛、多维度确认归入的预判因子至关首要。另一方面,采用高维度预判变量会造成模型过于高难、预判变量缺少代表性、实际运用中难以获得,将不利于有关预判模型在孕产妇中的推行应用。因而,进行多维预判变量的选取时应参考变量能否存在严重的数据堆叠,采用适合的方式(如正则化技术)进行降维。参考到妊娠期至产后的时间跨度较长,还应动态监测孕产妇妊娠期至产后的社会场景、生理及有关生物学预判原因,设置更多获得孕产妇材料的丈量时间点,深入讨论预判变量之间的功效体制,以期归入最好的预判变量。
其次,样件量的确切预计是PPD预判模型牢靠性和可反复性的首要确保。不管应用哪种模型,样件量不够时均较易显现过量拟合的状况,即基于小样件量建立的PPD预判模型难以到更大的人群中进行验证。针对PPD预判模型的开发,选择大样件、多核心的信息有利于提升PPD预判模型的预判成效及泛化本领,但也应参考到研发效益与本钱等现实问题,因而样件量确实定应同时兼备有效性及可行性。在样件量计算方面,RILEY等[47]为怎样计算临床预判模型所需的样件量供应了方式学引导,且不倡议进行信息拆分,而应采取重采样的方式进行内部验证。除了计算样件量,研发归入的孕产妇的代表性也需引发看重,而孕产妇群体特点误差对PPD预判模型的牵连有待进一步研发。
最终,模型验证是施行预判的必须环节,即对模型的辨别度、校准度进行评估。完好的预判模型应含盖对模型的内部验证与外部验证,而现在的大多数PPD预判模型研发仅通过随机拆分信息进行内部验证,这类方式减小了开发队列的样件量,也许减低模型的功能,显现很高的变异度[48]。更好的内部验证方式为k-倍折叠交叉验证并且Bootstrap法,但这两类方式在许多PPD预判模型中常被忽视。同时,内部验证自身并非能确保结果的可推行性,因而还须要大样件量的外部验证,以更好地验证模型的功能[49]。
综上所述,选取适合的模型建立方式至关首要。属性化模型易于阐明,偏重于对线性变量的预判,而非属性化模型在非线性变量预判方面拥有更好的优势,针对文本及图片信息,运用深度学习算法进行解析也许是更好的选取。因而,模型的选取应结合各类算法的性能及特征,参考研发目标、变量型号、维度、样件量、预判原因与结局指标之间联系的高难水平等。在PPD预判方面,研发者更应关心孕产妇PPD产生危害预判模型,注重模型的泛化本领,在参考模型确切度的同时,也应依据临床的应用性、实际运用的便利性选取适合的模型,以免一味谋求统计学的优化,采取了没有必须的高难模型。
本文无利益矛盾。
考虑文献 略
本文来历:王永剑, 齐伟静, 王翼鹏, 等. 产后烦闷预判模型的分类与较为[J]. 华夏全科医学, 2022, 25(24): 3036-3042.(点击文题查阅原文)