• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于時間光滑正則化的序列診療數(shù)據(jù)融合方法

      2021-12-08 02:35:38胡祥培
      管理科學(xué) 2021年4期
      關(guān)鍵詞:疾病診斷數(shù)據(jù)源正則

      鄭 毅,胡祥培

      大連理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,遼寧 大連 116023

      引言

      醫(yī)療信息技術(shù)的飛速發(fā)展及其在醫(yī)療健康領(lǐng)域的普及給醫(yī)療服務(wù)行業(yè)的運(yùn)營模式帶來重大變革,特別是疾病診斷決策支持領(lǐng)域首當(dāng)其沖[1]。診療大數(shù)據(jù)的多源性、動態(tài)實(shí)時更新性和高度醫(yī)學(xué)專業(yè)性等特征給智能臨床決策支持(特別是疾病預(yù)測分析)帶來前所未有的機(jī)遇和挑戰(zhàn),使實(shí)現(xiàn)個性化和精準(zhǔn)化醫(yī)療成為可能[2]。而如何充分利用診療數(shù)據(jù),化解其內(nèi)在的復(fù)雜性和數(shù)據(jù)規(guī)模并提供臨床診斷決策支持,是未來該領(lǐng)域研究的關(guān)鍵問題[3]。因此,智能臨床決策支持中診療數(shù)據(jù)融合方法的研究是當(dāng)前學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的熱點(diǎn)和難點(diǎn)問題[4-5]。

      大量已有診療數(shù)據(jù)分析方法往往只使用單一數(shù)據(jù)源進(jìn)行分析建模[6],由于慢性病患者診療周期長,患者電子病歷中檢查項(xiàng)目的測量值隨時間推移數(shù)據(jù)不斷更新[7],利用單一階段的數(shù)據(jù)源進(jìn)行疾病預(yù)測分析難以刻畫指標(biāo)的動態(tài)變化特征,致使分析方法準(zhǔn)確性降低[8]。目前,多階段的診療數(shù)據(jù)融合研究中關(guān)于不同階段診療數(shù)據(jù)源時間關(guān)聯(lián)性的刻畫缺少科學(xué)、有效的方法,使疾病預(yù)測滯后、診斷準(zhǔn)確性和實(shí)時性受到限制。因此,如何實(shí)現(xiàn)序列診療數(shù)據(jù)有效融合和分析、提高診療大數(shù)據(jù)分析能力、實(shí)現(xiàn)準(zhǔn)確的疾病診斷是亟待解決的問題。

      綜上所述,已有的序列診療數(shù)據(jù)融合方法難以刻畫不同階段診療數(shù)據(jù)的時間關(guān)聯(lián)性,使疾病診斷準(zhǔn)確性和實(shí)時性降低。為了有效解決疾病診斷中序列診療數(shù)據(jù)融合這一挑戰(zhàn)性問題,本研究利用稀疏正則化原理,提出基于時間光滑正則化的序列診療數(shù)據(jù)融合(time smoothing regularization for sequential clinical data fusion,TSRSCDF)方法。該方法針對序列診療數(shù)據(jù)構(gòu)建回歸模型,利用稀疏正則化方法使特征級具有對指標(biāo)的選擇特性、數(shù)據(jù)源級能夠保持不同階段數(shù)據(jù)源具有時間連續(xù)性,最終實(shí)現(xiàn)對序列診療數(shù)據(jù)的融合,提高疾病診斷的準(zhǔn)確性,增強(qiáng)疾病管理的有效性和科學(xué)性。

      1 相關(guān)研究評述

      疾病預(yù)測分析是指利用模型、算法和系統(tǒng)等信息技術(shù)對豐富的、大量的診療數(shù)據(jù)進(jìn)行分析,得出未來與健康相關(guān)的結(jié)果或疾病風(fēng)險(xiǎn)信息,以提高診療決策水平[9-10]。關(guān)于疾病預(yù)測分析的研究主要包括疾病診斷和疾病預(yù)警[11]、再入院率預(yù)測[12]、醫(yī)療結(jié)果預(yù)測[13]和患者死亡率預(yù)測[14]等。

      電子病歷系統(tǒng)中患者的診療數(shù)據(jù)包含數(shù)值數(shù)據(jù)、文本數(shù)據(jù)、影像學(xué)數(shù)據(jù)等大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[15],數(shù)據(jù)的非結(jié)構(gòu)化特性給數(shù)據(jù)融合過程帶來巨大困難,采用特征級融合能夠很好地克服數(shù)據(jù)異構(gòu)性障礙[16]。但不同階段診療數(shù)據(jù)包含的海量特征信息使模型構(gòu)建和參數(shù)求解更加復(fù)雜,因此,本研究將詳細(xì)介紹特征級融合方法的相關(guān)研究以及保持不同階段數(shù)據(jù)源的時間連續(xù)性對于序列診療數(shù)據(jù)融合建模帶來的挑戰(zhàn)。

      基于特征的融合方法[17]過程為:首先,對各數(shù)據(jù)源數(shù)據(jù)進(jìn)行預(yù)處理,將其轉(zhuǎn)換為特征向量;其次,將各數(shù)據(jù)源數(shù)據(jù)對應(yīng)的特征向量按次序串聯(lián),構(gòu)成合成特征向量;最后,通過數(shù)據(jù)融合算法實(shí)現(xiàn)多數(shù)據(jù)源的融合。由于診療數(shù)據(jù)的高度復(fù)雜性,合成特征向量具有高維特征[18],為了避免診療數(shù)據(jù)融合過程中過擬合,國內(nèi)外學(xué)者對診療數(shù)據(jù)融合中的特征高維問題開展了大量研究,主要分為兩類。一類方法采用先降維再融合的思路,CORREA et al.[19]采用奇異值分解降維法對數(shù)據(jù)源特征向量分別進(jìn)行降維,再利用多集合典型相關(guān)分析將醫(yī)療影像學(xué)中兩類影像數(shù)據(jù)與一類數(shù)值數(shù)據(jù)進(jìn)行融合,并很好地關(guān)聯(lián)三類數(shù)據(jù)的空間分辨率和時間分辨率,進(jìn)而提高數(shù)據(jù)分析的準(zhǔn)確性。另一類是在構(gòu)建目標(biāo)函數(shù)時采用稀疏正則化約束改進(jìn)學(xué)習(xí)模型,其本質(zhì)是在構(gòu)建模型中進(jìn)行特征選擇,以降低模型相關(guān)特征維度,代表方法有Lasso正則化方法[20]、組Lasso正則化方法[21]等。ADHIKARI et al.[22]研究高維縱向數(shù)據(jù)分類問題,將其方法應(yīng)用于心血管健康認(rèn)知研究中,利用縱向數(shù)據(jù)診斷患者阿爾茨海默病的病情,實(shí)驗(yàn)結(jié)果證明了該方法的有效性,并得出與病情相關(guān)的重要影響要素;LI et al.[23]使用稀疏逆協(xié)方差估計(jì)對348名受試者的多模態(tài)診療數(shù)據(jù)進(jìn)行分析,預(yù)測患者阿爾茨海默病的病情,得到的模型在診斷準(zhǔn)確性上高于僅使用單一診療數(shù)據(jù)源進(jìn)行疾病診斷的方法。利用基于稀疏正則化理論構(gòu)建的數(shù)據(jù)融合模型,具有靈活刻畫數(shù)據(jù)源間與特征間關(guān)系的優(yōu)勢,同時模型具有特征選擇的特性,使模型具有更好的可解釋性[24]。

      由于序列診療數(shù)據(jù)源具有時間關(guān)聯(lián)性,考慮不同階段數(shù)據(jù)源具有的時間關(guān)聯(lián)特性,實(shí)現(xiàn)采用基于稀疏正則化的序列診療數(shù)據(jù)有效融合、提高診療數(shù)據(jù)分析的準(zhǔn)確性是一個具有挑戰(zhàn)性的研究方向。針對具有多階段的診療數(shù)據(jù)融合問題,其中有代表性的方法有:XIE et al.[25]提出利用疾病不同階段的序列檢查信息和診斷信息,將不同階段的診療數(shù)據(jù)按照時間順序串聯(lián)構(gòu)成合成向量,利用合成向量構(gòu)建回歸模型,預(yù)測疾病狀態(tài)的序列數(shù)據(jù)建模方法;CHEN et al.[26]提出在數(shù)據(jù)預(yù)處理過程中利用時間光滑核函數(shù),對不同階段數(shù)據(jù)賦予不同權(quán)重值,刻畫不同階段指標(biāo)的時間重要性,將多階段數(shù)據(jù)轉(zhuǎn)換為點(diǎn)模型表示的方法;安瑩等[27]針對心血管疾病的準(zhǔn)確預(yù)測問題,提出利用循環(huán)神經(jīng)網(wǎng)絡(luò)等技術(shù)融合多種類型的臨床數(shù)據(jù),并有效捕獲電子病歷數(shù)據(jù)中的時序特征,最終提高心血管疾病風(fēng)險(xiǎn)預(yù)測的性能。但是上述方法仍難以科學(xué)準(zhǔn)確地描述多階段的診療數(shù)據(jù)融合研究中關(guān)于不同階段診療數(shù)據(jù)源的時間關(guān)聯(lián),且存在實(shí)際使用中診斷準(zhǔn)確性較低的問題,因此需要使用準(zhǔn)確性更高的方法刻畫多階段診療數(shù)據(jù)融合中的時間關(guān)聯(lián)性。

      基于稀疏正則化的序列診療數(shù)據(jù)融合過程存在以下困難。①對于序列診療數(shù)據(jù)融合中不同階段診療數(shù)據(jù)源時間關(guān)聯(lián)性的刻畫。建立相應(yīng)的稀疏正則化模型,使不同階段數(shù)據(jù)源具有的權(quán)重因子隨時間變化,診療數(shù)據(jù)中相同特征的權(quán)重因子隨時間的變化具有連續(xù)性和一致性。②對于序列診療數(shù)據(jù)融合中合成特征向量的處理。序列診療數(shù)據(jù)合成特征向量具有高維性,因此需要在構(gòu)建序列數(shù)據(jù)融合模型時對模型進(jìn)行降維處理,并在不同階段數(shù)據(jù)源中選擇相同特征,以提高模型泛化能力和可解釋性。③高效的數(shù)值優(yōu)化算法設(shè)計(jì)。由于引入稀疏正則化項(xiàng),使模型參數(shù)的優(yōu)化求解問題不具有解析解,因此需要針對模型特征設(shè)計(jì)高效的數(shù)值求解算法[28]。為了有效解決上述困難,本研究構(gòu)建基于時間光滑正則化的序列診療數(shù)據(jù)融合模型以及設(shè)計(jì)高效求解算法,并利用阿爾茨海默神經(jīng)影像學(xué)計(jì)劃[29]中序列磁共振成像檢查數(shù)據(jù),針對阿爾茨海默病進(jìn)行疾病診斷,以驗(yàn)證方法的有效性。

      2 基于時間光滑正則化的序列診療數(shù)據(jù)融合方法

      針對目前關(guān)于序列診療數(shù)據(jù)融合問題研究存在的不足和挑戰(zhàn),本研究提出基于時間光滑正則化的序列診療數(shù)據(jù)融合方法。先介紹采用回歸分析構(gòu)建的序列診療數(shù)據(jù)融合模型,在此基礎(chǔ)上在模型訓(xùn)練過程中構(gòu)建時間光滑正則化罰函數(shù),刻畫不同階段診療數(shù)據(jù)源的時間關(guān)聯(lián)性,建立基于時間光滑正則化的序列診療數(shù)據(jù)融合模型。由于提出的模型難以數(shù)值求解,本研究采用近端加速梯度下降優(yōu)化算法[30]對模型進(jìn)行求解。

      2.1 理論基礎(chǔ)

      假設(shè)診療數(shù)據(jù)為具有n個階段的序列數(shù)據(jù)x1,x2,…,xt,…,xn,xt為第t階段的檢查特征,為m維實(shí)數(shù)向量,xt∈Rm,R為實(shí)數(shù)向量集,m為各階段檢查特征的維度,第(n+1)階段對應(yīng)的診斷結(jié)果為y,y∈{+1,-1}。本研究采用回歸模型構(gòu)建疾病診斷模型,假設(shè)當(dāng)前階段為n,記X為特征矩陣,X=[x1;x2;…;xn]T∈Rn×m,T為矩陣的轉(zhuǎn)置。患者第(n+1)階段診斷結(jié)果的患病預(yù)測模型為

      (1)

      其中,wt為對于xt的權(quán)重向量;c為截距,c∈R;wt和c皆為需要求解的參數(shù)。針對(1)式最直接的求解方法為利用邏輯損失函數(shù)[31]進(jìn)行參數(shù)擬合,即

      (2)

      利用(2)式進(jìn)行的參數(shù)擬合未能考慮不同階段特征的時間關(guān)聯(lián)性,導(dǎo)致針對序列診療數(shù)據(jù)融合分析的精確性難以提升。

      2.2 基于時間光滑正則化的序列診療數(shù)據(jù)融合模型

      為了刻畫序列診療數(shù)據(jù)融合中不同階段特征的時間關(guān)聯(lián)性,在(2)式擬合參數(shù)模型的基礎(chǔ)上,采用結(jié)構(gòu)化稀疏的方法構(gòu)建時間光滑正則化罰函數(shù),使同一特征相鄰階段的權(quán)重系數(shù)差別較小,進(jìn)而保證預(yù)測結(jié)果的連續(xù)性和一致性,提高方法對于疾病診斷的準(zhǔn)確性。具體模型為

      (3)

      由于序列診療數(shù)據(jù)合成特征向量具有高維性,使通過(3)式擬合的預(yù)測模型難以處理“維度災(zāi)難”問題,致使模型泛化能力降低,處理高維特征的預(yù)測問題一般采用降維方法。為了使模型具有可解釋性,采用結(jié)構(gòu)化稀疏的方法對合成特征向量進(jìn)行降維處理,模型學(xué)習(xí)過程中構(gòu)建基于l2,1范數(shù)的組Lasso正則化罰函數(shù)[32],使預(yù)測模型能夠利用不同階段序列診療數(shù)據(jù)中的相同特征進(jìn)行疾病診斷。結(jié)合時間光滑正則化罰函數(shù),得出具有時間光滑正則化罰函數(shù)的序列診療數(shù)據(jù)融合模型,即

      (4)

      圖1 TSRSCDF模型進(jìn)行疾病診斷流程

      2.3 求解TSRSCDF模型的近端加速梯度下降優(yōu)化算法

      由于TSRSCDF模型中包含組Lasso和融合Lasso兩類正則化罰函數(shù),使模型不可微,求解光滑優(yōu)化問題的經(jīng)典算法難以適用;同時,由于邏輯損失函數(shù)具有的復(fù)雜形式,使模型難以解析求解。

      針對TSRSCDF模型的求解,一種思路是采用對偶原理構(gòu)建輔助變量和約束條件,將(4)式等價地轉(zhuǎn)換為帶約束的光滑優(yōu)化問題,然后利用凸優(yōu)化算法進(jìn)行數(shù)值求解[34]。TIBSHIRANI et al.[33]針對具有融合Lasso罰函數(shù)的最小平方誤差優(yōu)化問題,引入輔助變量將模型重構(gòu)為具有線性約束和非負(fù)約束、目標(biāo)函數(shù)為光滑函數(shù)的約束優(yōu)化問題,然后針對等價優(yōu)化問題采用SQOPT軟件包進(jìn)行求解。AHMED et al.[35]針對具有融合Lasso罰函數(shù)的邏輯回歸問題,引入輔助變量構(gòu)建等價優(yōu)化問題,并對等價問題采用CVX優(yōu)化軟件包求解。然而此種方法求解效率較低,TIBSHIRANI et al.[33]認(rèn)為,當(dāng)樣本量大于200、樣本維度高于2 000時,此算法不能有效求解問題。因此,提出近端加速梯度下降法對TSRSCDF模型進(jìn)行高效求解。

      由于加速梯度下降算法是針對求解非光滑優(yōu)化問題具有收斂階最高的二階梯度下降求解方法[36],本研究采用加速梯度下降算法框架設(shè)計(jì)優(yōu)化算法。記

      (5)

      其中,Loss(·)為訓(xùn)練數(shù)據(jù)的經(jīng)驗(yàn)誤差損失函數(shù),則TSRSCDF模型可化為

      (6)

      首先,構(gòu)建目標(biāo)函數(shù)f(·)在點(diǎn)(W,c)的近似為

      (7)

      其中,U為具有n×m維變量矩陣,U=[u1;u2;…;ut;…;un]T∈Rn×m,ut為權(quán)重向量wt的近似,t=1,2,…,n;d為截距,d∈R,R為實(shí)數(shù)集;L為Loss(·,·)二階導(dǎo)數(shù)的近似值,L>0;‖U-W‖F(xiàn)為矩陣U-W的F-范數(shù)。由于(7)式是關(guān)于(6)式的近似,因此目標(biāo)函數(shù)(7)式的最優(yōu)解可作為目標(biāo)函數(shù)(6)式的最優(yōu)解的近似,導(dǎo)出針對(6)式的梯度下降迭代求解算法,即

      (8)

      其中,k為迭代次數(shù),Wk為n×m維變量矩陣,Wk∈Rn×m;ck為常量,ck∈R;Lk為搜索步長。

      加速梯度下降算法迭代過程中產(chǎn)生兩組序列:{(Wk,ck)}為解近似值,{(SWk,sck)}為搜索方向,{(SWk,sck)}為(Wk-1,ck-1)和(Wk,ck)的線性組合,即

      (SWk,sck)=(Wk,ck)+βk(Wk-1,ck-1)

      (9)

      其中,SWk為n×m維變量矩陣,SWk∈Rn×m;sck為常量,sck∈R;βk為組合參數(shù)。因此,加速梯度下降算法的近似值更新算法為

      (10)

      基于Armijo-Goldstein規(guī)則[37]計(jì)算Lk,優(yōu)化問題(10)式是求解TSRSCDF模型(6)式的關(guān)鍵,下面給出利用近端算子[38]對該問題的求解方法。

      記(6)式的近端算子為

      μ‖W‖2,1}

      (11)

      (11)式可視為(6)式中的Loss(W,c)為平方誤差的特殊形式。為了利用(11)式求解TSRSCDF模型,下面推導(dǎo)出優(yōu)化問題(10)式與優(yōu)化問題(11)式最優(yōu)解的聯(lián)系,見定理1。

      定理1 優(yōu)化問題(10)式的最優(yōu)解(Wk+1,ck+1)可由優(yōu)化問題(11)式導(dǎo)出,即

      (12)

      證明:首先,將等式右側(cè)的算式按照定義展開;其次,將優(yōu)化函數(shù)中的2-范數(shù)展開并合并同類項(xiàng);最后,分別按照fLk,(SWk,sck)(W,c)和(Wk+1,ck+1)定義推導(dǎo)出左側(cè)表達(dá)式。具體推導(dǎo)過程省略,如有需要可與作者聯(lián)系。

      由定理1可得,優(yōu)化問題(10)式的最優(yōu)解可由求解優(yōu)化(13)式問題得出,即

      (13)

      利用LIU et al.[39]提出的融合Lasso信號近似優(yōu)化算法對優(yōu)化問題(13)式進(jìn)行求解。具體地,由于(13)式是具有融合Lasso和組Lasso兩項(xiàng)罰函數(shù)的投影算子,可將計(jì)算分為兩步,第一步利用FLSA優(yōu)化算法對子優(yōu)化問題進(jìn)行求解,有

      (14)

      則上述優(yōu)化問題的最優(yōu)解即為(13)式的最優(yōu)解。

      至此,本研究給出求解TSRSCDF模型的近端加速梯度下降優(yōu)化算法,具體如下:

      輸入:W0,c0,L0>0,λ>0,μ>0

      輸出:W,c

      初始化:k=1,W1=W0,c1=c0,α-1=0,α0=1,L=L0(α為算法內(nèi)部變量計(jì)算的特定參數(shù))

      重復(fù)

      查找最小L=2pLk-1,p為任意實(shí)數(shù),p=0,1,…,使f(Wk+1,ck+1)≤fL,(SWk,sck)(Wk+1,ck+1)成立,其中,

      直至|f(Wk+1,ck+1)-f(Wk,ck)|? TOLERANCE*|f(Wk,ck)|成立

      首先初始化各參數(shù)的值,然后逐步迭代求解W和c的值。每一次循環(huán)中按照加速下降策略確定搜索方向(SWk,sck),逐漸增大搜索步長L的值,并利用f(Wk+1,ck+1)≤fL,(SWk,sck)(Wk+1,ck+1)條件確定搜索步長,逐步更新參數(shù),直至相鄰循環(huán)中目標(biāo)函數(shù)值差值的絕對值滿足精度,終止循環(huán),并輸出最優(yōu)解。

      3 實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析

      本研究選取阿爾茨海默病進(jìn)行疾病診斷,驗(yàn)證基于序列診療數(shù)據(jù)融合的疾病診斷方法實(shí)際效用。本研究數(shù)據(jù)來源于阿爾茨海默神經(jīng)影像學(xué)計(jì)劃數(shù)據(jù)庫[29]中837名患者的核磁共振檢查數(shù)據(jù),每個核磁共振檢查數(shù)據(jù)樣本包括患者的白質(zhì)分解體積、皮層分割體積、表面積、皮質(zhì)厚度平均值和皮質(zhì)厚度標(biāo)準(zhǔn)差5類檢查特征指標(biāo)[40],共350項(xiàng)檢查指標(biāo)及患者的病理診斷結(jié)果。將患者第一次檢查的時間點(diǎn)稱為基線(baesline,BL),其后不同階段的檢查數(shù)據(jù)按照相對于基線的時間間隔進(jìn)行標(biāo)注。例如,M06表示該檢查對應(yīng)的時間階段是第一次檢查后的6個月?;颊叩男蛄袡z查數(shù)據(jù)時間間隔為{BL,M06,M12,M18,M24,M36,…… }。

      實(shí)驗(yàn)中本研究將利用TSRSCDF模型融合序列診療數(shù)據(jù),對下一階段患者病情進(jìn)行預(yù)測,從而達(dá)到診斷疾病的目的。患者的病理診斷結(jié)果分為癡呆-正類和正常-負(fù)類共兩類,采用受試者工作特征(receiver operating characteristic,ROC)曲線測量預(yù)測的性能[41]。ROC曲線是以假陽性概率為橫軸、真陽性概率為縱軸組成的坐標(biāo)圖,有

      (15)

      (16)

      其中,F(xiàn)PR為假陽性概率,F(xiàn)P為假正的樣本數(shù)目,TN為真負(fù)的樣本數(shù)目,TPR為真陽性概率,TP為真正的樣本數(shù)目,F(xiàn)N為假負(fù)的樣本數(shù)目。由于ROC曲線并不能直觀比較模型的預(yù)測性能,需根據(jù)ROC曲線下的面積(AUC)作為標(biāo)量指標(biāo)測量模型的預(yù)測性能以及量化模型均衡Ⅰ類錯誤與Ⅱ類錯誤的能力[42]。

      實(shí)驗(yàn)共分為3部分,第1部分對比TSRSCDF方法與單階段診療數(shù)據(jù)分析方法的預(yù)測性能,說明基于序列數(shù)據(jù)融合的疾病診斷方法預(yù)測性能上的優(yōu)勢;第2部分比較TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測性能;第3部分比較利用相同序列診療數(shù)據(jù)針對未來不同階段疾病診斷的預(yù)測性能,分析預(yù)測時間窗長度對于模型預(yù)測性能的影響。

      3.1 實(shí)驗(yàn)1:對比TSRSCDF方法與單階段診療數(shù)據(jù)分析方法的預(yù)測性能

      首先用本研究提出的TSRSCDF方法融合3個階段診療數(shù)據(jù),對患者第4階段的病情進(jìn)行預(yù)測,通過利用TSRSCDF方法對診療序列{BL,M06,M12}進(jìn)行分析,對患者下一階段即M18的病情進(jìn)行預(yù)測。為了實(shí)際驗(yàn)證疾病預(yù)測模型的有效性,對初始數(shù)據(jù)集進(jìn)行篩選,選擇診療序列{BL,M06,M12}中各階段診斷結(jié)果為健康的患者數(shù)據(jù),預(yù)測M18階段患者患病狀況。最終得到223名患者的序列診療數(shù)據(jù),其中M18階段健康人數(shù)為191人,患病人數(shù)為32人。

      單階段診療數(shù)據(jù)分析方法為:①采用具有Lasso正則化罰函數(shù)的線性回歸方法,利用M12階段的診療數(shù)據(jù)預(yù)測M18階段患者患病狀況;②基于多任務(wù)學(xué)習(xí)的疾病預(yù)測方法[8],利用BL階段的診療數(shù)據(jù),構(gòu)建M18階段患者患病預(yù)測子任務(wù)。TSRSCDF方法中的正則化參數(shù)λ∈{10-7,10-6,10-5,10-4,10-3},μ∈{2-9,2-8,2-7,2-6,2-5};具有Lasso正則化罰函數(shù)的線性回歸方法中的正則化參數(shù)μ∈{2-9,2-8,2-7,2-6,2-5},基于多任務(wù)學(xué)習(xí)的疾病預(yù)測方法中的融合Lasso正則化參數(shù)μ∈{2-9,2-8,2-7,2-6,2-5}。各方法中正則化參數(shù)的取值通過交叉驗(yàn)證確定[43]。隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集合,利用學(xué)習(xí)模型對余下的測試數(shù)據(jù)進(jìn)行分類。重復(fù)實(shí)驗(yàn)并計(jì)算ROC曲線下面積的平均值,當(dāng)試驗(yàn)重復(fù)50次后,預(yù)測結(jié)果平均值對于逐步增加的試驗(yàn)次數(shù)趨于穩(wěn)定,因此采用將試驗(yàn)重復(fù)50次并計(jì)算ROC曲線下面積的平均值的做法,TSRSCDF方法與單階段診療數(shù)據(jù)分析方法的預(yù)測性能見表1,黑體數(shù)據(jù)表示ROC曲線下面積的最高值。各方法對應(yīng)的ROC曲線見圖2。

      表1 TSRSCDF方法與單階段診療數(shù)據(jù)分析方法的預(yù)測性能對比

      圖2 TSRSCDF方法與單階段診療數(shù)據(jù)分析方法對應(yīng)的ROC曲線

      由表1可知,由于TSRSCDF方法利用檢查指標(biāo)對應(yīng)不同階段的更多特征構(gòu)建疾病診斷模型,因此具有較高的預(yù)測性能。利用單階段診療數(shù)據(jù)的疾病診斷方法中,相對于基于多任務(wù)學(xué)習(xí)的疾病預(yù)測方法,利用具有Lasso正則化罰函數(shù)的線性回歸方法具有較高的預(yù)測性能,因?yàn)榛诙嗳蝿?wù)學(xué)習(xí)的疾病預(yù)測方法利用BL階段的診療數(shù)據(jù),對M18階段患者患病狀況進(jìn)行預(yù)測,而采用具有Lasso正則化罰函數(shù)的線性回歸方法利用M12階段的診療數(shù)據(jù)進(jìn)行病情預(yù)測,由于預(yù)測時間窗較長,利用BL階段的診療數(shù)據(jù)進(jìn)行的病情預(yù)測難以準(zhǔn)確刻畫疾病的進(jìn)展?fàn)顩r導(dǎo)致預(yù)測準(zhǔn)確性降低。圖2中TSRSCDF方法對應(yīng)的ROC曲線整體高于其他方法,也說明TSRSCDF方法具有較高的預(yù)測性能。實(shí)驗(yàn)1的結(jié)果表明,與利用單階段診療數(shù)據(jù)的病情預(yù)測方法相比,本研究提出的利用序列診療數(shù)據(jù)融合的疾病診斷TSRSCDF方法,在構(gòu)建疾病診斷模型時將不同檢查指標(biāo)對應(yīng)的不同階段檢查值同時進(jìn)行分析,選擇相關(guān)指標(biāo)的不同階段特征值進(jìn)行融合,這一數(shù)據(jù)融合機(jī)理使TSRSCDF方法具有綜合各檢查指標(biāo)中信息變化的優(yōu)勢,最終提升了疾病診斷的準(zhǔn)確性。

      3.2 實(shí)驗(yàn)2:對比TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測性能

      TSRSCDF方法具有的突出特性是模型學(xué)習(xí)過程中使同一特征相鄰階段的權(quán)重系數(shù)差別較小,進(jìn)而保證預(yù)測結(jié)果的連續(xù)性和一致性。為了驗(yàn)證利用TSRSCDF方法對提升疾病診斷準(zhǔn)確性的作用,對比的相關(guān)序列診療數(shù)據(jù)分析方法為:①采用具有組Lasso正則化罰函數(shù)的線性回歸方法;②將多階段診療數(shù)據(jù)轉(zhuǎn)換為點(diǎn)模型表示[26],對轉(zhuǎn)換特征利用具有Lasso正則化罰函數(shù)的線性回歸方法。利用與實(shí)驗(yàn)1相同的樣本數(shù)據(jù),3類方法利用診療序列{BL,M06,M12}數(shù)據(jù)對患者M(jìn)18階段患者患病狀況預(yù)測結(jié)果進(jìn)行對比。TSRSCDF方法中的正則化參數(shù)λ∈{10-7,10-6,10-5,10-4,10-3},μ∈{2-9,2-8,2-7,2-6,2-5};具有組Lasso正則化罰函數(shù)的線性回歸方法中的正則化參數(shù)μ∈{2-9,2-8,2-7,2-6,2-5};將多階段數(shù)據(jù)轉(zhuǎn)換為點(diǎn)模型表示方法,并對轉(zhuǎn)換特征利用具有Lasso正則化罰函數(shù)的線性回歸方法中的正則化參數(shù)μ∈{2-9,2-8,2-7,2-6,2-5}。各方法中正則化參數(shù)的取值通過交叉驗(yàn)證確定。隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集合,利用學(xué)習(xí)模型對余下的測試數(shù)據(jù)進(jìn)行分類。重復(fù)實(shí)驗(yàn)50次并計(jì)算ROC曲線下面積的平均值,TSRSCDF方法和相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測性能見表2,黑體數(shù)據(jù)為ROC曲線下面積的最高值。各方法對應(yīng)的ROC曲線見圖3。

      由表2可知,TSRSCDF方法比相關(guān)序列診療數(shù)據(jù)分析方法具有較高的預(yù)測性能。圖3中TSRSCDF方法對應(yīng)的ROC曲線高于其他方法,也說明TSRSCDF方法具有較高的預(yù)測性能。由于TSRSCDF方法中檢查指標(biāo)對應(yīng)不同階段特征的權(quán)重值由機(jī)器學(xué)習(xí)確定,選取的權(quán)重值更加準(zhǔn)確地刻畫指標(biāo)變化的規(guī)律,且時間光滑正則化罰函數(shù)使相同指標(biāo)不同階段權(quán)重值具有一致性,因此相對于對點(diǎn)模型表示特征[26]利用具有Lasso正則化罰函數(shù)線性回歸的疾病預(yù)測方法具有較高的預(yù)測性能。3類方法中,具有組Lasso正則化罰函數(shù)的線性回歸方法具有最低的預(yù)測性能,因?yàn)樵摲椒ㄔ诜治鲂蛄性\療數(shù)據(jù)時未能考慮不同階段診療數(shù)據(jù)源的時間關(guān)聯(lián)性,進(jìn)而難以準(zhǔn)確刻畫指標(biāo)隨時間變化的特征。

      表2 TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測性能對比

      圖3 TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法對應(yīng)的ROC曲線

      3.3 實(shí)驗(yàn)3:預(yù)測時間窗長度對于疾病診斷準(zhǔn)確性的影響

      實(shí)驗(yàn)3旨在探討預(yù)測時間窗長度w對TSRSCDF方法和相關(guān)序列診療數(shù)據(jù)分析方法疾病預(yù)測準(zhǔn)確性的影響。分別利用各方法融合診療序列{BL,M06,M12}數(shù)據(jù),預(yù)測患者M(jìn)18階段、M24階段、M36階段、M48階段和M60階段患病狀況。針對不同階段的患病狀況預(yù)測,由于患者的檢查序列具有不同的長度,需將實(shí)驗(yàn)1使用的樣本數(shù)據(jù)進(jìn)行篩選,得到針對不同階段病情預(yù)測實(shí)驗(yàn)利用的數(shù)據(jù),詳見表3。

      表3 針對不同階段患病狀況預(yù)測實(shí)驗(yàn)利用的數(shù)據(jù)

      預(yù)測不同階段患者患病狀況的實(shí)驗(yàn)中,TSRSCDF方法中的正則化參數(shù)λ∈{10-7,10-6,10-5,10-4,10-3},μ∈{2-9,2-8,2-7,2-6,2-5},正則化參數(shù)的取值通過交叉驗(yàn)證確定。隨機(jī)選擇80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集合,利用學(xué)習(xí)模型對余下的測試數(shù)據(jù)進(jìn)行分類。重復(fù)實(shí)驗(yàn)50次并計(jì)算ROC曲線下面積的平均值,不同階段患病狀況的預(yù)測性能見表4。

      由表4可知,①預(yù)測時間窗越長,模型的預(yù)測性能越低。TSRSCDF方法對患者M(jìn)18階段和M24階段的患病狀況預(yù)測具有較高的預(yù)測性能,對于具有較長時間窗的疾病預(yù)測性能有所降低,但是整體上TSRSCDF方法針對各個階段患者的患病狀況預(yù)測具有相對穩(wěn)定的預(yù)測性能。②針對M18階段和M24階段患病狀況預(yù)測實(shí)驗(yàn),對比兩組實(shí)驗(yàn)中類標(biāo)簽的分布和分類的結(jié)果,說明TSRSCDF針對M18階段處理分類結(jié)果具有類不均衡特征的預(yù)測問題具有較好的預(yù)測性能。③與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測性能相比,TSRSCDF方法針對不同階段患病狀況預(yù)測的ROC曲線下面積值的標(biāo)準(zhǔn)差(σ=0.030)最小。結(jié)果表明,采用序列數(shù)據(jù)融合的TSRSCDF方法的疾病診斷結(jié)果具有穩(wěn)定性。

      表4 TSRSCDF方法與相關(guān)序列診療數(shù)據(jù)分析方法針對不同階段患病狀況的預(yù)測性能對比

      4 結(jié)論

      本研究探討疾病診斷中序列診療數(shù)據(jù)融合問題,針對序列診療數(shù)據(jù)融合中多個階段的診療數(shù)據(jù)時間關(guān)聯(lián)性刻畫難、合成特征向量降維難和序列診療數(shù)據(jù)融合模型求解難等問題,提出將結(jié)構(gòu)稀疏性與不同階段診療數(shù)據(jù)源的時間關(guān)聯(lián)性有機(jī)結(jié)合,采用序列診療數(shù)據(jù)融合思想的疾病預(yù)測分析研究思路,構(gòu)建基于時間光滑正則化的序列診療數(shù)據(jù)融合方法。

      針對阿爾茨海默病進(jìn)行疾病診斷實(shí)驗(yàn),利用真實(shí)診療數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,將本研究提出的TSRSCDF方法與傳統(tǒng)單階段診療數(shù)據(jù)分析方法相比,表明本研究構(gòu)建的TSRSCDF方法在疾病診斷上具有優(yōu)越性;與相關(guān)序列診療數(shù)據(jù)分析方法的預(yù)測性能對比結(jié)果表明,TSRSCDF方法構(gòu)建的時間光滑正則化罰函數(shù)保證了模型具有刻畫不同階段診療數(shù)據(jù)源的時間關(guān)聯(lián)性特征,同時采用結(jié)構(gòu)化稀疏,使該方法具有較高的預(yù)測性能和可解釋性;實(shí)驗(yàn)結(jié)果進(jìn)一步表明,預(yù)測時間窗長度對于疾病診斷性能的影響及TSRSCDF方法疾病診斷性能具有魯棒性。

      該方法可以推廣到實(shí)際阿爾茨海默病的早期診斷中,提高了智能臨床決策支持系統(tǒng)識別高風(fēng)險(xiǎn)患者的能力,為科學(xué)地實(shí)施慢性病患者疾病管理提供決策支持,進(jìn)而提高患者生命質(zhì)量;同時彌補(bǔ)了傳統(tǒng)診療數(shù)據(jù)分析未能科學(xué)、準(zhǔn)確地刻畫指標(biāo)變化趨勢導(dǎo)致診斷準(zhǔn)確率較低的不足,為開展個性化和精準(zhǔn)醫(yī)療提供決策支持。

      慢性病患者診療數(shù)據(jù)對應(yīng)于每個階段檢查數(shù)據(jù)具有多源的特征,在未來研究中將進(jìn)一步針對多源診療數(shù)據(jù)的融合方法進(jìn)行深入研究,完善診療數(shù)據(jù)融合分析方法,豐富智能臨床決策支持系統(tǒng)研究體系,并將研究結(jié)果應(yīng)用于腦卒中和腦血管疾病等相關(guān)慢性疾病的診斷,進(jìn)一步驗(yàn)證本研究提出的方法在慢性疾病診斷中的普適性和實(shí)用價值,并拓展相關(guān)應(yīng)用研究。

      猜你喜歡
      疾病診斷數(shù)據(jù)源正則
      超高頻超聲在淺表器官疾病診斷中的應(yīng)用
      《呼吸疾病診斷流程與治療策略》已出版
      剩余有限Minimax可解群的4階正則自同構(gòu)
      類似于VNL環(huán)的環(huán)
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
      基于Web及知識推理的寵物狗疾病診斷專家系統(tǒng)
      CD10表達(dá)在滋養(yǎng)葉細(xì)胞疾病診斷中的臨床意義
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
      有限秩的可解群的正則自同構(gòu)
      桐乡市| 桑植县| 昌乐县| 昆明市| 忻城县| 海林市| 双牌县| 股票| 聂拉木县| 柏乡县| 安阳县| 定西市| 临安市| 屏南县| 长岛县| 道孚县| 开平市| 临湘市| 衢州市| 韶山市| 得荣县| 伊通| 桐柏县| 台东市| 昌图县| 如皋市| 双城市| 金坛市| 江都市| 石城县| 改则县| 礼泉县| 盐源县| 衡阳县| 宜宾县| 云浮市| 霍邱县| 交口县| 镇巴县| 叙永县| 环江|