馬 薔,尚來旭,張冬陽,單 娜
(長春工業(yè)大學 基礎(chǔ)科學學院, 吉林 長春 130012)
?
協(xié)變量缺失下基于結(jié)構(gòu)EM算法因果網(wǎng)模型選擇
馬薔,尚來旭,張冬陽,單娜*
(長春工業(yè)大學 基礎(chǔ)科學學院, 吉林 長春130012)
針對NSCOT數(shù)據(jù),選用了結(jié)構(gòu)EM算法對模型進行選擇。經(jīng)過具體的計算和分析得到結(jié)論,一個人的身體素質(zhì)和運送到醫(yī)院的時間都會對患者的生存產(chǎn)生直接的影響,而受傷的嚴重程度只對患者的生存產(chǎn)生間接的影響。
協(xié)變量缺失; 結(jié)構(gòu)EM算法; 模型選擇
運用NSCOT(TheNationalStudyonCostsandOutcomesofTrauma,NSCOT)數(shù)據(jù)[1]進行協(xié)變量缺失下因果網(wǎng)模型選擇的研究,NSCOT是美國國內(nèi)醫(yī)療花費和創(chuàng)傷治療結(jié)果研究的相應(yīng)的數(shù)據(jù)。這個研究主要是為了得到關(guān)于創(chuàng)傷中心更好的信息,其針對5 000名18~84歲,來自12個州69家醫(yī)院的創(chuàng)傷病人,通過對其醫(yī)療花費和治療結(jié)果的研究達到相應(yīng)目的。近年來,很多國內(nèi)外的學者都對這個數(shù)據(jù)進行了不同方面的研究。Frangakis[2]等利用主分層設(shè)計對NSCOT的數(shù)據(jù)進行了研究,其得出結(jié)論:對于身體狀況不好的人來說,一個有效的治療是非常重要的。Egleston[3]等對由于死亡使重要混雜缺失情況下的生存者平均因果效應(yīng)進行了研究。通過對NSCOT進行分析,證明了生存者平均因果效應(yīng)的估計都要比通常的回歸好,同時無論是否被分配治療,有創(chuàng)傷中心的醫(yī)療機構(gòu)的生存率都要高于無創(chuàng)傷中心的醫(yī)療機構(gòu)的生存率。Wang[4]等利用NSCOT數(shù)據(jù)對5個不同的估計量進行了比較,其認為在沒有創(chuàng)傷中心的醫(yī)療機構(gòu)的死亡率近似為有創(chuàng)傷中心的醫(yī)療機構(gòu)的死亡率的兩倍。Yan[5]等在文獻[2]研究的基礎(chǔ)上進行了改進,放寬了原有的假設(shè),對NSCOT數(shù)據(jù)進行了研究,得到了因果效應(yīng)的邊界,對于身體狀況差的人來說,一個有效的處理是更好的。雖然有很多人針對這個數(shù)據(jù)進行了分析,并且或多或少地解釋了其中所暗含的一些因果關(guān)系,但是并沒有闡明各個變量間的因果結(jié)構(gòu)關(guān)系,而文中將主要研究NSCOT數(shù)據(jù)的因果網(wǎng)模型選擇問題。由于所給出的數(shù)據(jù)是帶有缺失的,所以,我們不能用一般的方法進行模型選擇。通常來說處理缺失數(shù)據(jù)的方法有均值插補、多重插補等,但是補值的方法會影響變量間的相互關(guān)系,對不完全的信息進行插補的時候,或許會改變其原始數(shù)據(jù)的信息系統(tǒng),從而對以后的分析存在潛在的影響,所以,文中利用結(jié)構(gòu)EM(structuralEM)算法[6]對模型進行選擇。結(jié)構(gòu)EM算法選擇模型結(jié)構(gòu)依賴于懲罰似然評分,文中提到的評分函數(shù)是BIC評分。
文中所用數(shù)據(jù)如下:
A代表身體素質(zhì),A=1代表身體素質(zhì)不好,A=0代表身體素質(zhì)良好;
Z代表處理,即從案發(fā)地送到醫(yī)院的時間,Z=1代表運送時間<10min,Z=0代表運送時間≥10min;
X代表受傷的嚴重程度,X=1代表傷勢輕微,X=0代表傷勢嚴重;
S代表生存狀態(tài),S=1代表生存,S=0代表死亡。
由數(shù)據(jù)的產(chǎn)生背景可以認為變量的順序為A,X,Z,S。對變量進行因果關(guān)系建模時,其基本模型如圖1所示。
圖1 基本模型
圖中,虛線表示該邊可能存在,也可能不存在。
最簡單的模型如圖2所示。
圖2 零模型
此時各變量之間都無因果關(guān)系。
而最復雜的模型如圖3所示。
圖3 全模型
此時各個可能的因果關(guān)系都存在。
所有的可能模型共有26=64種。對于圖3中的全模型,(A,X,Z,S)的聯(lián)合概率分布函數(shù)表示如下:
其中
對于其他模型下,(A,X,Z,S)的聯(lián)合概率分布函數(shù)基于模型結(jié)構(gòu)有類似的分解。
結(jié)構(gòu)EM算法是由EM算法演化而來的,在其步驟的實現(xiàn)過程中與EM算法有很大的相似性?;静襟E如下:
在這個過程中,有兩點需要注意。首先,在EM算法中,根據(jù)填補后的完整數(shù)據(jù)Dt對參數(shù)進行一步優(yōu)化就可以得到此時的最優(yōu)的參數(shù)。但是在結(jié)構(gòu)EM算法中,根據(jù)Dt進行一步優(yōu)化不一定得到此時的最優(yōu)模型。其次,由于固定模型結(jié)構(gòu)進行一步參數(shù)優(yōu)化比進行一步結(jié)構(gòu)優(yōu)化要簡單,所以,結(jié)構(gòu)EM算法并不是每次迭代都同時進行結(jié)構(gòu)和參數(shù)的優(yōu)化,而是在使模型結(jié)構(gòu)不變的情況下,經(jīng)過參數(shù)優(yōu)化后再對結(jié)構(gòu)和參數(shù)同時優(yōu)化。
NSCOT主要是關(guān)于5 000名18~84歲,來自12個州69家醫(yī)院的創(chuàng)傷病人的數(shù)據(jù)。我們將采用文獻[5]所使用的部分數(shù)據(jù),見表1。
在得到似然函數(shù)期望的條件下,利用R軟件[7]對其參數(shù)進行估計,并計算其BIC的值。經(jīng)過多次估計和比較,再選取BIC值最小的模型作為該問題的最優(yōu)模型,此時各參數(shù)的估計值和模型見表2和圖4所示。
表1 NSCOT數(shù)據(jù)整理結(jié)果
注:“-”代表缺失的協(xié)變量觀測值。
表2 最優(yōu)模型下的參數(shù)估計值
圖4 最優(yōu)模型
從數(shù)據(jù)中可以發(fā)現(xiàn),送往醫(yī)院的時間Z與生存狀況S是有直接關(guān)系的。當及時送達醫(yī)院時,患者是不會死亡的,而送達醫(yī)院的時間>10 min時,病人一定會死亡。這在最優(yōu)的因果網(wǎng)模型中體現(xiàn)為Z對S有直接的影響。同時,在最優(yōu)的因果圖中可以看出,一個人的身體素質(zhì)A是非常重要的。當一個人的身體素質(zhì)不好時,即使不是非常嚴重的傷勢也會使其死亡;相反,當一個人擁有好的身體素質(zhì),即使傷勢嚴重也可能存活。在現(xiàn)實生活中,一個人的身體素質(zhì)可以表現(xiàn)性別、工作和身體外部狀態(tài)等多個方面,一般情況下,年輕且身體強壯的男性在受傷的情況下存活的概率自然會大一些,這個常識與我們所得到的因果圖也是吻合的。同時,在因果圖中可以看出,一個人的身體素質(zhì)和受傷的嚴重情況也會在一定程度上影響病人的運送時間。這可能體現(xiàn)了地域特征對病人運送時間的影響。最后,圖中顯示,身體素質(zhì)對受傷的嚴重程度有直接的影響,這也是符合正常的生活常識的。
綜上所述,通過結(jié)構(gòu)EM算法選擇使BIC值達到最小時的模型是合理的,與實際情況相符。
[1]Ellen J MacKenzie, Frederick P Rivara. The national study on costs and outcomes of trauma[J].The Journal of Trauma-Injury, Infection, and Critical Care,2007,63:54-67.
[2]Constantine E, Frangakis, Donald B Rubin. Principal stratification designs to estimate input data missing due to death[J]. Biometrics,2007,63:641-662.
[3]Brian L Egleston, Daniel O Scharfstein, Ellen Mac Kenzie. On estimation of the survivor average causal effect in observational studies when important confounders are missing due to death[J]. Biometrics,2009,65:497-504.
[4]Weiwei Wang. Causal inference in outcome-dependent two-phase sampling designs[J]. Journal of the Royal Statistical Society,Series B,2009,71:947-969.
[5]Wei Yan, Yaqin Hu, Zhi Geng. Identifiability of causal effects for binary variables with baseline data missing due to death[J]. Biometrics,2012,68:121-128.
[6]和超.基于結(jié)構(gòu)EM的隱變量模型學習方法[D].昆明:云南大學,2015.
[7]薛毅,陳麗萍.統(tǒng)計建模與R軟件[M].北京:清華大學出版社,2007:58-60.
Structural EM based causal network model selection withdefaultcovariate
MA Qiang,SHANG Laixu,ZHANG Dongyang,SHAN Na*
(School of Basic Sciences, Changchun University of Technology, Changchun 130012, China)
WithNSCOTdata,structuralEMalgorithmisusedformodelselection.Calculationsandanalysiscomestoaconclusionthandirectinfluenceisfromboththephysicalqualityofapatientandthetransfertimetohospitalwhileindirectinfluenceonlyfromtheinjurydegreeofthepatient.
defaultcovariate;structuralEMalgorithm;modelselection.
2016-01-10
國家自然科學基金資助項目(11571050,11401047)
馬薔(1992-),女,漢族,內(nèi)蒙古赤峰人,長春工業(yè)大學碩士研究生,主要從事因果推斷方向研究,E-mail:292094969@qq.com. *通訊作者:單娜(1981-),女,漢族,吉林長春人,長春工業(yè)大學副教授,博士,主要從事因果推斷圖模型技術(shù)方向研究,E-mail:48978645@qq.com.
10.15923/j.cnki.cn22-1382/t.2016.4.16
O212
A
1674-1374(2016)04-0396-05