周 琦,萬亞平,2,左建宏,劉 純,馬真真,楊菁華
(1.南華大學(xué) 計(jì)算機(jī)學(xué)院,湖南 衡陽 421001;2.湖南省醫(yī)療大數(shù)據(jù)國際科技合作基地,湖南 衡陽 421001;3.南華大學(xué)附屬第三醫(yī)院,湖南 衡陽 421001)
據(jù)統(tǒng)計(jì),2018年全世界癌癥新發(fā)病例為1 810萬,其中960萬死于癌癥。肺癌作為全球最常見的癌癥,2018年新發(fā)病例為210萬,占總數(shù)的12%[1]。最近兩年因患有惡性腫瘤而死亡的病人逐年上升,雖然在對(duì)癌癥的治療上通過手術(shù)、化療、放療、靶向腫瘤等方面取得了巨大的進(jìn)步,但腫瘤患者的預(yù)后治療仍然是治療的難題。周羽等人(2010)應(yīng)用全自動(dòng)血細(xì)胞計(jì)數(shù)儀及ELISA法測定血小板計(jì)數(shù)濃度,說明了血小板與惡性腫瘤之間存在相關(guān)性[2]。王菊萍等人(2017)通過對(duì)觀測數(shù)據(jù)統(tǒng)計(jì)分析得出血小板水平變化與婦科惡性腫瘤的發(fā)生發(fā)展密切相關(guān)[3]。曾在1872年就有學(xué)者首次報(bào)道過癌癥患者的血小板計(jì)數(shù)增多與惡性腫瘤的侵襲和轉(zhuǎn)移密切相關(guān)。1903年,有研究者首次觀察到人肺癌細(xì)胞周圍有血小板聚集[4]。1970年Silvis等人的研究表明,190名肺癌患者中,有60%的患者有血小板增多癥[5]。1974年,Tranum等人報(bào)道實(shí)體瘤患者也存在血小板增多癥,另外卵巢癌患者血小板增多癥的比例為33%~57%[6]。2015年,Zhang等人在肺癌患者308例病例中,發(fā)現(xiàn)有26.6%的患者伴有血小板增多癥,晚期癌癥與血小板計(jì)數(shù)增加有關(guān)[7]。2014年,Menter D.G認(rèn)為血小板可能影響了癌癥的轉(zhuǎn)移[8]。
雖然癌癥患者中血小板增多的發(fā)生程度似乎取決于特定的惡性腫瘤,但所有研究的共同發(fā)現(xiàn)是癌癥患者中的血小板增多可能是預(yù)后差和生存率低的標(biāo)志。在肺癌患者的觀測數(shù)據(jù)中發(fā)現(xiàn)引入了更多無關(guān)或影響力甚微的因素,早期的研究從觀測數(shù)據(jù)中得出的結(jié)論忽略了其吸煙、分期或者化療等其他因素的影響結(jié)果??赡軙?huì)給臨床醫(yī)生做出無效干預(yù)或者誤導(dǎo)性干預(yù)。為了解決上述問題,該文提出結(jié)合因果網(wǎng)絡(luò)模型分析觀測醫(yī)學(xué)數(shù)據(jù)中的因果識(shí)別,利用因果推斷模型分析臨床資料數(shù)據(jù)中的因果鏈路。
數(shù)據(jù)科學(xué)中許多問題都屬于因果關(guān)系,其目的是了解某種暴露(無論是否隨機(jī)化)對(duì)結(jié)果興趣的影響。即使看似非因果的研究,例如那些以預(yù)測和患病率估計(jì)為目標(biāo)的研究,也存在因果關(guān)系[9]。為此醫(yī)學(xué)統(tǒng)計(jì)學(xué)已經(jīng)通過相關(guān)分析方法對(duì)醫(yī)學(xué)數(shù)據(jù)進(jìn)行了一系列的研究,比如獨(dú)立樣本t檢驗(yàn)、方差分析、卡方檢驗(yàn)和COX回歸比例風(fēng)險(xiǎn)模型分析。但是,這些方法只能理解臨床資料中的關(guān)聯(lián)關(guān)系,有些關(guān)聯(lián)可能有明顯的因果解釋,有些可能沒有,但是無論如何,統(tǒng)計(jì)學(xué)本身并不能揭示,具體哪一個(gè)變量是因,哪一個(gè)是果。
有向無環(huán)圖定義了變量的概率分布,將因果關(guān)系的概念形式化,這一研究重點(diǎn)強(qiáng)調(diào)了理解數(shù)據(jù)生成過程的重要性。而不僅僅表征地觀察到變量的聯(lián)合分布。對(duì)數(shù)據(jù)的因果理解對(duì)于能夠預(yù)測干預(yù)的后果至關(guān)重要。1763年數(shù)學(xué)家Thomas Bayes提出了貝葉斯定理,圖靈獎(jiǎng)得主Judea Pearl將貝葉斯定理發(fā)展到了貝葉斯網(wǎng)絡(luò),2013年張?jiān)碌热吮硎隽素惾~斯網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域的應(yīng)用研究[10]。Hyv?rinen等人(2000)提出了獨(dú)立成分分析算法(ICA)[11],使成分在統(tǒng)計(jì)上獨(dú)立,從而獲取數(shù)據(jù)的基本結(jié)構(gòu)。Zhang等人(2009)通過考慮原因的非線性效應(yīng),內(nèi)部噪聲效應(yīng)和觀測變量中的測量失真效應(yīng),在獨(dú)立成分分析的基礎(chǔ)上提出了后非線性因果模型(PNL),并證明了該方法在因果方向的可識(shí)別性[12]。Shimizu等人(2006)提出了一種線性非高斯非循環(huán)模型(LinGAM),便于從觀測數(shù)據(jù)中識(shí)別因果結(jié)構(gòu)[13]。Rosenstr?m等人(2012)使用LinGAM因果發(fā)現(xiàn)算法探索睡眠問題與抑郁癥中流行病學(xué)的因果關(guān)系[14]。Helaj?rvi等人(2014)在探討觀看電視與中青年熱體重變化是否有因果關(guān)系時(shí)同樣應(yīng)用了LinGAM模型[15]。Ma Sisi在2017年的工作中討論了生物醫(yī)學(xué)中觀察數(shù)據(jù)可用于因果發(fā)現(xiàn)[16]。
獨(dú)立成分分析(ICA)目的是找到非高斯數(shù)據(jù)的線性表現(xiàn)形式,以便成分在統(tǒng)計(jì)上獨(dú)立或盡可能獨(dú)立,這樣表示能夠捕獲許多應(yīng)用程序中數(shù)據(jù)的基本結(jié)構(gòu)。比如:特征提取和信號(hào)分離。假設(shè)觀察到n個(gè)獨(dú)立分量的n個(gè)線性混合物x=(x1,x2,…,xn),則有:
xj=aj1s1+aj2s2+…+ajnsn
(1)
在ICA模型中,假設(shè)每個(gè)混合xj以及每個(gè)獨(dú)立分量sk都是隨機(jī)變量,觀測值xj(t)則是該隨機(jī)變量的樣本。在不失一般性的前提下,可以假設(shè)混合變量和獨(dú)立分量均具有零均值,如果不是零均值,就將觀測變量xi通過減去樣本均值而居中,從而使模型為零均值。在式(1)中用A表示具有元素aij的矩陣,可以說,
A=[ai1,ai2,…,ain]T
式(1)的混合模型可以轉(zhuǎn)化為:
x=As
(2)
式(2)是一個(gè)生成模型,也就是ICA模型,描述了如何通過混合分量si的過程來生成觀測數(shù)據(jù)。獨(dú)立分量是潛在變量,這意味著它不能被直接觀察到,混合矩陣也是未知的,觀察的只是隨機(jī)變量x,需要通過x來估計(jì)A和s。
LiNGAM算法是用于從非實(shí)驗(yàn)數(shù)據(jù)中發(fā)現(xiàn)因果結(jié)構(gòu)的方法,對(duì)數(shù)據(jù)生成過程做了各種假設(shè),以便從純粹的觀測數(shù)據(jù)中進(jìn)行識(shí)別因果關(guān)系。給定一個(gè)m*n的觀測數(shù)據(jù)矩陣X,且m?n,采用ICA算法獲得分解的X=AS,得到連接矩陣Y(Y=WV)的線性變換矩陣W,把W按照嚴(yán)格下三角的W矩陣進(jìn)行排序,得到下三角的W矩陣,通過LiNGAM算法進(jìn)行因果發(fā)現(xiàn)網(wǎng)絡(luò)次序。線性非高斯非循環(huán)模型,在結(jié)構(gòu)方程模型(SEM)的基礎(chǔ)上引入三個(gè)假設(shè),即:
(1)觀測變量xi,i∈{1,2,…,m}可以按照因果順序排列,這樣后面的變量無法影響前面的變量。用k(i)表示這樣的因果順序。也就是說生成過程是遞歸的,這意味著它可以用有向無環(huán)圖(DAG)以圖形的方式表示。
(2)分配給每個(gè)變量xi值是已經(jīng)分配給較早變量值的線性函數(shù),加上一個(gè)“干擾”項(xiàng)也就是噪聲項(xiàng)ei,以及一個(gè)可選常數(shù)ci,即:
(3)
(3)干擾變量ei是所有具有非零方差的非高斯分布的連續(xù)值隨機(jī)變量,并且ei彼此獨(dú)立,即:
p(e1,e2,…,em)=∏ipi(ei)
(4)
使用Wald統(tǒng)計(jì)信息檢驗(yàn)邊的重要性,用于測試觀測到的變量xi是否具有統(tǒng)計(jì)學(xué)意義。定義用于整體模型擬合的測試統(tǒng)計(jì)量:
模型的階矩結(jié)構(gòu):由基于模型的協(xié)方差元素組成。
σ2(τ)=νec+{E(xxT)}
(5)
與式(5)矩對(duì)應(yīng)的樣本定義為:
(6)
通過m2估算σ2(τ0)≈m2,其中τ0表示真實(shí)參數(shù)向量。
分析腫瘤患者癌癥預(yù)后情況時(shí),影響癌癥預(yù)后的因素繁多且關(guān)系復(fù)雜,從觀測數(shù)據(jù)中僅僅只能通過相關(guān)分析,發(fā)現(xiàn)具有簡單統(tǒng)計(jì)學(xué)意義的因素之間的關(guān)聯(lián)關(guān)系。該文利用LiNGAM算法可判斷觀測變量間的因果關(guān)系,指明因果方向及其鏈接強(qiáng)度。在LiNGAM的假設(shè)情況下,僅憑基礎(chǔ)觀測資料就能確定因果結(jié)構(gòu)。
一般對(duì)于腫瘤患者的基礎(chǔ)臨床統(tǒng)計(jì)數(shù)據(jù)包括:年齡,分期,化療、腫瘤大小、血小板計(jì)數(shù)、白細(xì)胞計(jì)數(shù)、生存時(shí)間等基礎(chǔ)指標(biāo)。觀察數(shù)據(jù)矩陣X,每一列包含一個(gè)樣本矢量xi,以分期、血小板和生存時(shí)間為例:從相關(guān)分析的角度可以得出,分期與血小板計(jì)數(shù)之間存在相關(guān)關(guān)系,分期與生存時(shí)間之間存在相關(guān)關(guān)系,血小板與生存時(shí)間存在相關(guān)關(guān)系,其關(guān)系網(wǎng)絡(luò)如圖1所示。
圖1 假設(shè)的三個(gè)變量的關(guān)聯(lián)圖
從圖1中只能觀察到三者之間存在關(guān)聯(lián),卻并不知道其因果方向以及鏈接強(qiáng)度,因此不能判斷血小板計(jì)數(shù)是否能夠作為預(yù)后評(píng)估的可靠標(biāo)志物?;贚iNGAM腫瘤患者臨床數(shù)據(jù)因果發(fā)現(xiàn)方法,通過對(duì)醫(yī)學(xué)數(shù)據(jù)生成模型的假設(shè),從觀察變量中學(xué)習(xí)到數(shù)據(jù)的協(xié)方差矩陣,從協(xié)方差矩陣中計(jì)算所有條件相關(guān)性,估計(jì)完成的因果結(jié)構(gòu)。簡單來說以上3個(gè)變量可以表示為:
圖2是假設(shè)的數(shù)據(jù)生成模型,e1、e2、e3表示干擾的噪聲項(xiàng),?表示鏈接強(qiáng)度的權(quán)重。如果觀察到足夠數(shù)量的數(shù)據(jù)向量x,就可以識(shí)別出包括所有參數(shù)在內(nèi)的完整因果結(jié)構(gòu)。LiNGAM算法的具體實(shí)現(xiàn)為:
圖2 在LiNGAM假設(shè)下的數(shù)據(jù)生成圖
算法1:LiNGAM的因果發(fā)現(xiàn)方法。
輸入:數(shù)據(jù)矩陣X;
輸出:估計(jì)觀測變量之間的鏈接強(qiáng)度矩陣B,估計(jì)的變量之間的因果順序K和因果關(guān)系網(wǎng)絡(luò)圖。
(1)根據(jù)公式(1)、公式(2),計(jì)算數(shù)據(jù)的ICA分解估計(jì)獨(dú)立分量,計(jì)算混合矩陣A和分離矩陣W(W=A-1),其中干擾變量ei對(duì)應(yīng)W的行,觀測變量xi對(duì)應(yīng)W的列。
(6)返回因果順序K以及可視化變量之間的因果網(wǎng)絡(luò)。
算法2:基于LiNGAM的肺癌患者臨床數(shù)據(jù)因果發(fā)現(xiàn)方法。
(1)輸入肺癌患者觀測數(shù)據(jù)X1,包括分期、化療、血小板計(jì)數(shù)和預(yù)后生存時(shí)間。
(2)LiNGAM模型分析出四者的因果關(guān)系圖。
(3)找到對(duì)血小板計(jì)數(shù)和生存時(shí)間的共同因素是分期和化療。
(4)先對(duì)化療進(jìn)行控制,重新輸入觀測數(shù)據(jù)X2,包括分期、血小板計(jì)數(shù)和預(yù)后生存時(shí)間。
(5)LiNGAM模型分析出三者的因果關(guān)系圖。
(6)再對(duì)分期進(jìn)行控制,輸入觀測數(shù)據(jù)X3,僅僅只包括血小板和生存時(shí)間。
(7)LiNGAM模型最終得出血小板和生存時(shí)間的因果關(guān)系。
本實(shí)驗(yàn)選取了2012年01月至2017年12月期間在南華大學(xué)附屬南華醫(yī)院和南華大學(xué)附屬第一醫(yī)院就診的肺癌患者231例,隨機(jī)選取南華大學(xué)附屬南華醫(yī)院體檢中心健康志愿者83例納入健康組,觀測到患者的年齡、血小板計(jì)數(shù)、分期、吸煙、化療以及患者的預(yù)后生存時(shí)間。在此之前已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了篩選,選擇的標(biāo)準(zhǔn)為納入標(biāo)準(zhǔn):(1)所有的患者病理診斷明確;(2)腫瘤專科治療前均接受頭胸腹部增強(qiáng)CT或MRI、全身骨掃描等檢查以明確臨床分期;(3)臨床資料完整,可提供腫瘤??浦委熐暗难R?guī)檢查結(jié)果、腫瘤標(biāo)志物、影像學(xué)資料等;(4)無合并有妊娠或哺乳、血液系統(tǒng)疾病、自身免疫性疾病(如特發(fā)性血小板減少性紫癜)等疾??;(5)所選病例死亡的直接原因與腫瘤有關(guān)。
本研究基于LiNGAM算法生成肺癌患者臨床數(shù)據(jù)之間的因果關(guān)系圖,利用ICA算法判斷因果關(guān)系圖中邊的存在性,設(shè)置顯著性大小為0.95。
根據(jù)對(duì)觀測數(shù)據(jù)的初步分析,對(duì)肺癌患者的血小板計(jì)數(shù)和健康志愿者的血小板計(jì)數(shù)分別做了相關(guān)的統(tǒng)計(jì),如圖3所示。
圖3 患病與健康的血小板曲線圖
從圖3中可以很明顯看出肺癌患者的血小板計(jì)數(shù)高于健康人的血小板計(jì)數(shù),這符合前人研究的癌癥患者通常伴有血小板增多癥的現(xiàn)象。
從觀測到的肺癌患者臨床資料中采集到的分期、化療、預(yù)后生存時(shí)間和血小板計(jì)數(shù)4個(gè)指標(biāo),基于LiNGAM算法構(gòu)建因果網(wǎng)絡(luò)模型,得到患者的預(yù)后因素因果關(guān)系圖,如圖4所示。
圖4 四個(gè)變量之間的因果關(guān)系圖
在0.95的置信水平下,肺癌患者的預(yù)后生存時(shí)間受血小板計(jì)數(shù)、癌癥分期和化療的影響。并且分期對(duì)生存時(shí)間的影響較大,血小板計(jì)數(shù)對(duì)預(yù)后生存時(shí)間有直接影響,化療和分期是血小板和生存時(shí)間的共因,在單獨(dú)考慮血小板對(duì)生存時(shí)間的關(guān)系,應(yīng)該對(duì)化療這個(gè)因素予以控制。
在95%的置信區(qū)間下,對(duì)化療這個(gè)因素進(jìn)行控制,選取接受化療的患者的分期、血小板計(jì)數(shù)和預(yù)后生存時(shí)間。
在0.95的置信水平下,肺癌患者的生存時(shí)間受血小板計(jì)數(shù)和癌癥分期的影響,其中分期是血小板計(jì)數(shù)和生存時(shí)間的共因,圖4中分期對(duì)血小板計(jì)數(shù)的因果強(qiáng)度增大了,血小板計(jì)數(shù)對(duì)生存時(shí)間的因果強(qiáng)度同樣也增大了。同上,在做過化療患者中對(duì)分期指標(biāo)進(jìn)行控制,分為I、II、III、IV期,顯著性大小同上,得到的結(jié)果如圖5所示。
圖5 三個(gè)變量的因果關(guān)系圖
從圖6中可以直接看出血小板對(duì)生存時(shí)間的影響關(guān)系及影響程度,符合臨床上血小板與惡性腫瘤相關(guān)聯(lián)的合理性。血小板可以作為肺癌患者生存預(yù)后的一個(gè)檢測指標(biāo)。
圖6 血小板與預(yù)后生存時(shí)間因果關(guān)系圖
該文研究采用SPSS(statistical product and service solution)軟件對(duì)肺癌患者中接受化療的患者相關(guān)數(shù)據(jù)值進(jìn)行相關(guān)分析。據(jù)相關(guān)分析結(jié)果顯示(如表1所示),表明分期、血小板計(jì)數(shù)與患者的預(yù)后生存時(shí)間存在一定的關(guān)系,與模型結(jié)果吻合。
表1 相關(guān)分析結(jié)果
針對(duì)肺癌患者預(yù)后治療差患者生存率低,準(zhǔn)確判斷腫瘤預(yù)后治療的影響因素之間的關(guān)系變得尤為重要。該文提出了基于LiNGAM模型肺癌患者的臨床數(shù)據(jù)因果發(fā)現(xiàn)方法。從因果推斷的角度出發(fā),對(duì)醫(yī)學(xué)觀測數(shù)據(jù)中肺癌患者預(yù)后治療的影響因素分析,準(zhǔn)確判斷患者預(yù)后,為臨床治療提供有效的干預(yù)。實(shí)驗(yàn)結(jié)果表明該方法能夠識(shí)別肺癌患者預(yù)后治療影響因素之間內(nèi)在因果機(jī)制,血小板可以作為肺癌患者預(yù)后評(píng)估的一個(gè)檢測指標(biāo),同時(shí)也為因果推斷的應(yīng)用領(lǐng)域提供了新的研究方向,為醫(yī)學(xué)觀測數(shù)據(jù)的因果識(shí)別提供了新的工具。