李國基,周躍進
(安徽理工大學(xué) 數(shù)學(xué)與大數(shù)據(jù)學(xué)院,安徽 淮南 232001)
因果中介分析在心理學(xué),生物醫(yī)學(xué)以及社會科學(xué)方面有著廣泛應(yīng)用。因果中介分析的目的是調(diào)查觀察到的自變量與因變量關(guān)系背后的機制,研究自變量如何通過中介變量對因變量產(chǎn)生效應(yīng)。自變量直接對因變量產(chǎn)生的效應(yīng)是直接效應(yīng),自變量通過中介變量對因變量產(chǎn)生的效應(yīng)是間接效應(yīng)。
自1986年Baron和Kenny[1]提出直接和間接效應(yīng)以來,因果中介分析在效應(yīng)估計方面有了大量成果。在交互作用存在時,Valeri等[2]提出矩估計方法對間接效應(yīng)進行估計。VanderWeele等[3]提出了基于權(quán)的估計方法對間接效應(yīng)進行估計。Valeri 和VanderWeele[4]運用迭代重加權(quán)最小二乘方法 估計了間接效應(yīng)。VanderWeele[5]提出在邊際結(jié)構(gòu)模型下用處理加權(quán)逆概率法估計自然間接效應(yīng)。Tchetgen Tchetgen和Shpitser[6]用多重魯棒估計估計間接效應(yīng)。Usher[7]基于簡單中介模型,對無截距回歸方程進行間接效應(yīng)估計,但結(jié)果不能對存在截距的結(jié)構(gòu)方程有很好的說明。
對存在截距的三變量結(jié)構(gòu)方程進行間接效應(yīng)估計,并獲得間接效應(yīng)估計量分布。建立簡單中介模型,并獲得結(jié)構(gòu)方程,由極大似然估計與delta方法獲得效應(yīng)值估計量分布,對所得結(jié)果進行了模擬,應(yīng)用所提出的方法分析社會經(jīng)濟指數(shù)-體重指數(shù)數(shù)據(jù)。
假設(shè)X表示自變量,M表示中介變量,Y表示因變量。因果中介分析模型如圖1所示。
圖1 簡單中介模型
假定Y,X與M之間為線性關(guān)系且無交互作用,基于總效應(yīng)與中介效應(yīng)模型,Y,X與M之間的結(jié)構(gòu)方程式為
Y=i1+β1x+ε1,
(1)
Y=i2+β2x+β3m+ε2,
(2)
M=i3+β4x+ε3。
(3)
其中,β1和β2分別表示總效應(yīng)和中介效應(yīng)中Y與X的之間斜率,β4表示M與X之間的斜率,β3表示Y與M之間的斜率。i1,i2,i3表示截距,ε1,ε2,ε3表示誤差,且
結(jié)合式(2)與式(3)得
Y=i2+β2x+β3(i3+β4x+ε3)+ε2=
(i2+β3i3)+(β2+β3β4)x+(ε2+β3ε3),
(4)
假設(shè)直接效應(yīng)(DE)用a表示,而間接效應(yīng)(IE)用b表示,總效應(yīng)(TE)用c表示,則由式(1),式(2)與式(4)得,a=β2,c=β2+β3β4或c=β1,從而
b=c-a=β1-β2=β3β4。
(5)
為獲得間接效應(yīng)的分布,運用極大似然方法[8]獲得結(jié)構(gòu)方程之中的各個參數(shù)估計。假設(shè)因變量、中介變量與自變量的樣本分別為
YT=(y1,y2…,yn),MT=(m1,m2…,mn),
XT=(x1,x2…,xn)。
由式(1)與式(2),Y與M的聯(lián)合密度函數(shù)分別為
其中
θT=(i2,β2,β3),βT=(i3,β4),
因此,θ與β的似然函數(shù)為
所以,θ與β的對數(shù)似然函數(shù)為
參數(shù)β2,β3,β4估計量為
其中e1=(0,1,0),e2=(0,0,1),e3=(0,1)。
由于
其中
En=diag(1,1,…,1)。
其中
由delta方法可得定理如下:
運用模擬研究來評價提出方法的表現(xiàn)。對中介分析回歸方程
Y=i2+β2X+β3M+ε2,
M=i3+β4X+ε3,
其中,i2=1,i3=2,β2=0.3,β3=0.5,β4=0.2,ε2~N(0,1),ε3~N(0,1),運用R對分別進行樣本值為50,100, 500的模擬,重復(fù)500次,對所得結(jié)果取均值,獲得間接效應(yīng)的極大似然估計量,進而獲得估計量的均方誤差。
當(dāng)自變量X~N(0,1),X~N(1,3),X~N(5,2)時,估計量均方誤差如表1:
表1 自變量服從正態(tài)分布的間接效應(yīng)估計量均方誤差
通過表1可以看出當(dāng)自變量X服從正態(tài)分布時,間接效應(yīng)估計量均方誤差都較小,隨著樣本量的增加呈下降趨勢,因此提出的估計表現(xiàn)良好。
當(dāng)自變量X~B(1,0.3),X~B(1,0.5),
X~B(1,0.7)時,估計量均方誤差如表2:
表2 自變量服從0-1分布的間接效應(yīng)估計量均方誤差
通過表2可以看出當(dāng)自變量X服從0-1分布時,間接效應(yīng)估計量的均方誤差都較小,隨著樣本值的增加呈下降趨勢,因此提出的估計表現(xiàn)良好。
運用提出的方法通過DNA甲基化位點(methylation)分析社會經(jīng)濟指數(shù)(SI)-體重指數(shù)(BMI)數(shù)據(jù),評價17號染色體上的DNA 甲基化位點是否對社會經(jīng)濟指數(shù)和體重指數(shù)產(chǎn)生中介效應(yīng)。社會經(jīng)濟指數(shù)是一個從1到100的區(qū)間,體重指數(shù)是用來篩選可能導(dǎo)致個體肥胖的體重類別。該數(shù)據(jù)包含了人類17號染色體上74個樣本的全血甲基化值[9]。甲基化值運用R methylumi 包進行預(yù)處理使數(shù)據(jù)歸一化。為了說明的方法,選擇連續(xù)的cg05157970 DNA甲基化位點作為中介。
對于本次的中介分析,以社會經(jīng)濟指數(shù)作為自變量,以連續(xù)的DNA 甲基化位點作為中介變量,以體重指數(shù)作為因變量。中介分析模型如下:
E(甲基化位點|社會經(jīng)濟指數(shù))=
i3+β4×社會經(jīng)濟指數(shù),
E(體重指數(shù)|社會經(jīng)濟指數(shù),甲基化位點)=i2+β2×社會經(jīng)濟指數(shù)+β3×甲基化位點。
運用提出的方對直接效應(yīng)與間接效應(yīng)進行估計。直接效應(yīng)和間接效應(yīng)的方差和95%置信區(qū)間使用bootstrap方法產(chǎn)生200個bootstrap樣本進行估計。
表3 基于SI-BMI數(shù)據(jù)的中介效應(yīng)估計
由表3可知,間接效應(yīng)的絕對值大于直接效應(yīng)絕對值。假設(shè)中介比(PM)用d表示,則
表明0.7153倍的總效應(yīng)是通過提出的cg05157970中介路徑起作用的。此外,注意到自然間接效應(yīng)絕對值足夠大,并且它的95%置信區(qū)間不包含0,表明cg05157970對社會經(jīng)濟指數(shù)與體重指數(shù)之間產(chǎn)生中介效應(yīng)。
因果中介分析越來越受到人們的關(guān)注,是目前統(tǒng)計學(xué)的熱點問題之一。因此對簡單中介模型進行了研究,獲得間接效應(yīng)的極大似然估計量,并由delta方法得到估計量的漸近分布。經(jīng)過模擬的結(jié)果可以看出,隨著樣本值增加,均方誤差減小,提出的方法表現(xiàn)良好。最后通過對社會經(jīng)濟指數(shù)-體重指數(shù)數(shù)據(jù)進行分析,驗證了此方法的有效性。不足之處是只對連續(xù)型的中介變量和因變量進行分析,有興趣的可對二元或零膨脹變量進行分析。