胡寶山,趙前進,周躍進
(安徽理工大學數(shù)學與大數(shù)據(jù)學院,安徽淮南232001)
在統(tǒng)計學中,因果中介分析模型是自變量通過中介變量對因變量的影響,以揭示其因果機制。因果中介分析在心理學,行為學,生物醫(yī)學以及社會科學方面有著廣泛應用。最近,關于藥物對健康的研究已經(jīng)從簡單的給出總效應到更加復雜的多種效應,特別是醫(yī)學研究越來越關注于確定藥物可能對健康產(chǎn)生影響的機制,研究自變量如何通過中介變量對因變量產(chǎn)生因果效應。自變量直接對因變量產(chǎn)生的效應是直接效應,自變量通過中介變量對因變量產(chǎn)生的效應是間接效應。中介分析的效應值可以進行分解,總效應分解為直接效應與間接效應。
1988 年Baron 等首先對簡單中介分析模型基于線性回歸分析的方法提出了直接和間接效應的估計和假設檢驗[1-2]。近年來,特別是,Robins 等和Albert 基于反事實框架下提出了因果中介效應定義后,中介分析研究有很大的發(fā)展[3-4]。2009 年,Vander 等提出了具有交互作用的中介分析模型,給出了在自變量和中介變量交互作用下的中介效應公式,并估計直接效應和間接效應[5-7]。Imai 等.在反事實框架下對因果中介效應的可識別性做出了必要的假設,并且考慮了對自變量、中介變量和因變量有影響的混雜因素。Pearl 考慮了利用線性和非線性回歸方法估計直接效應和間接效應[8-10]。另外,Albert 等[11-12]和Wang 等提供了因果中介分析的一般方法,該方法適用于線性和非線性、參數(shù)和非參數(shù)、連續(xù)或離散介體以及各種類型的中介模型[13-15]。Albert 等在研究中介分析中,提出了具有不同靈敏度參數(shù)的靈敏度分析方法[16]。Lange[17]等提出了基于邊際結構模型對樣本進行加權,并用極大似然估計獲得直接和間接效應估計,此方法可以應用于任意類型的變量組合,這減少了中介分析的工作量[18-19]。
到目前為止,包括上面的研究成果主要針對一個中介變量的情形。然而,實際上對因變量有影響的中介變量可能有多個。因此,本文針對帶有靈敏度參數(shù)的多個中介變量的二變量中介分析模型進行研究。
因果中介分析是研究自變量通過中介變量對因變量的影響,并將總效應分解為直接效應和間接效應,對于中介分析的研究,已經(jīng)由簡單的中介模型到更加復雜的多中介變量模型了。圖1 是由自變量A、中介變量M、因變量Y組成的單個中介變量的中介模型。圖2 是由自變量A、多個中介變量M=(M1,M2,M3…MK)、混雜變量C和因變量Y組成的多個中介變量的中介模型。
圖1 單個中介變量的中介模型
為了準確地表達直接效應和間接效應的概念,令Y(a)表示自變量A=a時因變量的值;中介變量M是由多個中介變量組成的向量,即M=(M1,M2,M3…Mk),M(a)表示自變量A=a時,由多個中介組成的中介變量的值,即M(a)=(M1(a),M2(a),…MK(a));M(a*)表示自變量A=a*時,由多個中介組成的中介變量的值,即M(a*)=(M1(a*),M2(a*),…MK(a*));Y(a,m)表示自變量A=a時且中介變量M為m 時因變量的值;Y(a,M(a))表示當自變量A=a時且中介變量M在A=a時因變量的值。Y(a,M(a*)) 表示當自變量A=a時且中介變量M在A=a*時因變量的值。
圖2 多個中介變量的中介模型
為了更好地表達直接效應和間接效應的定義,我們使用了Imai 等人提出的假設,在連續(xù)可忽略性假設下,直接效應和間接效應可以用觀察到的數(shù)據(jù)進行非參數(shù)識別,假設
假設指出,在給定混雜變量C條件下,自變量A獨立于中介變量M和因變量Y(a,m);同樣,在給定自變量A和混雜變量C的條件下,中介變量M和因變量Y(a,m)也是相互獨立的。
可定義多個中介變量的直接效應、間接效應和總效應如下:
在評估中介效應時,Baron 等提出的單個中介連續(xù)型變量中介模型型如下:
他們提出通過估計θ1來評估直接效應,并通過估計β1θ2來評估間接效應。
Wang 等[20]提出了一種混合因果中介模型,這種中介模型提供了新的靈敏度參數(shù),用來表示由于因果效應引起的關聯(lián)效應的比例。模型如下;
其中:θ1表示A對Y的關聯(lián)效應;φ表示由于自變量的因果效應引起的關聯(lián)效應中不可識別比例,(1-φ)表示由于自變量的因果效應引起的關聯(lián)效應的比例。如果φ=0,則表示因變量Y(a,m)的期望不依賴于觀察到自變量a*?;旌弦蚬薪槟P涂珊喕癁锽aron 等提出的單中介變量模型。
在本文中,我們將采用上一節(jié)中的因果推論中的直接效應和間接效應的概念,采用Baron 等和Wang 等提出的中介模型,將它推廣到具有多個中介變量的二變量中介模型中,建立新的多中介變量模型。
由中介模型(3)和(5),建立新的多中介變量模型。模型如下:
其中
由中介變量模型(6)和(7),我們可以建立新的多中介變量公式,用來估計直接效應和間接效應。新的多中介變量公式如下:
對直接效應和自然間接效應進行了模擬研究,我們先對參數(shù)β和θ進行設定,然后估計出參數(shù)β和θ,最后,計算出直接效應和間接效應的偏差、誤差和均方誤差,用來評價模擬效果。模擬中生成1 000 個模擬數(shù)據(jù)集,樣本總量分別采用了n=50、200、500。自變量a和a*服從二項分布B(h,p) ,令h=1,p=0.5,即a(1,0.5) ,a*(1,0.5) 混雜變C 量服從正態(tài)分布N(μ,δ2),令μ=0,δ2=0.1、1.0、4.0,即C服從N(0,0.1)、N(0,1)、N(0,4)三種正態(tài)分布,分別對這三種分布進行模擬,同樣也對靈敏度參數(shù)也設置了三種情況,讓靈敏度參數(shù)φ分別服從均勻分布U(-0.1,0) ,U(-0.05,0.05) ,U(0,0.1)。模擬結果如下表1~3。
從表1 中觀測到,自變量a和a*服從二項分布,混雜變量服從正態(tài)分布,靈敏度參數(shù)φ服從均勻分布U(-0.1,0),直接效應和間接效應估計的偏差,誤差和均方誤差都非常小,非常接近真實值,隨著樣本量的增加,直接效應和間接效應估計的偏差,誤差和均方誤差也在逐漸變小。這說明對直接效應和間接效應的估計很合理。
表1 自變量a 和a*服從二項分布,混雜變量服從正態(tài)分布,靈敏度參數(shù)φ 服從均勻分布U(-0.1,0)
從表2 可知,變量a和a*服從二項分布,混雜變量c服從正態(tài)分布,靈敏度參數(shù)φ服從均勻分布U(-0.05,0.05),直接效應和間接效應估計的偏差、誤差和均方誤差較小,波動較大些,但也非常接近真實值。隨著樣本量的增加,直接效應和間接效應估計的偏差,誤差和均方誤差也在逐漸變小。這說明對直接和間接效應的估計很合理。
從表3 中觀測到,自變量a和a*服從二項分布,混雜變量c服從正態(tài)分布,靈敏度參數(shù)φ服從均勻分布U(0,0.1),直接效應和間接效應估計的偏差,誤差和均方誤差都非常小,非常接近真實值,隨著樣本量的增加,直接效應和間接效應估計的偏差,誤差和均方誤差也在逐漸變小。說明對直接效應和間接效應的估計很合理。
表2 自變量a 和a*服從二項分布,混雜變量c 服從正態(tài)分布,靈敏度參數(shù)φ 服從均勻分布U(-0.05,0.05)
表3 自變量a 和a*服從二項分布,混雜變量c 服從正態(tài)分布,靈敏度參數(shù)φ 服從均勻分布U(0,0.1)
本文介紹了因果推論到直接效應和間接效應的相關概念,對于有多個中介的問題,引用了Baron 等與Wang 等提出的具有靈敏度參數(shù)的中介模型,建立新的具有靈敏度的多中介變量模型,利用新建立的具有靈敏度的多中介變量模型,對直接效應和間接效應進行模擬研究,模擬結果表明本文提出的估計效果良好。