胡純嚴 ,胡良平 ,2*
(1.軍事科學院研究生院,北京 100850;2.世界中醫(yī)藥學會聯(lián)合會臨床科研統(tǒng)計學專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
因果圖模型是一種呈現(xiàn)多因素或多變量對結果變量影響情況的圖形表達方式,它有別于以統(tǒng)計公式表達的多重回歸模型,但從輸出結果的實際效果來看,它與多重回歸模型分析給出的自變量篩選結果非常相似。本文將介紹因果圖模型的基礎知識和基于SAS/STAT中因果圖過程實現(xiàn)因果圖模型分析的方法。
無論是簡單的假設檢驗和區(qū)間估計[1-2],還是復雜的多因素和多元統(tǒng)計分析[3-4],都必須基于統(tǒng)計數(shù)據(jù)進行統(tǒng)計分析。然而,SAS 9.4版本的SAS/STAT中[5]給出了一個“PROC CAUSALGRAPH”過程,它不需要任何統(tǒng)計數(shù)據(jù)就可按因果圖中設定的變量之間的因果關系進行模擬和計算,并輸出可能對因變量有影響的全部協(xié)變量(稱為調(diào)整集)。構造和搜索調(diào)整集的過程和結果類似于多重回歸分析中變量篩選的過程和結果。調(diào)整集是一組變量,可用于消除因果圖模型中處理變量(即研究者著重考察的自變量)和結果變量之間的非因果關聯(lián)。如果存在調(diào)整集,則可確定處理變量對結果變量存在因果效應。
因果圖模型就是用圖形的形式呈現(xiàn)統(tǒng)計模型中變量之間依賴關系或因果關系的一種方法,它是圖論與概率論相結合的產(chǎn)物。圖論是一門古老的數(shù)學分支,主要研究用某種方式聯(lián)系起來的若干事物之間的二元或多元關系。自20世紀40年代埃爾德什首次引入概率方法以來,特別是近些年來,概率方法在圖論中得到了深入的發(fā)展,并且日漸成為研究中的一個有力工具。由于研究方法和內(nèi)容的不同,圖論已產(chǎn)生了若干分支,如代數(shù)圖論、極值圖論、隨機圖論、因果圖論、拓撲圖論和應用圖論等[6-7]。
1.3.1 三種識別標準
因果圖過程為確定因果處理效應提供了幾個標準。用戶可以使用因果圖過程語句中的“METHOD=選項”指定以下任一識別標準:構造性后門標準[8]、后門標準[9]及工具變量[10]。
構造性后門標準(METHOD=adjustment)也稱為調(diào)整標準,用于查找僅由觀測變量組成的所有有效調(diào)整集。后門標準(METHOD=backdoor)同樣可以找到由觀測變量組成的調(diào)整集,但標準稍強一些。后門標準在計算上比調(diào)整標準效率更高,但它可能無法找到所有可能的有效調(diào)整集。后門標準的吸引力在于它具有直觀的解釋,并提供了一種快速構建有效調(diào)整集的方法[11]。工具變量法(METHOD=IV)尋找工具變量,以處置處理變量和結果變量之間存在的未測量的混淆變量。由于未測量的混淆變量可能會導致調(diào)整標準和后門標準失效,故需要采用工具變量予以調(diào)整。
1.3.2 兩種操作模式
為了識別調(diào)整集或工具變量集,因果圖過程有兩種主要操作模式:其一,因果圖過程語句中的列表選項使用戶能夠列舉可用于估計因果效應的標準;其二,TESTID語句允許檢驗用戶指定的標準是否適用于估計因果效應。用戶可以在一次運行過程中同時使用這兩種模式;可以使用各種選項來微調(diào)所請求標準的輸出列表;可以使用這些選項來限制列出的條件的數(shù)量,對列出的條件進行排序,提高搜索和列出的效率等。
在因果圖過程中,每個因果圖模型都必須是有向無環(huán)圖(Directed acyclic graph,DAG)。用戶可以使用MODEL語句輸入因果圖。MODEL語句支持類似路徑的語法來輸入變量之間的因果關系,例如,要指定因果路徑X→Y,可以在MODEL語句中使用X==>Y或Y<==X語法。還可以將多個因果關系指定為因果路徑鏈,例如,X==>Y==>Z,Z<==X==>Y<==W等。因果路徑中的每條邊(指兩變量之間的連線或箭頭)表示一個變量對另一個變量的直接因果效應。
1.3.3 驗證檢查方法
因果圖過程對指定的每個模型執(zhí)行以下語義驗證檢查:其一,模型應弱連接,也就是說,當因果路徑中的所有邊都被視為無向時,任何一對變量之間都應該有一條路徑;其二,模型不能包含任何定向循環(huán)。
因果圖過程還支持指定雙向邊(或路徑)。雙向邊語法,例如X<=>Y(對于X和Y),被解釋為兩個變量之間的未測量混淆,故圖形仍然是DAG。也就是說,X<=>Y相當于X<=L=>Y(對于X、L、Y),其中節(jié)點L代表一些未測量的變量,用戶可在UNMEASURED語句中指定這些變量。
在因果圖模型分析中,區(qū)分測量變量和未測量變量很重要。在UNMEASURED語句中,列出的變量將被視為未測量或未觀測的變量,所有其他變量均被視為已測量或觀測到的變量。為了使因果效應評估有意義,必須始終測量用戶指定的處理變量和結果變量。因果圖模型中的未測量變量不能包含在統(tǒng)計分析中,因此,用戶不能在因果處理效應的任何識別標準中使用它們。
2.1.1 實例及其背景信息
【例1】圖1所示的因果圖模型(改編自文獻[12])呈現(xiàn)了法羅群島居民中母親接觸持久性全氟烷基物質(PFAS)與母乳喂養(yǎng)持續(xù)時間(Duration)之間的關系。
圖1 持久性全氟烷基物質對母乳喂養(yǎng)持續(xù)時間影響的因果圖模型Figure 1 Causal model of the effect of persistent perfluoroalkyl substances on breastfeeding duration
圖1模型中各變量的含義如下:PFAS,持久性全氟烷基物質(危險因素或處理變量);Duration,持續(xù)時間(結果變量);Age,孩子出生時母親的年齡;Education,教育(母親接受初等教育的時間);Employment,就業(yè)(描述母親就業(yè)狀況的分類變量);Parity,胎次(是否為母親的第一次分娩的指標);Alcohol,飲酒(母親在懷孕期間是否飲酒的指標);Smoking,吸煙(母親在懷孕期間是否吸煙的指標);BMI,體重指數(shù)(母親孕前體重指數(shù));PrevBF,先前是否有母乳喂養(yǎng)經(jīng)驗。
假設在此例中,未觀測到飲酒變量和吸煙變量,其他變量都被觀測到了。試通過圖1中設定的變量之間的關系,使用因果圖過程來確定因果圖模型中必須控制的協(xié)變量,以便估計具備有效因果解釋的因果效應。
2.1.2 用SAS實現(xiàn)因果效應分析
2.1.2.1 輸出包含變量數(shù)盡可能多的調(diào)整集
為了確定變量PFAS對變量Duration的因果效應,用戶可能會考慮一個調(diào)整集,包括所有觀察到的協(xié)變量。以下語句調(diào)用CAUSALGRAPH過程來檢驗此調(diào)整集是否有效。設所需要的SAS程序如下:
【SAS程序說明】在MODEL語句中,指定要分析的因果圖模型。語句中帶引號的字符串標記模型的名稱;MODEL語句的其余部分指定了模型中的所有變量和邊。這些變量和邊反映了圖1所示的假設數(shù)據(jù)生成過程。在IDENTIFY語句中,用戶指定了感興趣的因果效應。用戶可以使用此語句指定一個或多個處理變量以及結果變量。處理變量與結果變量之間由一個“==>”符號隔開。在本例中,用戶感興趣的是檢驗處理變量PFAS對結果變量Duration的因果效應的識別。由于PROC CAUSALGRAPH語句中未指定METHOD=選項,故該過程默認使用構造性后門標準(METHOD=adjustment),以檢驗用戶在TESTID語句中指定的調(diào)整集對因果效應的識別。
【SAS輸出結果及解釋】
第1部分輸出結果:因果圖模型中設定的10個測量變量,包括處理變量(PFAS)、結果變量(Duration)和協(xié)變量(Age、Alcohol、BMI、Education、Employment、Parity、PrevBF、Smoking)。沒有未測量的變量。
第2部分輸出結果:圖形模型匯總結果,見表1。
表1 圖形模型匯總Table 1 Graphical model summary
【表1中有關內(nèi)容的說明】第2列的“節(jié)點”指因果圖模型中包含的全部變量的個數(shù)(本例為10個);第3列的“邊界”指因果圖模型中帶箭頭的線條數(shù)(本例為23條);第4列的“處理”指因果圖模型中處理變量的個數(shù)(本例為1個);第5列的“結果”指因果圖模型中結果變量的個數(shù)(本例為1個);第6列的“測量的”指因果圖模型中測量變量的個數(shù)(本例為10個);第7列的“未測量的”指因果圖模型中未測量變量的個數(shù)(本例為0個)。用戶可以基于這些輸出內(nèi)容用作模型設定的定性檢查。
第3部分輸出結果:協(xié)變量調(diào)整檢驗的結果,見表2。
表2 基于8個協(xié)變量調(diào)整檢驗呈現(xiàn)PFAS對Duration的因果效應Table 2 Causal effect of PFAS on Duration presented based on the adjustment test of 8 covariates
【表2中有關內(nèi)容的說明】第2列的“大小”指協(xié)變量的個數(shù)(本例有8個);第3列的“有效”指協(xié)變量的集合對檢驗PFAS對Duration的因果效應是否有效(本例經(jīng)檢驗,其結果為“有效”,輸出中用“是”表示);第4列的“最小”指所找到的調(diào)整集是否為最小的調(diào)整集(本例的調(diào)整集包含8個協(xié)變量,故它不是最小的調(diào)整集)。
根據(jù)計算的結果可知,基于由8個協(xié)變量組成的調(diào)整集足以確定PFAS對Duration的因果關系,但它不是一個最小的調(diào)整集。如果使用此調(diào)整集,因果效應的估計可能在計算上效率較低。此外,用戶必需收集所有這些變量的數(shù)據(jù),以估計因果效應。
2.1.2.2 輸出所有可能的調(diào)整集
用戶可以使用因果圖過程查看是否有任何較小的調(diào)整集可用于識別圖1所示的因果效應。以下語句列出了所有可能的調(diào)整集,可用于估計PFAS對Duration的因果效應。
在上文“2.1.2.1節(jié)”的SAS程序中,刪除“TESTID語句”,輸出結果如下:
【SAS輸出結果及解釋】
輸出結果的形式與表1類似,所有的調(diào)整集共有16組。這些調(diào)整集包含變量的個數(shù)分別為4、5、6、7、8個,其中,含4個變量的調(diào)整集只有1組,這4個變量分別是Education、Employment、Parity、PrevBF,它是本例中最小的調(diào)整集。也就是說,在研究PFAS對Duration的因果效應時,必需觀測的最少的協(xié)變量個數(shù)為4個。含5、6、7、8個協(xié)變量的調(diào)整集分別有4、6、4、1組。因篇幅所限,詳細輸出結果從略。
2.1.2.3 僅輸出最小的調(diào)整集
可以在PROC CAUSALGRAPH語句中使用MAXLIST=、MAXSIZE=或MINIMAL=選項來減少輸出調(diào)整集的數(shù)量。例如,將上文“2.1.2.2節(jié)”SAS程序的第1句修改為:
proc causalgraph minimal;
于是,就只輸出一行僅包含Education、Employment、Parity、PrevBF這4個變量的最小調(diào)整集。具體輸結果從略。
2.1.2.4 存在未觀測變量時尋找調(diào)整集
若在上文圖1中,Alcohol和Smoking兩個變量未觀測到,如何構建調(diào)整集?所需要的SAS程序如下:
在上文“2.1.2.1節(jié)”的SAS程序中,刪除“TESTID語句”,再增加以下未測量語句:
unmeasured Alcohol Smoking;
【SAS輸出結果及解釋】
尋找全部有效的調(diào)整集結果,見表3。
表3 全部有效的調(diào)整集Table 3 All valid adjustment sets
表3中各列和各行內(nèi)容的含義,參見上文中“表2中有關內(nèi)容的說明”,此處從略。由表3可知,共有4個有效的調(diào)整集。每一行都包含一個調(diào)整集,第1行為最小調(diào)整集。假設因果圖模型是準確的,用戶可以使用這些調(diào)整集中的任何一個來估計PFAS對Duration的因果效應。
2.2.1 實例及其背景信息
【例2】沿用例1的資料和背景信息,不同的是:假定因果圖模型包括一個額外的變量HealthBehavior,它被認為是一個潛在的結構(簡稱潛變量或隱變量),代表一個人的行為被認為是健康的程度;同時假設變量HealthBehavior和PrevBF未被觀測到。此時,對應的因果圖模型見圖2。
圖2 持久性全氟烷基物質對母乳喂養(yǎng)持續(xù)時間影響的因果圖模型Figure 2 Causal model of the effect of persistent perfluoroalkyl substances on breastfeeding duration
圖2中各變量的含義見前面的例1,此處從略。試通過圖2中設定的變量之間的關系,使用因果圖過程快速確定特定因果圖模型中是否存在調(diào)整集。如果存在調(diào)整集,則確定處理變量對結果變量的因果效應。
2.2.2 用SAS實現(xiàn)因果效應分析
以下語句調(diào)用因果圖過程,以確定是否有可能找到用于估計因果效應的調(diào)整集。設所需要的SAS程序如下:
【SAS輸出結果及解釋】
NOTE:沒有滿足“Timm17HealthBehavior”的指定準則的調(diào)整設置。
由以上輸出結果可知,對于圖2中的因果圖模型,沒有滿足Timm17HealthBehavior指定標準的調(diào)整集。也就是說,不可能使用調(diào)整集來確定PFAS對Duration的因果效應。
盡管無法使用調(diào)整集來估計圖2中的因果效應,但如果用戶愿意在模型中做出額外的參數(shù)假設,仍然可以估計因果效應。因篇幅所限,此處從略。
在常規(guī)的統(tǒng)計分析中,需要先給定統(tǒng)計數(shù)據(jù),才能選擇統(tǒng)計分析方法對數(shù)據(jù)進行分析。然而,將圖論方法與概率論知識有機結合起來,只要能結合專業(yè)知識繪制出反映變量之間因果關系的因果圖,就可計算出所有可能的調(diào)整集。這樣就可以基于研究者的人力、物力、財力和時間,制定合適的研究方案,有針對性地收集資料,進而提高科研工作效率,節(jié)省科研經(jīng)費。
本文介紹了因果圖模型的理論基礎、因果圖過程的內(nèi)容(包括三種識別標準、兩種操作模式和一種驗證檢查方法)以及基于SAS軟件對兩個實例進行了因果圖模型的分析,輸出所有可能的調(diào)整集和最小調(diào)整集。