王俊蘋 沈靈智 盧肇駿 寇 碩 鄭衛(wèi)軍
1 浙江中醫(yī)藥大學公共衛(wèi)生學院,310000 浙江 杭州;2 浙江省疾病預防控制中心,310000 浙江 杭州
前瞻性研究以二分類變量作為研究結局是常見的現象,研究者習慣采用logistic回歸獲得的優(yōu)勢比(odds ratio,OR)反映暴露對結果的關聯性;但是在隊列研究中更推薦直接計算相對危險度(relative risk,RR),采用logistic回歸計算的OR值往往會高估效應,尤其在結局事件比較常見時[1-3]。2004年Zou[4]提出利用修正Poisson回歸法計算RR值,該法采用“三明治法”(sandwich variance estimator)矯正標準誤差,從而獲得了比較穩(wěn)健的誤差估計值,目前這種方法在諸多隊列研究案例中得到廣泛應用[5]。運用修正Poisson回歸模型對服從二項分布的資料進行分析能給實際研究帶來很多便利,這主要包括:通過一種穩(wěn)健的誤差方差估計法(sandwich variance estimator)校正RR值以解決普通Poisson回歸對RR的估計誤差較大的問題,有實用的標準軟件(如SAS的GENMOD過程)等。與標準logistic回歸模型相似,修正Poisson回歸要求觀測值之間必須是相互獨立的,否則會導致統(tǒng)計推斷的系統(tǒng)性偏差。但在實際研究中,樣本之間許多都是具有相互關系的觀測值,即觀測數據并非來自完全獨立的隨機樣本。傳統(tǒng)的修正Poisson方法無法應對非獨立性結局事件的回歸建模,比如多中心隊列研究(此類結局事件通常存在聚集性)。因此,本研究基于國內外研究進展,并結合SAS軟件,探討如何運用SAS軟件結合修正Poisson回歸分析非獨立性數據。
Poisson分布指的是在一個極大人群、空間和時間范圍內,觀察對象某種現象發(fā)生數的分布。常用于稀有事件的發(fā)生次數的概率分析,以發(fā)生數作為因變量,構建回歸模型,來探討影響事件發(fā)生的因素。
Poisson回歸是一種將對數和二項分布連接起來的廣義線性模型。該模型可以被寫成:
log[λ(Xi)]=β0+β1X1i+β2X2i+...+βKXKi
(1)
在這種情況下,若要計算變量和因變量的數量依存關系,可以基于公式(1)計算得到
因此,Poisson回歸可以計算RR值來反映暴露因素對結局事件發(fā)生的影響。
1.1.1 案例1
對45 例來自3個社區(qū)(community)的非器質性心臟病且僅有胸悶癥狀就診者進行分析研究,以探討吸煙與24 h早搏次數的關系。影響因素是X1,是否吸煙(1=吸煙,0=不吸煙);結局變量是Y1,24 h早搏次數(離散型定量數據,呈Poisson分布)。其數據庫結構見表1。
表1 案例1、案例2、案例3的數據庫結構
1.1.2 24 h早搏數的Poisson回歸SAS程序
首先,以24 h早搏數作為因變量構建Poisson回歸模型,自變量包括X1,利用SAS“PROC GENMOD”進行模型的構建,SAS程序如下:
PROC GENMOD DATA =A;
MODEL Y1 =X1/LINK = log dist = Poisson;
ESTIMATE ′adjusted RR for X1′ X1 1/EXP;
RUN;
1.1.3 結果分析和解讀
通過SAS程序,計算得到X1的RR=1.31,RR的95%CI為(1.04,1.64),又因為X1代表“是否吸煙(1=吸煙,0 =不吸煙)”,說明吸煙者出現早搏的風險是不吸煙者的1.31倍。
傳統(tǒng)的Poisson回歸可以廣泛用于呈Poisson分布離散型結局事件,特別是在偏態(tài)分布的情況下,可以代替線性回歸進行數據分析。
Poisson回歸通常適用于處理罕見結局事件的前瞻性研究資料,即服從Poisson分布的資料。當將其應用于服從二項分布的資料時,對RR的估計誤差便會增大,但是這個問題可以通過一種穩(wěn)健的誤差估計法即“三明治法”(sandwich variance estimator)得到校正,被稱為修正Poisson回歸,這種方法由Zou[4]在2004年提出。
1.2.1 案例2
同樣基于3個社區(qū)的非器質性心臟病且僅有胸悶癥狀就診者,調查的暴露因素是X1,是否吸煙(1=吸煙,0=不吸煙);協變量是X2,是否喝咖啡(1=喝、0=不喝);結局變量是Y2,冠心病是否復發(fā)(1=復發(fā),0=未復發(fā))。
1.2.2 修正Poisson回歸的SAS程序
修正Poisson回歸法基于廣義估計方程原理, 利用SAS的GENMOD過程中 REPEATED 語句估計得到更為穩(wěn)健的誤差方差,解決了普通Poisson回歸估計參數區(qū)間過于保守的問題。SAS程序如下:
PROC GENMOD DATA =A;
CLASS ID;
MODEL Y2 =X1 X2/DIST = Poisson LINK =log;
REPEATED SUBJECT =ID;
ESTIMATE ′adjusted RR for X1′ X1 1/EXP;
RUN;
1.2.3 結果分析和解讀
GENMOD過程分析結果中,X1的RRa=3.06,RRa的95%CI為(1.11,8.49),又因為X1代表“是否吸煙(1=吸煙,0 =不吸煙)”,說明調整混雜因素后吸煙者冠心病復發(fā)的概率是不吸煙者的3.06倍,見表2。可以看出在與普通Poisson回歸相同的情況下,得到了更為精確的參數區(qū)間估計范圍。
表2 3個社區(qū)冠心病患者復發(fā)與吸煙的關系研究
在醫(yī)學研究中,很多事件的發(fā)生是非獨立性的。例如疾病的聚集性或家族性,或傳染性疾病。修正Poisson回歸是在獨立數據的背景下提出的,并通過分析和模擬證明在這種情況下是可以使用的[6-8]。廣義估計方程作為一種證據性較強的方差估計方法并考慮了數據聚集性,因此可以通過使用廣義估計方程來校正標準誤差,而不是采用通常應用于獨立數據的方差估計方法。
1.3.1 案例3
同樣基于3個社區(qū)的非器質性心臟病且僅有胸悶癥狀就診者,調查的暴露因素X1,是否吸煙(1=吸煙,0=不吸煙);協變量X2,是否喝咖啡(1=喝、0 =不喝);聚集性變量社區(qū),community(1、2、3);結局變量Y2,冠心病是否復發(fā)(1=復發(fā),0=未復發(fā))。
1.3.2 非獨立Poisson回歸的SAS程序
非獨立Poisson回歸將穩(wěn)健誤差方差估計法擴展應用到非獨立性二分類數據中,使用穩(wěn)健誤差方差估計法解釋聚類效應及Poisson模型作為二分類數據的工作模型。使用Zou[4]描述修正Poisson的SAS代碼來完成計算,其中將SAS PROC GENMOD的重復語句中單個體標識符更改為聚集性標識符[9]。SAS程序如下:
PROC GENMOD DATA =A;
CLASS city;
MODEL Y2 =X1 X2/DIST = Poisson LINK =log;
REPEATED SUBJECT =community;
ESTIMATE ′adjusted RR for X1′ X1 1/EXP
RUN;
1.3.3 結果分析和解讀
在本案例中,X1的RRa=3.06,RRa的95%CI為(1.24,7.58),又因為X1代表“是否吸煙(1=吸煙,0 =不吸煙)”,說明吸煙者冠心病復發(fā)的概率是不吸煙者的3.06倍,見表2??梢钥闯鲈谙嗤那闆r下與修正Poisson回歸相比,得到了更為精確的參數區(qū)間估計范圍。將聚集性變量“社區(qū)”納入回歸模型后,不僅可以改善原本回歸分析中面臨的殘差不獨立性的問題,而且可以進一步通過聚集性變量(社區(qū))減少殘差,提高分析效率。
本研究基于中國健康與養(yǎng)老調查2011—2018(CHARLS 2011—2018)的數據,對13 283名45~100歲的中老年人進行分析研究,以探討我國中老年人腹型肥胖與死亡的關系。該研究是多中心的前瞻性隊列研究,影響因素包括:X1,是否腹型肥胖(1=腹型肥胖,0=非腹型肥胖);X2,性別(1=男,0=女);X3,年齡(1=60歲以上,0=45~60歲);X4,戶籍(1=非農業(yè),0=農業(yè));X5,婚姻(1=未婚,2=結婚)。聚集性變量為城市(1=東部城市,2=中部城市,3=西部城市)。
研究分別采用logistic回歸、普通的Poisson回歸、修正Poisson回歸、非獨立Poisson回歸進行分析,調整混雜因素和中心效應后,腹型肥胖死亡的概率是非腹型肥胖者的0.89倍。見表3。
表3 不同的分析方法中老年人腹型肥胖(X1)與死亡的關系
本研究使用具有可交換相關結構的廣義估計方程來解釋聚集性,通過模擬及實證非獨立的前瞻性數據,研究非獨立Poisson回歸方法估計相對風險的性能,結果顯示該方法在少量或大量的集群條件下均表現較好。
與logistic回歸法比較,普通Poisson回歸法適用的資料類型范圍更廣,除二分類結局外還可應用于處理結局為離散型定量數據。當結局事件的發(fā)生率較為常見(>10%)時,OR值往往會明顯高估或低估真實的RR值,進而對臨床和公共衛(wèi)生的正確決策產生影響[10-11],這時直接計算RR值較為恰當。與普通Poisson回歸法比較, 修正Poisson回歸法在參數點估計值相同的情況下,得到了更為精確的參數區(qū)間估計范圍,從而解決了普通Poisson回歸法對參數區(qū)間估計過于保守的問題。與修正Poisson回歸法比較,非獨立Poisson回歸法在參數點估計值相同的情況下,得到了更為精確的參數區(qū)間估計范圍,從而解決了非獨立性數據間具有相關性的問題。Yelland等[12]通過 SAS 軟件模擬數據研究也證實了這一點。
本研究結果表明,在非獨立Poisson回歸方法中將廣義估計方程應用于處理非獨立的前瞻性數據是合適的。修正Poisson回歸法作為負二項回歸的替代方法被提出,用以估計獨立數據背景下的相對風險,其中將其原理應用在聚類數據背景下的性能目前才被研究,并通常使用廣義估計方程解釋聚集性[13-14]。除了使用廣義估計方程來解釋數據聚集性外,另一種替代方法是擬合具有隨機聚類效應的混合模型。區(qū)別于廣義估計方程,第二種方法必須假設隨機效應的分布比較難以驗證,并且對其錯誤的解釋可能對結果產生重大影響。
因此,對于常見結局事件的非獨立前瞻性研究,使用非獨立Poisson回歸法來計算暴露因素的RR值是一種較為簡單準確的分析方法,并可利用SAS軟件包中的PROC GENMOD程序來實現。