廣東藥學(xué)院公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(510310) 李鵬聲 梁 融 周舒冬 郜艷暉 楊 翌
流行病學(xué)暴露與結(jié)局的關(guān)聯(lián)性研究中,當(dāng)結(jié)局事件發(fā)生率較為罕見(jiàn)(如小于10%)時(shí),OR(odds ratio,優(yōu)勢(shì)比)近似等于RR(relative risk,相對(duì)危險(xiǎn)度)或PR(prevalence ratio,患病率比),且通過(guò)logistic回歸可方便地獲得OR及其置信區(qū)間,因此實(shí)際工作中常使用OR描述暴露與結(jié)局的關(guān)聯(lián)強(qiáng)度。但當(dāng)研究結(jié)局發(fā)生率較高(如大于10%)時(shí),使用OR會(huì)嚴(yán)重地高估RR/PR。這一問(wèn)題近年來(lái)已引起學(xué)者關(guān)注并指出橫斷面研究中宜估計(jì)PR、隊(duì)列研究中宜估計(jì)RR以描述暴露與結(jié)局的關(guān)聯(lián)強(qiáng)度[1-2],同時(shí)也發(fā)展了直接估計(jì)RR/PR的方法,如修正的Cox比例風(fēng)險(xiǎn)模型[3]、穩(wěn)健Poisson回歸[4]和log-binomial[5]回歸等。但由于logistic回歸更被流行病學(xué)者所熟識(shí),本文探討使用logistic回歸來(lái)間接估計(jì)RR/PR的方法,為統(tǒng)計(jì)方法的選擇提供參考。
根據(jù)RR/PR的定義,可直接利用logistic回歸模型中預(yù)測(cè)概率的比值估計(jì)[6]:
(1)
式(1)中Y表示結(jié)局變量,E表示研究的暴露因素,x2,…,xp表示各種協(xié)變量。值得注意的是,使用式(1)估計(jì)RR/PR取決于模型中協(xié)變量的取值,根據(jù)其取值的不同,可分為三種方法[7]。
在條件法中,指定一個(gè)參考值作為式(1)中協(xié)變量的取值,如取協(xié)變量的均值,因此RR/PR為協(xié)變量均值條件下的估計(jì),即:
(2)
邊際法無(wú)需指定參考值,而使用每個(gè)觀察個(gè)體自身的協(xié)變量取值,分別計(jì)算當(dāng)所有觀察對(duì)象均為暴露組與均為非暴露組時(shí)預(yù)測(cè)概率的平均值,相除得到邊際RR/PR,即:
(3)
分層法類(lèi)似直接標(biāo)化法,選取一個(gè)標(biāo)準(zhǔn)人口,依據(jù)標(biāo)準(zhǔn)人口中協(xié)變量分段將研究人群分成k層,采用標(biāo)準(zhǔn)人口中各層的協(xié)變量構(gòu)成作為權(quán)重Wk,同一層的研究對(duì)象協(xié)變量取值相同,通常取其均值,再計(jì)算RR/PR,即:
(4)
上述三種方法的置信區(qū)間(confidence interval,CI)都可用Bootstrap方法來(lái)估計(jì)。Bootstrap方法的基本原理是對(duì)原始樣本進(jìn)行B次有放回的重抽樣,從B個(gè)Bootstrap子樣本中產(chǎn)生B個(gè)統(tǒng)計(jì)量的觀察值,從而得到參數(shù)的經(jīng)驗(yàn)分布,然后進(jìn)行參數(shù)估計(jì)。常用的Bootstrap估計(jì)CI方法有三種[8],其中t分布法假設(shè)用Bootstrap子樣本求出的RR/PR服從正態(tài)分布且各個(gè)觀察值之間相互獨(dú)立,精確率較高;百分位數(shù)法屬于非參數(shù)法,對(duì)RR/PR的分布沒(méi)有要求,但精確度不如t分布法;偏差校正百分位數(shù)法則在百分位數(shù)法的基礎(chǔ)上校正了原始樣本的RR/PR與Bootstrap子樣本RR/PR中位數(shù)的偏差,提高了精確度。Bootstrap方法在SAS統(tǒng)計(jì)軟件中可通過(guò)PROC SURVEYSELECT過(guò)程來(lái)實(shí)現(xiàn),將METHOD語(yǔ)句指定為URS即可。
實(shí)例來(lái)自2009年“廣州市禁煙立法基線(xiàn)調(diào)查”資料。本研究選取男性人群資料,研究男性人群中吸煙與禁煙立法態(tài)度間的關(guān)聯(lián),并考慮年齡的混雜效應(yīng)。在接受調(diào)查的2129例男性居民中,不贊成禁煙立法的比例為17.72%(>10%),其中吸煙者的不贊成率為30.27%,高于不吸煙者(9.39%),粗PR=3.224。吸煙情況及各年齡層居民的不贊成率見(jiàn)表1。
表1 男性吸煙情況、年齡與禁煙立法態(tài)度的頻數(shù)分布
考慮到年齡可能是吸煙與禁煙立法態(tài)度關(guān)聯(lián)的混雜因素,估計(jì)PR時(shí)將其作為協(xié)變量納入logistic回歸模型,再分別運(yùn)用三種方法估計(jì)PR,在條件法中,以調(diào)查對(duì)象年齡的均值(41.48歲)作為式(2)中年齡變量的取值。在邊際法中,將每個(gè)調(diào)查對(duì)象的年齡代入式(3),而在分層法中,本文選取廣州市第六次人口普查(2010年)數(shù)據(jù)[9]作為標(biāo)準(zhǔn)人口,以每層人數(shù)占總?cè)丝诘谋壤鳛闄?quán)重Wk,取每層研究對(duì)象年齡的均值(各層分別為17.00、24.48、34.87、44.50、54.58、64.38、74.25、82.40、93.33歲)代入式(4)計(jì)算PR。經(jīng)三種方法得到PR后,均用Bootstrap方法估計(jì)PR的95% CI。經(jīng)正態(tài)性檢驗(yàn),PR的經(jīng)驗(yàn)分布均不服從正態(tài)分布(P<0.05),因此使用偏差校正百分位數(shù)法,各方法估計(jì)結(jié)果見(jiàn)表2。
表2 用不同方法估計(jì)吸煙與禁煙立法態(tài)度的關(guān)聯(lián)強(qiáng)度指標(biāo)
可以看到,在條件法、邊際法和分層法中,男性吸煙者禁煙立法不贊成率分別是不吸煙者的3.350 (95%CI: 2.747,4.126)倍、3.441 (95%CI: 2.931,4.768)倍和3.206 (95%CI: 2.587,3.855)倍。而OR則高估了吸煙與禁煙態(tài)度的關(guān)聯(lián),為4.379(95%CI: 3.440,5.573),說(shuō)明在患病率高的情況下(本例男性不贊成率為17.72%),使用OR會(huì)高估關(guān)聯(lián)的程度。本例調(diào)整年齡后的OR和PR與粗OR和PR相差不大,表明年齡在此處的混雜作用不強(qiáng)。
當(dāng)所研究的結(jié)局在人群中的患病率較高(>10%)時(shí),使用OR會(huì)導(dǎo)致高估暴露與結(jié)局的關(guān)聯(lián)強(qiáng)度。因此在橫斷面研究中宜使用PR、隊(duì)列研究中宜使用RR以描述暴露與結(jié)局的關(guān)聯(lián)強(qiáng)度。相比其他直接估計(jì)RR/PR的方法,如Poisson回歸,log-binomial回歸等,使用logistic回歸來(lái)間接估計(jì)RR/PR具有以下優(yōu)點(diǎn):①Logistic回歸使用廣泛,被廣大研究人員尤其是非統(tǒng)計(jì)專(zhuān)業(yè)研究人員所熟識(shí),易于使用和推廣;②與直接用定義式計(jì)算RR/PR相比,可以控制協(xié)變量,與使用Mantel-Haenszel法相比,可以控制多個(gè)協(xié)變量,且適用于連續(xù)型協(xié)變量;③流行病學(xué)研究中層次結(jié)構(gòu)數(shù)據(jù)普遍存在,基于logistic回歸的多水平模型理論成熟,應(yīng)用廣泛,當(dāng)研究非稀有結(jié)局時(shí),本文介紹的方法可直接推廣到多水平模型用于估計(jì)RR/PR,且其置信區(qū)間也可通過(guò)Bootstrap方法得到。
本文介紹了基于logistic回歸間接估計(jì)RR/PR的三種方法,實(shí)際應(yīng)用中,將協(xié)變量指定為某一參考值的條件法是最為簡(jiǎn)便的一種選擇,此外,在條件法中通過(guò)指定不同的參考值,可比較在協(xié)變量不同水平下的RR/PR[10]。當(dāng)研究目的是比較樣本中所有個(gè)體均為暴露組時(shí)與均為非暴露組時(shí)的風(fēng)險(xiǎn),則選用邊際法更為恰當(dāng)。當(dāng)不同暴露組之間協(xié)變量的分布不同時(shí),可考慮使用分層法。分層法的基本思想類(lèi)似直接標(biāo)準(zhǔn)化法,利用標(biāo)準(zhǔn)人口的協(xié)變量分布作為權(quán)重,來(lái)調(diào)整該協(xié)變量的分布,使各組間均衡可比。本文考慮年齡作為協(xié)變量,實(shí)際應(yīng)用中,協(xié)變量為其他因素時(shí)或多因素時(shí),選擇標(biāo)準(zhǔn)人口的協(xié)變量或多變量聯(lián)合分布可能較為困難。
本文實(shí)例中只考慮了一個(gè)協(xié)變量,在需要同時(shí)控制多個(gè)協(xié)變量的情況下,條件法或邊際法只需要在公式中加入不同的協(xié)變量即可。對(duì)于分層法則較為復(fù)雜,隨著協(xié)變量分層數(shù)或需要調(diào)整的協(xié)變量數(shù)增多,需要計(jì)算的權(quán)重也隨之增加,而且在樣本量較小的情況下,可能會(huì)出現(xiàn)某些層的觀察對(duì)象數(shù)目過(guò)少甚至沒(méi)有的情況,導(dǎo)致無(wú)法分層調(diào)整。對(duì)于這些情況,可以考慮使用聚類(lèi)分析來(lái)控制分層的數(shù)目[11],或者用傾向評(píng)分加權(quán)來(lái)調(diào)整權(quán)重[12]。
參 考 文 獻(xiàn)
1.Lee J,Chia KS.Use of the prevalence ratio v the prevalence odds ratio as a measure of risk in cross sectional studies.Occup Environ Med,1994,51(12):841.
2.Zhang J,Kai FY.What’s the relative risk?JAMA: the journal of the American Medical Association,1998,280(19):1690-1691.
3.Barros AJ,Hirakata VN.Alternatives for logistic regression in cross-sectional studies: an empirical comparison of models that directly estimate the prevalence ratio.BMC Med Res Methodol,2003,3:21.
4.童峰,陳坤.常見(jiàn)結(jié)局事件的前瞻性研究中修正Poisson回歸模型的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2006,23(5):410-412.
5.葉榮,郜艷暉,楊翌,等.log-binomial模型估計(jì)的患病比及其應(yīng)用.中華流行病學(xué)雜志,2010,31(5):576-578.
6.Mcnutt LA,Wu C,Xue X,et al.Estimating the relative risk in cohort studies and clinical trials of common outcomes.Am J Epidemiol,2003,157(10):940-943.
7.Santos CA,Fiaccone RL,Oliveira NF,et al.Estimating adjusted prevalence ratio in clustered cross-sectional epidemiological data.BMC Med Res Methodol,2008,8:80.
8.Efron B,Tibshirani RJ.An introduction to the bootstrap.New York: Champan & Hill,1993:153-199.
9.廣州市人口普查辦公室編.廣州市2010年人口普查資料.北京:中國(guó)統(tǒng)計(jì)出版社,2012.
10.Localio AR,Margolis DJ,Berlin JA.Relative risks and confidence intervals were easily computed indirectly from multivariable logistic regression.J Clin Epidemiol,2007,60(9):874-882.
11.張吉?jiǎng)P,胡毅玲,胡巢鳳,等.聚類(lèi)在流行病學(xué)分層分析中的應(yīng)用.中華流行病學(xué)雜志,2003,24(7):615-617.
12.李智文,劉建蒙,任愛(ài)國(guó),等.基于個(gè)體的標(biāo)準(zhǔn)化法-傾向評(píng)分加權(quán).中華流行病學(xué)雜志,2010,31(2):223-226.