胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在流行病學(xué)研究或臨床研究中,為了較快地找到可能導(dǎo)致某種疾病發(fā)生的原因,研究者需要開展“病例對(duì)照研究”。也就是找到與病例組條件接近的對(duì)照組,基于臨床專業(yè)知識(shí),提出各種可能導(dǎo)致所研究疾病發(fā)生的全部可疑因素,回顧性調(diào)查病例組與對(duì)照組受試對(duì)象接觸各種可疑因素的情況,計(jì)算并比較兩組受試對(duì)象接觸各種可疑因素的比例,從而為確定導(dǎo)致所研究疾病發(fā)生的可能危險(xiǎn)因素提供線索。
若假定每個(gè)可疑危險(xiǎn)因素只分為“接觸”與“未接觸”兩個(gè)水平,此時(shí),基于病例對(duì)照設(shè)計(jì)所收集的資料就可以簡(jiǎn)化成“病例對(duì)照設(shè)計(jì)四格表資料(參見下文表1和表2)”。對(duì)其進(jìn)行統(tǒng)計(jì)分析主要包括兩個(gè)方面:其一,檢驗(yàn)“患病與否”與“接觸與否”之間是否存在關(guān)聯(lián)性(所需要的統(tǒng)計(jì)分析方法與處理橫斷面設(shè)計(jì)四格表資料的統(tǒng)計(jì)分析方法相同,參見文獻(xiàn)[1]);其二,檢驗(yàn)“優(yōu)勢(shì)比(Odds ratio,OR)是否等于1”。本文著重介紹優(yōu)勢(shì)比的概念、對(duì)總體OR的Mantel-Haenszel’s χ2檢驗(yàn)(簡(jiǎn)稱 MH χ2檢驗(yàn))、對(duì)總體OR的區(qū)間估計(jì)方法以及使用SAS和R軟件實(shí)現(xiàn)計(jì)算的方法。
所謂“病例對(duì)照設(shè)計(jì)”,就是依據(jù)專業(yè)知識(shí)和基本常識(shí),提出一些“重要的非試驗(yàn)因素(如年齡、性別、職業(yè)、生活環(huán)境、生活方式等)”,針對(duì)現(xiàn)有“病例組”具備的條件,尋找在前述重要的非試驗(yàn)因素方面與“病例組”非常接近但未患所研究疾病的另一組人群,他們被稱為“對(duì)照組”;再依據(jù)專業(yè)知識(shí),提出一些可能導(dǎo)致所研究疾病發(fā)生的“可疑影響因素”,讓前述提及的兩組受試對(duì)象回憶之前是否接觸過這些“可疑影響因素”。于是,計(jì)算出兩組人群對(duì)每種“可疑影響因素”的“接觸比例”,進(jìn)而依據(jù)統(tǒng)計(jì)學(xué)原理對(duì)其進(jìn)行假設(shè)檢驗(yàn)。
從前面的“概念”可知,在病例對(duì)照設(shè)計(jì)資料的收集過程中,先有“患病”與“未患病”的結(jié)果分檔,后有“接觸危險(xiǎn)因素(簡(jiǎn)稱‘接觸’)”與“未接觸危險(xiǎn)因素(簡(jiǎn)稱‘未接觸’)”的原因分組,故其四格表資料的表達(dá)模式見表1。
表1 n個(gè)受試對(duì)象病例對(duì)照研究結(jié)果的表達(dá)模式
【例1】在文獻(xiàn)[2]中,作者根據(jù)MINI 5.0中文版自殺模塊判斷未治療抑郁障礙患者有無自殺風(fēng)險(xiǎn),共6個(gè)條目,評(píng)分范圍0~33分。評(píng)分<6分為無自殺風(fēng)險(xiǎn),評(píng)分≥6分為有自殺風(fēng)險(xiǎn)。假定作者收集資料時(shí),首先關(guān)注的是“是否伴有精神病性癥狀”,并將其視為“結(jié)果變量”。在此基礎(chǔ)上,對(duì)“有精神病性癥狀”與“無精神病性癥狀”的兩組受試對(duì)象進(jìn)行回顧性調(diào)查或測(cè)量,從而獲得兩組受試對(duì)象中各自“有自殺風(fēng)險(xiǎn)者所占的比例”,具體數(shù)據(jù)見表2。
表2 未治療抑郁障礙患者“有無精神病性癥狀”與“有無自殺風(fēng)險(xiǎn)”之間關(guān)系的調(diào)查結(jié)果
對(duì)表2資料進(jìn)行統(tǒng)計(jì)分析涉及以下兩個(gè)問題:①“有無精神病性癥狀”與“有無自殺風(fēng)險(xiǎn)”之間是否存在獨(dú)立性;②“有精神病性癥狀”與“無精神病性癥狀”的優(yōu)勢(shì)比是否等于1。
【統(tǒng)計(jì)分析方法的選擇】回答第1個(gè)問題,可選用“Pearson’sχ2檢驗(yàn)”或“校正的 Pearson’sχ2檢驗(yàn)”或“似然比χ2檢驗(yàn)”或“Fisher’s精確檢驗(yàn)”。因?yàn)檫@些檢驗(yàn)方法所對(duì)應(yīng)的零假設(shè)均為“兩屬性變量互相獨(dú)立”;回答第2個(gè)問題,需要先計(jì)算“OR”,然后選用“Mantel-Haenszel’sχ2檢驗(yàn)”,該檢驗(yàn)的檢驗(yàn)假設(shè)為:“H0:OR=1,H1:OR≠1”。因?yàn)?MHχ2檢驗(yàn)所對(duì)應(yīng)的零假設(shè)為“優(yōu)勢(shì)比等于1”。
雖然病例對(duì)照設(shè)計(jì)四格表資料中的兩個(gè)變量有“原因變量”與“結(jié)果變量”之分,但在回答兩變量之間是否存在“獨(dú)立性”時(shí),仍可將其視為“兩屬性變量”之間關(guān)系的研究問題,故可采用的統(tǒng)計(jì)分析方法與橫斷面設(shè)計(jì)四格表資料是完全相同的,具體方法參見文獻(xiàn)[1]。因篇幅所限,此處不再贅述。
OR是兩個(gè)人群odd值之比值[3-4],這兩個(gè)人群分別受到一個(gè)可疑危險(xiǎn)因素兩個(gè)水平(例如接觸與未接觸)的影響。具體地說,OR是病例組的“odd病例”與對(duì)照組的“odd對(duì)照”之比,它揭示了“危險(xiǎn)因素的兩個(gè)水平”在兩組中的相對(duì)作用強(qiáng)度大小。若OR>1,表明“危險(xiǎn)因素”對(duì)“病例組”的影響大于對(duì)“對(duì)照組”的影響;反之亦然。OR的計(jì)算公式如下:
前提條件:兩個(gè)人群應(yīng)處于相同的地理環(huán)境之中,生活在相同的時(shí)間區(qū)間內(nèi);每個(gè)人群都有足夠大的樣本含量(兩個(gè)人群的樣本含量之差越小越好);對(duì)照組在一切重要的非試驗(yàn)因素方面與病例組越接近越好;應(yīng)避免帶有誘導(dǎo)性的提問;應(yīng)盡可能保證在回顧性調(diào)查過程中,每位受試對(duì)象通過回憶給出的回答越準(zhǔn)確越好。
OR是一個(gè)一般的樣本統(tǒng)計(jì)量,存在抽樣誤差,要想知道總體中的OR是否為1,就需要對(duì)其進(jìn)行假設(shè)檢驗(yàn),即
對(duì)式(2)進(jìn)行假設(shè)檢驗(yàn)所需要的檢驗(yàn)統(tǒng)計(jì)量為Mantel-Haenszel’s χ2,一般記為χ2MH,見下式:
2.3.1 概述
由于OR是一個(gè)一般的樣本統(tǒng)計(jì)量,通常,人們需要知道與其對(duì)應(yīng)的總體參數(shù)所在的范圍,這就是總體優(yōu)勢(shì)比的區(qū)間估計(jì)問題。在SAS/STAT的FREQ過程中[5],給出了三種置信區(qū)間的計(jì)算方法,即“漸近置信區(qū)間法(簡(jiǎn)稱WALD法)”“評(píng)分置信區(qū)間法”和“精確置信區(qū)間法”[4-5]。
2.3.2 漸近置信區(qū)間法
OR的漸近100(1-α)%置信區(qū)間的計(jì)算公式:
在式(4)中,z是標(biāo)準(zhǔn)正態(tài)分布曲線下左側(cè)面積為100(1-α/2)%處橫坐標(biāo)軸上的分位數(shù);而v為對(duì)數(shù)優(yōu)勢(shì)比的方差,見下式:
2.3.3 評(píng)分置信區(qū)間法
滿足式(7)的所有θ值構(gòu)成OR的100(1-α)%置信區(qū)間。
2.3.4 精確置信區(qū)間法
基于Thomas和Gart提出的方法[5],用迭代的方法求解下列兩個(gè)方程,可以獲得置信限的下限和上限值φ1和φ2:
【例2】沿用例1中的“問題與數(shù)據(jù)”,試完成下列4項(xiàng)任務(wù):①檢驗(yàn)兩變量(即“有無精神病性癥狀”與“有無自殺風(fēng)險(xiǎn)”)之間的關(guān)聯(lián)性;②計(jì)算優(yōu)勢(shì)比(OR);③對(duì)OR進(jìn)行假設(shè)檢驗(yàn),即“H0:OR=1,H1:OR≠1”;④對(duì)OR進(jìn)行區(qū)間估計(jì)。
所需要的SAS程序如下[5-6]:
【程序說明】第一個(gè)過程步對(duì)四格表資料進(jìn)行“關(guān)聯(lián)性或獨(dú)立性”檢驗(yàn)(包括檢驗(yàn)、校正檢驗(yàn)、檢驗(yàn)和Fisher’s精確檢驗(yàn));計(jì)算OR值,還包括對(duì)OR是否等于1的檢驗(yàn)。第二個(gè)過程步對(duì)四格表資料進(jìn)行“OR值計(jì)算”,并基于“漸近置信區(qū)間法(即WALD法)”求“OR值的95%置信區(qū)間”。第三個(gè)過程步對(duì)四格表資料進(jìn)行“OR值計(jì)算”,并基于“評(píng)分法”求“OR值的95%置信區(qū)間”。第四個(gè)過程步對(duì)四格表資料進(jìn)行“OR值計(jì)算”,并基于“精確置信區(qū)間法(簡(jiǎn)稱精確法)”求“OR值的95%置信區(qū)間”。
【SAS主要輸出結(jié)果及解釋】
第一部分,“關(guān)聯(lián)性或獨(dú)立性”檢驗(yàn)結(jié)果見表3。
表3 例1中病例對(duì)照設(shè)計(jì)四格表資料關(guān)聯(lián)性或獨(dú)立性檢驗(yàn)結(jié)果
第二部分,優(yōu)勢(shì)比的計(jì)算結(jié)果及其假設(shè)檢驗(yàn)的結(jié)果:OR=4.0915,=5.7659,漸近概率=0.0163。
第三部分,基于三種方法估計(jì)總體優(yōu)勢(shì)比OR值的95%置信區(qū)間的結(jié)果如下。漸近法:[1.2190,13.7329];評(píng)分法:[1.2704,13.0550];精確法:[1.1022,18.6182]。
【結(jié)論】由表3結(jié)果可知,“有無精神病性癥狀”與“有無自殺風(fēng)險(xiǎn)”之間是不獨(dú)立的,具體地說,“有精神病性癥狀”者比“無精神病性癥狀”者具有更大的“自殺風(fēng)險(xiǎn)”,其OR=4.0915;總體中OR值的95%置信區(qū)間隨著計(jì)算方法的改變略有變化,即漸近法:[1.2190,13.7329];評(píng)分法:[1.2704,13.0550];精確法:[1.1022,18.6182]。
所需要的R程序如下[6-7]:
【程序說明】“>”代表R軟件運(yùn)行環(huán)境中的“提示符”,上面的R程序中共有3個(gè)提示符,說明共有3個(gè)R語句;第一句將四格表資料組織成一個(gè)矩陣;第二句調(diào)用函數(shù)fisher.test(),此函數(shù)將采用Fisher’s精確檢驗(yàn)實(shí)現(xiàn)四格表資料的“獨(dú)立性檢驗(yàn)”,同時(shí),還計(jì)算優(yōu)勢(shì)比OR的值,并采用精確法求總體OR值的95%置信區(qū)間;第三句調(diào)用函數(shù)chisq.test(),此函數(shù)將采用校正公式進(jìn)行Pearson’sχ2檢驗(yàn)(即實(shí)現(xiàn)兩屬性變量之間的獨(dú)立性檢驗(yàn))。
【R主要輸出結(jié)果及解釋】
以上結(jié)果表明,采用Fisher’s精確檢驗(yàn)對(duì)四格表資料中兩屬性變量進(jìn)行獨(dú)立性檢驗(yàn)得到的結(jié)果為:P=0.02423,優(yōu)勢(shì)比OR=4.042456(注意:與前面基于SAS計(jì)算得出的OR=4.0915略有出入),基于精確法求得總體OR的95%置信區(qū)間為[1.1022,18.6130]。
以上為進(jìn)行了連續(xù)性校正的Pearson’s χ2檢驗(yàn)結(jié)果,即=4.551,P=0.0329。
【結(jié)論】參見前文SAS輸出結(jié)果及結(jié)論,此處從略。
在SAS/STAT的FREQ過程中[5],增加了一些新的方法求總體優(yōu)勢(shì)比OR值的置信區(qū)間,其中,精確置信限的計(jì)算方法計(jì)算得出的下限值與其他兩種方法計(jì)算的下限值比較接近,而上限值比其他兩種方法計(jì)算得出的上限值大得多,其原因有待進(jìn)一步查證。
“病例對(duì)照研究”是一種“由果溯因”的研究,它只能為探索疾病的“因果關(guān)系”提供線索,而不能提供確鑿的證據(jù)。原因主要有以下幾點(diǎn):其一,很難保證兩組人群具有高度的可比性;其二,很難確定每位受試對(duì)象接觸可疑影響因素的強(qiáng)度(包括作用時(shí)間長(zhǎng)短和作用量的大小);其三,很難保證每位受試對(duì)象回憶結(jié)果的準(zhǔn)確性;其四,很難保證真正的危險(xiǎn)因素全部都被研究者提出來并加以研究。
在實(shí)際科研工作中,無論基于隊(duì)列研究設(shè)計(jì)還是病例對(duì)照研究設(shè)計(jì)收集的資料通常都是多因素多結(jié)局的資料,一般來說,常將多結(jié)局變量分解成一個(gè)一個(gè)的結(jié)局變量,但應(yīng)該將多個(gè)原因變量同時(shí)納入統(tǒng)計(jì)分析(即選用多重回歸分析或其他多因素統(tǒng)計(jì)分析),這樣不僅可以克服單因素分析的許多弊端,還有利于考察因素之間的交互作用是否對(duì)結(jié)果變量具有不可忽視的影響,使所獲得的結(jié)果和結(jié)論更可靠。
本文交代了病例對(duì)照設(shè)計(jì)的概念、呈現(xiàn)了病例對(duì)照設(shè)計(jì)四格表資料的實(shí)例和模式,給出了優(yōu)勢(shì)比的概念、計(jì)算公式和區(qū)間估計(jì)方法;基于SAS和R軟件實(shí)現(xiàn)了對(duì)病例對(duì)照設(shè)計(jì)四格表資料的多種假設(shè)檢驗(yàn)及對(duì)優(yōu)勢(shì)比OR值的計(jì)算和區(qū)間估計(jì),對(duì)軟件輸出的結(jié)果做出了解釋,并給出了統(tǒng)計(jì)結(jié)論和專業(yè)結(jié)論。