劉媛媛,李長(zhǎng)平,2*,胡良平
(1.天津醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室,天津300070;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京100029;3.軍事科學(xué)院研究生院,北京100850*通信作者:李長(zhǎng)平,E-mail:1067181059@qq.com)
在調(diào)查研究中,常見的結(jié)果變量及其取值除了二值資料、多值有序資料之外,還包括如血型“A型、B型、O型、AB型”或疾病分型“A型、B型、C型”這樣的資料,稱為多值名義資料。此類資料特指因變量或結(jié)果變量為多值名義變量,而自變量可以是定性的、定量的或混合型的資料[1]?,F(xiàn)在,復(fù)雜抽樣調(diào)查設(shè)計(jì)在實(shí)際調(diào)查研究中使用越來越多,對(duì)由此獲得的復(fù)雜抽樣數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析時(shí),需充分考慮由不同的抽樣方法而產(chǎn)生的不同“抽樣權(quán)重”。本文通過不同分析策略對(duì)復(fù)雜抽樣調(diào)查設(shè)計(jì)多值名義資料進(jìn)行多重logistic回歸分析,并探討不同策略之間的差異。
對(duì)于結(jié)果變量為多值名義變量的logistic回歸模型,其結(jié)果變量的多個(gè)取值之間是“無序的”,假設(shè)結(jié)果變量Y的取值的類別個(gè)數(shù)為(D+1)個(gè),這時(shí),總是以其中一個(gè)取值類別作為對(duì)照,將其他類別與對(duì)照類別進(jìn)行比較,共生成D個(gè)logistic回歸模型,所構(gòu)建的logistic回歸模型也被稱為擴(kuò)展的logistic回歸模型或廣義logit模型[2]。見式(1)。
其中,α1,…,αD是D個(gè)截距參數(shù),β1,…,βD是D個(gè)參數(shù)組成的向量,βi代表第i類相對(duì)于第(D+1)類的回歸系數(shù)向量,x代表協(xié)變量向量。此模型最早由McFadden[3]介紹,并被作為多項(xiàng)logit模型而熟知。
對(duì)上式進(jìn)行轉(zhuǎn)換可得式(2):
因?yàn)樗校―+1)類的概率之和必須為1,所以第(D+1)類的概率為式(3)[4]:
對(duì)于復(fù)雜抽樣下多值名義資料多重logistic回歸模型來說,建模時(shí)通過使用偽對(duì)數(shù)似然函數(shù)來估計(jì)模型參數(shù)。當(dāng)結(jié)果變量為多值名義資料時(shí),構(gòu)建廣義logit模型將使用logit連接函數(shù)擬合每個(gè)響應(yīng)類別的預(yù)期比例與參考類別的預(yù)期比例的比值[2]。此時(shí),廣義logit模型即為式(4):
其中,d=1,2,…,D。模型參數(shù)向量為βd=(βd1,βd2,…,βdk)'。πhij為結(jié)果變量的期望向量。xhij為第h層第i個(gè)群集第j個(gè)單位解釋變量的k維行向量。
利用偽對(duì)數(shù)似然函數(shù)對(duì)模型參數(shù)進(jìn)行估計(jì),求解最大似然估計(jì)值。見式(5):
在式(5)中,Dhij為連接函數(shù)關(guān)于θ的偏導(dǎo)數(shù)矩陣,θ為回歸系數(shù)的列向量,θ=(β'1,β'2,…,β'D)',ωhij為抽樣權(quán)重,yhij為變量Y的前D個(gè)類別的指示變量組成的一個(gè)D維的列向量[5]。
本研究所使用數(shù)據(jù)為美國(guó)衛(wèi)生與公眾服務(wù)部開展的醫(yī)療支出面板調(diào)查(Medical Expenditure Panel Survey,MEPS)的數(shù)據(jù),對(duì)醫(yī)療保健的各個(gè)方面進(jìn)行評(píng)估[2]。該研究采用分層整群抽樣,抽樣權(quán)重根據(jù)無響應(yīng)情況和當(dāng)前人口調(diào)查的人口控制總量進(jìn)行調(diào)整。在本例中,利用1999年全年數(shù)據(jù)來研究醫(yī)保覆蓋情況與人口學(xué)變量之間的關(guān)系。數(shù)據(jù)存儲(chǔ)于SAS數(shù)據(jù)集MEPS,樣本量為24 618,變量為8個(gè),具體變量名及賦值見表1。
表1 數(shù)據(jù)集中變量名及賦值或單位
2.2.1 按單純隨機(jī)抽樣進(jìn)行分析
既不考慮抽樣設(shè)計(jì),也不考慮抽樣權(quán)重:將復(fù)雜調(diào)查設(shè)計(jì)資料視為“單純隨機(jī)抽樣設(shè)計(jì)資料”。
2.2.1.1 SAS程序
基于表1及其具體數(shù)據(jù)創(chuàng)建臨時(shí)SAS數(shù)據(jù)集MEPS所對(duì)應(yīng)的SAS數(shù)據(jù)步程序從略。調(diào)用LOGISTIC過程來實(shí)現(xiàn)單純隨機(jī)抽樣設(shè)計(jì)資料的廣義logit模型。
【說明】class語(yǔ)句指定分類變量sex、race、income;model語(yǔ)句中響應(yīng)變量為Y=insurance,以insurance=3為參考類別,解釋變量(即自變量)為sex、race、income和expenditure。在MODEL語(yǔ)句中指定了LINK=GLOGIT選項(xiàng),即指定擬合廣義logit回歸模型,即擴(kuò)展的多重logistic回歸模型。
2.2.1.2 主要輸出結(jié)果及解釋
這里僅列出部分廣義logit回歸模型分析結(jié)果。其中模型參數(shù)的假設(shè)檢驗(yàn)分別使用似然比檢驗(yàn)、評(píng)分檢驗(yàn)和Wald檢驗(yàn)三種方法,結(jié)果顯示回歸模型有統(tǒng)計(jì)學(xué)意義。最大似然估計(jì)結(jié)果顯示,性別、家庭收入水平和全年衛(wèi)生保健總支出對(duì)健康保險(xiǎn)覆蓋情況的影響均有統(tǒng)計(jì)學(xué)意義;優(yōu)勢(shì)比估計(jì)結(jié)果顯示,相對(duì)于全年沒有保險(xiǎn)者而言,女性、家庭收入水平非貧窮者、全年衛(wèi)生保健總支出高者傾向于全年有私人保險(xiǎn);男性、家庭收入水平非貧窮者、全年衛(wèi)生保健總支出高者傾向于全年只有公共保險(xiǎn)。
2.2.2 考慮抽樣設(shè)計(jì),但不考慮抽樣權(quán)重
2.2.2.1 SAS程序
調(diào)用SURVEYLOGISTIC過程來實(shí)現(xiàn)復(fù)雜抽樣調(diào)查設(shè)計(jì)多值名義資料的廣義logit回歸模型。
【說明】STRATA語(yǔ)句用于指定在分層抽樣設(shè)計(jì)中的分層變量,CLUSTER語(yǔ)句指定整群抽樣設(shè)計(jì)中的群變量。其他解釋同上。
2.2.2.2 主要輸出結(jié)果及解釋
SAS輸出結(jié)果很多,由于篇幅限制,此部分結(jié)果從略。由輸出結(jié)果得知:性別、人種、家庭收入水平和全年衛(wèi)生保健總支出對(duì)健康保險(xiǎn)覆蓋情況的影響均有統(tǒng)計(jì)學(xué)意義。
2.2.3 不考慮抽樣設(shè)計(jì),但考慮抽樣權(quán)重
2.2.3.1 SAS程序
調(diào)用SURVEYLOGISTIC過程來實(shí)現(xiàn)復(fù)雜抽樣調(diào)查設(shè)計(jì)多值名義資料的廣義logit回歸模型。
【說明】WEIGHT語(yǔ)句指定權(quán)重變量,其他解釋同上。
2.2.3.2主要輸出結(jié)果及解釋
由于篇幅限制,SAS輸出結(jié)果從略。由輸出結(jié)果得知:性別、人種、家庭收入水平和全年衛(wèi)生保健總支出對(duì)健康保險(xiǎn)覆蓋情況的影響均有統(tǒng)計(jì)學(xué)意義。
2.2.4 同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重
2.2.4.1 SAS程序
調(diào)用SURVEYLOGISTIC過程來實(shí)現(xiàn)復(fù)雜抽樣調(diào)查設(shè)計(jì)多值名義資料的廣義logit模型。
【說明】分別用STRATA語(yǔ)句、CLUSTER語(yǔ)句、WEIGHT語(yǔ)句指定復(fù)雜抽樣中的分層變量、群變量、權(quán)重變量,CLASS語(yǔ)句指定分類變量;MODEL語(yǔ)句中結(jié)果變量為insurance,以insurance=3為參考類別,解釋變量為sex、race、income和expenditure。在MODEL語(yǔ)句中指定LINK=GLOGIT選項(xiàng),即指定擬合廣義logit回歸模型。
2.2.4.2 主要輸出結(jié)果及解釋
由于篇幅限制,SAS輸出結(jié)果從略。由輸出結(jié)果得知:性別、人種、家庭收入水平和全年衛(wèi)生保健總支出對(duì)健康保險(xiǎn)覆蓋情況的影響均有統(tǒng)計(jì)學(xué)意義。相對(duì)于全年沒有保險(xiǎn)者而言,女性、愛斯基摩人(相對(duì)于白人)、家庭收入水平非貧窮者、全年衛(wèi)生保健總支出高者傾向于全年有私人保險(xiǎn),而男性、人種為美國(guó)印第安人或亞洲或太平洋島民或黑人(相對(duì)于白人)者、全年衛(wèi)生保健總支出低者傾向于無保險(xiǎn);女性、人種非白人、家庭收入水平貧窮者、全年衛(wèi)生保健總支出高者傾向于全年只有公共保險(xiǎn)。
不考慮復(fù)雜抽樣的普通廣義logit回歸模型與僅考慮抽樣設(shè)計(jì)的廣義logit回歸模型所得回歸系數(shù)及OR值的參數(shù)估計(jì)值相同,僅回歸系數(shù)的標(biāo)準(zhǔn)誤及OR值的95%CI不同,而其變化有的增大有的減小。說明是否考慮抽樣方法對(duì)廣義logit回歸模型參數(shù)估計(jì)存在影響。
考慮抽樣權(quán)重與同時(shí)考慮抽樣設(shè)計(jì)和抽樣權(quán)重之后構(gòu)建的廣義logit回歸模型所得回歸系數(shù)及OR值的參數(shù)估計(jì)值相同,卻與前兩種分析策略結(jié)果不同。而且這兩種分析策略得到的回歸系數(shù)標(biāo)準(zhǔn)誤及OR值的95%CI也有增大或減小的區(qū)別。race變量在不考慮抽樣權(quán)重時(shí),對(duì)健康保險(xiǎn)覆蓋情況無影響;但在考慮抽樣權(quán)重后,race變量的不同情況對(duì)健康保險(xiǎn)覆蓋情況的影響有統(tǒng)計(jì)學(xué)意義。說明在對(duì)復(fù)雜抽樣調(diào)查設(shè)計(jì)多值名義資料構(gòu)建廣義logit回歸模型時(shí),首先應(yīng)考慮研究采用的抽樣方法,由此計(jì)算相應(yīng)的抽樣權(quán)重,否則可能產(chǎn)生較大偏差[5]。
抽樣調(diào)查是調(diào)查研究中相對(duì)簡(jiǎn)單易行且代表性較好的方法之一,但單一的抽樣方法在實(shí)際應(yīng)用中存在一些缺點(diǎn),所以復(fù)雜抽樣的思想和方法應(yīng)運(yùn)而生,由復(fù)雜抽樣方法獲得的樣本稱為復(fù)雜樣本[6]。由于復(fù)雜隨機(jī)抽樣每個(gè)階段的抽樣方法可能不同,所以其抽樣誤差的計(jì)算相當(dāng)復(fù)雜。因此,在對(duì)復(fù)雜樣本進(jìn)行統(tǒng)計(jì)分析時(shí),既要充分考慮多種抽樣方法聯(lián)合使用對(duì)抽樣誤差的影響,又要注意不同抽樣率下抽樣權(quán)重的不同,否則會(huì)使參數(shù)及其置信區(qū)間等的估計(jì)產(chǎn)生偏差。
為了探討在復(fù)雜抽樣或單純隨機(jī)抽樣基礎(chǔ)上進(jìn)行統(tǒng)計(jì)分析的差異,本研究分別采用SAS軟件中的LOGISTIC過程和SURVEYLOGISTIC過程,按照是否考慮抽樣設(shè)計(jì)與是否考慮抽樣權(quán)重共4種分析策略對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。由于LOGISTIC過程可采用逐步回歸法對(duì)自變量進(jìn)行篩選,而SURVEYLOGISTIC過程不支持,所以本研究并未使用該選項(xiàng)。結(jié)果顯示,如果在統(tǒng)計(jì)分析中忽視“復(fù)雜抽樣”或“抽樣權(quán)重”,不僅會(huì)對(duì)參數(shù)估計(jì)值、回歸系數(shù)標(biāo)準(zhǔn)誤、OR值及其置信區(qū)間的估計(jì)產(chǎn)生影響[6],而且對(duì)納入廣義logit回歸模型的解釋變量也有影響。由于復(fù)雜抽樣中的抽樣權(quán)重包含進(jìn)行參數(shù)點(diǎn)估計(jì)時(shí)所需的信息,但不包含標(biāo)準(zhǔn)誤估計(jì)的信息,因此,在SURVEYLOGISTIC過程中需對(duì)方差進(jìn)行估計(jì)。正確的方差估計(jì)包括每一個(gè)抽樣階段的方差估計(jì)和聯(lián)合抽樣概率[7]。SAS中可采用Taylor級(jí)數(shù)線性近似法(線性化)、重抽樣等方法,如不進(jìn)行設(shè)置,則默認(rèn)前者方法,這也是該過程與LOGISTIC過程的主要區(qū)別。因此,在實(shí)際研究中,利用樣本數(shù)據(jù)對(duì)總體進(jìn)行統(tǒng)計(jì)推斷時(shí),必須對(duì)樣本的設(shè)計(jì)類型加以考慮,不然即使樣本量足夠大,也會(huì)導(dǎo)致錯(cuò)誤的推斷結(jié)論[7]。
本文通過實(shí)例研究,按照不同的分析策略分別對(duì)結(jié)果變量為多值名義變量的分層整群抽樣數(shù)據(jù)構(gòu)建廣義logit回歸模型,通過對(duì)結(jié)果的解釋和比較,發(fā)現(xiàn)在對(duì)復(fù)雜抽樣調(diào)查設(shè)計(jì)多值名義資料進(jìn)行多重logistic回歸分析時(shí),既要考慮抽樣設(shè)計(jì),又要兼顧抽樣權(quán)重,以得到更準(zhǔn)確的分析結(jié)果。