張 敏 劉彥才 楊永麗 孟 永 董彩琴
高血壓合并多種并發(fā)癥的廣義估計(jì)方程統(tǒng)計(jì)分析
張 敏1△劉彥才2楊永麗1孟 永3董彩琴2
目的 高血壓有多種并發(fā)癥,一個(gè)病人可能沒(méi)有并發(fā)癥,也可能同時(shí)伴發(fā)一種或多種并發(fā)癥,這類數(shù)據(jù)稱作多重應(yīng)答數(shù)據(jù)。本文以高血壓的并發(fā)癥為例,詳細(xì)闡述應(yīng)變量是多重應(yīng)答數(shù)據(jù)時(shí)如何用廣義估計(jì)方程進(jìn)行統(tǒng)計(jì)分析,以期為臨床工作者在處理類似數(shù)據(jù)時(shí)提供參考。方法 用作者本人的一項(xiàng)高血壓研究為案例,以高血壓并發(fā)癥為應(yīng)變量,各種可能的危險(xiǎn)因素為自變量,通過(guò)Stata10.0統(tǒng)計(jì)軟件包構(gòu)建廣義估計(jì)方程,篩出易患并發(fā)癥的危險(xiǎn)因素。結(jié)果以高血壓的四類并發(fā)癥擬合四個(gè)常數(shù)項(xiàng),構(gòu)建廣義估計(jì)方程。通過(guò)該方程可以計(jì)算出在基線水平上各并發(fā)癥的發(fā)生概率,還可計(jì)算某自變量對(duì)某種并發(fā)癥的影響。結(jié)論 多重應(yīng)答數(shù)據(jù)是醫(yī)學(xué)研究中常見(jiàn)的數(shù)據(jù)形式,用廣義估計(jì)方程處理這類數(shù)據(jù),可以提高科研效率,節(jié)約科研資源。
高血壓并發(fā)癥 多重應(yīng)答數(shù)據(jù) 廣義估計(jì)方程
1.昆明醫(yī)科大學(xué)第一附屬醫(yī)院心內(nèi)科(650032)
2.云南省大理州賓川縣醫(yī)院(671600)
3.昆明醫(yī)科大學(xué)第二附屬醫(yī)院心內(nèi)科(650101)
△通信作者:張敏
原發(fā)性高血壓可導(dǎo)致多種并發(fā)癥,如腦卒中、冠心病、充血性心衰、腎功能不全等。一個(gè)高血壓患者,可能目前沒(méi)有并發(fā)癥,也可能同時(shí)伴發(fā)一種或多種并發(fā)癥。這種類型的數(shù)據(jù),相當(dāng)于問(wèn)卷調(diào)查中的多選題,同一個(gè)問(wèn)題有多個(gè)候選答案,回答問(wèn)題的人可以選擇其中若干個(gè),也可以全選或不選,屬于多重應(yīng)答的資料。在臨床研究中,多重應(yīng)答數(shù)據(jù)是很常見(jiàn)的。例如,某種疾病有多種治療方法,病人可以選擇不接受治療,也可以選擇接受其中一種或多種治療方法;某種疾病有多種病因,病人可能因?yàn)橐环N病因而致病,也可能因?yàn)槎喾N病因的共同作用而致病等等。如果把這種多重應(yīng)答資料作為應(yīng)變量,以各種危險(xiǎn)因素作為自變量,分析這些自變量與多重應(yīng)答的應(yīng)變量之間的關(guān)系,研究者一般的做法,是簡(jiǎn)單地把多重應(yīng)答資料當(dāng)做二分類變量處理:以高血壓的并發(fā)癥為例,設(shè)有并發(fā)癥為1,無(wú)并發(fā)癥為0,用構(gòu)建logistic模型等的統(tǒng)計(jì)方法來(lái)處理數(shù)據(jù)。這種處理方法雖然簡(jiǎn)單,但卻丟失了大量有用信息,用來(lái)分析多重應(yīng)答資料是不恰當(dāng)?shù)?。關(guān)于多重應(yīng)答資料的統(tǒng)計(jì)方法,目前國(guó)內(nèi)外對(duì)此的報(bào)道不多。張文彤〔1〕、洪榮濤〔2〕等提出可采用廣義估計(jì)方程來(lái)處理這類數(shù)據(jù),但迄今為止尚未見(jiàn)到臨床醫(yī)務(wù)工作者使用廣義估計(jì)方程對(duì)多重應(yīng)答資料進(jìn)行分析的實(shí)際案例。本文從臨床醫(yī)生的角度出發(fā),用構(gòu)建廣義估計(jì)方程的方法分析易導(dǎo)致高血壓各種并發(fā)癥的危險(xiǎn)因素,并具體闡述構(gòu)建模型的步驟,以期為廣大臨床工作者在處理類似數(shù)據(jù)時(shí)提供有價(jià)值的參考。
本案例來(lái)源于作者本人2011年發(fā)表于BMC Public Health的一項(xiàng)研究〔3〕:對(duì)云南省賓川縣4個(gè)自然村25歲以上的村民進(jìn)行整群抽樣,得到5110名受試者,對(duì)其測(cè)量血壓和問(wèn)卷調(diào)查,篩查出高血壓患者1340名。在這些高血壓患者中進(jìn)行心電圖、血生化、尿常規(guī)檢查,以及進(jìn)一步的問(wèn)卷調(diào)查,從中篩出有并發(fā)癥的患者,統(tǒng)計(jì)分析哪些危險(xiǎn)因素易導(dǎo)致高血壓并發(fā)癥。
本案例中設(shè)定的自變量有12個(gè),其中年齡、體質(zhì)量指數(shù)、受教育年限和經(jīng)濟(jì)能力這4個(gè)變量為連續(xù)變量,單位分別是歲、千克/米2、年和元,其余變量為分類變量。應(yīng)變量為高血壓的并發(fā)癥,如前所述,該數(shù)據(jù)屬于多重應(yīng)答數(shù)據(jù),本案例中定義的高血壓并發(fā)癥有4類,分別為腦損害、心臟損害、腎損害和其他。各變量的賦值情況見(jiàn)表1。
本案例使用Stata 10.0軟件包做統(tǒng)計(jì)分析,原始數(shù)據(jù)錄入格式見(jiàn)表2。
在本例中,自變量包括連續(xù)變量(如年齡、體質(zhì)量指數(shù)等),二分類變量(如性別、是否接受降壓治療等),以及多分類變量(吸煙、飲酒)。吸煙和飲酒是兩個(gè)有序多分類變量,但由于無(wú)法準(zhǔn)確衡量各類別之間的差距,故將這兩個(gè)原始的多分類變量轉(zhuǎn)化為數(shù)個(gè)啞變量,再進(jìn)行進(jìn)一步分析。轉(zhuǎn)化為啞變量的Stata命令如下:
這兩個(gè)命令分別將吸煙和飲酒轉(zhuǎn)化為S1~S6,及D1~D6各6個(gè)啞變量,各啞變量的賦值如下:
吸煙:
S1:不吸煙為1,否則為0;
S2:每天10支以內(nèi)為1,否則為0;
表1 變量賦值情況
表2 原始數(shù)據(jù)錄入格式
S3:每天10~20支為1,否則為0;
S4:每天21~30支為1,否則為0;
S5:每天31~40支為1,否則為0;
S6:每天40支以上為1,否則為0。
飲酒:
D1:不飲酒為1,否則為0;
D2:每天白酒50ml以內(nèi)為1,否則為0;
D3:每天50~100ml為1,否則為0;
D4:每天100~150ml為1,否則為0;
D5:每天150~200ml為1,否則為0;
D6:每天200ml以上為1,否則為0。
建模之前,首先要用reshape命令把原始數(shù)據(jù)的寬型格式轉(zhuǎn)換為長(zhǎng)型格式,命令如下:
reshape long compli,i(No)j(Obs)
轉(zhuǎn)換后的長(zhǎng)型數(shù)據(jù)格式見(jiàn)表3。No表示病人編號(hào),Obs是新生成的變量,表示應(yīng)變量四個(gè)選項(xiàng)的編號(hào)。
在擬合方程前,還需把Obs轉(zhuǎn)化為啞變量:
tab Obs,gen(z)
該命令將Obs轉(zhuǎn)化為z1~z4四個(gè)啞變量,賦值如下:
z1:有腦損害為1,否則為0;
z2:有心臟損害為1,否則為0;
z3:有腎損害為1,否則為0;
z4:有其他損害為1,否則為0。
表3 長(zhǎng)型數(shù)據(jù)格式
本例中四類不同的并發(fā)癥,可以看成是對(duì)一個(gè)問(wèn)題的四次重復(fù)測(cè)量,四個(gè)選項(xiàng)分別擬合四個(gè)常數(shù)項(xiàng),構(gòu)建廣義估計(jì)方程模型如下:
構(gòu)建廣義估計(jì)方程的命令是xtgee,具體如下:
xtgee compli z1-z4 gender age bmi insurance school capacity aware risk treat control S2 S3 S4 S5 S6 D2 D3 D4 D5 D6,i(No)t(Obs)nocons family(binomial)corr(uns)
廣義估計(jì)方程的分析結(jié)果見(jiàn)表4。
z1~z4四個(gè)常數(shù)項(xiàng)的參數(shù)值分別表示在基線水平下四類并發(fā)癥的發(fā)生概率比數(shù)的自然對(duì)數(shù)值,1~4分別對(duì)應(yīng)“腦損害”、“心臟損害”、“腎損害”和“其他”。例如,假設(shè)所有自變量都保持在基線水平的前提下,發(fā)生腦損害的概率為0.69‰,即:
同理,在基線水平下,發(fā)生心臟損害、腎損害和其他并發(fā)癥的概率分別為0.13‰,0.26‰,和0.02‰。
根據(jù)構(gòu)建的模型顯示,易導(dǎo)致高血壓并發(fā)癥的危險(xiǎn)因素分別為:女性、高齡、受教育年限短、經(jīng)濟(jì)能力差、知曉已患高血壓、不知道高血壓的危險(xiǎn)性、降壓不達(dá)標(biāo)、以及吸煙。各危險(xiǎn)因素的詳細(xì)解釋見(jiàn)作者已發(fā)表的文獻(xiàn)〔3〕,這里將對(duì)危險(xiǎn)性大小及并發(fā)癥發(fā)生概率高低做詳細(xì)報(bào)道。以吸煙為例,每天吸煙10支以內(nèi)者,發(fā)生高血壓并發(fā)癥的風(fēng)險(xiǎn)是不吸煙者的2倍(OR=e0.6989392=2.0);而每天吸煙40支以上者,發(fā)生并發(fā)癥的風(fēng)險(xiǎn)是不吸煙者的226.7倍(OR=e5.423671=226.7)。根據(jù)這個(gè)模型,還可以進(jìn)一步分析某一自變量對(duì)某種具體的并發(fā)癥的影響,例如,在其他自變量保持在基線水平的前提下,降壓達(dá)標(biāo)者發(fā)生腦損害的概率是0.13‰ (P=e-7.27491-1.67305/(1 +e-7.27491-1.67305)=0.0000129985),與基礎(chǔ)的0.69‰相比下降了81%。
表4 廣義估計(jì)方程分析結(jié)果
多重應(yīng)答數(shù)據(jù)屬于分類數(shù)據(jù),但與一般的分類數(shù)據(jù)不同的是,各個(gè)選項(xiàng)之間存在關(guān)聯(lián),且選項(xiàng)之間一般不能互換,因此將各選項(xiàng)看成數(shù)個(gè)獨(dú)立的單選題來(lái)分析是不恰當(dāng)?shù)?。本文通過(guò)一個(gè)實(shí)際的案例,具體闡述了如何構(gòu)建廣義估計(jì)方程模型來(lái)處理應(yīng)變量是多重應(yīng)答數(shù)據(jù)的臨床問(wèn)題。建模時(shí),可以只擬合一個(gè)常數(shù)項(xiàng),也可以n個(gè)選項(xiàng)擬合n個(gè)常數(shù)項(xiàng),本文采用的是后者。從上述結(jié)果中可看出,擬合了四個(gè)常數(shù)項(xiàng),不但可以分析哪些危險(xiǎn)因素會(huì)導(dǎo)致高血壓的并發(fā)癥,還能進(jìn)一步分析哪個(gè)危險(xiǎn)因素對(duì)哪一種并發(fā)癥發(fā)生概率的影響情況,從而獲得更多有價(jià)值的結(jié)果。
多重應(yīng)答數(shù)據(jù)是醫(yī)學(xué)研究中十分常見(jiàn)的數(shù)據(jù)形式,本案例列舉的是高血壓的并發(fā)癥,除高血壓外,很多心腦血管疾病也會(huì)產(chǎn)生多種并發(fā)癥;另外在疾病的起因、預(yù)防和治療方面也可能會(huì)收集到很多多重應(yīng)答數(shù)據(jù)。而令人遺憾的是,目前關(guān)于如何分析多重應(yīng)答數(shù)據(jù)的報(bào)道十分少見(jiàn),而且在臨床研究中對(duì)這類數(shù)據(jù)的處理多是不當(dāng)?shù)?。?dāng)應(yīng)變量是多重應(yīng)答數(shù)據(jù)時(shí),構(gòu)建廣義估計(jì)方程是一種比較合理,且不浪費(fèi)信息資源的統(tǒng)計(jì)方法。對(duì)廣義估計(jì)方程的應(yīng)用,以往的文獻(xiàn)中存在很多復(fù)雜的數(shù)學(xué)術(shù)語(yǔ)或編程命令〔1,2,4〕,可能會(huì)令廣大臨床工作者望而卻步。本文從臨床醫(yī)生的角度出發(fā),盡量簡(jiǎn)化數(shù)學(xué)術(shù)語(yǔ),詳盡闡述建模步驟,并對(duì)醫(yī)生感興趣的統(tǒng)計(jì)結(jié)果進(jìn)行詳細(xì)分析,希望能為臨床工作者提供一種看得懂、用得上的統(tǒng)計(jì)方法,以提高效率、節(jié)約信息資源。
1.張文彤,田曉燕.基于廣義估計(jì)方程的多重應(yīng)答資料統(tǒng)計(jì)分析方法.中國(guó)衛(wèi)生統(tǒng)計(jì),2004,21(3):139-141.
2.洪榮濤,曹衛(wèi)華,歐劍鳴,等.多重應(yīng)答資料統(tǒng)計(jì)分析及其SAS軟件實(shí)現(xiàn)過(guò)程.中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(6):595-598.
3.Zhang M,Meng Y,Yang Y,et al.Major inducing factors of hypertensive complications and the interventions required to reduce their prevalence:an epidemiological study of hypertension in a rural population in China.BMC Public Health,2011,11:301.
4.朱玉,王靜,何倩.廣義估計(jì)方程在SPSS統(tǒng)計(jì)軟件中的實(shí)現(xiàn).中國(guó)衛(wèi)生統(tǒng)計(jì),2011,28(2):199-201.
Statistical Analysis for Hypertensive Complications Using Gen-eralized Estimating Equations
Zhang Min,Liu Yancai,Yang Yongli,et al.Department of Cardiology,the 1st Affiliated Hospital of Kunming Medical University(650032),Kunming
ObjectiveHypertension is a chronic disease with diverse complications.One hypertensive patient could experience one or more complications simultaneously.This type of data is multiple response data.The aim of this paper is to take hypertensive complications for an example,illustrate how to analyze multiple response data using generalized estimating equations,when multiple response data is adopted as the dependent variable.MethodsAn actual case from a hypertension study was used to illustrate how to develop generalized estimating equations.Diverse hypertensive complications were adopted as dependent variable,and potential risk factors were as independent variables.Statistical analyses were undertaken by Stata 10.0 statistical package.ResultsThe generalized estimating equations model was fitted containing four constants based on four categories of hypertensive complications.These four constants reflect the natural logarithm of the odds ratio of the prevalence of four hypertension complications on the baseline.Adjusted by other independent variables,the prevalence of certain complication due to the changing of certain independent variable can also be calculated.ConclusionMultiple response data is a common data in the field of medical research.Developing generalized estimating equations model is suitable to process multiple response data,which can improve research efficiency and save research resource.
Hypertensive complications;Multiple response data;Generalized estimating equations
(責(zé)任編輯:郭海強(qiáng))