魏鳳江 崔 壯 李長平 宋春華 朱 寶 劉媛媛 馬 駿△
公務(wù)員是國家黨政機(jī)關(guān)管理公共事務(wù)的中堅(jiān)力量,隨著社會的發(fā)展,工作壓力的增大,其健康狀況越來越受到關(guān)注。logistic回歸是分類數(shù)據(jù)統(tǒng)計(jì)分析的一種重要方法,流行病學(xué)上常用于研究疾病與致病因子間的聯(lián)系,以疾病發(fā)生與否為應(yīng)變量,影響疾病發(fā)生的因子為自變量,估計(jì)各因子的相對危險(xiǎn)度或比數(shù)比。決策樹是一種非線性的判別分析的方法,是一種類似于流程圖的結(jié)構(gòu)圖,其中,每個內(nèi)部節(jié)點(diǎn)(非樹節(jié)點(diǎn))表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點(diǎn)(或終結(jié)點(diǎn))存放一個類標(biāo)號。本研究應(yīng)用SAS 8.2建立logistic回歸模型和決策樹模型對公務(wù)員健康狀況的預(yù)測性能進(jìn)行比較分析。
1.調(diào)查對象 本次調(diào)查對象為天津市某區(qū)的公務(wù)員,采用整群抽樣的方法,以該區(qū)所有具有公務(wù)員待遇的單位為抽樣群體,抽取民政局(44人)、教育局(66人)、國稅局(131人)、財(cái)政局(66人)、市政公司(160人)、衛(wèi)生防疫站(62人)、法院(99人)、工程管理處(112人)8家單位作為調(diào)查單位,共發(fā)放調(diào)查問卷740份。
2.調(diào)查方法 根據(jù)調(diào)查目的自編“天津市公務(wù)員健康狀況調(diào)查表”,對天津市公務(wù)員的一般情況、健康狀況、膳食習(xí)慣、生活方式等內(nèi)容進(jìn)行現(xiàn)況調(diào)查。問卷中慢性病主要包括:高血壓、高血脂、脂肪肝、腦血管疾病、糖尿病、慢性阻塞性肺病、哮喘、腎臟疾病、肝臟疾病、惡性腫瘤等〔1-2〕,共計(jì)21 種慢性疾病。
3.信度與效度分析 結(jié)合調(diào)查目的,參考焦慮自評量表、抑郁自評量表和心理健康癥狀自評量表?xiàng)l目內(nèi)容,在調(diào)查表中納入反映亞健康狀況和心理健康狀況各10項(xiàng)條目。亞健康狀況各題賦分方法為一直如此“1分”、經(jīng)?!?分”、有時“3分”、沒有“4分”;心理健康狀況各題賦分方法為否“1分”、是“2分”。最后將心理健康和亞健康各題相加得到總分。對心理健康和亞健康問卷部分進(jìn)行信度和結(jié)構(gòu)效度分析。信度分析克朗巴哈系數(shù)為0.80。Kaiser-Meyer-Olkin檢驗(yàn)其值為0.899,Bartlett檢驗(yàn)結(jié)果P<0.01差別有統(tǒng)計(jì)學(xué)意義,說明適合用因子分析方法進(jìn)行結(jié)構(gòu)效度分析。經(jīng)分析提取出的主成分累積方差貢獻(xiàn)率達(dá)到85%,說明對各個題目提取的信息較充分,信度與效度符合要求。
4.數(shù)據(jù)整理與分析 采用Epidata 2.0建立數(shù)據(jù)庫,應(yīng)用SAS 8.2 Enterprise Miner模塊建立logistic回歸模型和決策樹模型。
1.調(diào)查對象的一般情況 本調(diào)查共發(fā)放調(diào)查問卷740份,收回720份,回收率為97.3%,有效問卷705份,有效率為97.9%。其中男性公務(wù)員488人占69.2%,女性公務(wù)員217人占30.8%。調(diào)查人群年齡中位數(shù)為45.49歲(P25~P75:38.43~51.85歲)。通過調(diào)查顯示,該區(qū)公務(wù)員總體患病率為47.0%,患病率相對較高的前四種疾病分別為高血壓(17.87%),高血脂(17.73%),脂肪肝(15.89%),頸、腰椎疾病(12.77%)。
2.影響因素賦值情況 以是否患有高血壓、高血脂、脂肪肝等慢性病為應(yīng)變量,以年齡、性別、體質(zhì)指數(shù)(BMI)、家庭月收入、文化程度、婚姻狀況、吸煙、被動吸煙、飲酒、體育鍛煉花費(fèi)時間、睡眠時間、按時吃飯情況、按時吃早餐情況、公務(wù)員類別、心理健康分值、亞健康分值為自變量,見表1。
3.決策樹模型的建立及結(jié)果 由于本研究樣本量較小,為了充分利用數(shù)據(jù)信息,多方面綜合考慮,采用CHAID方法與CART方法相結(jié)合進(jìn)行建模。對所選的16個變量進(jìn)行重要性篩檢,篩檢出在建模過程中用到的變量按重要性由大到小的順序?yàn)?年齡、吸煙、按時吃飯情況、心理健康分值、體質(zhì)指數(shù)、睡眠時間、被動吸煙、公務(wù)員類別、體育鍛煉花費(fèi)時間、性別、文化程度、亞健康分值、飲酒。建立的決策樹模型見圖1,決策樹可以生成一些容易理解的規(guī)則,在樹狀圖中可以給出作為每一次分支的變量和變量的測試,如是否吸煙、年齡的大小等。同時,在每一個節(jié)點(diǎn)上會列出相應(yīng)的患病人數(shù)和正常人數(shù),并計(jì)算出相應(yīng)的患病率和未患病率。例如,在本研究中,如果年齡小于41.9411歲,并且能夠按時吃飯,并且不吸煙者,那么他患病的概率只有7.5%。
表1 天津市某區(qū)公務(wù)員健康狀況影響因素的賦值
圖1 決策樹模型生成的樹形圖
4.logistic回歸模型分析結(jié)果 本文應(yīng)用逐步選擇法對方程中引入的變量進(jìn)行篩檢,建立的方程中共有影響因素12個,根據(jù)回歸系數(shù)值可知:年齡、體質(zhì)指數(shù)、吸煙、被動吸煙、飲酒、按時吃飯情況、文化程度、婚姻狀況、心理健康分值是患病與否的危險(xiǎn)因素;睡眠時間、體育鍛煉花費(fèi)時間、亞健康分值為患病與否的保護(hù)性因素。結(jié)果見表2。
5.決策樹和logistic回歸模型比較
接受者工作特征曲線(receiver operating characteristic):簡稱ROC曲線。評價(jià)一種診斷技術(shù)的傳統(tǒng)方法是使用靈敏度、特異度、準(zhǔn)確率等指標(biāo)。但這些指標(biāo)受到診斷界點(diǎn)的影響,難以反映診斷方法的優(yōu)劣。為了更全面地評價(jià)診斷方法的診斷價(jià)值,必須考慮各種可能的診斷界點(diǎn)。而ROC曲線可通過改變診斷界點(diǎn),將靈敏度和特異度結(jié)合起來,通過計(jì)算ROC曲線下面積(AUC),根據(jù)曲線的形狀和面積對診斷技術(shù)做出定量分析,總體評價(jià)診斷的準(zhǔn)確性。因此在本研究中評價(jià)模型泛化的性能時采用ROC面積作為評價(jià)兩種模型預(yù)測性能的指標(biāo)。目前ROC分析已經(jīng)成為廣泛應(yīng)用于臨床診斷和人群篩檢研究的一種統(tǒng)計(jì)方法〔3-4〕。ROC曲線最佳工作點(diǎn)的確定:一個診斷系統(tǒng)中,同時使用誤診率和漏診率較小,特異度和靈敏度同時最大的臨界點(diǎn)即為最佳工作點(diǎn)。本研究采用較常用的做法,選取使Youden指數(shù)最大的那一點(diǎn)〔5〕作為最佳工作點(diǎn)。
本文建立的兩種模型ROC曲線下面積:logistic模型為0.8706(95%CI:0.8431~0.8982),準(zhǔn)確度為78.8%;決策樹模型為 0.8881(95%CI:0.8643~0.9119),準(zhǔn)確度為80%。對二者ROC曲線面積進(jìn)行假設(shè)檢驗(yàn)差別無統(tǒng)計(jì)學(xué)意義(χ2=1.6073,P=0.2049)。兩種模型ROC曲線下面積比較見圖2。
表2 非條件logistic回歸分析結(jié)果
圖2 兩種模型ROC曲線下面積圖
1.健康狀況的影響因素分析
本研究結(jié)果顯示,該區(qū)公務(wù)員人群健康狀況不容樂觀,一些常見慢性病患病率較高,如高血壓,脂肪肝,頸、腰椎病等疾病患病率均高于普通人群。對健康狀況影響因素進(jìn)行分析,年齡、體質(zhì)指數(shù)、吸煙、被動吸煙、飲酒、按時吃飯情況、文化程度、婚姻狀況、心理健康分值是患病與否的危險(xiǎn)因素;睡眠時間、體育鍛煉花費(fèi)時間、亞健康分值為患病與否的保護(hù)性因素,這與其他健康相關(guān)影響因素研究報(bào)道的結(jié)果相一致〔6-9〕。
2.決策樹和logistic回歸模型比較
兩種模型對數(shù)據(jù)的要求不同:進(jìn)行分析時,決策樹模型對變量量綱的差異、離群值的存在以及有偏分布不太敏感,也就是說對數(shù)據(jù)準(zhǔn)備要求不高。決策樹為確定某一事例類別的序貫決策方法提供了清晰的陳述,一棵小的具有簡單檢驗(yàn)的決策樹是最受歡迎的,因?yàn)槿藗兒苋菀桌斫庥伤鼘?dǎo)出的規(guī)則〔10〕。但有些情況下決策樹模型處理數(shù)值型輸入變量的方式會造成一些有價(jià)值信息的損失和破壞。而logistic回歸分析要求因變量滿足獨(dú)立性,且原因變量與logitP的關(guān)系是線性等。
對數(shù)據(jù)量的要求不同:當(dāng)每一類的訓(xùn)練樣本數(shù)較小時,決策樹模型容易出錯,且決策樹模型對輸出結(jié)果的密度很敏感。有的研究表明〔11〕,logistic回歸模型樣本量選擇中,當(dāng)各組樣本含量大于原因變量數(shù)的20倍時,參數(shù)估計(jì)的偏差是可以接受的。模型的應(yīng)用不同:因?yàn)闆Q策樹模型方法能產(chǎn)生一些可以理解的規(guī)則所以經(jīng)常被選用。對于某一個已經(jīng)分過類的記錄來說,只要簡單地沿著從根到葉的路徑走就可以了;另外,決策樹模型建立的模型是把最勝任的拆分變量放在樹的根節(jié)點(diǎn),因此在進(jìn)行預(yù)測時,很容易發(fā)現(xiàn)哪些變量最勝任預(yù)測工作,可為logistic回歸模型進(jìn)行變量篩選和決策時提供指導(dǎo)。logistic回歸模型的回歸系數(shù)具有可解釋性,在流行病學(xué)研究中,常采用一些危險(xiǎn)度指標(biāo)(如暴露優(yōu)勢比、相對危險(xiǎn)度等)來衡量因素與發(fā)病(或死亡)的聯(lián)系程度或?qū)θ巳喊l(fā)病的致病作用的大小,這些危險(xiǎn)度指標(biāo)可通過logistic回歸模型的回歸系數(shù)求得。
3.對logistic回歸、決策樹模型比較結(jié)果的分析
在本次研究中,對兩種模型的準(zhǔn)確度和ROC曲線下面積比較,決策樹模型的分析結(jié)果均略高于logistic回歸分析的結(jié)果,但差別無統(tǒng)計(jì)學(xué)意義。產(chǎn)生這種結(jié)果的原因主要是數(shù)據(jù)特點(diǎn)決定的。本文針對的是小樣本,而我們本次研究的數(shù)據(jù),原因變量與結(jié)果變量之間的線性關(guān)系的偏離程度不大,導(dǎo)致了兩種模型結(jié)果差別不大,但隨著樣本量的增加,原因變量與結(jié)果變量之間的線性關(guān)系的偏離程度就會變大,原因變量與logitP的線性關(guān)系變?nèi)?,那么決策樹模型的優(yōu)越性會更好的體現(xiàn)出來。
目前普遍認(rèn)為不存在某種方法能適合于任何特點(diǎn)的數(shù)據(jù)。由于數(shù)據(jù)內(nèi)部變量間關(guān)系錯綜復(fù)雜,建立的模型之間存在不同的差異是肯定的。只要明確了試驗(yàn)設(shè)計(jì)類型、研究目的、各種建模方法特點(diǎn)等,將不同的建模方法的結(jié)果進(jìn)行合理的比較,挑選出較優(yōu)的模型是完全可能的。當(dāng)對數(shù)據(jù)進(jìn)行分析時,如想要建立起預(yù)測模型時,可選擇的方法有很多種,應(yīng)根據(jù)實(shí)際情況對數(shù)據(jù)嘗試用不同的方法建立起模型,必要時可將不同的建模技術(shù)相結(jié)合,例如當(dāng)遇到的數(shù)據(jù)量大、涉及到的變量多時,變量之間的關(guān)系有可能會錯綜復(fù)雜,可先用決策樹模型模型進(jìn)行變量的挑選,生成一些規(guī)則便于發(fā)現(xiàn)變量間的交互作用等,將變量挑選后的結(jié)果進(jìn)行下一步logistic回歸等的建模過程;如果變量較少,且原因變量與logitP的線性關(guān)系較好,進(jìn)行危險(xiǎn)因素分析時可以直接選用logistic回歸分析即可。
1.趙艷芳,王睿,閻小妍,等.上海居民慢性病與生命質(zhì)量關(guān)系的研究.中國衛(wèi)生統(tǒng)計(jì),2010,27(1):28-34.
2.陳海光,楊清萍,楊愛紅.老年慢性病住院患者調(diào)查分析.中國衛(wèi)生統(tǒng)計(jì),2007,24(1):99-100.
3.喬友林,侯俊,楊玲,等.我國太行山高發(fā)區(qū)食管癌流行趨勢及防治策略.中國醫(yī)學(xué)科學(xué)院報(bào),2001,23(1):10-14.
4.黃俊,周申范,唐婉瑩.TNT生化降解時間序列人工神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)模型.環(huán)境科學(xué)研究,2000,13(2):3-5.
5.陳衛(wèi)中,潘曉平,宋興勃,等.ROC曲線中最佳工作點(diǎn)的選擇.中國衛(wèi)生統(tǒng)計(jì),2006,23:157-158.
6.黃昌華,孫仕強(qiáng),付孟清,等.深圳市公務(wù)員BMI與高血壓、高膽固醇、高血糖關(guān)系.中國熱帶醫(yī)學(xué),2005,5(6):1369-1370.
7.Perlstein TS,Lee RT.Smoking,metalloproteinase,and vascular disease.Arterioscler Thromb Vasc Biol,2006,26:250-256.
8.Bjartveit K,Tverdal A.Health consequences of smoking 1-4 cigarettes per day.Tobacco Control,2005,14:15-320.
9.Taylor R,Najafi F,Dobson A.Meta-analysis of studies of passive smoking and lung cancer:effects of study type and Continent.International Journal of Epidemiology,2007,36:1048-1059.
10.張洋,陳培友.基于粗糙集理論的決策樹方法在貸款客戶信用評估中的應(yīng)用.科技和產(chǎn)業(yè),2008,8(1):57-60.
11.陳峰.醫(yī)用多元統(tǒng)計(jì)分析方法.北京:中國統(tǒng)計(jì)出版社,2001:83-111.