隋美麗,申遠(yuǎn)方,黃學(xué)勇,楊海燕,馬曉梅,李 懿,馮慧芬,段廣才#
1)鄭州大學(xué)公共衛(wèi)生學(xué)院流行病學(xué)教研室 鄭州450001 2)鄭州市兒童醫(yī)院感染科 鄭州450053 3)河南省疾病預(yù)防控制中心傳染病所 鄭州450016 4)鄭州大學(xué)第五附屬醫(yī)院感染科 鄭州450052
手足口病(hand-foot-mouth disease,HFMD)是由小RNA 腸道病毒引起的兒童常見(jiàn)傳染病,該病發(fā)病急、傳染性強(qiáng)。近年來(lái),HFMD 在東南亞及我國(guó)大陸較為流行,報(bào)告病例、重癥病例和死亡病例均增多,其中HFMD 的重癥病例病死率較高,危害嚴(yán)重[1]。因此,對(duì)HFMD 重癥化預(yù)警指標(biāo)的掌握有助于該病的防治。在對(duì)疾病危險(xiǎn)因素進(jìn)行分析及對(duì)癌癥進(jìn)行輔助診斷時(shí),分類樹(shù)模型已有應(yīng)用[2-4],該模型可將因素間的交互作用和層次關(guān)系進(jìn)行有效處理和展現(xiàn),并可提示具有哪些特征的患者有較高的發(fā)病風(fēng)險(xiǎn)或更易重癥化,實(shí)現(xiàn)早期預(yù)警并對(duì)具有該特征的人群實(shí)施及時(shí)的干預(yù)。該研究分析2013年4月至6月在鄭州市某醫(yī)院感染科住院的HFMD 患兒的一般臨床資料和常規(guī)的實(shí)驗(yàn)室檢查資料,使用分類樹(shù)模型探討重癥HFMD 的危險(xiǎn)因素,構(gòu)建風(fēng)險(xiǎn)模型,并對(duì)模型的應(yīng)用價(jià)值進(jìn)行評(píng)價(jià)。
1.1 對(duì)象 所有患兒均來(lái)源于2013年4月至6月鄭州市某醫(yī)院感染科,納入該研究的重癥病例和輕癥病例均符合《手足口病診療指南(2010年版)》[5]。納入標(biāo)準(zhǔn):①臨床確診的HFMD 患兒。②月齡≤36個(gè)月。③發(fā)病時(shí)間≤72 h。排除標(biāo)準(zhǔn):①患有先天性疾病者。②患有急性或慢性肝炎者。③排除其他疾病引起的心臟損害者。④同時(shí)合并其他腸道疾病者。共221例,其中重癥組147例(男89例,女58例),月齡(18.18±7.20)個(gè)月,發(fā)病時(shí)間(1.40 ±0.50)d;輕癥組74例(男46例,女28例),月齡(16.41 ±8.02)個(gè)月,發(fā)病時(shí)間(1.32 ±0.47)d。2組患兒的性別構(gòu)成、年齡及發(fā)病時(shí)間比較,差異均無(wú)統(tǒng)計(jì)學(xué)意義(P均>0.05)。該研究經(jīng)鄭州市兒童醫(yī)院和鄭州大學(xué)第五附屬醫(yī)院倫理委員會(huì)批準(zhǔn)。
1.2 資料收集 以《手足口病預(yù)防控制指南(2009版)》附件3《手足口病重癥或死亡病例個(gè)案調(diào)查表》為基礎(chǔ)[6],經(jīng)過(guò)多次預(yù)調(diào)查及專家論證后,制定統(tǒng)一的調(diào)查問(wèn)卷。對(duì)該院221例住院患兒展開(kāi)個(gè)案調(diào)查,主要收集患兒及家庭的一般人口學(xué)特征、疾病史、臨床癥狀及體征以及生化檢查的相關(guān)資料。調(diào)查表由經(jīng)統(tǒng)一規(guī)范化培訓(xùn)的專業(yè)人員現(xiàn)場(chǎng)分別對(duì)病例組和對(duì)照組的家長(zhǎng)進(jìn)行訪談,并結(jié)合患兒實(shí)際情況填寫(xiě)。同一調(diào)查員填寫(xiě)同一調(diào)查問(wèn)卷并在3 d 內(nèi)完成所有項(xiàng)目。從調(diào)查問(wèn)卷中選取其中26個(gè)因素進(jìn)行危險(xiǎn)因素分析,分別為:發(fā)熱、熱程≥3 d、熱峰≥39℃、心率≥140 min-1、呼吸≥30 min-1、血糖升高、精神差、煩躁不安、頸強(qiáng)直、抽搐、易驚、意識(shí)障礙、手足抖動(dòng)、肢體無(wú)力、呼吸節(jié)律不齊、肺部啰音、皮膚顏色、四肢發(fā)涼、嘔吐、胸部X 線片改變、心電圖異常、白細(xì)胞、中性粒細(xì)胞比率、淋巴細(xì)胞比率、C反應(yīng)蛋白、降鈣素原。
1.3 分類樹(shù)分類變量的分級(jí)與數(shù)量化的方法 在資料的統(tǒng)計(jì)學(xué)處理中,對(duì)HFMD 患兒的臨床診斷類型及上述26個(gè)因素進(jìn)行了定義及量化編碼,見(jiàn)表1。
表1 主要變量定義及量化編碼
1.4 統(tǒng)計(jì)分析
1.4.1 運(yùn)算法則 分類樹(shù)模型對(duì)目標(biāo)變量進(jìn)行分類和預(yù)測(cè)時(shí)是根據(jù)解釋變量來(lái)實(shí)現(xiàn)的,較著名的分類樹(shù)方法包括CHAID 和分類回歸樹(shù)(CART),預(yù)測(cè)和分類是該類方法的主要用途。其中,最常用的方法是CHAID,但該法對(duì)目標(biāo)變量的要求很?chē)?yán)格:即獨(dú)立變量(目標(biāo)變量)只能為分類變量,即離散型變量,而CART 則可以直接對(duì)數(shù)值型變量進(jìn)行處理?;驹?以目標(biāo)變量自我分層的樹(shù)狀結(jié)構(gòu)為基礎(chǔ),根結(jié)點(diǎn)代表因變量,預(yù)測(cè)變量父結(jié)點(diǎn)和子結(jié)點(diǎn)的不斷生成是以卡方檢驗(yàn)顯著性程度為依據(jù)的,即卡方值越大,越先成為預(yù)測(cè)根結(jié)點(diǎn)的變量,程序自動(dòng)歸并以實(shí)現(xiàn)變量的不同類的預(yù)測(cè),使之成為卡方顯著性,程序根據(jù)預(yù)先設(shè)定的水平數(shù)停止[7-8]。當(dāng)預(yù)測(cè)變量的數(shù)量較多且變量類型均為分類變量時(shí),最適宜的分類方法即為CHAID。此外,CART 法的原理是內(nèi)部同質(zhì)性,而CHAID 法是以列聯(lián)表卡方計(jì)算為基礎(chǔ)的運(yùn)算法則,兩者的原理不同。與CART 法相比,CHAID 更易被醫(yī)務(wù)工作者理解。
1.4.2 模型的評(píng)價(jià) 索引圖、錯(cuò)分概率Risk 統(tǒng)計(jì)量均可對(duì)模型的分類結(jié)果進(jìn)行評(píng)價(jià),同時(shí)受試者工作特征曲線(ROC 曲線)下面積亦可對(duì)模型效果進(jìn)行評(píng)價(jià)。
1.4.3 模型參數(shù) 拆分及合并的檢驗(yàn)水準(zhǔn)α =0.05,最大生長(zhǎng)深度5 層,為實(shí)現(xiàn)重癥HFMD 潛在影響因素的充分挖掘,父結(jié)點(diǎn)和子結(jié)點(diǎn)中最小樣本含量設(shè)為10 和5。
1.4.4 數(shù)據(jù)分析 采用SPSS 13.0 進(jìn)行重 癥HFMD 發(fā)生風(fēng)險(xiǎn)的分類樹(shù)模型構(gòu)建。
2.1 重癥HFMD 分類樹(shù)發(fā)生風(fēng)險(xiǎn)模型的建立 根據(jù)上述生長(zhǎng)和修剪規(guī)則,所建立分類樹(shù)模型共包括3 層,共9個(gè)結(jié)點(diǎn)。其中終末結(jié)點(diǎn)5個(gè),共篩選出4個(gè)解釋變量:精神差、易驚、熱峰≥39℃、手足抖動(dòng),見(jiàn)圖1。分類樹(shù)模型圖結(jié)果顯示,樹(shù)型結(jié)構(gòu)的第一層是按照精神進(jìn)行拆分的,所以,在該研究中,重癥HFMD 發(fā)生風(fēng)險(xiǎn)最大的影響因素為精神,其中,精神差的個(gè)體重癥HFMD 發(fā)生概率為90.7%,高于精神正常的人員(3.1%),成為重癥HFMD 的高危人群。在精神差的人群中,篩選出的主要影響因素為易驚,在這組人員中,如果同時(shí)合并易驚,則重癥HFMD的發(fā)生概率為97.1%,高于未合并易驚的人群(61.1%);對(duì)于精神差同時(shí)合并易驚的人群,若同時(shí)合并熱峰≥39℃,則重癥HFMD 的發(fā)生概率為99.1%,高于未合并熱峰≥39℃的人群(89.7%);而對(duì)精神差未合并易驚的人群研究發(fā)現(xiàn),若同時(shí)合并手足抖動(dòng),則重癥HFMD 的發(fā)生概率為100.0%,高于未合并手足抖動(dòng)的人群(36.4%)。
圖1 重癥HFMD 發(fā)生風(fēng)險(xiǎn)分類樹(shù)模型圖
2.2 模型的結(jié)點(diǎn)增益分析 見(jiàn)表2。結(jié)點(diǎn)表的增益展示了模型中端點(diǎn)的匯總信息。其中,N 為每個(gè)端點(diǎn)的總個(gè)案數(shù),每個(gè)結(jié)點(diǎn)的總個(gè)案數(shù)除以根結(jié)點(diǎn)的總個(gè)案數(shù)即為結(jié)點(diǎn)百分?jǐn)?shù)。增益中的N 表示每個(gè)端點(diǎn)在目標(biāo)分類中所標(biāo)記的個(gè)案數(shù),其百分比是目標(biāo)分類的個(gè)案數(shù)除以該類在總分類的個(gè)案數(shù)。該研究以重癥為所要研究的分類,因此,重癥的個(gè)案數(shù)與百分?jǐn)?shù)即為增益,如結(jié)點(diǎn)6 重癥的個(gè)案數(shù)為108,而根結(jié)點(diǎn)重癥的總個(gè)案數(shù)為147,所以,結(jié)點(diǎn)6 的百分?jǐn)?shù)108/147 =73.5%。目標(biāo)分類中個(gè)案的百分?jǐn)?shù)即為響應(yīng)百分比;目標(biāo)分類的響應(yīng)百分比與總樣本中該類的響應(yīng)百分比的比值即為索引,由上所述可知,結(jié)點(diǎn)6 的響應(yīng)百分比為99.1%,根結(jié)點(diǎn)響應(yīng)的百分比為66.5%(147/221),所以結(jié)點(diǎn)6 的索引為99.1% /66.5% = 149.0%。由上可知,如果索引值>100%則表示各端點(diǎn)的重癥組的百分比大于根結(jié)點(diǎn)的重癥組的百分比。
表2 分類樹(shù)模型的結(jié)點(diǎn)增益表
2.3 分類樹(shù)模型的評(píng)價(jià)
2.3.1 索引圖 見(jiàn)圖2。
圖2 發(fā)生風(fēng)險(xiǎn)分類樹(shù)模型索引圖
2.3.2 樹(shù)型模型的錯(cuò)分矩陣和Risk 統(tǒng)計(jì)量 見(jiàn)表3。Risk 統(tǒng)計(jì)量為0.045,表示該模型在對(duì)重癥HFMD 發(fā)病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)時(shí)其預(yù)測(cè)正確率達(dá)95.50%,提示該模型具有較好的擬合效果。
表3 分類樹(shù)模型錯(cuò)分矩陣
2.3.3 ROC 曲線的繪制 根據(jù)此模型所得到的預(yù)測(cè)概率進(jìn)行ROC 曲線的繪制,所得到的ROC 曲線下面積為0.953(95%CI:0.917~0.988),標(biāo)準(zhǔn)誤為0.018,與0.5 相比,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),因此,分類樹(shù)模型在對(duì)重癥HFMD 發(fā)生風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)時(shí),價(jià)值較高。見(jiàn)圖3。
圖3 預(yù)測(cè)概率的ROC 曲線
分類樹(shù)的最具顯著性的切分是通過(guò)結(jié)點(diǎn)純度的計(jì)算來(lái)實(shí)現(xiàn)的。CHAID 具有前向修剪和多向分叉的特征。該算法的基礎(chǔ)是卡方或似然卡方檢驗(yàn),對(duì)眾多自變量進(jìn)行比較篩選時(shí),最佳分類變量和最佳分類結(jié)果經(jīng)由P 值來(lái)實(shí)現(xiàn),因此,當(dāng)變量屬性為分類變量時(shí),該算法更為合適。對(duì)連續(xù)型的變量而言,如要進(jìn)行決策樹(shù)分析,需首先對(duì)輸入變量進(jìn)行相應(yīng)的離散化處理。當(dāng)預(yù)測(cè)變量均為分類變量且數(shù)量較多時(shí),此時(shí)應(yīng)用CHAID 分類法更為合適[3,9]。CART算法的基本思路是采用雜質(zhì)縮減最大化,對(duì)CART而言,只能二部分叉,后向修剪,基尼系數(shù)是其分割標(biāo)準(zhǔn)。樹(shù)分為分類樹(shù)和回歸樹(shù),前者是指應(yīng)變量為分類屬性時(shí),后者是指應(yīng)變量為連續(xù)變量時(shí)[10-11]。
以往的研究[12-14]結(jié)果表明:36個(gè)月以內(nèi)的兒童為重癥HFMD 的高發(fā)人群,且HFMD 的流行呈現(xiàn)出一定的季節(jié)性,鑒于我國(guó)幅員遼闊,HFMD 在我國(guó)大陸的流行時(shí)間因地而異[15],河南省HFMD 的流行高峰一般為每年的3~6月[7-8,16]。由于HFMD 的高發(fā)性及重癥患兒潛在的重癥化風(fēng)險(xiǎn)性,疾病的早期預(yù)警顯得尤為重要。重癥HFMD 的影響因素較多,因素間存在著復(fù)雜的關(guān)系,以往對(duì)于多因子疾病危險(xiǎn)因素的分析常采用多元統(tǒng)計(jì)分析方法進(jìn)行,如logistic 回歸、Cox 回歸等,但這些方法在處理變量之間的共線性時(shí)顯示出局限性,因而在一定程度上降低了統(tǒng)計(jì)分析的效能,甚至對(duì)有些結(jié)果無(wú)法進(jìn)行合理的解釋。最好的解決方案是選用非參數(shù)回歸模型來(lái)處理,其中包括分類樹(shù)與回歸樹(shù),該方法近年來(lái)在國(guó)內(nèi)外逐步推廣使用[17-19]。該方法最重要的一個(gè)特點(diǎn)是不要求預(yù)測(cè)變量的數(shù)據(jù)分布類型,即任意分布資料均可。分類樹(shù)分析有著相當(dāng)復(fù)雜的中間過(guò)程,其過(guò)程大致包括種樹(shù)和剪枝,即以一棵完整的樹(shù)的建立為起點(diǎn),然后運(yùn)用交叉印證法從末梢開(kāi)始剪枝,剪枝后的模型明顯變差為終點(diǎn)。在模型建立的過(guò)程中,每一種可能的組合在模型建立之初就已被詳細(xì)地考查,結(jié)果顯示出的模型是優(yōu)化后的模型,且分類樹(shù)分析以樹(shù)型圖的方式將其分析過(guò)程以及多水平變量間復(fù)雜的相互作用關(guān)系得以展現(xiàn),而傳統(tǒng)的分析方法如logistic 回歸等則很難實(shí)現(xiàn)這一點(diǎn)。
該研究應(yīng)用分類樹(shù)模型對(duì)重癥HFMD 患兒的門(mén)診指標(biāo)和一般臨床資料進(jìn)行綜合匯總,從而進(jìn)行風(fēng)險(xiǎn)模型的構(gòu)建,結(jié)果顯示:共從26個(gè)候選變量中篩選出4個(gè)重要解釋變量:精神差、易驚、熱峰≥39℃、手足抖動(dòng),說(shuō)明該4個(gè)變量可以影響重癥HFMD的發(fā)病風(fēng)險(xiǎn),同以往的logistic 回歸結(jié)果基本相同[20],并且還提供了更多有意義的信息。此外,采用CHAID 法構(gòu)建的分類樹(shù)模型對(duì)于離散化的連續(xù)性變量和具有2種以上分類的指標(biāo),會(huì)將沒(méi)有統(tǒng)計(jì)學(xué)意義的分層類別重組為具有統(tǒng)計(jì)學(xué)意義的新的類別,相比于人為分層設(shè)計(jì),該法更為科學(xué)和合理[9]。在流行病學(xué)研究中,應(yīng)用分類樹(shù)所確定的指標(biāo)分界基礎(chǔ)是顯著的統(tǒng)計(jì)學(xué)意義而不是借助于個(gè)人經(jīng)驗(yàn)或臨床觀察,因此,根據(jù)重組后的分界點(diǎn)可以將變量重新分割并作進(jìn)一步分析[4],該研究并未將該特點(diǎn)顯現(xiàn),可能與對(duì)原始數(shù)據(jù)進(jìn)行錄入時(shí)已對(duì)定量資料進(jìn)行定性處理有關(guān)。
任何一種模型都有一定的局限性,分類樹(shù)模型亦如此。當(dāng)解釋變量數(shù)目和自身分類都較多時(shí),最初有可能生成規(guī)模較龐大的樹(shù),此時(shí)對(duì)樹(shù)型模型的適當(dāng)修剪必不可少,但修剪之后的樹(shù)如何實(shí)現(xiàn)兼具精簡(jiǎn)和信息完整是目前尚需解決的問(wèn)題之一。此外,鑒于該研究樣本量有限,尚需擴(kuò)大樣本量以驗(yàn)證該模型,同時(shí)如何實(shí)現(xiàn)分類樹(shù)模型和傳統(tǒng)的統(tǒng)計(jì)學(xué)分析方法的有機(jī)結(jié)合,以期兩者能夠互相補(bǔ)充,從而實(shí)現(xiàn)重癥HFMD 影響因素的全面挖掘是需要進(jìn)一步探討的內(nèi)容。
[1]Li W,Teng GJ,Tong HF,et al.Study on risk factors for severe hand,foot and mouth disease in China[J].PLoS One,2014,9(1):e87603
[2]Mu?oz-Moreno JA,Pérez-álvarez N,Mu?oz-Murillo A,et al.classification models for neurocognitive impairment in HIV infection based on demographic and clinical variables[J].PLoS One,2014,9(9):e107625
[3]何其棟,魏小玲,張紅巧,等.基于“優(yōu)選腫瘤標(biāo)志群”建立的決策樹(shù)模型對(duì)肺癌輔助診斷的價(jià)值[J].鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2014,49(1):37
[4]劉建平,程錦泉,張仁利,等.應(yīng)用分類樹(shù)模型構(gòu)建缺血性腦卒中發(fā)病風(fēng)險(xiǎn)的預(yù)測(cè)模型[J].中國(guó)慢性病預(yù)防與控制,2012,20(3):254
[5]俞蕙.兒童手足口病重癥病例的臨床早期識(shí)別[J].中華兒科雜志,2012,50(4):284
[6]手足口病預(yù)防控制指南:2009 版[J].全科醫(yī)學(xué)臨床與教育,2010,10(2):125
[7]Goto Y,Maeda T,Nakatsu-Goto Y.Decision tree model for predicting long-term outcomes in children with out-of-h(huán)ospital cardiac arrest:a nationwide,population-based observational study[J].Crit Care,2014,18(3):R133
[8]Tobiasz-Adamczyk B,Galaá A,Zawisza K.Socio-demographic differences in the prevalence of cardiovascular diseases among women and men in Poland:results from the Courage in Europe Project[J].Przegl Lek,2014,71(3):122
[9]Gietzelt M,F(xiàn)eldwieser F,G?vercin M,et al.A prospective field study for sensor-based identification of fall risk in older people with dementia[J].Inform Health Soc Care,2014,39(3/4):249
[10]Chao CM,Yu YW,Cheng BW,et al.Construction the model on the breast cancer survival analysis use support vector machine,logistic regression and decision tree[J].J Med Syst,2014,38(10):106
[11]Malehi AS.Diagnostic classification scheme in Iranian breast cancer patients using a decision tree[J].Asian Pac J Cancer Prev,2014,15(14):5593
[12]聶軼飛,王海峰,李孟磊,等.應(yīng)用集中度和圓形分布法探討河南省2010年手足口病流行規(guī)律[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(3):410
[13]孫建偉,王彥霞,許汴利,等.河南省2009~2010年手足口病發(fā)病的時(shí)間分布特征[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2012,29(3):365
[14]Liu N,Xie J,Qiu XL,et al.An atypical winter outbreak of hand,foot,and mouth disease associated with human enterovirus 71,2010[J].BMC Infect Dis,2014,14:123
[15]隋美麗,馬曉梅,段廣才,等.重癥手足口病患兒實(shí)驗(yàn)室指標(biāo)的判別分析[J].西安交通大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2014,35(4):504
[16]Feng H,Duan G,Zhang R,et al.Time series analysis of hand-foot-mouth disease hospitalization in Zhengzhou:establishment of forecasting models using climate variables as predictors[J].PLoS One,2014,9(1):e87916
[17]Lee MY,Yang CS.Entropy-based feature extraction and decision tree induction for breast cancer diagnosis with standardized thermograph images[J].Comput Methods Programs Biomed,2010,100(3):269
[18]趙文波,李明,唐驊,等.應(yīng)用分類樹(shù)模型構(gòu)建糖尿病腎病蛋白尿進(jìn)展的風(fēng)險(xiǎn)預(yù)測(cè)模型[J].第三軍醫(yī)大學(xué)學(xué)報(bào),2013,35(11):1144
[19]馬瑾,孫穎,劉尚輝.決策樹(shù)模型在住院2 型糖尿病患者死因預(yù)測(cè)中的應(yīng)用[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(3):422
[20]可秋萍,婁瑩,劉傳振,等.危重癥手足口病患兒的早期預(yù)警指標(biāo)[J].實(shí)用兒科臨床雜志,2011,26(10):804
鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)2015年1期