廣東藥科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室(510310)
李偉南 林暢琪 廖海寧 潘敏儀 郜艷暉 周舒冬△
【提 要】 目的 介紹隨機(jī)效應(yīng)-最大期望回歸樹模型(random effect-expectation maximization regression tree,RE-EM回歸樹)方法原理,比較RE-EM回歸樹與CART回歸樹在具有系統(tǒng)結(jié)構(gòu)特征的縱向數(shù)據(jù)中的估計(jì)效果。方法 通過計(jì)算機(jī)生成不同參數(shù)設(shè)置的模擬數(shù)據(jù),比較在不同隨機(jī)效應(yīng)及殘差存在相關(guān)結(jié)構(gòu)的縱向數(shù)據(jù)中兩種樹模型對(duì)特征空間的預(yù)測(cè)能力,并通過均方殘差指標(biāo)對(duì)擬合效果進(jìn)行評(píng)價(jià)。結(jié)果 本研究所構(gòu)建的RE-EM回歸樹在不同參數(shù)設(shè)置下的預(yù)測(cè)性能均優(yōu)于CART回歸樹。結(jié)論 RE-EM回歸樹具有較強(qiáng)的預(yù)測(cè)性能,能準(zhǔn)確預(yù)測(cè)特征空間且數(shù)據(jù)擬合效果好,相對(duì)于CART回歸樹具有明顯的優(yōu)勢(shì)。
在醫(yī)療衛(wèi)生領(lǐng)域,重復(fù)測(cè)量數(shù)據(jù)(repeated measures data)和縱向數(shù)據(jù)(longitudinal data)十分常見,此類型數(shù)據(jù)往往具有系統(tǒng)結(jié)構(gòu)特征,同一觀測(cè)對(duì)象的多次測(cè)量之間存在相關(guān)性[1-2],并且數(shù)據(jù)中的隨機(jī)誤差分布于不同的層次,因此在進(jìn)行數(shù)據(jù)分析時(shí)不宜采用常規(guī)的統(tǒng)計(jì)方法,如一般線性模型。而決策樹作為數(shù)據(jù)挖掘技術(shù)中的一種分類方法,為該問題提供了較好的解決方案。決策樹的思想主要源于Breiman等人在1984年提出[3]的CART(classification and regression tree)算法,其根據(jù)因變量的類型可以分為回歸樹和分類樹。30多年來,基于樹的方法已經(jīng)在統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘的相關(guān)文獻(xiàn)中得到廣泛研究和應(yīng)用,因其輸出的結(jié)果簡(jiǎn)潔直觀,具有較強(qiáng)的解釋性,且核心算法較為成熟,目前已是數(shù)據(jù)挖掘領(lǐng)域中使用最廣泛的算法之一[4]。但是對(duì)于具有系統(tǒng)結(jié)構(gòu)特征的縱向數(shù)據(jù),傳統(tǒng)的樹方法(如CART回歸樹)往往容易忽略其聚集性結(jié)構(gòu)及殘差間的相關(guān)性,從而導(dǎo)致模型構(gòu)建的準(zhǔn)確性較低,偏倚較大[5]。因此為了解決傳統(tǒng)CART回歸樹擬合縱向數(shù)據(jù)的缺陷,從上世紀(jì)90年代開始,國(guó)外學(xué)者就將回歸樹在縱向數(shù)據(jù)中的應(yīng)用進(jìn)行了探索。例如學(xué)者Segal(1992)[6]和De′Ath(2002)[7]分別提出了應(yīng)用于縱向數(shù)據(jù)的樹方法,但該樹模型要求研究對(duì)象在所有觀測(cè)時(shí)期都使用同一組自變量,即各個(gè)時(shí)期因變量的估計(jì)值都存在于同個(gè)節(jié)點(diǎn)上,這雖然防止了在第一個(gè)觀測(cè)時(shí)期后受到時(shí)依性變量的影響,但是容易導(dǎo)致信息的丟失,從而使預(yù)測(cè)性能較差。學(xué)者Galimberti和Montanari(2002)也創(chuàng)建了一種處理縱向數(shù)據(jù)結(jié)構(gòu)的樹模型[8],其基本思想是將隨機(jī)效應(yīng)與殘差協(xié)方差矩陣獨(dú)立于程序外進(jìn)行估計(jì),該模型允許時(shí)依性協(xié)變量的存在,同一研究對(duì)象的不同觀測(cè)值可以出現(xiàn)在樹的不同節(jié)點(diǎn)上,但由于其分割函數(shù)較為復(fù)雜,目前該算法尚未整合于軟件中,因此其推廣性較差。而學(xué)者Sela和Simonoff(2012)也提出了與該樹方法類似的隨機(jī)效應(yīng)-最大期望回歸樹模型(random effect-expectation maximization regression tree,RE-EM),并將該模型算法整合于“REEMtree”R包中[9]。
RE-EM回歸樹是基于混合線性模型思想的樹方法。目前在國(guó)外,RE-EM回歸樹在醫(yī)學(xué)、教育學(xué)、生態(tài)學(xué)等領(lǐng)域都得到一定的應(yīng)用,但尚未有研究就模型擬合的準(zhǔn)確性對(duì)RE-EM回歸樹與CART回歸樹進(jìn)行比較,因此在本研究中將對(duì)RE-EM回歸樹的原理進(jìn)行探討,并通過模擬研究進(jìn)一步驗(yàn)證比較RE-EM回歸樹與CART回歸樹在具有系統(tǒng)結(jié)構(gòu)特征的縱向數(shù)據(jù)中的估計(jì)效果。
1.混合線性模型結(jié)構(gòu)
縱向數(shù)據(jù)是指對(duì)每個(gè)個(gè)體在不同時(shí)間進(jìn)行觀測(cè)而得到的數(shù)據(jù),即在t=1,…,p的不同時(shí)期上觀測(cè)同一組研究對(duì)象i=1,…,n,其相對(duì)應(yīng)的一組因變量觀測(cè)值為yi=(yi1,…,yip)′,每個(gè)研究對(duì)象其自變量向量為Xi=(xi1,…,xip)′,其中xit=(xit1,…,xitq),即Xi為一p×q維矩陣。在實(shí)際的縱向數(shù)據(jù)中,隨機(jī)殘差向量往往是不滿足一般線性模型的獨(dú)立性與方差齊性的條件,而混合線性模型則允許殘差項(xiàng)具有更加靈活的結(jié)構(gòu),包括相關(guān)性和方差不齊性,另外,在某些研究中,分組因素或回歸因子不是人為指定的,而是隨機(jī)的,因而其參數(shù)估計(jì)值含有隨機(jī)部分,并且隨機(jī)部分可能存在某種相關(guān)關(guān)系,為了將這種隨機(jī)部分分離出來以提高對(duì)總體預(yù)測(cè)的有效性,因此在模型中納入一個(gè)設(shè)計(jì)矩陣Zi和相應(yīng)未知的隨機(jī)參數(shù)向量bi。模型的一般形式可表現(xiàn)為[10]:
yit=f(Xi)+Zibi+eit
(1)
2.回歸樹模型結(jié)構(gòu)
回歸樹為一個(gè)if-then規(guī)則的集合[11],由決策樹的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每一條路徑構(gòu)建一條規(guī)則,建立回歸樹的過程大致可以分為兩步:
(1)將預(yù)測(cè)變量空間(即X1,X2,…,Xq的可能取值構(gòu)成的集合)分割成J個(gè)互不重疊的區(qū)域R1,R2,…,Rj。
(2)對(duì)落入?yún)^(qū)域Rj的每個(gè)觀測(cè)值作同樣的預(yù)測(cè),預(yù)測(cè)值等于Rj上訓(xùn)練集的因變量的簡(jiǎn)單算術(shù)均值。
因此回歸樹模型的形式如下:
(2)
3.隨機(jī)效應(yīng)-最大期望回歸樹模型結(jié)構(gòu)
基于混合線性模型的優(yōu)勢(shì)及回歸樹模型的較強(qiáng)解釋性,學(xué)者Sela和Simonoff將(1)式和(2)式進(jìn)行結(jié)合,使混合線性模型推廣到基于樹的方法,解決了傳統(tǒng)回歸樹對(duì)縱向數(shù)據(jù)估計(jì)的不足。RE-EM回歸樹是一種基于樹結(jié)構(gòu)估計(jì)f函數(shù)的方法[9],其中包含了隨機(jī)效應(yīng)bi,在這種方法中,節(jié)點(diǎn)可以基于任何自變量進(jìn)行分割,使同一對(duì)象的不同觀測(cè)可以放置在不同的節(jié)點(diǎn)中,RE-EM回歸樹可以對(duì)縱向數(shù)據(jù)或聚集性數(shù)據(jù)進(jìn)行分析,并且可以在線性模型假設(shè)不成立的情況下進(jìn)行建模。RE-EM回歸樹在進(jìn)行預(yù)測(cè)的同時(shí)也考慮了時(shí)依性協(xié)變量的影響,能對(duì)因變量和自變量的潛在關(guān)系進(jìn)行探索。
因?yàn)榘S機(jī)效應(yīng)的回歸樹在進(jìn)行估計(jì)時(shí),使用的是最大期望算法(expectation maximization algorithm,EM),因此本研究構(gòu)建的回歸樹稱為隨機(jī)效應(yīng)-最大期望回歸樹或RE-EM回歸樹。
以下為RE-EM回歸樹的估計(jì)過程:
(1)將待估計(jì)的隨機(jī)效應(yīng)bi初始化為零。
(2)通過以下迭代,直到估計(jì)的隨機(jī)效應(yīng)bi收斂(基于似然值的變化或受限似然函數(shù)小于某個(gè)容差值):
步驟①中回歸樹的擬合可以使用CART回歸樹的算法,通過樹的生長(zhǎng)和修剪準(zhǔn)則來實(shí)現(xiàn)。步驟②中混合線性模型的估計(jì)方法可以使用最大似然估計(jì)或受限最大似然估計(jì)。
1.模擬方法及參數(shù)設(shè)置
以預(yù)測(cè)棒球運(yùn)動(dòng)員的薪水為例[12],根據(jù)運(yùn)動(dòng)員效力于職業(yè)棒球聯(lián)盟的年份(Years),以及一年所擊出的安打數(shù)(Hits),分別以CART回歸樹和RE-EM回歸樹對(duì)運(yùn)動(dòng)員的薪水進(jìn)行預(yù)測(cè)(薪水Salary以十萬美元為單位)。假定回歸樹模型如圖1所示,樹的根節(jié)點(diǎn)從年份(Years)開始分裂,表示當(dāng)棒球運(yùn)動(dòng)員效力年份小于4.5年,那么年薪平均值為5.11(單位:十萬美元)。而當(dāng)效力年份大于4.5年,一年的安打數(shù)小于117.5次,則年薪平均值為10。當(dāng)效力年份大于4.5年且一年安打數(shù)大于等于117.5次,那么年薪平均值為12.74。該樹包含了三個(gè)特征空間或三個(gè)終端節(jié)點(diǎn)。
圖1 假定回歸樹模型
(1)回歸樹模擬數(shù)據(jù)集的生成
假定模擬人群共有3000人,每個(gè)研究對(duì)象共有12條觀測(cè)記錄,即基線(0年)到隨訪第11年,根據(jù)if-then規(guī)則生成模擬數(shù)據(jù)集:
特征空間1:ifYears<4.5thenSalary=μ1+Zibi+eit
特征空間2:ifYears>4.5andHits<117.5thenSalary=μ2+Zibi+eit特征空間3:ifYears>4.5andHits≥117.5thenSalary=μ3+Zibi+eit
模擬數(shù)據(jù)共有36000條觀測(cè),數(shù)據(jù)結(jié)構(gòu)如表1所示:
據(jù)報(bào)道,我國(guó)護(hù)理科研在心理護(hù)理、人文護(hù)理等的研究遠(yuǎn)遠(yuǎn)落后于發(fā)達(dá)國(guó)家,我國(guó)在對(duì)照顧者的護(hù)理方面與國(guó)外相比差距甚遠(yuǎn)[4]。因此,重視患者照顧者的早期心理狀況,盡早介入照顧者的心理干預(yù),能有效減輕照顧者的身心壓力,有助于促進(jìn)患者的康復(fù)。
表1 模擬研究數(shù)據(jù)結(jié)構(gòu)
(2)模擬研究參數(shù)設(shè)置
表2 模擬研究數(shù)據(jù)結(jié)構(gòu)參數(shù)設(shè)置情況
當(dāng)不存在殘差相關(guān)矩陣時(shí),相關(guān)系數(shù)ρ=0。
2.評(píng)價(jià)指標(biāo)
(1)預(yù)測(cè)特征空間
對(duì)于每種擬合情況,考察預(yù)測(cè)特征空間與假定特征空間的差異,判斷模型預(yù)測(cè)性能。
(2)均方殘差(mean-square error,MSE)
采用MSE作為模型的評(píng)價(jià)指標(biāo),評(píng)價(jià)CART回歸樹和RE-EM回歸樹對(duì)數(shù)據(jù)擬合的情況。
(1)預(yù)測(cè)特征空間
表3顯示,當(dāng)模擬數(shù)據(jù)集中無隨機(jī)效應(yīng)結(jié)構(gòu)及無殘差相關(guān)結(jié)構(gòu)時(shí),傳統(tǒng)的CART回歸樹與RE-EM回歸樹的預(yù)測(cè)效果一致,而當(dāng)存在隨機(jī)效應(yīng)結(jié)構(gòu)時(shí),CART回歸樹的預(yù)測(cè)值與假定的回歸樹(圖1)相差較大,特別是當(dāng)數(shù)據(jù)結(jié)構(gòu)中包含截距項(xiàng)及年份兩個(gè)隨機(jī)效應(yīng)時(shí),傳統(tǒng)的CART回歸樹不能準(zhǔn)確預(yù)測(cè)出特征空間,表中“—”表示模型無法預(yù)測(cè)出第三個(gè)特征空間,最終擬合出樹的結(jié)構(gòu)只有兩個(gè)終端節(jié)點(diǎn),以第5種參數(shù)設(shè)置為例,兩種樹結(jié)構(gòu)如圖2和圖3所示。
(2)均方誤差
表3顯示,當(dāng)模擬數(shù)據(jù)集中無隨機(jī)效應(yīng)結(jié)構(gòu)而觀測(cè)間存在相關(guān)時(shí),雖然CART回歸樹與RE-EM回歸樹兩者間的預(yù)測(cè)特征空間與假定的模型特征空間相近,但是兩者間MSE相差較大。而當(dāng)模擬數(shù)據(jù)中存在隨機(jī)效應(yīng)結(jié)構(gòu)時(shí),兩種模型間差異進(jìn)一步加大,RE-EM回歸樹對(duì)數(shù)據(jù)的擬合結(jié)果明顯優(yōu)于CART樹。
表3 CART回歸樹與RE-EM回歸樹對(duì)模擬數(shù)據(jù)的擬合結(jié)果
圖2 CART回歸樹
圖3 RE-EM回歸樹
本文通過模擬研究從模型擬合準(zhǔn)確性和偏倚兩方面對(duì)RE-EM回歸樹和CART回歸樹進(jìn)行了比較,結(jié)果顯示,RE-EM回歸樹相較于CART回歸樹,在處理具有隨機(jī)效應(yīng)及殘差間存在相關(guān)關(guān)系的縱向數(shù)據(jù)時(shí)更能反映數(shù)據(jù)的真實(shí)關(guān)系,建模準(zhǔn)確性高。另外從模擬研究中可以發(fā)現(xiàn),在不同的數(shù)據(jù)結(jié)構(gòu)設(shè)定下,RE-EM回歸樹的MSE值始終較低,因此RE-EM回歸樹相較于CART回歸樹對(duì)于數(shù)據(jù)的擬合效果更具優(yōu)勢(shì)。因此總的來看,RE-EM回歸樹在建模的準(zhǔn)確性及靈活性上均明顯優(yōu)于CART回歸樹。
RE-EM回歸樹是一種將CART回歸樹與混合線性模型進(jìn)行結(jié)合的一種方法,其具有兩者的優(yōu)點(diǎn)[12]:(1)解釋性強(qiáng),RE-EM回歸樹在解釋性方面甚至比線性模型更加方便;(2)與傳統(tǒng)的統(tǒng)計(jì)方法相比,回歸樹更接近人的決策模式,其輸出結(jié)果簡(jiǎn)潔直觀,非統(tǒng)計(jì)專業(yè)人士也可以輕松解釋(尤其當(dāng)樹規(guī)模較小時(shí));(3)樹方法可以直接處理定性的預(yù)測(cè)變量而不需要?jiǎng)?chuàng)建啞變量;(4)在處理分析非線性數(shù)據(jù)時(shí),回歸樹是一種較為理想的方法;(5)允許資料具有某種相關(guān)性以及協(xié)方差矩陣的多樣性;(6)允許研究中的處理因素具有隨機(jī)性質(zhì)。
目前在國(guó)內(nèi)的醫(yī)學(xué)研究中,尚未見RE-EM回歸樹的相關(guān)研究報(bào)道。而本研究驗(yàn)證了RE-EM回歸樹對(duì)于擬合縱向數(shù)據(jù)的適用性,因此在對(duì)實(shí)際資料進(jìn)行分析時(shí)我們可以同時(shí)采用RE-EM回歸樹與混合線性模型以提高分析效率。本研究的不足在于構(gòu)建的RE-EM回歸樹只適用于連續(xù)型因變量,而對(duì)于離散型因變量還需進(jìn)一步探討,另外對(duì)于RE-EM回歸樹能否進(jìn)一步發(fā)展為隨機(jī)森林方法,還需后續(xù)更多的研究。
隨著R軟件在統(tǒng)計(jì)學(xué)中的推廣和應(yīng)用,基于R軟件開發(fā)的RE-EM回歸樹開始受到學(xué)者們的關(guān)注,因此,本文通過模擬研究對(duì)RE-EM回歸樹的原理方法、數(shù)據(jù)結(jié)構(gòu)、軟件實(shí)現(xiàn)、案例分析和模型評(píng)價(jià)進(jìn)行探討,并希望該方法能為醫(yī)學(xué)縱向數(shù)據(jù)的分析提供一定的參考。