大連醫(yī)科大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)教研室(116044) 雷 芳 宋桂榮 劉啟貴 胡冬梅 李國(guó)榮 唐 曉
【提 要】 目的 探討潛變量增長(zhǎng)混合模型(latent growth mixture modeling,GMM)和潛類增長(zhǎng)模型(latent class growth model,LCGM)在識(shí)別兒童體重增長(zhǎng)變化潛在類別上的應(yīng)用。方法 以大連市932名6~12歲學(xué)齡兒童的體檢縱向數(shù)據(jù)為例。運(yùn)用Mplus8.3軟件構(gòu)建不同性別兒童體質(zhì)指數(shù)(body mass index,BMI)變化的GMM和LCGM模型。結(jié)果 LCGM模型對(duì)男女學(xué)齡兒童的生長(zhǎng)軌跡均識(shí)別出3個(gè)增長(zhǎng)趨勢(shì)不同的亞組:“穩(wěn)定組”、“肥胖組”、“偏瘦組”;GMM模型對(duì)男性學(xué)齡兒童的生長(zhǎng)軌跡識(shí)別出2個(gè)增長(zhǎng)趨勢(shì)不同的亞組:“穩(wěn)定增長(zhǎng)組”和“肥胖增長(zhǎng)組”。結(jié)論 GMM和LCGM模型可以識(shí)別學(xué)齡兒童BMI發(fā)展軌跡的異質(zhì)性,拓展了描述兒童體重動(dòng)態(tài)變化的方法研究。
兒童生長(zhǎng)發(fā)育狀況關(guān)系到社會(huì)發(fā)展水平及健康水平。體質(zhì)指數(shù)(body mass index,BMI),是國(guó)際上常用于評(píng)價(jià)兒童生長(zhǎng)發(fā)育、營(yíng)養(yǎng)狀況及胖瘦程度的重要指標(biāo)[1]。在對(duì)BMI多次監(jiān)測(cè)構(gòu)成的縱向數(shù)據(jù)的研究中,廣義線性混合模型、多元線性回歸模型等模型是目前常見(jiàn)的分析方法,但這些研究方法都只對(duì)調(diào)查對(duì)象進(jìn)行了一個(gè)群體性BMI軌跡研究,并未對(duì)群體內(nèi)部BMI發(fā)展異質(zhì)性進(jìn)一步研究與探索。然而,在實(shí)際情況中,不同個(gè)體BMI變化的軌跡可能是存在差異的,比如,某一兒童群體的BMI隨時(shí)間變化可能會(huì)呈現(xiàn)“持續(xù)保持平穩(wěn)”、“明顯升高”、“明顯降低”等不同類別的變化軌跡,即研究群體內(nèi)部可能存在BMI發(fā)展趨勢(shì)不同的亞群。潛變量增長(zhǎng)混合模型(latent growth mixture modeling,GMM)和潛類增長(zhǎng)模型(latent class growth model,LCGM)是目前較先進(jìn)的縱向數(shù)據(jù)建模方法,可用于識(shí)別隨時(shí)間變化有不同發(fā)展趨勢(shì)的群體,探究并確定研究群體中各個(gè)亞群的發(fā)展趨勢(shì)及軌跡特征。本研究通過(guò)對(duì)大連市學(xué)齡兒童縱向數(shù)據(jù)的分析,來(lái)闡述這兩個(gè)模型在BMI發(fā)展軌跡中的應(yīng)用。
1.模型原理
傳統(tǒng)的潛變量增長(zhǎng)曲線模型(latent growth curve model,LGCM)可采用線性、二次、更高次曲線或分段函數(shù)來(lái)模擬縱向數(shù)據(jù)的軌跡,以線性函數(shù)為例:
yit=αi+βit+εit
αi=α0+μαi
βi=β0+μβi
其中,yit表示個(gè)體i在t時(shí)點(diǎn)(年齡)的應(yīng)變量值,t為測(cè)量時(shí)點(diǎn),αi為個(gè)體i的截距,即個(gè)體指標(biāo)的初始水平,βi為個(gè)體i的斜率,即個(gè)體i指標(biāo)的發(fā)展速度。α0和β0分別為群體的平均截距和平均斜率,也稱為固定效應(yīng),μαi、μβi分別為個(gè)體i的截距和斜率的變異程度,也稱為隨機(jī)效應(yīng),εit為隨機(jī)誤差。此線性模型的潛變量為截距潛變量和斜率潛變量。
GMM模型在LGCM的基礎(chǔ)上增加了分類潛變量,可以將存在異質(zhì)性的群體分成若干個(gè)亞群,描述各個(gè)亞群的發(fā)展軌跡及其內(nèi)個(gè)體的發(fā)展變化的差異,該模型存在兩種潛變量:(1)連續(xù)潛變量,包含增長(zhǎng)特征參數(shù),即隨機(jī)截距、隨機(jī)斜率或隨機(jī)加速度等因子。(2)分類潛變量:將研究群體分成互斥的亞群來(lái)描述群體的異質(zhì)性[2]。
GMM模型的表達(dá)公式如下(以線性函數(shù)為例):
yit=P(C=k)·(αik+βikt+εitk)
αik=α0k+μαik
βik=β0k+μβik
分類潛變量C表示群體可分成的若干個(gè)亞群,共包含k個(gè)類別;P(C=k)表示個(gè)體i屬于第k類的概率;αik和βik分別表示個(gè)體i在第k類的截距和斜率,α0k表示第k類的截距均值,用于描述第k類的平均初始值,μαik表示第k類個(gè)體間初始值的差異;βik表示第k類的斜率總均值,描述該類的總平均變化率,μβik表示第k類個(gè)體間平均變化率的差異。εitk表示個(gè)體i在第k類的殘差[3]。
LCGM模型是GMM模型的特例,與GMM模型使用隨機(jī)系數(shù)來(lái)估計(jì)個(gè)體的斜率和截距不同,LCGM模型假設(shè)在同一亞組內(nèi)個(gè)體的斜率和截距均相同,類別組內(nèi)的發(fā)展軌跡不存在個(gè)體差異[4]。
LCGM模型的表達(dá)公式如下(以線性函數(shù)為例):
yit=P(C=k)·(αik+βikt+εitk)
αik=α0k
βik=β0k
模型擬合優(yōu)劣的評(píng)價(jià)指標(biāo):(1)模型擬合評(píng)價(jià)指標(biāo)有AIC 、BIC、aBIC、Entropy,前三個(gè)指標(biāo)越小說(shuō)明模型擬合情況越好,Karen等人研究表明,aBIC是最好的信息指標(biāo)[5]。Entropy評(píng)價(jià)模型分類的精確性,取值在0~1,一般大于0.8認(rèn)為該模型的分類精確性較高[6]。(2)模型亞組分類比較包括VLRT和BLRT檢驗(yàn),當(dāng)比較含k類的模型與k-1類模型擬合情況時(shí),若檢驗(yàn)結(jié)果P<0.05,則表示含k個(gè)亞類的模型更好,反之,則k-1類模型擬合較好。
2.資料來(lái)源
資料來(lái)源于2003年至2009年大連市四個(gè)區(qū)小學(xué)的隊(duì)列研究數(shù)據(jù),數(shù)據(jù)收集情況見(jiàn)文獻(xiàn)[7]。共有515名男童和417名女童共932名學(xué)生納入 6年的隊(duì)列研究,資料包含研究對(duì)象1到6年級(jí)每年的身高(cm)和體重(kg),BMI=體重/身高2(kg/m2)。按照WHO 2007分性別和年齡別的標(biāo)準(zhǔn)分別計(jì)算男童及女童BMI的標(biāo)準(zhǔn)化評(píng)分BMI-Z。本研究經(jīng)大連醫(yī)科大學(xué)公共衛(wèi)生學(xué)院與倫理委員會(huì)批準(zhǔn),所有參與者、家長(zhǎng)或法定監(jiān)護(hù)人均已知情同意。
3.模型方法
由于男童和女童的體質(zhì)存在差異性,且體脂發(fā)育不同步,故按性別不同分別進(jìn)行建模分析[8]。本研究分兩部分進(jìn)行:將6年監(jiān)測(cè)的BMI-Z作為觀測(cè)變量分別擬合線性、二次函數(shù)的LCGM和GMM;以前一步得到的最優(yōu)模型的分類和基線身高作為自變量,以6年身高的總增長(zhǎng)值作為因變量進(jìn)行多元回歸分析,來(lái)探討B(tài)MI發(fā)展趨勢(shì)不同的兒童身高增長(zhǎng)的差異。
使用Mplus 8.3軟件進(jìn)行LCGM和GMM模型,使用SPSS 20.0對(duì)人口學(xué)變量進(jìn)行統(tǒng)計(jì)描述和多元回歸分析。
1.研究對(duì)象基本特征
共有932名學(xué)生納入本次研究,其中,男童515名(55.3%),女童417名(44.7%),基線的平均年齡為(7.10±0.34)歲;基線的平均BMI:男童(16.31±2.67)kg/m2,女童(15.50±2.16)kg/m2。
2.兒童BMI-Z的LCGM模型擬合結(jié)果
LCGM模型擬合男女童的BMI-Z值發(fā)展情況的結(jié)果見(jiàn)表1和表2。模型結(jié)果顯示,男童和女童都是含3個(gè)潛在類別的二次函數(shù)的LCGM模型擬合情況較好。
表1 LCGM模型擬合統(tǒng)計(jì)量結(jié)果(男童)
表2 LCGM模型擬合統(tǒng)計(jì)量結(jié)果(女童)
表3 學(xué)齡兒童BMI-Z發(fā)展趨勢(shì)的LCGM模型參數(shù)估計(jì)結(jié)果
圖1 男童LCGM增長(zhǎng)趨勢(shì)圖(樣本均值和估計(jì)均值)
圖2 女童LCGM增長(zhǎng)趨勢(shì)圖(樣本均值和估計(jì)均值)
3.兒童身高變化影響因素的多元回歸分析
多元回歸模型的因變量為6年身高增長(zhǎng)值,自變量為基線身高和LCGM確定的亞組分類,其中,將“穩(wěn)定組”設(shè)置為對(duì)照組。結(jié)果顯示男女童中肥胖組與穩(wěn)定組對(duì)比,身高變化差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05);而男女童偏瘦組均比穩(wěn)定組平均身高降低。兩組結(jié)果提示,體重增加并不能使得身高增加,而偏瘦會(huì)使身高增加不足。結(jié)果見(jiàn)表4。
表4 學(xué)齡兒童身高增長(zhǎng)影響因素的logistic回歸結(jié)果
4.兒童BMI-Z的GMM模型擬合結(jié)果
運(yùn)用GMM模型對(duì)兒童的BMI-Z值增長(zhǎng)情況進(jìn)行群體異質(zhì)性分析的過(guò)程和LCGM類似。比較不同曲線及不同類別模型的相關(guān)擬合評(píng)價(jià)指標(biāo),男童含2個(gè)潛在類別二次增長(zhǎng)的GMM模型擬合較好,模型參數(shù)估計(jì)結(jié)果見(jiàn)表5,增長(zhǎng)趨勢(shì)圖見(jiàn)圖3。在第一類別中,男生BMI-Z變化的特點(diǎn)是初始值略低于標(biāo)準(zhǔn)值,隨時(shí)間變化較緩慢增長(zhǎng),但增長(zhǎng)速度減慢,命名為“穩(wěn)定增長(zhǎng)組”;截距、斜率、二次項(xiàng)系數(shù)的方差均有統(tǒng)計(jì)學(xué)意義,說(shuō)明這一亞組個(gè)體間的BMI-Z初始值、增長(zhǎng)率和增長(zhǎng)加速度均存在差異;這一類別中增長(zhǎng)特征參數(shù)間的協(xié)方差有統(tǒng)計(jì)學(xué)差異,表明,男生BMI-Z初始值與斜率、增長(zhǎng)加速度有關(guān)聯(lián),BMI-Z初始值越高,增長(zhǎng)速度越快,增長(zhǎng)加速度會(huì)減緩。在第二類別中,男生初始值高于標(biāo)準(zhǔn)值,且隨年齡增長(zhǎng)而增長(zhǎng),增長(zhǎng)速度減緩,命名為“肥胖增長(zhǎng)組”;男生這一亞組中截距、斜率、二次項(xiàng)系數(shù)的方差分別為2.238(P<0.05)、0.167(P<0.05)、0.001(P=0.101),說(shuō)明該類別的男生BMI-Z初始值和增長(zhǎng)率存在個(gè)體差異,而增長(zhǎng)速度沒(méi)有個(gè)體差異;該組協(xié)方差結(jié)果表明,男生BMI-Z初始值與增長(zhǎng)斜率、增長(zhǎng)加速度均有關(guān)聯(lián),BMI-Z初始值越高,增長(zhǎng)速度越慢,但增長(zhǎng)加速度增大。
表5 男童體重發(fā)展趨勢(shì)的GMM模型參數(shù)估計(jì)結(jié)果
圖3 男童GMM增長(zhǎng)趨勢(shì)圖(樣本均值和估計(jì)均值)
GMM模型在本例女童中應(yīng)用的效果不佳,根據(jù)模型擬合評(píng)價(jià)指標(biāo)提示,女童含2個(gè)潛在類別二次增長(zhǎng)的GMM模型擬合較好。但從表6中可以看出,第一亞組中人數(shù)占比為98%,第二亞組人數(shù)占比只為2%,研究者普遍認(rèn)為分類結(jié)果中每組人數(shù)至少要大于等于5%樣本量[9]。亞組中樣本數(shù)量過(guò)少,模型分類結(jié)果的可靠性低。女童BMI-Z的增長(zhǎng)趨勢(shì)圖見(jiàn)圖4。
表6 女童體重發(fā)展趨勢(shì)的GMM模型參數(shù)估計(jì)結(jié)果
圖4 女童GMM增長(zhǎng)趨勢(shì)圖(樣本均值和估計(jì)均值)
以往許多關(guān)于學(xué)齡兒童BMI的研究重點(diǎn)關(guān)注的是兒童肥胖率與超重率[10-11],但探索兒童隨著年齡增長(zhǎng)BMI的發(fā)展軌跡可以揭示體重的動(dòng)態(tài)變化。學(xué)齡兒童在生長(zhǎng)發(fā)育期間,存在著不同體重變化軌跡的亞群體[12]。本文基于LCGM和GMM兩個(gè)模型探索了學(xué)齡兒童BMI的變化軌跡,研究發(fā)現(xiàn)學(xué)齡男女生均存在不同類型的變化軌跡,且回歸模型提示“肥胖組”身高增長(zhǎng)并不顯著,說(shuō)明超重肥胖并不能對(duì)身高有所貢獻(xiàn)。故應(yīng)積極對(duì)此類人群體脂進(jìn)行干預(yù)與控制,促進(jìn)兒童體質(zhì)健康發(fā)展。
關(guān)于學(xué)齡兒童BMI的隊(duì)列研究中,常用的研究方法為傳統(tǒng)的線性混合模型,這樣的方法假定所有人群來(lái)自同一體,即群體內(nèi)每個(gè)個(gè)體的生長(zhǎng)軌跡具有相同的截距和斜率等增長(zhǎng)參數(shù),顯然這種方法對(duì)異質(zhì)性較強(qiáng)的兒童群體有很大的局限性。將潛在類別引入增長(zhǎng)模型中,既可以刻畫學(xué)齡兒童的BMI增長(zhǎng)趨勢(shì)又可以探討是否存在不同的潛在亞組。GMM模型允許亞組內(nèi)存在個(gè)體差異,而LCGM模型中假設(shè)各個(gè)亞群的發(fā)展軌跡不存在個(gè)體差異。兩種模型的最大優(yōu)點(diǎn)在于,將連續(xù)潛變量和分類潛變量結(jié)合起來(lái),通過(guò)分類潛變量將研究總體分為不同的亞群,根據(jù)連續(xù)潛變量來(lái)描述不同亞群的增長(zhǎng)趨勢(shì),甚至可以識(shí)別亞群內(nèi)個(gè)體間是否存在差異[3]。因此GMM和LCGM是分析縱向數(shù)據(jù)的兩種較先進(jìn)的方法。
由于GMM模型允許潛變量方差與協(xié)方差的估計(jì),故對(duì)有些數(shù)據(jù)模擬效果不佳。在本研究中運(yùn)用GMM模型對(duì)女童BMI-Z進(jìn)行群體異質(zhì)性分析時(shí),分類結(jié)果出現(xiàn)某類別樣本數(shù)量過(guò)少的情況,模型分類結(jié)果的可靠性低。該模型分類精確性的主要影響因素為潛類別間距離和類別內(nèi)方差,若潛類別間距離越小,模型分類效果越差;若類別內(nèi)方差越大,類別之間重疊的部分越大,則將個(gè)體劃分到特定類別組就越困難[13-14]。因此GMM和LCGM模型的選擇性與適用性也是未來(lái)研究中需要不斷總結(jié)的問(wèn)題。