李觀海趙麗鄧凱升張瑛宮曉郜艷暉
(廣東藥科大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計學(xué)系,廣東 廣州510310)
醫(yī)學(xué)、社會學(xué)和心理學(xué)等領(lǐng)域所關(guān)注的很多熱點問題都與抽象概念有關(guān),如行為模式、滿意度等[1-2]。 由于抽象概念難以直接測量,通常用多個與抽象概念相關(guān)的調(diào)查條目間接測量,稱為潛變量(latent variable),而反映這些概念的相關(guān)調(diào)查條目稱為顯變量(manifest variable)。 潛變量模型是一類通過顯變量來度量潛變量信息的統(tǒng)計分析方法[3],如顯變量和潛變量均為定量變量時的因子分析,以及顯變量和潛變量均為分類變量時的潛在類別分析(latent class analysis,LCA)。 LCA 也稱以模型為基礎(chǔ)的聚類分析,能將異質(zhì)性人群進行有效分類。 和因子分析類似,當(dāng)異質(zhì)性來源于多個維度時,LCA可引入因子分析的思路,擴展為包含多個潛在類別變量(或稱因子)的潛在類別因子分析(latent class factor analysis,LCFA)模型,從多個維度對觀測進行分類[4]。 本研究通過模擬實驗對LCA 和LCFA 的分類效果進行比較,并用實例進行說明,為分類問題的統(tǒng)計分析方法選擇提供科學(xué)依據(jù)。
假設(shè)N個觀測均含有K個二分類顯變量,Yh表示第h個觀測的反應(yīng)模式,潛變量x具有T分類,顯變量的聯(lián)合概率可表示為:
式(1)中,P(x=t)表示第t類別的潛在類別概率;P(Yh|x=t)表示類別t內(nèi)對應(yīng)K個顯變量聯(lián)合的條件概率。 LCA 的基本假設(shè)為顯變量組合的概率分布可以由互斥的潛變量來解釋,每個潛類別對應(yīng)顯變量的反應(yīng)有特定的傾向選擇。
仍為N個觀測的K個顯變量,x1,x2,…,xL表示L個離散的潛變量x,第l個潛變量的分類數(shù)為Il,顯變量的聯(lián)合概率可表示為:
式(2)中,觀測反應(yīng)模式的概率函數(shù)P(Yh)是多個潛變量分類下概率函數(shù)P(Yh|x1,x2,…,xL)的加權(quán),權(quán)重大小為所屬的L個潛變量聯(lián)合分布條件下的概率。 研究表明P 個相互獨立的二分類因子的LCFA 模型(基本P 因子模型)可看作2P個類別的LCA 的特例,基本P 因子模型和P +1 個類別LCA 簡潔性相當(dāng)[5]。
LCA 和LCFA 均可通過最大似然估計法(maximum likelihood estimate,MLE)估計參數(shù)。 模型評價可用AIC(Akaike information criteria)、BIC(Bayesian information criteria)和L2等指標(biāo),其值越小意味著模型擬合越好。 模型建立后,利用貝葉斯理論,即最大后驗概率法,可將觀測歸為后驗概率最大的某一類別以實現(xiàn)分類。
目前模型可在Mplus、Latent Gold 等軟件中實現(xiàn)。
本研究模擬群體異質(zhì)性假設(shè)由兩個維度F1和F2構(gòu)成,探討樣本量、維度間關(guān)聯(lián)性對LCA 和LCFA 分類效果的影響。 模擬數(shù)據(jù)集在兩因子(F1和F2)兩水平LCFA 模型(記2-Dfactor(2,2))的理論分布下構(gòu)建,定義F1的邊際概率和F1條件下F2的條件概率來控制F1和F2之間的關(guān)聯(lián)(關(guān)聯(lián)系數(shù)τ=0:無相關(guān);τ=0.3:弱相關(guān);τ=0.5:中度相關(guān);τ=0.7:高度相關(guān));設(shè)置5 個二分類顯變量y1、y2、y3、y4和y5,根據(jù)各類別條件下顯變量的條件概率(見表1)產(chǎn)生5 個服從二項分布的隨機變量。 總樣本量設(shè)置為200,500 和1000 三種。 設(shè)置不同的種子數(shù),每種樣本量條件下重復(fù)試驗20 次,分別產(chǎn)生20 個模擬數(shù)據(jù)集。
對模擬數(shù)據(jù)集分別采用LCA 和LCFA 模型分析,其中LCA 擬合的模型包括1-5 類別(1-Cluster 到5-Cluster)模型;LCFA 擬合的模型包括一因子兩水平模型(1-Dfactor(2))、兩因子兩水平模型(2-Dfactor(2,2))和三因子兩水平模型(3-Dfactor(2,2,2)),其中兩因子兩水平模型包括指定因子間關(guān)聯(lián)的模型(2-Dfactor(2,2)?)。 由于2-Dfactor(2,2)模型是模擬研究的理論模型,為和LCA 比較,將LCA的4-Cluster 模型作為對比模型。
每個數(shù)據(jù)集根據(jù)各個模型擬合的BIC、AIC、L2等統(tǒng)計量選出最優(yōu)模型,計算按各擬合指標(biāo)選擇4-Cluster模型和2-Dfactor 模型的次數(shù)及比例。 利用選擇模型對觀測進行分類,將分類結(jié)果和理論模型的觀測類別情況進行比較,計算正確分類率(%)。 正確分類率(%)定義為正確分類的觀測占總觀測的比例,平均正確分類率(%)為20 次試驗的平均。 根據(jù)BIC、AIC、L2選擇最優(yōu)分類模型數(shù)的比例越大,表明模型擬合效果越好;模型平均正確分類率越大,表明模型分類效果越好。
表1 理論模型各類別顯變量(二分類)的條件概率Table 1 Conditional probabilities of all kinds of distinct variables (dichotomies) in theoretical models
當(dāng)模擬數(shù)據(jù)兩維度無相關(guān)時,選擇2-Dfactor(2,2)模型的比例和平均正確分類率均高于4-Cluster模型;當(dāng)兩維度弱相關(guān)時,則選擇4-Cluster 和2-Dfactor(2,2)模型的比例高于2-Dfactor(2,2)?模型;當(dāng)兩維度中度相關(guān)時,隨著樣本量的增加,選擇2-Dfactor(2,2)?模型的比例逐漸增加,且選擇2-Dfactor(2,2)?模型的比例和正確分類率高于4-Cluster和2-Dfactor(2,2)模型;當(dāng)兩維度高度相關(guān)時,LCFA 則傾向于選擇的最優(yōu)模型為1-Dfactor(2),結(jié)果見表2。
實例來自廣州市某年居民社區(qū)衛(wèi)生服務(wù)滿意度調(diào)查資料。 共包括55 個社區(qū)衛(wèi)生服務(wù)中心所屬街道的2992 份有效問卷。 社區(qū)衛(wèi)生服務(wù)滿意度調(diào)查條目包括尊重患者、責(zé)任感、服務(wù)態(tài)度、隱私保護、解釋交流、提供知識、技術(shù)水平和可信任度等8 項服務(wù),每項服務(wù)的滿意度均為5 個等級,即很不滿意、不滿意、一般、比較滿意和非常滿意。 分析前先將5個等級轉(zhuǎn)換為2 個等級,即將非常滿意和比較滿意合并為一類,很不滿意、不滿意和一般合并為一類。經(jīng)關(guān)聯(lián)性分析,解釋交流和提供知識的關(guān)聯(lián)最強(τ=0.563 4),尊重患者、責(zé)任感和服務(wù)態(tài)度間的關(guān)聯(lián)中等(兩兩列聯(lián)系數(shù)τ分別為0.522 2、0.503 7和0.513 8),其他反應(yīng)條目間的關(guān)聯(lián)程度為弱相關(guān)(τ∈(0.267 2,0.409 1))。
模型擬合結(jié)果見表3,對于LCA,根據(jù)BIC,模型5-Cluster 為最優(yōu);根據(jù)AIC 指標(biāo),模型8-Cluster 最優(yōu);根據(jù)L2,類別數(shù)大于5 以上模型L2減少的百分比均大于95%。 綜合考慮模型評價指標(biāo)及模型簡潔性,選擇模型5-Cluster 為最優(yōu)模型。 對于LCFA,根據(jù)BIC 指標(biāo),三因子相關(guān)模型為最優(yōu);根據(jù)AIC指標(biāo),四因子相關(guān)模型為最優(yōu)模型;從L2來看,則四因子模型和四因子相關(guān)模型最優(yōu)。 綜合考慮選擇三因子相關(guān)模型(3-Factor(2,2,2)?)為最優(yōu)模型。 和LCA 的5 類別模型相比,3-Factor(2,2,2)?的BIC、AIC、L2均較低,且估計的參數(shù)(Npar=38)較少。
模型5-Cluster 和模型3-Factor(2,2,2)?的類別概率和條件概率分布見表4。 表中最左側(cè)標(biāo)目表示5-Cluster 模型的類別,最右側(cè)標(biāo)目表示3-Factor(2,2,2)?模型的類別組合。 對比2 個模型的分類結(jié)果可看到,LCFA 的(111) 類,(112) 類,(122) 類,(212)類和(222)類分別類似于LCA 的類別1-類別5 人群。 但LCFA 除發(fā)現(xiàn)LCA 中的5 個類別外,還發(fā)現(xiàn)3 個類別(121)、(211)、(221)人群。 其中(121)類人群和類別1 人群相比,8 項服務(wù)滿意度均較低,運用LCA 模型容易將該類人群歸為類別1;(211)類除尊重患者、責(zé)任感、服務(wù)態(tài)度較為滿意外,還對技術(shù)水平和可信任度較為滿意,LCA 模型易把該類人群歸為類別2;(221)類人群對8 項服務(wù)的條件概率均在0.30 ~0.64 之間,可認為此類人群對8 項服務(wù)均不滿意。
分析LCFA 的3 個因子與8 項服務(wù)滿意情況間的因子載荷(見表5),分析結(jié)果和各顯變量間關(guān)聯(lián)系數(shù)結(jié)果基本吻合。 進一步計算三因子間的列聯(lián)系數(shù)分別為0.344 2、0.318 8 和0.382 0,因子間存在關(guān)聯(lián)。
本研究通過計算機模擬對LCA 和LCFA 模型在處理分類問題時的效果進行比較,兩種方法均可對異質(zhì)性群體進行分類,前者僅從單維度對人群分類,后者則從2 個或多個維度分類。 模擬研究結(jié)果表明:在兩因子兩水平的理論模型抽樣條件下,當(dāng)模擬數(shù)據(jù)兩維度不相關(guān)或弱相關(guān)時,LCFA 選擇理論模型作為最優(yōu)模型的比例和正確分類率均高于LCA;當(dāng)兩維度中度相關(guān)時,隨著樣本量的增加,選擇兩因子兩水平且相關(guān)的LCFA 比例逐漸增加,且正確分類率較高。 當(dāng)兩維度高度相關(guān)時,LCFA 模型傾向于選擇單因子模型。 這可由兩維度相關(guān)性太強,因而可用一個公共因子表示來解釋。 實證分析結(jié)果表明,應(yīng)用LCA 模型可得到5 類異質(zhì)性亞組人群,但忽略了顯變量間的維度特征,結(jié)果缺乏進一步的解釋價值。 但采用LCFA 可從多角度對異質(zhì)性群體進行分類,分類結(jié)果更細化精確。
表2 維度關(guān)聯(lián)下LCA 和LCFA 擬合指標(biāo)選擇理論模型的次數(shù)(%)和平均正確分類率(%)Table 2 Frequency (%) of selecting theoretical model and the average correct classification rate (%) for LCA and LCFA fitting indicators under dimensional correlation
表3 社區(qū)居民對社區(qū)衛(wèi)生服務(wù)專業(yè)技術(shù)的滿意度LCA 和LCFA 模型結(jié)果Table 3 Results of LCA and LCFA model on the satisfaction of community residents to the professional technology of community health service
表4 5 分類LCA 和三因子LCFA 分類對滿意度分析的結(jié)果比較Table 4 Comparison of the satisfaction analysis results between 5-cluster LCA and 3-factor LCFA
表5 社區(qū)服務(wù)滿意度的LCFA 分析因子與條目間的因子載荷Table 5 LCFA analysis factors of community service satisfaction and factor load between items
作為LCA 的擴展,LCFA 模型既可用于分類顯變量,也可擴展到有序、連續(xù)或計數(shù)變量,應(yīng)用范圍也較為廣泛,而目前對LCFA 的應(yīng)用研究多針對顯變量為分類變量的情況,如McGrath[6]對精神分裂癥的維度進行探討,Moors[7]對反應(yīng)模式行為進行分析,而連續(xù)型顯變量研究較少。 Magidson[5]通過實例數(shù)據(jù)對LCFA 和因子分析進行了比較,表明LCFA能很好地擬合數(shù)據(jù),且提供的結(jié)果比因子分析更容易解釋。 和因子分析相比,LCFA 的參數(shù)相對難以解釋,針對此問題,Vermunt[7]等提出了線性近似的最大似然估計法。
LCFA 結(jié)合了LCA 和因子分析的思想,不僅可以達到傳統(tǒng)因子分析降維的目的,而且還能對異質(zhì)性群體進行分類,克服因子分析中顯變量和潛變量均要求正態(tài)分布的假設(shè),更擴充了潛在類別模型不滿足局部獨立性假設(shè)時的處理方式,具有模型精簡和容易被識別等優(yōu)勢,在應(yīng)用上具有廣泛的擴展空間。 此外,類似于因子分析,LCFA 從多個角度來確定異質(zhì)性群體,使分類維度得以多元化,充分利用了數(shù)據(jù)的信息。 特別是當(dāng)因子之間在專業(yè)上存在關(guān)聯(lián)時,可對因子與因子之間的關(guān)聯(lián)做出估計,有著重要的學(xué)術(shù)應(yīng)用價值。