王 琪 胡良平 高 穎 柳偉偉 馬 斌 張 楊
潛在類別分析在缺血性中風病患者證候數據中的應用*
王 琪1,3胡良平1△高 穎2柳偉偉1馬 斌2張 楊2
目的 探討觀測結果為證候數據時潛在類別分析在樣品聚類中的應用,及不同首發(fā)證候缺血性中風病患者各證候隨時間的變化規(guī)律。方法 采用潛在類別分析將1023例缺血性中風病住院患者按首發(fā)證候進行聚類,計算各組患者各時點各證候的頻率,并繪制線圖。結果 根據潛在類別分析模型的擬合統(tǒng)計量及似然比檢驗得出4個潛在類別的模型是首選模型,缺血性中風病住院患者可聚為4個亞組,“內濕+血瘀”組98人,“痰+血瘀”組485人,“血瘀”組266人,“多種證候”組160人。經潛在類別分析聚成的4組患者,各證候的發(fā)生率及隨時間的變化趨勢不盡相同。結論 潛在類別分析可用于觀測結果為證候數據的樣品聚類,聚類后各組各證候隨時間的變化規(guī)律不同,對更深刻地揭示缺血性中風病的病機本質,更準確地指導臨床中醫(yī)藥干預有實際意義。
中風病 證候 潛在類別分析 變化規(guī)律
*國家重點基礎研究計劃(973計劃)課題(課題編號2003CB517102),國家重點科技專項“重大新藥創(chuàng)制”(課題編號2009ZX09502-028)
1.軍事醫(yī)學科學院生物醫(yī)學統(tǒng)計咨詢中心(100850)
2.北京中醫(yī)藥大學東直門醫(yī)院(100700)
3.軍事醫(yī)學科學院放射與輻射醫(yī)學研究所
△通信作者:胡良平,E-mail:lphu812@sina.com
20世紀中期以后傳染病得到了有效的控制,現代人類主要的死亡原因為心血管病、腦血管病、惡性腫瘤這3類非傳染病。隨著社會老齡化趨勢日益加速,老年人口比重越來越大,故中風病作為現代社會的重大疾病,其防治和相關基礎研究一直得到國家的重點支持〔1〕。缺血性中風由于患者自身病機不同,必然具有不同的證候特征和演變趨勢〔2〕。中醫(yī)領域中搜集的證候資料是分類或稱定性資料,適合用潛在類別分析對樣品進行聚類。
病例取自2004年9月-2009年8月在北京中醫(yī)藥大學東直門醫(yī)院、北京中醫(yī)藥大學東方醫(yī)院、首都醫(yī)科大學附屬宣武醫(yī)院、廣州中醫(yī)藥大學第二附屬醫(yī)院、天津中醫(yī)藥大學第一附屬醫(yī)院、天津中醫(yī)藥大學第二附屬醫(yī)院住院的缺血性中風病患者。本研究在住院后第 0、7、14、28、90 天對患者內風、內火、內濕、痰、血瘀、陰虛和氣虛等七種證候(均為二值變量)進行觀測,其中,將第0天的證候定為首發(fā)證候。
潛在類別分析模型主要用于社會學、生物醫(yī)學和市場研究中,有探索性和驗證性兩種,其目的是以最少的潛在分類數據解釋顯在變量間的關聯程度。傳統(tǒng)的潛在類別分析可以估計潛類別概率和潛類別中外顯變量的條件概率兩類參數〔3〕。類別概率參數表示隨機抽取的個體屬于一個特定類的概率,相當于因子分析中的解釋變異百分比;而條件概率反應個體某觀察變量屬于特定類別的可能性,相當于因子分析中的因子載荷。在沒有先驗知識的情況下一般采用探索性潛在類別分析。常用的探索性潛在類別分析方法有潛在類別聚類分析模型和潛在類別因子分析模型〔4〕。
結果變量為分類變量的潛在類別聚類分析模型,假定K個分類觀察變量y和包含L類的分類潛變量x,其一般表達式為:
LCA的思想類似于因子分析。它假定分類潛變量對多個觀測變量產生反應。LCA較經典聚類分析有一些優(yōu)勢。首先它非常靈活,可以處理分布類型復雜的分類變量;此外,它不需要確定每個觀測變量的分布。
確定類別數目的最佳方法目前存在爭議,有文獻指出〔5〕,可以用 BIC聯合似然比檢驗來確定模型。BIC用于比較模型,BIC值越小說明模型擬合越好。對數似然比檢驗用于比較k-1類模型和k類模型的差別是否具有統(tǒng)計學意義。分類數目的建立使用似然比檢驗,一般認為最少類別數的模型P<0.05。使用這個合并策略確定類別數目,之后我們基于最大后驗概率將每個受試者進行分類。
因發(fā)病時首次出現的證候在臨床上有重要意義,故根據患者的首發(fā)證候對患者進行聚類。
采用SAS9.2軟件對數據進行分析。其中,PROC LCA是用作潛在類別分析的一個新的SAS過程,它是一個外掛模塊,可以從http://methodology.psu.edu免費下載,安裝后使用。
共收集1 023例缺血性中風病住院患者的證候資料,去除14例未觀測首發(fā)證候的患者,共納入1 009例患者進行分析。
表1 潛在類別分析模型的擬合統(tǒng)計量
對這1 009例缺血性中風病住院患者(結果變量為中醫(yī)證候中的內風、內火、內濕、痰、氣虛、血瘀和陰虛7個分類變量)進行探索性潛在類別分析。首先估計含有1個潛在類別的模型(基準模型),接著依次增加潛在類別數目至7,潛在類別分析模型的擬合統(tǒng)計量見表1,可以看出,當潛在類別數為4時BIC的值最小且P<0.05,表明4個潛在類別的模型是首選模型。
表2 潛在類別概率
表2為缺血性中風病住院患者的潛在類別概率,潛在類別概率值分別是0.086 5、0.441 8、0.293 3、0.178 3,總和為1??梢钥闯?,比重排序:類別2>類別3>類別4>類別1。這里的概率值與因子分析中的因子貢獻率類似,潛在類別的概率值越大表示在潛變量中的地位越重要,對顯變量的影響越大〔6〕。因此認為模型中潛在類別2的作用最大,其次是潛在類別3,接著是潛在類別4,最后是潛在類別1。
表3 潛在類別條件概率
與因子分析中的因子載荷類似,條件概率表示各潛變量與顯變量之間的關系,條件概率值越大說明潛變量對顯變量的影響越大,可以協助研究者解釋潛變量各類別的內容和性質。由表3可以看出證候取值=1時,潛在類別1中顯變量內濕和血瘀發(fā)生的條件概率最大,分別為100.00%和87.44%,其它顯變量的概率都很小,因此潛在類別1主要影響顯變量內濕和血瘀,因此可以把該組定義為“內濕+血瘀”組;潛在類別2中顯變量痰和血瘀發(fā)生的條件概率分別為94.78%和83.37%,其次為內風和內火,進而可定義為“痰+血瘀”組。在潛在類別3中的顯變量血瘀發(fā)生的條件概率為100.00%,其次為氣虛和陰虛,可定義為“血瘀”組。在潛在類別4中的顯變量的條件概率大多接近0.5,可以定義為“多種證候”組。
基于最大后驗概率將缺血性中風病患者進行分組的結果如下:
(1)潛在類別1:“內濕+血瘀”組(98人)
(2)潛在類別2:“痰+血瘀”組(485人)
(3)潛在類別3:“血瘀”組(266人)
(4)潛在類別4:“多種證候”組(160人)
根據第0天患者的后驗概率將1009例缺血性中風病住院患者聚類后,再觀測各時點各證候的發(fā)生頻率,繪制線圖。
圖1 “內濕+血瘀”組患者各征候發(fā)生率
圖2 “痰+血瘀”組患者各征候發(fā)生率
圖3 “血瘀”組患者各征候發(fā)生率
圖4 “多種征候”組患者各征候發(fā)生率
由圖1~4可以看出,經潛在類別分析,將缺血性中風病住院患者按首發(fā)證候聚成4類,各類患者各證候的發(fā)生率及隨時間的變化趨勢是有所區(qū)別的。與其他組患者相比,“痰+血瘀”組患者內風下降幅度最大;“多種證候”組患者內火發(fā)生率一直居高;“內濕+血瘀”組患者內濕下降趨勢明顯;“痰+血瘀”組患者痰呈下降趨勢,其他組別痰變化相對平穩(wěn);“多種證候”組患者血瘀呈上升趨勢,其他組別緩慢下降;“內濕+血瘀”組患者氣虛發(fā)生率整體較低;“多種證候”組和“血瘀”組患者陰虛變化趨勢相近,其他兩組相近。
基于首發(fā)證候,采用潛在類別分析對缺血性中風病患者進行聚類,解決了結果變量為證候數據的受試對象的聚類問題。
證候是疾病某一發(fā)展階段病因、病理、病位、病勢的綜合表現,中風病的證候研究作為中風病研究中的基礎、核心,始終是中醫(yī)藥領域研究的熱點、難點。證候研究中的關鍵問題是如何客觀準確地把握中風病不同時點的證候特征,即證候的動態(tài)時空性。中風病自起病后,證候隨著病情的變化在動態(tài)演變,這種動態(tài)演變的過程有其內在的規(guī)律性。
本研究結果顯示中風病發(fā)病時主要是非單一證候的形式,并且也與認為痰濕和血瘀是中風病的基本病機的研究報道相符合?;鹦匝咨?,性質猛烈,易挾痰挾瘀上竄為患,是加重中風病病情的主要病理因素,“多種證候”組合患者證候演變趨勢表現為內火發(fā)生率一直居高,血瘀也呈上升趨勢,說明發(fā)病時即為多種證候組合形式的患者病情復雜,易變生他故,預后較證候組合形式少的患者可能要差,故應早期對此類患者干預,尤重點觀察火熱證的變化情況,辨證施治,以期改善其預后。
缺血性中風病患者根據首發(fā)證候分為4組,掌握以上各組各證候分布及其發(fā)展規(guī)律,可以更深刻地揭示疾病的病機本質,更準確地指導臨床中醫(yī)藥干預,為我們基于缺血性中風病首發(fā)證候來制定臨床治療方案提供了有力的證據,更具有針對性,從而提高療效。
1.馬斌,高穎.中風病發(fā)病第7天和第14天證候要素演變規(guī)律初步研究.遼寧中醫(yī)雜志,2006,33(12):1561 -1563.
2.王建華,王永炎.出血性中風、缺血性中風急性期證候演變規(guī)律的研究.中國中醫(yī)急癥,2001,10(4):215 -217.
3.張巖波主編.潛變量分析.北京:高等教育出版社,2009.
4.Magidson J,Vermunt JK.Latent class factor and cluster models,bi-plots,and related graphical analysis.Sociological Mehtodology,2001,31:223-264.
5.Ranak B,Brian J,Carolyn T,et al.Is there a nonadherent subtype of hypertensive patient?A latent class analysis approach.Patient Preference and Adherence,2010,4:255 -262.
6.郭小玲,裴磊磊,張巖波.潛在類別模型及數據模擬分析.數理醫(yī)藥學雜志,2009,22(6):631 - 635.
The Application of Latent Class Analysis for Syndrome Data of Ischemia Stroke Patients
Wang Qi,Hu Liangping,Gao Ying,et al.Consulting Centre of Biomedical Statistics,Academy of Military Medical Sciences(100850),Beijing
ObjectiveTo explore the application of latent class analysis in sample cluster of syndrome data response variables,and syndrome variation regularity of ischemia stroke patients with different first syndrome.MethodsUsing latent class analysis,we gave 1023 patients a classification according to first syndrome,and calculated the syndrome frequency of different days,then drawed line graph.ResultsFour-class model is preferred according to fit statistics and likelihood ratio tests,and the four sub-groups number of patients was 98,485,266,and 160 respectively.The syndrome variation regularity of four sub-groups is different.ConclusionLatent class analysis can resolve the sample classification of syndrome data response variables.The difference in syndrome variation regularity of sub-groups is more helpful to unveil the mechanism essence of ischemia stroke,and guide clinical intervention.
Ischemia stroke;Syndrome;Latent class analysis;Variation regularity
(責任編輯:丁海龍)