謝雁鳴,楊 偉,田 峰△,易丹輝,虞 鯤,康 樹,劉 峘,李建鵬,支英杰
隱類分析(latent class analysis)是一個基于隱類模型的聚類方法[1]。作為隱類分析的一種工具,隱樹模型(latent tree model),即多層隱類(hierarchical latent class,HLC)模型,已經(jīng)被探索性地應用于中醫(yī)證候的定量化研究領域中[1-3],比較適合于中醫(yī)證候的定量研究分析。本文擬對611例北京和上海社區(qū)40歲~65歲婦女原發(fā)性骨質疏松癥(primary osteoporosis,POP)中醫(yī)證候相關調(diào)查數(shù)據(jù)進行隱類分析,建立隱樹模型,探索社區(qū)40歲~65歲婦女 POP中醫(yī)基本證候要素特征。
2009年3月~8月期間,在上海市徐匯區(qū)和北京市東城區(qū)社區(qū)醫(yī)療服務中心開展POP高危人群篩選,對符合納入標準的人員進行現(xiàn)場問卷調(diào)查,并指導被調(diào)查者分別到上海市大華醫(yī)院和北京市東直門醫(yī)院進行骨礦物質密度(bone mineral density,BMD)檢測。在上海社區(qū)共發(fā)放篩檢問卷1101份,返回問卷1027份,經(jīng)核實排除不合格問卷26份,得到合格問卷1001份,占發(fā)放問卷數(shù)的90.92%。在北京社區(qū)共發(fā)放篩檢問卷800份,返回問卷763份,經(jīng)核實排除不合格問卷24份,得到合格問卷739份,占發(fā)放問卷數(shù)的92.38%。應用“骨質疏松癥健康管理系統(tǒng)”網(wǎng)絡數(shù)據(jù)采集平臺,將合格問卷獨立雙錄雙核后,進行一致性檢驗后,共獲得1740例合格篩檢問卷和BMD檢測數(shù)據(jù)。
1.2.1 篩檢問卷的設計 在課題組前期設計的《原發(fā)性骨質疏松癥中醫(yī)證候調(diào)查問卷》[4]的基礎上,結合問卷信度、效度分析[5]和中醫(yī)證候分析[5、6]結果,根據(jù)量表學和臨床流行病學方法,結合骨質疏松癥專家的臨床經(jīng)驗以及專家反復論證,基于已完成的520例POP中醫(yī)基本證候研究[7]的結果,《中醫(yī)內(nèi)科常見病診療指南·西醫(yī)疾病部分》[8]的中醫(yī)證候辨證內(nèi)容,制定“社區(qū)40歲~65歲婦女骨質疏松危險因素及證候調(diào)查問卷”。整個篩檢問卷包括一般信息、生活習慣、發(fā)病相關因素、軀體狀況、臨床體征等5個領域的內(nèi)容,共65個條目,為封閉式設計。篩檢問卷在調(diào)查前由獨立的中國中醫(yī)科學院中醫(yī)臨床基礎醫(yī)學研究所倫理委員會對其內(nèi)容進行醫(yī)學倫理論證并同意使用。
1.2.2 被調(diào)查者選擇標準 (1)納入標準:①女性;②年齡 40歲~65歲;③意識清楚,可用言辭表達,有閱讀能力,與調(diào)查人員溝通無障礙者;④愿意接受篩檢問卷調(diào)查和BMD檢測,并在“卷首頁”簽名同意者;(2)排除標準:①藥物或其他疾病引起的繼發(fā)性骨質疏松癥;②有惡性腫瘤、痛風、類風濕性關節(jié)炎等疾病影響中醫(yī)證候判斷者;③精神障礙、認知障礙者。
1.2.3 診斷標準 根據(jù)2008年中華中醫(yī)藥學會發(fā)布的《中醫(yī)內(nèi)科常見病診療指南·西醫(yī)疾病部分》[8]中以BMD檢測T值為指標的POP定性診斷標準,T值 >M-1SD為骨量正常,M-1SD~-2.0SD為骨量減少,<M-2.0SD以上為骨質疏松。
1.2.4 統(tǒng)計分析方法 隱樹模型是一種含有多個隱變量及隱結構的樹狀形貝葉斯網(wǎng),其中所有葉節(jié)點是可觀測的變量,稱為顯變量;所有內(nèi)節(jié)點是不可觀測的變量,稱為隱變量(如圖1)。
圖1 一個HLC模型:X 1,X2,X3是隱變量,Y1,Y2,…,Y7 是顯變量
Zhang[9]給出了如何從給定的數(shù)據(jù)中挑選出最匹配數(shù)據(jù)的HLC模型方法,文中通過實證研究選用最合適的貝葉斯信息準則(Bayes information critedon,BIC)[10]進行模型學習。隱樹模型的BIC評分計算公式為:
其中,Σ是1組數(shù)據(jù),m是Σ中的樣本個數(shù),G是1個隱樹模型,而Θ*是G中參數(shù)的1個最大似然估計,d(G)是G中獨立參數(shù)的個數(shù)。
611例符合“骨質疏松”定性診斷標準的數(shù)據(jù)納入分析。軀體癥狀共49個條目,分析時首先排除身痛、腰痛、背痛、足跟痛等疼痛的性質和時間8個條目、其他部位疼痛及其性質和時間3個條目,其他癥狀1個條目,對剩余的37個條目分析其發(fā)生頻率,將低于15%的7個軀體癥狀條目進行排除,最終納入隱樹模型分析的有30個條目,即篩選30個軀體癥狀變量納入分析。軀體癥狀的程度分為“沒有”、“偶爾有”、“時有時無”、“經(jīng)常有”、“總是有”5級,即每個癥狀變量都有5個可能的取值。運用Lantern 1.5軟件(由香港科技大學張連文教授授權)隱樹模型分析,通過BIC評分準則找到所有可能模型中BIC評分最高的隱樹模型。
利用啟發(fā)式單重爬山(heuristic single hillclimbing,HSHC)算法[11]學習得到 BIC 評分最高的隱樹模型 M(見圖2),其 BIC評分為-22950.125。模型M中,V0~V29是來自原始數(shù)據(jù)的癥狀顯變量,Y0~Y13是數(shù)據(jù)分析過程中引入的隱變量,每個隱變量后面括號里的取值表示對應隱類的取值個數(shù)。
圖2顯示,隱變量Y0可以當作是40歲~65歲北京、上海社區(qū)POP人群,直接依賴于Y0的隱變量有Y1、Y7、Y9和 Y13。把模型 M 與 POP的中醫(yī)證候理論作比較,對這些隱變量作具體的定性詮釋。
3.2.1 隱變量Y1的詮釋 隱樹模型 M中,隱變量Y1直接影響著足跟痛這個癥狀的出現(xiàn)及其輕重程度外,還通過隱變量 Y2、Y5、Y4間接影響著相關癥狀的出現(xiàn)及其輕重程度。隱變量Y2直接影響著腰膝酸軟、氣短、乏力、健忘、易怒5個癥狀的出現(xiàn)及其輕重程度,Y2還通過隱變量Y3間接影響著腿軟和下肢困重2個癥狀的出現(xiàn)及其輕重程度。腎主骨生髓,若腎精不足,骨髓生化乏源不能營養(yǎng)骨骼,便會出現(xiàn)腰膝酸軟、腿軟、乏力癥狀。腎主納氣,腎精充足,腎氣充沛,攝納有權,則呼吸均勻和調(diào)。若腎精虧虛,腎氣衰減,攝納無力,肺吸入之清氣不能下納于腎,則會出現(xiàn)氣短癥狀?!澳I藏精,精舍志”,腦的記憶主要由腎主司,若腎精不足,無法榮養(yǎng)腦髓,靈機失運,可見健忘癥狀。腎主水,腎氣對于水液代謝具有調(diào)節(jié)作用,腎氣虧虛,水失運化,日久生濕,阻滯經(jīng)脈,氣血運行不暢,可見下肢困重。腰膝酸軟、氣短、乏力、健忘、腿軟和下肢困重是 POP腎陽虛證的主要癥狀,隱變量Y2可以詮釋為腎陽虛情況。
圖2 隱樹模型M結構圖
隱變量Y5除直接影響身痛和背痛的出現(xiàn)及其輕重程度外,還通過隱變量Y6影響腰痛和遇寒痛甚的出現(xiàn)及其輕重程度。腎精不足,日久陽氣虧虛,氣的推動和溫煦功能減退,致使血行不暢,日久成瘀,瘀阻脈絡,不通則痛,可見身痛和背痛癥狀。腰為腎之府,腎中陽氣不足,溫煦失司,不能溫養(yǎng)腰府,故可見腰痛和遇寒痛甚。身痛、背痛、腰痛和遇寒痛甚是POP血瘀證的主要臨床癥狀,隱變量Y5可以詮釋為血瘀情況。
隱變量Y4影響著耳鳴、齒搖、下肢轉筋的出現(xiàn)及其輕重程度。腎開竅于耳,腎精不足,耳竅失養(yǎng),故見耳鳴;“腎主骨”,齒為骨之余,腎中精氣虧虛,骨骼失養(yǎng),可見齒搖和下肢轉筋。耳鳴、齒搖、下肢轉筋是POP腎精不足證的常見癥狀,隱變量Y4可以詮釋為腎精不足情況。
隱變量Y1所影響的癥狀可以詮釋為腎虛(兼有陽虛、腎精不足和血瘀)證候??梢赃@樣理解,對于40歲~65歲女性骨質疏松人群而言,腎虛是根本的病理基礎,不同的人群在此基礎上可能在陽虛、精氣不足和血瘀3個方面有所側重,故而在臨床癥狀表現(xiàn)上也有不同偏重或兼夾。隱變量Y1在某種程度上體現(xiàn)了40歲~65歲女性骨質疏松人群中醫(yī)證候的復雜性。
3.2.2 隱變量 Y7的詮釋 隱變量 Y7直接影響著畏寒、頭暈、納呆的出現(xiàn)及其輕重程度外,還通過隱變量Y8間接影響著失眠和多夢易驚的出現(xiàn)及其輕重程度。脾主運化,脾陽不足,運化失司,可見納呆;腎陽為一身陽氣之本,若腎陽虧虛、陽氣溫煦不足,可見畏寒;脾腎陽虛,氣血不能上榮頭竅,可見頭暈。心腎水火升降互濟,才能維持兩臟生理功能的協(xié)調(diào)平衡。若腎陰虧虛,陰不制陽,腎中虛火上擾心神,故見失眠和多夢易驚。畏寒、頭暈、納呆、失眠和多夢易驚等癥狀屬于陰虛和陽虛并見,故隱變量Y7可以詮釋為腎陰陽兩虛兼夾脾陽虛情況。
3.2.3 隱變量 Y9的詮釋 隱變量 Y9通過隱變量 Y10、Y11、Y12影響著相關癥狀,隱變量 Y10直接影響著惡熱、手足煩熱和盜汗的出現(xiàn)及其輕重程度,隱變量Y11直接影響著視物模糊和目睛干澀的出現(xiàn)及其輕重程度,隱變量Y12直接影響著便秘和脫發(fā)的出現(xiàn)及其輕重程度。腎陰虧虛、陰不制陽、陽熱之氣相對偏盛而生內(nèi)熱,可以出現(xiàn)惡熱、手足煩熱和盜汗癥狀。肝開竅于目,目受血而能視,“肝腎同源”,腎陰虧虛容易導致肝陰虧虛,目竅失養(yǎng),可見視物模糊和目睛干澀癥狀。“發(fā)為血之余”,肝主血,若肝陰血不足、頭發(fā)失養(yǎng),可見脫發(fā)癥狀。腎陰不足、陰液虧虛、腸道失潤可見便秘。惡熱、手足煩熱、盜汗、視物模糊、目睛干澀、便秘和脫發(fā)皆屬于POP肝腎陰虛的臨床表現(xiàn),因此隱變量Y9可以詮釋為肝腎陰虛情況。
3.2.4 隱變量Y13的詮釋 隱變量 Y13直接影響著尿頻和小便清長的出現(xiàn)及其輕重程度。腎陽虧虛,腎氣和膀胱之氣的固攝作用失常,致膀胱氣化失司、關門不利,可出現(xiàn)尿頻和小便清長的癥狀。隱變量Y13可以詮釋為腎陽虛影響膀胱氣化功能的情況。
就骨質疏松人群而言,隱樹模型M中的顯變量(軀體癥狀)所展現(xiàn)的隱變量與POP常見的腎虛、肝虛、陽虛、陰虛、血瘀等基本證候要素特點相吻合,病變部位以肝腎兩臟為主,病性以虛證為主兼見血瘀。
下面從兩個方面對模型M作定量解釋。一方面,模型明確規(guī)定隱變量的取值個數(shù);另一方面,模型用條件概率分布來定量刻畫變量之間的依賴關系。這里以模型M中隱變量Y5為例說明。Y5直接影響V25、V27的輕重程度,通過隱變量 Y6間接影響V26、V29的輕重程度。從定性分析的角度,可以把Y5解釋為血瘀證。在定量層面,Y5有2個不同取值,分別記為s0和s1,即按照 Y5這個隱變量,模型M把數(shù)據(jù)樣本對應的骨質疏松人群聚成2個大類。由于這些類不是直接觀察到的,因此稱為隱類,其特性可以通過類概率分布(class probability distribution)來刻畫。
例如,Y5與 V25和 V27的定量關系分別由條件概率分布P(V25|Y5)和P(V27|Y5)給出。各癥狀變量在Y5的2個不同取值下的條件概率分布情況見表1。就“身痛”癥狀具體而言,在Y5=s0這個類中,“沒有”、“偶爾有”、“時有時無”、“經(jīng)常有”、“總是有”身痛的人群比例大約分別為79%、18%、1%、2%和0%;而在Y5=s1這個類中,對應的人群比例分別為19%、40%、18%、19%和4%?!吧硗础痹陔[類Y5=s1這類人群中“偶爾有”、“時有時無”、“經(jīng)常有”、“總是有”的比例明顯偏高,而在隱類Y5=s0這類人群中“沒有”的比例偏高。
表1 隱變量Y5與相關癥狀的條件概率分布表
為直觀地展現(xiàn)隱類的特性,可以把上面的類概率分布數(shù)值用直方圖的形式展示。在類概率直方圖中,每個顯變量所對應的柱狀圖反映了其在相應隱類中的條件分布。柱狀圖中顏色由淺至深各段的長度分別對應于顯變量第1個狀態(tài)、第2個狀態(tài)、第3個狀態(tài)等等的條件概率大小。圖3給出模型M中隱變量Y5的2個類中,各癥狀顯變量的概率直方圖。圖中柱體分別表示在類Y5=s0、Y5=s1中,癥狀變量 V25、V27、V26和 V29的概率分布。很明顯,隱變量Y5取值隱類s1中的各個癥狀變量出現(xiàn)的程度要比隱類s0中的重,從中醫(yī)理論來講,可以解釋為血瘀證越重,則相應癥狀出現(xiàn)越多且程度越重。
圖3 隱變量Y5兩個隱類下各癥狀變量的概率直方圖
通過這樣的定量方法還可以對模型M中其他的隱變量進行一一分析。由此,可以刻畫人群處于隱變量下某個特定隱類時,或者說證候處于某個特定輕重程度時,相應癥狀出現(xiàn)的動態(tài)變化情況。
證素是對病變當前的位置與性質等本質所作的判斷,是辨證的基本要素[12]?!吨嗅t(yī)內(nèi)科常見病診療指南·西醫(yī)疾病部分》中指出,POP的基本病機是由于本虛,病位在骨,證屬本虛標實,以肝、脾、腎三臟虛弱,尤以腎虛為本、寒濕、血瘀為標[8]。導師開展的研究表明,POP的基本中醫(yī)證候要素為陰虛、陽虛、氣虛、氣滯、濕濁和血瘀[13]。這表明,運用隱樹模型進行POP中醫(yī)證候要素的分析結果是基本可靠的。隱樹模型提示,腎虛、陽虛、陰虛等證候要素只與部分癥狀變量直接相關,而不是與全部癥狀變量直接相關,而且不同證候要素影響不同的癥狀變量,這是符合中醫(yī)理論和臨床實際的。
4.2.1 聚類分析方法在中醫(yī)證候研究中的不足 中醫(yī)辨證是一個多維同時分類問題,聚類分析在原理上是建立客觀定量的辨證標準最自然的方法,但是現(xiàn)有的聚類方法是單維的,在處理中醫(yī)證候的多維性方面具有先天不足之處[1]。通過對骨質疏松人群進行多維聚類,得到的每一個類都是數(shù)據(jù)在某一特征上的反映,構建的隱樹模型可以顯示中醫(yī)證候的客觀性。通過分析模型中具有中醫(yī)辨證意義的隱變量或隱類,明確疾病證候要素;通過模型中相關顯變量的類概率分布可以了解癥狀對于相應證候要素的貢獻度[14]。隱樹分析方法可以從多維和定量的角度,彌補聚類分析在中醫(yī)證候研究方法上的先天不足。
4.2.2 現(xiàn)有隱樹模型算法在中醫(yī)證候研究中的局限性 隱樹模型分析所用的HSHC算法在數(shù)據(jù)變量處理上有一定的限制性要求,不宜將太多的變量納入分析,而且所要求的樣本量較大。本分析僅納入與POP常見證候相關的30個癥狀變量,樣本量為611例,模型M中有個別癥狀變量在證候歸類上與中醫(yī)理論存在一定的差異,部分癥狀變量在證候詮釋上比較困難,給模型解釋帶來一定的困難。可以認為,本研究建立的隱樹模型M是與611例骨質疏松人群數(shù)據(jù)最匹配的、最可靠的模型,但并非完美無缺,模型中所有隱變量反映出來的數(shù)據(jù)特征的中醫(yī)臨床意義,需要結合中醫(yī)理論和臨床專家經(jīng)驗來綜合考慮和判斷。這些問題有待今后通過改進模型算法和增大樣本量繼續(xù)深入研究。
[1] 張連文,袁世宏.隱結構模型與中醫(yī)辨證研究(I)——隱結構法的基本思想及隱結構分析工具[J].北京中醫(yī)藥大學學報,2006,29(6):365-369.
[2] 張連文,袁世宏,陳 弢,等.隱結構模型與中醫(yī)辨證研究(Ⅱ)——腎虛數(shù)據(jù)分析[J].北京中醫(yī)藥大學學報,2008,31(9):584-587.
[3] 袁世宏,張連文,陳 弢,等.隱結構模型與中醫(yī)辨證研究(Ⅲ)——模型辨證與專家辨證[J].北京中醫(yī)藥大學學報,2008,31(10):659-663.
[4] 朱云茵.原發(fā)性骨質疏松癥系統(tǒng)評價及中醫(yī)基本證候研究[D].北京:中國中醫(yī)科學院畢業(yè)論文,2005.
[5] 謝雁鳴,朱蕓茵,于 嘉.原發(fā)性骨質疏松癥中醫(yī)證候調(diào)查問卷信度與效度分析[J].中國中醫(yī)藥信息雜志,2006,13(12):21-23.
[6] 朱蕓茵,謝雁鳴.原發(fā)性骨質疏松癥中醫(yī)證候特征探析[J].亞太傳統(tǒng)醫(yī)藥,2006,2(2):54-57.
[7] 謝雁鳴,朱蕓茵,葛繼榮,等.基于臨床流行病學調(diào)查的原發(fā)性骨質疏松癥中醫(yī)基本證候研究[J].世界科學技術-中醫(yī)藥現(xiàn)代化,2007,9(2):38-44.
[8] 中華中醫(yī)藥學會.中醫(yī)內(nèi)科常見病診療指南·西醫(yī)疾病部分[G].北京:中國中醫(yī)藥出版社,2008:242-245.
[9] Zhang N L.Hierarchical latent class models for cluster analysis[J].Journal of Machine Learning Research,2004,5(6):697-723.
[10] Schwarz G.Estimating the dimension of a model[J].Annals of Statistics,1978,6(2):461-464.
[11] Zhang N,Kocka T.Efficient Learning of Hierarchical Latent Class Models[Z].Boca Raton,F(xiàn)lorida:2004585-593.
[12] 朱文鋒,張華敏.“證素”的基本特征[J].中國中醫(yī)基礎醫(yī)學雜志,2005,11(1):17-18.
[13] 謝雁鳴,朱蕓茵,葛繼榮,等.基于臨床流行病學調(diào)查的原發(fā)性骨質疏松癥中醫(yī)基本證候研究[J].世界科學技術-中醫(yī)藥現(xiàn)代化,2007,9(2):38-44.
[14] 王天芳,張連文,趙 燕,等.隱結構模型及其在中醫(yī)證候研究中的應用[J].北京中醫(yī)藥大學學報,2009,32(8):519-526.