張容容,邵明義,符 宇,趙瑞霞,王靖雯,李 蔓,趙云霞,邵范雷
(1. 河南中醫(yī)藥大學(xué)第一臨床醫(yī)學(xué)院 鄭州 450046;2. 河南中醫(yī)藥大學(xué)第一附屬醫(yī)院 鄭州 450000)
原發(fā)性肝癌是全球癌癥死亡的第三大原因[1]。研究表明,中國(guó)HCC 的發(fā)病率為35/10萬(wàn)人,嚴(yán)重威脅國(guó)民生命健康[2-3]?,F(xiàn)行的治療方法主要為手術(shù)切除、介入治療、局部治療、靶向治療、放化療、免疫治療等[4-5],但遠(yuǎn)期療效不盡人意。近年來(lái)隨著中醫(yī)理論與實(shí)踐的發(fā)展,中醫(yī)藥在原發(fā)性肝癌的治療方面取得了一定成效,主要體現(xiàn)在改善臨床癥狀、延長(zhǎng)生存期、降低不良反應(yīng)[6]等方面。
中醫(yī)以整體觀念和辨證論治為理論基礎(chǔ),證候是中醫(yī)藥認(rèn)識(shí)和防治疾病的核心,客觀化、標(biāo)準(zhǔn)化辨證分型是中醫(yī)臨床和科研的基礎(chǔ)[7]。近年來(lái),學(xué)術(shù)界對(duì)于證候標(biāo)準(zhǔn)化、客觀化的分類研究進(jìn)行了大量的探索,但原發(fā)性肝癌中醫(yī)證候分類及診斷標(biāo)準(zhǔn)尚無(wú)統(tǒng)一定論。故本研究通過(guò)收集真實(shí)世界原發(fā)性肝癌患者的四診信息,采用隱結(jié)構(gòu)法對(duì)無(wú)監(jiān)督癥狀數(shù)據(jù)進(jìn)行定量化分析,揭示隱藏的規(guī)律,指導(dǎo)辨證;通過(guò)因子分析及系統(tǒng)聚類分析進(jìn)行數(shù)據(jù)降維,實(shí)現(xiàn)變量的逐步分層分類,推斷潛在證候。不同分析方法互相補(bǔ)充、驗(yàn)證,為原發(fā)性中醫(yī)證候分類及證候標(biāo)準(zhǔn)的建立提供參考。
2015-2019 年在河南中醫(yī)藥大學(xué)第一附屬醫(yī)院、河南省中醫(yī)院住院的原發(fā)性肝癌患者。
原發(fā)性肝癌診斷標(biāo)準(zhǔn)參照《原發(fā)性肝癌診療規(guī)范》[8]。
①符合原發(fā)性肝癌的診斷;②年齡在18-80歲,性別不限;③自愿接受研究,并簽署知情同意書。
①中醫(yī)四診信息不全;②合并嚴(yán)重心功能不全、肝腎綜合征、神經(jīng)系統(tǒng)疾病、其他腫瘤、其他系統(tǒng)嚴(yán)重感染的患者等;③妊娠或哺乳期婦女及近期有妊娠計(jì)劃的患者;④神志不清、癡呆、各種精神疾病患者。
制定《原發(fā)性肝癌患者臨床四診信息采集表》,提取病歷中的四診信息。根據(jù)《中醫(yī)臨床診療術(shù)語(yǔ)》[9]并結(jié)合專家建議進(jìn)行數(shù)據(jù)規(guī)范化處理,將多詞一義的統(tǒng)一為一詞表達(dá)、將合并概念進(jìn)行拆分、將拆分概念詞組進(jìn)行合并、將修飾語(yǔ)及部位去掉,非專業(yè)中醫(yī)用語(yǔ)轉(zhuǎn)換為中醫(yī)專業(yè)診療術(shù)語(yǔ)等。
①將癥狀數(shù)據(jù)規(guī)范化后錄入,利用數(shù)據(jù)管理軟件Excel建立標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù);②錄入完成數(shù)據(jù)進(jìn)行交叉核查,無(wú)疑問(wèn)后鎖定數(shù)據(jù);③將中醫(yī)癥狀數(shù)據(jù)轉(zhuǎn)化為分析軟件能夠讀取的CSV 格式數(shù)據(jù),“0”代表無(wú)該癥狀,“1”代表存在該癥狀。
運(yùn)用Lantern5.0 軟件對(duì)原發(fā)性肝癌癥狀數(shù)據(jù)進(jìn)行雙步隱樹分析(LTM-EAST 算法),對(duì)頻次≥40 的癥狀進(jìn)行隱結(jié)構(gòu)模型構(gòu)建。以隱結(jié)構(gòu)模型圖直觀地顯示隱變量與顯變量的隱含關(guān)系,應(yīng)用互信息、信息覆蓋率量化隱變量與顯變量的關(guān)聯(lián)程度。采用貝葉斯信息準(zhǔn)則(BIC)評(píng)分評(píng)價(jià)模型。運(yùn)用SPSS 23.0進(jìn)行因子分析和系統(tǒng)聚類分析,探索性因子分析對(duì)收集的頻率>3%的癥狀進(jìn)行分析,對(duì)符合因子前提條件設(shè)為(KMO(Kaiser-Meyer-Olkin)>0.05,Bartlett 球形檢驗(yàn)P<0.01),公因子特征根>1;后對(duì)其進(jìn)行最大方差旋轉(zhuǎn),得出旋轉(zhuǎn)因子載荷矩陣,以因子分析得出的公因子為變量,進(jìn)行系統(tǒng)聚類分析,結(jié)合譜系圖及中醫(yī)專業(yè)知識(shí),對(duì)分析結(jié)果進(jìn)行詮釋。
納入1353 例原發(fā)性肝癌患者。患者平均年齡為57.48±10.43 歲;其中男性1109 例,平均年齡為56.39±10.43 歲;女性244 例,平均年齡為62.00±10.40 歲。共收集105 個(gè)癥狀,頻次≥40 的癥狀有59 個(gè),其中前10 位高頻癥狀為脈弦(965)、乏力(956)、納差(929)、舌苔白(906)、腹脹(653)、舌苔膩(643)、脅脹(649)、脘脹(645)、赤絲血縷(565)、腹部膨?。?38)。
原發(fā)性肝癌隱結(jié)構(gòu)整體模型共有24個(gè)隱變量,分別為Y0-Y23,共有50 個(gè)隱類,Y8、Y12 分別有3 個(gè)隱類,其余隱變量均有2個(gè)隱類,線條粗細(xì)代表節(jié)點(diǎn)間緊密程度。經(jīng)BIC評(píng)分,模型分?jǐn)?shù)為-29 911.46,見(jiàn)圖1。
圖1 整體模型圖
原發(fā)性肝癌隱結(jié)構(gòu)模型顯示,各顯變量被隱變量分成不同類別,隱變量與顯變量關(guān)聯(lián)程度用互信息表示。結(jié)合專業(yè)知識(shí),對(duì)隱變量從互信息、類概率分布等方面進(jìn)行分析。如表1所示,隱變量Y0包括面色萎黃、形體消瘦、失眠多夢(mèng)、頭暈4個(gè)顯變量,根據(jù)兩兩互信息重要性排序依次是失眠多夢(mèng)、形體消瘦、面色萎黃、頭暈,累積信息覆蓋率為100%。結(jié)合專業(yè)知識(shí),Y0 反映了氣虛的特點(diǎn)。Y0 分為2 個(gè)隱類S0 和S1,兩個(gè)隱類分別占總體人數(shù)的79%和21%。隱類S1 各癥狀出現(xiàn)概率均高于S0,如果定義Y0 的癥狀為氣虛,則隱類S1為氣虛人群。
表1 隱變量Y0類概率分布及信息覆蓋率
余隱變量模型詮釋同Y0。如隱變量Y1、Y3、Y10、Y15、Y23 也反映了氣虛證的不同側(cè)面,需要全面考慮這些變量信息?;诖耍ㄟ^(guò)Lantern 5.0 軟件對(duì)這些隱變量進(jìn)行綜合聚類,引入新的變量Z1并對(duì)其進(jìn)行模型詮釋。模型評(píng)分-7386.97,見(jiàn)圖2。Z1 包括面色萎黃、形體消瘦、頭暈、失眠多夢(mèng)、大便干結(jié)、大便溏薄、排便困難、惡心、嘔吐、納差、乏力、氣短懶言、面色黧黑、胸悶、脈沉。分析其發(fā)病機(jī)理為元?dú)獠蛔?,臟腑組織功能減退,故氣短懶言、乏力、納差、形體消瘦;脾胃氣虛,無(wú)力運(yùn)行,故大便干結(jié),運(yùn)化失調(diào),水谷不分,則大便溏?。黄⑽笟馓搫t氣機(jī)升降失調(diào),出現(xiàn)嘔吐、惡心;氣血生化不足,心失所養(yǎng),則失眠多夢(mèng);頭面失養(yǎng),故面色萎黃、頭暈。如圖3所示,氣短懶言、失眠多夢(mèng)、納差、形體消瘦、嘔吐、胸悶、乏力等的累積信息覆蓋率超過(guò)95%。如表2 所示,Z1 將人群分為S0 和S1,S0出現(xiàn)概率為67%,S1 出現(xiàn)概率為33%。S1 各癥狀出現(xiàn)概率均高于S0,可判定S1 為氣虛證人群,占總體人數(shù)的33%。分析結(jié)果可為原發(fā)性肝癌氣虛證診斷提供依據(jù),要考慮的癥狀按照重要性排序依次是氣短懶言、失眠多夢(mèng)、納差、形體消瘦、嘔吐、胸悶、乏力、頭暈、大便干結(jié)等。
表2 Z1類概率分布
圖2 Z1綜合聚類隱結(jié)構(gòu)模型圖
圖3 Z1信息曲線圖
余綜合聚類變量模型詮釋同Z1。綜合聚類模型見(jiàn)圖4(Z2-Z5),信息曲線見(jiàn)圖5(Z2-Z5),類概率分布見(jiàn)表3,中醫(yī)病機(jī)特點(diǎn)闡釋見(jiàn)表4。
表3 綜合聚類隱變量類概率分布
表4 綜合聚類結(jié)果分析
圖4 綜合聚類隱結(jié)構(gòu)模型(Z2-Z5)
圖5 綜合聚類隱變量互信息曲線(Z2-Z5)
對(duì)105 個(gè)中醫(yī)癥狀進(jìn)行篩選,選取頻率>3%的59 個(gè)癥狀信息進(jìn)行因子分析。KMO 為0.581>0.5,Bartlett 球形檢驗(yàn)統(tǒng)計(jì)量為23 711.032,相應(yīng)的概率P值為0,表明各變量間的獨(dú)立性假設(shè)被拒絕,變量高度相關(guān),適合做因子分析。
主成分分析共得到20個(gè)公因子,分別為:F1:腹部膨隆、脅下痞塊、面色晦暗、腹壁青筋、肢體水腫、小便短少、神疲;F2:反酸、燒心、喜嘆息、噯氣;F3:大便干結(jié)、排便困難;F4:脘脹、腹脹;F5:舌苔膩、舌苔厚;F6:腹痛、脘痛;F7:乏力、小便色黃、身目發(fā)黃、納差;F8:舌苔黃;F9:口苦、口燥咽干;F10:惡心、嘔吐;F11:舌質(zhì)淡、脈弱;F12:舌質(zhì)暗、舌質(zhì)青紫;F13:無(wú)或少苔、脈細(xì);F14:脈弦、情志不暢;F15:面色晦暗、脅脹、脅痛、赤絲血縷;F16:瘀斑舌、胖大舌;F17:氣短懶言、胸悶;F18:黑便、頭暈、脈弱;F19:神疲、面色萎黃;F20:失眠多夢(mèng)、大便溏薄、形體消瘦。對(duì)其進(jìn)行最大方差旋轉(zhuǎn),提取因子負(fù)荷值>0.3 的變量作為每個(gè)公因子的主要反應(yīng)指標(biāo)。對(duì)公因子進(jìn)行中醫(yī)證候要素分析。以因子分析中得到的公因子作為變量,通過(guò)系統(tǒng)聚類得到譜系圖(圖6),根據(jù)中醫(yī)專業(yè)知識(shí),取截距為12.5時(shí)獲取10類有意義組合,其證候分類見(jiàn)表5。
表5 因子分析與系統(tǒng)聚類結(jié)果
圖6 變量聚類分析譜系圖
隱結(jié)構(gòu)模型得到常見(jiàn)證候?yàn)椋簹馓撟C、肝郁氣滯證、血瘀證、水濕內(nèi)停證、肝膽濕熱證。因子分析結(jié)合系統(tǒng)聚類得到常見(jiàn)證候?yàn)椋核疂駜?nèi)停證、血瘀證、氣虛證、氣滯證、陰虛證、肝膽濕熱證、脾虛濕困證、熱證。隱結(jié)構(gòu)法、因子分析和系統(tǒng)聚類分析相互補(bǔ)充、相互驗(yàn)證,結(jié)合中醫(yī)專業(yè)知識(shí)及專家意見(jiàn),最終將原發(fā)性肝癌常見(jiàn)證候分為7類,具體分類及特征見(jiàn)表6。
表6 原發(fā)性肝癌常見(jiàn)證候及癥狀特征
原發(fā)性肝癌起源于肝細(xì)胞和膽管細(xì)胞,該病起病隱匿,發(fā)現(xiàn)時(shí)多屬于中晚期,疾病負(fù)擔(dān)較重[3]。中西醫(yī)結(jié)合是我國(guó)診治原發(fā)性肝癌的優(yōu)勢(shì)特點(diǎn)[10],中醫(yī)藥在原發(fā)性肝癌治療方面發(fā)揮著重要作用。中醫(yī)沒(méi)有“肝癌”病名,根據(jù)臨床癥狀將其歸于“積聚”、“黃疸”、“鼓脹”等范疇。中醫(yī)認(rèn)為,原發(fā)性肝癌的病機(jī)為本虛標(biāo)實(shí),以正氣不足為本,以氣滯、血瘀、濕熱、邪毒為標(biāo),加上飲食、情志因素,病情日久漸積成塊停于脅腹部所致。辨證論治是中醫(yī)藥診療的核心環(huán)節(jié),證候的規(guī)范化、標(biāo)準(zhǔn)化研究一直是中醫(yī)藥研究的熱點(diǎn)與難點(diǎn)。目前,原發(fā)性肝癌證候分類多見(jiàn)于指南和書本教材[8,11-12],部分指南和教材年代久遠(yuǎn),難以覆蓋原發(fā)性肝癌日益復(fù)雜的病情變化,且診斷標(biāo)準(zhǔn)多參考主癥和次癥,主觀性診斷較強(qiáng)。隱結(jié)構(gòu)法[13]、因子分析和系統(tǒng)聚類分析[14]均屬于無(wú)監(jiān)督學(xué)習(xí)方法,從癥狀入手,自下而上進(jìn)行證候判定研究。隱結(jié)構(gòu)模型以隱變量和顯變量之間特定關(guān)系的假設(shè)作為出發(fā)點(diǎn)[15],用概率這種量化數(shù)據(jù)來(lái)解釋癥狀和癥狀、證候和癥狀之間的關(guān)系,能夠合理、客觀地解釋中醫(yī)證候隱藏的知識(shí)并模擬中醫(yī)辨證論治的過(guò)程。因子分析[14]是一種用于數(shù)據(jù)簡(jiǎn)化和降維的多元統(tǒng)計(jì)分析方法,基于主成分分析,找到控制所有變量(癥狀)的公因子(證候),通過(guò)線性關(guān)系確定公因子與變量間關(guān)系。之后經(jīng)過(guò)系統(tǒng)聚類方法[16],按照距離遠(yuǎn)近將不同變量后聚成類,依次進(jìn)行,直到每個(gè)變量都?xì)w入合適的類中。不同方法結(jié)合可以反映不同的證候分析結(jié)果,同時(shí)也可以彌補(bǔ)其他方法的不足。
研究發(fā)現(xiàn),在分析單個(gè)隱變量過(guò)程中,并非所有隱變量下的顯變量都屬于同一證候要素,甚至可能是完全相反的證候要素,這與隱結(jié)構(gòu)模型的概率同現(xiàn)規(guī)律與概率互斥規(guī)律有關(guān)。概率同現(xiàn)規(guī)律是當(dāng)某隱變量有幾個(gè)不同隱類時(shí),不同隱類的癥狀出現(xiàn)概率同高或同低。概率互斥規(guī)律是當(dāng)某隱變量有幾個(gè)不同隱類時(shí),不同隱類的癥狀出現(xiàn)概率一高一低,該隱變量稱為歧義隱變量。如隱變量Y12中的舌苔白與舌苔黃、脈數(shù)、無(wú)或少苔就屬于概率互斥,在進(jìn)行綜合聚類時(shí),結(jié)合專業(yè)知識(shí)將舌苔白剔除。故建議在模型詮釋過(guò)程中全面考慮隱變量的確切含義再進(jìn)行綜合聚類分析。
本研究綜合分析隱結(jié)構(gòu)模型、因子分析和系統(tǒng)聚類分析結(jié)果,得出原發(fā)性肝癌的常見(jiàn)證候?yàn)闅馓撟C、肝郁氣滯證、血瘀證、水濕內(nèi)停證、陰虛證、肝膽濕熱證、脾虛濕困證。從研究結(jié)果可以看出,原發(fā)性肝癌證候復(fù)雜多樣,反映了肝癌臨床病情的復(fù)雜性。原發(fā)性肝癌病位類證候要素為肝膽、脾胃,與原發(fā)性肝癌患者臨床多出現(xiàn)脾胃系統(tǒng)癥狀相契合。病性類證候要素以“虛、濕、瘀”為主,兼有氣滯、熱邪。提示臨床治療應(yīng)以扶正為本,即益氣養(yǎng)血,同時(shí)注意顧護(hù)脾胃,健脾化濕,在此基礎(chǔ)上應(yīng)用清熱解毒、活血化瘀類藥物,從而達(dá)到扶正祛邪的目的。
本研究運(yùn)用隱結(jié)構(gòu)法、因子分析和系統(tǒng)聚類分析推斷出原發(fā)性肝癌潛在證候,分析歸納肝癌證候特征,具有一定客觀性。但在研究過(guò)程中,仍存在以下局限性:①該研究原發(fā)性肝癌患者數(shù)據(jù)僅來(lái)自于河南省內(nèi)的兩家中醫(yī)院,代表性受到限制;②該研究納入1353個(gè)病例,樣本量有限,且選取頻次≥40的癥狀進(jìn)入模型分析,可能會(huì)遺失重要癥狀信息;③采集的癥狀數(shù)據(jù)為電子病歷中記載信息,臨床醫(yī)生四診信息采集能力、病歷書寫能力參差不齊,研究者在數(shù)據(jù)采集過(guò)程中可能存在偏差;④由于模型詮釋和證候確定需要結(jié)合中醫(yī)專業(yè)知識(shí),受研究者不同理論知識(shí)水平的限制,存在一定主觀性。建議今后研究可采取前瞻性設(shè)計(jì)方法,制定統(tǒng)一的病歷書寫規(guī)范,研究者嚴(yán)格按照規(guī)范進(jìn)行四診信息收集,采集多中心臨床數(shù)據(jù),擴(kuò)大樣本量,提高模型辨證的準(zhǔn)確性。
綜上所述,本研究從真實(shí)世界無(wú)標(biāo)簽的原始數(shù)據(jù)出發(fā),揭示了癥狀之間隱藏的隱性知識(shí),研究結(jié)果較客觀地反映了原發(fā)性肝癌患者的實(shí)際情況,結(jié)論與中醫(yī)基礎(chǔ)理論基本吻合,可為原發(fā)性肝癌的辨證治療提供參考。
世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化2023年7期