姜榮榮,李娉婷,楊濤,3
(1.南京中醫(yī)藥大學(xué)護理學(xué)院,江蘇 南京 210023;2.南京中醫(yī)藥大學(xué)人工智能與信息與信息技術(shù)學(xué)院,江蘇 南京 210023;3.江蘇省中醫(yī)外用藥開發(fā)與應(yīng)用工程研究中心,江蘇 南京 210023)
中醫(yī)將心腦血管疾病稱之為心系疾病,由于發(fā)病率高、致殘率高和死亡率高,其已成為世界最大的公共衛(wèi)生問題[1,2]。中醫(yī)藥在心腦血管疾病診治方案具有一定的優(yōu)勢,特別是在慢病調(diào)理、疾病防治方面具有特色[3,4]。中醫(yī)臨床講求“四診合參、辨證論治”,即醫(yī)生通過“望聞問切”收集患者的臨床信息,通過中醫(yī)理論進行思辨,分析總結(jié)證候,并給出相應(yīng)的治療方案。其中“證”可以認為是針對“核心癥狀群”的抽象概念,把握了“核心癥狀群”就可以把握“證”的本質(zhì)[5]。由于心系疾病病種較多,病理演化復(fù)雜,臨床上往往出現(xiàn)多臟腑病變,表現(xiàn)極為復(fù)雜,給臨床診療帶來困難。迫切需要根據(jù)真實世界的臨床實際情況,分析總結(jié)心系疾病的核心癥狀群,進而更好地把握心系病證,為中醫(yī)臨床診療提供依據(jù)。當前,癥狀群研究已成為醫(yī)學(xué)界高度關(guān)注的熱點之一。國外學(xué)者Dodd 等較早提出了癥狀群研究,主要指2 個及2個以上的癥狀同時出現(xiàn)的情況[6]。之后學(xué)者們在腫瘤[7]、免疫系統(tǒng)疾病[8]、重大慢性疾病[9]等復(fù)雜性疾病方面進行了大量研究。國內(nèi)很多學(xué)者也圍繞疾病癥狀群進行了研究和探索[10-12]。大部分研究關(guān)注具體的癥狀群識別結(jié)果,較少有研究關(guān)注癥狀群識別的模式和方法。鑒于此,本研究提出利用無監(jiān)督學(xué)習(xí)[13]開展核心癥狀群提取研究,以心系疾病為例,實現(xiàn)相應(yīng)核心癥狀群的識別和提取,以期為心系疾病癥狀規(guī)律發(fā)現(xiàn)和臨床診療提供支撐。
1.1 數(shù)據(jù)來源 本研究的實驗數(shù)據(jù)來源于南京中醫(yī)藥大學(xué)第一附屬醫(yī)院/江蘇省中醫(yī)院、南京中醫(yī)藥大學(xué)國醫(yī)堂門診部、南京中醫(yī)藥大學(xué)玉承堂中醫(yī)門診部醫(yī)療機構(gòu)的病歷資料庫,搜集了2000-2020 年的心系疾病醫(yī)案,排除臨床表現(xiàn)描述過少、重要信息缺失的病案,最終共納入1741 診次心系病案。
1.2 方法 將聚類和主成分分析等無監(jiān)督學(xué)習(xí)方法[14,15]的思想融入核心癥狀群提取中,設(shè)計相應(yīng)的核心癥狀群提取方法,整個過程包括4 個核心步驟。將原始樣本進行數(shù)據(jù)清洗,對癥狀表述進行統(tǒng)一和規(guī)范;以行為不同病歷樣本,列為癥狀,將規(guī)范后的文本記錄轉(zhuǎn)化為0-1 矩陣數(shù)據(jù);采用離差標準化方法將數(shù)據(jù)轉(zhuǎn)化為[-1,1]內(nèi)的數(shù)值。采用輪廓系數(shù)法[16]確定最佳分類數(shù)目,利用K 均值對樣本進行分類。針對每一類樣本,分析不同主成分數(shù)目對應(yīng)的累計貢獻度,根據(jù)累計貢獻度閾值確定主成分數(shù)目。提取每一類樣本的主成分,并根據(jù)載荷系數(shù)閾值篩選癥狀群,并根據(jù)中醫(yī)理論對癥狀群進行分析,見圖1。
圖1 核心癥狀群提取流程
2.1 樣本聚類
2.1.1 輪廓系數(shù)變化情況 對樣本進行輪廓系數(shù)分析,當聚類簇的數(shù)目增大時,輪廓系數(shù)呈現(xiàn)先增大,后減小并在一定范圍內(nèi)波動的情況。當簇的個數(shù)為3 時,輪廓系數(shù)最大,見圖2。
圖2 輪廓系數(shù)變化情況
2.1.2 輪廓系數(shù)和樣本分布 設(shè)定聚類數(shù)目為3,利用K 均值聚類算法對樣本進行聚類,樣本被自動分成3 類,其中,每一類包含的樣本數(shù)分別為566 例、549 例和626 例。聚類輪廓系數(shù)分布見圖3a,每一類樣本在二維空間上的分布情況見圖3b,從圖中可以看出,樣本在二維空間上的分布較為雜亂,根據(jù)輪廓系數(shù)可以將樣本進行有效分類,但仍存在同一類別下樣本輪廓系數(shù)差異較大,其中輪廓系數(shù)較小的樣本往往處于類別交接處。
圖3 輪廓系數(shù)和樣本分布
2.2 核心癥狀群提取
2.2.1 主成分累計貢獻 對每一類數(shù)據(jù)進行主成分數(shù)目探查,見圖4。以0.7 作為累計貢獻閾值,最終得到第一類主成分數(shù)目為14(對應(yīng)的累計貢獻率為0.7014),第二類為10(對應(yīng)的累計貢獻率為0.7000),第三類為13(對應(yīng)的累計貢獻率為0.7086)。按照主成分數(shù)目探查結(jié)果,設(shè)定合適的主成分數(shù)目,并進行主成分分析,提取主成分載荷矩陣。
圖4 主成分累計貢獻
2.2.2 核心癥狀群 癥狀的載荷系數(shù)越大,其對相應(yīng)主成分的影響越大(重要性越高)。設(shè)定載荷系數(shù)閾值為0.8,提取所有大于等于該閾值的癥狀,最終得到核心癥狀群,其中括號內(nèi)的數(shù)值為癥狀對應(yīng)主成分的載荷系數(shù)?!邦悇e1”共提取了14 個主成分(見表1),癥狀數(shù)量最多的為5 個,最少為1 個,其中F2、F7 對應(yīng)的癥狀均為“下肢浮腫(1.00)”?!邦悇e2”共提取了10 個主成分(見表2),癥狀數(shù)量最多的為3 個,最少為1 個。“類別3”共提取了13 個主成分(見表3),癥狀數(shù)量最多的為2 個,最少為1 個。
表1 “類別1”的核心癥狀群
表2 “類別2”的核心癥狀群
表3 “類別3”的核心癥狀群
“類別1”是心氣虛證和心陽虛證對應(yīng)的核心癥狀群,F(xiàn)11“[胸痛(1.00),心悸(0.99),氣喘(0.94),脈弦(0.93),動則尤甚(0.83)]”是一個較為典型的心氣虛證的表現(xiàn),其他諸如F1、F2[F7]、F3、F4、F6、F10 等是較為典型的心陽虛證的表現(xiàn)。F5、F8、F9、F12、F13、F14 是心氣虛證或者心陽虛證經(jīng)常伴隨出現(xiàn)的次要癥狀。心氣虛證和心陽虛證在中醫(yī)理論上是非常接近的證型,僅僅是病情輕重的差別,心氣虛證可以進步一發(fā)展為心陽虛證。“類別2”是心脾氣虛證對應(yīng)的核心癥狀群,氣虛會出現(xiàn)神疲、乏力、胸悶、頭暈等癥狀,進一步影響到心脾會出現(xiàn)失眠、納呆等癥狀?!邦悇e3”是心火亢盛證對應(yīng)的核心癥狀群,心火亢盛會出現(xiàn)心悸、胸痛、胸悶、失眠、舌紅、苔黃、脈弦等癥狀,心火亢盛,上沖腦絡(luò),會出現(xiàn)頭暈等癥。癥狀群能夠基本反映常見心系病證的特點,可以為臨床中醫(yī)病證的規(guī)律總結(jié)提供客觀依據(jù)。