楊曉南,趙鐵牛,王泓午
(1天津市紅橋區(qū)中醫(yī)醫(yī)院,天津 300131;2天津中醫(yī)藥大學(xué),天津 301617)
糖尿病是一種因胰島素分泌缺陷或胰島素作用受損引發(fā)糖、脂肪和蛋白質(zhì)代謝紊亂的代謝性疾病,其臨床特征是患者血糖持續(xù)性增高、多飲、多尿、多食及消瘦,導(dǎo)致患者器官和組織受損,危害患者健康。調(diào)查表明,中國糖尿病患病率已經(jīng)達(dá)到10.4%[1]。與西醫(yī)治療糖尿病的藥物常伴不同程度的副作用相比較而言,中醫(yī)藥在辨證論治基礎(chǔ)上指導(dǎo)糖尿病正確選方用藥,更具有獨(dú)特的優(yōu)勢。但2型糖尿病的辨證標(biāo)準(zhǔn)不統(tǒng)一和證候術(shù)語欠規(guī)范等問題卻在一定程度上給2型糖尿病的診治帶來一定的難度。近年來,數(shù)據(jù)挖掘方法在2型糖尿病證候研究中的運(yùn)用越來越廣泛。研究者運(yùn)用數(shù)據(jù)挖掘方法從大量的數(shù)據(jù)資料中挖掘規(guī)律和蘊(yùn)藏的有價(jià)值信息,有助于總結(jié)糖尿病證候特征和規(guī)律?,F(xiàn)將有關(guān)2型糖尿病證候數(shù)據(jù)挖掘的文獻(xiàn)歸納如下。
數(shù)據(jù)挖掘是應(yīng)用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和模式識別等學(xué)科的知識,從已經(jīng)存在的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中,補(bǔ)齊不完整的數(shù)據(jù),在模糊和隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們以往需要依賴經(jīng)驗(yàn)才能體會的信息和知識的過程[2]。數(shù)據(jù)挖掘的特征是在沒有明確假設(shè)的前提下去挖掘信息和發(fā)現(xiàn)知識。其優(yōu)勢在于數(shù)據(jù)挖掘的過程中,根據(jù)研究目的進(jìn)行多角度分析,利用科學(xué)且系統(tǒng)化的歸類要求對原本混亂的數(shù)據(jù)庫信息進(jìn)行整合和深層次分析,透過數(shù)據(jù)表面現(xiàn)象挖掘數(shù)據(jù)的本質(zhì)。
數(shù)據(jù)挖掘方法在糖尿病證候研究中有很好的應(yīng)用前景。糖尿病四診信息數(shù)據(jù)包括病因、四診信息、舌診、脈診和實(shí)驗(yàn)室檢查等數(shù)據(jù),可以來源于臨床流行病學(xué)調(diào)查,也可以間接來源于電子病歷和實(shí)驗(yàn)室檢查結(jié)果,這些數(shù)據(jù)與糖尿病證候診斷密切相關(guān)。糖尿病具有病因復(fù)雜、體征和癥狀指標(biāo)較多、危險(xiǎn)因素多的特點(diǎn),調(diào)查數(shù)據(jù)有二分類、多分類數(shù)據(jù)和定量數(shù)據(jù),研究者利用數(shù)據(jù)挖掘技術(shù)強(qiáng)大的處理能力和適用性好的特性,結(jié)合糖尿病四診信息數(shù)據(jù)和實(shí)驗(yàn)室指標(biāo),通過數(shù)據(jù)挖掘辨別證候與癥狀的關(guān)系,歸納糖尿病的辨證規(guī)律,有助于豐富中醫(yī)理論,提高糖尿病證候診斷的準(zhǔn)確率,促進(jìn)中醫(yī)藥產(chǎn)業(yè)化和國際化[3]。
3.1 Logistic回歸分析 logistic回歸分析是一種概率模型方法,結(jié)果變量要求二分類或多項(xiàng)分類,廣泛應(yīng)用于中醫(yī)證候調(diào)查橫斷面研究和隨訪研究。張倩采用Logistic回歸分析糖尿病周圍神經(jīng)病變患者,發(fā)現(xiàn)陰陽兩虛證的危險(xiǎn)因素是年齡、周圍神經(jīng)癥狀、病程和舒張壓[4]。張倩采用Logistic回歸分析糖尿病周圍神經(jīng)病變患者,發(fā)現(xiàn)陰虛血瘀證與糖化血紅蛋白相關(guān),陽虛血瘀證與尿白蛋白排泄率相關(guān);陰虛風(fēng)動證與血清總膽固醇和血肌酐相關(guān);痰瘀滯絡(luò)證與血肌酐相關(guān)[5]。范譯丹采用Logistic回歸分析2型糖尿病患者合并非酒精性脂肪肝患者,發(fā)現(xiàn)肝腎陰虛證與三酰甘油和體質(zhì)指數(shù)相關(guān),氣陰兩虛兼瘀證與三酰甘油相關(guān)[6]。Logistic回歸的優(yōu)點(diǎn)對自變量類型不做要求、系數(shù)的可解釋性等;其缺點(diǎn)是當(dāng)樣本含量過少時(shí),估計(jì)的方程不穩(wěn)定,結(jié)果無法解釋;也會出現(xiàn)擬合過度的問題,適用于大樣本的中醫(yī)證候臨行病學(xué)調(diào)查資料。
3.2 因子分析 因子分析是由英國心理學(xué)家C.E.Spearman提出,以指標(biāo)間的相關(guān)矩陣為基礎(chǔ),探索支配多個(gè)指標(biāo)相關(guān)關(guān)系的有限個(gè)潛在因子的一種非線性多元統(tǒng)計(jì)分析方法,是高維度數(shù)據(jù)降維的一種統(tǒng)計(jì)分析方法。因子分析找到能準(zhǔn)確反映2型糖尿病癥狀的潛在因子,將每個(gè)因子歸納為某一證候因素,具有指導(dǎo)臨床實(shí)踐的價(jià)值。而證候要素是通過辨識證候的病位和病性,來確定證名的基本要素[7]。目前,2型糖尿病尚未形成統(tǒng)一的證候要素共識,多數(shù)學(xué)者借助因子分析來提取2型糖尿病證候的要素。王佳笑采用因子分析對2型糖尿病合并高血壓病患者的癥狀進(jìn)行分析,提取7個(gè)病性要素:氣虛、陰虛、陽虛、血瘀、陽亢、濕痰和熱盛[8]。龔燕冰采用因子分析對2型糖尿病患者的癥狀進(jìn)行分析,提取出6個(gè)病性要素:陰虛、氣虛、血瘀、濕熱、熱盛和氣滯,病位為肝、脾、腎[9]。孟慶揚(yáng)采用因子分析對2型糖尿病合并血脂異?;颊叩陌Y狀進(jìn)行分析,提取出4個(gè)病性要素:陰虛、陽虛、氣虛、痰,病位為腎、肝和脾[10]。齊方洲采用因子分析對糖尿病早期微血管病變患者的癥狀進(jìn)行分析,提取出11個(gè)病性證素:氣虛、陰虛、陽虛、熱、濕、燥、血瘀、氣滯、氣郁、氣逆和血虛,病位為腎、肝、脾、肺和胃[11]。曹晶晶采用因子分析對糖尿病視網(wǎng)膜病變患者的癥狀進(jìn)行分析,提取10種病性要素:陰虛、氣虛、血瘀、陽虛、痰、血虛、精虧、氣滯、濕和熱[12]。趙靈燕采用因子分析糖尿病患者中醫(yī)四診信息,提取出陽虛證、陰虛證和氣虛證[13]。歸納出2型糖尿病的證候要素以陰虛為本,燥熱為標(biāo),虛證表現(xiàn)氣虛、血虛、陰虛和陽虛4種類型,實(shí)證表現(xiàn)為血熱、血瘀、火旺和濕熱??梢钥闯觯蜃臃治龅膬?yōu)點(diǎn)是根據(jù)糖尿病的原始指標(biāo)的信息進(jìn)行重新組合,找出影響變量的共同因子,并通過旋轉(zhuǎn)使得因子更具有可解釋性,對應(yīng)于某一證候;其缺點(diǎn)是易出現(xiàn)估計(jì)方法選擇不當(dāng),導(dǎo)致估計(jì)結(jié)果失真。
3.3 聚類分析 聚類分析根據(jù)物以類聚的原理,將本身沒有類別的數(shù)據(jù)聚集成不同的類別,將性質(zhì)相近的事物歸為一類,將性質(zhì)差別較大的歸入不同的類,并對每一個(gè)這樣的類進(jìn)行描述的一種統(tǒng)計(jì)方法。因此,聚到同一個(gè)組中的樣本應(yīng)該彼此相似,而屬于不同組的樣本應(yīng)該足夠不相似。組內(nèi)的相似性越大,組間差別越大,聚類就越好。在證候研究中,聚類分析可對疾病的癥狀和體征等信息進(jìn)行統(tǒng)計(jì)學(xué)分析,客觀地進(jìn)行分類。采用聚類分析探索2型糖尿病證候,從數(shù)據(jù)中挖掘出其自然類別,依據(jù)各個(gè)指標(biāo)之間的相關(guān)系數(shù),建立有統(tǒng)計(jì)學(xué)依據(jù)的證候關(guān)聯(lián),把高度的同質(zhì)性一組癥狀和體征聚為一類。目前,采用聚類分析對2型糖尿病證候規(guī)律分析方面取得一些共識。鞏璇采用聚類分析對2型糖尿病患者進(jìn)行聚類,聚為脾腎氣虛證、陰虛熱盛證、肝腎陰虛證、陽虛血瘀證和氣陰兩虛夾痰濕證[14]。牟新采用聚類分析對2型糖尿病患者進(jìn)行聚類,聚為痰瘀化火證、氣陰兩虛夾瘀證、肝胃火盛證、腎陽虛證和肝氣郁滯證[15]。張志龍采用聚類分析對2型糖尿病患者進(jìn)行聚類,聚為痰濕血瘀證、陰陽兩虛證、血瘀水停證、氣陰兩虛證、脾虛濕盛證和陰虛熱盛證[16]。楊江成采用聚類分析對2型糖尿病患者進(jìn)行聚類,聚為氣虛證、陽虛證和陽虛水泛證[17]。孟慶揚(yáng)采用聚類分析對2型糖尿病合并血脂異?;颊哌M(jìn)行聚類,聚為腎陽氣虛證、肝腎陰虛夾濕熱證、胃氣滯證、脾腎陰陽兩虛夾心氣血虛證和氣滯血瘀證[10]。張錦明采用聚類分析對2型糖尿病患者進(jìn)行聚類,聚為氣虛證、陰虛證、血瘀證、濕證和熱證[18]。林蘭采用聚類分析對2型糖尿病患者進(jìn)行聚類,聚為陰虛熱盛證、氣陰兩虛證、陰陽兩虛證、濕熱證、痰濕證、血瘀證和氣滯證[19]。周迪夷采用聚類分析對2型糖尿病患者的癥狀進(jìn)行聚類,聚為氣虛證、陰虛證、氣陰兩虛證、陰陽兩虛證、血瘀證、濕熱證和郁熱證[20]。聚類分析可以為2型糖尿病證候的分類提供客觀依據(jù),具有一定的可行性及科學(xué)性。聚類分析的優(yōu)點(diǎn)是直觀、結(jié)論形式簡明;其缺點(diǎn)是樣本量較大時(shí),要獲得聚類結(jié)論有一定困難,無法準(zhǔn)確對應(yīng)于某一證候。
3.4 決策樹 決策樹是一種以樹結(jié)構(gòu)形式表達(dá)進(jìn)行預(yù)測的數(shù)據(jù)挖掘方法,是證候的量化與客觀化研究的數(shù)據(jù)挖掘工具之一。結(jié)點(diǎn)有兩種類型:根結(jié)點(diǎn)和葉節(jié)點(diǎn)。通過從根結(jié)點(diǎn)一直到達(dá)葉子結(jié)點(diǎn)的路徑轉(zhuǎn)換,生成簡單易懂的分類規(guī)則。趙靈燕采用決策樹對2型糖尿病檢測指標(biāo)數(shù)據(jù)進(jìn)行分析,提取出痰濁證的核心指標(biāo)是尿素氮、白細(xì)胞、平均紅細(xì)胞體積、超敏C反應(yīng)蛋白、紅細(xì)胞和甲狀腺素,建立了痰濁證決策樹模型,其靈敏度為75.47%、特異度為76.22%,正確率為75.90%[21]。采用決策樹分析2型糖尿病痰濁證的檢測指標(biāo),有利于2型糖尿病證候客觀化研究。決策樹的優(yōu)點(diǎn)是能快速地學(xué)習(xí)證候特征,分類準(zhǔn)確率高;訓(xùn)練集數(shù)據(jù)量較大的情況下,決策樹模型效率較高,穩(wěn)定性好。其缺點(diǎn)是容易過度擬合問題,忽略屬性之間的相關(guān)性。
3.5 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則是一種挖掘隱藏在數(shù)據(jù)集中的不同事件之間的關(guān)聯(lián)和相關(guān)性。如果兩項(xiàng)或多項(xiàng)事件之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性可以依靠其他屬性值進(jìn)行預(yù)測。關(guān)聯(lián)規(guī)則是用來分析癥狀之間的關(guān)系,以支持度與置信度來量化高頻癥狀之間的相互關(guān)系,并作為一組關(guān)鍵癥狀組合來評判糖尿病。趙艷青采用關(guān)聯(lián)規(guī)則挖掘出2型糖尿病15組癥狀群,如口渴喜飲—視物昏花—五心煩熱—目睛干澀,五心煩熱—?dú)舛虘醒浴诟裳试锏?,癥狀與脈象組合如睛干澀—脈細(xì)澀,五心煩熱—脈細(xì)數(shù),癥狀與舌象組合如氣短懶言—舌胖。采用關(guān)聯(lián)規(guī)則辨識糖尿病中醫(yī)證候,為糖尿病的中醫(yī)證候分型提供了一種新的研究思路[22]??梢钥闯?,關(guān)聯(lián)規(guī)則的優(yōu)點(diǎn)是可以產(chǎn)生清晰有用的結(jié)果;其缺點(diǎn)關(guān)聯(lián)分析輸出的規(guī)則數(shù)量較多,且多數(shù)并無利用價(jià)值,給關(guān)聯(lián)規(guī)則的解釋帶來難度。
3.6 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)以神經(jīng)元為運(yùn)算單位,模擬生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與功能的特點(diǎn),建立算法數(shù)學(xué)模型對分布式數(shù)據(jù)并行信息進(jìn)行處理,完成對信息的加工與處理的一種統(tǒng)計(jì)方法。人工神經(jīng)網(wǎng)絡(luò)有強(qiáng)大的非線性處理能力,采用合適的學(xué)習(xí)算法,對糖尿病四診信息數(shù)據(jù)進(jìn)行準(zhǔn)確地處理,達(dá)到糖尿病證候診斷的目的。近年來,人工神經(jīng)網(wǎng)絡(luò)預(yù)測2型糖尿病證候是人工智能發(fā)展的新趨勢,被廣泛應(yīng)用于糖尿病證候數(shù)據(jù)分析中。采用神經(jīng)網(wǎng)絡(luò)建立糖尿病診斷預(yù)測模型,可以輔助診斷糖尿病。吳燎采用BP神經(jīng)網(wǎng)絡(luò)對糖尿病患者的癥狀分析,構(gòu)建糖尿病診斷預(yù)測模型,正確率達(dá)到95%[23]??梢钥闯觯斯ど窠?jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是具有容錯性和自組織性,可學(xué)習(xí)和自適應(yīng)不知道或不確定的數(shù)據(jù),能夠同時(shí)處理定量和定性數(shù)據(jù);其缺點(diǎn)是把一切問題的特征都變?yōu)閿?shù)字,把一切推理都變?yōu)閿?shù)值計(jì)算,其結(jié)果易丟失信息;輸出結(jié)果難以解釋,會影響到結(jié)果的可信度和可接受程度。
3.7 結(jié)構(gòu)方程模型 采用結(jié)構(gòu)方程模型研究糖尿病證候,把證候看成潛在變量,四診信息看成外顯變量,建立糖尿病證候的預(yù)測模型,衡量證候與癥狀的關(guān)系,有助于指導(dǎo)糖尿病證候診斷。柴可夫采用結(jié)構(gòu)方程模型對糖尿病早期微血管病變患者的四診信息進(jìn)行分析,構(gòu)建了氣陰兩虛證、肝腎陰虛證、濕熱困脾證、陰陽兩虛證、脾腎陽虛證和脾虛氣滯證模型。其中氣陰兩虛證的癥狀有氣短、心悸、自汗、少氣懶言、困倦乏力、視物模糊、兩目干澀、盜汗、潮熱、烘熱、顴紅、手足心熱和大便干結(jié)[24]??悑I采用結(jié)構(gòu)方程模型構(gòu)建病位證素組合的模型,發(fā)現(xiàn)肝脾兩臟關(guān)系最為密切,脾腎其次,再者肝腎、肝胃、腎胃;陰虛與實(shí)熱相關(guān)性最高[25]。楊曉南采用結(jié)構(gòu)方程模型構(gòu)建2型糖尿病氣陰虧虛證和四診信息的模型,氣陰虧虛證的癥狀有神疲、四肢乏力、胸悶、自汗、咽干、面色蒼白、口干、神疲、舌淡紅和脈弱。結(jié)構(gòu)方程模型可以分析證候與癥狀的關(guān)系,為2型糖尿病證候分析提供了客觀依據(jù)[26]。結(jié)構(gòu)方程模型的優(yōu)點(diǎn)是允許自變量和因變量存在測量誤差,可提供總體模型檢驗(yàn)和獨(dú)立參數(shù)估計(jì)檢驗(yàn),可處理變量的多重相互關(guān)系;其缺點(diǎn)是由于假設(shè)誤差項(xiàng)不相關(guān),導(dǎo)致結(jié)果不能如實(shí)反映實(shí)際情況。
3.8 貝葉斯網(wǎng)絡(luò) 貝葉斯網(wǎng)絡(luò)是一種基于概率推理的圖形化網(wǎng)絡(luò)的統(tǒng)計(jì)分析方法。它包括網(wǎng)絡(luò)結(jié)構(gòu)和概率推理兩部分,用概率測度的權(quán)重表達(dá)變量間的相互關(guān)系。貝葉斯網(wǎng)絡(luò)是由一個(gè)節(jié)點(diǎn)集合和一個(gè)節(jié)點(diǎn)間的有向邊集合組成的有向無環(huán)圖,能將不確定的信息進(jìn)行學(xué)習(xí)和推理,有助于辨識證候。龔燕冰采用貝葉斯網(wǎng)絡(luò)分析2型糖尿病合并腦病、腎病、高血壓病患者,發(fā)現(xiàn)2型糖尿病合并高血壓病,空腹血糖、餐后2 h血糖和糖化血紅蛋白異常者陰虛為主;2型糖尿病合并腦病,空腹血糖、餐后2 h血糖異常以氣虛為主;2型糖尿病合并腎病,空腹血糖異常者以陽虛為主[27]。龔燕冰采用貝葉斯網(wǎng)絡(luò)分析2型糖尿病患者,發(fā)現(xiàn)空腹血糖異常的患者以陰虛熱盛多見,餐后2 h血糖異常的患者以陰虛多見,糖化血紅蛋白異常的患者以陰虛熱盛多見,血脂異常者以氣虛為主,血壓異常者伴見血瘀[28]。劉瑜采用貝葉斯網(wǎng)絡(luò)分析2型糖尿病合并脂代謝紊亂病歷,發(fā)現(xiàn)濕痰、血瘀貫穿2型糖尿病合并脂代謝紊亂始終,主要方劑有丹參飲、玉女煎、生脈散和六味地黃湯[29]。貝葉斯網(wǎng)絡(luò)可以揭示癥狀與證候間的復(fù)雜關(guān)系,有助于早期診斷2型糖尿病。可以看出,貝葉斯網(wǎng)絡(luò)的優(yōu)點(diǎn)是具有方向性,用簡明的圖形方式定性的表示事件之間復(fù)雜的因果關(guān)系,比較適合于解決中醫(yī)診斷問題;其缺點(diǎn)是在屬性之間相關(guān)性較大時(shí),分類效果不好。
3.9 支持向量機(jī) 支持向量機(jī)是以達(dá)到結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,通過將非線性數(shù)據(jù)賦予高維特征性,構(gòu)造出最優(yōu)分類超平面的一種統(tǒng)計(jì)方法。闞紅星采用支持向量機(jī)識別2型糖尿病氣陰兩虛夾瘀證的舌圖像,其靈敏度為93.85%,特異度為62.79%,正確率為79.63%[30]。說明采用支持向量機(jī)法分類識別舌圖像,有助于診斷患者中醫(yī)證型。支持向量機(jī)的優(yōu)點(diǎn)是在小樣本高維數(shù)據(jù)上具有分類精度高的特點(diǎn),解決二分類識別問題,可有效彌補(bǔ)傳統(tǒng)算法中維數(shù)過多的缺陷;其缺點(diǎn)是容易出現(xiàn)過擬合問題,對缺失數(shù)據(jù)敏感。支持向量機(jī)用于解決小樣本、非線性及高維模式識別的問題。
近幾年,中國2型糖尿病具有病因復(fù)雜和危險(xiǎn)因素多的特點(diǎn),其患病率呈現(xiàn)逐年增高的趨勢。中醫(yī)藥在治療糖尿病患者方面發(fā)揮了重要作用,中醫(yī)臨床醫(yī)生和科研人員以全新的視角利用數(shù)據(jù)挖掘方法分析糖尿病癥狀與證候、實(shí)驗(yàn)室與證候指標(biāo)之間的關(guān)系,分析糖尿病證候與癥狀之間的關(guān)聯(lián),揭示糖尿病數(shù)據(jù)蘊(yùn)藏的規(guī)律,尤為重要。目前,盡管存在2型糖尿病的辨證標(biāo)準(zhǔn)不統(tǒng)一和證候術(shù)語欠規(guī)范等諸多問題,很多學(xué)者已經(jīng)達(dá)成2型糖尿病的證候特征研究的共識。2型糖尿病的虛證表現(xiàn)氣虛、血虛、陰虛和陽虛,實(shí)證表現(xiàn)為血熱、血瘀、火旺和濕熱,主要包括肺熱津傷證、胃熱熾盛證、氣陰兩虛證、腎陽氣虛證、氣虛證、痰濕證、血瘀證、腎陰虧虛證和陰陽兩虛證等常見證型。學(xué)者以中醫(yī)理論為基礎(chǔ),采用數(shù)據(jù)挖掘技術(shù)分析2型糖尿病的證候特征,以客觀數(shù)據(jù)的形式輔助醫(yī)生進(jìn)行糖尿病證候識別,為臨床醫(yī)生診療服務(wù)提供了科學(xué)依據(jù),從而提高糖尿病證候診斷的準(zhǔn)確性和客觀性,促進(jìn)現(xiàn)代醫(yī)學(xué)和中醫(yī)學(xué)有效融合,有助于2型糖尿病證候研究規(guī)范化和科學(xué)化,為其他疾病證候研究提供了新的思路。