李禎江國星*馮毅范嘉豪楊宏志張威
慢性阻塞性肺疾病的中醫(yī)智能診療研究
李禎1,江國星1*,馮毅2,范嘉豪1,楊宏志2,3,張威3
1.華中科技大學(xué)電子信息與通信學(xué)院,湖北 武漢 430074;2.湖北省中醫(yī)院,湖北 武漢 430000;3.湖北中醫(yī)藥大學(xué),湖北 武漢 430000
探討深度學(xué)習(xí)在慢性阻塞性肺疾病證型預(yù)測和藥物推薦中的應(yīng)用。從真實(shí)診療數(shù)據(jù)中提取癥狀、證型、藥物信息并做預(yù)處理,使用Fisher特征選擇算法篩選與證型相關(guān)性較強(qiáng)的癥狀作為4層深度前饋網(wǎng)絡(luò)的輸入進(jìn)行中醫(yī)證型預(yù)測。將藥物推薦分為典型藥物推薦和補(bǔ)充藥物推薦,利用頻數(shù)分析和粒子群優(yōu)化(PSO)算法-反向傳播(BP)算法構(gòu)建各證型的典型藥物推薦模型,通過挖掘關(guān)聯(lián)規(guī)則完成補(bǔ)充藥物推薦。最后通過相應(yīng)指標(biāo)分別對證型預(yù)測、藥物推薦結(jié)果進(jìn)行評價(jià)。對 2 232條COPD患者數(shù)據(jù)的9種中醫(yī)證型分類準(zhǔn)確率達(dá)到82.39%。對于外寒內(nèi)飲證,基于233種藥物的典型藥物推薦結(jié)果的均方誤差(MSE)為0.009 1,平均絕對誤差(MAE)為0.087 9。設(shè)置最小支持度0.2、最小置信度0.9,挖掘到關(guān)聯(lián)規(guī)則261條,用于補(bǔ)充藥物推薦。實(shí)驗(yàn)和實(shí)際使用結(jié)果表明,本研究提出的基于深度前饋網(wǎng)絡(luò)的證型分類算法、基于頻數(shù)分析和PSO-BP網(wǎng)絡(luò)的藥物推薦算法較好地完成COPD患者的證型預(yù)測及藥物推薦,具有較好的智能診療效果。
慢性阻塞性肺疾?。蛔C型分類;中醫(yī)藥推薦;算法;PSO-BP網(wǎng)絡(luò)
慢性阻塞性肺疾?。╟hronic obstructive pulmonary disease,COPD)是一種以持續(xù)性的氣流受限為特征的阻塞性肺疾病,其較高的致殘率、病死率,對患者家庭及社會造成了沉重的負(fù)擔(dān)。中醫(yī)治療強(qiáng)調(diào)整體觀,具有療效明確、不良反應(yīng)小的優(yōu)勢,規(guī)范的COPD中醫(yī)藥臨床診療是延緩疾病發(fā)展、降低疾病負(fù)擔(dān)的關(guān)鍵。
傳統(tǒng)的COPD中醫(yī)藥診療依賴于醫(yī)生的知識經(jīng)驗(yàn),目前我國COPD患者基數(shù)大,根據(jù)2015年人口普查數(shù)據(jù)估算,我國COPD患者約為9 990萬例,醫(yī)生數(shù)量相對不足,影響了COPD診療質(zhì)量[1]。近年來,利用機(jī)器學(xué)習(xí)進(jìn)行COPD智能診療的研究受到了關(guān)注。Ying等[2]提出一種基于深度學(xué)習(xí)的COPD加重頻率自動分類器,采用2個(gè)隱藏層和1個(gè)可見層構(gòu)成的3層深度置信網(wǎng)絡(luò)建立分類模型,預(yù)測COPD患者病情惡化次數(shù)。Sugiarto等[3]應(yīng)用深度學(xué)習(xí)方法,使用3D卷積神經(jīng)網(wǎng)絡(luò)模型根據(jù)COPD患者腦電圖數(shù)據(jù)訓(xùn)練圖像建立自切開型COPD診斷,將COPD患者根據(jù)其病情嚴(yán)重程度分為1~4級。
盡管COPD智能診療取得了一定進(jìn)展,但是幾乎沒有涉及COPD中醫(yī)證型預(yù)測或藥物推薦的研究。事實(shí)上,其他一些疾病已經(jīng)開始了相關(guān)研究。黃嘉韻等[4]通過對鼻鼽病例構(gòu)建決策樹模型,對鼻鼽證型分類的準(zhǔn)確率達(dá)到91.5%。葉培[5]針對包含269種證型的2 597例病歷建立證型癥狀表并進(jìn)行特征提取,最后通過最大熵模型,對證型分類的準(zhǔn)確率達(dá)到85.32%。徐琳等[6]運(yùn)用二元Logistic回歸分析方法對慢性乙型肝炎進(jìn)行證候分類,最終濕熱內(nèi)阻證、肝郁脾虛證、肝腎陰虛證的刀切法預(yù)測準(zhǔn)確率分別達(dá)到85.8%、86.1%和89.8%。但中醫(yī)強(qiáng)調(diào)辨證論治,以上工作只針對證型或證候分類,缺乏對“論治”的研究。
張穎等[7]基于對醫(yī)案中病癥和對應(yīng)藥物的隱語義分析建立狄利克雷分布(LDA)模型,進(jìn)一步建立根據(jù)癥狀推薦藥物的輔助診療系統(tǒng),雖考慮了癥狀和藥物的關(guān)系,但沒有充分結(jié)合中醫(yī)辨證論治思想。李洪崢等[8]構(gòu)建了基于中醫(yī)思維的病證結(jié)合冠心病診療知識模型,實(shí)現(xiàn)智能化藥物推薦。林獷[9]利用關(guān)聯(lián)規(guī)則算法,從腎小球腎炎的中醫(yī)數(shù)據(jù)集中挖掘出癥狀-證候規(guī)則、證候-藥物規(guī)則,通過規(guī)則匹配導(dǎo)出核心藥物組合,將其作為推薦藥物輸出。但是上述兩項(xiàng)工作缺乏對癥狀信息的前期篩選,部分與最終藥物相關(guān)性低的癥狀可能影響藥物推薦結(jié)果。
本研究分別構(gòu)建COPD中醫(yī)證型分類和智能藥物推薦模型。首先,對采集的真實(shí)診療數(shù)據(jù)做預(yù)處理,構(gòu)建數(shù)據(jù)集,利用Fisher特征選擇算法[10]剔除敏感性低的特征,通過深度前饋網(wǎng)絡(luò)[11]預(yù)測COPD證型,利用頻數(shù)分析和PSO-BP神經(jīng)網(wǎng)絡(luò)[12]構(gòu)建各證型的典型藥物推薦模型,完成典型藥物推薦,最后通過挖掘癥狀-藥物關(guān)聯(lián)規(guī)則完成補(bǔ)充藥物推薦。
所有數(shù)據(jù)來源于2016年3月-2020年11月湖北省中醫(yī)院肺病科(包括門診及住院)的真實(shí)病案,涵蓋COPD患者初診、復(fù)診的全部2232條記錄。構(gòu)建COPD中醫(yī)診療數(shù)據(jù)集。一方面,主要面向患者的輸入癥狀預(yù)測證型和處方,因此將初診和復(fù)診均看作獨(dú)立的輸入樣本;另一方面,初診和復(fù)診患者不同的癥狀特征可以增加樣本的豐富性。數(shù)據(jù)集的每條診療記錄包含既往史、主癥、次癥、其他癥狀、中醫(yī)四診結(jié)果、西醫(yī)輔助檢查結(jié)果、證型和藥方共8個(gè)部分,其中“癥狀”泛指所有用于COPD診斷的各類信息。首先抽取既往史、主癥、次癥、其他癥狀、中醫(yī)四診結(jié)果、西醫(yī)輔助檢查結(jié)果等共計(jì)106項(xiàng);由于患者的臨床表現(xiàn)通常由主證決定,兼證常由患者的某些體征提示,與主訴相關(guān)性不大,且病例樣本來源單一,數(shù)量偏少,分析多證型并存的情況難度較大,故本文證型特指主證型1項(xiàng);藥方包含248種中藥飲片的使用情況,因錄入格式較為規(guī)范,所以數(shù)據(jù)預(yù)處理環(huán)節(jié)只針對采集的原始癥狀、證型兩部分,藥方部分不作處理。癥狀部分?jǐn)?shù)據(jù)的預(yù)處理流程如圖1所示。
圖1 2232例COPD患者癥狀數(shù)據(jù)預(yù)處理流程
首先,剔除與診斷無關(guān)或無法量化的描述性字符串13項(xiàng)。由于某些癥狀在實(shí)際病案中記錄極少,80%的數(shù)據(jù)集樣本都不包含這些癥狀,為了避免影響模型訓(xùn)練,剔除相應(yīng)數(shù)據(jù)中的這部分癥狀。對剩余的部分癥狀進(jìn)行針對性計(jì)算與合并,處理后癥狀項(xiàng)數(shù)減少8項(xiàng)。其次,對這些癥狀依次進(jìn)行分級、量化。例如,描述患者咳嗽頻率的癥狀可根據(jù)咳嗽發(fā)作時(shí)間和是否影響工作生活而被劃分為3個(gè)等級,并分別用整數(shù)1、2、3對其進(jìn)行編碼,以此量化表示患者的咳嗽頻率癥狀。最后,對每個(gè)癥狀的量化表示值進(jìn)行歸一化,使其取值范圍變換到[0,1]內(nèi),得到證型分類實(shí)驗(yàn)的83個(gè)初始特征。
Fisher特征選擇算法是一種用于找出最相關(guān)的分類特征的算法,目標(biāo)是從原始特征集中挑選出最有效的原始數(shù)據(jù)特征,即從數(shù)據(jù)空間的所有特征中確定敏感子集,其基本思想是:越敏感的特征,在同類數(shù)據(jù)點(diǎn)之間的距離越小,在不同數(shù)據(jù)點(diǎn)之間的距離越大。
通過計(jì)算Fisher分?jǐn)?shù),從癥狀部分的83個(gè)初始特征中挑選出與證型相關(guān)性較強(qiáng)的特征用于證型分類,避免將無意義特征輸入模型訓(xùn)練。對所有特征計(jì)算Fisher分?jǐn)?shù)后,按照分?jǐn)?shù)高低對特征的敏感性進(jìn)行排序,圖2展示了83個(gè)初始特征的Fisher分?jǐn)?shù)歸一化后的分布情況。其中,F(xiàn)isher分?jǐn)?shù)排名前3位的分別是“主癥加重時(shí)間”“舌苔的厚薄”“脈象的沉浮”,排名后3位的分別是“是否有支氣管哮喘”“是否有高血壓”“是否有冠心病”。從圖2可以觀察到,F(xiàn)isher分?jǐn)?shù)在60位之后的特征敏感性較低。在盡量保留更多特征的前提下,取不同閾值進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,取65個(gè)特征時(shí)實(shí)驗(yàn)效果最好。
圖2 癥狀初始特征的Fisher分?jǐn)?shù)示意圖
用于COPD中醫(yī)證型分類的四層深度前饋網(wǎng)絡(luò)包含1個(gè)輸入層、2個(gè)隱藏層和1個(gè)輸出層,各層節(jié)點(diǎn)數(shù)分別為65、50、30、9,隱藏層使用ReLU函數(shù)作為激活函數(shù),輸出層使用softmax作為激活函數(shù)。訓(xùn)練中使用反向傳播(backpropagation,BP)算法反饋誤差,更新網(wǎng)絡(luò)參數(shù)。在每個(gè)隱藏層后添加Dropout單元[14],抑制網(wǎng)絡(luò)可能出現(xiàn)的過擬合現(xiàn)象。Dropout使模型不再依賴于特定的某些節(jié)點(diǎn),降低了節(jié)點(diǎn)之間復(fù)雜的共適應(yīng)性,減少了某些樣本特征僅在其他特定特征下才有效的情況,對于抑制過擬合現(xiàn)象具有顯著作用。該深度前饋網(wǎng)絡(luò)在添加Dropout單元后的網(wǎng)絡(luò)結(jié)構(gòu)見圖3。
圖3 基于深度前饋網(wǎng)絡(luò)的證型分類器結(jié)構(gòu)
為使推薦的藥物更加符合實(shí)際病情,將中藥推薦分為典型藥物推薦和補(bǔ)充藥物推薦2個(gè)部分。典型藥物是指特定證型的典型藥物,即遵循證型對應(yīng)的治則治法且在該證型治療中使用頻率較高的藥物。補(bǔ)充藥物指藥方中針對患者個(gè)體特性而開具的藥物,不具有證型典型性。圖4展示了基于癥狀-證型-藥方關(guān)系的模型構(gòu)建圖。
典型藥物推薦模型的構(gòu)建主要分兩步:首先通過頻數(shù)分析、查閱中醫(yī)文獻(xiàn)對各個(gè)證型的典型藥物進(jìn)行歸納,然后通過粒子群優(yōu)化(particle swarm optimization,PSO)算法-BP神經(jīng)網(wǎng)絡(luò)在歸納藥物范圍內(nèi)進(jìn)行典型藥物的推薦。
圖4 基于癥狀-證型-藥方關(guān)系的模型
頻數(shù)分析法[15]通過統(tǒng)計(jì)目標(biāo)在某樣本范圍內(nèi)出現(xiàn)的頻數(shù),根據(jù)頻數(shù)及其占比查看數(shù)據(jù)的基本分布形態(tài)。對9類樣本依次獨(dú)立進(jìn)行頻數(shù)分析,針對單個(gè)證型按以下流程進(jìn)行典型藥物歸納。首先,統(tǒng)計(jì)該證型樣本的所有處方中出現(xiàn)過的藥物的頻數(shù),以頻數(shù)與處方數(shù)的比值作為該藥物出現(xiàn)的頻率;其次,根據(jù)頻率由高到低將該證型下所有藥物排序,將這些藥物構(gòu)成的集合稱為集合;最后,通過查閱中醫(yī)文獻(xiàn),獲取該證型的治則治法和典型藥物[16],將查閱文獻(xiàn)得到的證型典型藥物構(gòu)成的集合稱為集合(由于證型與典型藥物的關(guān)聯(lián)是中醫(yī)知識庫中現(xiàn)有的結(jié)論,故本研究不做詳述)。根據(jù)集合和集合歸納出該證型的典型藥物,力求使其同時(shí)符合中醫(yī)臨床治療理論和COPD數(shù)據(jù)集藥物使用的實(shí)際情況,歸納步驟如下:
根據(jù)以上方案,對1 070篇報(bào)刊文本和500條微博文本進(jìn)行分類和編碼,將編碼數(shù)據(jù)導(dǎo)入SPSS,進(jìn)行描述性統(tǒng)計(jì),得到傳統(tǒng)媒體和新媒體的話語主題和話語傾向的基本情況和隨時(shí)間的變化趨勢。
a)從集合中選擇出現(xiàn)頻率>的藥物,構(gòu)成集合;
b)從集合中選擇出現(xiàn)頻率在[,]內(nèi)的藥物,構(gòu)成集合;
c)取集合與集合的交集,構(gòu)成集合,即=∩;
d)取集合和集合的并集,構(gòu)成集合,即=∪。集合中的藥物即為所歸納的該證型典型藥物。其中,和值根據(jù)各證型藥物排序的實(shí)際情況確定。
傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)利用BP算法進(jìn)行參數(shù)更新,但是學(xué)習(xí)速度慢且可能陷入局部極小值,因此使用PSO-BP神經(jīng)網(wǎng)絡(luò)構(gòu)建典型藥物推薦模型。PSO-BP神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)的區(qū)別主要在于,訓(xùn)練網(wǎng)絡(luò)時(shí)不是單一使用梯度下降的BP算法進(jìn)行網(wǎng)絡(luò)參數(shù)的更新,而是先使用PSO算法尋找全局最優(yōu)解,通過多次迭代得到的位置參數(shù)作為神經(jīng)網(wǎng)絡(luò)的初始化參數(shù),再使用BP算法訓(xùn)練網(wǎng)絡(luò),即由PSO和BP算法共同尋找最佳網(wǎng)絡(luò)參數(shù)。
為充分利用患者的中醫(yī)證型信息,典型藥物推薦算法對9種COPD證型分別建立9個(gè)典型藥物推薦模型,每個(gè)模型相互獨(dú)立,推薦藥物結(jié)果屬于各自證型的典型藥物范圍,訓(xùn)練過程只使用各自證型內(nèi)的樣本數(shù)據(jù)。
單個(gè)典型藥物推薦模型使用3層PSO-BP神經(jīng)網(wǎng)絡(luò)構(gòu)成,ReLU作為激活函數(shù),均方根誤差作為神經(jīng)網(wǎng)絡(luò)的損失函數(shù)和PSO算法的適應(yīng)度函數(shù)。網(wǎng)絡(luò)的輸入為從癥狀部分提取的特征,網(wǎng)絡(luò)的輸出為該證型各典型藥物的推薦概率值,設(shè)置閾值,將推薦概率>的藥物作為推薦藥物。網(wǎng)絡(luò)輸出用概率向量表示,假設(shè)該證型的典型藥物數(shù)量為,則各典型藥物推薦概率值用向量表示為[1,2, …,p],其中p表示第種藥物的推薦概率。對于訓(xùn)練集中的已知藥方,若藥方中存在某藥物,則認(rèn)為該藥物的推薦概率為1,不存在則為0。
經(jīng)過對9種證型分別建模和訓(xùn)練后,得到對應(yīng)9個(gè)COPD證型的典型藥物推薦模型。對于已經(jīng)確定證型的患者,選擇相應(yīng)證型的典型藥物推薦模型,以癥狀特征作為輸入,即可得到各典型藥物的推薦概率值,將所有推薦概率值>對應(yīng)的藥物作為模型推薦的典型藥物。
在COPD中醫(yī)診療中,除了證型對應(yīng)的典型藥物,還有一些針對個(gè)體差異的藥物,這些藥物與患者的實(shí)際癥狀和疾病史息息相關(guān)。因此,在COPD診療數(shù)據(jù)集中挖掘癥狀、藥物之間的關(guān)聯(lián)性,據(jù)此向具有特定癥狀的患者推薦相應(yīng)的藥物,作為對典型藥物構(gòu)成的藥方的進(jìn)一步補(bǔ)充。
利用Apriori算法[17]在全部證型的數(shù)據(jù)集中挖掘癥狀-藥物關(guān)聯(lián)。先將樣本的表示形式規(guī)范化,將每個(gè)樣本的癥狀特征和藥方包含的藥物種類提取出來,每個(gè)特征或每種藥物作為該樣本的1個(gè)屬性,每個(gè)樣本用其包含的所有屬性的集合表示,例如某樣本被表示為:{“60歲以上”,“吸煙”,“油煙、粉塵、有害氣體接觸史”,“咳嗽”,“嚴(yán)重呼吸困難”,“胸悶”,“惡風(fēng)/惡寒”,“小便:澀痛”,“乏力”,“面色淡白無華”,“唇甲紫紺”,“舌質(zhì):淡紅”,“舌體:胖”,“舌苔:薄”,“苔色:黃”,“脈象:沉”,“雙肺呼吸音:低”,“X片/胸部CT有雙肺肺氣腫表現(xiàn)”,“第一秒用力呼氣容積(FEV1)/用力肺活量(FVC)<70%”,“FEV1占預(yù)計(jì)值百分比:30%~50%”,“白芥子”,“地龍”,“茯苓”,“防風(fēng)”,“瓜蔞皮”,“黃芪”,“黃柏”,“紅景天”,“靈芝(樹舌/平蓋)”,“(炙)麻黃”,“(紫)蘇子”,“淫羊藿”,“澤瀉”}。
設(shè)置最小支持度和最小置信度,在全部樣本集合中運(yùn)用Apriori算法,獲取支持度大于最小支持度的所有頻繁項(xiàng)集,在該頻繁項(xiàng)集中提取置信度大于最小置信度的規(guī)則作為強(qiáng)關(guān)聯(lián)規(guī)則。挖掘出的關(guān)聯(lián)規(guī)則有多條,其中規(guī)則的前項(xiàng)和后項(xiàng)各有3種可能的類型:⑴包含1個(gè)或多個(gè)癥狀的癥狀組合;⑵包含1個(gè)或多個(gè)藥物的藥物組合;⑶包含至少1個(gè)癥狀和至少1個(gè)藥物的癥狀-藥物組合。由于后項(xiàng)包含癥狀的關(guān)聯(lián)規(guī)則表征的是癥狀出現(xiàn)的可能性,而非藥物使用的可能性,因此,只取后項(xiàng)為藥物組合的關(guān)聯(lián)規(guī)則用于補(bǔ)充藥物的推薦,如表1所示。
表1 用于補(bǔ)充藥物推薦的關(guān)聯(lián)規(guī)則種類
由于測試樣本的癥狀、典型藥物推薦結(jié)果都已知,在癥狀和推薦的典型藥物中尋求與關(guān)聯(lián)規(guī)則前項(xiàng)相匹配的組合,將該條規(guī)則的后項(xiàng)作為擬推薦的1個(gè)補(bǔ)充藥物組合。剔除該藥物組合中已存在于推薦的典型藥物中的藥物,將剩余藥物作為1個(gè)推薦的補(bǔ)充藥物組合,對應(yīng)規(guī)則的置信度作為該補(bǔ)充藥物組合的推薦度。進(jìn)行多次關(guān)聯(lián)匹配后,最終得到數(shù)個(gè)補(bǔ)充藥物組合及各自的推薦度,將所有補(bǔ)充藥物組合的并集作為最終推薦的補(bǔ)充藥物集合,每個(gè)藥物的推薦度由其所在的所有補(bǔ)充藥物組合的推薦度的均值表示。
本實(shí)驗(yàn)使用的COPD數(shù)據(jù)集包含2 232條COPD診療記錄,經(jīng)過預(yù)處理和癥狀特征選擇后,得到2 232個(gè)樣本用于證型分類實(shí)驗(yàn)。將經(jīng)過預(yù)處理后的癥狀特征作為本實(shí)驗(yàn)的輸入特征,將9種證型的編碼作為輸出的類別標(biāo)簽。實(shí)驗(yàn)采用10折交叉驗(yàn)證,進(jìn)行10次訓(xùn)練和測試,取測試結(jié)果的均值作為該方法的測試結(jié)果。
實(shí)驗(yàn)采用6種證型分類算法做對比實(shí)驗(yàn),分別為K最近鄰[18]、AdaBoost[19]、隨機(jī)森林(random forest,RF)[20]、支持向量機(jī)(SVM)方法[21]、深度信念網(wǎng)絡(luò)(DBN)方法[22]和本研究提出的基于深度前饋網(wǎng)絡(luò)的證型分類算法(multi-layer perceptron,MLP)。6個(gè)分類模型都基于Python語言和Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn),各方法得到的證型分類準(zhǔn)確率分別為67.56%、69.22%、62.30%、79.04%、74.23%、82.39%,MLP方法的證型分類準(zhǔn)確率最高。實(shí)驗(yàn)結(jié)果表明,所提出的證型分類模型能較好地完成證型分類任務(wù)。
2.2.1 典型藥物推薦 本實(shí)驗(yàn)對9種COPD中醫(yī)證型分別構(gòu)建了典型藥物推薦模型,下面以外寒內(nèi)飲證為例展示典型藥物推薦實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)構(gòu)建含1個(gè)隱藏層的3層PSO-BP神經(jīng)網(wǎng)絡(luò),隱藏層節(jié)點(diǎn)數(shù)為50,使用從癥狀部分提取的74個(gè)特征作為PSO-BP神經(jīng)網(wǎng)絡(luò)的輸入,對應(yīng)16種外寒內(nèi)飲證典型藥物的16維推薦概率向量作為網(wǎng)絡(luò)輸出,設(shè)置推薦閾值=0.5,學(xué)習(xí)率為0.001。設(shè)置PSO粒子數(shù)為75,慣性權(quán)重為0.5,學(xué)習(xí)常數(shù)1=2=1.6,粒子位置和速度的取值分別限定在區(qū)間[-5,5]和[-1,1]內(nèi)。實(shí)驗(yàn)使用248例外寒內(nèi)飲證樣本集,每次實(shí)驗(yàn)按200∶48比例隨機(jī)劃分訓(xùn)練集和測試集,取10次實(shí)驗(yàn)測試結(jié)果的均值作為最終測試結(jié)果。
使用均方誤差(MSE)和平均絕對誤差(MAE)作為典型藥物推薦模型的評價(jià)指標(biāo)。MSE和MAE常用于衡量模型預(yù)測值與真實(shí)值之間的誤差大小,取值越小表明預(yù)測結(jié)果與真實(shí)結(jié)果越接近,模型的擬合程度越高。為便于和所提出的基于PSO-BP神經(jīng)網(wǎng)絡(luò)的典型藥物推薦算法進(jìn)行比較,使用1種經(jīng)典的推薦算法和2種神經(jīng)網(wǎng)絡(luò)方法分別構(gòu)建典型藥物推薦模型作為對照,分別為基于聚類的協(xié)同過濾(collaborative filtering,CF)算法[23]、BP神經(jīng)網(wǎng)絡(luò)方法和GA-BP神經(jīng)網(wǎng)絡(luò)方法[24]。其中,CF算法使用聚類算法計(jì)算用戶相似度,結(jié)合協(xié)同過濾思想構(gòu)建推薦項(xiàng)目集;GA-BP神經(jīng)網(wǎng)絡(luò)是利用遺傳算法(genetic algorithm,GA)優(yōu)化過的BP神經(jīng)網(wǎng)絡(luò)。4種方法的測試結(jié)果見表2。
表2 4種典型藥物推薦模型測試結(jié)果比較
基于PSO-BP神經(jīng)網(wǎng)絡(luò)的典型藥物推薦算法測試得到的MSE和MAE低于另外3種方法,PSO算法的優(yōu)化使模型表現(xiàn)在原本BP神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上有了顯著提升。本研究的典型藥物推薦算法在中醫(yī)藥推薦環(huán)節(jié)可以實(shí)現(xiàn)較為可靠的典型藥物推薦。
2.2.2 癥狀-藥物關(guān)聯(lián)規(guī)則挖掘 癥狀-藥物關(guān)聯(lián)規(guī)則挖掘?qū)嶒?yàn)在全部證型的COPD數(shù)據(jù)集中進(jìn)行,樣本量為2 232,共2 232個(gè)中醫(yī)藥方。設(shè)置最小支持度和最小置信度后,可得到由癥狀、藥物組成的關(guān)聯(lián)規(guī)則,剔除后項(xiàng)包含癥狀的規(guī)則,剩余規(guī)則可用于補(bǔ)充藥物推薦。將最小支持度設(shè)置為0.20且保持不變,最小置信度在0.60~1.00之間取值,表3展示了最小置信度取值變化時(shí),可用于補(bǔ)充藥物推薦的關(guān)聯(lián)規(guī)則數(shù)的變化。隨著最小置信度從0.60增加到0.98,關(guān)聯(lián)規(guī)則數(shù)從2 960下降到0。為了增強(qiáng)補(bǔ)充藥物推薦的可靠性,取最小置信度為0.90得到的關(guān)聯(lián)規(guī)則作為補(bǔ)充藥物推薦的依據(jù),此時(shí)滿足條件的規(guī)則有261條。
表3 不同置信度下的關(guān)聯(lián)規(guī)則數(shù)
衡量關(guān)聯(lián)規(guī)則的指標(biāo)有支持度、置信度和提升度。支持度為規(guī)則在樣本集合中出現(xiàn)的頻率,反映規(guī)則的普遍性;置信度為規(guī)則在滿足前項(xiàng)匹配的樣本集合中出現(xiàn)的頻率,反映規(guī)則的可靠性;提升度()則可以反映前后項(xiàng)之間的關(guān)聯(lián)性,計(jì)算公式如式⑴:
式⑴中,表示事件出現(xiàn)的概率,表示事件出現(xiàn)的頻數(shù),表示樣本總數(shù)。提升度>1表示二者具有正相關(guān)性,且值越大表明相關(guān)性越強(qiáng)。和指關(guān)聯(lián)規(guī)則的前項(xiàng)和后項(xiàng)。
表4展示了部分關(guān)聯(lián)規(guī)則及其評價(jià)指標(biāo)。關(guān)聯(lián)規(guī)則支持度>0.20,置信度>0.90,證明前項(xiàng)與后項(xiàng)之間存在較強(qiáng)的相關(guān)性,表明算法挖掘得到的關(guān)聯(lián)規(guī)則具有一定的可信度,本研究可以在完成典型藥物推薦的基礎(chǔ)上利用關(guān)聯(lián)規(guī)則為患者推薦合適的補(bǔ)充藥物。
表4 部分關(guān)聯(lián)規(guī)則及其評價(jià)指標(biāo)
COPD嚴(yán)重危害人類健康,其防治是一個(gè)重大的公共衛(wèi)生問題。我國COPD患者的基數(shù)龐大,存在漏診、錯(cuò)診的情況,在國務(wù)院發(fā)布的《健康中國行動(2019-2030年)》[25]要求推進(jìn)COPD防治工作和中醫(yī)防治慢性病[26]的政策背景下,開展中醫(yī)COPD智能診療技術(shù)研究并推動臨床應(yīng)用具有重要的理論和現(xiàn)實(shí)意義。本研究提出的基于深度前饋網(wǎng)絡(luò)的證型分類算法能根據(jù)患者癥狀判斷中醫(yī)證型,且在COPD診療數(shù)據(jù)集上取得了較好的分類性能。提出的COPD藥物推薦方法,充分利用癥狀、證型、藥物三者之間的關(guān)聯(lián),將藥物推薦分為典型藥物推薦和補(bǔ)充藥物推薦,可對特定證型的患者進(jìn)行具體藥物種類的推薦。實(shí)驗(yàn)和實(shí)際使用結(jié)果表明,本研究的證型分類和藥物推薦方法具有較好的智能診療效果,可為COPD的中醫(yī)臨床診療提供參考與借鑒。
[1] 李薇,楊汀,王辰.中國慢性阻塞性肺疾病防治現(xiàn)狀及進(jìn)展[J].中國研究型醫(yī)院,2020,7(5):1-5.
[2] YING J, Dutta J, GUO N, et al. Classification of exacerbation frequency in the COPD gene cohort using deep learning with deep belief networks[J]. IEEE Journal of Biomedical and Health Informatics, 2016,24(6):1805-1813.
[3] Sugiarto T, Hsu C L, Sun C T, et al. An automatic COPD diagnosis with deep learning on topology-preserving multi spectral image of EEG data[J]. Basic & Clinical Pharmacology & Toxicology, 2019,124(S3):13-14.
[4] 黃嘉韻,郭宏,鄺艷萍.基于決策樹算法的鼻鼽辨證規(guī)律初步研究[J].中華中醫(yī)藥雜志,2016,31(11):4770-4773.
[5] 葉培.最大熵在中醫(yī)智能辨證的研究及其應(yīng)用[J].計(jì)算機(jī)時(shí)代, 2015(3):50-52,55.
[6] 徐琳,趙瑜,彭景華,等.慢性乙型肝炎常見證候特征的二元Logistic回歸分析[J].中華中醫(yī)藥雜志,2015,30(5):1780-1783.
[7] 張穎,紀(jì)文迪,周毅萍,等.基于隱語義模型的中醫(yī)在線輔助診療系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2017,37(S1):303-307.
[8] 李洪崢,王階,何浩強(qiáng),等.基于中醫(yī)思維的冠心病心絞痛病證結(jié)合診療知識模型構(gòu)建[J].中醫(yī)雜志,2019,60(15):1288-1293.
[9] 林獷.慢性腎小球腎炎的中醫(yī)癥狀-證候-藥物關(guān)聯(lián)規(guī)則挖掘的研究[D].成都:電子科技大學(xué),2016.
[10] GU Q Q, LI Z H, HAN J W. Generalized fisher score for feature selection[C]//The 27th Conference on Uncertainty in Artificial Intelligence, Barcelona, 2011:266-273.
[11] Goodfellow I, Bengio Y, Courville A, et al. Deep learning[M]. Cambridge: MIT press, 2016:163-220.
[12] DENG Y, XIAO H J, XU J X, et al. Prediction model of PSO-BP neural network on coliform amount in special food[J]. Saudi Journal of Biological Sciences, 2019,26(6):1154-1160.
[13] 樊長征,苗青,樊茂蓉,等.慢性阻塞性肺疾病穩(wěn)定期中醫(yī)臨床實(shí)踐指南(征求意見稿)[J].中國中藥雜志,2020,45(22):5309-5322.
[14] WEI C, Kakade S M, MA T. The implicit and explicit regularization effects of dropout[C]//International Conference on Machine Learning. PMLR, 2020:10181-10192.
[15] 賈俊平,何曉群,金勇進(jìn).統(tǒng)計(jì)學(xué):第7版[M].北京:中國人民大學(xué)出版社,2018:41-43.
[16] 李建生.國際中醫(yī)臨床實(shí)踐指南 慢性阻塞性肺疾病[J].世界中醫(yī)藥,2020,15(7):1084-1092.
[17] HAN J W, Kamber M, PEI J.數(shù)據(jù)挖掘概念與技術(shù):原書第3版[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2012:160-165.
[18] Peterson L E. K-nearest neighbor[J]. Scholarpedia, 2009, 4(2):1883.
[19] Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1):119-139.
[20] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1):5-32.
[21] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:95-130.
[22] HUA Y M, GUO J H, ZHAO H. Deep belief networks and deep learning[C]// Beijing Inst. of Tracking & Telecommun. Proceedings of 2015 International Conference on Intelligent Computing and Internet of Things. Harbin, 2015:1-4.
[23] LIU X J. An improved clustering-based collaborative filtering recommendation algorithm[J]. Cluster Computing, 2017,20(2):1281-1288.
[24] 劉春艷,凌建春,寇林元,等.GA-BP神經(jīng)網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)性能比較[J].中國衛(wèi)生統(tǒng)計(jì),2013,30(2):173-176,181.
[25] 陳華東,廖曉陽,劉長明,等.《健康中國行動(2019-2030年)》之重大專項(xiàng)行動核心要點(diǎn)解讀與啟示:全科醫(yī)生視角[J].中國衛(wèi)生事業(yè)管理,2020,37(12):958-960.
[26] 新華社.中共中央國務(wù)院關(guān)于促進(jìn)中醫(yī)藥傳承創(chuàng)新發(fā)展的意見[N].人民日報(bào),2019-10-27(001).
Study on TCM Intelligent Diagnosis and Treatment for Chronic Obstructive Pulmonary Disease
LI Zhen1, JIANG Guo-xing1*, FENG Yi2, FAN Jia-hao1, YANG Hong-zhi2, 3, ZHANG Wei3
(1. School of Electronic Information and Communications, Huazhong University of Science & Technology, Wuhan 430074, China; 2. Hubei Provincial Hospital of Traditional Chinese Medicine, Wuhan 430000, China; 3. Hubei University of Chinese Medicine, Wuhan 430000, China)
To explore the application of deep learning in syndrome prediction and medicine recommendation of chronic obstructive pulmonary disease (COPD).The information of symptoms, syndrome types and medicine was extracted from real diagnosis and treatment data and was under preprocessing. Fisher feature selection algorithm was used to screen the strong correlation symptoms with syndrome types as the input of four-layer deep feedforward network to predict TCM syndrome types. The medicine recommendation was divided into typical medicine recommendation and supplementary medicine recommendation. The typical medicine recommendation models of each syndrome type were constructed using frequency analysis and PSO (particle swarm optimization)-BP (backpropagation algorithm) network, and the supplementary medicine recommendation was completed by mining association rules. Finally, the results of syndrome type prediction and medicine recommendation were evaluated by corresponding indicators.The classification accuracy of nine TCM syndrome types on 2 232 COPD patient data was 82.39%. For syndrome of external cold and internal retained morbid fluid, the mean square error (MSE) of the recommended results of typical medicines based on 233 medicines was 0.009 1,and the mean absolute error (MAE) was 0.087 9. Totally 261 association rules for supplementary medicine recommendation have been mined when the minimum support and the minimum confidence were respectively set to 0.2 and 0.9.The experimental and practical results show that the syndrome type classification algorithm based on deep feedforward network and the medicine recommendation algorithm based on frequency analysis and PSO-BP network proposed in this study can better complete the syndrome type prediction and medicine recommendation of COPD patients, and have better intelligent diagnosis and treatment effect.
chronic obstructive pulmonary disease; classification of TCM syndromes; TCM recommendation; algorithms; PSO-BP network
R259.63
A
2095-5707(2022)06-0017-07
10.3969/j.issn.2095-5707.2022.06.003
李禎,江國星,馮毅,等.慢性阻塞性肺疾病的中醫(yī)智能診療研究[J].中國中醫(yī)藥圖書情報(bào)雜志,2022,46(6):17-23.
湖北省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020BAB027)
李禎,E-mail: 614645906@qq.com
江國星,E-mail: gxjiang@mail.hust.edu.cn
(2022-02-28)
(修回日期:2022-03-21;編輯:魏民)