李曉峰,王妍瑋,李 東
1(黑龍江外國語學(xué)院 信息工程系,哈爾濱 150025)
2(普渡大學(xué) 機(jī)械工程系,西拉法葉市 IN47906)
3(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001)
醫(yī)療機(jī)構(gòu)在面對(duì)現(xiàn)今如此大量醫(yī)患數(shù)量和復(fù)雜的人體結(jié)構(gòu)時(shí),診療工作面臨巨大的挑戰(zhàn),誤診現(xiàn)象時(shí)有發(fā)生,因?yàn)椴∪瞬∫蛴袝r(shí)并不會(huì)如臨床表現(xiàn)信息那樣準(zhǔn)確,不僅耽誤了患者病情,也給醫(yī)生自身和所在醫(yī)療機(jī)構(gòu)形象帶來損害,由此造成了非常嚴(yán)重的后果.所以醫(yī)生做出有效的診斷和治療措施是一個(gè)復(fù)雜的決策和思維過程.在此背景下,利用計(jì)算機(jī)的處理能力輔助醫(yī)生做出更為準(zhǔn)確的診斷判斷[1].為此,相關(guān)專家研究了一種多學(xué)科協(xié)作診療決策支持系統(tǒng).該系統(tǒng)的出現(xiàn),在一定程度上提高了醫(yī)生的診療精度和治療效果,并減少了人為疏忽、降低醫(yī)療成本.
但是,由于我國在這方面研究起步較晚,技術(shù)還不是很成熟,診斷精度距離標(biāo)準(zhǔn)還有一段距離.文獻(xiàn)[2]提出并設(shè)計(jì)了一種具有辨證論治內(nèi)涵的智能中醫(yī)診療決策系統(tǒng),通過病證臨床診斷、治療、療效評(píng)價(jià)決策方法,建立現(xiàn)代中醫(yī)智能診療系統(tǒng),利用人機(jī)結(jié)合優(yōu)勢(shì),為中醫(yī)臨床診療提供智能決策輔助支持,探索創(chuàng)新中醫(yī)病證診療模式.但是該系統(tǒng)的診療效果不理想;文獻(xiàn)[3]提出并設(shè)計(jì)了基于心臟團(tuán)隊(duì)模式的多學(xué)科診療實(shí)施系統(tǒng),通過多學(xué)科協(xié)作,對(duì)部分心臟疾病的診療策略、患者選擇以及患者隨訪及管理均存在有益影響,目前多見于冠狀動(dòng)脈血運(yùn)重建的診療決策.實(shí)施中存在誤診率較高的現(xiàn)象;文獻(xiàn)[4]提出并設(shè)計(jì)了一種國內(nèi)分級(jí)診療現(xiàn)狀的評(píng)價(jià)系統(tǒng),以“分級(jí)診療”為關(guān)鍵詞檢索自各數(shù)據(jù)庫中的相關(guān)文獻(xiàn),全面收集國內(nèi)分級(jí)診療現(xiàn)狀的研究,從結(jié)局評(píng)價(jià)指標(biāo)和面臨的問題兩方面進(jìn)行系統(tǒng)評(píng)價(jià);文獻(xiàn)[5]提出并設(shè)計(jì)了基于系統(tǒng)復(fù)雜性的中醫(yī)診療信息分層可視化系統(tǒng),將中醫(yī)診療過程分層,并結(jié)合現(xiàn)代數(shù)據(jù)可視化技術(shù)為不同層次的診療過程選取可視化方法.但是上述兩種系統(tǒng)的診療精度較低.一些發(fā)達(dá)國家經(jīng)過長時(shí)間的分析與探討,對(duì)醫(yī)療診療決策支持系統(tǒng)也進(jìn)行了探索和研究.文獻(xiàn)[6]提出并設(shè)計(jì)了一種基于Web 的心血管分析、診斷和治療系統(tǒng),為用戶提供完整的數(shù)據(jù)管理和動(dòng)態(tài)血壓監(jiān)測(cè),在醫(yī)學(xué)報(bào)告中,便于用戶理解,該系統(tǒng)證明了其在心血管臨床研究中的巨大潛力.文獻(xiàn)[7]提出并設(shè)計(jì)了基于大數(shù)據(jù)挖掘和云計(jì)算的疾病診療推薦系統(tǒng),為了更準(zhǔn)確有效地識(shí)別疾病癥狀,提出了一種基于密度峰值聚類分析(DPCA)的疾病癥狀聚類算法,利用Apriori 算法分別對(duì)疾病診斷(DD)規(guī)則和疾病治療(D-T)規(guī)則進(jìn)行關(guān)聯(lián)分析,為了達(dá)到高性能和低延遲響應(yīng)的目標(biāo),使用Apache Spark 云平臺(tái)為DDTRS 實(shí)現(xiàn)了一個(gè)并行解決的方案.但是以上兩種系統(tǒng)在進(jìn)行運(yùn)算時(shí),運(yùn)算時(shí)間較長,分類效率較差.
針對(duì)上述問題,將改進(jìn)K-NN 分類算法和SVM 應(yīng)用其中,提出一種新的基于改進(jìn)K-NN 分類算法和SVM 的多學(xué)科協(xié)作診療決策支持系統(tǒng).該系統(tǒng)主要包括數(shù)據(jù)庫系統(tǒng)模塊、人機(jī)交互模塊和診療推理模塊,其中診療推理模塊是系統(tǒng)的軟件核心,通過改進(jìn)K-NN 分類算法和SVM 算法建立推理引擎,根據(jù)推理結(jié)果構(gòu)建一個(gè)新的案例,引入CDA 概念,對(duì)改進(jìn)K-NN 分類算法和SVM 算法進(jìn)行有效融合,完成多學(xué)科協(xié)作診療決策.為測(cè)試本系統(tǒng)的診療精度,與傳統(tǒng)診療決策支持系統(tǒng)進(jìn)行仿真測(cè)試,測(cè)試結(jié)果表明:改進(jìn)K-NN 分類算法和SVM 應(yīng)用下的多學(xué)科協(xié)作診療決策支持系統(tǒng)的診療精度更高,由此說明本系統(tǒng)要比傳統(tǒng)系統(tǒng)性能要好,更能幫助醫(yī)生做出正確診斷,給患者更為準(zhǔn)確的及時(shí)治療建議,有利于保障人民身體健康,更有利于提高國民健康水平.
由于人體結(jié)構(gòu)的復(fù)雜性,所以患病原因也具有多樣性、多變性、復(fù)雜性和不確定性,又因?yàn)槿梭w結(jié)構(gòu)的統(tǒng)一性,所以病理特征還具有動(dòng)態(tài)演化性,因此在進(jìn)行診療時(shí),需要多學(xué)科協(xié)作的進(jìn)行[8,9].為此本次設(shè)計(jì)的基于改進(jìn)K-NN 和SVM 的多學(xué)科協(xié)作診療決策支持系統(tǒng)要滿足以下幾點(diǎn)需求:
(1)多方面
在對(duì)患者進(jìn)行診療時(shí),要多方面的考察患者生理信息,如病癥表現(xiàn)信息(癥狀、生命體征等)、病癥隱藏信息(心電圖、彩超、CT 等),才能提升診療精度,為此,系統(tǒng)設(shè)計(jì)需要支持多學(xué)科協(xié)作診斷.
(2)及時(shí)、準(zhǔn)確
當(dāng)面對(duì)發(fā)病快的患者,并不允許醫(yī)生緩慢診斷,所以為輔助醫(yī)生在較短時(shí)間內(nèi)做出正確的診斷決策,基于改進(jìn)K-NN 分類算法和SVM 的多學(xué)科協(xié)作診療決策支持系統(tǒng)需要快速、及時(shí)、準(zhǔn)確的提供多方面信息[10,11].
(3)完整性
醫(yī)生做出診斷是一個(gè)嚴(yán)肅的過程,所以在完整詳細(xì)診療記錄的基礎(chǔ)上,給出的診斷不僅是一個(gè)結(jié)果,更是一個(gè)詳細(xì)的診斷推理過程,所以系統(tǒng)設(shè)計(jì)要滿足信息完整這一需求.
(4)動(dòng)態(tài)更新
病癥、醫(yī)療方法等并不是一成不變的,所以為滿足需求,系統(tǒng)需要擁有動(dòng)態(tài)更新作用,才能根據(jù)患者病情變化以及不斷進(jìn)步的醫(yī)療技術(shù),幫助醫(yī)生給出更為科學(xué)、合理的診斷結(jié)果以及治療建議[12].
基于改進(jìn)K-NN 分類算法和SVM 的多學(xué)科協(xié)作診療決策支持系統(tǒng)設(shè)計(jì),分為數(shù)據(jù)庫系統(tǒng)模塊、人機(jī)交互模塊和診療推理模塊[13].多學(xué)科協(xié)作診療決策支持系統(tǒng)總體框架如圖1所示.
圖1 系統(tǒng)總體框架圖
根據(jù)圖1可知,數(shù)據(jù)庫系統(tǒng)模塊實(shí)際上是一個(gè)數(shù)據(jù)庫系統(tǒng),包括患者數(shù)據(jù)庫和源病歷庫兩個(gè).人機(jī)交互模塊是系統(tǒng)人機(jī)交互界面的窗口,負(fù)責(zé)接收和檢索用戶的請(qǐng)求命令,調(diào)用系統(tǒng)功能為診療決策服務(wù),以及將最終的診療結(jié)果報(bào)告給醫(yī)生.診療推理模塊是系統(tǒng)的軟件核心,主要作用是通過改進(jìn)K-NN 分類算法和SVM建立推理引擎,并在計(jì)算機(jī)的輔助下,在醫(yī)院源病歷庫中搜索與患者病癥信息相似的醫(yī)療案例,并進(jìn)行相似度匹配,建立患者病癥問題與病歷庫的關(guān)聯(lián),針對(duì)相似案例和患者病癥問題相匹配,不需要進(jìn)行修改;如果兩者不匹配,則需要進(jìn)行案例修正,調(diào)整診療決策方案,最后將得出診療結(jié)果與患者癥狀集構(gòu)建一個(gè)新的臨床案例,更新源病歷庫[14].
通過改進(jìn)K-NN 分類算法和SVM 建立推理引擎過程中,由于SVM 對(duì)于初始參數(shù)設(shè)置較為敏感,為保證推理引擎建立結(jié)果的可靠性,本文利用遺傳算法優(yōu)化初始參數(shù),遺傳算法結(jié)合了適合生存的思想,通過選擇、交換、變異等作用機(jī)制實(shí)現(xiàn)種群進(jìn)化[15].本文利用遺傳算法優(yōu)化初始參數(shù)過程中,在解空間同時(shí)建立多個(gè)初始點(diǎn),通過建立適應(yīng)度函數(shù)尋找搜索方向,采用實(shí)時(shí)、同步搜索的方式,能夠快速尋找出最優(yōu)初始參數(shù).
數(shù)據(jù)庫系統(tǒng)模塊是系統(tǒng)的基礎(chǔ)模塊,一方面負(fù)責(zé)整合患者數(shù)據(jù)信息,如病人的基本信息、病歷信息、病程信息、醫(yī)囑信息、檢驗(yàn)信息、影像信息、護(hù)理信息,以及其他所需要的各類信息等,另一方面負(fù)責(zé)構(gòu)建病歷庫,為醫(yī)生診療決策提供數(shù)據(jù)支撐.
數(shù)據(jù)庫是為企業(yè)進(jìn)行科學(xué)、合理的戰(zhàn)略決策創(chuàng)建的數(shù)據(jù)支持的集合,具有指導(dǎo)業(yè)務(wù)流程改進(jìn)、成本、質(zhì)量以及控制的作用[16].數(shù)據(jù)庫系統(tǒng)架構(gòu)主要分為3 個(gè)部分:數(shù)據(jù)抽取、數(shù)據(jù)儲(chǔ)存以及數(shù)據(jù)顯示.根據(jù)實(shí)際應(yīng)用需求,在系統(tǒng)測(cè)試后,最后確定相應(yīng)的配置.
在數(shù)據(jù)庫當(dāng)中,ETL 是其中的核心和靈魂,負(fù)責(zé)將大量異構(gòu)數(shù)據(jù)從數(shù)據(jù)源中提取出來、并進(jìn)行清洗、轉(zhuǎn)換和加工,最后將其整合到一起,按照一定的規(guī)則裝載到一個(gè)大的數(shù)據(jù)倉庫當(dāng)中,完成數(shù)據(jù)存儲(chǔ),為軟件中的診療推理做準(zhǔn)備,如圖2所示.
人機(jī)交互模塊是系統(tǒng)唯一與用戶聯(lián)系的窗口,負(fù)責(zé)接收和檢索用戶的請(qǐng)求命令以及將最終的診療結(jié)果顯示給用戶.在這里選擇ELAN SMART-PAD 智能觸控面板作為顯示與搜索設(shè)備.該設(shè)備服務(wù)質(zhì)量很高,不僅運(yùn)行速度快,顯示功能也更全面.
圖2 ETL 運(yùn)行架構(gòu)
利用得到的患者數(shù)據(jù)信息和病歷倉庫中的信息進(jìn)行匹配,檢索出相似的病歷,并以此推理出目標(biāo)病歷的解,其實(shí)質(zhì)是計(jì)算患者病歷與病歷倉庫臨床案例之間的相似度來實(shí)現(xiàn)患者病因的診斷,因此相似度算法的選擇直接關(guān)系到診斷結(jié)果的準(zhǔn)確性[17].常見的相似度計(jì)算方法主要有最近鄰分類算法、歸納推理法以及支持向量機(jī)(SVM).然而,以上計(jì)算方法在實(shí)際應(yīng)用過程中,人們發(fā)現(xiàn)得到的結(jié)果與真實(shí)結(jié)果有時(shí)存在一定的差異,所以在給出的診療決策方案后還需要進(jìn)一步的修正和調(diào)整,付出的計(jì)算量將是巨大的,為解決這一問題,將近鄰分類算法(K-NN)進(jìn)行改進(jìn),并與支持向量機(jī)(SVM)相結(jié)合,彌補(bǔ)各自的缺點(diǎn),提高診斷的準(zhǔn)確性.
K-近鄰(簡稱K-NN)屬于分類算法,是一個(gè)理論上比較成熟的算法,也是最簡單的機(jī)器學(xué)習(xí)算法之一.改進(jìn)該算法的思路是:首先對(duì)樣本進(jìn)行預(yù)處理,計(jì)算數(shù)據(jù)屬性的信息增益,確定各數(shù)據(jù)屬性的權(quán)重因子,組成一個(gè)屬性空間.在這一屬性空間內(nèi),給出一個(gè)待分類的樣本x(病人數(shù)據(jù)),計(jì)算x與訓(xùn)練集(病例庫)中每個(gè)文本的距離,對(duì)距離值進(jìn)行排序,找出最近的k個(gè)最相似病歷,若這些相似病歷屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別[18].計(jì)算過程如下:
計(jì)算數(shù)據(jù)屬性的信息增益:
式(1)中,E(S)表 示數(shù)據(jù)整體熵,E(S|x)表示增加的數(shù)據(jù)熵.
根據(jù)計(jì)算得出的信息增益,計(jì)算數(shù)據(jù)屬性的權(quán)重因子,計(jì)算公式如下:
根據(jù)式(2)找出n個(gè)權(quán)重因子最大的數(shù)據(jù)屬性,構(gòu)建一個(gè)n維屬性空間,在n維屬性空間中,計(jì)算樣本與類別之間的相似度和,如下:
式(3)中,y(x,Si)為樣本x與類別Si之間的相似度和;sim(x,di)表示x與訓(xùn)練文本di之間的相似度;y(di,Si)代表訓(xùn)練文本di與 類別Si之間的相似度;bj為類別Si的閾值.
具體過程如下:
步驟1.計(jì)算待分類樣本與訓(xùn)練集之間的距離,計(jì)算方法主要有歐幾里得、曼哈頓、馬氏距離等3 種.
(1)歐幾里得距離
轉(zhuǎn)換為:
式(5)中,i為(x,y)坐標(biāo)上的任意一點(diǎn).(xi,yi)為任意一點(diǎn)i上的坐標(biāo),n表示點(diǎn)個(gè)數(shù)的總量.
(2)曼哈頓距離
在平面上,坐標(biāo) (x1,y1)的點(diǎn)P1 與坐標(biāo)(x2,y2)的點(diǎn)P2的曼哈頓距離為:
(3)馬氏距離
假設(shè)樣本點(diǎn)為:
式中,T 表示轉(zhuǎn)置符號(hào).數(shù)據(jù)集分布的均值f為:
則樣本點(diǎn)元素xi與 均值f之間的馬氏距離d(xi,f)為:
式中,σ為均值權(quán)重.
上述3 種距離計(jì)算方法中,歐幾里得距離有時(shí)不能滿足實(shí)際需求,沒有考慮到總體樣本數(shù)據(jù)變異對(duì)距離遠(yuǎn)近的影響;馬氏距離在絕大多數(shù)情況下是可以順利計(jì)算的,但由于協(xié)方差矩陣的影響,馬氏距離的計(jì)算不穩(wěn)定;而曼哈頓距離依賴座標(biāo)系統(tǒng)的轉(zhuǎn)度進(jìn)行距離測(cè)算,可以應(yīng)用于多種類型數(shù)據(jù)的計(jì)算.因此,本文計(jì)算待分類樣本與訓(xùn)練集之間的距離時(shí),更適合使用曼哈頓距離計(jì)算.
步驟2.按距離遞增次序排序;
步驟3.選取與當(dāng)前點(diǎn)距離最小的k個(gè)病歷;
步驟4.統(tǒng)計(jì)前k個(gè)病歷所在的類別出現(xiàn)的頻率;
步驟5.返回前k個(gè)病歷出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類.
由于在預(yù)分類過程中,多學(xué)科決策過程面臨大量數(shù)據(jù),導(dǎo)致分類過程陷入不收斂的境地,故采用支持向量機(jī)(SVM)算法解決該現(xiàn)象.支持向量機(jī)(SVM)是一種可以訓(xùn)練的機(jī)器學(xué)習(xí)算法,簡單的說是一個(gè)分類器,并且是二類分類器[19].其定理描述如下:
將診療數(shù)據(jù)分為一個(gè)超平面:
式中,Rj為j維超平面;(w,x)表示內(nèi)積;w為可調(diào)權(quán)值向量;b為偏置,超平面相對(duì)原點(diǎn)的偏移.
對(duì)式(8)進(jìn)行歸一化處理:
式(9)中,r表示分類間隔,其滿足條件為:
根據(jù)分類間隔滿足條件可知,如果分類間隔呈現(xiàn)最小值,則呈現(xiàn)線性可分狀態(tài),是因?yàn)槔梅蔷€性映射,將低維特征空間線性不可分的模式轉(zhuǎn)換為高維特征空間線性可分的模式;如果分類間隔呈現(xiàn)最大值,則對(duì)高維特征空間進(jìn)行分類或回歸,但是在高維特征空間運(yùn)算時(shí)會(huì)出現(xiàn)多維現(xiàn)象,致使在分類預(yù)處理的過程需要重新進(jìn)行計(jì)算,存在計(jì)算時(shí)間長、運(yùn)算過程復(fù)雜等因素.由此,利用核函數(shù)技術(shù)可以快速的解決該問題.達(dá)到數(shù)據(jù)降維的效果.對(duì)于核函數(shù)的選擇,缺乏統(tǒng)一的指導(dǎo)規(guī)則,不同的核函數(shù)適用于不同的領(lǐng)域研究,但多項(xiàng)實(shí)驗(yàn)結(jié)果表明,徑向基核函數(shù)具有較好的適用性,不會(huì)出現(xiàn)太大偏差,降維效果好,且能有效保障有效信息的完整性,其中高斯核函數(shù)是一種非常具有代表性的徑向基核函數(shù),相較于線性核、多項(xiàng)式核函數(shù),高斯核函數(shù)只有一個(gè)參數(shù),容易選擇,決策邊界更為多樣,且高斯核函數(shù)能夠映射到無限維,優(yōu)勢(shì)明顯,因此采用高斯核函數(shù)進(jìn)行數(shù)據(jù)降維.計(jì)算公式如下:
高斯核函數(shù):
式中,a為參數(shù).
數(shù)據(jù)降維中,為保證有效信息的完整性,整個(gè)降維過程遵循兩個(gè)原則:一個(gè)是最近重構(gòu)性,使用降維后的數(shù)據(jù)重構(gòu)原始數(shù)據(jù)時(shí)誤差最小;二是在低維空間中將數(shù)據(jù)盡量分開.
利用高斯核函數(shù)完成數(shù)據(jù)降維后,融合改進(jìn)K-NN與 SVM ,來提高診療準(zhǔn)確性.CDA (HL7 臨床文檔結(jié)構(gòu) Clinical Document Architecture)是以交換文檔為目的,指定結(jié)構(gòu)和語意的文檔標(biāo)記標(biāo)準(zhǔn).CDA 文檔由頭和體構(gòu)成,頭是對(duì)文檔進(jìn)行分類,包括文檔信息、服務(wù)提供者和服務(wù)對(duì)象,包括受訪數(shù)據(jù)、患者等;體是臨床報(bào)告,由可插入的內(nèi)容框架構(gòu)成.分為4 部分:節(jié),段,列表,表格.HL7 臨床文檔是一個(gè)具有法律效應(yīng)的臨床信息集合[20].CDA 能夠借助于XML、HL7 的參考信息模型和詞匯編碼表,利用機(jī)器處理分析病歷文檔,分析結(jié)果既能夠被電子檢索,也能夠被人閱讀.引入CDA概念,能夠通過機(jī)器處理實(shí)現(xiàn)改進(jìn)K-NN 分類算法和SVM 算法的有效融合,以此優(yōu)化多學(xué)科協(xié)作診療決策支持系統(tǒng),并提升該系統(tǒng)的有效性.
設(shè)T為測(cè)試集,Q為T的相應(yīng)類別集合,待測(cè)分類樣本為x,給定的改進(jìn)K-NN 算法針對(duì)每個(gè)類別的可信度閾值為ei(ei>0),i=1,2,···,n,改進(jìn)K-NN 與 SVM融合算法描述如圖3所示.
根據(jù)圖3可知,首先利用改進(jìn)K-NN 算法對(duì)待分類的樣本(病人數(shù)據(jù))進(jìn)行預(yù)分類,將改進(jìn)K-NN 全部輸出類別作為候選,采用SVM 分類器對(duì)待分類的樣本進(jìn)行分類,根據(jù)模式識(shí)別理論會(huì)出現(xiàn)兩種情況,一種是線性可分,另一種是“維數(shù)災(zāi)難”,需要返回分類預(yù)處理階段重新開始計(jì)算,但是采用核函數(shù)技術(shù)可以進(jìn)行降維處理;然后將CDA 概念引入其中;最后融合改進(jìn)KNN 算法和SVM 算法,完成多學(xué)科協(xié)作診療決策.
圖3 改進(jìn)K-NN 分類算法和SVM 融合推理流程
傳統(tǒng)診療決策支持更多的是依賴醫(yī)生自身身的醫(yī)學(xué)知識(shí)和多年積累的臨床診斷經(jīng)驗(yàn),然后在系統(tǒng)幫助下進(jìn)行醫(yī)療診斷的.目前主要傳統(tǒng)系統(tǒng)主要有基于辨證論治內(nèi)涵的智能中醫(yī)診療決策系統(tǒng)、基于心臟團(tuán)隊(duì)模式的多學(xué)科診療實(shí)施系統(tǒng)、國內(nèi)分級(jí)診療現(xiàn)狀的評(píng)價(jià)系統(tǒng)、基于系統(tǒng)復(fù)雜性的中醫(yī)診療信息分層可視化系統(tǒng)、基于Web 的心血管分析、診斷和治療系統(tǒng)和基于大數(shù)據(jù)挖掘和云計(jì)算的疾病診療推薦系統(tǒng)等.為了驗(yàn)證本文系統(tǒng)的有效性,采用本文系統(tǒng)、文獻(xiàn)[2-7]的系統(tǒng)進(jìn)行對(duì)比實(shí)驗(yàn).
本文實(shí)驗(yàn)環(huán)境配置信息如表1所示.
表1 開發(fā)環(huán)境配置信息
實(shí)驗(yàn)數(shù)據(jù)來源于藥度據(jù)庫(https://data.pharmacodia.com/),共采集數(shù)據(jù)5000 個(gè),進(jìn)行50 組實(shí)驗(yàn),每次使用100 個(gè)數(shù)據(jù).
本實(shí)驗(yàn)選用587 患者,其中男患者355 人,女患者232 人,包括兒童、青年、中年、老年等各個(gè)年齡段,進(jìn)行測(cè)試.
(1)診療精度:以往精度主要體現(xiàn)在準(zhǔn)確率、召回率,但是這是兩個(gè)分裂質(zhì)量的兩個(gè)不同方面,所以更為好的精度評(píng)價(jià)就是將二者集合考慮,不可偏頗,所以產(chǎn)生一種新的評(píng)價(jià)指標(biāo)F1 測(cè)試值,F1 測(cè)試值是用來衡量二分類模型精確度的一種指標(biāo),F1 測(cè)試值可以看作是模型準(zhǔn)確率和召回率的一種加權(quán)平均數(shù),公式如下:
式中,N1為 準(zhǔn)確率,N2為召回率.
(2)數(shù)據(jù)分類結(jié)果準(zhǔn)確率:當(dāng)多學(xué)科決策過程面臨多數(shù)據(jù)時(shí),分類過程會(huì)完全陷入不收斂的境地,嚴(yán)重降低了分類結(jié)果,所以本文采用支持向量機(jī)(SVM)算法解決此問題,能夠提高分類結(jié)果準(zhǔn)確率.
(3)高維特征空間運(yùn)算時(shí)間:高維特征空間運(yùn)算是多學(xué)科協(xié)作診療決策過程中最重要的運(yùn)算過程,能夠?qū)Ψ诸愋十a(chǎn)生影響,運(yùn)算時(shí)間越快,分類效率越高.本文使用正文中核函數(shù)技術(shù),與文獻(xiàn)[2-5]系統(tǒng)對(duì)高維特征空間運(yùn)算時(shí)間進(jìn)行對(duì)比.
(4)誤診率:較多多學(xué)科協(xié)作診療決策支持系統(tǒng)會(huì)借助計(jì)算機(jī)的處理能力輔助醫(yī)生做出更為準(zhǔn)確的診斷判斷,同時(shí)也會(huì)出現(xiàn)誤診率,大大降低了診療效果,為此采用本文系統(tǒng)、文獻(xiàn)[4-7]系統(tǒng)進(jìn)行對(duì)比分析.
(5)相似度匹配:利用得到的患者數(shù)據(jù)信息和病歷倉庫中的信息進(jìn)行匹配,檢索出相似的病歷,并以此推理出目標(biāo)病歷的解,其實(shí)質(zhì)是計(jì)算患者病歷與病歷倉庫臨床案例之間的相似度,來實(shí)現(xiàn)患者病因的診斷,相似度匹配率越高,其診斷結(jié)果的準(zhǔn)確性就越高.
(6)算法復(fù)雜度分析:改進(jìn)K-NN 分類算法和SVM算法自身都需一定的運(yùn)算復(fù)雜度,對(duì)兩者結(jié)合以后的整體運(yùn)算復(fù)雜度進(jìn)行綜合分析,能夠測(cè)試本文算法的實(shí)際應(yīng)用性能.因此,以算法復(fù)雜度為指標(biāo)進(jìn)行分析,從時(shí)間復(fù)雜度和空間復(fù)雜度兩方面入手分析,算法時(shí)間復(fù)雜度的計(jì)算公式如下:
式中,t表示算法運(yùn)行總時(shí)長,t1、t2、t3、t4表示算法運(yùn)行中各步驟操作所需時(shí)間,α1、α2、α3、α4表示各步驟對(duì)應(yīng)的運(yùn)算次數(shù).
空間復(fù)雜度通常與算法運(yùn)行次數(shù)相關(guān),假設(shè)算法的平均運(yùn)算次數(shù)為,則空間復(fù)雜度可表示為O ((α′)2),因此算法復(fù)雜度的計(jì)算公式可表示為:
從表2中可以看出,利用本系統(tǒng)對(duì)587 患者進(jìn)行診斷,其F1 測(cè)試平均值為95.98%,而在文獻(xiàn)[4-7]系統(tǒng)應(yīng)用下,F1 測(cè)試平均值分別為54.14%、84.4%、75.2%和58.1%.
表2 系統(tǒng)診療精度測(cè)試結(jié)果(%)
為了進(jìn)一步驗(yàn)證本文系統(tǒng)的有效性,采用本文系統(tǒng)、文獻(xiàn)[2-5]系統(tǒng)對(duì)數(shù)據(jù)分類結(jié)果的準(zhǔn)確率進(jìn)行對(duì)比分析,對(duì)比結(jié)果如圖4所示.
圖4 數(shù)據(jù)分類結(jié)果準(zhǔn)確率對(duì)比
根據(jù)圖4可知,本文系統(tǒng)的數(shù)據(jù)分類結(jié)果準(zhǔn)確率在72%~95%之間,呈上升趨勢(shì);文獻(xiàn)[2]系統(tǒng)的數(shù)據(jù)分類結(jié)果準(zhǔn)確率在32%~60%之間;文獻(xiàn)[3]系統(tǒng)的數(shù)據(jù)分類結(jié)果準(zhǔn)確率在26%~70%之間;文獻(xiàn)[4]系統(tǒng)的數(shù)據(jù)分類結(jié)果準(zhǔn)確率在27%~72%之間;文獻(xiàn)[5]系統(tǒng)的數(shù)據(jù)分類結(jié)果準(zhǔn)確率在29%~73%之間.說明本文系統(tǒng)的數(shù)據(jù)分類結(jié)果準(zhǔn)確率比文獻(xiàn)[2]系統(tǒng)、文獻(xiàn)[3]系統(tǒng)、文獻(xiàn)[4]系統(tǒng)和文獻(xiàn)[5]系統(tǒng)的分類結(jié)果準(zhǔn)確率高,是因?yàn)槎鄬W(xué)科決策過程面臨多數(shù)據(jù)時(shí),分類過程容易陷入不收斂的境地,導(dǎo)致分類結(jié)果準(zhǔn)確率較低,而本文系統(tǒng)在K-NN 分類算法的基礎(chǔ)上,利用支持向量機(jī)(SVM)算法解決不收斂的問題,提高了分類結(jié)果準(zhǔn)確率.
為了驗(yàn)證本文系統(tǒng)的有效性,采用本文系統(tǒng)、文獻(xiàn)[2-5]系統(tǒng)對(duì)高維特征空間運(yùn)算時(shí)間進(jìn)行對(duì)比分析,對(duì)比結(jié)果如圖5所示.
圖5 運(yùn)算時(shí)間對(duì)比結(jié)果
根據(jù)圖5可知,采用本文系統(tǒng)對(duì)高維特征空間進(jìn)行計(jì)算,其運(yùn)算時(shí)間在5s以下;采用文獻(xiàn)[2]系統(tǒng)對(duì)高維特征空間進(jìn)行計(jì)算,其運(yùn)算時(shí)間在10s以下;采用文獻(xiàn)[3]系統(tǒng)對(duì)高維特征空間進(jìn)行計(jì)算,其運(yùn)算時(shí)間在15s以下;采用文獻(xiàn)[4]系統(tǒng)對(duì)高維特征空間進(jìn)行計(jì)算,其運(yùn)算時(shí)間在16s以下;采用文獻(xiàn)[5]系統(tǒng)對(duì)高維特征空間進(jìn)行計(jì)算,其運(yùn)算時(shí)間在21s以下.采用本文系統(tǒng)對(duì)高維特征空間進(jìn)行計(jì)算,其運(yùn)算時(shí)間比傳統(tǒng)系統(tǒng)的運(yùn)算時(shí)間短,是因?yàn)楸疚南到y(tǒng)采用中核函數(shù)技術(shù)做降維處理,從而提高了分類效率.
為了驗(yàn)證本文方法的誤診率,采用本文系統(tǒng)、文獻(xiàn)[4-7]系統(tǒng)進(jìn)行對(duì)比分析,對(duì)比結(jié)果如圖6所示.
根據(jù)圖6可知,本文系統(tǒng)的誤診率隨著實(shí)驗(yàn)次數(shù)的增長而逐漸降低,其誤診率在30%以下;文獻(xiàn)[4]系統(tǒng)的誤診率在50% 以下;文獻(xiàn)[5]系統(tǒng)的誤診率在75%以下;文獻(xiàn)[6]系統(tǒng)的誤診率在80%以下;文獻(xiàn)[7]系統(tǒng)的誤診率在61%以下.本文系統(tǒng)的誤診率比傳統(tǒng)系統(tǒng)的誤診率低,說明本文系統(tǒng)具有較高的診療效果.
圖6 誤診率對(duì)比結(jié)果
為了進(jìn)一步驗(yàn)證本文系統(tǒng)的有效性,采用本文系統(tǒng)、文獻(xiàn)[2-5]系統(tǒng),對(duì)患者病歷與病歷倉庫臨床案例之間的相似度進(jìn)行匹配,匹配結(jié)果如圖7所示.
圖7 相似度匹配率對(duì)比結(jié)果
根據(jù)圖7可知,采用本文系統(tǒng)對(duì)患者病歷與病歷倉庫臨床案例之間的相似度進(jìn)行匹配,匹配率在90%~100%之間;采用文獻(xiàn)[2]系統(tǒng)對(duì)患者病歷與病歷倉庫臨床案例之間的相似度進(jìn)行匹配,匹配率在60%~80%之間;采用文獻(xiàn)[3]系統(tǒng)對(duì)患者病歷與病歷倉庫臨床案例之間的相似度進(jìn)行匹配,匹配率在40%以下;采用文獻(xiàn)[4]系統(tǒng)對(duì)患者病歷與病歷倉庫臨床案例之間的相似度進(jìn)行匹配,匹配率在70%~90%之間;采用文獻(xiàn)[5]系統(tǒng)對(duì)患者病歷與病歷倉庫臨床案例之間的相似度進(jìn)行匹配,匹配率在40%~50%之間.本文系統(tǒng)的相似度匹配比傳統(tǒng)系統(tǒng)的相似度匹配高,說明其診斷結(jié)果的準(zhǔn)確性高.由此可知,本文系統(tǒng)的診療精度更好,能更有效幫助醫(yī)生做出準(zhǔn)確的診斷結(jié)果和治療方案,保證了患者的生命健康.
依據(jù)式(15)和式(16),計(jì)算本文算法的復(fù)雜度,與文獻(xiàn)[5-7]進(jìn)行對(duì)比,具體分析情況如表3所示.
表3 算法復(fù)雜度分析(單位:s)
根據(jù)表3對(duì)算法復(fù)雜度的分析,可以看出,本文算法的復(fù)雜度相對(duì)較低,用量化數(shù)值計(jì)算,具體為10 s 完成算法運(yùn)行,遠(yuǎn)遠(yuǎn)低于文獻(xiàn)[5-7]算法的復(fù)雜度,能夠滿足實(shí)際需求,由此驗(yàn)證了本文算法的實(shí)際應(yīng)用性.
綜上所述,隨著生活水平的提高,人類健康狀況反而越加嚴(yán)重,因此各種醫(yī)療機(jī)構(gòu)每天涌入大量患者進(jìn)行就醫(yī),并希望醫(yī)生給出有效的治療建議.為此,輔助醫(yī)生進(jìn)行決策的診療系統(tǒng)應(yīng)運(yùn)而生.然而,當(dāng)前較為常用的幾個(gè)類型的診療決策支持系統(tǒng),在精度上還無法完全達(dá)到需求,因此本次研究了基于改進(jìn)K-NN 分類算法和SVM 的多學(xué)科協(xié)作診療決策支持系統(tǒng).該系統(tǒng)利用改進(jìn)K-NN 算法和SVM 對(duì)患者病情信息進(jìn)行分類,從而根據(jù)分類結(jié)果得出診斷結(jié)果.該系統(tǒng)經(jīng)過測(cè)試,實(shí)現(xiàn)了研究的預(yù)期目標(biāo),即降低了誤診率,診斷精度得到了提高,且分類結(jié)果準(zhǔn)確率較高、在分類過程中,運(yùn)算時(shí)間較短,對(duì)患者病歷與病歷倉庫臨床案例之間的相似度進(jìn)行匹配的結(jié)果較好,說明本系統(tǒng)能更好的輔助醫(yī)生進(jìn)行診斷,提高了醫(yī)生工作效率,為人們健康提供了保證.鑒于本文系統(tǒng)診療推理模塊的特性,結(jié)合臨床知識(shí)和術(shù)語庫,將知識(shí)推理和本文算法相結(jié)合是日后的研究重點(diǎn).基于改進(jìn)K-NN 分類算法和SVM 的多學(xué)科協(xié)作診療決策支持系統(tǒng)的研究目前還處于初始階段,對(duì)日后案例的修正和形成是實(shí)現(xiàn)多學(xué)科協(xié)作診療決策支持實(shí)用性的基礎(chǔ).