焦瑋 楊雪寒 孟潔 張倩
摘 要: 為了利用電子醫(yī)療檔案實(shí)現(xiàn)對(duì)患者疾病的智能診斷,提出了一種結(jié)合模糊C均值聚類和區(qū)間二型小腦模型關(guān)節(jié)神經(jīng)網(wǎng)絡(luò)(FCM-IT2CMAC)的兩層分類算法。該算法使用了兩個(gè)分類器,其中小腦模型神經(jīng)網(wǎng)絡(luò)是主分類器,模糊C均值算法是預(yù)分類器。首先,使用預(yù)分類器將樣本數(shù)據(jù)分組,然后應(yīng)用主分類器確定樣本是否處于健康或患病狀態(tài)。此外還采用梯度下降法自適應(yīng)訓(xùn)練主分類算法的參數(shù),并使用李雅普諾夫穩(wěn)定性理論證明了算法的收斂性。最后通過實(shí)驗(yàn)證明該分類算法的有效性。
關(guān)鍵詞: 分類問題; 小腦模型神經(jīng)網(wǎng)絡(luò); 模糊C均值聚類算法; 醫(yī)學(xué)診斷
中圖分類號(hào): TP391 ? ? ?文獻(xiàn)標(biāo)志碼: A
Abstract: In order to realize the intelligent diagnosis of patients diseases by using electronic medical files, this paper proposes a two-layer classification algorithm combining fuzzy C-means clustering and interval type II cerebellar model joint neural network (FCM-IT2CMAC). The algorithm uses two classifiers, in which the cerebellar model neural network is the main classifier and the fuzzy C-means algorithm is the pre-classifier. First, the sample data are grouped using a pre-classifier, and then the main classifier is applied to determine if the sample is in a healthy or diseased state. In addition, the gradient descent method is used to adaptively train the parameters of the main classification algorithm, and the convergence of the algorithm is proved by Lyapunov stability theory. Finally, the effectiveness of the classification algorithm is proved by experiments.
Key words: classification problem; cerebellar model neural network; fuzzy C-means clustering algorithm; medical diagnosis
0 引言
將數(shù)據(jù)分析算法應(yīng)用于電子醫(yī)療檔案的數(shù)據(jù)分析能夠?qū)崿F(xiàn)對(duì)是否患病的智能診斷。已有研究提出一些針對(duì)電子醫(yī)療數(shù)據(jù)集的數(shù)據(jù)二分類算法[1-3]。文獻(xiàn)[4]提出了一種基于決策樹模型的疾病診斷模型。文獻(xiàn)[5]提出了一種用于肝病早期診斷的神經(jīng)網(wǎng)絡(luò)分類算法。為此本文提出一種模糊C均值聚類算法(FCM)[6]和區(qū)間二型模糊小腦模型神經(jīng)網(wǎng)絡(luò)算法(IT2CMAC)[7]相結(jié)合的兩層醫(yī)療數(shù)據(jù)分類算法,以期實(shí)現(xiàn)基于電子醫(yī)療檔案的疾病準(zhǔn)確診斷。該算法在參數(shù)訓(xùn)練過程中,首先利用模糊C均值聚類算法將訓(xùn)練數(shù)據(jù)劃分為nc組,然后利用這些數(shù)據(jù)組訓(xùn)練區(qū)間二型模糊小腦模型神經(jīng)網(wǎng)絡(luò)算法。其中區(qū)間二型模糊小腦模型神經(jīng)網(wǎng)絡(luò)算法是基于區(qū)間二型模糊神經(jīng)網(wǎng)絡(luò)(IT2FNN)和小腦模型神經(jīng)網(wǎng)絡(luò)(CMAC)所提出的改進(jìn)分類算法,兼具兩種算法的優(yōu)點(diǎn)。在實(shí)際疾病診斷過程中,也使用FCM對(duì)數(shù)據(jù)進(jìn)行預(yù)分組,隨后將數(shù)據(jù)組分配給相應(yīng)的經(jīng)過參數(shù)訓(xùn)練的區(qū)間二型模糊小腦模型神經(jīng)網(wǎng)絡(luò)分類算法,實(shí)現(xiàn)對(duì)是否患病的判斷。通過實(shí)驗(yàn)證明該算法能夠準(zhǔn)確對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類處理。
1 算法設(shè)計(jì)
基于模糊C均值聚類的區(qū)間二型模糊小腦模型神經(jīng)網(wǎng)絡(luò)(FCM-IT2CMAC)分類算法的運(yùn)行原理,如圖1所示。
3 實(shí)驗(yàn)結(jié)果
將上述算法應(yīng)用于乳腺癌相關(guān)的電子醫(yī)療檔案數(shù)據(jù)集進(jìn)行是否患病的分類診斷。實(shí)驗(yàn)在Matlab R2016a上完成,運(yùn)行于桌面Windows 7(64位),處理器為Intel Core i7(3.6 GHz),內(nèi)存為16GB。首先,以70∶30的比例將數(shù)據(jù)集隨機(jī)分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。然后,利用FCM預(yù)分類器根據(jù)訓(xùn)練數(shù)據(jù)集的特征,將訓(xùn)練數(shù)據(jù)集劃分為nc組。然后,使用nc組訓(xùn)練數(shù)據(jù)集對(duì)IT2CMAC分類器進(jìn)行訓(xùn)練。在測(cè)試過程中,同樣使用FCM預(yù)分類器,將測(cè)試數(shù)據(jù)分配給最適合的訓(xùn)練過的IT2CMAC分類器。為了選擇合適的聚類數(shù)目,實(shí)驗(yàn)采用nc=1,2,…,10。采用精度(ACC)、靈敏度(SEN)和特異度(SPE)三種性能指標(biāo)評(píng)估該分類器的分類性能[16],如表1所示。
為保證比較公平,實(shí)驗(yàn)結(jié)果平均重復(fù)100次,隨機(jī)抽取數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試分類過程。
實(shí)驗(yàn)所用的乳腺癌數(shù)據(jù)集包含699名患者的數(shù)據(jù),其中有16個(gè)樣本值缺失。本實(shí)驗(yàn)剔除了缺失的樣本數(shù)據(jù),使用其余的683個(gè)實(shí)例。該數(shù)據(jù)集包含239個(gè)(35%)惡性實(shí)例和444個(gè)(65%)良性實(shí)例。每個(gè)實(shí)例都有十個(gè)獨(dú)立的屬性,如表2所示。
第一階段采用模糊c均值聚類算法將測(cè)試數(shù)據(jù)分配到相應(yīng)的聚類中。然后,應(yīng)用IT2CMANN對(duì)每個(gè)集群進(jìn)行1 000次迭代訓(xùn)練。為了得到FCM-IT2CMANN中最優(yōu)的簇?cái)?shù)(聚類),對(duì)不同簇?cái)?shù)(聚類)的實(shí)驗(yàn)結(jié)果重復(fù)100次,如表3所示。
由表4可知,本文提出的結(jié)合模糊C均值和IT2CMANN的分類算法比其他分類方法具有更好的分類性能,在預(yù)測(cè)乳腺癌診斷方面提供了最高的準(zhǔn)確性。需要注意的是,表3的數(shù)據(jù)表明分類準(zhǔn)確性會(huì)隨聚類數(shù)量的不同而變化。
4 總結(jié)
為了基于已有的電子醫(yī)療檔案實(shí)現(xiàn)樣本是否患病的準(zhǔn)確分類,本文設(shè)計(jì)了一種結(jié)合FCM和CMAC的兩層分類算法。提出的分類算法有兩個(gè)主要步驟。第一步應(yīng)用FCM對(duì)數(shù)據(jù)集進(jìn)行劃分,將醫(yī)療數(shù)據(jù)集劃分成適合的聚類。第二步應(yīng)用CMAC對(duì)分組的醫(yī)療數(shù)據(jù)進(jìn)行是否患病的分類。實(shí)驗(yàn)結(jié)果表明,與其他方法相比,該分類器具有更高的精度。此外采用梯度下降法能夠自適應(yīng)地更新神經(jīng)網(wǎng)絡(luò)算法的權(quán)值參數(shù)。通過實(shí)驗(yàn)表明,所提出的算法能夠較為準(zhǔn)確地基于實(shí)驗(yàn)醫(yī)療檔案數(shù)據(jù)實(shí)現(xiàn)對(duì)乳腺癌地診斷。可以預(yù)見,本研究結(jié)果能夠低成本地?cái)U(kuò)展到其他疾病的診斷。需要注意的是,本研究的局限性在于聚類數(shù)量對(duì)算法性能有顯著影響,因此應(yīng)用一些先進(jìn)的方法找出合適數(shù)量的聚類和對(duì)較大的數(shù)據(jù)集進(jìn)行測(cè)試需要更加深入的研究。
參考文獻(xiàn)
[1] 劉超,吳申,鄭一超,等.基于深度森林和DNA甲基化的癌癥分類研究[J].計(jì)算機(jī)工程與應(yīng)用, 2019,7(14):189-193.
[2] 范家偉,張如如,陸萌,等.深度學(xué)習(xí)方法在糖尿病視網(wǎng)膜病變?cè)\斷中的應(yīng)用[J].自動(dòng)化學(xué)報(bào),2019,7(14):1-21.
[3] 張?jiān)矫?,趙洪波,朱亞玲,等.基于數(shù)據(jù)挖掘分析KIF2C在肝細(xì)胞癌的表達(dá)及臨床意義[J/OL].重慶醫(yī)科大學(xué)學(xué)報(bào),2019(11):1454-1457.
[4] 高云龍,楊程宇,王志豪,等.簇間可分的魯棒模糊C均值聚類算法[J].電子與信息學(xué)報(bào),2019,41(5):1114-1121.
[5] 郭海湘,黃媛玥,顧明赟,等.基于自適應(yīng)多分類器系統(tǒng)的甲狀腺疾病診斷方法研究[J].系統(tǒng)工程理論與實(shí)踐,2018,38(8):2123-2134.
[6] 商顯震,韓萌,孫毓忠,等.融合生成對(duì)抗網(wǎng)絡(luò)和樸素貝葉斯皮膚病診斷方法[J].計(jì)算機(jī)科學(xué)與探索,2019,13(6):1005-1015.
[7] 楊雪,劉惠義,陳霜霜.基于DRBM和邊緣檢測(cè)的腦部磁共振圖像分類[J].信息技術(shù),2018(5):129-132.
[8] 劉露,楊培亮,孫巍巍,等.深度置信網(wǎng)絡(luò)對(duì)孤立性肺結(jié)節(jié)良惡性的分類[J].哈爾濱理工大學(xué)學(xué)報(bào),2018,23(3):9-15.
[9] 閆慈,田翔華,阿拉依·阿汗,等.基于重采樣技術(shù)在醫(yī)學(xué)不平衡數(shù)據(jù)分類中的應(yīng)用研究[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2018,35(2):177-180.
[10] 季挺,張華.基于CMAC的非參數(shù)化近似策略迭代增強(qiáng)學(xué)習(xí)[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(2):128-136.
[11] 王家軍.一種新型區(qū)間二型模糊神經(jīng)網(wǎng)絡(luò)隸屬函數(shù)的設(shè)計(jì)[J].自動(dòng)化學(xué)報(bào),2017,43(8):1425-1433.
[12] 王莉莉,付忠良,陶攀,等.基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost算法的心臟病分類[J].計(jì)算機(jī)應(yīng)用,2017,37(7):1994-1998.
[13] 張兆晨,冀俊忠.基于卷積神經(jīng)網(wǎng)絡(luò)的fMRI數(shù)據(jù)分類方法[J].模式識(shí)別與人工智能,2017,30(6):549-558.
[14] 高俊龍,袁如意,易建強(qiáng),等.基于一型模糊規(guī)則自主構(gòu)建二型TSK神經(jīng)模糊系統(tǒng)方法設(shè)計(jì)[J].控制理論與應(yīng)用,2016,33(12):1614-1629.
[15] 劉云平,李渝,陳城,等.基于李雅普諾夫指數(shù)的非完整約束系統(tǒng)穩(wěn)定性[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,44(12):98-101.
[16] 劉廣,孫艷秋,裴媛.基于C4.5決策樹算法的中醫(yī)胃炎實(shí)驗(yàn)數(shù)據(jù)分類挖掘研究[J].中華中醫(yī)藥學(xué)刊,2016,34(12):2958-2961.
(收稿日期: 2019.07.16)