蔡莉莉,侯珂珂
(1.中山大學(xué)新華學(xué)院生物醫(yī)學(xué)工程學(xué)院,廣州510520;2.中山大學(xué)新華學(xué)院健康學(xué)院,廣州510520)
分類問題作為數(shù)據(jù)挖掘和模式識別領(lǐng)域的重要問題之一,一直以來受到眾多科研學(xué)者的廣泛關(guān)注。在我們的生活實際應(yīng)用中常常會遇到分類問題,最常見的如基于醫(yī)療數(shù)據(jù)集的疾病診斷問題,它是一種典型的分類問題。根據(jù)醫(yī)療儀器設(shè)備獲取的疾病的生理指標(biāo)數(shù)據(jù),采用數(shù)據(jù)挖掘和機器學(xué)習(xí)算法可以構(gòu)建出分類決策模型,從而實現(xiàn)對疾病類型的分類和診斷。
隨著智慧醫(yī)療概念的提出,越來越多的人工智能算法技術(shù)被應(yīng)用于醫(yī)療分類問題的研究中,用以輔助醫(yī)生臨床疾病診斷。杜權(quán)等人分別采用支持向量機、隨機森林算法和1維卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練出心律失常檢測模型,檢測心律失常準(zhǔn)確率高達(dá)97.17%[1]。苗豐順等人提出了一種基于Cat?Boost算法的糖尿病診斷模型,取得了較為優(yōu)異的預(yù)測結(jié)果[2]。神經(jīng)網(wǎng)絡(luò)具有強大的非線性映射能力,常用于分類問題研究中。吳燎將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于中醫(yī)疾病診斷中,實現(xiàn)了對高血壓、胃病和冠心病的高效預(yù)測。王增輝構(gòu)建出基于人工神經(jīng)網(wǎng)絡(luò)的心臟病預(yù)測模型,模型的分類準(zhǔn)確率達(dá)到85.7%[3]。
醫(yī)療數(shù)據(jù)分類預(yù)測模型準(zhǔn)確率的提高非常依賴模型能否有效挖掘出數(shù)據(jù)內(nèi)在特征,將數(shù)據(jù)集的有效特征提取出來進(jìn)行建模有助于改善模型分類精度。受限玻爾茲曼機(restricted boltzmann ma?chine,RBM)因為具有較為顯著的特征表達(dá)能力,被廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)中作為特征提取的有效手段[4]。2006年,Hinton提出由堆疊多個RBM構(gòu)成的深度置信網(wǎng)絡(luò)(deep belief network,DBN)架構(gòu),并將其應(yīng)用于圖像分類問題研究中,深度學(xué)習(xí)的概念由此被提出[5,6]。本文利用RBM強大的特征提取能力,在深度置信網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上進(jìn)行改進(jìn),提出一種基于回歸權(quán)的深度置信網(wǎng)絡(luò)結(jié)構(gòu),并將其應(yīng)用于醫(yī)療數(shù)據(jù)分類問題研究中。實驗部分針對3個醫(yī)療數(shù)據(jù)集,分別利用改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和傳統(tǒng)DBN網(wǎng)絡(luò)進(jìn)行預(yù)測,以驗證其有效性。
神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)算法一般使用反向傳播算法,即BP算法。BP算法是一種經(jīng)典的有監(jiān)督學(xué)習(xí)算法,訓(xùn)練過程極度依賴有標(biāo)簽的樣本數(shù)據(jù)。并且使用BP算法在訓(xùn)練過程中,其參數(shù)初始值通常采用隨機初始化的方式獲得,這種隨機初始值很容易使得梯度下降尋優(yōu)過程中陷入局部極值,導(dǎo)致結(jié)果較差。Hinton提出的深度置信網(wǎng)絡(luò)是利用多個玻爾茲曼機進(jìn)行堆疊形成的一種生成模型,利用RBM使用無監(jiān)督算法訓(xùn)練的優(yōu)勢,不僅可以有效保留其優(yōu)秀的特征提取能力,且預(yù)訓(xùn)練獲得的參數(shù)可以作為BP參數(shù)尋優(yōu)的初始值,從而提高收斂速度[6]。圖1為RBM結(jié)構(gòu)圖,圖2為由兩個RBM堆疊形成的DBN示意圖。
圖1 RBM網(wǎng)絡(luò)結(jié)構(gòu)
圖2 2個RBM構(gòu)造的DBN結(jié)構(gòu)
從圖1中可以看出,RBM共包含兩層:可見層和隱含層。觀察RBM的網(wǎng)絡(luò)結(jié)構(gòu)可以發(fā)現(xiàn),其層內(nèi)節(jié)點間無連接,層間節(jié)點為全連接。圖1中ai、bi分別表示可見層節(jié)點和隱含層節(jié)點的偏置,W為層間節(jié)點的連接權(quán)??梢妼幼鳛閿?shù)據(jù)輸入,可以為二進(jìn)制數(shù)據(jù)或者實數(shù)型。RBM采用基于對比散度學(xué)習(xí)算法訓(xùn)練可見層和隱含層之間的連接權(quán)和偏置,使得RBM可以最大概率表征輸入數(shù)據(jù)的分布特征[7]。圖2描述了兩個RBM堆疊構(gòu)建DBN網(wǎng)絡(luò)的過程。核心是將第1個RBM的隱含層的輸出作為第2個RBM的輸入層,通過逐個訓(xùn)練RBM內(nèi)部層之間的連接權(quán),就獲得了權(quán)值的初始化參數(shù)。此種訓(xùn)練算法稱為逐層貪婪預(yù)訓(xùn)練算法[8]。
為了在DBN網(wǎng)絡(luò)基礎(chǔ)上實現(xiàn)分類的目的,往往需要在網(wǎng)絡(luò)后新增一個輸出決策層,用于輸出分類結(jié)果。一般情況下,輸出層與上一層的連接權(quán)默認(rèn)采用常數(shù)權(quán)。在此基礎(chǔ)上,本文考慮將回歸權(quán)系數(shù)作為最后輸出層與上一層的連接權(quán),而其他層的權(quán)值仍為常數(shù)權(quán)形式,在少量增加網(wǎng)絡(luò)訓(xùn)練復(fù)雜度的情況下,以提高網(wǎng)絡(luò)的泛化能力,如圖3所示。
圖3 基于回歸權(quán)的改進(jìn)DBN結(jié)構(gòu)
假設(shè)輸入x=(x1,x2,…,xn),隱層2的節(jié)點個數(shù)為l,其第k個節(jié)點的輸出值為Hk。則有回歸權(quán)系數(shù)表達(dá)式如(1)所示,決策層的輸出如式(2)所示。
這里aki(i=1,2,…,n)表示各回歸權(quán)值的系數(shù)因子。
針對上述改進(jìn)網(wǎng)絡(luò)的學(xué)習(xí)算法包括如下兩步:
(1)基于訓(xùn)練數(shù)據(jù)使用逐層貪婪預(yù)訓(xùn)練算法逐個訓(xùn)練RBM,獲得DBN網(wǎng)絡(luò)權(quán)值的初始化參數(shù)。
(2)在初始化參數(shù)的基礎(chǔ)上,利用BP算法進(jìn)行全局調(diào)優(yōu),其中輸出層的回歸權(quán)系數(shù)因子使用最小二乘法計算,其他各層的權(quán)值參數(shù)尋優(yōu)使用梯度下降算法調(diào)整。
本文選用UCI機器學(xué)習(xí)庫中常用于分類研究的三個醫(yī)療數(shù)據(jù)集進(jìn)行建模分析。他們分別是Wisconsin Breast Cancer數(shù)據(jù)集、Heart Disease數(shù)據(jù)集以及Mammographic masses數(shù)據(jù)集。其中Wis?consin Breast Cancer數(shù)據(jù)集和Mammographic mass?es數(shù)據(jù)集均為乳腺腫瘤圖像樣本數(shù)據(jù)集,可用于預(yù)測乳腺腫瘤的良惡性類別。Heart Disease數(shù)據(jù)集是一組病人體質(zhì)數(shù)據(jù),可用于預(yù)測患者是否患有心臟病。
Wisconsin Breast Cancer數(shù) 據(jù) 集 共 有569個 樣本數(shù)據(jù),無缺失數(shù)據(jù),其中良性樣本357例,惡性樣本212例。該數(shù)據(jù)集具有32個屬性,其中前兩個字段為病例編號和腫瘤良惡性標(biāo)簽值。本文中用于建模的特征為30個,記錄了腫瘤病灶組織細(xì)胞核半徑、周長、面積、平滑性等10個特征量的平均值、標(biāo)準(zhǔn)差和最差值。Mammographic masses數(shù)據(jù)集共有961條數(shù)據(jù),樣本中含有缺失數(shù)據(jù),剔除缺失數(shù)據(jù)樣本后,共有830條數(shù)據(jù)。該數(shù)據(jù)集提供了X射線照射乳腺腫瘤組織影像獲取的腫瘤形狀、密度、BI-RADS評級標(biāo)準(zhǔn)值以及病人年齡等5個輸入特征,最后一列記錄了良惡性類別。該樣本集共包含良性樣本427例,惡性樣本403例。Heart Disease數(shù)據(jù)集含有303條數(shù)據(jù),無缺失值,包含患病樣本138例,未患病樣本165例。每個輸入樣本記錄了病人的年齡、性別、血壓、血糖、膽固醇及心電圖相關(guān)的數(shù)據(jù)共計13個。針對各數(shù)據(jù)集中包含的值域比較分散的屬性,在下文進(jìn)行建模時分別進(jìn)行了歸一化的操作。
為了對比改進(jìn)DBN網(wǎng)絡(luò)結(jié)構(gòu)是否能有效改善分類模型的泛化能力,針對以上三個醫(yī)療樣本數(shù)據(jù)集,分別構(gòu)建出普通DBN結(jié)構(gòu)預(yù)測模型和回歸權(quán)DBN結(jié)構(gòu)模型進(jìn)行對比分析。網(wǎng)絡(luò)結(jié)構(gòu)均采用由兩個RBM堆疊形成,各層網(wǎng)絡(luò)節(jié)點個數(shù)通過粒子群優(yōu)化算法確定。參數(shù)初始化階段訓(xùn)練RBM采用對比散度快速學(xué)習(xí)算法,這里的學(xué)習(xí)率設(shè)定為0.1,迭代次數(shù)為50次。全局參數(shù)調(diào)整階段使用梯度下降算法進(jìn)行調(diào)優(yōu),損失函數(shù)為均方誤差。學(xué)習(xí)速率設(shè)定為0.1,迭代次數(shù)為500次。
模型評價指標(biāo)采用分類模型常用指標(biāo),包括分類準(zhǔn)確率、查準(zhǔn)率、查全率和F1分?jǐn)?shù),定義公式如式(3)—式(6)所示[9]。
這里,TP表示樣本真實類別為正例,且預(yù)測為正例的樣本個數(shù),TN表示樣本真實類別為負(fù)例且預(yù)測為負(fù)例的樣本個數(shù);FN表示樣本真實類別為正例但被錯判為負(fù)例的樣本個數(shù);FP表示樣本真實類別為負(fù)例但被錯判為正例的樣本數(shù)。
本文中為了方便對比,將良性類別記為P,惡性類別用N表示。
針對以上3個醫(yī)療數(shù)據(jù)集,分別構(gòu)建出基于常數(shù)權(quán)的DBN網(wǎng)絡(luò)和基于回歸權(quán)的DBN網(wǎng)絡(luò)分類模型。實驗中訓(xùn)練集和測試集的數(shù)據(jù)劃分比例均為7∶3。另外,為了減少訓(xùn)練隨機性對模型性能的影響,性能指標(biāo)皆取10次仿真結(jié)果的平均值。由此得到三個數(shù)據(jù)集中各測試集的性能指標(biāo)結(jié)果分別如表1、表2、表3所示。
表1 Wisconsin Breast Cancer實驗結(jié)果對比
表2 Heart Disease實驗結(jié)果對比
表3 Mammographic masses實驗結(jié)果對比
由表1—表3的仿真結(jié)果可以看出,采用改進(jìn)回歸權(quán)的DBN網(wǎng)絡(luò)構(gòu)建的分類模型在分類準(zhǔn)確率和F1分?jǐn)?shù)上較之原始DBN網(wǎng)絡(luò)結(jié)構(gòu)均有一定提升。且各分類模型的性能指標(biāo)值均達(dá)到80%以上,其中在Wisconsin Breast Cancer數(shù)據(jù)集上的分類準(zhǔn)確率高達(dá)96.7%,取得了較好的預(yù)測效果。
本文在原始DBN網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,提出一種改進(jìn)回歸權(quán)的DBN網(wǎng)絡(luò)結(jié)構(gòu)用于實現(xiàn)對醫(yī)療數(shù)據(jù)分類問題研究。借助于RBM強大的特征提取能力,實現(xiàn)對高維醫(yī)療數(shù)據(jù)特征的有效挖掘,從而構(gòu)建出性能較為優(yōu)異的決策模型。在三個醫(yī)療數(shù)據(jù)集上的仿真結(jié)果表明,改進(jìn)權(quán)值的DBN網(wǎng)絡(luò)結(jié)構(gòu)較之原始DBN結(jié)構(gòu)在各性能指標(biāo)上均有一定程度提升。因此,未來將考慮進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和模型參數(shù),并將該模型應(yīng)用于更多的醫(yī)療數(shù)據(jù)建模問題中,為臨床醫(yī)生提供輔助決策。