陳德華,周東陽(yáng),樂(lè)嘉錦
(東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620 )
?
基于深度學(xué)習(xí)的甲狀腺結(jié)節(jié)良惡性預(yù)測(cè)方法研究
陳德華,周東陽(yáng),樂(lè)嘉錦
(東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620 )
甲狀腺結(jié)節(jié)是一種常見臨床疾病,其發(fā)病率逐年增高。對(duì)于診治甲狀腺結(jié)節(jié)的首要問(wèn)題是明確及鑒別其良惡性質(zhì)。為了提高甲狀腺結(jié)節(jié)良惡性預(yù)測(cè)的準(zhǔn)確率,提出一種基于深度學(xué)習(xí)的甲狀腺結(jié)節(jié)良惡性鑒別方法。實(shí)驗(yàn)在真實(shí)醫(yī)療數(shù)據(jù)集上對(duì)比了深度學(xué)習(xí)算法與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸算法,結(jié)果表明基于深度學(xué)習(xí)的預(yù)測(cè)方法具有最高的準(zhǔn)確率,在非稀疏數(shù)據(jù)和稀疏數(shù)據(jù)集上分別達(dá)到94%和88.84%。
甲狀腺結(jié)節(jié)良惡性預(yù)測(cè);受限玻爾茲曼機(jī);深度信念網(wǎng)絡(luò);深度學(xué)習(xí)
在甲狀腺結(jié)節(jié)的臨床治療過(guò)程中,甲狀腺結(jié)節(jié)良惡性的鑒別是甲狀腺結(jié)節(jié)診治的基礎(chǔ)。目前,穿刺檢查和病理檢查是鑒別甲狀腺結(jié)節(jié)良惡性的主要手段。但是,穿刺檢查和病理檢查具有損傷性,對(duì)患者的正常甲狀腺組織造成破壞。因此,如何有效地利用無(wú)損傷的超聲檢查結(jié)果來(lái)預(yù)測(cè)甲狀腺結(jié)節(jié)良惡性,對(duì)于甲狀腺結(jié)節(jié)診治具有重要的意義。
為了幫助醫(yī)生提高臨床診斷的準(zhǔn)確性,讓患者避免不必要的檢查過(guò)程,降低患者誤診率,近年來(lái)越來(lái)越多的學(xué)者試圖通過(guò)機(jī)器學(xué)習(xí)、專家系統(tǒng)等人工智能方法進(jìn)行甲狀腺結(jié)節(jié)良惡性鑒別。深度學(xué)習(xí)技術(shù)是機(jī)器學(xué)習(xí)領(lǐng)域中最新研究成果,通過(guò)構(gòu)建具有很多隱藏層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性,因此,與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,利用深度學(xué)習(xí)來(lái)學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)豐富的內(nèi)在信息,并展現(xiàn)出強(qiáng)大的從樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力[1]。
但是目前大多數(shù)研究都是基于甲狀腺超聲圖像數(shù)據(jù),或者經(jīng)過(guò)挑選之后比較完整的文本特征數(shù)據(jù),采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練模型,沒有考慮到真實(shí)醫(yī)療數(shù)據(jù)存在稀疏性的問(wèn)題,因此預(yù)測(cè)結(jié)果還有很大的提升空間[2]。醫(yī)療數(shù)據(jù)的稀疏性主要體現(xiàn)在數(shù)據(jù)提取的缺失性上,由于患者病癥的不同、醫(yī)生診斷描述方式不同以及提取的規(guī)則不同,難免會(huì)導(dǎo)致許多缺失數(shù)據(jù),也即稀疏數(shù)據(jù)。
為此,本文考慮到深度置信網(wǎng)絡(luò)在預(yù)測(cè)上的優(yōu)勢(shì),結(jié)合甲狀腺結(jié)節(jié)超聲數(shù)據(jù)的稀疏性提出了一個(gè)基于深度信念網(wǎng)絡(luò)(DBN)的甲狀腺結(jié)節(jié)良惡性預(yù)測(cè)方法,該方法能夠利用深度學(xué)習(xí)的優(yōu)勢(shì),通過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,可以從稀疏的不平衡的數(shù)據(jù)中挖掘出更有價(jià)值的特征,從而使分類或預(yù)測(cè)更加容易。
通過(guò)機(jī)器學(xué)習(xí)方法提高對(duì)疾病的診斷預(yù)測(cè)準(zhǔn)確率已經(jīng)成為智慧醫(yī)療的一個(gè)重要實(shí)現(xiàn)途徑,其中很多學(xué)者在甲狀腺結(jié)節(jié)的診斷分類方面做了相關(guān)研究。
在甲狀腺結(jié)節(jié)的預(yù)測(cè)鑒別研究上,熊偉等人提出了一種利用局部紋理特征與多示例學(xué)習(xí)相結(jié)合的方法,利用KNN算法來(lái)實(shí)現(xiàn)對(duì)甲狀腺結(jié)節(jié)的分類,準(zhǔn)確率達(dá)85.59%[3]。Ma Jieming 等人提出一種基于SVM的甲狀腺結(jié)節(jié)預(yù)測(cè)方法,在普通SVM模型的代價(jià)函數(shù)中加入懲罰項(xiàng)進(jìn)行優(yōu)化,有效地防止模型的過(guò)擬合,并且準(zhǔn)確率達(dá)86.6%[4]。李前程等人將結(jié)節(jié)的良惡性作為因變量,以超聲表現(xiàn)作為自變量,采用二分類logistic 回歸分析篩選出對(duì)甲狀腺結(jié)節(jié)良惡性有顯著鑒別作用的超聲指標(biāo)并建立回歸模型,準(zhǔn)確率達(dá)89.91%[5]。
2.1 DBN模型
p(v,h(1),h(2),…,h)=
(1)
圖1 DBN網(wǎng)絡(luò)結(jié)構(gòu)
在訓(xùn)練階段,在可視層會(huì)產(chǎn)生一個(gè)向量v,通過(guò)它將值傳遞到隱藏層。反過(guò)來(lái),可視層的輸入會(huì)被隨機(jī)選擇,以嘗試去重構(gòu)原始的輸入信號(hào)。最后,這些新的可視的神經(jīng)元激活單元將前向傳遞重構(gòu)隱藏層激活單元,獲得h。執(zhí)行這種反復(fù)步驟叫做吉布斯采樣(Gibbs Sampling)[7]。而隱藏層激活單元和可視層輸入之間的相關(guān)性差別就作為權(quán)值更新的主要依據(jù)。
在預(yù)訓(xùn)練后,DBN可以通過(guò)BP算法根據(jù)誤差函數(shù)進(jìn)行逆向調(diào)節(jié),從而對(duì)判別性能做調(diào)整。這個(gè)性能會(huì)比單純的BP算法訓(xùn)練的網(wǎng)絡(luò)好。這可以很直觀地給予解釋:DBN的BP算法只需要對(duì)權(quán)值參數(shù)空間進(jìn)行一個(gè)局部的搜索,這相比BP神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),訓(xùn)練是更快的,而且收斂的時(shí)間也更少[8]。
2.2 RBM神經(jīng)網(wǎng)絡(luò)
RBM是DBN 的核心組件之一,它由一個(gè)可見層V和一個(gè)隱藏層H組成,層間的節(jié)點(diǎn)兩兩相連,層內(nèi)的節(jié)點(diǎn)不相連。
RBM模型訓(xùn)練過(guò)程如下:
Step 1初始化
(1)輸入訓(xùn)練特征
(2)給定訓(xùn)練次數(shù)J
(3)指定可見層和隱藏層的單元數(shù)
(4)初始化權(quán)值矩陣W和噪聲控制參數(shù)ɑ,b
Step 2訓(xùn)練
FOR iter=1,2,…,JDO
{
1.調(diào)用RBM,生成ΔW,Δa,Δb
2.刷新參數(shù)W,ɑ,b
}
下面討論可視層節(jié)點(diǎn)和隱藏層節(jié)點(diǎn)間權(quán)值W計(jì)算過(guò)程。
可見層變量v和隱藏層變量h的聯(lián)合組態(tài)(joint configuration)的能量可以表示為:
(2)
其中θ={W,a,b}為模型參數(shù)。
而某個(gè)組態(tài)的聯(lián)合概率分布可以通過(guò)Boltzmann分布來(lái)確定:
(3)
隱藏層節(jié)點(diǎn)之間是條件獨(dú)立的,即
(4)
對(duì)公式(4)進(jìn)行因子分解Factorizes,得到在給定可視層v上,隱藏層第j個(gè)節(jié)點(diǎn)為1或者為0的概率:
(5)
同理,在給定隱藏層h的基礎(chǔ)上,可視層第i個(gè)節(jié)點(diǎn)為1或者為0的概率也可以容易得到:
(6)
給定一個(gè)滿足獨(dú)立同分布的樣本集:D={v(1),v(2),…,v(N)}需要學(xué)習(xí)參數(shù)θ={W,a,b}。
通過(guò)最大似然估計(jì)得到L最大時(shí)對(duì)應(yīng)的參數(shù)W:
(7)
(8)
3.1 實(shí)驗(yàn)數(shù)據(jù)采集
所有實(shí)驗(yàn)數(shù)據(jù)均來(lái)自某三甲醫(yī)院患者的實(shí)際超聲指標(biāo)特征。為了檢驗(yàn)本文所構(gòu)建的DBN模型的對(duì)稀疏的超聲數(shù)據(jù)預(yù)測(cè)效果的提升,分別使用了兩組不同的實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)訓(xùn)練模型數(shù)據(jù)分別為從30萬(wàn)條超聲診斷數(shù)據(jù)抽取的3 000條指標(biāo)非稀疏的數(shù)據(jù)和3 000條稀疏的數(shù)據(jù)。
3.2 數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)前先將非結(jié)構(gòu)化的醫(yī)療數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理[9],提取出需要的指標(biāo)以及對(duì)應(yīng)的文本描述。然后對(duì)結(jié)構(gòu)化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,解決異常值、缺失值等問(wèn)題。接著將表示特征指標(biāo)程度的文本變量轉(zhuǎn)換為算法所能處理的數(shù)值型變量[10]。最后數(shù)值化后超聲指標(biāo)中各個(gè)特征的物理意義和數(shù)量級(jí)是均不相同的,所以,需要對(duì)結(jié)構(gòu)化后的數(shù)據(jù)進(jìn)行歸一化,統(tǒng)一衡量標(biāo)準(zhǔn)值,本文采用Z-score標(biāo)準(zhǔn)化方法。
3.3 實(shí)驗(yàn)結(jié)果及分析
兩組數(shù)據(jù)分別使用1層隱藏層DBN模型(DBN1)、2層隱藏層DBN模型(DBN2)、BP神經(jīng)網(wǎng)絡(luò)模型以及邏輯回歸(LR)進(jìn)行預(yù)測(cè),評(píng)價(jià)指標(biāo)選為準(zhǔn)確率、召回率和 F 系數(shù),模型的預(yù)測(cè)效果對(duì)比結(jié)果如表1、表2所示。
表1 非稀疏數(shù)據(jù)實(shí)驗(yàn)對(duì)比
表2 稀疏數(shù)據(jù)實(shí)驗(yàn)對(duì)比
由表1可以看出, DBN 模型在準(zhǔn)確率、召回率和F值上都已超越邏輯回歸,DBN1模型的準(zhǔn)確率略高于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型,召回率稍低,F(xiàn)系數(shù)幾乎持平。但是DBN2模型3項(xiàng)指標(biāo)都略優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。
由表2可以看出,DBN1模型在準(zhǔn)確率、召回率和F系數(shù)上已經(jīng)超越傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型和邏輯回歸, DBN2更是遠(yuǎn)優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型和邏輯回歸模型。
從兩組實(shí)驗(yàn)可以看出DBN模型在非稀疏數(shù)據(jù)上雖然占優(yōu),但是優(yōu)勢(shì)并不明顯。而在稀疏性數(shù)據(jù)上,DBN模型全面超越BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸。由此可以得出DBN模型非常適合對(duì)稀疏性數(shù)據(jù)進(jìn)行分類。
DBN對(duì)高維特征向量具有很強(qiáng)的提取特征和分類特征的能力,通過(guò)多層隱藏層可以盡可能保留數(shù)據(jù)的特征,能夠有效解決稀疏數(shù)據(jù)特征信息密度低的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,DBN 在稀疏性數(shù)據(jù)預(yù)測(cè)任務(wù)中的效果好于BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸,是一種非常適用于對(duì)稀疏數(shù)據(jù)進(jìn)行分類的算法。未來(lái)的工作主要從兩個(gè)方向入手:首先,使用更科學(xué)的方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,使得處理后的數(shù)據(jù)盡可能保留其特征;其次,針對(duì)稀疏數(shù)據(jù)的特征使用更為優(yōu)秀的DBN網(wǎng)絡(luò)結(jié)構(gòu),使算法對(duì)數(shù)據(jù)集分類結(jié)果更有說(shuō)服力。
[1] HINTON G E. A practical guide to training restricted boltzmann machines[M].Berlin: Springer Berlin Heidelberg, 2012.
[2] 黃海新, 吳迪, 文峰. 決策森林研究綜述[J]. 電子技術(shù)應(yīng)用, 2016, 42(12):5-9.
[3] 熊偉,龔勛,羅俊,李天瑞.基于局部紋理特征的超聲甲狀腺結(jié)節(jié)良惡性識(shí)別[J]. 數(shù)據(jù)采集與處理, 2015,30(1): 186-191.
[4] Ma Jieming,Luo Si, DIGHE M, et al. Differential diagnosis of thyroid nodules with ultrasound elastography based on support vector machines[C]. Ultrasonics Symposium (IUS), 2010 IEEE, 2010:1372-1375.
[5] 李前程,孫麗娜,吳雙,等. 高頻超聲及彈性成像對(duì)甲狀腺結(jié)節(jié)性質(zhì)鑒別診斷的logistic回歸分析[J]. 中國(guó)地方病防治雜志, 2015(4): 291-293.
[6] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J].Neural Computation, 2006,18(7):1527-1554.
[7] GEMAN S, GEMAN D. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1984, 6(6):721-741.
[8] 蔣良孝, 李超群. 基于BP神經(jīng)網(wǎng)絡(luò)的函數(shù)逼近方法及其MATLAB實(shí)現(xiàn)[J]. 微型機(jī)與應(yīng)用, 2004, 23(1):52-53.
[9] 陳德華,馮潔瑩,樂(lè)嘉錦,等. 中文病理文本的結(jié)構(gòu)化處理方法研究[J]. 計(jì)算機(jī)科學(xué), 2016,43(10): 272-276.
[10] 戚湧,陳俊,李千目. 基于冗余消除和屬性數(shù)值化的XACML策略優(yōu)化方法[J]. 計(jì)算機(jī)科學(xué), 2016,43(2):163-168.
Thyroid nodule benign and malignant prediction based on deep learning
Chen Dehua, Zhou Dongyang, Le Jiajin
(School of Computer Science and Technology, Donghua University, Shanghai 201620, China)
Thyroid nodule is a common clinical disease and the incidence has increased year by year. For the diagnosis and treatment of thyroid nodules, the primary problem is to identify the benign and malignant nature. In order to improve the prediction accuracy of benign and malignant thyroid nodules, this paper presents a method for the identification of benign and malignant thyroid nodules based on deep learning. Through experiments,the deep learning algorithm is compared with the traditional BP neural network and logistic regression in the real medical data set. The results show that prediction method based on deep learning has the highest accuracy, reaching 93.57% and 88.84% with the non-sparse data and the sparse data set.
benign and malignant thyroid nodules prediction; limited Boltzmann machine; deep belief network; deep learning
TP181; TP183
A
10.19358/j.issn.1674- 7720.2017.12.004
陳德華,周東陽(yáng),樂(lè)嘉錦.基于深度學(xué)習(xí)的甲狀腺結(jié)節(jié)良惡性預(yù)測(cè)方法研究[J].微型機(jī)與應(yīng)用,2017,36(12):13-15.
2016-12-20)
陳德華(1976-),男,博士,副教授,主要研究方向:數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)與智慧醫(yī)療。
周東陽(yáng)(1990-),通信作者,男,碩士研究生,主要研究方向:數(shù)據(jù)工程。E-mail:zhouguang.1@163.com。
樂(lè)嘉錦(1951-),男,教授,博士生導(dǎo)師,主要研究方向:數(shù)據(jù)科學(xué)管理及軟件工程理論與實(shí)踐。