陳德華,周東陽,樂嘉錦
(東華大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620 )
?
基于深度學(xué)習(xí)的甲狀腺結(jié)節(jié)良惡性預(yù)測方法研究
陳德華,周東陽,樂嘉錦
(東華大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620 )
甲狀腺結(jié)節(jié)是一種常見臨床疾病,其發(fā)病率逐年增高。對于診治甲狀腺結(jié)節(jié)的首要問題是明確及鑒別其良惡性質(zhì)。為了提高甲狀腺結(jié)節(jié)良惡性預(yù)測的準(zhǔn)確率,提出一種基于深度學(xué)習(xí)的甲狀腺結(jié)節(jié)良惡性鑒別方法。實驗在真實醫(yī)療數(shù)據(jù)集上對比了深度學(xué)習(xí)算法與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸算法,結(jié)果表明基于深度學(xué)習(xí)的預(yù)測方法具有最高的準(zhǔn)確率,在非稀疏數(shù)據(jù)和稀疏數(shù)據(jù)集上分別達(dá)到94%和88.84%。
甲狀腺結(jié)節(jié)良惡性預(yù)測;受限玻爾茲曼機(jī);深度信念網(wǎng)絡(luò);深度學(xué)習(xí)
在甲狀腺結(jié)節(jié)的臨床治療過程中,甲狀腺結(jié)節(jié)良惡性的鑒別是甲狀腺結(jié)節(jié)診治的基礎(chǔ)。目前,穿刺檢查和病理檢查是鑒別甲狀腺結(jié)節(jié)良惡性的主要手段。但是,穿刺檢查和病理檢查具有損傷性,對患者的正常甲狀腺組織造成破壞。因此,如何有效地利用無損傷的超聲檢查結(jié)果來預(yù)測甲狀腺結(jié)節(jié)良惡性,對于甲狀腺結(jié)節(jié)診治具有重要的意義。
為了幫助醫(yī)生提高臨床診斷的準(zhǔn)確性,讓患者避免不必要的檢查過程,降低患者誤診率,近年來越來越多的學(xué)者試圖通過機(jī)器學(xué)習(xí)、專家系統(tǒng)等人工智能方法進(jìn)行甲狀腺結(jié)節(jié)良惡性鑒別。深度學(xué)習(xí)技術(shù)是機(jī)器學(xué)習(xí)領(lǐng)域中最新研究成果,通過構(gòu)建具有很多隱藏層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性,因此,與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,利用深度學(xué)習(xí)來學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)豐富的內(nèi)在信息,并展現(xiàn)出強(qiáng)大的從樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力[1]。
但是目前大多數(shù)研究都是基于甲狀腺超聲圖像數(shù)據(jù),或者經(jīng)過挑選之后比較完整的文本特征數(shù)據(jù),采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練模型,沒有考慮到真實醫(yī)療數(shù)據(jù)存在稀疏性的問題,因此預(yù)測結(jié)果還有很大的提升空間[2]。醫(yī)療數(shù)據(jù)的稀疏性主要體現(xiàn)在數(shù)據(jù)提取的缺失性上,由于患者病癥的不同、醫(yī)生診斷描述方式不同以及提取的規(guī)則不同,難免會導(dǎo)致許多缺失數(shù)據(jù),也即稀疏數(shù)據(jù)。
為此,本文考慮到深度置信網(wǎng)絡(luò)在預(yù)測上的優(yōu)勢,結(jié)合甲狀腺結(jié)節(jié)超聲數(shù)據(jù)的稀疏性提出了一個基于深度信念網(wǎng)絡(luò)(DBN)的甲狀腺結(jié)節(jié)良惡性預(yù)測方法,該方法能夠利用深度學(xué)習(xí)的優(yōu)勢,通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,可以從稀疏的不平衡的數(shù)據(jù)中挖掘出更有價值的特征,從而使分類或預(yù)測更加容易。
通過機(jī)器學(xué)習(xí)方法提高對疾病的診斷預(yù)測準(zhǔn)確率已經(jīng)成為智慧醫(yī)療的一個重要實現(xiàn)途徑,其中很多學(xué)者在甲狀腺結(jié)節(jié)的診斷分類方面做了相關(guān)研究。
在甲狀腺結(jié)節(jié)的預(yù)測鑒別研究上,熊偉等人提出了一種利用局部紋理特征與多示例學(xué)習(xí)相結(jié)合的方法,利用KNN算法來實現(xiàn)對甲狀腺結(jié)節(jié)的分類,準(zhǔn)確率達(dá)85.59%[3]。Ma Jieming 等人提出一種基于SVM的甲狀腺結(jié)節(jié)預(yù)測方法,在普通SVM模型的代價函數(shù)中加入懲罰項進(jìn)行優(yōu)化,有效地防止模型的過擬合,并且準(zhǔn)確率達(dá)86.6%[4]。李前程等人將結(jié)節(jié)的良惡性作為因變量,以超聲表現(xiàn)作為自變量,采用二分類logistic 回歸分析篩選出對甲狀腺結(jié)節(jié)良惡性有顯著鑒別作用的超聲指標(biāo)并建立回歸模型,準(zhǔn)確率達(dá)89.91%[5]。
2.1 DBN模型
p(v,h(1),h(2),…,h)=
(1)
圖1 DBN網(wǎng)絡(luò)結(jié)構(gòu)
在訓(xùn)練階段,在可視層會產(chǎn)生一個向量v,通過它將值傳遞到隱藏層。反過來,可視層的輸入會被隨機(jī)選擇,以嘗試去重構(gòu)原始的輸入信號。最后,這些新的可視的神經(jīng)元激活單元將前向傳遞重構(gòu)隱藏層激活單元,獲得h。執(zhí)行這種反復(fù)步驟叫做吉布斯采樣(Gibbs Sampling)[7]。而隱藏層激活單元和可視層輸入之間的相關(guān)性差別就作為權(quán)值更新的主要依據(jù)。
在預(yù)訓(xùn)練后,DBN可以通過BP算法根據(jù)誤差函數(shù)進(jìn)行逆向調(diào)節(jié),從而對判別性能做調(diào)整。這個性能會比單純的BP算法訓(xùn)練的網(wǎng)絡(luò)好。這可以很直觀地給予解釋:DBN的BP算法只需要對權(quán)值參數(shù)空間進(jìn)行一個局部的搜索,這相比BP神經(jīng)網(wǎng)絡(luò)來說,訓(xùn)練是更快的,而且收斂的時間也更少[8]。
2.2 RBM神經(jīng)網(wǎng)絡(luò)
RBM是DBN 的核心組件之一,它由一個可見層V和一個隱藏層H組成,層間的節(jié)點兩兩相連,層內(nèi)的節(jié)點不相連。
RBM模型訓(xùn)練過程如下:
Step 1初始化
(1)輸入訓(xùn)練特征
(2)給定訓(xùn)練次數(shù)J
(3)指定可見層和隱藏層的單元數(shù)
(4)初始化權(quán)值矩陣W和噪聲控制參數(shù)ɑ,b
Step 2訓(xùn)練
FOR iter=1,2,…,JDO
{
1.調(diào)用RBM,生成ΔW,Δa,Δb
2.刷新參數(shù)W,ɑ,b
}
下面討論可視層節(jié)點和隱藏層節(jié)點間權(quán)值W計算過程。
可見層變量v和隱藏層變量h的聯(lián)合組態(tài)(joint configuration)的能量可以表示為:
(2)
其中θ={W,a,b}為模型參數(shù)。
而某個組態(tài)的聯(lián)合概率分布可以通過Boltzmann分布來確定:
(3)
隱藏層節(jié)點之間是條件獨立的,即
(4)
對公式(4)進(jìn)行因子分解Factorizes,得到在給定可視層v上,隱藏層第j個節(jié)點為1或者為0的概率:
(5)
同理,在給定隱藏層h的基礎(chǔ)上,可視層第i個節(jié)點為1或者為0的概率也可以容易得到:
(6)
給定一個滿足獨立同分布的樣本集:D={v(1),v(2),…,v(N)}需要學(xué)習(xí)參數(shù)θ={W,a,b}。
通過最大似然估計得到L最大時對應(yīng)的參數(shù)W:
(7)
(8)
3.1 實驗數(shù)據(jù)采集
所有實驗數(shù)據(jù)均來自某三甲醫(yī)院患者的實際超聲指標(biāo)特征。為了檢驗本文所構(gòu)建的DBN模型的對稀疏的超聲數(shù)據(jù)預(yù)測效果的提升,分別使用了兩組不同的實驗數(shù)據(jù)。實驗訓(xùn)練模型數(shù)據(jù)分別為從30萬條超聲診斷數(shù)據(jù)抽取的3 000條指標(biāo)非稀疏的數(shù)據(jù)和3 000條稀疏的數(shù)據(jù)。
3.2 數(shù)據(jù)預(yù)處理
實驗前先將非結(jié)構(gòu)化的醫(yī)療數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理[9],提取出需要的指標(biāo)以及對應(yīng)的文本描述。然后對結(jié)構(gòu)化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,解決異常值、缺失值等問題。接著將表示特征指標(biāo)程度的文本變量轉(zhuǎn)換為算法所能處理的數(shù)值型變量[10]。最后數(shù)值化后超聲指標(biāo)中各個特征的物理意義和數(shù)量級是均不相同的,所以,需要對結(jié)構(gòu)化后的數(shù)據(jù)進(jìn)行歸一化,統(tǒng)一衡量標(biāo)準(zhǔn)值,本文采用Z-score標(biāo)準(zhǔn)化方法。
3.3 實驗結(jié)果及分析
兩組數(shù)據(jù)分別使用1層隱藏層DBN模型(DBN1)、2層隱藏層DBN模型(DBN2)、BP神經(jīng)網(wǎng)絡(luò)模型以及邏輯回歸(LR)進(jìn)行預(yù)測,評價指標(biāo)選為準(zhǔn)確率、召回率和 F 系數(shù),模型的預(yù)測效果對比結(jié)果如表1、表2所示。
表1 非稀疏數(shù)據(jù)實驗對比
表2 稀疏數(shù)據(jù)實驗對比
由表1可以看出, DBN 模型在準(zhǔn)確率、召回率和F值上都已超越邏輯回歸,DBN1模型的準(zhǔn)確率略高于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型,召回率稍低,F(xiàn)系數(shù)幾乎持平。但是DBN2模型3項指標(biāo)都略優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型。
由表2可以看出,DBN1模型在準(zhǔn)確率、召回率和F系數(shù)上已經(jīng)超越傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型和邏輯回歸, DBN2更是遠(yuǎn)優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型和邏輯回歸模型。
從兩組實驗可以看出DBN模型在非稀疏數(shù)據(jù)上雖然占優(yōu),但是優(yōu)勢并不明顯。而在稀疏性數(shù)據(jù)上,DBN模型全面超越BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸。由此可以得出DBN模型非常適合對稀疏性數(shù)據(jù)進(jìn)行分類。
DBN對高維特征向量具有很強(qiáng)的提取特征和分類特征的能力,通過多層隱藏層可以盡可能保留數(shù)據(jù)的特征,能夠有效解決稀疏數(shù)據(jù)特征信息密度低的問題。實驗結(jié)果表明,DBN 在稀疏性數(shù)據(jù)預(yù)測任務(wù)中的效果好于BP神經(jīng)網(wǎng)絡(luò)和邏輯回歸,是一種非常適用于對稀疏數(shù)據(jù)進(jìn)行分類的算法。未來的工作主要從兩個方向入手:首先,使用更科學(xué)的方法對數(shù)據(jù)進(jìn)行預(yù)處理,使得處理后的數(shù)據(jù)盡可能保留其特征;其次,針對稀疏數(shù)據(jù)的特征使用更為優(yōu)秀的DBN網(wǎng)絡(luò)結(jié)構(gòu),使算法對數(shù)據(jù)集分類結(jié)果更有說服力。
[1] HINTON G E. A practical guide to training restricted boltzmann machines[M].Berlin: Springer Berlin Heidelberg, 2012.
[2] 黃海新, 吳迪, 文峰. 決策森林研究綜述[J]. 電子技術(shù)應(yīng)用, 2016, 42(12):5-9.
[3] 熊偉,龔勛,羅俊,李天瑞.基于局部紋理特征的超聲甲狀腺結(jié)節(jié)良惡性識別[J]. 數(shù)據(jù)采集與處理, 2015,30(1): 186-191.
[4] Ma Jieming,Luo Si, DIGHE M, et al. Differential diagnosis of thyroid nodules with ultrasound elastography based on support vector machines[C]. Ultrasonics Symposium (IUS), 2010 IEEE, 2010:1372-1375.
[5] 李前程,孫麗娜,吳雙,等. 高頻超聲及彈性成像對甲狀腺結(jié)節(jié)性質(zhì)鑒別診斷的logistic回歸分析[J]. 中國地方病防治雜志, 2015(4): 291-293.
[6] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J].Neural Computation, 2006,18(7):1527-1554.
[7] GEMAN S, GEMAN D. Stochastic relaxation, gibbs distributions, and the bayesian restoration of images[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1984, 6(6):721-741.
[8] 蔣良孝, 李超群. 基于BP神經(jīng)網(wǎng)絡(luò)的函數(shù)逼近方法及其MATLAB實現(xiàn)[J]. 微型機(jī)與應(yīng)用, 2004, 23(1):52-53.
[9] 陳德華,馮潔瑩,樂嘉錦,等. 中文病理文本的結(jié)構(gòu)化處理方法研究[J]. 計算機(jī)科學(xué), 2016,43(10): 272-276.
[10] 戚湧,陳俊,李千目. 基于冗余消除和屬性數(shù)值化的XACML策略優(yōu)化方法[J]. 計算機(jī)科學(xué), 2016,43(2):163-168.
Thyroid nodule benign and malignant prediction based on deep learning
Chen Dehua, Zhou Dongyang, Le Jiajin
(School of Computer Science and Technology, Donghua University, Shanghai 201620, China)
Thyroid nodule is a common clinical disease and the incidence has increased year by year. For the diagnosis and treatment of thyroid nodules, the primary problem is to identify the benign and malignant nature. In order to improve the prediction accuracy of benign and malignant thyroid nodules, this paper presents a method for the identification of benign and malignant thyroid nodules based on deep learning. Through experiments,the deep learning algorithm is compared with the traditional BP neural network and logistic regression in the real medical data set. The results show that prediction method based on deep learning has the highest accuracy, reaching 93.57% and 88.84% with the non-sparse data and the sparse data set.
benign and malignant thyroid nodules prediction; limited Boltzmann machine; deep belief network; deep learning
TP181; TP183
A
10.19358/j.issn.1674- 7720.2017.12.004
陳德華,周東陽,樂嘉錦.基于深度學(xué)習(xí)的甲狀腺結(jié)節(jié)良惡性預(yù)測方法研究[J].微型機(jī)與應(yīng)用,2017,36(12):13-15.
2016-12-20)
陳德華(1976-),男,博士,副教授,主要研究方向:數(shù)據(jù)庫,數(shù)據(jù)倉庫與智慧醫(yī)療。
周東陽(1990-),通信作者,男,碩士研究生,主要研究方向:數(shù)據(jù)工程。E-mail:zhouguang.1@163.com。
樂嘉錦(1951-),男,教授,博士生導(dǎo)師,主要研究方向:數(shù)據(jù)科學(xué)管理及軟件工程理論與實踐。