郭冰冰, 谷雪蓮, 胡秀枋, 孫運(yùn)文, 徐秀林
(上海理工大學(xué) 健康科學(xué)與工程學(xué)院, 上海 200093)
胰腺癌是預(yù)后最差的惡性腫瘤之一,其具有侵襲性強(qiáng)、隱匿度高、病程短的特點(diǎn)。 據(jù)全球癌癥統(tǒng)計(jì)數(shù)據(jù)顯示,胰腺癌在癌癥的死亡原因里位居前列,且有研究預(yù)測(cè)未來10 年內(nèi)胰腺癌相關(guān)死亡人數(shù)將上升至所有癌種的第2 位,僅次于肺癌[1-2]。 胰腺癌IV 期患者確診后生存期小于1 年,5 年平均生存率小于1%[3]。 同時(shí),由于大部分胰腺癌患者在被確診時(shí)就已錯(cuò)過最佳治療時(shí)期,因此尋找到一種有助于早期診斷的方法顯得尤為重要,可大幅提升患者的生存時(shí)間[4]。 目前,病理切片依然被視為確診的“金標(biāo)準(zhǔn)”,但總體上依賴的是醫(yī)生的經(jīng)驗(yàn),不同的醫(yī)生可能生成不同的診斷結(jié)果。 隨著人工智能在醫(yī)學(xué)領(lǐng)域的深入應(yīng)用,計(jì)算機(jī)輔助診斷(Computer-Aided Diagnosis,CAD)技術(shù)的優(yōu)勢(shì)不斷顯現(xiàn)出來,其可以有效減少醫(yī)生的閱片工作量,也可為醫(yī)生提供診斷決策支持,有助于醫(yī)生減少臨床實(shí)踐中的誤診率和誤治率[5],甚至能預(yù)測(cè)病灶遷移位置,以便為臨床療效評(píng)估提供參考。
機(jī)器學(xué)習(xí)是人工智能的重要研究內(nèi)容之一,機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動(dòng)分析獲得規(guī)律,并利用規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的算法。 針對(duì)不同的問題需要不同的學(xué)習(xí)方式,主要的學(xué)習(xí)方式為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。 有監(jiān)督學(xué)習(xí)常用于分類和回歸的問題,其特點(diǎn)是所有數(shù)據(jù)都有標(biāo)簽;無監(jiān)督學(xué)習(xí)常用于聚類的問題,其特點(diǎn)為所有數(shù)據(jù)都沒有標(biāo)簽。常用的機(jī)器學(xué)習(xí)算法有支持向量機(jī)、邏輯回歸、隨機(jī)森 林、 Lasso 回 歸、 Ada Boost (adaptive boosting,AdaBoost)等。 近年來,由于醫(yī)療數(shù)據(jù)不斷增長,因此機(jī)器學(xué)習(xí)的優(yōu)勢(shì)得到充分的體現(xiàn)。
2006 年,Hinton 教授及其團(tuán)隊(duì)提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)——深度置信網(wǎng)絡(luò)(Deep Belief Net,DBN)[6],至此深度學(xué)習(xí)開始出現(xiàn)在研究者視野里。深度學(xué)習(xí)常被應(yīng)用于圖像識(shí)別,但隨著技術(shù)的不斷推進(jìn),在醫(yī)療診斷、醫(yī)用機(jī)器人控制、搜索引擎等領(lǐng)域均有不俗的表現(xiàn)。 目前,最經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)還是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),Lecun[7-8]等在神經(jīng)網(wǎng)絡(luò)中創(chuàng)造性的代入了傳播算法,并以此為基礎(chǔ)構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)。 此外,其它常用的學(xué)習(xí)模型有Inception[9]、ResNet[10]、AlexNet、VGG 等。 早期診斷是改善胰腺癌患者預(yù)后的關(guān)鍵因素之一,若能提升早期診斷率,就能極大改善胰腺癌的預(yù)后并延長生存時(shí)間。 本文主要研究CT 分層圖像對(duì)胰腺癌的早期良惡性診斷的有效性,通過構(gòu)建AdaBoost 等5 種機(jī)器學(xué)習(xí)模型和經(jīng)典深度學(xué)習(xí)網(wǎng)絡(luò)模型VGG16,分別獲得胰腺癌良惡性分類的準(zhǔn)確率,同時(shí)對(duì)不同模型進(jìn)行對(duì)比分析,進(jìn)一步驗(yàn)證CT 圖像在VGG16 的應(yīng)用性能。
本研究使用的數(shù)據(jù)來自醫(yī)院的胰腺癌病人CT圖像,將其分成APT、DPT、NPT、VPT 4 期的掃描圖像,并對(duì)圖像進(jìn)行去噪處理,去除相應(yīng)體數(shù)據(jù)的絕對(duì)位置、數(shù)據(jù)密度等信息,4 個(gè)數(shù)據(jù)集存在交集。 其中,APT(靜脈期)包含786 張圖像;DPT(延遲期)包含757 張圖像;VPT(動(dòng)脈期)包含1 382 張圖像;NPT(平掃期)包含1 368 張圖像。
在對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),將數(shù)據(jù)集分成訓(xùn)練集、驗(yàn)證集、測(cè)試集3 部分。 訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用來驗(yàn)證模型的效能,測(cè)試集用來對(duì)模型進(jìn)行評(píng)估。 實(shí)踐中,測(cè)試集和驗(yàn)證集采用同一批數(shù)據(jù),在分配時(shí)將所有數(shù)據(jù)的80%分配給訓(xùn)練集,20%分配給測(cè)試集。
VGGNet[11]是2014 年ImageNet Challenge 圖像識(shí)別比賽的亞軍,其不僅在圖像識(shí)別應(yīng)用非常廣泛,在目標(biāo)分割、人臉識(shí)別等方面的應(yīng)用也會(huì)使用VGGNet 作為基礎(chǔ)模型,其證明了增加網(wǎng)絡(luò)的深度能夠在一定程度上影響網(wǎng)絡(luò)最終的性能。 VGG16有16 層網(wǎng)絡(luò),能不斷提取學(xué)習(xí)從低級(jí)到高級(jí)的特征,卷積核大小為3×3,逐層增加卷積核的數(shù)量以增強(qiáng)非線性表達(dá)能力[12]。 本文深度學(xué)習(xí)模型選用VGG16 對(duì)已有數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí)。
AdaBoost[13]是機(jī)器學(xué)習(xí)工具箱中最強(qiáng)有力的工具之一,其基分類器一般是單層決策樹,決策樹在分裂的時(shí)候會(huì)選擇最優(yōu)屬性進(jìn)行分裂,最優(yōu)屬性為誤差最小的屬性,AdaBoost 在每次迭代時(shí)會(huì)選擇誤差最小的那棵樹。 其優(yōu)勢(shì)在于Adaboost 提供了一種能使用其他方法構(gòu)建子分類器的框架,不僅能顯著提高學(xué)習(xí)精度,且可以根據(jù)子分類器的反饋,對(duì)假定的錯(cuò)誤率進(jìn)行自適應(yīng)調(diào)整。
在對(duì)模型進(jìn)行學(xué)習(xí)訓(xùn)練時(shí),本文采用的評(píng)價(jià)指標(biāo)為模型的訓(xùn)練集和測(cè)試集的準(zhǔn)確率(Accuracy)及其損失函數(shù)(Loss Function)。
準(zhǔn)確率的計(jì)算公式為
本文選擇的損失函數(shù)為交叉熵?fù)p失函數(shù)(categorical_crossentropy),可評(píng)估當(dāng)前訓(xùn)練得到的概率分布與真實(shí)分布的差異情況。 交叉熵的值越小,概率分布與真實(shí)分布就越接近。 其具體公式為:
其中,y為期望的輸出,a為神經(jīng)元的實(shí)際輸出。
首先基于Keras 搭建VGG16 模型,其中最后一個(gè)全連接層的激活函數(shù)為softmax,其優(yōu)點(diǎn)是計(jì)算簡單且計(jì)算量較小,能把數(shù)據(jù)的值映射到0 ~1 區(qū)間,保證概率為非負(fù)值;其次將輸入的數(shù)據(jù)集圖片調(diào)整尺寸大小為(224,224)的單通道灰度圖像,以加快模型訓(xùn)練速度。 本實(shí)驗(yàn)?zāi)繕?biāo)是識(shí)別胰腺癌腫瘤的良惡性,屬于二分類問題,設(shè)置訓(xùn)練次數(shù)為160 次,優(yōu)化函數(shù)為Adam[14],是一種對(duì)隨機(jī)梯度下降法的擴(kuò)展,其優(yōu)點(diǎn)在于效率高、內(nèi)存小、且超參數(shù)具有直觀的解釋,通常只需要較少的調(diào)諧。
本文分別從APT、DPT、VPT、NPT 的數(shù)據(jù)集中隨機(jī)提取20%的圖像作為驗(yàn)證集,將4 組圖像數(shù)據(jù)分別導(dǎo)入搭建好的VGG16 模型進(jìn)行訓(xùn)練,經(jīng)過不斷對(duì)參數(shù)調(diào)優(yōu),最終訓(xùn)練集和驗(yàn)證集的訓(xùn)練結(jié)果如圖1 所示,其對(duì)應(yīng)訓(xùn)練集和驗(yàn)證集的損失函數(shù)圖像如圖2 所示:
圖1 4 組數(shù)據(jù)集的準(zhǔn)確率學(xué)習(xí)曲線Fig.1 Learning curve of accuracy of four datasets
圖2 4 組數(shù)據(jù)集的損失函數(shù)曲線Fig.2 Loss curves of four datasets
根據(jù)以上訓(xùn)練和驗(yàn)證結(jié)果,得到如表1 所示的混淆矩陣。
表1 4 組數(shù)據(jù)集訓(xùn)練后的混淆矩陣Tab.1 Confusion matrix after training on four datasets
由表1 不難看出,VGG16 模型對(duì)于APT、DPT數(shù)據(jù)集的靈敏度最好,APT、VPT 數(shù)據(jù)集的AUC和精確度較高。
為了進(jìn)一步驗(yàn)證模型的準(zhǔn)確率,本研究分別將上述4 期的測(cè)試集導(dǎo)入已訓(xùn)練好的VGG16 模型,對(duì)患者進(jìn)行腫瘤良惡性分類診斷。 其中包含202 張APT 的胰腺癌圖像,190 張DPT 的胰腺癌圖像,345張NPT 的胰腺癌圖像,342 張VPT 的胰腺癌圖像,預(yù)測(cè)與真實(shí)值的對(duì)比結(jié)果見表2:
表2 4 組數(shù)據(jù)集預(yù)測(cè)值與真實(shí)值結(jié)果對(duì)比Tab.2 Comparison of prediction results and ground truth on four datasets
由表2 可知,APT、DPT 對(duì)胰腺癌惡性腫瘤的識(shí)別率高達(dá)0.92 以上,而NPT、VPT 對(duì)良性腫瘤識(shí)別率也超過了0.90。
為了建立識(shí)別胰腺癌CT 圖像良惡性分類最佳的機(jī)器學(xué)習(xí)模型,本文將4 組數(shù)據(jù)集分別導(dǎo)入支持向量機(jī)、邏輯回歸、隨機(jī)森林、K 近鄰、AdaBoost 5 個(gè)模型進(jìn)行訓(xùn)練學(xué)習(xí),同時(shí)從原數(shù)據(jù)集提取20%作為測(cè)試集以驗(yàn)證模型訓(xùn)練效果。 各模型對(duì)比結(jié)果見表3。
表3 5 種機(jī)器學(xué)習(xí)模型對(duì)于4 組數(shù)據(jù)集的訓(xùn)練結(jié)果對(duì)比Tab.3 Comparison of prediction results of five machine learning models on four datasets
由表3 可知,隨機(jī)森林和AdaBoost 訓(xùn)練集和測(cè)試集準(zhǔn)確率較好,對(duì)于APT、DPT、NPT、VPT 4 個(gè)數(shù)據(jù)集的訓(xùn)練效果均達(dá)到90%以上,測(cè)試集準(zhǔn)確率達(dá)到70%以上。 隨機(jī)森林的學(xué)習(xí)曲線如圖3 所示,AdaBoost 的學(xué)習(xí)曲線如圖4 所示。
圖3 4 組數(shù)據(jù)集在隨機(jī)森林模型下的學(xué)習(xí)曲線Fig.3 Learning curves of random forest model on four datasets
隨著人工智能技術(shù)的蓬勃發(fā)展,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在醫(yī)療輔助診斷領(lǐng)域的應(yīng)用也在不斷深入,基于CT 圖像的胰腺癌良惡性分類的問題已經(jīng)證明了其具有良好的可行性,獲得了很好的分類效果[15]。
使用機(jī)器學(xué)習(xí)進(jìn)行訓(xùn)練學(xué)習(xí)的優(yōu)勢(shì)在于網(wǎng)絡(luò)較簡單,速度快,但對(duì)于診斷CT 圖像良惡性準(zhǔn)確率不高;訓(xùn)練集與測(cè)試集的差距超過20%,因此可能存在過擬合現(xiàn)象。
深度學(xué)習(xí)對(duì)于圖像的識(shí)別率很高,CNN 對(duì)于4期的CT 圖像的AUC均可以達(dá)到90%以上,但其不足在于網(wǎng)絡(luò)模型較為復(fù)雜,訓(xùn)練時(shí)間長,對(duì)電腦配置要求較高。
本文分別將胰腺癌患者的APT、DPT、NPT、VPT 4 期CT 圖像導(dǎo)入深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)模型訓(xùn)練,雖然不同網(wǎng)絡(luò)在準(zhǔn)確率上有較為明顯的差距,但基于深度學(xué)習(xí)模型的良惡性分類診斷中,綜合得分和識(shí)別率較高的是APT 和VPT 時(shí)期;基于深度學(xué)習(xí)模型的良惡性分類診斷中,綜合得分和識(shí)別率較高的是VPT 和NPT 時(shí)期。
綜上,不論使用深度學(xué)習(xí)還是機(jī)器學(xué)習(xí)的方法,良惡性特征較為明顯的時(shí)期是VPT,即動(dòng)脈期。
雖然本文的研究取得了一定成果,但依然存在一些不足。 如:4 期的CT 圖像數(shù)據(jù)雖然存在交集,但并不是完全重合的數(shù)據(jù);由于深度學(xué)習(xí)網(wǎng)絡(luò)模型耗時(shí)較長,只選取了經(jīng)典的VGG16 導(dǎo)入數(shù)據(jù)訓(xùn)練等。 后續(xù)可嘗試ResNet、Inception 等其他網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步研究。