余 鎮(zhèn) 吳凌云 倪 東 陳思平 李勝利 汪天富* 雷柏英*
1(深圳大學(xué)生物醫(yī)學(xué)工程學(xué)院,廣東省生物醫(yī)學(xué)信息檢測(cè)和超聲成像重點(diǎn)實(shí)驗(yàn)室, 廣東 深圳 518060)2(深圳婦幼保健院超聲科,南方醫(yī)科大學(xué)附屬醫(yī)院,廣東 深圳 518060)
基于深度學(xué)習(xí)的胎兒顏面部超聲標(biāo)準(zhǔn)切面自動(dòng)識(shí)別
余 鎮(zhèn)1吳凌云1倪 東1陳思平1李勝利2汪天富1*雷柏英1*
1(深圳大學(xué)生物醫(yī)學(xué)工程學(xué)院,廣東省生物醫(yī)學(xué)信息檢測(cè)和超聲成像重點(diǎn)實(shí)驗(yàn)室, 廣東 深圳 518060)2(深圳婦幼保健院超聲科,南方醫(yī)科大學(xué)附屬醫(yī)院,廣東 深圳 518060)
在常規(guī)胎兒超聲診斷過程中,精確識(shí)別出胎兒顏面部超聲標(biāo)準(zhǔn)切面(FFSP)至關(guān)重要。傳統(tǒng)方法是由醫(yī)生進(jìn)行主觀評(píng)估,這種人工評(píng)判的方式不僅耗費(fèi)時(shí)間精力,而且嚴(yán)重依賴操作者經(jīng)驗(yàn),所以結(jié)果往往不可靠。因此,臨床超聲診斷亟需一種FFSP自動(dòng)識(shí)別方法。提出使用深度卷積網(wǎng)絡(luò)識(shí)別FFSP,同時(shí)還分析不同深度的網(wǎng)絡(luò)對(duì)于FFSP的識(shí)別性能。對(duì)于這些網(wǎng)絡(luò)模型,采用不同的訓(xùn)練方式:隨機(jī)初始化網(wǎng)絡(luò)參數(shù)和基于ImageNet預(yù)訓(xùn)練基礎(chǔ)網(wǎng)絡(luò)的遷移學(xué)習(xí)。在研究中,數(shù)據(jù)采集的是孕周20~36周胎兒顏面部超聲圖像。訓(xùn)練集包括1 037張標(biāo)準(zhǔn)切面圖像(軸狀切面375張,冠狀切面257張,矢狀切面405張)以及3 812張非標(biāo)準(zhǔn)切面圖像,共計(jì)4 849張;測(cè)試集包括792張標(biāo)準(zhǔn)切面圖像和1 626張非標(biāo)準(zhǔn)切面圖像,共計(jì)2 418張。最后測(cè)試集實(shí)驗(yàn)結(jié)果顯示,遷移學(xué)習(xí)的方法使得網(wǎng)絡(luò)識(shí)別結(jié)果增加9.29%, 同時(shí)當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)由8層增加至16層時(shí),分類結(jié)果提升3.17%,深度網(wǎng)絡(luò)對(duì)于FFSP分類最高正確率為94.5%,相比之前研究方法的最好結(jié)果提升3.66%,表明深度卷積網(wǎng)絡(luò)能夠有效地檢測(cè)出FFSP,為臨床自動(dòng)FFSP檢測(cè)方法打下研究基礎(chǔ)。
胎兒顏面部標(biāo)準(zhǔn)切面識(shí)別;超聲圖像;深度卷積網(wǎng)絡(luò);遷移學(xué)習(xí)
在胎兒疾病的常規(guī)檢查中,超聲檢查已經(jīng)成為最受歡迎的影像診斷技術(shù)[1- 7]。胎兒顏面部標(biāo)準(zhǔn)切面(FFSP)的獲取對(duì)于超聲精確診斷和測(cè)量至關(guān)重要[1,3- 4]。臨床上,胎兒超聲檢查需要操作者具有完備的知識(shí)儲(chǔ)備,以及大量的經(jīng)驗(yàn)實(shí)踐。經(jīng)驗(yàn)豐富的醫(yī)生可以高效地利用超聲進(jìn)行診斷,而在欠發(fā)達(dá)地區(qū),缺少有經(jīng)驗(yàn)的專家以及先進(jìn)的超聲成像設(shè)備。在這種情況下,自動(dòng)識(shí)別胎兒超聲顏面部標(biāo)準(zhǔn)切面的方法可以有效地彌補(bǔ)專家等醫(yī)療資源的不足,同時(shí)減少醫(yī)生診斷時(shí)間[8]。因此,研究自動(dòng)識(shí)別技術(shù)對(duì)臨床診斷意義重大。
臨床上,傳統(tǒng)檢測(cè)FFSP的方法是基于醫(yī)生對(duì)于獲取的胎兒超聲圖像進(jìn)行主觀評(píng)估。但是,這種人工評(píng)估的方法除了比較耗時(shí)外,其評(píng)估結(jié)果往往具有很大的主觀性,不同的醫(yī)生可能會(huì)得到不同的診斷結(jié)果。而利用計(jì)算機(jī)技術(shù),也就是圖像分析與機(jī)器學(xué)習(xí)的方法,可以自動(dòng)檢測(cè)出醫(yī)生所需的異?;驑?biāo)準(zhǔn)面圖像,從而方便醫(yī)生診斷流程,同時(shí)改善診斷結(jié)果。這種計(jì)算機(jī)輔助診斷技術(shù)往往需要大量的標(biāo)注數(shù)據(jù),然而在臨床應(yīng)用上,數(shù)據(jù)采集與處理過程極具挑戰(zhàn)且相當(dāng)耗時(shí)。與此同時(shí),在超聲圖像中,由于大量偽影和噪聲的存在,使得圖像類間差異小而類內(nèi)差異大。如圖1所示,胎兒顏面部超聲標(biāo)準(zhǔn)切面FFSP與其他非標(biāo)準(zhǔn)切面之間差異并不明顯。所以,精確識(shí)別FFSP具有相當(dāng)大的挑戰(zhàn)。為了解決這些困難,很多研究者提出了不同的方法,其中最常見的是利用低層特征(即SIFT、Haar和HoG特征)作為圖像表述中介來表達(dá)圖像。隨后,對(duì)這些低層特征進(jìn)一步編碼來改善識(shí)別的結(jié)果,常見的編碼方法有視覺詞袋(bag of visual words, BoVW)、局部特征聚合描述符(vector of locally aggregated descriptors, VLAD),以及Fisher向量(Fisher vector, FV)[1,4- 5]。然而,這些從連續(xù)二維超聲圖像中提取的手工特征,最后得到的FFSP識(shí)別結(jié)果并不能令人滿意。
圖1 胎兒超聲顏面部切面。(a)非標(biāo)準(zhǔn)切面;(b)軸向標(biāo)準(zhǔn)切面;(c)冠狀標(biāo)準(zhǔn)切面;(d)矢狀標(biāo)準(zhǔn)切面Fig.1 Original samples of FFSP. (a) Others (non- FFSP); (b) Axial plane; (c) Coronal plane; (d) Sagittal plane
與此同時(shí),由于大規(guī)模數(shù)據(jù)集(ImageNet)[9]的出現(xiàn),以及具有極強(qiáng)表達(dá)能力的深度卷積網(wǎng)絡(luò)的發(fā)展,深度網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域取得了巨大成功[10-12]。受此啟發(fā),在本研究中,用深度卷積網(wǎng)絡(luò)模型去檢測(cè)FFSP。由于深度網(wǎng)絡(luò)往往需要大量的訓(xùn)練樣本,而臨床采集數(shù)據(jù)又相當(dāng)困難,往往會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練出現(xiàn)過擬合現(xiàn)象,最后無法得到預(yù)期結(jié)果。對(duì)此,本研究采用遷移學(xué)習(xí)策略,結(jié)合數(shù)據(jù)增強(qiáng)技術(shù),以改善深度網(wǎng)絡(luò)識(shí)別FFSP結(jié)果。此外,還研究了不同深度的網(wǎng)絡(luò)結(jié)構(gòu)的FFSP識(shí)別性能。據(jù)了解,這是首次使用深度網(wǎng)絡(luò)來自動(dòng)識(shí)別FFSP的方法,對(duì)于常規(guī)超聲檢查和產(chǎn)前診斷具有巨大的應(yīng)用前景。
本研究的主要目標(biāo)是從胎兒超聲圖像中精確識(shí)別出顏面部標(biāo)準(zhǔn)切面,創(chuàng)新性地提出了利用深度學(xué)習(xí)結(jié)合特殊數(shù)據(jù)預(yù)處理的方法,以及引入遷移學(xué)習(xí)方法來自動(dòng)識(shí)別胎兒顏面部標(biāo)準(zhǔn)切面。下面將會(huì)對(duì)整個(gè)研究所用到的方法進(jìn)行介紹,包括卷積神經(jīng)網(wǎng)絡(luò)原理、CNN網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)增強(qiáng)方法以及遷移學(xué)習(xí)策略。
1.1 卷積神經(jīng)網(wǎng)絡(luò)
受到生物神經(jīng)系統(tǒng)的啟發(fā),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在物體識(shí)別和檢測(cè)領(lǐng)域已經(jīng)獲得了巨大成功。不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)結(jié)合了局部連接和權(quán)值共享策略,因此使得卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)大大減少,從而使構(gòu)建更深層數(shù)的卷積網(wǎng)絡(luò)成為可能。CNN結(jié)合了特征提取和特征分類兩個(gè)過程,相比傳統(tǒng)的手工特征表達(dá)分類方式,它可以根據(jù)給定的訓(xùn)練樣本自動(dòng)地學(xué)習(xí)特征。CNN一般由多個(gè)帶參數(shù)的學(xué)習(xí)層構(gòu)成,每個(gè)學(xué)習(xí)層都能學(xué)習(xí)一定特征,使得整個(gè)網(wǎng)絡(luò)可以從輸入圖像中自動(dòng)提取特征并不斷組合、抽象化迭代,形成具有極強(qiáng)表達(dá)能力的高層級(jí)特征,并在最后進(jìn)行分類輸出。
CNN的主要組成成分是卷積層(convolutional layer, Conv),卷積層包含許多神經(jīng)元,每個(gè)神經(jīng)元帶有一組可學(xué)習(xí)的權(quán)值和一個(gè)偏置項(xiàng)。這些權(quán)值會(huì)在網(wǎng)絡(luò)訓(xùn)練的過程中不斷改變。每個(gè)神經(jīng)元對(duì)于前一層的局部區(qū)域進(jìn)行感知,即將該局部區(qū)域作為其輸入。假定xlj是第l層卷積層的第j個(gè)神經(jīng)元的輸出,且x(l-1)m(m=1,…,M)是第l-1層的神經(jīng)元輸出,M表示當(dāng)前神經(jīng)元的局部輸入大小,那么xlj可以表示為
(1)
池化層(pooling layer, pool,本研究采用最大池化,因此在下面表示為max- pool)和全連接層是CNN的另一主要成分。在本研究中,將分類層softmax層作為全連接層的附屬層。一般而言,在卷積層之間會(huì)加入池化層,池化層本身不帶參數(shù),其作用是減少卷積層的輸出尺寸大小,從而大大減少整個(gè)網(wǎng)絡(luò)的參數(shù)數(shù)量,同時(shí)增強(qiáng)卷積層輸出特征的空間穩(wěn)定性。因此,池化層在一定程度上可以避免網(wǎng)絡(luò)出現(xiàn)過擬合的情況。全連接層(fully- connected layer,F(xiàn)C)類似于卷積層,同樣是由許多神經(jīng)元組成,但這里的神經(jīng)元與前一層輸入之間是全連接的方式,即每個(gè)神經(jīng)元與前一層所有輸入進(jìn)行作用。
Softmax層是CNN網(wǎng)絡(luò)的最后一層結(jié)構(gòu),其功能是對(duì)網(wǎng)絡(luò)提取的特征進(jìn)行分類。為了評(píng)價(jià)網(wǎng)絡(luò)預(yù)測(cè)輸出與輸入圖像真實(shí)標(biāo)簽之間的一致性,這里用到了損失函數(shù)。具體而言,假定Ii(i=1,…,N)為輸入圖像,Ti∈{0,1,…,K}是其對(duì)應(yīng)的真實(shí)標(biāo)簽,則損失函數(shù)可以表示為
(2)
(3)
CNN訓(xùn)練的目的就是獲取合適的權(quán)值參數(shù),使整個(gè)網(wǎng)絡(luò)能夠針對(duì)目標(biāo)數(shù)據(jù)自動(dòng)學(xué)習(xí)合適的特征表達(dá),從而讓未知樣本得到比較好的預(yù)測(cè)結(jié)果。
1.2 CNN結(jié)構(gòu)設(shè)置
本課題主要研究了兩種深度的CNN結(jié)構(gòu),其中16層的深度網(wǎng)絡(luò)是基于VGGNet改進(jìn)而來,作為對(duì)比,另一深度較淺的8層CNN網(wǎng)絡(luò)是以AlexNet為設(shè)計(jì)基礎(chǔ)的。對(duì)于這兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu),在下文中分別稱為CNN- 8和CNN- 16。針對(duì)CNN- 8,本研究分別采用隨機(jī)初始化網(wǎng)絡(luò)參數(shù)和遷移學(xué)習(xí)的方式來進(jìn)行訓(xùn)練,訓(xùn)練的結(jié)果分別稱為CNN- 8- RI和CNN- 8- TR。對(duì)于像CNN- 16這種深度的網(wǎng)絡(luò),在直接隨機(jī)初始參數(shù)的情況下訓(xùn)練會(huì)出現(xiàn)收斂速度極慢的情況,在反向傳播更新參數(shù)過程中會(huì)出現(xiàn)梯度消失的情況[13- 15],因此這里直接采用遷移學(xué)習(xí)的方式來初始化設(shè)置網(wǎng)絡(luò),相應(yīng)結(jié)果表示為CNN- 16- TR。本實(shí)驗(yàn)中CNN的具體結(jié)構(gòu)細(xì)節(jié)如表1所示。
表1 CNN模型結(jié)構(gòu)Tab.1 Architecture of our CNN models.
CNN-8結(jié)構(gòu)主要以AlexNet為設(shè)計(jì)基礎(chǔ)[11]。該網(wǎng)絡(luò)在ImageNet等數(shù)據(jù)集上都取得了極大的成功,同時(shí)在2012 年大規(guī)模視覺識(shí)別挑戰(zhàn)競(jìng)賽(Large Scale Visual Recognition Challenge, ILSVRC2012)中超過了其他各類深度學(xué)習(xí)模型,并取得了第一名的好成績(jī)。因此,本研究的CNN- 8模型也由5層卷積層、3層池化層以及3層全連接層構(gòu)成,不同的是,將第一層卷積層卷積核大小由11×11改為8×8[16],同時(shí)減少最后全連接層通道數(shù),即由原來的4096-4096-1000減少至1024-1024-4。
CNN-16結(jié)構(gòu)與VGGNet[12]類似,相對(duì)于其他CNN模型,VGGNet在深度上有了極大的提升,共有16與19層兩個(gè)版本。在本研究中,CNN-16所有層的卷積核大小都為3×3,且卷積步長(zhǎng)為1。一方面,小尺寸卷積核能夠提取更為豐富的細(xì)節(jié)特征;另一方面,相對(duì)于5×5、7×7甚至11×11等較大尺寸的卷積核,使用3×3卷積核可以大大減少網(wǎng)絡(luò)參數(shù),從而防止?jié)撛谶^擬合問題的出現(xiàn)。對(duì)于最后的全連接層,同樣將其通道數(shù)從4096- 4096- 1000減少至1024- 1024- 4。
1.3 數(shù)據(jù)增強(qiáng)
CNN網(wǎng)絡(luò)作為一種深度學(xué)習(xí)模型,對(duì)于訓(xùn)練數(shù)據(jù)量具有極大的要求。某種程度上,數(shù)據(jù)量的大小直接決定了網(wǎng)絡(luò)的規(guī)模,以及網(wǎng)絡(luò)的可訓(xùn)練性。臨床上,收集大量且具有代表性的醫(yī)學(xué)圖像本身就相當(dāng)困難,再加上這些數(shù)據(jù)還需要人工進(jìn)行標(biāo)注,因此構(gòu)建高質(zhì)量、大規(guī)模的醫(yī)學(xué)圖像數(shù)據(jù)集極具挑戰(zhàn)。在保持圖像本身標(biāo)簽不變的情況下,對(duì)圖像數(shù)據(jù)進(jìn)行多種變換來增大數(shù)據(jù)集的規(guī)模,是一種可行且有效的數(shù)據(jù)增強(qiáng)方式[11]。通過這種方式,可以擴(kuò)大數(shù)據(jù)集規(guī)模,從而解決醫(yī)學(xué)圖像數(shù)據(jù)集因?yàn)閿?shù)據(jù)量不足而無法訓(xùn)練CNN模型的情況。
在本研究中,同樣采用了這種數(shù)據(jù)增強(qiáng)技術(shù),即從原始FFSP數(shù)據(jù)集中,對(duì)每一張US圖像在裁剪掉非數(shù)據(jù)區(qū)后進(jìn)行采樣,提取新的子圖像。由于數(shù)據(jù)集的分布不均勻,標(biāo)準(zhǔn)切面與非標(biāo)準(zhǔn)切面的數(shù)量存在較大的差異,會(huì)導(dǎo)致帶偏差的經(jīng)驗(yàn)(biased prior)[17],這樣的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)會(huì)降低其最后分類性能。
為此,對(duì)胎兒顏面部超聲非標(biāo)準(zhǔn)切面與標(biāo)準(zhǔn)切面圖像分別提取不同數(shù)量的子圖像,從而保持兩者數(shù)量上的均衡。具體而言,對(duì)于初始的FFSP超聲圖像,其大小為768像素×576像素,首先裁掉周圍的黑色區(qū)域(即非數(shù)據(jù)區(qū)),而后調(diào)整其尺寸至256像素×256像素,并從該圖像下裁剪出5張224像素×224像素大小的子圖像(左上、左下、右上、右下以及中心塊),再水平翻轉(zhuǎn),從而每張初始圖像最后總共得到10張子圖像,如圖2所示。
圖2 數(shù)據(jù)增強(qiáng)Fig.2 Data augmentation
由于非標(biāo)準(zhǔn)切面的數(shù)量遠(yuǎn)遠(yuǎn)多于標(biāo)準(zhǔn)切面,因此,對(duì)于每張非標(biāo)準(zhǔn)切面,只提取其中間塊子圖像。相應(yīng)地,在測(cè)試過程中,原始圖像分類結(jié)果由其子圖像類別分?jǐn)?shù)綜合決定。
1.4 遷移學(xué)習(xí)
即便CNN網(wǎng)絡(luò)具有極強(qiáng)的特征表達(dá)能力,在很多醫(yī)學(xué)圖像上得到了成功應(yīng)用,但訓(xùn)練的數(shù)據(jù)量依舊是最大的限制。因此,過擬合問題是有監(jiān)督深度模型始終無法回避的一個(gè)話題。在這種情況下,先從大規(guī)模的數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)CNN網(wǎng)絡(luò),而后將該網(wǎng)絡(luò)的參數(shù)復(fù)制到目標(biāo)網(wǎng)絡(luò)中,這是一個(gè)有效的網(wǎng)絡(luò)初始化方式,可以大大加快網(wǎng)絡(luò)訓(xùn)練速度,同時(shí)避免訓(xùn)練數(shù)據(jù)量過小而出現(xiàn)的過擬合現(xiàn)象。近來,有很多研究證明了該方法的有效性[18-20]。
這種遷移網(wǎng)絡(luò)學(xué)習(xí)層參數(shù)的方法,其有效性在于網(wǎng)絡(luò)提取的特征具有層級(jí)特性,不同層的學(xué)習(xí)層提取不同層次的特征信息。在網(wǎng)絡(luò)的淺層部分,提取的特征是低層特征,即該類特征具有一般共性,相對(duì)于網(wǎng)絡(luò)后面層所提取的特征而言,抽象度更低,表述的是目標(biāo)顏色、輪廓等常見的基本特性,而且不同數(shù)據(jù)集得到的低層特征相似度很大。而在網(wǎng)絡(luò)的后面層部分提取的高層特征則具有很大的特異性,即不同的數(shù)據(jù)集得到的高層特征往往差異很大。對(duì)此,在不同數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)之間,可以通過遷移網(wǎng)絡(luò)淺層學(xué)習(xí)層參數(shù)來共享低層特征。
目前,最常見的遷移學(xué)習(xí)方法是:首先在其他數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)基礎(chǔ)網(wǎng)絡(luò),然后將該網(wǎng)絡(luò)的前層參數(shù)復(fù)制到目標(biāo)網(wǎng)絡(luò)對(duì)應(yīng)層,而后目標(biāo)網(wǎng)絡(luò)余下層則隨機(jī)初始化參數(shù)。根據(jù)訓(xùn)練的方式不同,遷移學(xué)習(xí)可以分為兩種:一種是保持這些遷移過來的學(xué)習(xí)層參數(shù)固定,訓(xùn)練過程中只改變后面隨機(jī)初始化的學(xué)習(xí)層參數(shù);另一種則是在訓(xùn)練過程中微調(diào)這些遷移的學(xué)習(xí)層參數(shù)。根據(jù)文獻(xiàn)[20]的研究結(jié)果,由于ImageNet數(shù)據(jù)集與FFSP數(shù)據(jù)集之間的圖像差異巨大,因此遷移層數(shù)較多的情況下,采取前一種固定遷移參數(shù)的訓(xùn)練方式并不適用,因此在本研究中采取微調(diào)的遷移學(xué)習(xí)方式。
在本實(shí)驗(yàn)中,首先在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練AlexNet與VGGNet,分別作為CNN-8與CNN-16模型的基礎(chǔ)網(wǎng)絡(luò),再分別復(fù)制AlexNet與VGGNet除最后3層全連接層外所有卷積層參數(shù)至CNN-8與CNN-16對(duì)應(yīng)學(xué)習(xí)層。在訓(xùn)練過程中,對(duì)于遷移參數(shù)層與隨機(jī)初始化參數(shù)學(xué)習(xí)層分別設(shè)置不同學(xué)習(xí)率。具體而言,CNN-8與CNN-16所有遷移參數(shù)的學(xué)習(xí)層學(xué)習(xí)率設(shè)置為0.001,并在訓(xùn)練過程中逐漸減小。隨機(jī)初始化參數(shù)的學(xué)習(xí)層學(xué)習(xí)率設(shè)置為0.01,在訓(xùn)練過程中逐漸減小。圖3是本實(shí)驗(yàn)中所采用的遷移學(xué)習(xí)方法的整個(gè)流程。
圖3 遷移學(xué)習(xí)流程Fig. 3 Flowchart of our fine- tuning strategy
1.5 實(shí)驗(yàn)驗(yàn)證
本研究協(xié)議經(jīng)本地協(xié)會(huì)倫理委員會(huì)批準(zhǔn)與審核,相關(guān)課題均獲許可通知。
1.5.1 實(shí)驗(yàn)數(shù)據(jù)集及系統(tǒng)設(shè)置
1)訓(xùn)練集:在本實(shí)驗(yàn)中,所有胎兒超聲圖像數(shù)據(jù)均由本項(xiàng)目組成員采集,原始超聲數(shù)據(jù)由深圳婦幼保醫(yī)院的專門超聲醫(yī)生掃描并標(biāo)注,超聲儀器型號(hào)為西門子Acuson Sequoia 512型,胎兒孕周為20~36周。數(shù)據(jù)集圖像由超聲原始格式數(shù)據(jù)分解成單幀位圖,整個(gè)訓(xùn)練集包括375張軸狀標(biāo)準(zhǔn)切面(axial plane)、257張冠狀標(biāo)準(zhǔn)切面(coronal plane)、405張矢狀標(biāo)準(zhǔn)切面(sagittal plane)以及3 812張非標(biāo)準(zhǔn)切面(others plane)。如本文第1.3節(jié)所述,本研究采用數(shù)據(jù)增強(qiáng)的方式,分別將軸狀標(biāo)準(zhǔn)切面增至3 750張,冠狀標(biāo)準(zhǔn)切面增至2 570張,矢狀標(biāo)準(zhǔn)切面增至4 050張,非標(biāo)準(zhǔn)切面保持3 812張不變,故數(shù)據(jù)增強(qiáng)后整個(gè)FFSP數(shù)據(jù)集共包含14 182張圖像。最后,對(duì)整個(gè)訓(xùn)練集提取均值,即每幅圖像減去整個(gè)訓(xùn)練集圖像均值。
近年來,重慶市各區(qū)縣職業(yè)教育競(jìng)相發(fā)展、百花齊放。2017年,全市中職學(xué)校達(dá)182所,在校生39.8萬人,校均學(xué)生數(shù)2884人。重慶市云陽縣是人口大縣、教育大縣,在職業(yè)教育發(fā)展方面具有一定代表性。通過分析云陽縣的情況,可對(duì)全市區(qū)縣職業(yè)教育發(fā)展態(tài)勢(shì)進(jìn)行大致了解和把握。
2)測(cè)試集:在本研究中,測(cè)試集共包含2 418張圖像(其中軸狀切面axial plane 491張、冠狀切面coronal plane 127張、矢狀切面sagittal plane 174張、非標(biāo)準(zhǔn)切面others plane 1 626張)。在測(cè)試過程中,同樣采用數(shù)據(jù)增強(qiáng)的方式,對(duì)每張測(cè)試圖像裁剪出10張子圖像,再綜合訓(xùn)練好的網(wǎng)絡(luò)對(duì)這10張子圖像預(yù)測(cè)分?jǐn)?shù),得到原圖像的預(yù)測(cè)結(jié)果(10- crop testing)[11]。
3)系統(tǒng)執(zhí)行:本研究采用Matlab CNN工具包Matconvnet[21]進(jìn)行CNN設(shè)計(jì)與測(cè)試,整個(gè)實(shí)驗(yàn)運(yùn)行硬件環(huán)境為8核2.9 GHz CPU、128 GB內(nèi)存計(jì)算機(jī)。訓(xùn)練整個(gè)CNN- 8網(wǎng)絡(luò)耗時(shí)10 h,而訓(xùn)練CNN- 16網(wǎng)絡(luò)耗時(shí)4 d。測(cè)試階段則速度較快,加載完訓(xùn)練好的網(wǎng)絡(luò),單張圖像只需要幾秒鐘就能得到預(yù)測(cè)結(jié)果。
圖4 t- SNE可視化實(shí)驗(yàn)結(jié)果。(a) 訓(xùn)練集初始數(shù)據(jù);(b) CNN- 16- TR訓(xùn)練集特征;(c) CNN- 8- TR訓(xùn)練集特征;(d) CNN- 8- RI訓(xùn)練集特征;(e) 測(cè)試集初始數(shù)據(jù);(f) CNN- 16- TR測(cè)試集特征;(g) CNN- 8- TR測(cè)試集特征;(h) CNN- 8- RI測(cè)試集特征Fig. 4 t- SNE visualizations of experimental results. (a) Raw training data; (b) CNN- 16- TR features of training data; (c) CNN- 8- TR features of training data; (d) CNN- 8- RI features of training data; (e) raw testing data; (f) CNN- 16- TR features of testing data; (g) CNN- 8- TR features of testing data; (h) CNN- 8- RI features of testing data
1.5.2 定性與定量方法說明
為了更好地分析比對(duì)不同CNN模型分類性能,本研究從定性和定量?jī)蓚€(gè)角度進(jìn)行結(jié)果討論。首先,通過可視化CNN網(wǎng)絡(luò)提取的高層特征,直觀展示CNN分類結(jié)果;其次,通過分析通用分類參數(shù)指標(biāo),具體評(píng)價(jià)CNN網(wǎng)絡(luò)識(shí)別FFSP性能。
定性評(píng)價(jià)即對(duì)數(shù)據(jù)特征進(jìn)行可視化,數(shù)據(jù)可視化是顯示高維特征向量常用的方法,可以很直觀地表示特征的分布。在本研究中,采用t- SNE方法[22],分別對(duì)訓(xùn)練集初始數(shù)據(jù)、測(cè)試集初始數(shù)據(jù)以及由CNN提取的訓(xùn)練集與測(cè)試集高層特征進(jìn)行可視化。對(duì)于初始圖像數(shù)據(jù)(像素?cái)?shù)據(jù)),首先將其轉(zhuǎn)換成一維行向量,即每張圖像得到一個(gè)行向量,再將所有圖像向量拼接成二維矩陣,最后將這些行向量連同圖像本身標(biāo)簽一同輸入至t- SNE函數(shù)。對(duì)于特征的可視化,則先提取CNN倒數(shù)第二層(即第二層全連接層)輸出,得到的1024維向量即為特征向量,再按照之前可視化圖像像素?cái)?shù)據(jù)的方法,將所有圖像特征及相應(yīng)標(biāo)簽輸入至t- SNE函數(shù)。
在定量評(píng)價(jià)過程中,采用國(guó)際通用分類評(píng)價(jià)參數(shù):準(zhǔn)確率(precision)、精確率(accuracy)、召回率(recall)、F1分?jǐn)?shù)(F1- score)。為了更好地評(píng)估本研究方法的優(yōu)勢(shì),除了對(duì)CNN模型分類結(jié)果進(jìn)行定量的分析,同時(shí)還加入了與通用人工特征分類方法的對(duì)比。目前,這些主流的分類識(shí)別技術(shù)主要基于人工特征,同時(shí)結(jié)合通用分類器進(jìn)行分類識(shí)別,該類方法的基本思想是先從圖像中提取特征,同時(shí)對(duì)特征進(jìn)行編碼,再訓(xùn)練分類器進(jìn)行分類識(shí)別,如基于DSIFT特征的編碼方式識(shí)別,包括直方圖編碼BoVW模型、局部特征聚合描述符VLAD編碼以及FV向量編碼。筆者先前的研究工作就是利用這些方法進(jìn)行FFSP的自動(dòng)識(shí)別[1,4- 5],對(duì)比結(jié)果見本文第2.2節(jié)所述。
2.1 定性分析結(jié)果
2.2 定量分析結(jié)果
表2給出了不同CNN模型以及人工特征結(jié)合分類器方法識(shí)別FFSP的結(jié)果。DSIFT人工特征方法與先前的研究工作[4- 5]類似,BoVW模型中聚類中心為1 024,單張圖像采用空間金字塔模型,總共劃分7個(gè)區(qū)域(2×2, 3×1)來進(jìn)行特征提取,最后特征維度為7 168。VLAD模型中聚類中心為64,最后特征維度44 800。FV模型中高斯元素個(gè)數(shù)為64,最后特征維度71 680。
表2 CNN識(shí)別結(jié)果Tab.2 Recognition results.
從表2可以看出,F(xiàn)V分類結(jié)果在各項(xiàng)參數(shù)上均高于BoVW以及VLAD。同時(shí),在未使用遷移學(xué)習(xí)的情況下,基于DSIFT特征的3類模型結(jié)果均好于深度網(wǎng)絡(luò)CNN- 8- RI。其中,最大原因在于深度網(wǎng)絡(luò)優(yōu)化嚴(yán)重依賴于大量訓(xùn)練數(shù)據(jù),而在本研究中的4類切面總共只有14 182張圖像,數(shù)據(jù)規(guī)模相對(duì)較小。然而,利用大規(guī)模自然圖像數(shù)據(jù)預(yù)訓(xùn)練網(wǎng)絡(luò),再利用目標(biāo)數(shù)據(jù)(超聲圖像)對(duì)網(wǎng)絡(luò)微調(diào)(遷移學(xué)習(xí)),可以有效改善深度網(wǎng)絡(luò)因訓(xùn)練數(shù)據(jù)不足而導(dǎo)致的性能下降問題。在表2中,微調(diào)后的網(wǎng)絡(luò)CNN- 8- TR結(jié)果相對(duì)于CNN- 8- RI有顯著改善,其中準(zhǔn)確率提升約8%,精確度提升約10%。另外,網(wǎng)絡(luò)結(jié)構(gòu)深度對(duì)于分類結(jié)果也有較大影響,更深層網(wǎng)絡(luò)表達(dá)能力要更強(qiáng),在同樣使用遷移學(xué)習(xí)條件下,CNN- 16- TR較CNN- 8- TR在準(zhǔn)確率上有約3%的提高,準(zhǔn)確度提升約6%。因此,加深CNN模型的深度能夠很好地改善最后的分類效果。
圖5是各個(gè)CNN網(wǎng)絡(luò)的分類性能ROC曲線和混淆矩陣(見下頁)。對(duì)于4類切面,識(shí)別率相對(duì)低的是非標(biāo)準(zhǔn)切面,原因在于非標(biāo)準(zhǔn)切面數(shù)據(jù)中含有大量與其他3類切面差異較小的圖像,這對(duì)于識(shí)別有較大影響??傮w而言,所有CNN模型識(shí)別結(jié)果都表現(xiàn)良好,尤其是在使用微調(diào)策略以后,性能都優(yōu)于人工特征分類結(jié)果。雖然CNN具有極強(qiáng)的分類性能,但在實(shí)驗(yàn)結(jié)果中也觀察到了一些值得注意的細(xì)節(jié):首先,在測(cè)試階段,每張圖像綜合其10張子圖像的預(yù)測(cè)結(jié)果,這種10- crop testing比直接測(cè)試單張圖像的結(jié)果提升了3%左右;其次,采用遷移學(xué)習(xí)策略時(shí),網(wǎng)絡(luò)訓(xùn)練收斂的速度大大加快,比隨機(jī)初始化參數(shù)的網(wǎng)絡(luò)收斂時(shí)間快50%以上。
圖5 CNN模型分類ROC曲線與混淆矩陣。(a) CNN- 8- RI ROC曲線;(b) CNN- 8- TR ROC曲線; (c) CNN- 16- TR ROC曲線;(d) CNN- 8- RI混淆矩陣;(e)CNN- 8- TR混淆矩陣;(f) CNN- 16- TR混淆矩陣Fig.5 ROC curves and confusion matrixes for our CNN models. (a) ROC curve of CNN- 8- RI;(b) ROC curve of CNN- 8- TR;(c) ROC curve of CNN- 16- TR;(d) Confusion matrix of CNN- 8- RI;(e) Confusion matrix of CNN- 8- TR;(f) Confusion matrix of CNN- 16- TR
深度網(wǎng)絡(luò)作為一種表達(dá)學(xué)習(xí)方法[23],通過組合迭代不同層次的特征,最后形成高層抽象特征,這種特征相對(duì)于傳統(tǒng)的人工特征(SIFT,HoG)而言,在概念表達(dá)方面更具魯棒性或者說更具不變性。而且,深度網(wǎng)絡(luò)可以根據(jù)給定的數(shù)據(jù),學(xué)習(xí)到對(duì)應(yīng)的特征,因此,其泛化能力更強(qiáng),可以推廣應(yīng)用到不同的圖像領(lǐng)域。近年來,由于計(jì)算機(jī)的發(fā)展以及數(shù)據(jù)集規(guī)模的擴(kuò)大,深度學(xué)習(xí)模型在圖像分類檢測(cè)領(lǐng)域內(nèi)取得了廣泛應(yīng)用。然而,深度學(xué)習(xí)模型普遍要求足夠多的訓(xùn)練數(shù)據(jù)量,否則網(wǎng)絡(luò)訓(xùn)練會(huì)出現(xiàn)過擬合問題。在不同的圖像領(lǐng)域,顯然數(shù)據(jù)采集的難度不盡相同,且自然圖像數(shù)據(jù)集的規(guī)模往往遠(yuǎn)大于醫(yī)學(xué)類圖像數(shù)據(jù)。因此,醫(yī)學(xué)圖像領(lǐng)域內(nèi),深度網(wǎng)絡(luò)應(yīng)用的最大困難在于數(shù)據(jù)集規(guī)模的限制。
利用自然圖像數(shù)據(jù)集訓(xùn)練基礎(chǔ)網(wǎng)絡(luò),再進(jìn)行遷移學(xué)習(xí),是解決當(dāng)前不同圖像領(lǐng)域應(yīng)用深度網(wǎng)絡(luò)數(shù)據(jù)量不足的有效方式。因此,本研究結(jié)合了遷移學(xué)習(xí)與數(shù)據(jù)增強(qiáng)的方式來綜合提升深度網(wǎng)絡(luò)分類性能。最后的結(jié)果分析也表明,其FFSP分類性能要遠(yuǎn)遠(yuǎn)好于筆者之前的研究,即采用人工特征結(jié)合分類器分類的方法。
然而,本研究依然存在一些不足之處。首先,測(cè)試集數(shù)量有限,只有2 418張測(cè)試圖像,雖然在一定程度上可以反映CNN模型的分類性能,但更大量的數(shù)據(jù)才能更具說明性,這也是以后所需改進(jìn)的方向之一。其次,在測(cè)試結(jié)果方面,依然存在提升的空間,不少接近FFSP的非標(biāo)準(zhǔn)切面被識(shí)別為標(biāo)準(zhǔn)切面,這跟圖像本身的噪聲以及差異度小有極大的關(guān)系。在未來的研究中,可以通過給訓(xùn)練集圖像隨機(jī)添加噪聲來增加網(wǎng)絡(luò)識(shí)別的穩(wěn)定性。另外,臨床醫(yī)生在尋找FFSP過程中,會(huì)考慮前后幀圖像的上下文信息,因此在網(wǎng)絡(luò)訓(xùn)練過程中加入當(dāng)前圖像上下文信息,可以消除FFSP與非FFSP類內(nèi)差異小所帶來的干擾。
在本研究中,提出了用深度卷積網(wǎng)絡(luò)的方式來識(shí)別胎兒顏面部的超聲圖像,同時(shí)分析研究了不同深度結(jié)構(gòu)的CNN模型對(duì)于FFSP分類的結(jié)果。為了防止由于訓(xùn)練數(shù)據(jù)集數(shù)量不足而引發(fā)網(wǎng)絡(luò)訓(xùn)練出現(xiàn)過擬合問題,采用了數(shù)據(jù)增強(qiáng)(data augmentation)結(jié)合遷移學(xué)習(xí)的方式來改善網(wǎng)絡(luò)分類結(jié)果。最后的結(jié)果表明,深度網(wǎng)絡(luò)可以有效地識(shí)別FFSP標(biāo)準(zhǔn)切面,同時(shí)更深層的深度網(wǎng)絡(luò)能夠帶來更好的分類性能。因此,深度網(wǎng)絡(luò)與遷移學(xué)習(xí)的結(jié)合在臨床應(yīng)用方面具有極大的前景,值得進(jìn)一步探索和研究。
[1] Lei Baiying, Zhuo Liu, Chen Siping, et al. Automatic recognition of fetal standard plane in ultrasound image [C]//International Symposium on Biomedical Imaging. Beijing: IEEE, 2014:85- 88.
[2] Chen Hao, Dou Qi, Ni Dong, et al. Automatic fetal ultrasound standard plane detection using knowledge transferred recurrent neural networks [C] // Medical Image Computing and Computer- Assisted Intervention. Munich:Springer International Publishing, 2015: 507- 514.
[3] Chen Hao, Ni Dong, Qin Jing, et al. Standard plane localization in fetal ultrasound via domain transferred deep neural networks[J]. IEEE J Biomed Health Inf, 2015. 19(5): 1627- 1636.
[4] Lei Baiying, Tan Eeleng, Chen Siping, et al. Automatic recognition of fetal facial standard plane in ultrasound image via fisher vector[J]. PLoS ONE, 2015, 10(5): e0121838.
[5] Lei Baiying, Yao Yuan, Chen Siping, et al. Discriminative learning for automatic staging of placental maturity via multi- layer fisher vector[J]. Scientific Reports, 2015. 5: 12818.
[6] Rahmatullah B, Papageorghiou A, Noble J. Automated selection of standardized planes from ultrasound volume[C] //Machine Learning in Medical Imaging.Toronto: Springer Berlin Heidelberg, 2011: 35-42.
[7] Zhang Ling, Chen Siping, Chin CT, et al. Intelligent scanning: automated standard plane selection and biometric measurement of early gestational sac in routine ultrasound examination[J]. Medical Physics, 2012. 39(8): 5015- 5027.
[8] Ni Dong, Li Tianmei, Yang Xin, et al. Selective search and sequential detection for standard plane localization in ultrasound[C] //Medical Image Computing and Computer- Assisted Intervention. Nagoya: Springer Berlin Heidelberg, 2013: 203- 211.
[9] Deng Jia, Dong Wei, Socher R, et al. Imagenet: A large- scale hierarchical image database[C]//Computer Vision and Pattern Recognition. Anchorage: IEEE, 2009: 248- 255.
[10] Szegedy C, Liu Wei, Jia Yangqing, et al.Going deeper with convolutions[C]//Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1- 9.
[11] Krizhevsky A, Sutskever I, Hinton G. Imagenet classification with deep convolutional neural networks[C]//Neural Information Processing Systems. Lake Tahoe: Nips Foundation, 2012: 1097- 1105.
[12] Simonyan K, Zisserman A. Very deep convolutional networks for large scale image recognition[J]. Computer Science, 2014.
[13] Bengio Y, Simard P, Frasconi P. Learning long- term dependencies with gradient descent is difficult[J]. IEEE Trans Neural Netw, 1994, 5(2): 157- 166.
[14] Hochreiter S. The vanishing gradient problem during learning recurrent neural nets and problem solutions[J]. International Journal of Uncertainty, Fuzziness and Knowledge- Based Systems, 1998. 6(02): 107- 116.
[15] Hinton G, Osindero S, The Y. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527- 1554.
[16] Zeiler M, Fergus R. Visualizing and understanding convolutional networks[C]//Computer Vision-ECCV. Zürich: Springer International Publishing, 2014: 818- 833.
[17] Shin H, Roth H, Gao Mingchen, et al. Deep convolutional neural networks for computer- aided detection: CNN architectures, dataset characteristics and transfer learning[J]. IEEE Trans on Medl Imaging, 2016, 35(5): 1285- 1298.
[18] Donahue J, Jia Yangqing, Vinyals O, et al. Decaf: A deep convolutional activation feature for generic visual recognition[C]//International Conference on Machine Learning. JMLR.org, 2014: 1-647.
[19] Razavian A, Azizpour H, Sullivan J, et al. CNN features off- the- shelf: an astounding baseline for recognition[C]//Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 806- 813.
[20] Yosinski J, Clune J, Bengio Y, et al. How transferable are features in deep neural networks?[C]//Neural Information Processing Systems. Montréal: Nips Foundation, 2014: 3320- 3328.
[21] Vedaldi A, Lenc K. MatConvNet: Convolutional neural networks for matlab[C]//The ACM International Conference. ACM, 2015:689-692.
[22] Maaten L, Hinton G. Visualizing data using t- SNE[J]. J Mach Learn Res, 2008. 9: 2579-2605.
[23] Yann LC, Yoshua B. Geoffrey H. Deep learning[J]. Nature, 2015. 521(7553):436- 444.
Fetal Facial Standard Plane Recognition via Deep Convolutional Neural Networks
Yu Zhen1Wu Lingyun1Ni Dong1Chen Siping1Li Shengli2Wang Tianfu1*Lei Baiying1*
1(Schoolof Biomedical Engineering, Shenzhen University, National- Regional Key Technology Engineering Laboratory for Medical Ultrasound, Guangdong Key Laboratory for Biomedical Measurements and Ultrasound Imaging, Shenzhen 518060, Guangdong, China)2(Department of Ultrasound, Affiliated Shenzhen Maternal and Child Healthcare, Hospital of Nanfang Medical University, Shenzhen 518060, Guangdong, China)
The accurate recognition of fetal facial standard plane (FFSP) (i.e., axial, coronal and sagittal plane) from ultrasound (US) images is quite essential for routine US examination. Since the labor- intensive and subjective measurement is too time- consuming and unreliable, the development of the automatic FFSP recognition method is highly desirable. In this paper, we proposed to recognize FFSP using different depth CNN architectures (e.g., 8- layer and 16- layer). Specifically, we trained these models varied from depth to depth and mainly utilize two training strategy: 1) training the “CNN from scratch” with random initialization; 2) performing transfer learning strategy by fine- tuning ImageNet pre- trained CNN on our FFSP dataset. In our experiments, fetal gestational ages ranged typically from 20 to 36 weeks. Our training dataset contains 4849 images (i.e., 375 axial plane images, 257 coronal plane images, 405 sagittal plane images and 3812 non- FFSP images). Our testing dataset contained 2 418 images (i.e., 491 axial plane images, 127 coronal plane images, 174 sagittal plane images, and 1626 non- FFSP images). The experiment indicated that the strategy of transfer learning combined with CNN improving recognition accuracy by 9.29%. When CNN depth changes from 8 layer to 16 layer, it improves the recognition accuracy by 3.17%. The best recognition accuracy of our CNN model was 94.5%, which was 3.66% higher than our previous study. The effectiveness of deep CNN and transfer learning for FFSP recognition shows promising application for clinical diagnosis.
fetal facial standard plane recognition; ultrasound image; deep convolutional network; transfer learning
10.3969/j.issn.0258- 8021. 2017. 03.002
2016-06-08, 錄用日期:2016-09-09
廣東省科技創(chuàng)新重點(diǎn)項(xiàng)目(2014KXM052)
R318
A
0258- 8021(2017) 03- 0267- 09
*通信作者(Corresponding author),E- mail: tfwang@szu.edu.cn, leiby@szu.edu.cn