傅賢君 汪嬋嬋
摘要:傳統(tǒng)的骨齡評(píng)估方法通常是由骨齡專(zhuān)家根據(jù)GP法或計(jì)分法對(duì)手部X光片進(jìn)行判讀,這種方法具有較大的工作量,長(zhǎng)測(cè)量周期和主觀性強(qiáng)的缺點(diǎn),而計(jì)算機(jī)輔助診斷具有快速、準(zhǔn)確、可重復(fù)的優(yōu)勢(shì)。該文提出了一種基于數(shù)字圖像處理技術(shù)與深度學(xué)習(xí)技術(shù)對(duì)手部X光片進(jìn)行骨齡計(jì)算機(jī)輔助診斷的新方法,圖像預(yù)處理方面綜合閾值操作及提取最大連通域方法提取手掌輪廓,并基于Xception的深度卷積神經(jīng)網(wǎng)絡(luò)得到骨齡評(píng)估回歸分析模型,多尺度提取特征,實(shí)現(xiàn)骨齡自動(dòng)化精準(zhǔn)評(píng)估。實(shí)驗(yàn)表明上述方法能快速準(zhǔn)確地對(duì)灰度不均勻的手部X線平片進(jìn)行骨齡檢測(cè)。
關(guān)鍵詞:骨齡檢測(cè);數(shù)字圖像處理;深度學(xué)習(xí);回歸分析
中圖分類(lèi)號(hào):TP391.4? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)12-0183-03
1 背景
通過(guò)骨齡評(píng)估能較準(zhǔn)確的確定兒童的生物學(xué)年齡,及早了解兒童的生長(zhǎng)發(fā)育情況,同時(shí)能對(duì)一些兒科內(nèi)分泌疾病作出早期判斷[1]。骨齡檢測(cè)還能被更廣泛應(yīng)用于司法判案、運(yùn)動(dòng)員實(shí)際年齡確定之中。由于傳統(tǒng)的人工判讀骨齡方法煩瑣費(fèi)時(shí),同時(shí)精確度因評(píng)定者而異。計(jì)算機(jī)輔助診斷具有快速、準(zhǔn)確、可重復(fù)的優(yōu)勢(shì),而傳統(tǒng)的骨齡評(píng)估方法通常是由骨齡專(zhuān)家根據(jù)GP法[2]或計(jì)分法[3]對(duì)手部X光片進(jìn)行判讀,這種方法具有較大的工作量,長(zhǎng)測(cè)量周期和主觀性強(qiáng)的缺點(diǎn)。因此,隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,國(guó)內(nèi)外科研機(jī)構(gòu)都在積極探索利用使用計(jì)算機(jī)輔助診斷技術(shù)實(shí)現(xiàn)骨齡檢測(cè),并在最近幾年取得了很大進(jìn)展。
目前,國(guó)內(nèi)外已有一些基于X光手部圖像的骨齡評(píng)估方法。Thodberg等[4]開(kāi)發(fā)了一款基于主動(dòng)外觀模型的網(wǎng)絡(luò)遠(yuǎn)程自動(dòng)評(píng)估軟件BoneXpert,由于該系統(tǒng)無(wú)須人工干預(yù),目前此軟件已在多個(gè)國(guó)家使用并得到驗(yàn)證。但該方法容易導(dǎo)致欠分割甚至無(wú)法分割。Spampinato等[5]提出了基于深度學(xué)習(xí)方法的骨齡檢測(cè)模型,并在公開(kāi)數(shù)據(jù)集上得到了平均差異約0.8年的良好結(jié)果。而現(xiàn)如今深度學(xué)習(xí)技術(shù)的不斷發(fā)展,也勢(shì)必會(huì)帶動(dòng)骨齡檢測(cè)的進(jìn)展。本研究提出了結(jié)合傳統(tǒng)數(shù)字圖像處理技術(shù)與深度學(xué)習(xí)技術(shù),對(duì)手部X光片進(jìn)行分析,最終實(shí)現(xiàn)骨齡的自動(dòng)準(zhǔn)確評(píng)估。
2 手掌輪廓提取方法
手部X光圖像中手掌輪廓與背景之間的變化較小,移除背景并提取出手掌輪廓圖像能有效減少噪聲干擾,因此需要進(jìn)行圖像預(yù)處理操作。在圖像預(yù)處理部分,共分為DICOM圖像格式轉(zhuǎn)化為BMP圖像格式[6]、中值濾波去噪[7]、手部X光圖像二值化操作即閾值處理、提取最大連通域等四個(gè)方面。其中DICOM數(shù)據(jù)轉(zhuǎn)化為BMP圖像是為了使其方便使用OpenCV進(jìn)行處理;中值濾波可有效去除圖像中可能存在的脈沖噪聲;自動(dòng)閾值處理可獲得手部輪廓,方便后面提取手掌感興趣區(qū)域;提取最大連通域的操作可獲得手掌感興趣區(qū)域。
具體研究方案如圖1。
這里簡(jiǎn)要介紹一下圖像閾值操作及最大連通域操作過(guò)程。
2.1 圖像閾值操作
圖像閾值操作[8]是數(shù)字圖像處理中主要承擔(dān)提取形狀特征、邊緣分析處理、移除背景等多個(gè)方面作用,它也是圖像預(yù)處理的一種基本方法。在醫(yī)學(xué)數(shù)據(jù)可視化中,圖像閾值處理對(duì)于提取圖像邊界輪廓特征,從而根據(jù)邊界特征配準(zhǔn)得到原圖的主要特征是至關(guān)重要的,閾值處理后的圖片也可通過(guò)掩膜處理得到移除背景后的感興趣區(qū)域。
圖像閾值處理通常有三種,包括全局、局部、動(dòng)態(tài)閾值法。全局閾值法是指使用一個(gè)閾值來(lái)對(duì)整張圖像進(jìn)行操作,當(dāng)圖像中某個(gè)像素對(duì)應(yīng)的灰度值大于閾值時(shí),將該像素灰度值設(shè)置為前景;反之則設(shè)置為背景。局部閾值法則根據(jù)圖像中某一像素灰度值與鄰域中其他像素的局部灰度特性來(lái)特定該像素的閾值。動(dòng)態(tài)閾值法則是基于局部閾值,通過(guò)加入像素的坐標(biāo)位置優(yōu)化分割,適用于灰度不均勻的圖像,但可能時(shí)間開(kāi)銷(xiāo)較大。
這里為了提高算法的時(shí)效性,預(yù)處理過(guò)程僅采用全局閾值法對(duì)手部X光圖片進(jìn)行操作。
由于圖像存在與手部影像軟組織較為接近的背景,且灰度呈現(xiàn)變化,若設(shè)置固定閾值進(jìn)行二值化對(duì)部分圖片會(huì)遺留大量背景,使得獲取最大連通域時(shí)出現(xiàn)偏差。這里使用一個(gè)自動(dòng)獲取圖像背景閾值的方法,公式如下:
2.2 提取最大連通域
連通域標(biāo)記算法[9]通常用于提取圖像中的前景區(qū)域。常用的連通域快速標(biāo)記算法有:基于像素的連通域標(biāo)記算法。通過(guò)遍歷圖像中的所有像素并在每行或每列中記錄連續(xù)的等效標(biāo)記對(duì),重新標(biāo)記原始圖像?;谟纬痰倪B通域標(biāo)記算法。通過(guò)逐行掃描圖像,將每行中的連續(xù)白色像素序列定義為組,將等效序列分配給每個(gè)組,然后重新標(biāo)記原始圖像。 這種方法在不增加存儲(chǔ)空間的前提下保證了提取結(jié)果的準(zhǔn)確性。基于輪廓的連通域標(biāo)記算法。從下到上,從左到右遍歷圖像,標(biāo)記每個(gè)新輪廓。標(biāo)記所需的空間在這種實(shí)踐中是最小的。
本文采用基于輪廓的連通域標(biāo)記算法,針對(duì)每一個(gè)輪廓,在標(biāo)記每一個(gè)輪廓之后計(jì)算其面積,即像素點(diǎn)數(shù)量,根據(jù)閾值操作處理結(jié)果,其中面積最大的連通域即為手掌感興趣區(qū)域,如圖4所示,即最大連通域提取結(jié)果。
在得到最大連通域的基礎(chǔ)上,通過(guò)計(jì)算最大連通域的最小外接矩形。為使得手指部分包含完整,對(duì)外接矩形進(jìn)行微調(diào),即可得到最終的手掌感興趣區(qū)域。如圖5所示。
3 基于深度學(xué)習(xí)方法的骨齡回歸分析
3.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種由輸入層、多個(gè)隱藏層、輸出層及特征學(xué)習(xí)部分組成的多層神經(jīng)網(wǎng)絡(luò),包含有卷積層(Convolution Layer)、池化層(Pooling Layer)、全連接層(Fully Connected Layer)、激活器(Activation Function)、優(yōu)化器(Optimization Function)、損失函數(shù)(Cost Function)等。卷積神經(jīng)網(wǎng)絡(luò)的目的是找到一個(gè)未知函數(shù)的近似值,它是由許多相互連接的神經(jīng)元組成,神經(jīng)元接收輸入并生成輸出與權(quán)重。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,反向傳播是一個(gè)不斷更新偏差和權(quán)重的過(guò)程,而損失函數(shù)用來(lái)計(jì)算預(yù)測(cè)值與真實(shí)值之間的差距來(lái)判定是否需要對(duì)權(quán)重及偏差進(jìn)行更新。激活函數(shù)根據(jù)需要將神經(jīng)元的輸入層映射到輸出層,被激活的神經(jīng)元會(huì)輸出結(jié)果。
Inception網(wǎng)絡(luò)是現(xiàn)今廣受歡迎的卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)相比較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的深度和寬度都大幅增加,意味著它能提取到更多的特征用于分類(lèi)。Inception同樣也是通過(guò)增加模型的規(guī)模來(lái)保證它的性能。模型復(fù)雜度增加雖然可以讓神經(jīng)網(wǎng)絡(luò)變得更深,但也會(huì)導(dǎo)致參數(shù)量大幅增加,同時(shí)算力成本也會(huì)指數(shù)型增加。模型往往會(huì)出現(xiàn)過(guò)擬合的情況,因此不能沒(méi)有根據(jù)地通過(guò)增加模型的深度和寬度。于是,為了增加模型的深度,往往減少模型的寬度來(lái)進(jìn)行的。另一種普遍應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)VGG則將尺寸全部替換成3*3,一方面保證了模型的性能,另一方面也可以減少模型的寬度,事實(shí)證明這樣能取得很好的效果。傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)中卷積層是由完全連接實(shí)現(xiàn)的,而Inception網(wǎng)絡(luò)將其轉(zhuǎn)變成稀疏連接,且根據(jù)生物神經(jīng)元工作的實(shí)際特質(zhì),采用多個(gè)尺寸不一致的卷積核的堆疊,在不同的空間尺度上提取更豐富的特征,然后通過(guò)多層級(jí)聯(lián)使得輸出一致,這樣網(wǎng)絡(luò)在確保參數(shù)量的不增加的情況下,提升了網(wǎng)絡(luò)的寬度,同時(shí)也增加了網(wǎng)絡(luò)在多個(gè)尺度下的適應(yīng)性。
Inception v3[10]對(duì)Inception模塊又做了進(jìn)一步改進(jìn)。首先是對(duì)大卷積核進(jìn)行分解。分解卷積核尺寸主要有兩個(gè)辦法,其一是將其分解為對(duì)稱(chēng)的小卷積核,其二為分解為不對(duì)稱(chēng)的卷積核。對(duì)于5*5的卷積核,Inception v3將其分成2個(gè)3*3的卷積核。同時(shí)對(duì)于n*n尺寸的卷積核,Inception v3將其分為1*n與n*1尺寸卷積核的堆疊,這種不對(duì)稱(chēng)方法是的參數(shù)大量減少,同時(shí)非線性層的增加,提高了模型的表達(dá)能力,似的網(wǎng)絡(luò)能提取到更多的特征,同時(shí)處理空間特征的速度與數(shù)量都大幅增加。但這種分解方法在低維的特征圖中表現(xiàn)不好,在高維的特征圖中有較好的結(jié)果。
本文的骨干網(wǎng)絡(luò)采用Xception網(wǎng)絡(luò),Xception[11]是對(duì)Inception v3的一種改進(jìn),主要思想是在Inception v3的基礎(chǔ)上引入了深度可分卷積,進(jìn)一步提高了模型的分類(lèi)效果,同時(shí)模型的復(fù)雜度也沒(méi)有增加。若將Inception v3的原始模塊簡(jiǎn)化,僅保留包含3*3的卷積分支,再將1*1卷積進(jìn)行拼接,再進(jìn)一步增多3*3卷積的分支,使它與1*1卷積的輸出通道數(shù)相等。此時(shí)每個(gè)3*3卷積僅作用于包含有一個(gè)通道的特征圖上,這就是Xception的基本模塊,即深度可分卷積模塊。
通過(guò)卷積神經(jīng)網(wǎng)絡(luò),對(duì)前面預(yù)處理過(guò)的帶年齡標(biāo)注手部X光平片進(jìn)行訓(xùn)練分析,建立快速、準(zhǔn)確、健壯性高的模型。該模塊采用多種當(dāng)前效果優(yōu)良的深度學(xué)習(xí)分類(lèi)模型進(jìn)行多對(duì)比實(shí)驗(yàn),實(shí)現(xiàn)實(shí)時(shí)骨齡評(píng)估。具體邏輯如圖6所示:
3.2 數(shù)據(jù)集
本文采用的數(shù)據(jù)集來(lái)自2018年北美放射研究學(xué)會(huì)(RSNA Pediatric Boneage)公開(kāi)的12611張手部X光平片,生理年齡區(qū)間為2至14歲。通過(guò)手掌輪廓提取方法對(duì)X光片中的手掌輪廓進(jìn)行提取后,實(shí)驗(yàn)采用10000張作為訓(xùn)練集,2611張作為驗(yàn)證集。
3.3 實(shí)驗(yàn)結(jié)果與討論
本文所采用的Xception網(wǎng)絡(luò)結(jié)構(gòu)是在基于Python的深度學(xué)習(xí)庫(kù)TensorFlow中實(shí)現(xiàn)的。實(shí)驗(yàn)平臺(tái)為HPZ840服務(wù)器,Tesla K40c和 Quadro K5200, CPU E5-2650 v3 2.30GHz, 內(nèi)存126G,操作系統(tǒng)是Ubuntu16.04。優(yōu)化器選擇adam函數(shù),激活函數(shù)使用ReLU,損失使用平均絕對(duì)誤差(Mean Absolute Error,MAE)。MAE為絕對(duì)誤差的平均值,能更好地反映預(yù)測(cè)值誤差的實(shí)際情況,其公式如下所示。
其中[hxi]為模型預(yù)測(cè)值,[yi]為樣本標(biāo)簽值。
使用本研究提出的手掌輪廓提取方法及基于Xception的預(yù)測(cè)模型,最終得到的模型測(cè)試結(jié)果為MAE=7.6個(gè)月,即骨齡預(yù)測(cè)結(jié)果與骨齡真實(shí)值之間的誤差為0.63歲,已優(yōu)于17年Spampinato等提出的使用深度學(xué)習(xí)回歸分析方法得到的0.8歲結(jié)果。
當(dāng)使用未使用手掌輪廓提取方法去除背景數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),模型訓(xùn)練時(shí)的驗(yàn)證結(jié)果為MAE=9.6個(gè)月,證明本實(shí)驗(yàn)采用的去背景預(yù)處理是行之有效的。
同時(shí),與國(guó)內(nèi)外骨齡自動(dòng)化評(píng)估方法進(jìn)行對(duì)比,通過(guò)對(duì)比可發(fā)現(xiàn),同樣是在12.6K大小的RSNA Pediatric Boneage數(shù)據(jù)集上進(jìn)行測(cè)試,本研究提出的方法誤差要遠(yuǎn)優(yōu)于Lee等提出的結(jié)果。相對(duì)比于其他數(shù)據(jù)量較小的結(jié)果,本文的準(zhǔn)確率也有所提高,證明了本研究提出算法的優(yōu)越性。
4 結(jié)束語(yǔ)
本文提出了一種基于數(shù)字圖像處理技術(shù)與深度學(xué)習(xí)技術(shù)對(duì)手部X光片進(jìn)行骨齡計(jì)算機(jī)輔助診斷方法。通過(guò)傳統(tǒng)的數(shù)字圖像方法對(duì)手掌輪廓進(jìn)行提取,而后采用基于Xception網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)方法進(jìn)行回歸分析。使用去背景后的X光手部圖像在Xception網(wǎng)絡(luò)中進(jìn)行骨齡評(píng)估模型訓(xùn)練,當(dāng)使用MAE作為評(píng)價(jià)標(biāo)準(zhǔn),誤差為7.6個(gè)月,相比較于國(guó)內(nèi)外研究成果已處于國(guó)際先進(jìn)水平。未來(lái)期望結(jié)合對(duì)抗生成網(wǎng)絡(luò)進(jìn)一步擴(kuò)增數(shù)據(jù)集,同時(shí)優(yōu)化骨干網(wǎng)絡(luò),提高深度學(xué)習(xí)特征提取能力,開(kāi)發(fā)出性能更優(yōu)的骨齡自動(dòng)化評(píng)估模型。
參考文獻(xiàn):
[1] 張紹巖,劉麗娟,張繼業(yè),等.RUS-CHN圖譜骨齡評(píng)價(jià)法用于推測(cè)青少年年齡[J].中國(guó)法醫(yī)學(xué)雜志,2009,24(4):249-253.
[2] Greulich W W,Pyle S I,Todd T W.Radiographic atlas of skeletal development of the hand and wrist[M].Stanford University Press Stanford,1959.
[3] Tanner J M,Healy M J R,Goldstein H,et al.Assessment of skeletal maturity and prediction of adult height (TW3)[M].3rd ed.London:WB Saunders,2001:243-54.
[4] Thodberg H H,Kreiborg S,Juul A,et al.The BoneXpert method for automated determination of skeletal maturity[J].IEEE Transactions on Medical Imaging,2009,28(1):52-66.
[5] Spampinato C,Palazzo S,Giordano D,et al.Deep learning for automated skeletal bone age assessment in X-ray images[J].Medical Image Analysis,2017(36):41-51.
[6] 王成波,陳偉,謝兵,等.DICOM圖像與BMP圖像的轉(zhuǎn)換研究[J].醫(yī)療衛(wèi)生裝備,2004(1):13-14,17.
[7] Ko S J,Lee Y H.Center weighted Median filters and their applications to image enhancement[J].IEEE Transactions on Circuits and Systems,1991,38(9):984-993.
[8] Otsu N.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems,Man,and Cybernetics,1979,9(1):62-66.
[9] 高紅波,王衛(wèi)星.一種二值圖像連通區(qū)域標(biāo)記的新算法[J].計(jì)算機(jī)應(yīng)用,2007(11):2776-2777,2785.
[10] Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2818-2826.
[11] Chollet F.Xception:deep learning with depthwise separable convolutions[C].2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:1800-1807.
[12] Lee J H,Kim K G.Applying deep learning in medical images:the case of bone age estimation[J].Healthcare Informatics Research,2018,24(1):86-92.
【通聯(lián)編輯:謝媛媛】