郭子昇,王吉芳,沈孝龍,蘇 鵬
(北京信息科技大學(xué)機(jī)電工程學(xué)院,北京 100192)
準(zhǔn)確評(píng)估骨齡具有重要意義,目前我國(guó)所用主要方法為G-P(Greulich-Pyle)圖譜法[1]和TW(Tanner and Whitehouse)評(píng)分法[2],均基于歐美青少年數(shù)據(jù)制定。2006年提出的中華-05評(píng)分法[3]包括TW3-C RUS(radius, ulna, and short bone)、TW3-C Carpal(腕骨)和RUS-CHN 3種方法,通過(guò)觀察非慣用手X線片中的腕、掌及指骨等骨骼形態(tài)結(jié)構(gòu)推斷目標(biāo)年齡,更適于我國(guó)人群,但仍存在耗時(shí)長(zhǎng)、精度低及操作復(fù)雜等缺點(diǎn)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,骨齡評(píng)估逐漸向自動(dòng)化及人工智能方向發(fā)展[4],如基于深度學(xué)習(xí)(deep learning, DL)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[5]。本研究通過(guò)融合中華-05注意力與多層紋理疊加建立殘差網(wǎng)絡(luò)智能模型,觀察其評(píng)估骨齡的準(zhǔn)確性。
1.1 數(shù)據(jù)集 采用北美放射學(xué)會(huì)(Radiological Society of North America, RSNA)公開數(shù)據(jù)集中的手骨X線片,受試者月齡范圍為1~228個(gè)月,含12 611幅訓(xùn)練圖像、1 425幅驗(yàn)證圖像和200幅測(cè)試圖像;截取前1 376幅訓(xùn)練圖像原始文件作為測(cè)試集,以其余圖片為訓(xùn)練集;按原始文件骨齡編號(hào),以12個(gè)月為1歲,將測(cè)試集、訓(xùn)練集圖像的新編文件歸為0~18歲,共計(jì)19類。
1.2 實(shí)驗(yàn)平臺(tái) CPU為Intel(R) Core (TM)i7-9750H,GPU為NVIDIA GeForce GTX 1650,內(nèi)存8G;Windows10 64位系統(tǒng)。編程軟件包括Tensorflow2.1.0、Keras框架、Python3.7語(yǔ)言及PyCharm2019.3.3編輯器。
1.3 深度殘差網(wǎng)絡(luò)模型設(shè)計(jì)
1.3.1 局部二值模式(local binary pattern, LBP)多層疊加紋理增強(qiáng)層 引入LBP、圓形LBP及旋轉(zhuǎn)不變LBP算子的多層疊加紋理增強(qiáng)處理層(圖1),計(jì)算公式依次為(1)~(3)。若計(jì)算值非整數(shù),則以雙線性插值計(jì)算插值點(diǎn),見公式(4):
(1)
(2)
(3)
(4)
式(1)為L(zhǎng)BP算子,(xc,yc)為中心像素,ic為中心像素灰度值,ip為P點(diǎn)像素灰度值,s為符號(hào)函數(shù),p為鄰域P個(gè)采樣點(diǎn)中第p個(gè)采樣點(diǎn)。式(2)為圓形LBP算子,以可變半徑的圓(P=16,R=2)對(duì)近鄰像素進(jìn)行編碼,其中R為采樣半徑,P為第P個(gè)采樣點(diǎn),p為采樣數(shù)目。式(3)為旋轉(zhuǎn)不變LBP算子,對(duì)圓形鄰域進(jìn)行二進(jìn)制編碼,再通過(guò)不斷旋轉(zhuǎn)及循環(huán)位移得到一系列初始定義值,取其最小值作為該鄰域LBP值。
1.3.2 中華-05空間注意力機(jī)制 基于中華-05評(píng)分法設(shè)計(jì)空間注意力機(jī)制,包含尺、橈骨遠(yuǎn)端、第1、3、5掌骨、拇指近節(jié)指骨、中指和小指中節(jié)指骨、拇指、中指、小指遠(yuǎn)節(jié)指骨近端共11個(gè)易識(shí)別骨骼發(fā)育程度的區(qū)域。各骨骼連接處骨骺骨干寬度差距、鈣化程度及融合程度所致相應(yīng)手部X線片區(qū)域灰度值存在差異,將其作為空間注意力機(jī)制的11個(gè)ROI引入空間網(wǎng)絡(luò)變壓器[6]與11個(gè)識(shí)別網(wǎng)絡(luò)。
以中華-05空間注意力機(jī)制根據(jù)圖像特征自動(dòng)搜索11個(gè)特定區(qū)域,資源分配傾向于關(guān)鍵區(qū)域,利用空間網(wǎng)絡(luò)變壓器對(duì)原始輸入圖像進(jìn)行逐層空間區(qū)域?qū)W習(xí),輸出11個(gè)由更具辨識(shí)能力特征映射組成的子區(qū)域,再將其反饋于11個(gè)識(shí)別網(wǎng)絡(luò),后者在特征映射后的隱藏層加入壓縮激活塊[7],并輸入一幅手部X線片圖像,隨之輸出一個(gè)D維向量;將所有網(wǎng)絡(luò)輸出連結(jié)成一個(gè)N×D維向量組,分別設(shè)置N和D為11和512,輸入至全連接層中,由softmax層輸出整圖骨齡評(píng)分值(圖2)。
1.3.3 集成化殘差網(wǎng)絡(luò)模型 參照文獻(xiàn)[8]設(shè)計(jì)集成化殘差網(wǎng)絡(luò)模型,以殘差塊為基本單元,堆疊卷積層、批量處理歸一化層和修正線性單元(rectified linear unit, ReLU);殘差塊計(jì)算公式如下:
xl+1=f(x1+F(xl,Wl))
(5)
式中,xl+1為第l+1層殘差單元輸入,F(xiàn)(xl,Wl)為殘差函數(shù),Wl為第l層殘差單元的權(quán)重,f(…)為ReLU。
構(gòu)建50層深度殘差網(wǎng)絡(luò),第1層設(shè)置卷積層,其后連接池化層,最后連接16個(gè)瓶頸殘差模塊(圖3A);分別于每個(gè)殘差模塊后連接1個(gè)池化層和1個(gè)激活層,最后連接全連接層,堆疊方式見圖3B。
1.3.4 ZH05-DL-ResNet50 構(gòu)建集成融合多層疊加紋理增強(qiáng)層與中華-05空間注意力機(jī)制的智能骨齡評(píng)估模型ZH05-DL-ResNet50(圖4),于50層深度殘差網(wǎng)絡(luò)頂層,引入LBP多層疊加的紋理增強(qiáng)處理層,對(duì)原始數(shù)據(jù)集進(jìn)行多層疊加紋理增強(qiáng)處理,并于底層加入測(cè)試集輸入的X線片多層疊加紋理增強(qiáng)處理層,最后于池化層后引入中華-05空間注意力機(jī)制。
1.4 模型訓(xùn)練與評(píng)價(jià)
1.4.1 數(shù)據(jù)增強(qiáng) 為優(yōu)選LBP紋理增強(qiáng)層疊加順序,驗(yàn)證引入改進(jìn)處理層的有效性,對(duì)數(shù)據(jù)集依次進(jìn)行LBP多層疊加紋理增強(qiáng)處理,對(duì)各增強(qiáng)處理圖集進(jìn)行遍歷處理,并采用CNN依次設(shè)置120輪訓(xùn)練,以測(cè)試集中平均絕對(duì)誤差(mean absolute error, MAE)最低的組合順序?yàn)樽顑?yōu),見公式(6)。
(6)
式中,N為樣本數(shù),ytrue為真實(shí)值,ypred為預(yù)測(cè)值。
1.4.2 訓(xùn)練策略 采用改進(jìn)模型ZH05-DL-ResNet50對(duì)數(shù)據(jù)集進(jìn)行多次訓(xùn)練,訓(xùn)練圖片為三通道,設(shè)類別數(shù)為19,每次喂入模型16幅圖片,并調(diào)整輸入圖片寬、高皆為224,設(shè)置縮放因子為1/255,以增強(qiáng)模型泛化能力;設(shè)初始學(xué)習(xí)率為0.000 1,配置optimizers.Adam優(yōu)化器,結(jié)合fit_generator訓(xùn)練方式以節(jié)約內(nèi)存;計(jì)算骨齡預(yù)測(cè)值和真實(shí)值的準(zhǔn)確率(accuracy, AC)作為模型輸出,并結(jié)合測(cè)試集所計(jì)算的MAE綜合判斷模型性能。
1.4.3 模型評(píng)價(jià) 對(duì)ZH05-DL-ResNet50模型與傳統(tǒng)CNN訓(xùn)練時(shí)池化層、全連接層性能進(jìn)行可視化比較。繪制偏置權(quán)重分布直方圖,評(píng)價(jià)ZH05-DL-ResNet50模型與傳統(tǒng)CNN、50-layers ResNet、DL-ResNet50及其他文獻(xiàn)模型評(píng)估骨齡的性能。AC為模型在訓(xùn)練集與測(cè)試集中正確分類樣本占比,MAE反映預(yù)測(cè)值與真實(shí)值的吻合程度, MAE為0提示模型完美。權(quán)重表示神經(jīng)元之間的連接強(qiáng)度,其值表示分類概率的大小。偏置值代表不斷調(diào)整尋優(yōu)使樣本正確分類的值。
2.1 數(shù)據(jù)增強(qiáng)處理層對(duì)比結(jié)果 旋轉(zhuǎn)不變LBP-LBP-圓形LBP組合測(cè)試集的MAE最低,故以此組合順序設(shè)置多層疊加紋理增強(qiáng)層,見圖5。
2.2 模型可視化分析 50-layers ResNet的AC較CNN有所提升,且AC曲線收斂明顯加快;DL-ResNet50的AC較50-layers ResNet進(jìn)一步提升;ZH05-DL-ResNet50曲線收斂最快,AC最高(98.14%),預(yù)測(cè)測(cè)試集骨齡的MAE計(jì)算值為0.312歲,預(yù)測(cè)效果極佳。見表1及圖6。
表1 網(wǎng)絡(luò)模型訓(xùn)練結(jié)果
2.3 模型評(píng)估與精度 ZH05-DL-ResNet50批量數(shù)據(jù)均值方差期望走勢(shì)波動(dòng)較CNN明顯減小,全連接層卷積核權(quán)重值皆在0附近顏色最深,即在0附近區(qū)域權(quán)重值取值頻次最高,而ZH05-DL-ResNet50波動(dòng)范圍明顯更小,見圖7。傳統(tǒng)CNN訓(xùn)練過(guò)程卷積層的權(quán)重曲線缺乏結(jié)構(gòu)性,規(guī)律性差;而ZH05-DL-ResNet50的卷積層權(quán)重曲線規(guī)律、平滑,具有結(jié)構(gòu)性,見圖8。
與其他骨齡評(píng)估模型相比,ZH05-DL-ResNet50改進(jìn)模型的MAE更低而AC更高,見表2。
表2 ZH05-DL-ResNet50與文獻(xiàn)中的其他模型評(píng)估骨齡結(jié)果比較
基于DL的CNN用于檢測(cè)圖像和分類任務(wù)表現(xiàn)出色。IGLOVIKOV等[20]引入CNN,提出針對(duì)整幅手部X線片的DL骨齡評(píng)估模型,因無(wú)針對(duì)性ROI,整體評(píng)估準(zhǔn)確性一般;SPAMPINATO等[12]提出DL骨齡評(píng)估模型BoNet,以TW法細(xì)化提取ROI,并以涵蓋0~18歲多種族人群手部X線片的公共數(shù)據(jù)集進(jìn)行驗(yàn)證,其MAE為0.8歲;邊增亞[21]提出基于腕骨的骨齡評(píng)估方法,以CNN對(duì)腕骨ROI進(jìn)行訓(xùn)練并評(píng)估骨齡;WANG等[22]提出基于CNN的骨齡分類系統(tǒng),以TW法根據(jù)尺、橈骨不同發(fā)育階段的不同特征評(píng)估骨齡。以上研究均有所缺陷,如基于整幅手部圖像或某特征區(qū)域進(jìn)行學(xué)習(xí)訓(xùn)練可致評(píng)估精度較低,依據(jù)歐洲標(biāo)準(zhǔn)的TW或G-P法訓(xùn)練ROI可能影響模型泛化能力、導(dǎo)致用于我國(guó)人群存在不足,訓(xùn)練及預(yù)測(cè)評(píng)估模型時(shí)過(guò)度關(guān)注數(shù)據(jù)集的傳統(tǒng)數(shù)據(jù)增強(qiáng)手段而忽略醫(yī)學(xué)圖像的單通道、小對(duì)比度、復(fù)雜紋理及細(xì)粒度圖像識(shí)別等特征,可致模型訓(xùn)練和預(yù)測(cè)效果不佳。
本研究引入LBP算子的多層疊加紋理增強(qiáng)處理層,使圖像灰度不變,減少無(wú)關(guān)信息對(duì)訓(xùn)練及預(yù)測(cè)精度的干擾;依照中華-05評(píng)分法設(shè)計(jì)新的空間注意力機(jī)制,針對(duì)我國(guó)人群手骨特征進(jìn)行訓(xùn)練。相比G-P圖譜法及TW評(píng)分法,中華-05評(píng)分法所測(cè)同年齡段骨齡與生活年齡差值的平均數(shù)和中位數(shù)更接近0值水平線,大部分箱體相對(duì)較小,且介于-1~1之間[23]。通道注意力、輕量級(jí)卷積塊注意力、擠壓和激發(fā)注意力及空間注意力[24]等機(jī)制用于處理自然語(yǔ)言、分類圖像及分割語(yǔ)義等任務(wù)表現(xiàn)出色,相比原始卷積網(wǎng)絡(luò)可減小處理高維輸入數(shù)據(jù)計(jì)算負(fù)擔(dān),通過(guò)結(jié)構(gòu)化選取輸入子集,降低數(shù)據(jù)維度,使網(wǎng)絡(luò)更專注于訓(xùn)練ROI和其針對(duì)性特征,且各ROI空間注意力權(quán)重更高,使模型訓(xùn)練更加聚焦;以空間網(wǎng)絡(luò)變壓器針對(duì)原圖進(jìn)行逐層學(xué)習(xí),并截取分辨率適宜的子圖,等同于放大手部X線片中的關(guān)鍵部位,以清晰展現(xiàn)局部信息,進(jìn)而提取表達(dá)能力更強(qiáng)的特征,為進(jìn)一步處理提供基礎(chǔ)。
針對(duì)性特征改進(jìn)殘差網(wǎng)絡(luò)模型現(xiàn)已用于智能診療領(lǐng)域中的眾多醫(yī)學(xué)成像計(jì)算機(jī)視覺(jué)任務(wù)[6]。殘差網(wǎng)絡(luò)易于優(yōu)化,跳躍式連接的殘差塊可將輸入信息直接傳至輸出層,緩解網(wǎng)絡(luò)深度增加帶來(lái)的梯度消失及爆炸問(wèn)題。為融合注意力機(jī)制與疊加紋理層,測(cè)試混合改進(jìn)模型性能,本研究引入殘差網(wǎng)絡(luò),并在相同參數(shù)下可視化分析數(shù)據(jù)分布、權(quán)重及偏置等重要指標(biāo),觀測(cè)訓(xùn)練過(guò)程中的模型性能。
本研究成功建立融合中華-05空間注意力機(jī)制與LBP多層紋理疊加的混合改進(jìn)式殘差網(wǎng)絡(luò)模型,50-layers ResNet的AC較傳統(tǒng)網(wǎng)絡(luò)模型CNN有所提升,表明引入殘差網(wǎng)絡(luò)可有效解決梯度消失及爆炸問(wèn)題,協(xié)助提高訓(xùn)練性能;DL-ResNet50的AC進(jìn)一步提升,提示LBP多層紋理疊加增強(qiáng)層對(duì)骨齡值劃分具有明顯效果,可將更細(xì)致的手部骨骼紋理特征作為網(wǎng)絡(luò)輸入端;ZH05-DL-ResNet50的AC最高,表明中華-05空間注意力機(jī)制使網(wǎng)絡(luò)更專注于訓(xùn)練11個(gè)易識(shí)別骨骼發(fā)育程度的ROI及其針對(duì)性特征,ROI內(nèi)骨骺及骨干寬度、鈣化情況、融合程度等特有圖像特征對(duì)分類訓(xùn)練殘差網(wǎng)絡(luò)更具針對(duì)性,使算力分配更傾向于手骨特征的重要區(qū)域,可釋放網(wǎng)絡(luò)整體計(jì)算負(fù)擔(dān),進(jìn)一步降低無(wú)關(guān)信息干擾,并協(xié)助提高訓(xùn)練AC。
綜上,本研究成功建立的中華-05注意力與疊加紋理的殘差網(wǎng)絡(luò)智能模型可提高評(píng)估我國(guó)人群骨齡的準(zhǔn)確率。但本研究?jī)H對(duì)集成模型的性能進(jìn)行了技術(shù)改進(jìn),未對(duì)數(shù)據(jù)集樣本分布、性別差異及網(wǎng)絡(luò)初始學(xué)習(xí)速率加以處理,尚有一定提升空間,有待后續(xù)進(jìn)一步完善。