郭子昇, 王吉芳, 蘇 鵬
(北京信息科技大學(xué) 機(jī)電工程學(xué)院, 北京 100192)
骨骼年齡作為生物學(xué)年齡, 骨齡的預(yù)測(cè)在眾多領(lǐng)域具有重要意義. 在未成年生長(zhǎng)發(fā)育診斷中, 骨齡預(yù)測(cè)是研究青少年女性初潮、兒童基因生長(zhǎng)障礙的一種常用方法[1]; 在競(jìng)技賽事中, 骨齡作為最權(quán)威的評(píng)價(jià)指標(biāo),常用來(lái)甄別運(yùn)動(dòng)員年齡以輔助選拔[2]; 在刑偵案件中,骨齡預(yù)測(cè)是法醫(yī)學(xué)年齡鑒定工作的主要方法[3]; 在考古領(lǐng)域中, 骨齡預(yù)測(cè)對(duì)種族、生活環(huán)境、面貌復(fù)原等的研究具有重要借鑒意義[4]; 目前國(guó)內(nèi)醫(yī)學(xué)影像專業(yè)醫(yī)師缺口巨大, 醫(yī)學(xué)影像誤診漏診率偏高, 診斷速度有限,因此, 建立一個(gè)能夠智能化精準(zhǔn)預(yù)測(cè)骨齡的分類器具有十分重要的意義.
傳統(tǒng)骨齡預(yù)測(cè)方式主要依賴于人工對(duì)手骨X 光片的解讀, 專家通過(guò)人為觀察非慣用手(常為左手)部位的X 光片得出個(gè)體骨齡, 由于已形成較為統(tǒng)一的標(biāo)準(zhǔn),且非慣用手部的不同骨齡骨骼結(jié)構(gòu)差別及生長(zhǎng)規(guī)律差異較大, 便于觀察區(qū)分, 因此在骨齡預(yù)測(cè)領(lǐng)域上常對(duì)人體手骨進(jìn)行分析. 目前骨齡的人工預(yù)測(cè)方法有計(jì)數(shù)法、圖譜法[5]和計(jì)分法[6]. 傳統(tǒng)計(jì)數(shù)法誤差大, 并易對(duì)人體產(chǎn)生損害; G-P (Greulich and Pyle)圖譜法規(guī)范且精度高, 但需要復(fù)雜的專業(yè)知識(shí)及人力儲(chǔ)備; TW (Tanner and Whitehouse)計(jì)分法具有明確的量化概念, 準(zhǔn)確度高, 可重復(fù)性較強(qiáng), 但缺點(diǎn)是需要掌握相關(guān)知識(shí)及進(jìn)行繁瑣的操作, 人工預(yù)測(cè)的方法耗時(shí)普遍較長(zhǎng).
近年來(lái)自動(dòng)化骨齡檢測(cè)也有較大發(fā)展. Seok 等人[7]于2016 年提出一種決策規(guī)劃評(píng)估方法, 在135 張未公布年齡的手骨X 射線圖像非公開(kāi)數(shù)據(jù)集上評(píng)估得到骨齡均方差(mean square error, MSE)為0.19 歲; Spampinato等人[8]于2017 年提出的一種骨齡評(píng)估方法BoNet, 在0–18 歲涵蓋所有種族和性別的手骨X 射線圖像公共數(shù)據(jù)集上進(jìn)行自動(dòng)化骨齡評(píng)估, 得到骨齡MAE (平均絕對(duì)誤差)為0.8 歲.
上述G-P 方法或TW 方法中的參考值皆對(duì)手骨射線圖像進(jìn)行分割提取并計(jì)算出圖像特征來(lái)評(píng)估骨齡,然而將臨床特征直接作為機(jī)器學(xué)習(xí)分析處理的對(duì)象大大限制了自動(dòng)化骨齡預(yù)測(cè)的泛化能力. 傳統(tǒng)的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別在于, 前者通過(guò)已有知識(shí)把原始數(shù)據(jù)預(yù)處理成各種特征, 然后對(duì)特征進(jìn)行分類, 此分類效果依賴于特征的選取, 不能很好地表征樣例本質(zhì), 導(dǎo)致訓(xùn)練效果欠佳; 后者通過(guò)多層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行表征學(xué)習(xí)(feature representation learning)和表征數(shù)據(jù)特征[9],其比傳統(tǒng)機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)特征的提取更準(zhǔn)確.
此外, 在進(jìn)行模型的訓(xùn)練及預(yù)測(cè)中, 醫(yī)學(xué)骨骼圖像的單通道、小對(duì)比度、復(fù)雜紋理、細(xì)粒度圖像識(shí)別等特征有別于自然圖像特征; 骨齡數(shù)據(jù)集的不公開(kāi)及規(guī)模小; 針對(duì)特定性別或種族的骨質(zhì)差異等問(wèn)題都會(huì)影響骨齡預(yù)測(cè)的泛化能力, 因此針對(duì)上述人工或自動(dòng)化骨齡預(yù)測(cè)方法存在的種種問(wèn)題, 本文提出一種基于深度學(xué)習(xí)的手骨X 射線骨齡分類器, 對(duì)骨齡預(yù)測(cè)精度提高的效果顯著.
深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像識(shí)別性能更加優(yōu)異, 近年來(lái)相繼出現(xiàn)了AlexNet、VGGNet、GoogleNet、ResNet、MobileNet 等深度網(wǎng)絡(luò)結(jié)構(gòu), 其中輕量級(jí)網(wǎng)絡(luò)MobileNet 系列更具代表性. 該系列網(wǎng)絡(luò)利用深度卷積構(gòu)造, 可以平衡延遲和準(zhǔn)確性之間的關(guān)系, 又引入了倒殘差結(jié)構(gòu), 可以適應(yīng)不同尺寸的圖像并在低精度計(jì)算下具有更強(qiáng)的魯棒性, 該網(wǎng)絡(luò)結(jié)構(gòu)與其他常用分類模型相比, 擁有更優(yōu)秀的計(jì)算性能. MobileNetV3 為該系列最新網(wǎng)絡(luò)結(jié)構(gòu), 由Howard 等人[10]于2019 年提出,該網(wǎng)絡(luò)增添了互補(bǔ)搜索技術(shù)組合, 通過(guò)硬件架構(gòu)搜索(NAS)與NetAdapt 相結(jié)合的方式, 開(kāi)展了網(wǎng)絡(luò)設(shè)計(jì)和自動(dòng)搜索算法在互補(bǔ)利用方面的研究以用來(lái)提高整體技術(shù)水平, 較前代相比擁有更強(qiáng)大的計(jì)算能力. 表1 列出了5 種較流行的深度學(xué)習(xí)網(wǎng)絡(luò)模型, 可以看出MobileNet系列網(wǎng)絡(luò)的準(zhǔn)確率大都高于的其他網(wǎng)絡(luò), Top-1 錯(cuò)誤率大都低于其他網(wǎng)絡(luò), 需求參數(shù)(parameters)和多層疊加(mult-adds) (除SqueezeNet)均小于其他網(wǎng)絡(luò), 同時(shí)輕量級(jí)的神經(jīng)網(wǎng)絡(luò)為可移動(dòng)智能骨齡預(yù)測(cè)奠定基礎(chǔ), 因此本文將MobileNetV3 作為基礎(chǔ)網(wǎng)絡(luò)用于構(gòu)建骨齡分類器.
表1 較流行的深度學(xué)習(xí)網(wǎng)絡(luò)模型性能對(duì)比
對(duì)骨齡的預(yù)測(cè)應(yīng)用上, 基于深度學(xué)習(xí)的自動(dòng)骨齡預(yù)測(cè)仍面臨很大的挑戰(zhàn), 手骨X 光圖像與卷積神經(jīng)網(wǎng)絡(luò)通常處理的自然圖像有著很大區(qū)別, 對(duì)手骨X 光片的紋理特征提取及增強(qiáng)有利于深度學(xué)習(xí)的網(wǎng)絡(luò)模型使用更少的特征數(shù)據(jù)來(lái)更集中的表征全圖特征, 剔除無(wú)效特征信息, 減少無(wú)關(guān)特征干擾, 從而提升訓(xùn)練、測(cè)試的準(zhǔn)確率. 旋轉(zhuǎn)不變LBP 紋理增強(qiáng)處理層的引入, 可以擺脫一些如平移不變性的假設(shè)在骨齡數(shù)據(jù)集中不再滿足等難點(diǎn); 同時(shí)還可解決手骨X光圖像的辨識(shí)特征僅體現(xiàn)在局部的紋理差異、特征粒度較為細(xì)化, 導(dǎo)致模型獲取這些細(xì)粒度特征并分類的難度較大等難點(diǎn)[11].
LBP (local binary pattern, 局部二值模式)是用于提取全局圖像的局部紋理特征, 增強(qiáng)區(qū)域紋理特征以加深后期網(wǎng)絡(luò)注意力機(jī)制的訓(xùn)練效果, 并縮減整個(gè)圖片像素的值, 使訓(xùn)練、預(yù)測(cè)速度加快.
利用LBP 算子對(duì)手骨X 光片進(jìn)行閾值處理, 以每3×3 網(wǎng)格的窗口中心像素為閾值, 把相鄰網(wǎng)格的像素值與其對(duì)比, 若中心像素值較大, 則標(biāo)記為0, 反之為1,得到的8 位二進(jìn)制數(shù)即窗口中心像素點(diǎn)的LBP 值, 此為該區(qū)域的紋理特征信息, 如圖1 所示.
圖1 手骨X 光片紋理特征信息的提取
對(duì)手骨X 光片紋理特征信息進(jìn)行直方圖轉(zhuǎn)化:
其中, (xc,yc)表示中心像素,ic表示中心像素灰度值,ip表示P點(diǎn)像素灰度值,s表示符號(hào)函數(shù),p表示鄰域P個(gè)采樣點(diǎn)中第p個(gè)采樣點(diǎn).
通過(guò)上述變換, 將手骨X 光片圖像可轉(zhuǎn)換成具有相鄰點(diǎn)之間差值關(guān)系的集合, 但原始LBP 算子只涵蓋中心與相鄰共9 個(gè)網(wǎng)格的像素值區(qū)域, 如果將上述涵蓋區(qū)擴(kuò)展到任意區(qū)域, 把正方形區(qū)域替換為半徑為R的圓形區(qū)域, 就能滿足在提取不同尺度紋理特征時(shí)擁有灰度不變性、旋轉(zhuǎn)不變性的優(yōu)勢(shì). 圓形LBP 算子如圖2 所示, 其區(qū)域半徑為R, 內(nèi)含P個(gè)采樣點(diǎn).
圖2 不同采樣數(shù)與半徑的LBP 算子
對(duì)比圖2, 可以看出當(dāng)P=8,R=1 時(shí), 圓形LBP 與原始LBP 一致, 在P=16,R=2 時(shí), 圓形邊界上的點(diǎn)可能不是整數(shù)或正好落在某個(gè)像素格子內(nèi), 或位于交界處,因此使用雙線性插值法來(lái)計(jì)算該點(diǎn)的像素值. 圓形LBP 算子的計(jì)算公式如下:
其中,R表示采樣半徑,P表示第P個(gè)采樣點(diǎn),p表示采樣數(shù)目,
經(jīng)過(guò)LBP 與圓形LBP 算子處理可以得到圖片灰度不變性與多尺度紋理特征穩(wěn)定性這些特點(diǎn), 為了擺脫因圖像旋轉(zhuǎn)而得到的不同LBP 值影響紋理特征的讀取要求, 還需要加入旋轉(zhuǎn)不變性因子, 即不斷旋轉(zhuǎn)圓形鄰域得到一系列初始定義的LBP 值, 取其最小值作為該鄰域的LBP 值, 對(duì)LBP 的結(jié)果進(jìn)行二進(jìn)制編碼,并做循環(huán)位移, 取所有結(jié)果中最小的值, 公式如下:
依據(jù)上述方法, 本文對(duì)原始數(shù)據(jù)集RSNA 進(jìn)行紋理特征的提取并分別進(jìn)行LBP (LBP-RSNA_bone)增強(qiáng)、圓形LBP (circular-_LBP-RSNA_bone)增強(qiáng)、旋轉(zhuǎn)不變LBP (rotation_invariant_LBP-RSNA_bone)增強(qiáng)處理, 得到手骨X 光片紋理特征, 如圖3 所示. 可以看出對(duì)手骨X 光片進(jìn)行紋理增強(qiáng)處理后的紋理特征清晰可見(jiàn), 以此使用更少的數(shù)據(jù)量來(lái)更好的表征圖像的全局信息, 從而加快運(yùn)算速度與更好的配合下文的深度學(xué)習(xí)注意力機(jī)制進(jìn)行驗(yàn)證.
圖3 手骨X 光片的LBP 處理
為了實(shí)現(xiàn)全智能化識(shí)別手骨X 光片的信息, 本文根據(jù)TW 計(jì)分法在1972 年正式定制TW2 標(biāo)準(zhǔn), 引入一種自動(dòng)框選感興趣區(qū)域的注意力機(jī)制, 該標(biāo)準(zhǔn)包含骨骺、骨骺端、骨干等20 個(gè)感興趣區(qū)域[6], 引入該注意力機(jī)制的改進(jìn)網(wǎng)絡(luò)依據(jù)此標(biāo)準(zhǔn), 根據(jù)其圖像的特征,進(jìn)行自動(dòng)搜索特定區(qū)域, 將資源分配傾向于更為關(guān)鍵的特征. 在不同維度對(duì)圖像及隱藏層中特征映射進(jìn)行注意力聚焦, 首先對(duì)原始輸入圖像進(jìn)行逐層的空間區(qū)域?qū)W習(xí), 輸出若干個(gè)具有辨識(shí)能力的子區(qū)域, 再將子區(qū)域反饋進(jìn)多個(gè)辨識(shí)卷積網(wǎng)絡(luò)中, 對(duì)子區(qū)域內(nèi)的特征分配注意力取得更好的分類, 使區(qū)域選擇得到優(yōu)化.
引入注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型如圖4 所示,其主要包含空間網(wǎng)絡(luò)變壓器[12]和多個(gè)識(shí)別網(wǎng)絡(luò).
圖4 注意力模型網(wǎng)絡(luò)架構(gòu)圖
1)空間網(wǎng)絡(luò)變壓器, 其作為一種空間注意力機(jī)制輸出多個(gè)子區(qū)域, 其將特征映射作為輸入, 輸出更加具有辨識(shí)能力的特征映射. 空間網(wǎng)絡(luò)變壓器作用于輸入圖像, 在輸入圖像中學(xué)習(xí)到若干信息密集的子區(qū)域, 對(duì)于手骨X 光片, 該操作給輸入高分辨率圖像提供支持,在該類圖像中截取出適中分辨率子圖, 這相當(dāng)于將原圖像在骨齡評(píng)定關(guān)鍵部位放大, 局部信息可以更加清晰地展現(xiàn), 從而提取表達(dá)能力更強(qiáng)的特征, 為后續(xù)識(shí)別網(wǎng)絡(luò)的進(jìn)一步處理提供基礎(chǔ).
2)識(shí)別網(wǎng)絡(luò), 其通過(guò)在特征映射后的隱藏層加入壓縮激活塊[13], 加入壓縮激活塊不改變網(wǎng)絡(luò)輸出的維度, 設(shè)網(wǎng)絡(luò)架構(gòu)中有N個(gè)識(shí)別網(wǎng)絡(luò), 每個(gè)網(wǎng)絡(luò)輸入一張手骨X 光片子圖像, 輸出一個(gè)D維向量, 將所有網(wǎng)絡(luò)的輸出連結(jié)成一個(gè)N×D維向量, 輸入到一個(gè)全連接層中, 之后由Softmax 層輸出最終骨齡值. 本實(shí)驗(yàn)中依據(jù)TW2 計(jì)分法等對(duì)手骨骨齡預(yù)測(cè)建議的感興趣區(qū)域, 對(duì)N和D分別設(shè)置為9 和512. 識(shí)別網(wǎng)絡(luò)對(duì)特征映射在通道維度進(jìn)行特征再校準(zhǔn), 從而將模型注意力集中于信息密集的通道上, 壓縮激活塊使用了全局平均匯聚層和兩層全連接層, 因此該結(jié)構(gòu)中包含訓(xùn)練參數(shù)較少,可以方便、高效的加入MobileNet 系列網(wǎng)絡(luò)架構(gòu)中并引入較少的計(jì)算負(fù)擔(dān), 以滿足輕量化的網(wǎng)絡(luò)架構(gòu)并提升網(wǎng)絡(luò)的泛化效果.
基于MobileNetV3 Large 網(wǎng)絡(luò)結(jié)構(gòu), 設(shè)計(jì)具有可引入注意力機(jī)制和旋轉(zhuǎn)不變LBP 紋理增強(qiáng)處理層的模型RIL-MobileNetV3 Large, 在頂層引入紋理特征增強(qiáng)處理層, 即對(duì)原始數(shù)據(jù)集進(jìn)行旋轉(zhuǎn)不變LBP 處理, 并于底層加入測(cè)試集輸入的X 光片旋轉(zhuǎn)不變LBP 處理層, 以便于驗(yàn)證的統(tǒng)一, 在池化層后引入本文設(shè)計(jì)好的自動(dòng)框選感興趣區(qū)域的注意力機(jī)制, 設(shè)計(jì)的骨齡預(yù)測(cè)分類器如圖5 所示.
圖5 RIL-MobileNetV3 Large 骨齡預(yù)測(cè)分類器
為了避免過(guò)擬合, 將訓(xùn)練時(shí)間放大與縮小, 通過(guò)使平均絕對(duì)誤差(MAE) 最小化對(duì)分類器尋優(yōu), 利用optimizers. Adam 優(yōu)化器對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練; 構(gòu)建分類器模型, 分配給每個(gè)骨齡不同類別, 在數(shù)據(jù)集中, 骨齡是以月份表示的, 因此本文截取1–228 月骨齡的數(shù)據(jù)集,以12 個(gè)月為一歲, 共取19 類, 即0–18 歲, 故倒數(shù)第二層變成具有19 個(gè)輸出概率的Softmax 層, 該層輸出概率的向量, 其中每一類的概率都在范圍[0, 1]中取值,最后一層概率向量乘以不同骨齡的向量[1, 2, 3, …,19], 由此, 模型輸出骨齡的單個(gè)預(yù)測(cè)值.
對(duì)于骨齡數(shù)值回歸預(yù)測(cè)結(jié)果, 本文采用MAE和accuracy (準(zhǔn)確率)作為綜合評(píng)價(jià)指標(biāo), 其中當(dāng)預(yù)測(cè)值與真實(shí)值完全吻合, 即MAE為0 時(shí)為完美模型,MAE越小, 說(shuō)明預(yù)測(cè)精度越高, 計(jì)算公式如下:
其中,N表示樣本數(shù),ytrue表示骨齡真實(shí)值,ypred表示骨齡預(yù)測(cè)值.
研究采用北美放射學(xué)會(huì)舉辦的骨齡挑戰(zhàn)賽公開(kāi)數(shù)據(jù)集RSNA, 其包含12611 個(gè)訓(xùn)練圖像, 1425 個(gè)驗(yàn)證圖像和200 個(gè)測(cè)試圖像, 大多為1–228 月的骨齡X 光片數(shù)據(jù)集, 顯而易見(jiàn)測(cè)試集過(guò)小, 且開(kāi)發(fā)階段驗(yàn)證集、測(cè)試集標(biāo)簽混亂, 為使其對(duì)骨齡預(yù)測(cè)的強(qiáng)針對(duì)性訓(xùn)練與擴(kuò)大測(cè)試集, 本實(shí)驗(yàn)按照原始數(shù)據(jù)集csv 文件截取訓(xùn)練集前1376 張圖片作為測(cè)試集, 其余圖片為訓(xùn)練集;為了防止標(biāo)簽混亂導(dǎo)致的訓(xùn)練及測(cè)試精度降低, 以便于骨齡的預(yù)測(cè)標(biāo)準(zhǔn)化, 本文依據(jù)原始csv 文件骨齡編號(hào)按12 個(gè)月為一歲依次歸為19 類csv 文件, 分別對(duì)測(cè)試集、訓(xùn)練集圖像按新編csv 文件歸為0–18 歲共計(jì)19 類, 并進(jìn)行后續(xù)訓(xùn)練預(yù)測(cè)實(shí)驗(yàn).
為驗(yàn)證本文對(duì)手骨X 光片的骨齡預(yù)測(cè)可以使用更少的數(shù)據(jù)量來(lái)最好的表征圖像特征, 以此加快運(yùn)算速度與高效配合注意力機(jī)制, 對(duì)原始數(shù)據(jù)集進(jìn)行紋理特征的提取并分別按順序進(jìn)行LBP、圓形LBP、旋轉(zhuǎn)不變LBP 紋理增強(qiáng)處理, 得到包含清晰紋理信息的LRSNA、CL-RSNA、RIL-RSNA 數(shù)據(jù)集.
本實(shí)驗(yàn)搭建于x64 處理器的Windows 10 操作系統(tǒng), 實(shí)驗(yàn)仿真環(huán)境采用谷歌開(kāi)發(fā)的TensorFlow 2.1.0 框架, 以Python 3.7 作為編程語(yǔ)言, PyCharm 2019.3.3 為編輯器, CPU 使用Intel(R)Core(TM)i7-9750H, GPU 使用Inter(R)UHD Graphics 630, 運(yùn)行內(nèi)存為8 GB, 所有程序通過(guò)以TensorFlow 為后端的開(kāi)源框架Keras 及其Python 接口實(shí)現(xiàn).
實(shí)驗(yàn)采用改進(jìn)模型RIL-MobileNetV3 Large 進(jìn)行訓(xùn)練, 在增強(qiáng)后的RIL-RSNA 數(shù)據(jù)集上分別進(jìn)行了20、30、40、50、80 和120 輪訓(xùn)練, 每次喂入分類器8 張圖片, 類別數(shù)為19, 初始學(xué)習(xí)率為0.0001 并逐步調(diào)優(yōu), 訓(xùn)練圖像采用三通道, 并調(diào)整圖片的寬高皆為224. 設(shè)置縮放因子1/255 以增強(qiáng)模型泛化能力, 并配置optimizers.Adam 優(yōu)化器, 結(jié)合fit_generator 訓(xùn)練方式進(jìn)行訓(xùn)練以節(jié)約內(nèi)存, 最后計(jì)算骨齡預(yù)測(cè)值和骨齡真實(shí)值A(chǔ)ccuracy 作為模型輸出, 并結(jié)合在測(cè)試集上計(jì)算的MAE 值, 綜合判斷分類器性能.
將新編好的原圖數(shù)據(jù)集RSNA、LBP 紋理增強(qiáng)處理數(shù)據(jù)集L-RSNA、圓形LBP 紋理增強(qiáng)處理數(shù)據(jù)集CL-RSNA、旋轉(zhuǎn)不變LBP 紋理增強(qiáng)處理數(shù)據(jù)集RILRSNA 分別在引入自動(dòng)框選感興趣區(qū)域注意力機(jī)制的MobileNetV3 Large 網(wǎng)絡(luò)中訓(xùn)練50 輪, 將訓(xùn)練結(jié)果進(jìn)行對(duì)比, 實(shí)驗(yàn)結(jié)果如表2 所示.
由表2 可知, 用紋理增強(qiáng)處理后的數(shù)據(jù)集進(jìn)行訓(xùn)練, 較原數(shù)據(jù)集的預(yù)測(cè)誤差下降較多, 其中旋轉(zhuǎn)不變LBP 處理對(duì)骨齡預(yù)測(cè)誤差下降最大, 說(shuō)明端對(duì)端逐層監(jiān)督式學(xué)習(xí)方法受原始圖片背景中無(wú)關(guān)信息影響較大,經(jīng)手骨紋理增強(qiáng)處理后, 可以用更少的數(shù)據(jù)量來(lái)更精確的表征圖像信息, 從而擴(kuò)大訓(xùn)練準(zhǔn)確率, 并縮小平均絕對(duì)誤差MAE, 由此可知引入旋轉(zhuǎn)不變LBP 紋理增強(qiáng)層具有提高訓(xùn)練準(zhǔn)確率與縮小平均誤差的顯著作用.
表2 數(shù)據(jù)處理層對(duì)比實(shí)驗(yàn)結(jié)果
在采用引入自動(dòng)框選感興趣區(qū)域注意力機(jī)制和旋轉(zhuǎn)不變LBP 紋理增強(qiáng)層的RIL-MobileNetV3 Large 網(wǎng)絡(luò)進(jìn)行骨齡預(yù)測(cè)過(guò)程中, 神經(jīng)網(wǎng)絡(luò)權(quán)值變化基于損失梯度的調(diào)整, 而學(xué)習(xí)率控制神經(jīng)網(wǎng)絡(luò)權(quán)值的變化速度,為取得最優(yōu)學(xué)習(xí)率, 本文在不同學(xué)習(xí)率及多次訓(xùn)練輪數(shù)下進(jìn)行實(shí)驗(yàn), 所得結(jié)果如圖6 所示, 當(dāng)進(jìn)行40 輪訓(xùn)練, 學(xué)習(xí)率設(shè)為0.0001 時(shí), 梯度增幅變大, 收斂時(shí)間加快, 訓(xùn)練集準(zhǔn)確率為91.80%, 損失率為23.41%; 當(dāng)學(xué)習(xí)率設(shè)為0.0005 時(shí), 梯度增幅較小, 將會(huì)延長(zhǎng)收斂時(shí)間,故分別進(jìn)行40、80 輪訓(xùn)練, 80 輪時(shí)訓(xùn)練集準(zhǔn)確率較高為94.04%, 此時(shí)損失率為16.74%;
圖6 骨齡評(píng)估模型多次訓(xùn)練結(jié)果對(duì)比可視化
由圖7 可以看出, 當(dāng)學(xué)習(xí)率設(shè)為0.00075 時(shí), 梯度增幅繼續(xù)變小, 收斂時(shí)間繼續(xù)延長(zhǎng), 故進(jìn)行120 輪訓(xùn)練,訓(xùn)練集準(zhǔn)確率為93.32%, 損失率為20.46%, 此時(shí)的準(zhǔn)確率低于學(xué)習(xí)率為0.0005 訓(xùn)練80 輪時(shí)的準(zhǔn)確率94.02%, 繼續(xù)取學(xué)習(xí)率0.0001 和0.00005 進(jìn)行訓(xùn)練時(shí),準(zhǔn)確率曲線走勢(shì)的收斂速度明顯加快, 在訓(xùn)練80 輪時(shí)得到的訓(xùn)練集曲線和測(cè)試集曲線基本粘合成一條, 此時(shí)的準(zhǔn)確率為94.20%, 損失率為16.74%. 因此, 采用改進(jìn)的RIL-MobileNetV3 Large 網(wǎng)絡(luò)在預(yù)測(cè)骨齡過(guò)程中, 學(xué)習(xí)率設(shè)為0.0001, 訓(xùn)練次數(shù)設(shè)為80, 此時(shí)可快速得到極佳的預(yù)測(cè)效果, 且使用測(cè)試集在該網(wǎng)絡(luò)預(yù)測(cè)骨齡的MAE值為0.35 歲, 表明可以達(dá)到非常低的平均預(yù)測(cè)誤差.
圖7 骨齡評(píng)估模型最佳訓(xùn)練結(jié)果可視化
為驗(yàn)證本文提出改進(jìn)RIL-MobileNetV3 Large 網(wǎng)絡(luò)的檢測(cè)性能, 將其與基于深度學(xué)習(xí)的其他骨齡預(yù)測(cè)網(wǎng)絡(luò)在同一數(shù)據(jù)集上進(jìn)行對(duì)比, 對(duì)比試驗(yàn)結(jié)果如表3.
表3 骨齡分類器對(duì)比實(shí)驗(yàn)結(jié)果
可以看出, 本文改進(jìn)網(wǎng)絡(luò)的MAE值較其他網(wǎng)絡(luò)更低, accuracy 值較其他網(wǎng)絡(luò)更高, 由此可見(jiàn), 在引入自動(dòng)框選感興趣區(qū)域注意力機(jī)制和旋轉(zhuǎn)不變LBP 紋理增強(qiáng)處理層的骨齡分類器能提取不同骨齡更具區(qū)分性的特征, 對(duì)骨齡預(yù)測(cè)準(zhǔn)確度更高, 具有非常好的魯棒性與泛化能力.
針對(duì)手骨X 光片數(shù)據(jù)集圖像的單通道、小對(duì)比度、復(fù)雜紋理、細(xì)粒度圖像識(shí)別等特征提取難, 導(dǎo)致影響骨齡預(yù)測(cè)準(zhǔn)確度等問(wèn)題, 提出了一種同時(shí)引入注意力機(jī)制和旋轉(zhuǎn)不變LBP 紋理增強(qiáng)處理層的改進(jìn)模型, 作為骨齡預(yù)測(cè)分類器. 其基于輕量級(jí)神經(jīng)網(wǎng)絡(luò)MobileNet系列融合處理紋理特征的旋轉(zhuǎn)不變LBP 算子處理層,通過(guò)處理層將手骨X 光片數(shù)據(jù)集的紋理特征進(jìn)行提取并增強(qiáng), 使更細(xì)致紋理特征的手骨信息作為網(wǎng)絡(luò)輸入端, 減少無(wú)關(guān)特征影響, 提高訓(xùn)練的準(zhǔn)確率; 同時(shí)又對(duì)卷積網(wǎng)絡(luò)引入一種注意力機(jī)制, 在不借助任何先驗(yàn)信息的情況下, 把引入紋理增強(qiáng)處理層處理后的圖像作為網(wǎng)絡(luò)的輸入, 再通過(guò)引入注意力機(jī)制的輕量級(jí)神經(jīng)網(wǎng)絡(luò), 進(jìn)行自動(dòng)定位、學(xué)習(xí)提取處理后的手骨X 光片圖像中具有高識(shí)別能力的區(qū)域特征、深層特征并完成識(shí)別和分類. 最后通過(guò)在RSNA 數(shù)據(jù)集上進(jìn)行訓(xùn)練及預(yù)測(cè), 結(jié)果表明該分類器較傳統(tǒng)方法具有更高的骨齡預(yù)測(cè)精度. 消除了在臨床環(huán)境中人工進(jìn)行繁瑣的數(shù)據(jù)集查找需求, 智能化的骨齡分類器提高骨齡預(yù)測(cè)精確度并大大節(jié)省了時(shí)間, 對(duì)青少年生長(zhǎng)發(fā)育、刑偵案件、體育賽事、考古等領(lǐng)域的骨齡評(píng)估具有重要協(xié)助意義,為建立標(biāo)準(zhǔn)化的可移動(dòng)骨齡分類器, 推動(dòng)實(shí)現(xiàn)便捷準(zhǔn)確快速的智能化骨齡預(yù)測(cè)提供重要借鑒意義.