劉宗才,吳錦華,王榮品,劉昌杰,曾憲春
(貴州省人民醫(yī)院放射科,貴州 貴陽(yáng) 550002)
圖2 拍攝的左手X線骨齡片
目前國(guó)內(nèi)外廣泛使用的骨齡評(píng)測(cè)方法主要有GP圖譜法、TW3法、CHN法和中華05法[1]。圖譜法簡(jiǎn)單、直觀、易于掌握,但主觀性強(qiáng),可靠性不如計(jì)分法[2-4]。在TW2基礎(chǔ)上,修訂后的TW3法獲得國(guó)際廣泛采用,但TW3法基于歐美兒童及青少年,不完全適用于我國(guó)[4]。CHN法是在TW2法的基礎(chǔ)上修改的適用于中國(guó)人的方法,但該方法取消了7塊骨,影響骨齡評(píng)測(cè)準(zhǔn)確性。為適應(yīng)中國(guó)兒童及青少年生長(zhǎng)發(fā)育趨勢(shì),張紹巖等[1]參照TW3法,分別制定了TW3-C RUS、TW3-C Carpal骨齡標(biāo)準(zhǔn);基于法醫(yī)學(xué)和運(yùn)動(dòng)醫(yī)學(xué)的需要,又在TW3-C RUS基礎(chǔ)上增加了骨成熟度指征,稱為RUS-CHN法;以上方法總稱為《中國(guó)人手腕部骨齡標(biāo)準(zhǔn)——中華05》(以下簡(jiǎn)稱“中華05法”),在2006年成為目前中國(guó)唯一的骨齡行業(yè)標(biāo)準(zhǔn)。
中華05法的樣本為東部沿海的5個(gè)城市,其對(duì)西南地區(qū)適用性有待驗(yàn)證?;谌斯ぶ悄?artificial intelligence, AI)技術(shù),骨齡評(píng)測(cè)已有多種自動(dòng)化解決方案[5-7]。2012年后,深度學(xué)習(xí)技術(shù)開(kāi)始應(yīng)用于骨齡評(píng)測(cè)[8-10]。但由于骨齡標(biāo)準(zhǔn)固有的主觀性和種族差異[11],客觀評(píng)價(jià)深度學(xué)習(xí)骨齡評(píng)測(cè)系統(tǒng)的臨床效能,仍有待研究[12]。本研究探討適用于深度學(xué)習(xí)骨齡評(píng)測(cè)系統(tǒng)的臨床試驗(yàn)方案,并對(duì)比深度學(xué)習(xí)模型(模型組)和2名住院醫(yī)師(對(duì)照組)對(duì)貴州省兒童及青少年的骨齡評(píng)測(cè)準(zhǔn)確性。
1.1 一般資料 回顧性收集2016年2月—2019年6月于我院就診的148例兒童及青少年患者左手腕部骨齡X線影像,年齡2~17歲,其中男67例,平均(10.7±4.1)歲;女81例,平均(10.0±4.7)歲。生活年齡分布直方圖見(jiàn)圖1。納入標(biāo)準(zhǔn):父母及受檢者均生長(zhǎng)于貴州本地且發(fā)育正常(骨齡與生活年齡差距≤1歲)。排除標(biāo)準(zhǔn):①手腕骨存在遮擋物;②分辨率差,影響骨骼特征觀察;③有骨折、畸形或骨發(fā)育異常等影響骨齡判斷的X線片。本研究獲本院倫理委員會(huì)批準(zhǔn)。
圖1 樣本生活年齡分布直方圖
1.2 儀器與方法
1.2.1 骨齡片拍攝 采用Carestream Health DRX-1型號(hào)機(jī)器,按下列要求拍攝左手X線片(圖2):①左手掌面緊貼暗盒,拇指與食指約呈30°,其余4指自然分開(kāi),中指與前臂中軸在一條直線上;②除手部完全顯示外,橈、尺骨遠(yuǎn)端應(yīng)顯示3~4 cm;③DR機(jī)球管中心正對(duì)第三掌骨頭,管片距70~90 cm。骨齡片以DICOM格式存儲(chǔ)。
1.2.2 深度學(xué)習(xí)骨齡評(píng)測(cè)系統(tǒng) 采用深睿醫(yī)療Dr.Wise骨齡和生長(zhǎng)發(fā)育預(yù)測(cè)軟件0531beta版,硬件平臺(tái)GPU采用英偉達(dá)Titan Xp,所得數(shù)據(jù)設(shè)為模型組(圖3)。
圖3 深睿醫(yī)療Dr.Wise骨齡和生長(zhǎng)發(fā)育預(yù)測(cè)軟件測(cè)量界面
1.3 骨齡評(píng)測(cè)參考標(biāo)準(zhǔn)制定 從北京、河北、大連、無(wú)錫、廈門招募12名有5年以上評(píng)分法骨齡評(píng)測(cè)經(jīng)驗(yàn)的放射科和兒科醫(yī)師。對(duì)所有醫(yī)師,無(wú)論有無(wú)中華05 RUS-CHN法使用經(jīng)驗(yàn),均依據(jù)中華05法再次進(jìn)行系統(tǒng)的骨齡評(píng)測(cè)培訓(xùn)。培訓(xùn)后,選用20例2~17歲規(guī)范骨齡片,對(duì)所有醫(yī)師進(jìn)行水平測(cè)試。選擇水平最佳的3名醫(yī)師(2名主任醫(yī)師,1名副主任醫(yī)師)對(duì)148例骨齡片進(jìn)行雙盲標(biāo)注,并取三者均值,即為本研究金標(biāo)準(zhǔn)。
1.4 對(duì)照組 2名(醫(yī)師A、醫(yī)師B)住院醫(yī)師中,醫(yī)師A近一年骨齡片讀片量不低于1 000張(采用中華05 RUS-CHN法),醫(yī)師B近一年骨齡閱片量不低于 2 000張(采用中華05 RUS-CHN法)。閱片環(huán)境采用Dr.Wise遠(yuǎn)程標(biāo)注平臺(tái)(http://label.deepwise.com),可根據(jù)需要縮放圖像、調(diào)節(jié)窗寬和窗位。
1.5 統(tǒng)計(jì)學(xué)分析 采用基于Python2.7(Python Software Foundation, Beaverton, Ore)的scipy、statsmodels庫(kù)以及R軟件。模型組和對(duì)照組醫(yī)師評(píng)測(cè)骨齡的準(zhǔn)確性采用平均絕對(duì)誤差(mean absolute difference, MAE;骨齡評(píng)測(cè)誤差的絕對(duì)值的算術(shù)平均值)衡量。采用組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficients, ICC)分析模型組和對(duì)照組與金標(biāo)準(zhǔn)評(píng)價(jià)骨齡的一致性,ICC>0.75為一致性良好。繪制Bland-Altman圖,計(jì)算模型組和金標(biāo)準(zhǔn)骨齡差異(骨齡偏差)的95%一致性界限。采用配對(duì)樣本t檢驗(yàn)比較模型組和對(duì)照組醫(yī)師A、醫(yī)師B間平均誤差(所有樣本骨齡評(píng)測(cè)誤差的算術(shù)平均值)、MAE,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。采用箱式圖分析≥2~5歲、≥6~8歲、≥9~11歲、≥12~14歲、≥15~17歲5個(gè)年齡段骨齡評(píng)測(cè)誤差的變化趨勢(shì)。
2.1 模型組、對(duì)照組與金標(biāo)準(zhǔn)準(zhǔn)確率對(duì)比 參照金標(biāo)準(zhǔn),模型組MAE為0.295歲[95%CI(0.238,0.352)],對(duì)照組醫(yī)師A MAE為0.438歲[95%CI(0.369,0.508)],醫(yī)師B MAE為0.360歲[95%CI(0.295,0.425)]。模型組、對(duì)照組MAE≤0.5歲分別占84.46%(125/148)、67.57%(100/148;醫(yī)師A)和74.32%(110/148;醫(yī)師B)。模型組、對(duì)照組MAE≤1.0歲分別占93.92%(139/148)、89.19%(132/148;醫(yī)師A)和89.86%(133/148;醫(yī)師B),見(jiàn)表1。
表1 參照金標(biāo)準(zhǔn),模型組和對(duì)照組不同性別MAE
對(duì)照組醫(yī)師A、醫(yī)師B與金標(biāo)準(zhǔn)分別存在+0.363歲和+0.269歲的平均誤差。模型組與對(duì)照組MAE的差異,見(jiàn)表2。模型組的MAE顯著優(yōu)于醫(yī)師A(t=-3.071,P=0.002),但與醫(yī)師B的MAE差異無(wú)統(tǒng)計(jì)學(xué)意義(t=-1.563,P=0.120)。
表2 模型組和對(duì)照組骨齡評(píng)測(cè)的平均誤差和MAE
2.2 一致性檢驗(yàn) 以金標(biāo)準(zhǔn)為參照,模型組評(píng)估骨齡的一致性良好[ICC=0.994,95%CI(0.992,0.996)],對(duì)照組醫(yī)師A[ICC=0.989,95%CI(0.959,0.995)]和醫(yī)師B[ICC=0.991,95%CI(0.979,0.996)]評(píng)估骨齡的一致性良好。模型組和金標(biāo)準(zhǔn)評(píng)測(cè)骨齡偏差的95%一致性界限為(-0.896,+0.892),見(jiàn)圖2。
2.3 不同年齡段之間骨齡值的比較 不同年齡段的箱式圖見(jiàn)圖3?!?~5歲、≤6~8歲、≤9~11歲、≤12~14歲年齡段模型骨齡預(yù)測(cè)誤差均值(虛線)小于≤15~17歲。
骨齡是評(píng)價(jià)兒童及青少年生長(zhǎng)發(fā)育狀況、預(yù)測(cè)身高、診斷疾病與監(jiān)測(cè)治療等的重要指標(biāo)和依據(jù),具有重要的臨床意義。長(zhǎng)期以來(lái),廣泛使用的圖譜法雖然簡(jiǎn)單快捷,但評(píng)價(jià)者間差異大、評(píng)價(jià)者內(nèi)可重復(fù)性差[2];而準(zhǔn)確率相對(duì)較高的評(píng)分法又因其操作繁瑣耗時(shí),難以高效應(yīng)用于臨床[3]。骨齡評(píng)測(cè)的自動(dòng)化、智能化是一項(xiàng)迫切的臨床需要。
實(shí)驗(yàn)性骨齡評(píng)測(cè)系統(tǒng)常采用半自動(dòng)方式,即先手動(dòng)勾選13個(gè)骨骺區(qū)域,然后系統(tǒng)基于特征提取和機(jī)器學(xué)習(xí)分類器獲得骨齡。2009年Thodberg等[5]基于主動(dòng)表觀模型等技術(shù),在84例TW3數(shù)據(jù)集上取得了0.80年的掌指骨骨齡預(yù)測(cè)均方根誤差[95%CI(0.68,0.93)]。近年來(lái)隨著深度學(xué)習(xí)技術(shù)的發(fā)展[13],出現(xiàn)更精確、快速的骨齡評(píng)測(cè)方法,如卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)GP圖譜法骨齡[8]。但算法的進(jìn)展也對(duì)骨齡評(píng)測(cè)系統(tǒng)的臨床驗(yàn)證提出了更高的要求。
驗(yàn)證模型準(zhǔn)確性的關(guān)鍵是確定真實(shí)骨齡的參考標(biāo)準(zhǔn)。既往研究[3-4]表明,采用不同骨齡評(píng)測(cè)方法評(píng)價(jià)同樣骨齡片,結(jié)果存在系統(tǒng)性偏差。因此,骨齡評(píng)測(cè)準(zhǔn)確性的臨床驗(yàn)證,首先需選定一種骨齡評(píng)測(cè)標(biāo)準(zhǔn)。本研究采用中華05 RUS-CHN法,設(shè)定了統(tǒng)一的標(biāo)準(zhǔn)。但骨齡評(píng)價(jià)的主觀因素影響仍較大:①橈尺骨骨骺、掌指骨骨骺的生長(zhǎng)發(fā)育均是連續(xù)的變化過(guò)程,臨床采用TW3法或中華05 RUS-CHN法評(píng)價(jià)骨骺發(fā)育等級(jí),是將連續(xù)的骨骺發(fā)育形態(tài)量化到一系列離散的典型指征,如骨骺發(fā)育狀態(tài)介于兩個(gè)發(fā)育等級(jí)之間時(shí),閱片者只能依據(jù)主觀認(rèn)知選擇最接近的等級(jí);②受拍攝角度差異、個(gè)體發(fā)育差異等因素影響,并非所有骨骺形態(tài)都能與骨骺分級(jí)標(biāo)準(zhǔn)圖對(duì)應(yīng);此時(shí)對(duì)骨骺等級(jí)的判定依賴于閱片者對(duì)手部骨骼三維解剖結(jié)構(gòu)及常見(jiàn)變異情況的經(jīng)驗(yàn)積累;③骨齡評(píng)測(cè)是重復(fù)性工作,長(zhǎng)時(shí)間的連續(xù)閱片,即使有經(jīng)驗(yàn)的醫(yī)師可能也會(huì)出現(xiàn)偶然失誤。骨齡評(píng)價(jià)方法可靠性研究[2]表明,隨讀片經(jīng)驗(yàn)的不斷豐富,骨齡評(píng)價(jià)的可靠性也在增加,且技術(shù)培訓(xùn)、統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn)也對(duì)評(píng)價(jià)者間的讀片可靠性有重要影響[14]。
為盡量減少主觀性影響,本研究在制定骨齡相對(duì)金標(biāo)準(zhǔn)時(shí),對(duì)已具備經(jīng)驗(yàn)的醫(yī)師仍按統(tǒng)一標(biāo)準(zhǔn)進(jìn)行系統(tǒng)培訓(xùn)和測(cè)試選拔,并取3名醫(yī)師的均值作為標(biāo)準(zhǔn)。另外,為規(guī)避單中心閱片的局限,提升制定骨齡金標(biāo)準(zhǔn)的可靠性,本研究采用多中心報(bào)名的方式確定制定參考標(biāo)準(zhǔn)的3名閱片者。
本研究結(jié)果顯示,模型組MAE小于對(duì)照組,模型組絕對(duì)誤差≤0.5歲和絕對(duì)誤差≤1.0歲的占比均高于對(duì)照組,提示模型的準(zhǔn)確率均優(yōu)于對(duì)照組2名醫(yī)師;模型的平均誤差和對(duì)照組2名醫(yī)師的平均誤差差異均有統(tǒng)計(jì)學(xué)意義,對(duì)照組2名醫(yī)師均有高估骨齡的傾向,而模型組與金標(biāo)準(zhǔn)之間的平均誤差非常小(1.930×10-3歲),表明深度學(xué)習(xí)模型不受主觀偏好影響的優(yōu)勢(shì);模型組和對(duì)照組醫(yī)師A的MAE差異有統(tǒng)計(jì)學(xué)意義(P=0.002);模型組和對(duì)照組醫(yī)師B的MAE差異無(wú)統(tǒng)計(jì)學(xué)意義(P=0.120),提示深度學(xué)習(xí)模型的骨齡評(píng)測(cè)準(zhǔn)確率達(dá)到或超過(guò)了對(duì)照組2名醫(yī)師。為進(jìn)一步考察模型組骨齡評(píng)測(cè)值和金標(biāo)準(zhǔn)骨齡之間的一致性,本研究根據(jù)ICC數(shù)值判斷結(jié)果表明,模型骨齡評(píng)測(cè)值與金標(biāo)準(zhǔn)骨齡的一致性優(yōu)于對(duì)照組醫(yī)師A。
影響骨齡評(píng)測(cè)準(zhǔn)確性結(jié)果的另一因素是樣本年齡分布,本研究在已有貴州兒童及青少年數(shù)據(jù)中,盡可能保證2~17歲年齡段的樣本均衡分布。因本研究3歲以下入組骨齡片較少,僅納入5例,多為左手外傷拍攝X光片,排除骨折的患兒;其余每歲樣本量均控制在8~10例。本研究通過(guò)繪制Bland-Altman圖,發(fā)現(xiàn)骨齡偏差的95%一致性界限為(-0.896,+0.892),優(yōu)于Larson等[15]采用GP圖譜法人工智能系統(tǒng)測(cè)評(píng)骨齡的一致性結(jié)果。此外,本研究還發(fā)現(xiàn)15~17歲年齡段模型骨齡預(yù)測(cè)誤差明顯大于其他年齡段,推測(cè)原因:使用中華05 RUS-CHN法,16歲以上骨齡片評(píng)測(cè),主要取決于橈尺骨的融合程度(1/4融合、1/2融合、3/4融合),此處差異細(xì)微,不同標(biāo)注者主觀差異大,易導(dǎo)致模型訓(xùn)練效果欠佳。
本研究的局限性:①驗(yàn)證用樣本量較小,未對(duì)各年齡段骨齡評(píng)測(cè)情況進(jìn)行統(tǒng)計(jì)學(xué)分析;②納入研究的樣本雖同來(lái)源于貴州地區(qū),但未考慮民族等因素的影響,將在其后的研究中進(jìn)一步完善。
綜上所述,將基于深度學(xué)習(xí)的骨齡評(píng)測(cè)系統(tǒng)用于貴州兒童及青少年臨床骨齡閱片,可取得接近甚至優(yōu)于對(duì)照組醫(yī)師的準(zhǔn)確性和一致性,具有廣闊的臨床應(yīng)用前景。