孫夢(mèng)莎,丁永紅,顏?zhàn)右?2,蘇曉鳴
1. 杭州依圖醫(yī)療技術(shù)有限公司,浙江 杭州 310012;2. 上海市醫(yī)學(xué)影像與知識(shí)圖譜人工智能重點(diǎn)實(shí)驗(yàn)室,上海 200051
近年來,兒童超重肥胖問題日漸突出,兒童性早熟患病率逐年上升,發(fā)育遲緩患病率仍需進(jìn)一步降低。中國居民營養(yǎng)與慢性病狀況報(bào)告(2020年)顯示,6~17歲及6歲以下青少年兒童超重肥胖率分別達(dá)到19%和10.4%[1]。這些小兒內(nèi)分泌問題的發(fā)生與遺傳、環(huán)境因素以及生活方式有密切關(guān)系,若不及時(shí)治療,會(huì)給患兒體格發(fā)育、心理發(fā)育、就業(yè)、婚姻等帶來許多不良影響。而診斷該類疾病的關(guān)鍵指標(biāo)之一就是骨齡,但是現(xiàn)有骨齡評(píng)估方法在效率、準(zhǔn)確上還存在不足,制約了骨齡檢測(cè)在臨床的廣泛應(yīng)用。
隨著人工智能技術(shù)的快速發(fā)展,圖像識(shí)別相關(guān)的人工智能技術(shù)在醫(yī)學(xué)影像領(lǐng)域內(nèi)得到了深度應(yīng)用,例如糖尿病眼底視網(wǎng)膜病變,乳腺癌淋巴結(jié)轉(zhuǎn)移的早期預(yù)警和皮膚癌的分類等[2-3]。在骨齡檢測(cè)領(lǐng)域,2018年RSNA骨齡機(jī)器學(xué)習(xí)挑戰(zhàn)賽中,數(shù)十名挑戰(zhàn)者上傳了模型,證明AI在做出準(zhǔn)確而省時(shí)的預(yù)測(cè)上具有巨大潛力[4]。斯坦福醫(yī)學(xué)院的一項(xiàng)研究也表明,深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)兒童骨齡成熟度評(píng)估的準(zhǔn)確性與放射科專家相似[5]。
骨齡是通過評(píng)估骨骼在不同階段的不同發(fā)育形態(tài),以年齡的形式、以歲為單位進(jìn)行表達(dá)的生物學(xué)年齡。兒科醫(yī)生和內(nèi)分泌學(xué)家認(rèn)為骨齡可以反映孩子的生物學(xué)年齡,并且是從出生到成年常規(guī)使用的唯一獨(dú)立生物學(xué)成熟度指標(biāo)[6]。檢查骨齡僅需拍攝左手(包含全掌和腕部)X光正位片,有效輻射劑量小于0.00012 mSv,對(duì)兒童非常安全[6-7]。
許多因素影響骨骼發(fā)育的進(jìn)程,包括營養(yǎng)、遺傳、激素和疾病狀態(tài)等[6]。與日歷年齡相比,骨齡與身體發(fā)育的許多指標(biāo)(例如生長(zhǎng)速度、初潮、肌肉質(zhì)量、骨礦物質(zhì)質(zhì)量)具備更強(qiáng)的相關(guān)性,更能準(zhǔn)確反應(yīng)兒童及青少年生長(zhǎng)發(fā)育實(shí)際情況[8]?;加邪l(fā)育遲緩、生長(zhǎng)激素缺乏、甲狀腺功能減退、營養(yǎng)不良等疾病的兒童,骨齡通常落后于年齡;患有性早熟、先天性腎上腺增生、超重肥胖等疾病的兒童,骨齡通常提前于年齡[9-10]。因此通過檢測(cè)骨齡可以及早了解兒童的生長(zhǎng)發(fā)育潛力以及性成熟趨勢(shì),對(duì)于一些內(nèi)分泌疾病的診療具有很大的指導(dǎo)意義。接受治療的內(nèi)分泌疾病患兒,需要每半年或一年到院監(jiān)測(cè)骨齡以評(píng)估療效。除臨床診斷外,在體育科研領(lǐng)域,骨齡是預(yù)測(cè)運(yùn)動(dòng)員發(fā)育的關(guān)鍵指標(biāo)[11-12];在法醫(yī)學(xué)領(lǐng)域,骨齡作為鑒定年齡的重要手段,有助于精準(zhǔn)量刑[13]。
骨齡的評(píng)價(jià)方法主要有計(jì)數(shù)法、圖譜法和計(jì)分法三種:① 計(jì)數(shù)法通過計(jì)算腕部骨化中心數(shù)目推算骨齡,誤差較大,且需要多部位攝片,增加了輻射劑量,目前幾乎不再使用;②Greulich-Pyle(G-P)圖譜法,是將被檢者的手腕部X光片與標(biāo)準(zhǔn)Ⅹ光片圖譜比較(標(biāo)準(zhǔn)圖譜代表該年齡兒童的平均水平),以最相像的標(biāo)準(zhǔn)片作為被檢者的骨齡。目前該方法在全世界使用最為廣泛,但圖譜法精度只能精確到半年至一年,主觀性強(qiáng)。研究表明,同一個(gè)閱片者采用G-P圖譜法進(jìn)行兩次讀片,兩次骨齡差異可達(dá)0.89歲,不同閱片者之間對(duì)同一骨齡片評(píng)定骨齡的差異可達(dá)1.25歲[14-16];③Tanner-Whitehouse(TW)計(jì)分法,根據(jù)手腕部20個(gè)骨化中心的出現(xiàn)及形態(tài)改變進(jìn)行成熟度評(píng)級(jí),計(jì)算評(píng)分總和得出骨齡TW法操作繁瑣,需要進(jìn)行專業(yè)訓(xùn)練,使用起來非常耗時(shí),判讀一張骨齡片至少需要20 min。因此,當(dāng)前的骨齡判讀存在以下幾個(gè)挑戰(zhàn):
(1)骨齡判讀耗時(shí)長(zhǎng),兒科醫(yī)生資源少,難以進(jìn)行精細(xì)化判讀。國內(nèi)兒科醫(yī)療資源緊缺,只有極少數(shù)醫(yī)生有精力開展精準(zhǔn)骨齡檢測(cè)。
(2)主觀因素影響大,難以精準(zhǔn)評(píng)估發(fā)育狀況。由于醫(yī)生之間閱片經(jīng)驗(yàn)與能力的差異,判讀結(jié)果一致性不佳;同一位醫(yī)生對(duì)于同一張片子前后判讀結(jié)果、不同醫(yī)生之間判讀結(jié)果均有差異。
(3)隨訪過程長(zhǎng),難以準(zhǔn)確追蹤療效。對(duì)于生長(zhǎng)發(fā)育異常的兒童,需要每半年或者一年時(shí)間進(jìn)行骨齡復(fù)查,追蹤其療效,但是骨齡歷次變化細(xì)微,沒有專業(yè)追蹤隨訪工具以及嚴(yán)謹(jǐn)?shù)脑u(píng)價(jià)標(biāo)準(zhǔn),很難準(zhǔn)確追蹤其臨床療效(圖1)。
圖1 一名生長(zhǎng)激素不完全缺乏兒童,在接受生長(zhǎng)激素治療后,每半年的骨齡復(fù)查圖像。
(4)國內(nèi)兒童發(fā)育狀況變化大,參考人群具有年代局限性。我國專家在TW計(jì)分法基礎(chǔ)上進(jìn)行了多次改良,最新的參考人群標(biāo)準(zhǔn)為2006年修訂制定的中華05法,距今已有十余年[16]。
骨齡影像智能檢測(cè)模型包括影像體位自動(dòng)檢測(cè)、關(guān)鍵骨化中心識(shí)別、關(guān)鍵骨化中心評(píng)級(jí)、生長(zhǎng)發(fā)育測(cè)評(píng)等模塊如圖2所示。
圖2 基于深度學(xué)習(xí)的AI骨齡系統(tǒng)模型
手腕骨影像質(zhì)量(如輕微旋轉(zhuǎn)、偽影等不規(guī)范拍攝問題)會(huì)影響結(jié)果準(zhǔn)確性。因此,系統(tǒng)在閱片初始需要對(duì)骨齡片進(jìn)行位置校正,從而提升識(shí)別精確度和拍片質(zhì)量容錯(cuò)性。模塊采用卷積層用于提取骨齡圖像特征,建立特征點(diǎn)與手部在現(xiàn)實(shí)空間中深度之間的關(guān)系,從而獲得圖像景深,實(shí)現(xiàn)骨齡攝片中手腕骨在3D空間的映射。在3D的狀態(tài)下對(duì)各個(gè)手腕骨進(jìn)行識(shí)別和定位,對(duì)于非標(biāo)準(zhǔn)姿態(tài)的手腕骨影像,進(jìn)行定位多層迭代優(yōu)化,從而識(shí)別攝片中旋轉(zhuǎn)或者非標(biāo)準(zhǔn)的手姿態(tài),自動(dòng)將其糾正至標(biāo)準(zhǔn)體位(圖3)。
圖3 手腕骨影像體位自動(dòng)檢測(cè),提升拍片質(zhì)量容錯(cuò)性
骨齡圖像關(guān)鍵骨化中心包括遠(yuǎn)端橈骨、遠(yuǎn)端尺骨、腕骨、掌骨和指骨,骨化中心的準(zhǔn)確定位直接影響檢測(cè)結(jié)果。針對(duì)各類骨化中心的分布、密度特征、邊緣形狀等特點(diǎn),系統(tǒng)采用基于卷積神經(jīng)網(wǎng)絡(luò)上的Faster R-CNN深度學(xué)習(xí)技術(shù),得出具有高辨識(shí)度的特征圖,應(yīng)用基于全卷積神經(jīng)網(wǎng)絡(luò)的Region Proposal Network(RPN)技術(shù)提取候選框,得到一系列疑似手指骨及腕骨的區(qū)域,再通過ROI classifier得到特征區(qū)域的精確定位并進(jìn)行檢測(cè)識(shí)別,從而完成關(guān)鍵骨化中心的自動(dòng)分割和勾畫。
系統(tǒng)通過基于深度學(xué)習(xí)的對(duì)齊定位算法獲取每塊骨骼對(duì)應(yīng)的多個(gè)關(guān)鍵點(diǎn),將待檢測(cè)骨化中心生長(zhǎng)發(fā)育點(diǎn)的特征信息與數(shù)據(jù)庫中與對(duì)應(yīng)性別的多個(gè)基準(zhǔn)骨化中心特征信息應(yīng)用貝葉斯網(wǎng)絡(luò)的不確定性知識(shí)推理模型進(jìn)行預(yù)測(cè),確定該骨骼生長(zhǎng)階段,實(shí)現(xiàn)準(zhǔn)確分級(jí),綜合分析得出骨齡(圖4)。
圖4 卷積神經(jīng)網(wǎng)絡(luò)和深度級(jí)聯(lián)回歸算法實(shí)現(xiàn)骨齡準(zhǔn)確分級(jí)
骨齡影像智能檢測(cè)系統(tǒng)依據(jù)臨床常用指標(biāo)(兒童身高體重,父母身高等參數(shù)),自動(dòng)生成詳細(xì)完善的診斷報(bào)告,包含骨齡評(píng)價(jià)、身高評(píng)價(jià)、發(fā)育評(píng)價(jià)、身高預(yù)測(cè)等指標(biāo)。同時(shí)基于精確到月的骨齡結(jié)果,結(jié)合歷史隨訪數(shù)據(jù),系統(tǒng)可對(duì)生長(zhǎng)趨勢(shì)和臨床療效進(jìn)行全方位監(jiān)測(cè)如圖5所示。
圖5 AI骨齡影像智能檢測(cè)系統(tǒng)
骨齡影像智能檢測(cè)系統(tǒng)已廣泛應(yīng)用于臨床工作,可有效提升醫(yī)生診斷效率與準(zhǔn)確率。
該試驗(yàn)隨機(jī)選取了250份兒童骨齡片(男性125份,女性125份),由依圖AI系統(tǒng)與醫(yī)生(4位經(jīng)驗(yàn)豐富的內(nèi)分泌學(xué)家和2位經(jīng)驗(yàn)豐富的放射學(xué)家)使用TW3標(biāo)準(zhǔn)分別進(jìn)行判讀,將兩者的判讀效率、準(zhǔn)確性和可靠性進(jìn)行比較[17-19]。
判讀效率上,TW3-AI模型的平均處理時(shí)間為1.5±0.2 s,明顯短于內(nèi)分泌科醫(yī)生或放射科醫(yī)生花費(fèi)的平均時(shí)間525.6±55.5 s。
準(zhǔn)確性與可靠性上,TW3-AI模型與專家判讀結(jié)果的均方根(Root Mean Square,RMS)為0.50年,表明兩者高度一致,AI性能不遜于醫(yī)生人工評(píng)估;且由于AI與醫(yī)生的RMS優(yōu)于醫(yī)生間的RMS,因此相對(duì)于醫(yī)生AI具有更高的穩(wěn)定性(表1和圖6)。
圖6 AI模型與閱片者之間的骨齡評(píng)估一致性
表1 6名閱片者與AI-TW3模型之間骨齡評(píng)估的統(tǒng)計(jì)學(xué)差異
該試驗(yàn)隨機(jī)選取了745份生長(zhǎng)發(fā)育異常病例骨齡片(360名男孩和385名女孩),金標(biāo)準(zhǔn)由兩名經(jīng)驗(yàn)豐富的醫(yī)生(1名具有10年閱片經(jīng)驗(yàn)的放射科醫(yī)生和1名具有15年閱片經(jīng)驗(yàn)的內(nèi)分泌科醫(yī)生)使用G-P標(biāo)準(zhǔn)達(dá)成的骨齡結(jié)果共識(shí),通過該試驗(yàn)分析基于G-P標(biāo)準(zhǔn)依圖AI系統(tǒng)的閱片效率與結(jié)果準(zhǔn)確性[20]。
閱片效率上,兩位醫(yī)生每張骨齡片的平均判讀耗時(shí)約2 min,而AI模型僅需要1~2 s;這表明與人工分析相比,人工智能系統(tǒng)效率明顯。
準(zhǔn)確性上,AI系統(tǒng)與金標(biāo)準(zhǔn)相差1歲以內(nèi)的平均比例為84.60%,其中12~18歲組別的比例最高,可以達(dá)到89.45%(圖7)。該結(jié)果表明依圖AI系統(tǒng)可以提供與經(jīng)驗(yàn)豐富的審閱者相當(dāng)?shù)墓驱g評(píng)估能力[20]。
圖7 通過不同年齡組與金標(biāo)準(zhǔn)的比較來確定AI 骨齡系統(tǒng)的判讀準(zhǔn)確性
該試驗(yàn)選取了52個(gè)生長(zhǎng)激素缺乏兒童病例,每個(gè)兒童在兩年隨訪內(nèi)每隔6個(gè)月拍攝一張骨齡片,入組骨齡片共290張。兩名經(jīng)驗(yàn)豐富的兒科醫(yī)生使用中華05標(biāo)準(zhǔn)對(duì)入組影像進(jìn)行判讀,首先在無AI輔助下獨(dú)立判讀,幾周后加入AI輔助判讀。通過試驗(yàn)分析在AI輔助下,醫(yī)生的閱片效與結(jié)果一致性是否得到提升。
閱片效率上,純?nèi)斯そM閱片單張骨齡判讀平均耗時(shí)達(dá)2.6 min,在AI輔助下1位專家的閱片速度提升了1倍,閱片速度達(dá)到1.45 min/張;另一位專家閱片速度提升2倍,達(dá)到0.84 min/張。說明依圖AI可以極大提升閱片速度。
一致性上,經(jīng)混合線性模型檢驗(yàn),兩位醫(yī)生在骨齡動(dòng)態(tài)評(píng)估中存在顯著差異(P<0.001);在使用AI輔助評(píng)估后,兩位醫(yī)生在骨齡動(dòng)態(tài)評(píng)估中無明顯組間差異(P=0.91)(表2),表明使用依圖AI系統(tǒng)輔助評(píng)估可以降低醫(yī)生差異對(duì)骨齡結(jié)果的影響,提升結(jié)果一致性。從圖8可以直觀看出,使用AI輔助前兩位醫(yī)生的骨齡評(píng)估值存在一定差異,而AI輔助后兩位醫(yī)生的評(píng)估值非常接近(幾乎重合);同時(shí)醫(yī)生2的骨齡判讀結(jié)果基本都超過兒童日歷年齡,與生長(zhǎng)激素缺乏兒童骨齡表現(xiàn)不符,而在AI輔助下的骨齡判讀結(jié)果更接近臨床病癥表現(xiàn)。
表2 AI輔助前后醫(yī)生間對(duì)骨齡動(dòng)態(tài)評(píng)估值的影響
圖8 在AI輔助下,兩個(gè)醫(yī)生的判讀一致性更高
由上述對(duì)比研究表明使用人工智能方法進(jìn)行骨齡的判別是可行的。在此過程中現(xiàn)有TW3和G-P方法存在的精度和速度問題可以得到顯著改善。其中在準(zhǔn)確性方面,人工判讀除了精度外,還存在的閱片者之間以及在重復(fù)閱片判讀的差異問題。在本研究中對(duì)不同閱片者之間的差異進(jìn)行了對(duì)比,表明利用人工智能后可使醫(yī)生之間的診斷結(jié)果無差異。對(duì)于重復(fù)閱片問題,需要設(shè)計(jì)一定的洗脫期,將作為下一步的研究重點(diǎn)。
在產(chǎn)品功能上,在進(jìn)行骨齡判讀基礎(chǔ)上,提供了發(fā)育測(cè)評(píng)的功能。本研究中是以回顧式方法對(duì)現(xiàn)有的隨訪結(jié)果進(jìn)行了對(duì)比研究,表明評(píng)估結(jié)果對(duì)既有的發(fā)育是相符的。在后續(xù)研究中,以前瞻式開展長(zhǎng)期的隨訪研究來進(jìn)行發(fā)育水平預(yù)測(cè),尤其是與治療過程相結(jié)合,形成對(duì)治療的預(yù)后評(píng)估,具有重要的研究?jī)r(jià)值。
精準(zhǔn)判定骨齡是開展兒童內(nèi)分泌診斷和治療的基礎(chǔ)。本文利用依圖AI系統(tǒng)進(jìn)行對(duì)照試驗(yàn),與既有研究相比,本研究對(duì)TW3、G-P和中華05三種方法都進(jìn)行對(duì)比,并進(jìn)行了閱片者之間差異性對(duì)照。同時(shí)在骨齡判讀基礎(chǔ)上,進(jìn)行了發(fā)育測(cè)評(píng)的研究。上述研究結(jié)果表明骨齡影像智能檢測(cè)系統(tǒng)將骨齡的閱片時(shí)間從15 min縮短至秒級(jí),有效提升了放射科和兒科醫(yī)生的工作效率,減輕了醫(yī)生的工作壓力。在判讀準(zhǔn)確性上,臨床試驗(yàn)證明系統(tǒng)與專家判讀結(jié)果高度一致,同時(shí)系統(tǒng)對(duì)于同一張片子數(shù)次檢測(cè)結(jié)果的統(tǒng)一性可有效避免人為主觀誤差,保證判讀結(jié)果穩(wěn)定性,對(duì)于療效追蹤時(shí)觀察骨齡細(xì)微變化有著重要作用。
在我國兒科醫(yī)療資源緊缺,尤其基層兒科醫(yī)生診療能力不足的環(huán)境下,該系統(tǒng)的推廣有望提升基層骨齡檢測(cè)能力,從而有利于兒童內(nèi)分泌疾病篩查和診療的開展,更好地保證我國兒童的健康成長(zhǎng)。