王鳳丹,次旦旺久,焦 洋,潘 慧,銀 武,金征宇
(中國醫(yī)學科學院 北京協(xié)和醫(yī)學院 北京協(xié)和醫(yī)院 1.放射科,2.普內科, 3.內分泌科,北京 100730;4.西藏自治區(qū)人民醫(yī)院 放射科, 西藏 拉薩 850000)
兒童的生長發(fā)育決定了一個地區(qū)未來人口的健康狀況和社會發(fā)展?jié)撃?。隨著社會的發(fā)展,對兒童生長發(fā)育進行準確的個體化評估的需求日漸增加。與日歷年齡相比,骨齡(bone age,BA)更能準確地反應兒童及青少年生長發(fā)育的實際情況[1],因此骨齡被廣泛用于預測兒童的身高及初潮年齡、診斷和隨訪生長發(fā)育提前或延遲相關疾病、運動員選材及法醫(yī)學量刑。檢查骨齡僅需拍攝左手正位片,輻射劑量僅0.00012毫西弗(millisie-vert,mSv),對兒童非常安全[2]。
雖然骨齡應用廣泛,但實踐中這不僅需要培訓專業(yè)技師攝片、專業(yè)醫(yī)生閱片,更需要整個醫(yī)療體系持續(xù)投入大量時間、精力及財力。中國幅員遼闊,醫(yī)療質量與可及性分布不均,很多地區(qū)醫(yī)療資源緊缺,更缺乏有骨齡判讀經(jīng)驗和資質的醫(yī)護人員[3]。人工智能(artificial intelligence, AI)不依賴大量時間、精力及財力的持續(xù)投入,為以有限醫(yī)療資源實現(xiàn)高效準確的骨齡評估提供了可能。
骨齡的評估方法眾多,主要有計數(shù)法、圖譜法和積分法3種類型[4]。計數(shù)法是通過觀察骨化中心出現(xiàn)的時間、數(shù)目和成熟度判斷骨齡,由于誤差較大,且需要多部位攝片增加了輻射劑量,目前使用較少。Greulich-Pyle圖譜法(簡稱GP法)是全世界使用最廣泛的骨齡判讀方法,閱片者比對標準片進行骨齡判斷,該圖譜基本涵蓋了手腕骨發(fā)育過程中的所有共性的骨性指征。Tanner-Whitehouse法(簡稱TW法),根據(jù)手腕部20個骨化中心的出現(xiàn)及形態(tài)改變進行分級評分,給予各骨化中心以不同的比重。中國人手腕發(fā)育標準-CHN法依照TW法制定,納入14個骨化中心,后經(jīng)修訂為中華05法。積分法結果較為準確,但需要進行專業(yè)訓練,使用起來較為耗時。即使是經(jīng)優(yōu)化的TW3法,一般情況下醫(yī)生讀一張骨齡片至少需要8 min[4]。
無論使用哪種方法評估骨齡,人工讀片、分析及推斷骨齡均有工作量大、耗時長、一致性欠佳的局限性。不同閱片者的水平和能力不盡相同,故讀片的一致性不佳;對同一張骨齡圖像,同一個閱片者不同時間的判定結果、不同閱片者之間的判定結果均有較大差異[5]。隨著計算機和圖像處理技術的發(fā)展,AI能提供相對統(tǒng)一、穩(wěn)定、便捷的骨齡結果,節(jié)省培訓專業(yè)人員所需的費用、時間和精力,提高讀片的準確性和一致性,有很好的應用前景。
AI是計算機科學的一個分支,指表現(xiàn)出與人類智能(如推理和學習)相關的各種功能的能力,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等(圖1)。機器學習(machine learning,ML)隸屬于AI,指使用計算機作為工具,研究怎樣使用計算機模擬或實現(xiàn)人類學習活動。深度學習(deep learning,DL)是機器學習的一個子領域,實質是一種算法思維,其核心是對人腦思維深層次學習的模擬,通過模擬人腦的深層次抽象認知過程,實現(xiàn)計算機對數(shù)據(jù)的復雜運算和優(yōu)化?!吧疃取斌w現(xiàn)在該算法有多個隱含層,因此在處理圖像、聲音和文本時,是通過每一層網(wǎng)絡結構對數(shù)據(jù)進行提取處理。常見的深度學習算法有卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、深度信念網(wǎng)絡和循環(huán)/遞歸神經(jīng)網(wǎng)絡。
AI.artificial intelligence;ML.machine learning;DL.deep learning;CNN.convolutional neural network
不同的深度學習算法用于不同的任務,適用于醫(yī)學影像領域的算法是CNN,它是一類包含卷積計算且具有深度結構的前饋神經(jīng)網(wǎng)絡,由一個或多個卷積層組成,對數(shù)據(jù)中的局部特征進行卷積操作,可以進行監(jiān)督學習和無監(jiān)督學習。隨著研究的不斷進步,在CNN的基礎上又產(chǎn)生了各種改進結構和算法,如深度神經(jīng)殘差網(wǎng)絡(residual network,ResNet)。
開發(fā)AI骨齡系統(tǒng)需要訓練、驗證、測試這3個階段,用與訓練集不同來源數(shù)據(jù)進行測試,同時不斷調整AI各項參數(shù)是檢驗AI普適性的常用手段。近幾年來,國外陸續(xù)有研究機構嘗試開發(fā)基于深度學習的AI骨齡評估軟件。依據(jù)TW法,使用1 391張骨齡片構建的CNN模型與人類專家判讀骨齡的平均絕對離差為0.79歲[6]。依據(jù)GP(Greulich-Pyle)法,一項研究使用遷移學習分析了4 278張女性兒童和4 047張男性兒童骨齡片,通過組織、骨骼、背景、視準及標記注釋5個取樣點,所構建的AI骨齡軟件的準確率約為90%[7];另一研究納入大樣本(14 036例)骨齡片,結果顯示AI與人的判定結果無統(tǒng)計學差異,同時AI相比于人更加穩(wěn)定[8]?;谑谞柖肷结t(yī)院數(shù)據(jù)所開發(fā)的韓國兒童AI骨齡軟件(VUNO Med-BoneAge)[9],GP法骨齡準確率可達93%,并獲得了韓國FDA批準。韓國FDA批準的另外2款AI骨齡軟件,是依照TW法建立的HH-boneage.io solution和MediAI-BA solution[10]。
北美放射學年會(Radiological Society of North America, RSNA)曾舉行了一場骨齡機器學習挑戰(zhàn)賽[11],數(shù)據(jù)庫來自斯坦福大學露西爾·帕卡德兒童醫(yī)院和科羅拉多州兒童醫(yī)院。有來自世界各地的260個個人或團隊報名比賽,最終僅有48個參賽者提交了骨齡算法,但是在這個挑戰(zhàn)賽里所涌現(xiàn)的新工具和新方法將促進AI診斷效能的進一步提高。
在國外AI骨齡軟件的研究中,研發(fā)數(shù)據(jù)大多來自美國或西歐,對不同地域、種族、社會經(jīng)濟地位人群的研究較為缺乏。測試AI準確性所用的測試集數(shù)量較少(200~280例),在AI算法和模型構造上有許多需要改進之處,準確性有待提高。此外,在這些研究中,用于前期訓練開發(fā)AI的骨齡圖像與用于測試AI準確性的骨齡圖像均來自于相同的臨床中心,但實際上不同臨床中心的受檢者及病種存在很大差異,骨齡特征也隨之變化,用相同來源的骨齡圖像進行評估無法體現(xiàn)及驗證AI的普適性。
國內對AI骨齡評估的研究緊跟國外同行的步伐。有學者將CNN與多核學習算法結合[12],將兩個不同數(shù)據(jù)融合策略的CNN模型聯(lián)合使用[13],使用回歸CNN算法[14],或者對GoogleNet深度學習架構Inception ResNet V2網(wǎng)絡進行優(yōu)化[15]以構建AI骨齡判讀模型。一項研究使用北美放射學年會骨齡機器學習挑戰(zhàn)賽的骨齡數(shù)據(jù),構造了改進的ResNet網(wǎng)絡[16],其準確率為男性87.15%,女性85.38%。但這幾項研究使用的均是國外公開集骨齡數(shù)據(jù),處于構造算法和模型階段,缺乏大樣本中國兒童骨齡數(shù)據(jù)作為訓練集,尚未在中國人群骨齡數(shù)據(jù)進行驗證及測試,離實際應用還有很多臨床及技術問題需要解決(圖2)。
挑戰(zhàn)賽公開集內部分骨齡片圖像質量與中國大部分中心骨齡片的圖像質量不同,因此用挑戰(zhàn)賽公開集訓練的AI模型不能直接用于中國
為了開發(fā)適合中國兒童的AI骨齡軟件,多個團隊以中國兒童骨齡片作為訓練集進行研發(fā),但訓練集和驗證集多來自于單個醫(yī)學中心。一項研究使用ResNet算法深度學習11 858例骨齡片(南方地區(qū)單中心)所構建的AI軟件[17],其GP法骨齡與金標準之間的平均絕對離差約為0.46歲。另一團隊基于9 059個漢族兒童的骨齡資料(南方地區(qū)單中心)[18],結合ResNet配準模型和分類模型構建了AI骨齡軟件,使用來自北京單中心的有生長發(fā)育異常的漢族兒童(745例)以及生活在拉薩地區(qū)(海拔3 650 m)的藏族兒童(300例)的骨齡數(shù)據(jù)進行測試,該AI軟件判讀GP法骨齡的準確率均可達到85%左右[19-20]。另有團隊使用56例來自北方地區(qū)的骨齡片[21]測試基于南方地區(qū)骨齡數(shù)據(jù)所開發(fā)的AI軟件[22],發(fā)現(xiàn)AI軟件提高了醫(yī)生使用中華05法進行骨齡診斷的準確性。AI算法有一定的數(shù)據(jù)依賴性,這些研究提示以單中心大樣本骨齡數(shù)據(jù)訓練先進的深度學習算法,所構建的AI軟件可在不同的醫(yī)學中心和不同的民族得到較好的骨齡結果。其他學者對西南地區(qū)[23]和北方地區(qū)[24]的AI骨齡研究,也表明AI可在數(shù)s內得出骨齡結果,輔助臨床醫(yī)生進行更為準確的骨齡評估。
前文對中英文文獻的回顧發(fā)現(xiàn),有些研究并未詳細披露訓練AI軟件所使用的骨齡數(shù)據(jù)來源、數(shù)量、男女比例和年齡分布,以及詳細的模型算法構造。不同的研究使用不同的統(tǒng)計學術語評價AI骨齡軟件的準確性,缺乏統(tǒng)一的評估標準。此外,遺傳、種族、營養(yǎng)、氣候、社會經(jīng)濟等多種因素都會對兒童的生長發(fā)育及骨齡產(chǎn)生影響[25]。這些均體現(xiàn)了骨齡評估的復雜性。2021年一項薈萃分析研究對全世界54家AI公司所開發(fā)的100個商業(yè)化AI產(chǎn)品進行評估[26],發(fā)現(xiàn)其算法構建、定價方式及監(jiān)管策略異質性很大。這100個AI產(chǎn)品中,多達64個并無有效性及準確性檢測的文章作為支撐。而36個有正式文章發(fā)表的AI產(chǎn)品,文章也是集中在診斷準確性檢測上,缺乏對診治決策、費效比及患者預后等高階的證據(jù)。根據(jù)2020年底發(fā)布的《中國醫(yī)學影像AI發(fā)展報告》[27],目前在中國有10家AI公司的核心業(yè)務包含骨齡,但有成熟產(chǎn)品的只有4家,獲得三類器械批準的僅有1家,有正式發(fā)表的科研文章作為支撐的產(chǎn)品甚少。
盡管AI在醫(yī)學領域的應用前景廣闊,但技術上需要在算法、算力和系統(tǒng)構架實現(xiàn)真正革新和突破;產(chǎn)品上,需要基于檢查部位的多任務模型,需要基于臨床工作流的全流程方案;商業(yè)上,需要完整的AI產(chǎn)品形態(tài),各方均能接受的定價系統(tǒng);安全上,需要進一步健全數(shù)據(jù)安全性和規(guī)范化使用法律法規(guī);監(jiān)管上,需要建立健全臨床準入和評價體系[28]。2021年6月歐洲發(fā)布相關指南[29],指出在評價影像領域商用AI軟件時,要對相關性、準確性和驗證、 實用性和流程整合、 監(jiān)管和法律、費用和服務5個方面進行全面考量,其中最需明確的是該AI要解決什么樣的臨床問題,其收益和風險是什么,AI算法是否經(jīng)過第三方的嚴格檢驗,AI如何用于臨床工作。
國內醫(yī)務人員對AI的接受度及歡迎度較高,短短幾年時間內AI技術幾乎在醫(yī)學影像領域全程嵌入。AI骨齡系統(tǒng)與醫(yī)學影像存檔與通訊系統(tǒng)及放射科信息系統(tǒng)接口對接,可以實現(xiàn)骨齡圖像自動抓取、閱片分析及結構化報告(圖3),極大提高了影像科醫(yī)師的工作效率與骨齡判讀的準確性。AI技術必然深刻改變影像科醫(yī)生的工作方式,對骨齡評估產(chǎn)生深遠影響。
人工智能骨齡軟件作為插件嵌入影像科醫(yī)生閱片工作站,醫(yī)生打開一份骨齡檢查時,軟件會自動抓取圖像,并呈現(xiàn)出上圖的結構化報告,提供不同評估方法的骨齡結果(右上角紅框)供醫(yī)生選擇,整個過程僅需數(shù)秒