趙俠 賀軻
人工智能(artificial intelligence,AI)技術(shù)延伸至醫(yī)學(xué)領(lǐng)域,給近代醫(yī)學(xué)的發(fā)展進(jìn)步提供了強有力的動力,AI通過將臨床醫(yī)學(xué)相關(guān)診療共識、指南等信息納入計算機系統(tǒng)協(xié)助解決了臨床醫(yī)生諸多臨床問題[1]?,F(xiàn)階段,“實體醫(yī)療”和“深度學(xué)習(xí)”是AI的主要應(yīng)用領(lǐng)域,前者主要包括參與醫(yī)療服務(wù)的機器人、醫(yī)療設(shè)備和物理對象,后者主要是一種基于經(jīng)驗的數(shù)學(xué)算法,可醫(yī)療影像工作中展示出人意料的表現(xiàn)。病理學(xué)和影像學(xué)圖片是臨床醫(yī)師診斷病情的重要依據(jù),亦是人工智能的絕佳應(yīng)用場景[2]。近年來,計算機輔助檢測(computer-aided detection,CAD)在影像學(xué)圖片的識別中表現(xiàn)出較高臨床價值,可通過影像學(xué)、醫(yī)學(xué)圖像處理技術(shù)以及其他可能的生理、生化手段并結(jié)合計算機分析計算,以此高特異性和敏感性的識別圖像的異常,從而為醫(yī)師的診斷提供信息參考,以降低假陰性率、誤診率、漏診率和提高病變檢出率[3]。但現(xiàn)階段國內(nèi)對于智能醫(yī)師助理的關(guān)鍵技術(shù)和應(yīng)用仍缺乏系統(tǒng)報道?;诖吮尘?,本次研究以胸部平片為對象,擬搭建胸部X線平片智能醫(yī)生助理診斷生成系統(tǒng),現(xiàn)將結(jié)果進(jìn)行如下報道。
對本院2018年 1 月—2020 年 1 月所有胸部X線檢查圖像及其對于報告進(jìn)行收集,本次研究數(shù)據(jù)集中總納入圖像及其對于中文報告1 100份,報告涵蓋:肋骨骨折、縱隔占位、心臟病、食管裂孔疝、胸腔積液、氣胸、肺部腫塊和肺部感染等。所有報告均由本院兩名副主任及以上醫(yī)師進(jìn)行雙盲審片。以符合審核標(biāo)準(zhǔn)的圖像及其報告建立數(shù)據(jù)集,并以GDSGRYY123為數(shù)據(jù)集名稱,并按10%、10%和80%的比例將數(shù)據(jù)集進(jìn)行分類,其中80%用于訓(xùn)練、剩下各10%分別用于測試和驗證。
1.2.1 網(wǎng)絡(luò)的主體框架 視覺信息編碼器采用了一個121層深度聯(lián)系的DenseNet以從X線圖像中提取相關(guān)信息,編碼器包括4個部分,每部分均由多個卷積層組成,而4個部分之間均由過渡層連接。DenseNet增強特征增值,激勵特征再利用,同時降低了梯度消失的問題,這有利于將該網(wǎng)絡(luò)向更小的數(shù)據(jù)集中推廣應(yīng)用。DenseNet的最終結(jié)果將輸入長短期記憶網(wǎng)絡(luò)(long short-term memory network,LSTM),由模塊對特定的X線圖像所代表的結(jié)果進(jìn)行生成對應(yīng)的描述。采用的注意機制為柔性的,即將圖像不同部分的線性組合作為網(wǎng)絡(luò)的注意區(qū)域。源于DenseNet的輸出結(jié)果,模塊在計算過程中會生成一套注意權(quán)重,將注意權(quán)重與對應(yīng)向量相乘,可獲得一個可以對圖像進(jìn)行解釋的附有權(quán)重信息的數(shù)據(jù)表示,而這些權(quán)重又將再次進(jìn)入下一次的循環(huán)來對下一條詞句進(jìn)行預(yù)測。開頭和結(jié)尾分別以兩種特殊的標(biāo)記來進(jìn)行標(biāo)記,以<unknown>來對頻率小于3的詞語進(jìn)行標(biāo)記。
1.2.2 訓(xùn)練步驟 本次試驗的預(yù)訓(xùn)練數(shù)據(jù)集采用了ChestX-ray8數(shù)據(jù)集,ChestX-ray8數(shù)據(jù)集包含了14種疾病的標(biāo)記和共計11萬張X線圖像,將原始X線圖調(diào)整為了256×256的大小來對報告生成模塊進(jìn)行訓(xùn)練,LSTM的植入值設(shè)置為256,其隱藏單元設(shè)置參數(shù)為512,并采用了Adam優(yōu)化器進(jìn)行全局優(yōu)化,亦通過設(shè)置相關(guān)標(biāo)準(zhǔn)來對原始報告和程序生成的報告進(jìn)行了質(zhì)控比較,方案為:首選在本院影像科挑選2名具有豐富閱片經(jīng)驗的醫(yī)生來對最終形成報告進(jìn)行質(zhì)量評估,報告選擇為隨機于原始數(shù)據(jù)集中隨機選取100份由本院影像科醫(yī)生給出報告(專家組)和由訓(xùn)練完成的系統(tǒng)給出報告(模型組)100份。其中2名具有豐富閱片經(jīng)驗的醫(yī)生與專家組醫(yī)生互為不同的人。
參考Iacobas等[4]的方法,采用CIDEr對圖像進(jìn)行評價,并由評價結(jié)果對系統(tǒng)所出報告和醫(yī)師人工給出報告的一致性進(jìn)行評價。
本次圖像報告均采用5級評分制,既1~5分,得分越高代表報告越能準(zhǔn)確描述實際病情。具體評分依據(jù)為:1分報告對主要異常情況描述丟失或不準(zhǔn)確;2分報告含有但未能準(zhǔn)確的描述主要異常情況;3分報告能準(zhǔn)確描述主要異常情況,但對動脈鈣化、心影變化、胸腔外科術(shù)后、纖維條索影和陳舊性病變等胸內(nèi)次要異常描述丟失;4分報告能準(zhǔn)確描述主要異常情況,但對體外異物或脊柱側(cè)凸等胸外次要異常的描述丟失;5分報告能準(zhǔn)確描述所有異常情況。根據(jù)報告評分進(jìn)行診斷價值分析。
應(yīng)用SPSS 19.0軟件處理數(shù)據(jù)。計量資料用(±s)表示,兩組間比較用t檢驗;計數(shù)資料以率(%)表示,組間比較用χ2檢驗。P<0.05為差異有統(tǒng)計學(xué)意義。采用受試者工作曲線(ROC)根據(jù)報告評分進(jìn)行診斷效能分析。
本次評分結(jié)果中,5分報告模型組有79份,專家組有83份,組間比較差異無統(tǒng)計學(xué)意義(P>0.05);4分報告模型組有10份,專家組有6份,組間比較差異無統(tǒng)計學(xué)意義(P>0.05);3分報告模型組有6份,專家組有5份,組間比較差異無統(tǒng)計學(xué)意義(P>0.05);2分報告模型組有0份,專家組有3份,組間比較差異無統(tǒng)計學(xué)意義(P>0.05);1分報告模型組有5份,專家組有3份,組間比較差異無統(tǒng)計學(xué)意義(P>0.05),兩組生成報告評分平均分值比較差異無統(tǒng)計學(xué)意義(P>0.05),見表1。
表1 兩組生成報告評分結(jié)果對比
專家組報告的靈敏度和特異度分別為90.57%和89.36%,AUC 值為 0.889,95%CI(0.810 ~ 0.943),模型組報告的靈敏度和特異度分別為88.68%和87.23%,AUC值為0.852,95%CI(0.767 ~ 0.915)。見表2 和圖1。
表2 專家組和模型組診斷價值比較
圖1 專家組和模型組ROC曲線
醫(yī)療數(shù)據(jù)中有90%來自于醫(yī)學(xué)影像,眼底鏡圖像、病理圖像、CT圖像、X線圖像等圖像作為輔助檢查的重要手段,已在臨床疾病的診斷中得到了廣泛的應(yīng)用,為臨床醫(yī)師的診斷提供了重要的信息參考[5-6]。隨著影像成像設(shè)備和技術(shù)的長足發(fā)展,更小的異常、解剖結(jié)構(gòu)的可視化和獲取更高分辨率圖像逐漸成為可能,然而增加每位受試者的平均圖像數(shù)量是獲取更高分辨率圖像的重要前提,這預(yù)示著未來影像科將面臨更復(fù)雜和更龐大的圖像解讀工作,而現(xiàn)階段臨床影像數(shù)據(jù)的處理仍主要依靠影像科醫(yī)生進(jìn)行,而圖像的日趨復(fù)雜、病變細(xì)微和疲勞勢必會影響影像科醫(yī)師的工作效率,加之需處理的影像數(shù)據(jù)日趨遞增而醫(yī)生增長速度不足恐將難以應(yīng)對臨床實際需求[7-9]。人工智能(artificial intelligence)是一門涵蓋數(shù)學(xué)和計算機科學(xué)的綜合科學(xué),其目的是為了擴展、延伸和模擬人的智能技術(shù)、方法、理論和應(yīng)用系統(tǒng),操作自動化,可有效減少人力成本,并提高效率。而近來隨著AI和醫(yī)學(xué)交叉學(xué)科的發(fā)展基于AI的智能醫(yī)生助理在各種影像任務(wù)的治療反應(yīng)中和風(fēng)險評估、檢測、診斷中的價值逐漸受到臨床醫(yī)生的關(guān)注[10-11]。
人工智能的算法種類眾多,主要包括抗生成網(wǎng)絡(luò)[12]、隨機森林[13]、支持向量機[14]和人工神經(jīng)網(wǎng)絡(luò)[15]等。本次模型的開發(fā)采用了結(jié)合注意力機制和結(jié)合注意力機制的遞歸神經(jīng)網(wǎng)絡(luò),該模型可依據(jù)患者臨床胸部X線報告自動生成診斷報告,以作為輔助診斷依據(jù)為臨床醫(yī)生的臨床診斷判別提供參考。在模型訓(xùn)練過程中,模型輸出報告在5分區(qū)間內(nèi)的占比達(dá)到79.00%,這與本院經(jīng)驗豐富的影像科醫(yī)生83.00%的水平基本一致,且在實踐過程中發(fā)現(xiàn)本次系統(tǒng)尚具備優(yōu)化空間,屆時可更好地為臨床醫(yī)生的診斷提供信息支持。Schena等[16]開發(fā)的人工智能工具確定了因IgAN易患ESKD的個體,并預(yù)測了事件發(fā)生時間的終點。Sa等[17]回顧了人工智能在放射學(xué)的應(yīng)用現(xiàn)狀,發(fā)現(xiàn)深度學(xué)習(xí)人工智能技術(shù)可為影像科的發(fā)展帶來巨大幫助。而模型組AUC為0.852,特異度達(dá)到87.23%,這與上述研究結(jié)果基本類似,表明模型組可為臨床醫(yī)師的診斷提供富有價值的影像學(xué)報告??紤]原因可能為模型具有下述優(yōu)勢:(1)隨著影像學(xué)的發(fā)展,更高清晰度的影像檢查結(jié)果勢必會增加閱片工作量,而更加復(fù)雜的影像結(jié)果呈現(xiàn),亦對會影像學(xué)醫(yī)師的判斷增加諸多干擾,而模型當(dāng)輸入足夠的訓(xùn)練數(shù)據(jù)集后,模型可獲取較高的特異度和靈敏度,這有利于為影像科醫(yī)師提供更佳的信息參考,以便降低因個人經(jīng)驗或情緒、疲勞等客觀因素帶來的誤差,從而有效提升報告的可信性和科學(xué)性,亦為臨床醫(yī)生的判斷和治療方案的制定提供了更佳的信息參考;(2)基層醫(yī)院由于醫(yī)生的技術(shù)水平有限,而大醫(yī)院重復(fù)勞動強度大、診療中信息負(fù)載高是現(xiàn)階段我國醫(yī)療資源分布極度不平衡的現(xiàn)實問題,而模型可自動生成與人類專家水平相似的圖像報告,從而可以為基礎(chǔ)醫(yī)院醫(yī)生提供更佳的信息支持和同時減輕大醫(yī)院影像科醫(yī)生的重復(fù)勞動;(3)模型具有較優(yōu)質(zhì)的擴展性,模型可通過對院內(nèi)每日生產(chǎn)的影像學(xué)報告進(jìn)行學(xué)習(xí),從而進(jìn)一步提升模型診斷的靈敏度和特異性。
綜上所述,通過開發(fā)智能醫(yī)生助理可有效減輕影像科醫(yī)生工作量,可提供接近于人類專家水平的影像報告,從而為臨床醫(yī)師的臨床鑒別診斷和后續(xù)的方案制定提供更加科學(xué)、系統(tǒng)的信息支持,值得臨床推廣應(yīng)用。但由于數(shù)據(jù)樣本量的限制未能饋入更大樣本的數(shù)據(jù)集以訓(xùn)練模型,故在今后的工作中仍需繼續(xù)對模型進(jìn)行進(jìn)一步擴展和完善。