宋飛飛 徐建 屠晨坤 李萌萌
摘 要 隨著“大數(shù)據(jù)”的快速增長,包括醫(yī)學(xué)圖像在內(nèi)的各個領(lǐng)域開啟了人工智能(AI)的新時代。本文從醫(yī)學(xué)圖像的特點出發(fā),探討了影響人工智能在醫(yī)學(xué)圖像發(fā)展的因素,主要包括源數(shù)據(jù)的可靠性、圖像注釋準確性、患者共享數(shù)據(jù)的有效性等,根據(jù)這些因素總結(jié)了解決方法,使得人工智能可以自動對復(fù)雜的醫(yī)學(xué)圖像進行定量評估,從而提高診斷準確率,增加患者的生存期。
關(guān)鍵詞 人工智能;機器學(xué)習(xí);數(shù)據(jù)共享;圖像注釋
人工智能(AI)關(guān)注的是一種方法的發(fā)展,當(dāng)人類表現(xiàn)出同樣的行為時,它能使計算機以智能的方式運行,人工智能是這一研究領(lǐng)域的通用術(shù)語。人工智能更準確的定義是機器學(xué)習(xí),機器學(xué)習(xí)是算法根據(jù)反饋回來的數(shù)據(jù)不斷學(xué)習(xí)以修正參數(shù)。
近幾年,人工智能技術(shù)在分析非醫(yī)學(xué)圖像方面取得成功,使得深度學(xué)習(xí)方法在臨床圖像和其他醫(yī)學(xué)數(shù)據(jù)分析中得到了快速的發(fā)展,計算機視覺系統(tǒng)可以在專家醫(yī)師的水平上執(zhí)行一些臨床圖像解釋任務(wù)。雖然,一些專家聲稱,人工智能不太可能取代人類放射學(xué)專家。然而,從長遠來看,基于人工智能的計算機工具,在某些特定的或重復(fù)性的任務(wù)上,部分取代人類的醫(yī)療專業(yè)知識,例如放射治療中的計算目標、在圖像中檢測疾病指標或測量縱向疾病等工作[1]。
1機器學(xué)習(xí)
人工智能在醫(yī)學(xué)成像領(lǐng)域研究的目的是創(chuàng)造工具來提高患者的治愈率。人工智能工具通常采用成像決策支持系統(tǒng),為專業(yè)人員提供可操作的建議。人工智能在醫(yī)學(xué)成像研究中有很多機會,從圖像采集設(shè)備到人工智能的應(yīng)用,有以下建議:
(1)新的圖像重建和增強方法。從成像設(shè)備產(chǎn)生的源數(shù)據(jù)到生成可解釋的圖像,可以在使用更小劑量的靜脈造影劑、更低的輻射劑量、更短的掃描和重建時間來生成高質(zhì)量的圖像。
(2)使用自動標記和注釋方法。為了快速生成機器學(xué)習(xí)研究的訓(xùn)練數(shù)據(jù),使用自動標記和注釋方法,這些標記方法通常使用機器學(xué)習(xí)算法來處理圖像報告或電子病歷中的信息。
(3)開發(fā)新的機器學(xué)習(xí)方法。由于大多數(shù)的深度學(xué)習(xí)算法都是針對自然圖像的照片和視頻進行的,因此,需要針對臨床成像數(shù)據(jù)的復(fù)雜性開發(fā)新的機器學(xué)習(xí)算法,這些算法通常是高分辨率、3D、4D、多模態(tài)和多通道的。
(4)聚合臨床成像數(shù)據(jù)。由于臨床數(shù)據(jù)涉及患者的隱私,因此需要使用方法來促進臨床成像數(shù)據(jù)的聚合,以便訓(xùn)練機器學(xué)習(xí)算法。
1.1 數(shù)據(jù)需求
影響醫(yī)學(xué)成像中機器學(xué)習(xí)的一個重要因素是缺少用于訓(xùn)練機器學(xué)習(xí)算法的標準和可訪問的成像數(shù)據(jù)。AI的開發(fā)需要高質(zhì)量、有標記和可公開的數(shù)據(jù)。雖然全世界的醫(yī)療保健組織控制著可用于訓(xùn)練機器學(xué)習(xí)算法的大量數(shù)據(jù),但大多數(shù)成像數(shù)據(jù)無法用于研究??稍L問的成像數(shù)據(jù)通常是不可用的,因為它們沒有經(jīng)過適當(dāng)?shù)淖⑨專遗c基本診斷關(guān)聯(lián)較少,研究人員無有效的圖像數(shù)據(jù)集可供使用。為了解決這些問題,需要更有效的方法來收集數(shù)據(jù)以識別和進行圖像管理,以便使用可查找、可訪問、可互操作和可重用的科學(xué)數(shù)據(jù)管理和管理原則[2]。
少數(shù)成像數(shù)據(jù)集已在多個成像領(lǐng)域公開。例如,有幾個數(shù)據(jù)集可以用于神經(jīng)影像學(xué)研究。然而,這些公共數(shù)據(jù)集太小,無法支持具有臨床意義的機器學(xué)習(xí)實驗,且這些數(shù)據(jù)主要由健康個體或精神病患者的功能性MRI數(shù)據(jù)組成??捎玫倪@些數(shù)據(jù)和資料往往來自一個機構(gòu),并不反映現(xiàn)實環(huán)境中遇到的各種成像設(shè)備和臨床情境。研究人員在尋找和獲取有效的醫(yī)學(xué)成像數(shù)據(jù)集方面面臨很大的困難。
1.2 評定數(shù)據(jù)質(zhì)量
復(fù)雜的成像設(shè)備(如CT、MRI、PET/SPECT、US和光學(xué)掃描儀)生成的臨床圖像是由傳感器測量的“原始”或源數(shù)據(jù)重建的。測量的數(shù)據(jù)是間接的,與細胞和分子的數(shù)據(jù)存在一定誤差,這些測量數(shù)據(jù)與基礎(chǔ)結(jié)構(gòu)之間的關(guān)系通常是非線性和復(fù)雜的,將傳感器測量的數(shù)據(jù)有效的轉(zhuǎn)換為便于臨床醫(yī)生使用的重建層析圖像是一個新興的廣泛研究領(lǐng)域。深度學(xué)習(xí)方法可以非常有效地直接從源數(shù)據(jù)重建圖像[3],例如,傳感器測量的數(shù)據(jù)可以更好地實現(xiàn)MRI重建,使用部分劑量對應(yīng)物的全對比劑劑量來預(yù)測圖像增強,或低輻射劑量掃描得到的高質(zhì)量圖像。
2以病人為媒介的數(shù)據(jù)共享的方法和標準
在過去的十年中,我們已經(jīng)克服了許多挑戰(zhàn),即基于云的臨床圖像共享和不同設(shè)施的護理團隊之間的報告。但是,研究機構(gòu)之間共享記錄的后勤、運營和監(jiān)管方面需要大量資源。以研究計劃匯總數(shù)據(jù)的嘗試仍然有限,且無法滿足人工智能研究的需求:從異構(gòu)來源獲取的大型數(shù)據(jù)集,具有不同的患者的代表性,雖然國家迫切需要鼓勵共享研究數(shù)據(jù),但在組合來自多個來源的數(shù)據(jù)集時,數(shù)據(jù)訪問和可用性仍存在挑戰(zhàn)。
以患者為媒介的數(shù)據(jù)共享可能改變共享制度,可大幅增加機器學(xué)習(xí)可用數(shù)據(jù)的數(shù)量、類型和種類。病人更多地參與到護理中來,積極參與到先進的醫(yī)學(xué)研究中以推進醫(yī)學(xué)研究。RSNA圖像共享網(wǎng)絡(luò)展示了患者共享他們的成像檢查所有權(quán),并根據(jù)需要交換它們。首先使用由醫(yī)療保健企業(yè)開發(fā)的基于簡單對象訪問協(xié)議的標準,然后進行更新,以整合快速醫(yī)療保健互操作性資源[4]。
3圖像標注和注釋
大多數(shù)醫(yī)療保健組織維護圖像存檔和通信系統(tǒng)(PACS),可以存儲數(shù)百萬臨床影像研究及其相關(guān)報告。但是存儲在PACS中的成像研究數(shù)據(jù)不適于大多數(shù)機器學(xué)習(xí)研究,因為它們不包含機器學(xué)習(xí)的注釋。因此,醫(yī)學(xué)影像中人工智能研究的第二個必要課題是開發(fā)臨床影像的快速標記和注釋方法,這種形式的標記對執(zhí)行分類任務(wù)的機器學(xué)習(xí)系統(tǒng)的開發(fā)有幫助,例如影像學(xué)研究是否顯示結(jié)核病或肺結(jié)節(jié)的存在。我們將“注釋”定義為提供關(guān)于圖像特定部分的信息,例如:某個像素是否是腫瘤的一部分。注釋是非常有用的訓(xùn)練,EMR可以為診斷圖像提供標簽。從EMR中提取標簽的方法通常被稱為“電子表型”,因為它們根據(jù)EMR的內(nèi)容來識別具有特定疾病、臨床狀況或結(jié)果的患者[5]。
對于圖像分割或檢測任務(wù),專家必須通過大量標記圖像和標注感興趣的結(jié)構(gòu)來創(chuàng)建訓(xùn)練和驗證數(shù)據(jù)。需要減少人類專家注釋負擔(dān)的新工具。例如,一些算法可以半自動跟蹤圖像上的結(jié)構(gòu),因此人工注釋器只需要修改機器生成的軌跡,而不需要從頭生成每個注釋[6]。可以用最少注釋的數(shù)據(jù)集以半監(jiān)督的方式訓(xùn)練深度學(xué)習(xí)方法,以獲得結(jié)構(gòu)的合理近似,從而迭代地減少人工跟蹤結(jié)構(gòu)的工作量。
4結(jié)論結(jié)束語
機器學(xué)習(xí)算法將在未來十年改變醫(yī)學(xué)成像實踐。大多數(shù)成像研究實驗室都在使用機器學(xué)習(xí)方法來解決計算機視覺問題,然而,機器學(xué)習(xí)研究仍處于早期階段。本文概述幾個關(guān)鍵的研究主題,并描述了加快醫(yī)學(xué)成像的機器學(xué)習(xí)研究進展的路線圖。這些臨床數(shù)據(jù)需要快速創(chuàng)建帶標簽或帶注釋,需開發(fā)針對臨床成像數(shù)據(jù)的新型預(yù)訓(xùn)練模型體系結(jié)構(gòu),以及減少機構(gòu)間數(shù)據(jù)交換成本,以患者服務(wù)為目標,患者肯定會受益于即將產(chǎn)生的創(chuàng)新像技術(shù)。
參考文獻
[1] Tibshirani R. Regression Shrinkage and Selection via the Lasso[J]. R Stat Soc Series B Stat Methodol,1996,58(1):267–288.
[2] Wilkinson MD,Dumontier M,Aalbersberg IJJ,et al. The FAIR guiding principles for scientific data management and stewardship[J]. Sci Data ,2016(3):160018.
[3] Wang G,Ye JC,Mueller K,et al. Image reconstruction is a new frontier of machine learning[J]. IEEE Trans Med Imaging ,2018,37(6):1289–1296.
[4] Mendelson DS,Erickson BJ,Choy G. Image sharing: evolving solutions in the age of interoperability[J]. Am Coll Radiol ,2014,11(12):1260–1269.
[5] Rasmussen LV,Thompson WK,Pacheco JA,et al. Design patterns for the development of electronic health record-driven phenotype extraction algorithms[J]. Biomed Inform ,2014(51):280–286.
[6] Hoogi A,Beaulieu CF,Cunha GM,et al. Adaptive local window for level set segmentation of CT and MRI liver lesions[J]. Med Image Anal ,2017(37):46–55.
[7] Weston AD,Korfiatis P,Kline TL,et al. Automated Abdominal Segmentation of CT Scans for Body Composition Analysis Using Deep Learning[J].Radiology ,2019,290(3):669–679.
作者簡介
宋飛飛(1986-),女;畢業(yè)院校:南京航空航天大學(xué),職稱:講師,現(xiàn)就職單位:南京醫(yī)科大學(xué)康達學(xué)院,研究方向:醫(yī)學(xué)影像圖像處理。