石鎮(zhèn)維,劉再毅
廣東省醫(yī)學科學院 廣東省人民醫(yī)院放射科, 廣州 510080
近年來,隨著醫(yī)療條件的不斷改善以及醫(yī)院信息化程度的不斷提高,醫(yī)學影像數(shù)據(jù)呈現(xiàn)暴發(fā)式增長。據(jù)《2018年醫(yī)療人工智能技術(shù)與應(yīng)用白皮書》[1]統(tǒng)計,目前我國醫(yī)療數(shù)據(jù)的年增長率約為30%。 互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center,IDC)的統(tǒng)計數(shù)據(jù)顯示,2020年全球醫(yī)療數(shù)據(jù)量已達到2010年的40倍,其中醫(yī)學影像數(shù)據(jù)(包括X線、超聲、CT、MRI、PET、病理圖像等)約占80%[2- 3]。目前,醫(yī)療影像數(shù)據(jù)具有大規(guī)模(volume)、高增速(velocity)、多種類(variety)、高價值(value)和真實準確(veracity)五大特點,符合當代大數(shù)據(jù)5V特征,因此促進了醫(yī)學影像人工智能(artificial intelligence,AI)的發(fā)展[4]。醫(yī)學影像大數(shù)據(jù)在為醫(yī)學影像AI帶來良好發(fā)展前景和機遇的同時,亦面臨著數(shù)據(jù)方面的巨大挑戰(zhàn)。
隨著全球?qū)W者在醫(yī)學影像AI領(lǐng)域的積累,醫(yī)學圖像智能分析與處理算法愈發(fā)成熟,醫(yī)學影像因此也成為AI在醫(yī)療行業(yè)中最有潛力落地的領(lǐng)域。然而,在醫(yī)學影像AI科學研究中,數(shù)據(jù)是首要難題。首先,目前普遍缺乏高質(zhì)量的訓練數(shù)據(jù),雖然國際上有很多高質(zhì)量的公開數(shù)據(jù)庫,但數(shù)據(jù)量和多樣性依然十分有限,且存在患者人種差異;其次,缺乏行業(yè)統(tǒng)一標準,數(shù)據(jù)采集標準多樣,系統(tǒng)誤差較大,缺乏對醫(yī)學圖像和疾病征象的統(tǒng)一認識;最后,整個行業(yè)缺乏對醫(yī)療數(shù)據(jù)使用標準的判斷依據(jù)和監(jiān)管,且由于存在法律和倫理問題,很大一部分醫(yī)學影像數(shù)據(jù)未能發(fā)揮最大價值,導致醫(yī)學影像AI發(fā)展受阻。
目前醫(yī)學影像AI在數(shù)據(jù)方面的困難阻礙了科研人員對數(shù)據(jù)的有效使用,包括:無法獲取醫(yī)學影像數(shù)據(jù)集信息;缺乏對醫(yī)學影像數(shù)據(jù)準確的描述信息(如本體[5]);無法獲知數(shù)據(jù)的真實含義而導致錯誤使用;無法獲知使用者的基本權(quán)利和義務(wù)等。為克服上述困難,需要政策與科學理論相結(jié)合,以推動醫(yī)學影像AI標準化數(shù)據(jù)庫的建立。2016年《二十國集團領(lǐng)導人杭州峰會公報》第12條指出:“我們支持采取適當措施促進開放科學,推動在可找尋、可訪問、可交互、可再用的原則下,提高獲取公共財政資助的研究成果的便利性?!?018年我國頒布了《科學數(shù)據(jù)管理辦法》,目的在于進一步加強和規(guī)范科學數(shù)據(jù)管理,保障科學數(shù)據(jù)安全,提高開放共享水平,更好地支撐國家科技創(chuàng)新、經(jīng)濟社會發(fā)展和國家安全。但目前,由于相關(guān)責任與權(quán)利不清晰,導致科研人員(包括醫(yī)務(wù)人員)參與科學數(shù)據(jù)使用與管理工作的動力不足;而因?qū)τ跀?shù)據(jù)隱私安全及其危害缺乏清晰、明確的定義,導致數(shù)據(jù)公開以及共享困難;此外,醫(yī)學影像數(shù)據(jù)具有獨特的性質(zhì),例如復雜多樣、隱私敏感、長尾突發(fā)、類型復雜和分散度高等[6],因此,亟需建立符合醫(yī)學影像數(shù)據(jù)特點的使用和管理標準與規(guī)范,并在此基礎(chǔ)上建立醫(yī)學影像AI標準化數(shù)據(jù)庫,以實現(xiàn)基于標準化醫(yī)學影像數(shù)據(jù)促進醫(yī)療AI的發(fā)展。
在醫(yī)學領(lǐng)域,The Cancer Imaging Archive (TCIA)[7]和The Cancer Genome Atlas (TCGA)[8]是兩個被廣泛使用的公開數(shù)據(jù)庫。前者包含常見腫瘤的醫(yī)學影像數(shù)據(jù)與相應(yīng)的臨床信息;后者則包含腫瘤的病理圖像數(shù)據(jù)與基因信息。TCIA與TCGA對數(shù)據(jù)審查十分嚴格,具有數(shù)據(jù)質(zhì)量高、對疾病描述準確、數(shù)據(jù)來源清晰、使用條件規(guī)范等特點,為全球醫(yī)學影像AI的發(fā)展作出了巨大貢獻。使用公開數(shù)據(jù)集進行醫(yī)學影像AI模型的訓練與驗證已經(jīng)成為一種發(fā)展趨勢。
除此之外,TCIA為部分影像數(shù)據(jù)提供了符合FAIR[findable(可查詢),accessible(可訪問), interoperable(可交互),reusable(可再用)]數(shù)據(jù)管理準則的DICOM-SEGMENTATION文件,實現(xiàn)對影像標注數(shù)據(jù)的FAIR化與結(jié)構(gòu)化,進而提升了醫(yī)學影像數(shù)據(jù)與AI技術(shù)之間的交互性,更有益于AI模型之間的比較與泛化。2016年國際組織FORCE11正式提出了FAIR數(shù)據(jù)科學管理準則,目的在于對數(shù)據(jù)進行科學管理。FAIR數(shù)據(jù)準則詳細描述了如何通過科學的方法進行數(shù)據(jù)管理[9- 11]。首先,提升數(shù)據(jù)的交互性有助于打破數(shù)據(jù)與AI算法之間的交互壁壘,對于機器學習至關(guān)重要;其次,F(xiàn)AIR數(shù)據(jù)準則著重強調(diào)數(shù)據(jù)結(jié)構(gòu)化,進而提升數(shù)據(jù)的可再用性。該準則被提出以來,受到科學數(shù)據(jù)管理領(lǐng)域的廣泛認可。在構(gòu)建醫(yī)學影像標準化數(shù)據(jù)庫方面,F(xiàn)AIR數(shù)據(jù)準則通過對醫(yī)學影像數(shù)據(jù)的采集、處理、使用以及管理等方面進行標準化描述,可為醫(yī)學影像AI科研提供標準化數(shù)據(jù)保障。因此,F(xiàn)AIR數(shù)據(jù)準則為長久以來醫(yī)學影像領(lǐng)域標準化提供了新的機遇。
過去10年,我國臨床所產(chǎn)生的醫(yī)學影像數(shù)據(jù)呈現(xiàn)暴發(fā)式增長,但真正規(guī)范且可被用于臨床科學研究的醫(yī)學影像數(shù)據(jù)卻極度匱乏,導致很大一部分科學研究仍然依賴于國際醫(yī)學影像數(shù)據(jù)庫,尤其是一些公開數(shù)據(jù)庫。因此,構(gòu)建符合我國國情、法律/法規(guī)以及科研人員使用習慣的標準化醫(yī)學影像數(shù)據(jù)庫勢在必行。通過建立標準化醫(yī)學影像AI數(shù)據(jù)庫,可提升醫(yī)學影像數(shù)據(jù)質(zhì)量、實現(xiàn)科學數(shù)據(jù)價值的最大化、促進醫(yī)學影像AI的發(fā)展。FAIR數(shù)據(jù)準則所倡導的科學使用和管理原則恰好符合上述目標。若基于該準則構(gòu)建我國醫(yī)學影像AI標準化數(shù)據(jù)庫:首先,需要建立完備的醫(yī)學影像數(shù)據(jù)行業(yè)標準,并為科研人員提供便捷的標準醫(yī)學影像數(shù)據(jù)信息平臺和服務(wù);其次,需要清晰描述醫(yī)學影像數(shù)據(jù)產(chǎn)生、處理、使用、管理以及發(fā)布等各個環(huán)節(jié),明確各方的權(quán)利、責任以及義務(wù);再次,需要科研人員和醫(yī)務(wù)人員在數(shù)據(jù)采集、數(shù)據(jù)庫構(gòu)建及醫(yī)學影像數(shù)據(jù)術(shù)語描述等方面達成共識(可參照國際標準構(gòu)建符合中國國情的醫(yī)學本體語義庫);最后,計算、存儲等硬件設(shè)備與軟件對構(gòu)建醫(yī)學影像AI數(shù)據(jù)庫同樣重要,亟需開發(fā)相應(yīng)的計算機軟件以實現(xiàn)醫(yī)學影像數(shù)據(jù)的實時轉(zhuǎn)化及存儲,并最終實現(xiàn)醫(yī)學影像AI標準化數(shù)據(jù)庫的建設(shè),促進醫(yī)療AI的發(fā)展。
作者貢獻:石鎮(zhèn)維負責查閱文獻、撰寫初稿及文章修訂;劉再毅提出修改意見并審校文章。
利益沖突:無