中國食品藥品檢定研究院 醫(yī)療器械檢定所,北京 102629
近年來,人工智能算法在圖像處理方面的研究進展迅速[1-3],推動醫(yī)學影像分析的飛速發(fā)展,在醫(yī)學影像的輔助探測、輔助診斷、輔助分診等方面的應用也不斷取得突破。在胸部CT方面,人工智能算法主要的預期用途包括肺結(jié)節(jié)的檢出/分類/測量等[4-5],有助于為肺癌的早期篩查與診斷提供線索。我國肺癌的發(fā)病率高,防治壓力大,對肺癌的早期篩查、早期診斷需要投入大量人力、財力和時間。人工智能算法有望大幅節(jié)省公共衛(wèi)生投入,同時降低患者輻射風險,具有重要的現(xiàn)實意義和應用價值。
然而,我國幅員遼闊、地區(qū)差異和醫(yī)療水平差異顯著,需要避免人工智能算法在不同地區(qū)、不同醫(yī)院出現(xiàn)重大性能波動或“水土不服”的風險[6]。這需要對算法的魯棒性進行考量,對造成算法性能波動的各種因素進行觀測和分析,進而在研發(fā)階段解決算法過擬合等問題,提升產(chǎn)品質(zhì)量。
成像過程中的劑量是影響人工智能算法性能的重要潛在因素之一。一般來說,輻射劑量與CT圖像質(zhì)量和患者的輻射風險都有緊密聯(lián)系,而臨床對于輻射劑量沒有統(tǒng)一要求。近幾年來,我國大力推進肺癌高危人群進行胸部低劑量 CT(Low-Dose Computed Tomography,LDCT) 篩 查[7],與常規(guī)CT檢查相比,LDCT的管電流僅為20~50 mAs,能夠使患者所受的X射線照射劑量下降80%或更多,大大減少X射線對人體可能造成的損傷[8-9]。從人工閱片的角度來看,國內(nèi)多個研究團隊已經(jīng)開展了LDCT診斷肺結(jié)節(jié)的研究[10-11],證明LDCT具備準確檢出肺結(jié)節(jié)的可行性,也有國外研究表明[12],當肺結(jié)節(jié)直徑>5 mm時,LDCT對其檢出率與常規(guī)劑量CT之間的差異無統(tǒng)計學意義。從人工智能算法閱片的角度,成像劑量對于算法性能的影響尚不明確,有待研究。本文結(jié)合試驗測量和仿真模擬,對此問題進行探討。
目前,對于人工智能算法的性能評價多采用“黑盒”測試的方式,即向人工智能算法的輸入端輸入已知結(jié)果的數(shù)據(jù),觀察輸出端給出的結(jié)果情況。研究輻射劑量對算法性能的影響,一種思路是招募同一批患者接受多次不同劑量的CT檢查,得到一系列CT影像作為算法的輸入,對比輸出結(jié)果,但會對患者造成較大的輻射傷害。另一種思路是隨機選取常規(guī)劑量和低劑量條件下的不同病例進行對照,但不同病例之間的肺結(jié)節(jié)數(shù)量、分布、類型都不盡相同,代表的人群和患病率難以一致。
基于以上考慮,本次試驗的技術路線是在同一批常規(guī)劑量的臨床CT影像上疊加噪聲,模擬對應的低劑量CT影像,從而比對人工智能算法的處理結(jié)果,設計思路,見圖1。
圖1 試驗思路
模擬低劑量CT影像首先需要獲取先驗的圖像噪聲水平,因此本試驗的第一步是通過體模試驗采集噪聲數(shù)據(jù)。
峰值信噪比(Peak Signal-To-Noise Ratio,PSNR)常用于評價圖像的重建質(zhì)量,是衡量圖像噪聲水平的客觀標準[13],圖像間的PSNR值越大,二者越相似。開展體模試驗的目的正是要通過使用不同劑量對體模進行成像,計算系列影像間的PSNR值,為模擬仿真提供依據(jù)。在管電壓為120 kV的設置下,使用64排CT對模擬人體軀干的組織等效固體水模(密度1.03 g/cm3)進行了不同管電流曝光條件(均采用肺算法)的拍攝,以230 mA管電流曝光圖像作為參考,其他管電流曝光圖像的PSNR值,見圖2。
圖2 不同管電流下水模影像的PSNR
選取113例管電流在200~300 mA間的常規(guī)劑量胸部CT影像作為原始影像,通過研究Chang等[14]和Li等[15]提出的DICOM圖像處理方法,向原始影像中添加不同幅度的高斯白噪聲,生成5組模擬影像,每組依然113例CT影像,分別計算各組的平均PSNR值(參比原始影像),結(jié)合體模試驗的結(jié)果,確定模擬的管電流范圍。將模擬影像輸入肺結(jié)節(jié)輔助檢測人工智能算法進行計算,觀察召回率和精確度的變化。
召回率和精確度是評價肺結(jié)節(jié)輔助檢測人工智能算法性能方面較為重要的兩個指標,可以很好的反應人工智能算法在臨床使用場景下性能的好壞。根據(jù)算法輸出結(jié)節(jié)預測結(jié)果的方式,做如下定義:某一層預測中心點處于金標準結(jié)節(jié)內(nèi)視為檢出[16]。金標準中未被配對的結(jié)節(jié),判為漏診;預測結(jié)果中未被配對的結(jié)節(jié),判為假陽。檢出即算法檢出的真肺結(jié)節(jié),總數(shù)記為TP;假陽即算法檢出的“假”肺結(jié)節(jié),總數(shù)記為FP;漏診即算法漏診的真肺結(jié)節(jié),總數(shù)記為FN。召回率和精確度的計算公式見公式(1)~(2):
5組模擬影像的平均PSNR如圖3所示,通過對比圖2可知,本次模擬仿真生成影像的管電流范圍至少包括10~150 mA,噪聲水平是科學合理的。
圖3 5組模擬影像的平均PSNR
選取1例CT影像的同一層進行人工觀察,圖像質(zhì)量的變化如圖4所示。
圖4 5組模擬影像與原始影像的對比
與原始影像的測試結(jié)果相比,測試模擬影像的召回率、精確度變化情況如圖5所示。
對于PSNR越小的影像,人工智能算法性能的波動越大,進行歸一化計算后,召回率相對下降的最大幅度是73.2%,精確度相對下降的最大幅度是70.2%,如此大的性能波動在臨床使用過程中無疑會存在較大的潛在風險。說明成像劑量在影響圖像質(zhì)量的同時,能顯著影響人工智能算法的性能,建議在研發(fā)階段提高算法的泛化能力。通過分析輸出結(jié)果中的像素坐標,我們可以進一步看到某一病例的具體結(jié)果,示例見圖6,圖6中左側(cè)實線圓圈標出的是原始影像中人工智能算法檢出的肺結(jié)節(jié),右側(cè)模擬影像中,同一結(jié)節(jié)依然可見(虛線圓圈標出),但并沒有被檢出,這也印證了算法總體性能指標的下降。
圖5 召回率、精確度的變化
圖6 原始影像和模擬影像中結(jié)節(jié)檢出的變化
本次試驗通過數(shù)學物理方法,模擬生成了不同成像劑量下的肺部CT影像,使用這些模擬影像測試了人工智能算法的性能,總的來看,低劑量CT影像在圖像質(zhì)量方面有所下降,算法性能也出現(xiàn)了大幅下降,出現(xiàn)多個結(jié)節(jié)未被檢出情況。未來人工智能算法的應用場景可能很大一部分是沒有足夠醫(yī)師資源的基層醫(yī)療機構以及體檢機構,相信隨著LDCT的推廣,這些基層醫(yī)療機構也將會是肺癌篩查的主要場所。建議各制造商在開發(fā)階段能夠提高低劑量CT影像在訓練集中的比例,從而加強算法對于低劑量CT影像的表現(xiàn),提高效率的同時更加保證有效性。同時,本次試驗使用數(shù)學物理方法對現(xiàn)有數(shù)據(jù)集進行科學、合理的變換,生成符合臨床真實情況的模擬數(shù)據(jù),也是對客觀評價人工智能算法性能的一次有益探索,為臨床前質(zhì)量評價提供了新思路。