胡德斌,張新明,孫浩,韓彥江,齊宏亮,唐大洋,路利軍,吳湖炳,陳宏文
臨床上正電子發(fā)射斷層成像(positron emission tomography,PET)定量方法通常采用標(biāo)準(zhǔn)攝取值(standard uptake value,SUV)[1]。但SUV是一種半定量方法,當(dāng)示蹤劑在炎癥病灶聚集時會導(dǎo)致假陽性,而在某些惡性程度不高的腫瘤會呈現(xiàn)假陰性[2-3]。針對這些問題,可以采用動態(tài)PET成像模式,通過動力學(xué)模型的應(yīng)用,得到各組織器官的局部血流量、物質(zhì)轉(zhuǎn)運速率、代謝速度和受體結(jié)合率等參數(shù)圖像,從而有效降低診斷的假陽性和假陰性[4-5]。在動力學(xué)模型的計算中18F-FDG PET的參數(shù)成像方法通常采用Patlak方法,其優(yōu)點在于計算過程簡單,計算速度快[6]。然而,針對18F-FDG PET Patlak參數(shù)成像模式需要掃描至少60 min,這會導(dǎo)致患者不能堅持或在掃描過程中帶來較大的運動偽影,極大的限制了這項技術(shù)的應(yīng)用。
當(dāng)前,諸多方法相繼被提出以實現(xiàn)18F-FDG PET短時間的Patlak參數(shù)成像,但短時間參數(shù)成像會引入高噪聲和定量偏差的問題。為解決這些問題,其中一類方法是基于傳統(tǒng)去噪方法,比如非局部均值去噪(non-local mean,NLM)方法[7],Wu等[8]利用該方法通過對不同時間段生成的參數(shù)圖像進行去噪,發(fā)現(xiàn)使用20 min動態(tài)掃描的數(shù)據(jù)生成的參數(shù)圖像去噪后能滿足臨床診斷效果。另一類方法是基于目前的深度學(xué)習(xí)方法,Huang等[9]通過采集200個60 min臨床患者數(shù)據(jù),每個患者數(shù)據(jù)生成兩組數(shù)據(jù),一組10 min的PET SUV圖像,另一組60 min動態(tài)數(shù)據(jù)生成的Patlak參數(shù)圖像,隨后將PET SUV圖像作為輸入以及Patlak參數(shù)圖像作為標(biāo)簽,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)用于參數(shù)圖像的生成。由于該方法是有監(jiān)督的深度學(xué)習(xí)方法,需要首先獲取大量的60 min動態(tài)掃描數(shù)據(jù),對于大部分醫(yī)院數(shù)據(jù)獲取難度過高,限制在臨床上應(yīng)用。
目前無監(jiān)督的深度學(xué)習(xí)方法應(yīng)用越來越廣泛,無監(jiān)督方法最大的優(yōu)勢在于不需要大量的訓(xùn)練數(shù)據(jù),利用本身的數(shù)據(jù)特點就可以實現(xiàn)數(shù)據(jù)處理。其中,深度圖像先驗網(wǎng)絡(luò)(deep image prior,DIP)方法提出并應(yīng)用于自然圖像的去噪,能夠取得良好的去噪效果[10]。為解決短時間Patlak參數(shù)成像圖像噪聲大問題,本文首先將DIP方法應(yīng)用于Patlak參數(shù)圖像去噪,為提升DIP方法的效果,本研究將原始DIP方法的網(wǎng)絡(luò)輸入由隨機噪聲圖像改成PET活度圖像,同時將深度學(xué)習(xí)網(wǎng)絡(luò)采用編碼器-解碼器結(jié)構(gòu),使得處理后的短時間參數(shù)圖像保持優(yōu)異的定性和定量的效果,實現(xiàn)短時間參數(shù)成像,并與高斯去噪方法[11]和NLM方法進行比較。與此同時,本研究進一步比較不同短時間動態(tài)掃描協(xié)議下DIP方法去噪后參數(shù)圖像的定量變化。
1.圖像采集
仿真實驗圖像:本研究仿真1例Hoffman腦圖像,包括灰質(zhì)和白質(zhì),同時在腦圖像中人為添加一個直徑為10 mm的腫瘤。表1展示了用于仿真的動力學(xué)參數(shù),具體參數(shù)值均來自文獻[12]。圖2a是大小為256×256的仿真腦PET圖像,在仿真的動態(tài)掃描中掃描時間為60 min,然后在動態(tài)重建中總共分成92幀圖像,具體分幀為2s/幀有30幀、5s/幀有12幀、10s/幀有6幀、30s/幀有4幀、60s/幀有25幀、120s/幀有15幀。根據(jù)表1中已知的動力學(xué)參數(shù),我們采用Feng模型[13]可計算出不同組織的時間活度曲線(time activity curve,TAC),如圖1b所示。
圖1 仿真數(shù)據(jù)。a) 仿真Hoffman腦圖像; b) 計算得到的不同組織時間活度曲線。
圖2 動態(tài)掃描不同協(xié)議
表1 仿真的動力學(xué)參數(shù)設(shè)置
臨床實驗圖像:本研究18F-FDG示蹤劑用于臨床采集經(jīng)過審批(粵-ZHDY 2021001),臨床數(shù)據(jù)是利用上海聯(lián)影醫(yī)療生產(chǎn)的全身PET/CT uEXPLORER掃描的1例動態(tài)18F-FDG數(shù)據(jù)。患者注射6.43 mCi藥物,數(shù)據(jù)從注射藥物開始采集了60 min。動態(tài)重建中采用有序子集期望最大化方法(ordered subset expectation maximization,OSEM)重建,動態(tài)分幀分成92幀,具體分幀跟仿真數(shù)據(jù)一致。重建得到的PET圖像大小為192×192×673,體素大小為3.125 mm×3.125 mm×2.89 mm。
2.實驗方法
Patlak參數(shù)成像方法:Patlak方法是一種線性動力學(xué)參數(shù)估計方法,主要針對不可逆轉(zhuǎn)的核素代謝,其表達式為:
(1)
式中,CT表示的是目標(biāo)區(qū)域的活度值,CP表示動脈輸入函數(shù),是動脈血中示蹤劑濃度,VE表示的是分布容積,tn表示幀動態(tài)PET活度圖像幀測量的時間點,t*表示藥物在體內(nèi)分布達到動態(tài)平衡的時間點,Ki是組織攝取率常數(shù),流動達到平衡后組織與血漿中藥物濃度的比值,可用來作為定量評估指標(biāo),本文就是針對Ki參數(shù)圖像進行處理。
一般來說,進行Patlak參數(shù)成像時需要掃描60 min PET動態(tài)數(shù)據(jù)(如圖2所示Protocol 1),為了實現(xiàn)短時間參數(shù)成像,需要縮短動態(tài)掃描時間,目前有兩種協(xié)議,如圖2所示Protocol 2和3:①注射示蹤劑先掃描一段時間T2,患者休息一段時間后再繼續(xù)掃描另一段時間T3;②注射示蹤劑一定時間后掃描一段時間T4。
考慮到公式(1)中的動脈輸入函數(shù)需要從開始注射示蹤劑到掃描時間段完整的信息,采用Protocol 1掃描時可完整的從降主動脈提取輸入函數(shù),Protocol 2和Protocol 3則需要利用模板輸入函數(shù)[14]使用擬合方法[15]補齊缺失信息。Protocol 2相比Protocol 3多掃描了T2時間段,可以提供更多輸入函數(shù)前期示蹤劑在動脈中的個體化峰值信息。當(dāng)我們利用3種協(xié)議T1、T3和T4時間段動態(tài)數(shù)據(jù)進行參數(shù)計算時,參數(shù)圖像的噪聲會隨著掃描時間變短而增大。為了解決噪聲增大問題,需要對參數(shù)圖像進行去噪。本研究先利用Protocol 1分析T1時間變短情況下去噪方法的效果,再根據(jù)Protocol 2和Protocol 3分析不同短時間掃描方案的參數(shù)成像定量結(jié)果。
深度圖像先驗網(wǎng)絡(luò)去噪方法:隨著深度學(xué)習(xí)逐漸成為機器學(xué)習(xí)領(lǐng)域的研究熱點, 深度學(xué)習(xí)為解決圖像噪聲問題提供了新的思路,具有更強大的去噪能力,更好的保持圖像細節(jié)及紋理[16]。相比于有監(jiān)督的深度學(xué)習(xí)網(wǎng)絡(luò),無監(jiān)督的深度學(xué)習(xí)網(wǎng)絡(luò)能夠不依賴大量訓(xùn)練數(shù)據(jù)情況下達到優(yōu)異的任務(wù)表現(xiàn)。DIP方法用于圖像去噪,定義為:
x=f(|znoise)
(2)
(3)
其中x0表示噪聲圖像。
在初始DIP方法中,網(wǎng)絡(luò)的輸入是隨機噪聲圖像,本文為了提升網(wǎng)絡(luò)的去噪效果,提出條件深度圖像先驗方法,將參數(shù)圖像計算對應(yīng)時間段內(nèi)多幀PET活度圖像的平均活度圖像視為先驗信息,代替隨機噪聲圖像作為網(wǎng)絡(luò)輸入,平均活度圖像定義如下:
(4)
其中P(tn)表示在tn時間點的PET活度圖像,j表示多幀PET活度圖像開始的幀序號,k表示多幀PET活度圖像結(jié)束的幀序號。此時整個參數(shù)圖像去噪過程可以由如下的優(yōu)化方程表示:
(5)
本文研究中深度學(xué)習(xí)網(wǎng)絡(luò)采用編碼器-解碼器體系結(jié)構(gòu),總共網(wǎng)絡(luò)分為6層,網(wǎng)絡(luò)輸入是PET平均活度圖像,網(wǎng)絡(luò)標(biāo)簽是噪聲參數(shù)圖像,網(wǎng)絡(luò)輸出是去噪后的參數(shù)圖像。編碼階段網(wǎng)絡(luò)降采樣操作首先是的卷積層處理,隨后以步長為2的降采樣操作替代最大池化方法(max pooling),接著使用批量歸一化方法(batch normalization,BN)[17]和泄漏整流線性單元(leaky rectified linear unit,LReLU)激活函數(shù)[18],針對降采樣后的特征圖像層的網(wǎng)絡(luò)操作為的卷積層加上BN層和LReLU激活層處理,此時特征圖像的圖像維度保持不變。解碼階段為了去除棋盤偽影,本文提出將網(wǎng)絡(luò)上采樣操作采用雙線性插值方法取代去卷積上采樣方法,包含雙線性升采樣結(jié)構(gòu)。上采樣后的特征圖像層的網(wǎng)絡(luò)操作為首先進行的卷積層,BN層和LReLU激活層處理,隨后又進行一次的卷積層,BN層和LReLU激活層處理。此外,我們使用跳躍連接以串聯(lián)的方式連接編碼器路徑和解碼器路徑,以減少訓(xùn)練參數(shù)的數(shù)量并包含不同特征尺度的結(jié)構(gòu)。
圖3 提出的無監(jiān)督深度學(xué)習(xí)去噪框架示意圖
算法開發(fā)環(huán)境介紹:本文的Patlak參數(shù)成像算法使用PyCharm軟件(版本為PC-222.3345.131)編程實現(xiàn),深度學(xué)習(xí)網(wǎng)絡(luò)采用pytorch深度學(xué)習(xí)框架,版本為pytorch 1.11.0,運行環(huán)境為一臺DELL 2U機架式服務(wù)器,機型為PowerEdge R740,處理器為英特爾XE-ON十核銀牌4210(2.2GHz),內(nèi)存64GB,GPU型號為NVIDIA Geforce RTX 3090,顯存為24GB,運行操作系統(tǒng)為Red Hat 4.8.5-44。
3.性能評價
針對去噪后的參數(shù)圖像,采用偏離率(Bias)來定量計算跟真值的誤差,變異系數(shù)(coefficient of variation,COV)計算圖像的噪聲。
偏離率表示目標(biāo)值跟真值的偏差程度,定義為:
(6)
變異系數(shù)表示圖像的噪聲水平,定義如下:
(7)
4.參數(shù)優(yōu)化
參數(shù)成像計算過程中分別使用不同時間段數(shù)據(jù)進行Patlak估計,具體時間段記為20~60 min,30~60 min,40~60 min,44~60 min。根據(jù)不同時間段數(shù)據(jù)進行Patlak計算得到的參數(shù)圖像分別用3種不同的方法進行去噪,這時的噪聲參數(shù)圖像記為noisy image。圖像數(shù)據(jù)進行高斯去噪,記為Gaussian;圖像數(shù)據(jù)進行非局部均值去噪,記為NLM;方法2.2是本文提出的無監(jiān)督的深度圖像先驗網(wǎng)絡(luò)去噪,記為DIP。臨床數(shù)據(jù)分析過程中因為20~60 min數(shù)據(jù)量充足,計算的Patlak參數(shù)圖像信噪比高,同時參考Wu等[8]方法在數(shù)據(jù)處理中選取20~60 min的Patlak結(jié)果作為參考的真值圖像,用于跟不同方法處理后結(jié)果進行比較分析。
臨床實驗中基于完整采集的60 min動態(tài)數(shù)據(jù),我們模擬兩種短時間動態(tài)采集協(xié)議(圖2),第一種獲取前5 min數(shù)據(jù),再獲取4個不同時間段數(shù)據(jù),第二種直接獲取4個不同時間段數(shù)據(jù)。考慮沒有部分?jǐn)?shù)據(jù)信息,動脈輸入函數(shù)采用模板函數(shù)擬合方法[15]補齊缺失信息。兩種協(xié)議生成的參數(shù)圖像結(jié)果與采集60 min數(shù)據(jù)生成的輸入函數(shù)生成的參數(shù)圖像結(jié)果進行比較。
實驗中由于不同時間段的參數(shù)圖像噪聲水平不一致,所以會調(diào)整不同的濾波參數(shù)。Gaussian方法的濾波參數(shù)為半高寬(full width at half maxima,FWHM),NLM方法的的搜索窗設(shè)為5×5,鄰域窗設(shè)為3×3,通過設(shè)置控制濾波程度的參數(shù)來調(diào)控去噪效果,DIP方法中初始學(xué)習(xí)率設(shè)為0.01,迭代次數(shù)為控制噪聲的參數(shù)。具體參數(shù)設(shè)置如表2所示。
表2 不同去噪算法的具體參數(shù)設(shè)置
圖4是利用仿真數(shù)據(jù)使用不同去噪方法針對不同時間段參數(shù)圖像去噪的結(jié)果。其中圖4a一列圖像是仿真的真值圖像,圖4b一列從上到下是使用20~60 min,30~60 min,40~60 min,44~60 min 4組時間段數(shù)據(jù)進行參數(shù)成像的結(jié)果,從圖中可看到隨著使用數(shù)據(jù)的時間段減短,參數(shù)圖像的噪聲增大。紅色箭頭所指的區(qū)域表示仿真的腫瘤區(qū)域,從圖中可以看出40~60 min、44~60 min兩組數(shù)據(jù)Gaussian和NLM方法不能很好識別腫瘤區(qū)域,而本文提出的DIP方法能夠清晰的展示腫瘤細節(jié)。
圖5給出了不同去噪方法在腫瘤區(qū)域計算的Bias和灰質(zhì)、白質(zhì)區(qū)域計算的COV變化曲線。曲線中的每個點表示不同的時間段數(shù)據(jù)計算的結(jié)果,從左到右為20~60 min,30~60 min,40~60 min,44~60 min。從圖5a和圖5b結(jié)果來看,經(jīng)過不同去噪方法去噪后參數(shù)圖像的COV值都會降低,其中NLM去噪效果好于Gaussian方法,而本文提出的DIP方法可達到最好的去噪效果。DIP方法去噪后的白質(zhì)區(qū)域的COV值從44~60 min到20~60 min增加了11.71%,灰質(zhì)區(qū)域增加了15.75%。而噪聲圖像(noisy image)的白質(zhì)區(qū)域的COV值從44~60 min到20~60 min增加了265.50%,灰質(zhì)區(qū)域增加了195.46%。與此同時,在不同時間段上Gaussian方法在去噪的同時相比于原始噪聲參數(shù)圖像會導(dǎo)致腫瘤區(qū)域的Bias值增加,NLM方法和DIP方法都會減少Bias。其中,本文提出的DIP方法Bias值最小,44~60 min和20~60 min的結(jié)果相比于真值的Bias值的分別為-6.39%和-7.41%,兩個時間段Bias值的差值為1.02%,而噪聲圖像相應(yīng)兩個時間段的Bias值為-9.09%和-12.45%,相差3.36%。圖5的結(jié)果可看出DIP方法能將44~60 min時間段計算的參數(shù)圖像保持跟20~60 min在噪聲水平和目標(biāo)區(qū)域值偏差基本一致的效果。
圖5 不同去噪方法在腫瘤區(qū)域和灰質(zhì)及白質(zhì)區(qū)域的Bias和COV變化曲線。a) 腫瘤區(qū)域跟灰質(zhì)背景區(qū)域計算的Bias和COV結(jié)果; b) 腫瘤區(qū)域跟白質(zhì)背景區(qū)域計算的Bias和COV結(jié)果。曲線中的每個點表示不同的時間段數(shù)據(jù)計算的結(jié)果,從左到右為20~60min,30~60min,40~60min,44~60min。 圖6 不同時間段數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)損失函數(shù)曲線。
圖6展示了DIP方法中訓(xùn)練網(wǎng)絡(luò)針對不同時間段臨床數(shù)據(jù)的損失函數(shù)曲線,可看到隨著網(wǎng)絡(luò)迭代次數(shù)增加訓(xùn)練網(wǎng)絡(luò)會逐漸收斂。其中20~60 min和30~60 min時間段數(shù)據(jù)在迭代1200次達到收斂,30~60 min和40~60 min時間段數(shù)據(jù)在迭代1000次和700次收斂,如箭頭所示。
圖7展示了44~60 min時間段參數(shù)圖像使用DIP方法在700次、1200次、1600次網(wǎng)絡(luò)迭代的結(jié)果,可觀察到當(dāng)網(wǎng)絡(luò)達到收斂狀態(tài)時,隨著迭代次數(shù)增加,圖像噪聲會隨之增大,存在過擬合現(xiàn)象,所以在選擇網(wǎng)絡(luò)訓(xùn)練的終止條件為如圖6中損失函數(shù)達到最初收斂時刻的迭代次數(shù)。
圖7 44~60min時間段DIP方法隨迭代次數(shù)變化結(jié)果。a) 700次;b) 1200次;c) 1600次。
圖8為臨床數(shù)據(jù)不同方法去噪的結(jié)果。從上到下依次為20~60 min、30~60 min、40~60 min、44~60 min生成的參數(shù)圖像。ROIA表示腫瘤區(qū)域,ROIB和ROIC表示背景區(qū)域,用于定量計算。圖8展示了通過ROIA和ROIB及ROIC計算的Bias和COV結(jié)果。其中因為我們將Patlak方法在20~60 min時間段估計的參數(shù)圖像作為參考的真值圖像,所以在圖9a和圖9b中“noisy image”的第一個點Bias值是0。從定量結(jié)果來看,DIP方法相比于Gaussian和NLM方法在不同時間段都具有最小的Bias值,其中在20~60 min和30~60 min的Bias值基本一致,40~60 min和44~60 min的Bias值相比于20~60 min會增大5.04%和6.3%,而噪聲圖像44~60 min的Bias相比于20~60 min時增大15.54%。與此同時,通過ROIB和ROIC計算的COV值可看到DIP方法具有最好的去噪效果。相比于噪聲圖像在44~60 min時的COV結(jié)果,DIP方法可以ROIB和ROIC的COV值分別從0.44降至0.27和0.58降至0.26,下降率分別為162.96%和223.08%,可以有效的保證參數(shù)圖像在44~60 min時的圖像質(zhì)量。
圖8 不同去噪方法去噪的的臨床參數(shù)圖像。ROI A是代表腫瘤組織, ROI B是背景區(qū)域。a) 噪聲圖像; b) Gaussian方法; c) NLM方法; d) DIP方法。
圖10展示了不同掃描協(xié)議下DIP方法去噪后圖8所示腫瘤區(qū)域定量偏差,其中“Protocol 2-Protocol 1”為Protocol 2與Protocol 1之間的定量偏差,“Protocol 3-Protocol 1”為Protocol 3與Protocol 1之間的定量偏差。結(jié)果看隨著數(shù)據(jù)時間段減少,兩種協(xié)議定量偏差都逐漸增大。此外,Protocol 2的定量偏差小于Protocol 3,Protocol2的定量偏差范圍為0.6%~2.88%,Protocol 3的定量偏差范圍為1.34%~3.92%。
相比于常規(guī)SUV定量方法,PET的參數(shù)圖像能夠提供組織攝取率和受體結(jié)合率等信息,可有效減少臨床上的假陽性和假陰性診斷率。但是,18F-FDG PET參數(shù)成像過程需要至少掃描60 min動態(tài)數(shù)據(jù),這大大限制了該方法在臨床上的使用。針對Patlak參數(shù)成像方法,本文分析了使用20~60 min、30~60 min、40~60 min、44~60 min不同時間段數(shù)據(jù)生成的參數(shù)圖像的噪聲及定量變化。為解決噪聲增大的問題,提出了深度圖像先驗網(wǎng)絡(luò)用于參數(shù)圖像去噪,結(jié)果顯示DIP方法能夠有效去除噪聲,同時44~60 min數(shù)據(jù)生成的參數(shù)圖像定量能達到20~60 min數(shù)據(jù)基本一致的效果。根據(jù)這一結(jié)果,我們分析了DIP方法在臨床上兩種短時間掃描協(xié)議應(yīng)用效果,定量偏差<4%。因此我們可以設(shè)計具體短時間掃描協(xié)議,第一種協(xié)議從注射藥物開始掃描5 min,隨后休息39 min,然后再掃描16 min,整體時間可以將60 min掃描縮減為21 min。第二種協(xié)議采用基于模板的輸入函數(shù)方法可以不用采集前5 min數(shù)據(jù),直接從44~60 min時間段開始采集,這樣可以將整體時間從60 min縮減為16 min。這兩種掃描協(xié)議可以減少Patlak參數(shù)成像所需的采集時間,有利于參數(shù)成像方法在臨床上應(yīng)用。
深度圖像先驗網(wǎng)絡(luò)是一種無監(jiān)督深度學(xué)習(xí)方法,優(yōu)點在于不需要大量的訓(xùn)練數(shù)據(jù),針對本身數(shù)據(jù)就可以進行處理。效果來說設(shè)計合理的網(wǎng)絡(luò)輸入和深度學(xué)習(xí)網(wǎng)絡(luò)可以達到優(yōu)異的結(jié)果。但是,無監(jiān)督深度學(xué)習(xí)方法存在過擬合的問題[19],在本文結(jié)果中可以觀察到隨著網(wǎng)絡(luò)迭代次數(shù)的增加圖像噪聲增大。為解決這個問題,我們需要對迭代次數(shù)進行參數(shù)選擇,通過提前結(jié)束迭代來防止過擬合。我們提出根據(jù)訓(xùn)練網(wǎng)絡(luò)的損失函數(shù)收斂情況,達到最初收斂的迭代次數(shù)作為中止條件,所以在本文中可以看到不同時間段的數(shù)據(jù)的迭代次數(shù)是不一樣的,分別為1200、1200、1000、700。
本研究進一步的工作需要采集多組臨床數(shù)據(jù)進行診斷分析,通過實際的臨床診斷結(jié)果來驗證本文方法在臨床的應(yīng)用效果。綜上所述,本文提出了一種基于深度圖像先驗網(wǎng)絡(luò)的PET短時間參數(shù)成像方法。針對短時間參數(shù)圖像噪聲增加問題,本文提出的方法在仿真實驗、臨床數(shù)據(jù)實驗中都展示了抑制噪聲增加,保持圖像細節(jié)和定量準(zhǔn)確性的良好效果。