石 磊,彭少康,張亞萌,趙國樺,高宇飛
(1.鄭州大學網(wǎng)絡空間安全學院,鄭州 450002;2.嵩山實驗室,鄭州 450052;3.河南省人民醫(yī)院病理科,鄭州 450003;4.鄭州大學第一附屬醫(yī)院磁共振科,鄭州 450003)
阿爾茨海默癥(Alzheimer’s disease,AD)高發(fā)于65 歲以上的老年人群中,是一種慢性進行性疾?。?]。研究表明,AD 患者最早在出現(xiàn)癥狀的20 年以前腦部結(jié)構(gòu)已開始產(chǎn)生變化[2]?;疾〕跗诘哪X部變化并不會被患者察覺到,經(jīng)過多年的大腦病變以后,個體才會產(chǎn)生明顯的癥狀,比如記憶喪失和語言障礙。AD 會破壞患者大腦中與認知功能有關的部分神經(jīng)元細胞,從而影響患者的記憶力和思維能力,導致患者逐漸喪失認知功能和行動能力[3]。2020 年我國第七次全國人口普查結(jié)果顯示,全國60 歲及以上人口為264 018 766 人,占全國人口的18.70%,其中65 歲以上人群有190 635 280 人,占13.50%[4]。人口的老齡化程度進一步加重,AD 發(fā)病人數(shù)持續(xù)增加,已經(jīng)成為嚴重危害我國人群健康的重大疾?。?]。輕度認知障礙(Mild cognitive impairment,MCI)是從正常認知發(fā)展為癡呆的中間階段[6],是一個重要的可接受早期干預的時期。研究表明,MCI 患者每年約有10%~15%的概率轉(zhuǎn)化為AD[7]。如果能夠在MCI 階段中進行干預,有可能減少或防止患者腦細胞的進一步損傷[8],避免MCI 進一步發(fā)展為AD,從而降低AD 的死亡率。
核磁共振成像(Magnetic resonance imaging,MRI)作為一種高空間分辨率的醫(yī)學成像技術,不會產(chǎn)生對人體有害的輻射,目前被廣泛地應用于AD 的輔助診斷上[9]。深度學習(Deep learning)方法最近在神經(jīng)退行性疾病、骨科疾病和癌癥等醫(yī)學影像分析中得到了廣泛的應用。它能夠?qū)W習影像數(shù)據(jù)中復雜的特征表示,自動提取有效的特征[10],與傳統(tǒng)的機器學習技術相比減少了人工特征提取的操作,提高了診斷效率。利用深度學習方法對MRI 分析可以進行AD 的早期檢測,可以提升醫(yī)生的診斷效率和準確率[11],幫助醫(yī)生及時制定早期干預方案,從而抑制患者腦中疾病的蔓延[12]。深度學習通過構(gòu)建多層神經(jīng)網(wǎng)絡來自動學習從數(shù)據(jù)樣本中提取出的不同層次的特征[13],與人工特征工程方法相比,可以通過大量數(shù)據(jù)對模型進行迭代優(yōu)化[14]。當對圖像進行特征提取時,低級特征用來描述圖像中的邊緣和輪廓,而高級特征蘊含圖像的語義信息[15]。
目前主流應用于MRI 的深度學習方法多基于單一尺度,很難捕捉到相鄰病程階段MRI 的細微差別。本文重點關注多尺度MRI 特征提取方法,嘗試解決不能有效捕捉AD 早期腦部MRI 變化的問題。因此,本文提出特征增強金字塔網(wǎng)絡(Feature enhanced pyramid network,F(xiàn)EPN)方法,通過淺層特征重提取和計算融合權重來增強特征融合時的上下文信息匹配度,從而提升模型分類的準確率。
深度學習能夠從大量的訓練數(shù)據(jù)中自動學習特征,所以越來越廣泛地被用于AD 的診斷[16]。Ghazal 等[17]提出了基于遷移學習的改進AlexNet 模型,將在ImageNet 預訓練后的模型遷移至AD 分類數(shù)據(jù)集,即非癡呆(Non-demented,ND)、非常輕度癡呆(Very mild demented,VMD)、輕度癡呆(Mild demented,MD)和中度癡呆(Moderate demented,MOD)數(shù)據(jù)集,并且在四分類任務中獲得了91.7%的準確率;Islam 等[18]設計了一個基于Inception V4 的神經(jīng)網(wǎng)絡,并將SoftMax 層重新編排為4 個分類(ND、VMD、MD、MOD),在Oasis 數(shù)據(jù)集上取得了73.75%的準確率;Farooq 等[19]采用Resnet152 提取出AD 各階段分類的特征表示,在ADNI 數(shù)據(jù)上采用4 路二分類器對AD、MCI、LMCI 和CN 進行分類,達到了98.1%的預測精度;李彩等[20]將腦部sMRI 用于預測分類,并引入年齡、性別、受教育年限和MMSE 量表評分來優(yōu)化模型,提升了0.89%到11.42%的預測準確率;Zaabi 等[21]利用基于vgg16 訓練的遷移網(wǎng)絡,在4 個階段(CN、AD、MCI、LMCI)對AD 進行多分類,取得的分類準確率為95.31%;Odusami 等[22]通過對ResNet18 進行微調(diào),設計出能夠處理7 個二分類任務的網(wǎng)絡,并通過正則化微調(diào),減少了過擬合并提高了分類精度。由此可見,深度學習算法在AD 的病程分類和預測方面已經(jīng)取得了良好的效果。以上研究均采用單一尺度的特征提取方法,在AD 的多病程分類任務中仍存在難以捕捉不同病程MRI 之間細小差距的問題。Ge 等[23]提出一種三維多尺度卷積網(wǎng)絡,提取出不同尺度的特征融合后進行特征增強,然后通過全連接層進行二分類(AD、NC),在ADNI 數(shù)據(jù)集上可獲得較高的分類準確率。
特征金字塔網(wǎng)絡(Feature pyramid network,F(xiàn)PN)[24]被廣泛用于目標檢測領域,可以提取多尺度的特征信息用于分類和檢測任務。FPN 由自底向上的降采樣、自頂向下的上采樣和橫向連接組成,如圖1所示。自底向上的路徑由主干CNN 組成,從分辨率最高但語義最少的輸入圖像開始,逐步進行降采樣(Down sampling),在金字塔頂端產(chǎn)生語義最多但分辨率最低的特征圖C5。自頂向下的路徑從P5開始,將自頂向下的路徑與自底向上的路徑連接起來,逐步通過上采樣(Up sampling)和橫向連接將特征融合來豐富傳遞的信息,將語義信息從高層次傳播到低層次來構(gòu)建多尺度特征,使得低層特征也具有豐富的語義信息,進而提高特征提取器的性能[25]。自頂向下路徑生成的特征圖同時具有豐富的語義信息和高分辨率,可以更好地用于目標檢測和圖像分類[26]。
圖1 特征金字塔網(wǎng)絡Fig.1 Feature pyramid network
然而,由自底向上生成的最高層C5生成自頂向下的最高層P5時,C5僅通過1×1 卷積進行通道數(shù)減少便得到P5,僅包含當前尺度的特征信息,缺乏了上下文信息。同時,在將自頂向下路徑中上采樣產(chǎn)生的特征圖和自底向上降采樣產(chǎn)生的特征圖進行融合時,F(xiàn)PN 采用了簡單的加法融合方法,對于來自不同層次的特征,兩個層次上的特征存在一定程度的差異,且不同的輸入特征對特征金字塔的貢獻不同[27],直接通過加法融合會破壞兩個層次上的特征表示[28]。
目前在FPN 中自頂向下的初始層P5直接由自底向上生成的最高層C5通過1×1 卷積降低通道數(shù)得到,只包含單尺度的上下文信息,使得高層特征的語義缺失,影響高層特征的特征表達,阻礙了FPN更全面地學習到多尺度的特征;而且在自頂向下階段,來自高層的特征與來自底層的特征通過簡單加法進行融合,破壞了高層和低層特征的細節(jié)表示和上下文信息。本文提出FEPN,通過淺層特征重提?。⊿hallow feature re-extraction,SFE)和計算融合權重(Fusion weight,F(xiàn)W)來增強上下文信息交互并提升特征融合的匹配度,如圖2 所示。
圖2 特征增強金字塔網(wǎng)絡Fig.2 Feature enhanced pyramid network
針對C5層到P5層尺度單一、缺乏上下文信息的問題,引入SFE 對C5進行尺度擴充,使其包含多尺度的上下文信息,來解決該層尺度單一的問題。SFE 通過C2、C3、C4層提取上下文信息用來豐富P5層,得到?jīng)]有信息損失的P5層。
首先定義兩種卷積塊,ConvBlock1 為包含1×1、3×3 和1×1 卷積的模塊,ConvBlock2 為通過ConvBlock1 的卷積結(jié)構(gòu)后與原特征進行殘差連接的模塊。輸入的數(shù)據(jù)首先通過DS1進行降采樣處理得到C2,DS1包含一個7×7 卷積,ConvBlock2 和兩層ConvBlock1;C2通過DS2得到C3,DS2包含ConvBlock2和三層ConvBlock1;C3通過DS3得到C4,DS3包含ConvBlock2 和5 層ConvBlock1;C4通過DS4得到C5,DS4包含ConvBlock2 和兩層ConvBlock1。SFE 流程為首先將C5的通道數(shù)降至256 得到P5,并將C2、C3、C4降采樣到C5的特征圖尺寸大小,通道降至與P5相同的256 維,然后將得到的3 個特征圖進行拼接,再通過卷積層提取特征后經(jīng)過Sigmoid 函數(shù)得到特征G,其計算公式為
式中:Ci指[C2,C3,C4];concat 為按通道拼接操作;f1×1為卷積核為1×1 的卷積操作;f3×3為卷積核為3×3 的卷積操作;σ 為Sigmoid 函數(shù)。得到特征G后將G與原特征進行殘差連接得到上下文信息W。G與原特征的殘差連接可表示為
FPN 把高層特征通過上采樣后與低層特征通過通道降維后進行簡單相加,這樣很難平衡不同層次之間的上下文信息,因為不同層次的特征對金字塔的貢獻度不同[29],高層特征包含更多的語義信息,低層特征包含更多的細節(jié)信息。本文引入FW 指導高層特征和低層特征融合來解決兩個層次特征表達差異的問題。FW 可以從待融合的高層和低層特征中根據(jù)不同層次特征的貢獻度來提取出對應的權重,依靠權重來指導兩個層次上的特征融合。
FW 將Pi通過上采樣后的特征與Ci-1通過1×1 卷積操作降維后的特征拼接起來,然后通過兩層卷積層進行特征提取后通過Sigmoid 函數(shù)得到特征K,其計算公式為
式中:i的取值為5、4、3;concat 指特征按通道進行拼接;f1×1為卷積核為1×1 的卷積操作;f3×3為卷積核為3×3 的卷積操作;σ 為Sigmoid 函數(shù)。
得到特征K后,將K與原特征進行殘差連接得到特征融合結(jié)果L。K與原特征的殘差連接可表示為
式中:和分別為K的第1 個和第2 個通道通過維度擴展后得到的權重,可以與Pi和Ci-1維度匹配后相乘,將得到的結(jié)果通過矩陣相加后得到按權重分配的高低層融合結(jié)果L。
實驗運行系統(tǒng)為Ubuntu20.04,CPU 為主頻2.2 GHz 的Intel(R)Xeon(R)Silver 4210,內(nèi)存64 GB,GPU 型號為Tesla T4*2,顯存為16 GB,實驗環(huán)境為python3.6 和tensorflow2.3.0。
實驗數(shù)據(jù)來源于Kaggle 公開的Alzheimer’s Dataset 數(shù)據(jù)集(https://www.kaggle.com/datasets/tourist55/alzheimers-dataset-4-class-of-images)。數(shù)據(jù)包含ND、VMD、MD 和MOD 四類腦部MRI。針對數(shù)據(jù)集中存在的數(shù)據(jù)不平衡問題,本文對實驗數(shù)據(jù)進行了預處理。由于MOD 數(shù)據(jù)量較少,故對其進行數(shù)據(jù)增強并擴充至與MD 近似的數(shù)量,處理過程包含概率為0.5 的隨機水平翻轉(zhuǎn),角度范圍為10°的隨機旋轉(zhuǎn)、偏移范圍為0.2 的依概率修改亮度和對比度。為了消除MOD 數(shù)據(jù)增強對實驗造成的影響,對ND、VMD 和MD進行數(shù)據(jù)量不變的相同數(shù)據(jù)處理操作,并將數(shù)據(jù)量較多的ND 和VMD 隨機抽取至與MOD 近似。預處理前后的數(shù)據(jù)量如表1 所示。
表1 數(shù)據(jù)集參數(shù)Table 1 Dataset parameters
(1)對比方法選擇
本文選取3 種主流的AD 診斷方法開展對比實驗,包括VGG19、MobileNet V2 和ADDTLA。VGG19[30]通過疊加較小的卷積核來加深網(wǎng)絡,對于復雜高維的MRI 數(shù)據(jù),較小的卷積核可以關注到大卷積核關注不到的細節(jié)信息;MobileNet V2[31]是一個輕量級網(wǎng)絡,通過模型預訓練以較小的參數(shù)量可以取得較高的AD 分類準確率;ADDTLA[17]是一種基于遷移學習的預訓練模型,可以在MRI 數(shù)據(jù)上取得較好的分類效果。
(2)實驗設置
實驗使用的FEPN 模型以ResNet 作為骨干網(wǎng)絡,訓練過程中batchsize 大小為16,epoch 設置為100,學習率固定為0.001,L2 正則化系數(shù)為0.3。由于交叉熵損失函數(shù)在數(shù)據(jù)集各分類數(shù)據(jù)量均衡的條件下有良好的表現(xiàn),故實驗采用交叉熵損失函數(shù),即
式中:N表示1 個batchsize 的樣本量;4 表示該實驗為四分類;yic為符號函數(shù),如果樣本i的真實類別為c則yic取1,否則取0,pic表示樣本i預測為類別c的概率。
(3)評價指標
實驗采用精確率(Precision,P)、召回率(Recall,R)、平衡F分數(shù)(F1-score,F(xiàn)1)和準確率(Accuracy,A)來評價模型性能。其中,精確率、召回率和平衡F分數(shù)用來評價模型對每個分類的性能,準確率用來衡量模型的整體性能。P、R、F1和A分別表示為
式中:XTP為真正類;XTN為真負類;XFP為假正類;XFN為假負類。
實驗結(jié)果如表2 所示,其中FPN 為特征金字塔網(wǎng)絡模型;FPN+SFE 為引入SFE 后的特征金字塔網(wǎng)絡模型;FPN+FW 為引入FW 后的特征金字塔網(wǎng)絡模型;FEPN 為本文提出的特征增強金字塔網(wǎng)絡模型。加入SFE 后,精確率、召回率和F1分數(shù)都有所提升,模型準確率提升了2.7%,說明SFE 可以通過補充FPN 中P5層缺失的上下文信息來提升模型的多尺度特征提取能力;加入FW 后,精確率、召回率和F1分數(shù)都有所提升,模型準確率提升了1.4%,說明加入FW 后與FPN 相比更能平衡不同層之間的上下文信息。加入SFE 比加入FW 的準確率和各項指標都要高,說明SFE 更有利于FPN 能夠充分提取MRI 多尺度特征。FEPN 與FPN相比,模型的準確率提升了3.1%,擁有更好的分類性能。圖3 為消融實驗準確率隨epoch 的變化,在40 個epoch 以前4 種方法的準確率區(qū)分不明顯,在40~60 個epoch 中,F(xiàn)EPN 較其他方法的準確率有明顯的提升,并于60 個epoch 以后趨于穩(wěn)定。
表2 加入SFE 和FW 對特征金字塔網(wǎng)絡性能影響的對比Table 2 Comparison of FPN performance by adding SFE and FW
圖4 為模型預測每個分類的概率結(jié)果。圖4(a)為正常人的腦部MRI,其腦組織結(jié)構(gòu)特征明顯,并沒有萎縮等現(xiàn)象,因而模型的分類精度較高;圖4(b)為非常輕度癡呆病人的腦部MRI,此階段病人的腦皮質(zhì)已出現(xiàn)萎縮的前兆,分類精度較高;圖4(c)為輕度癡呆病人的腦部MRI,該階段的患者腦皮質(zhì)處于萎縮的初級階段,與非常輕度癡呆區(qū)分不明顯,有18.6%的概率會誤分類為非常輕微癡呆,分類精度較低;圖4(d)為中度癡呆病人的腦部MRI,整個腦組織都會出現(xiàn)萎縮,其中顳葉、額葉和楔葉的萎縮相對明顯,腦溝增寬,區(qū)分度較高,分類精度較高。
圖4 本文方法預測結(jié)果示例Fig.4 Example of prediction results of the proposed method
本文進一步對比了該模型與其他模型的性能,設置了4 組對比試驗,驗證不同模型在相同數(shù)據(jù)集上的性能,結(jié)果如表3 所示。FEPN 的分類準確率與VGG19 和MobileNet V2 相比分別提升了41.1%和32%,但網(wǎng)絡堆疊更深,參數(shù)量遠多于MobileNet V2 的2.2×106;與ADDTLA 相比提升了6.2%,但網(wǎng)絡層數(shù)和參數(shù)量比ADDTLA 更高,結(jié)構(gòu)更復雜,對硬件和計算時間有更高的要求。
表3 與其他模型實驗結(jié)果對比Table 3 Comparison of experimental results with other models
近年來AD 的患者數(shù)量逐年增多且沒有有效的治療手段,通過早期診斷可以延緩病人腦組織病變。病人在患病早期腦部MRI 與正常人相比差別很小,目前主流的單一尺度特征提取方法不能充分捕捉這些差異,導致早期的病程分類十分困難。本研究針對FPN 中高層特征缺乏多尺度上下文信息的問題,通過SFE 利用不同層次的上下文信息對高層特征進行補充;針對不同層次的特征表示在特征融合時的語義差距問題,計算FW 指導高低層特征圖的融合,增強了上下文信息交互和特征融合的匹配度,在Kaggle 平臺公開的Alzheimer 數(shù)據(jù)集上的分類精度達到了97.9%,分類性能優(yōu)于其他同類方法。由于原始的三維MRI 在提取切片的過程中存在信息損失,在未來的工作中可以探究FEPN 在三維MRI 數(shù)據(jù)上的表現(xiàn),并對FEPN 做進一步的改進,使其擁有良好的三維MRI 處理能力。