• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進ConvNeXt 的皮膚鏡圖像分類方法

      2023-10-17 05:50:10李建威呂曉琪谷宇
      計算機工程 2023年10期
      關鍵詞:準確率卷積神經網絡

      李建威,呂曉琪,2,谷宇

      (1.內蒙古科技大學 信息工程學院 內蒙古自治區(qū)模式識別與智能圖像處理重點實驗室,內蒙古自治區(qū) 包頭 014010;2.內蒙古工業(yè)大學 信息工程學院,呼和浩特 010051)

      0 概述

      皮膚癌是因皮膚細胞的異常生長而引起的,近年來,其高發(fā)病率已經導致重大的公共衛(wèi)生問題,且一旦皮膚癌錯過治療時機,就會危及生命。因此,針對皮膚癌的早期診斷研究具有重要意義[1-2]。

      皮膚鏡是一種成像技術,可用來觀察皮膚色素性疾病,利用此技術可以得到較精確的皮膚色素性疾病診斷效果[3],但從皮膚鏡圖像中手動檢測皮膚疾病是一個困難且耗時的過程。目前,得益于計算機技術的發(fā)展,利用深度學習的方法在醫(yī)學圖像領域得到廣泛的應用[4-5]。文獻[6]在分析不同深度學習模型的參數量后,提出一種輕量級皮膚癌分類模型,其準確率為85.8%。文獻[7]采用遷移學習和數據增強的技術,緩解了訓練數據不足的問題,最終準確率為87.7%。文獻[8]提出一種多模態(tài)深度學習信息融合框架用于皮膚病變的分割與分類,準確率為87.02%。文獻[9]設計出一種深層卷積神經網絡,并使用類激活映射技術實現特征可視化,獲得86.5%的準確率。文獻[10]提出一種改進的MobileNet,實驗結果表明,改進的模型比傳統(tǒng)的MobileNet具有更高的性能。文獻[11]先分割皮膚病變邊界,然后再使用神經網絡對其進行分類,準確率為89.3%。文獻[12]提出一種基于個體優(yōu)勢集成和群體決策的皮膚鏡圖像分類方法,其分類效果優(yōu)于單個卷積神經網絡。

      深度學習在皮膚鏡圖像自動分類領域具有良好的應用前景[13],但目前仍存在不少問題:皮膚鏡圖像不同類別之間具有較高的視覺相似性,分類難度較大;皮膚鏡圖像的收集需要大量的醫(yī)學知識,數據獲取難度較大,能用于深度學習訓練的數據量相對較小。

      針對上述問題,本文提出一種基于改進ConvNeXt 的皮膚鏡圖像分類方法。ConvNeXt 作為新一代的卷積神經網絡,吸收Swin Transformer 的大量優(yōu)秀設計,并在計算機視覺領域中取得優(yōu)異的性能。為提升網絡模型的性能,本實驗在ConvNeXt 模型中加入SimAM 模塊,在無需額外參數的情況下改善Depthwise Convolution 無法高效利用不同通道在相同空間位置上的特征信息的缺陷。同時,在ConvNeXt 模型中插入通道域注意力模塊,使網絡模型更有效地學習關鍵特征,減少對非重要信息的關注,提升網絡模型的性能。在訓練中使用Warmup 策略使模型權重逐步穩(wěn)定,并設置學習率按照余弦函數值進行衰減,提升模型的分類效果。

      1 本文方法

      1.1 ConvNeXt 模型

      在計算機視覺領域,卷積神經網絡一直是主流模型[14]。受基于Self-Attention 結構的Transformer在自然語言處理領域的成功的啟發(fā),微軟亞洲研究院 在2021 年提出Swin Transformer模型[15],其 在多個數據集中均取得優(yōu)異的表現。

      雖然Transformer 在各種計算機視覺任務上表現出優(yōu)異的性能,但在圖像處理方面還暫時無法取代卷積神經網絡。此外,Transformer 的優(yōu)秀性能可能歸功于其內在結構?;诖隧椉僭O,Facebook AI Research(FAIR)將Transformer 的相應技術應用在ResNet上,提出ConvNeXt 模型[16]。

      ConvNeXt 模型是ResNet 從5 個方面借鑒Swin Transformer 的設計思想后得到的,其整體結構如圖1所示。

      圖1 ConvNeXt 模型結構Fig.1 Model structure of ConvNeXt

      1.1.1 宏觀設計

      ResNet 與Swin Transformer均有4 個stage,但Swin Transformer tiny version 中各個stage 的block 堆疊比例為1∶1∶3∶1,由此研究人員將ConvNeXt 模型的堆疊比例調整為3∶3∶9∶3,使ConvNeXt 模型更接近于Swin Transformer。同時,ConvNeXt 模型參考Swin Transformer 的patchify 操作,將Stem 層設置為卷積核大小為4,步長為4 的卷積操作。

      1.1.2 Depthwise Convolution 操作

      人工智能實驗室的研究人員采用ResNeXt[17]的思想,使用Depthwise Convolution,他們認為,Depthwise Convolution類似Transformer 的自注意力機制,只能在每個通道上進行空間信息的交互。

      1.1.3 逆瓶頸結構

      ResNet 為減輕計算量,使用瓶頸結構。而MobileNetV2[18]使用逆瓶頸(Inverted Bottleneck)結構,減少信息的損失。人工智能實驗室的研究人員認為Transformer 的mlp 模塊與逆瓶頸結構十分相似,因此ConvNeXt 模型也采用類似的設計。ConvNeXt 模型所使用的逆瓶頸結構如圖2 所示。

      圖2 ConvNeXt 模型結構的修改Fig.2 Modification of ConvNeXt model structure

      1.1.4 大卷積核

      現代卷積神經網絡大都使用3×3 的卷積核[19],而在Swin Transformer中,使用的卻是7×7 的自注意力窗口?;诖?,人工智能實驗室的研究人員將ConvNeXt 的Depthwise Convolution 的大小設置成7×7。

      1.1.5 微觀設計

      除上述宏觀尺度的改進,ConvNeXt 模型還在微觀尺度上做出不少調整。ConvNeXt 模型將ReLU 函數替換成GELU 函數,并減少激活函數的數量。同時,ConvNeXt 模型采用更少的歸一化層,并把BatchNorm 替換成LayerNorm。ConvNeXt 模型還模仿Swin Tranformer 下采樣設計,使用步長為2 的2×2卷積進行空間下采樣。ConvNeXt 模塊與Swin Transformer 模塊的對比如圖3 所示。

      圖3 Swin Transformer 模塊與ConvNeXt 模塊的對比Fig.3 Comparison of Swin Transformer module and ConvNeXt module

      1.2 ConvNeXt 的改進

      1.2.1 SimAM 模塊

      人類的視覺機制極為高效,可以通過調節(jié)注意力,使視覺關注到最重要的部分。深度學習的研究人員模仿人類的注意力機制,將其引入到卷積神經網絡上,使性能得到提升。

      為降低毛發(fā)、氣泡等復雜背景的干擾,提升網絡模型的抗干擾能力,本實驗提出的改進模型在Depthwise Convolution 后加入3D 的無參注意力模塊[20],在不額外引入參數的情況下更全面高效地評估特征權重,提升基礎模型的性能。

      中山大學的研究人員通過模仿生物神經,提出一種能挖掘神經元重要性的SimAM 模塊。該模塊結構簡單,不向原始網絡添加參數。SimAM 模塊的結構如圖4 所示。

      圖4 SimAM 模塊的結構Fig.4 Structure of SimAM module

      在神經科學中,信息量大的神經元與周圍神經元具有不同的放電模式。此外,活躍的神經元還會抑制周圍的神經元活動,這種現象被稱為空域抑制[21]。由此可見,在視覺任務中,應該給具有空域抑制的神經元更高的優(yōu)先級,找到重要神經元的一個簡單方法是測量目標神經元與其他神經元之間的線性可分性,基于此,研究人員定義能量函數,如式(1)所示:

      其中:t是指輸入特征X的目標神經元;μ和σ2是除t以外的所有神經元的平均值和方差,當系數λ為0.000 1 時效果較好。通過式(1)可知,能量越低,意味著神經元t與周圍神經元的差異越大,其重要性也越高。因此,神經元的重要性可以通過1/e*得到。最后,根據各神經元的重要性,對特征圖進行優(yōu)化,表達式如式(2)所示:

      其中:輸出結果為增強后的特征;X為輸入特征;⊙為點積運算;E為每個通道上的能量函數;Sigmoid函數用于限制E中可能出現的過大值。

      1.2.2 通道注意力機制

      SENet(Sequeeze and Excitation Network)[22]是2017 屆ImageNet 分類比賽的冠軍,它提出一種針對通道方向的注意力機制,通過在網絡模型中插入SE模塊,給予重要的皮膚特征更多的關注,從而讓網絡提取的特征指向性更強,特征利用更充分。

      SE 模塊能評估各個特征通道的重要程度,再對不同的特征通道進行增強或者抑制。SE 模塊的結構如圖5 所示。

      圖5 SE 模塊的結構Fig.5 Structure of SE block

      在SE 模塊中,先對輸入特征圖X進行Fsq(·)操作(即Squeeze 操作),得到具有全局信息的1×1×C特征向量。然后再進行Fex(·,W)操作(即Excitation 操作),通過兩個全連接層融合各個通道的特征圖信息,得到各通道的重要程度。最后的Fscale(·,·)操作則把向量值與特征圖加權,給每個特征通道賦予不同的權重。

      1.3 Cosine Warmup 學習率策略

      學習率是網絡訓練中最為重要的超參數之一,其設置的好壞決定目標函數能否收斂到局部最小值以及何時收斂到最小值[23]。在網絡訓練的初期階段,如果此時使用較大的學習率,會造成網絡模型對數據的過擬合,偏離最優(yōu)點。

      Cosine Warmup[24]是一種學習率優(yōu)化方法,通過預熱學習率的方式,能夠先讓網絡模型在早期訓練時使用預熱的較小學習率,使得網絡模型慢慢趨于穩(wěn)定。待網絡模型具有一定先驗知識且相對穩(wěn)定后,再使用較大的學習率進行訓練,可以加速網絡模型的收斂。圖6 所示為使用Cosine Warmup 的學習率系數變化。當網絡模型使用較大的學習率訓練一段時間后,模型的分布會相對穩(wěn)定,此時不再適合使用較大的學習率訓練網絡模型,降低學習率能夠使網絡模型更接近局部最小值。余弦退火(Cosine Annealing)[25]即使用余弦函數來減小學習率,學習率先從很小的數值線性增加到預設學習率,然后按照cos 函數值進行衰減,這種下降模式可以和學習率結合在一起,達到較好的效果。

      2 實驗結果與分析

      2.1 實驗環(huán)境和設置

      本實驗的模型在Windows10 操作系統(tǒng)上實現,采用PyTorch1.7 框架,使用Python 編程語言。實驗的硬件平臺為Intel?Xeon?CPU E5-1650 v3 @ 3.50 GHz 3.49 GHz,NVIDIA GeForce RTX 3090,顯存為24 GB。實驗中的訓練迭代次數為300次,批次樣本數設置為8,優(yōu)化器為AdamW。

      2.2 實驗環(huán)境和設置

      本實驗使用的數據集是國際皮膚影像合作組織(International Skin Imaging Collaboration,ISIC)2018 挑戰(zhàn)賽提供的HAM10000 數據集[26-27],該 數據集包含10 015 張皮膚損傷的皮膚鏡圖片,包含7 種皮膚?。杭垂饣越腔。ˋctinic keratoses,Akiec)、基底細胞癌(Basal cell carcinoma,Bcc)、良性角化?。˙enign keratosis-like lesions,Bkl)、皮膚纖維瘤(Dermatofibroma,Df)、黑色素瘤(Melanoma,Mel)、黑素細胞痣(Melanocytic nevi,Nv)和血管病變(Vascular lesions,Vasc),圖7 所示為皮膚癌示例。

      圖7 皮膚癌示例Fig.7 Examples of skin cancer

      2.3 數據增強

      在數據集分布均勻且數量大的情況下,卷積神經網絡能發(fā)揮出優(yōu)秀的特征提取能力。但醫(yī)學數據集存在著圖像數量不足和分布不均勻的問題,這將降低卷積神經網絡的訓練效果,容易導致過擬合[28]。HAM10000 數據集存在分布不均勻的問題,為減輕過擬合現象,對數據集進行隨機旋轉(0°~10°)、隨機縮放10%、隨機移動等操作,增加數據集的數量。圖8 所示為數據增強示例。

      圖8 數據增強示例Fig.8 Examples of data augmentation

      2.4 評價標準

      為評價網絡對皮膚鏡圖像的分類效果,本實驗使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)和特異性(Specificity)共同對分類結果進行評估。在實驗中,正樣本是與真實標簽一致的樣本,而負樣本是與真實標簽不一致的樣本。其中:TP為模型將正類預測為正類的樣本數;FN為模型將正類預測為負類的樣本數;FP為模型將負類預測為正類的樣本數;TN為模型將負類預測為負類的樣本數。在多分類任務中,各類別的TP、TN、FP、FN計算方式可由圖9 概括。

      圖9 多分類混淆矩陣示例Fig.9 Examples of multi category confusion matrix

      準確率指的是正確分類樣本占總樣本數的概率,可表示為式(3)所示:

      精確率指的是模型正確預測為正類占全部預測為正類的比例,可表示為:

      召回率指的是模型正確預測為正類占全部實際為正類的比例,可表示為式(5)所示:

      特異性指的是模型正確識別真陰性的比例,可表示為式(6)所示:

      2.5 結果分析

      2.5.1 Cosine Warmup 訓練效果

      為驗證Cosine Warmup 的效果,分別在關閉和開啟Cosine Warmup 時觀察ConvNeXt 模型訓練過程中的損失函數下降曲線。實驗的初始學習率設置為0.000 5,其損失值變化情況如圖10、圖11 所示。

      圖10 Cosine Warmup 對損失值的影響(無預訓練)Fig.10 Influence of Cosine Warmup on loss value(without pre-training)

      圖11 Cosine Warmup 對損失值的影響(有預訓練)Fig.11 Influence of Cosine Warmup on loss value(with pre-training)

      由圖10、圖11 可知,不使用Cosine Warmup 訓練策略的ConvNeXt 模型損失值較大,而使用Cosine Warmup 訓練策略的ConvNeXt 模型收斂效果較好,且收斂穩(wěn)定后損失較低。因此本文選擇在模型訓練的過程中使用Cosine Warmup 策略。

      2.5.2 消融實驗

      ConvNeXt 模塊的結構如圖12 所示,其中的Depthwise Convolution 用于模擬自注意力中的加權求和操作,而后兩個1×1 Convolution 用于模擬Swin Transformer中的MLP模塊。

      圖12 ConvNeXt 模型結構Fig.12 Structure of ConvNeXt model

      為提升ConvNeXt 的性能,本實驗在模型中加入SimAM 模塊。為更好地提升分類準確率,將SimAM模塊分別放在圖13 所示的3 個位置進行實驗,一個是在Depthwise Convolution 后插入,即圖13 中的位置1;另一個是在第1 個1×1 Convolution 后插入,即圖13 中的位置2;最 后1 個是在第2 個1×1 Convolution 后插入,即圖13 中的位置3。

      圖13 不同插入位置的SimAM 模塊Fig.13 SimAM modules with different insertion positions

      在相同參數設置的情況下,本實驗對SimAM 模塊在ConvNeXt 模型中的位置進行調整,得到的測試結果如表1 所示,表中加粗數字表示該組數據最大值。

      表1 不同SimAM 插入位置的ConvNeXt模型的性能對比Table 1 Performance comparison of ConvNeXt models with different insertion positions of SimAM %

      由表1 可知,在位置1,即在Depthwise Convolution后面插入SimAM 模塊,可得到更高的準確率。對此,ConvNeXt 的網絡結構充分借鑒Swin Transformer的結構設計,在ConvNeXt 模型中,人工智能實驗室的研究人員在參考ResNeXt 與自注意力機制后,使用Depthwise Convolution。但是在Depthwise Convolution中,由于每個卷積核只對單個通道進行卷積操作,因此各個通道之間的信息并沒有得到交流,致使在后續(xù)信息的流動中損失一些通道之間的信息,最終導致網絡性能下降。而SimAM 模塊能更好地挖掘重要神經元,從而提升Depthwise Convolution 的性能。

      同理,為更好地利用SE 模塊,本實驗將SE 模塊分別放在圖14 所示的3 個位置進行實驗。得到的測試結果如表2 所示,表中加粗數字表示該組數據最大值。

      表2 不同SE 模塊插入位置的ConvNeXt 模型性能對比Table 2 Performance comparison of ConvNeXt models with different insertion positions of SE module %

      圖14 不同插入位置的SE 模塊Fig.14 SE modules with different insertion positions

      由表2可知,在位置3,即在第2 個1×1 Convolution 后面插入SE 模塊,可得到相對較高的準確率。對此,本實驗認為原因是在ConvNeXt 模型中存在著一個Layer Scale 操作[29]。Layer Scale 操作是讓特征圖乘上一個可學習的參數,最終實現特征圖通道的縮放。由于SE 模塊也是在通道方向上進行操作,于是將SE 模塊插入在Layer Scale 操作前,能夠提升網絡的性能。

      為研究各項改進點對網絡分類準確率的影響,本文開展消融實驗。在消融實驗中,主要以測試集準確率為指標,消融實驗包括加入SimAM 模塊、引入SE 模塊。最終的結果如表3、表4 所示,表3 括號中的數據表示該模型與基線模型(未引入SimAM 模塊和SE 模塊的模型)的差值,加粗數字表示該組數據最大值。其中,同時加入SimAM 模塊和SE 模塊后的ConvNeXt 模型如圖15 所示。

      表3 消融實驗結果Table 3 Ablation experimental result %

      表4 SE-SimAM-ConvNeXt 模型的分類結果Table 4 Classification results of SE-SimAMConvNeXt model %

      圖15 同時加入SimAM 模塊和SE 模塊后的ConvNeXt 模型結構Fig.15 ConvNeXt model structure after adding both SimAM and SE modules

      表3、表4 的數據表明,SimAM 模塊與SE 模塊對卷積神經網絡的性能提升起積極作用。但SE-SimAM-ConvNeXt 網絡對光化性角化病(Akiec)、皮膚纖維瘤(Df)、黑色素瘤(Mel)的分類結果較差,這是因為加入新模塊后的ConvNeXt 模型需要更大的數據量去擬合,但這3 類的圖像數量較少,導致該類的分類結果不佳。

      2.5.3 不同模型的結果對比

      在醫(yī)學圖像處理領域中,Swin Transformer 作為卷積神經網絡的強力競品,具有與CNN 不相上下的性能。但Vision Transformer 需要非常大的數據集才能超過卷積神經網絡的性能,而醫(yī)學圖像數據集的數據量通 常比較小。MATSOUKAS等[30]分別在不同初始化策略下對Vision Transformer 與ResNet50進行醫(yī)學圖像測試,結果顯示在隨機初始化權重的情況下,Vision Transformer 的性能比ResNet50 更糟糕。本實驗同樣在不同初始化策略下對Swin Transformer 與ConvNeXt 模型進行測試,數據如表5所示,表中加粗數字表示該組數據最大值。

      表5 不同初始化策略的Swin Transformer 與ConvNeXt 模型的性能對比Table 5 Performance comparison between Swin Transformer and ConvNeXt models with different initialization strategies %

      表5 中的結果表明,對不使用預訓練權重的Swin Transformer 與ConvNeXt 進行比較可知,ConvNeXt 的性能表現優(yōu)于Swin Transformer。這可能是因為在數據量較少的情況下,卷積神經網絡的歸納偏置會使其表現更好。

      在醫(yī)學圖像領域中,通常是使用ImageNet 預訓練權重來訓練卷積神經網絡。同樣,本實驗對使用ImageNet 預訓練模型的 Swin Transformer 與ConvNeXt 進行比較。表5 中的結果表明,Swin Transformer 與ConvNeXt 均從預訓練模型中獲得收益,且Swin Transformer 的收益略高一些。

      在數據量較少的情況下,Swin Transformer 的性能比ConvNeXt 更差,而預訓練權重能夠在一定程度上彌補Vision Transformer 在低數據狀態(tài)下性能不足的現象。實驗說明卷積神經網絡可能更適合醫(yī)學圖像領域的數據。同時,SimAM 和SE 模塊的加入使得ConvNeXt 比Swin Transformer 略有優(yōu)勢。

      為驗證新型卷積神經網絡ConvNeXt 的有效性,本實驗將所提模型與VGG16、VGG19、ResNeXt50、MobileNetV2 分類模型進行對比實驗,得到的測試結果如表6所示,表中加粗數字表示該組數據最大值。

      表6 各模型的分類結果評估Table 6 Evaluation of classification results of each model %

      表6 中的結果表明,在皮膚鏡圖像分類中,相比傳統(tǒng)的卷積神經網絡模型,本實驗所提模型達到較高的分類準確率,其分類性能為所有模型中最優(yōu)。這是因為ConvNeXt 借鑒吸收Transformer 的一些先進技術,結合了兩種模型的優(yōu)點,進而提升了ConvNeXt 模型的性能。

      在HAM10000 數據集下本文方法與其他方法的對比結果如表7 所示。

      表7 與其他方法的分類結果對比Table 7 Comparison of classification results with other methods %

      由表7 可知,在皮膚鏡圖像分類中,相較于其他模型,本文方法具有較高的準確率,且優(yōu)于大部分對比方法。文獻[6]提出一種輕量級的皮膚癌分類模型,但最終分類準確率較低。文獻[7]以DenseNet201 為基礎網絡,并借助數據增強技術提高網絡性能,在同一數據集下的準確率有所提升。文獻[8]提出一個多模態(tài)深度學習信息融合框架,但融合后特征維數增加的問題仍需解決。文獻[9]方法的網絡層數較淺,難以提取圖像的深層特征。文獻[10]提出一種改進的MobileNet 模型進行分類,但準確率有待提升。文獻[11]的網絡通過輸入分割的皮膚病變圖像,提取出更顯著和更有代表性的特征,提高皮膚病變診斷的分類性能。文獻[12]提出集成的皮膚鏡圖像分類策略,得到較好的分類結果,但該方法較為復雜,實用性較差。綜上所述,網絡模型特征提取能力的強弱決定最終分類結果,而本文提出的SE-SimAM-ConvNeXt 模型具有較好的泛化能力與特征提取能力,在皮膚鏡圖像分類應用領域具有較好的應用前景。

      3 結束語

      本文提出一種基于SE-SimAM-ConvNeXt 卷積神經網絡的皮膚鏡圖像分類方法,在保留ConvNeXt模型主要結構的同時,增加SimAM 和SE 的新模塊,提升網絡的性能。此外,通過使用Cosine Warmup 學習率策略加速模型的收斂。實驗結果表明,本文方法具有分類能力較優(yōu)、泛化能力較強的特點,對皮膚病的智能診斷有一定指導意義,可在一定程度上滿足臨床應用的需求。下一步將針對損失函數及數據增強等策略進行研究,以解決樣本分布不均衡問題。

      猜你喜歡
      準確率卷積神經網絡
      基于3D-Winograd的快速卷積算法設計及FPGA實現
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
      神經網絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車牌識別標識站準確率驗證法
      基于傅里葉域卷積表示的目標跟蹤算法
      基于神經網絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數神經網絡在基于WiFi的室內LBS應用
      皋兰县| 曲松县| 汤阴县| 商洛市| 怀仁县| 玛纳斯县| 克东县| 嘉善县| 江安县| 礼泉县| 页游| 南开区| 太谷县| 双城市| 蛟河市| 和龙市| 宜兴市| 韩城市| 西吉县| 洛南县| 灵璧县| 讷河市| 郴州市| 湾仔区| 大荔县| 土默特右旗| 教育| 库车县| 德清县| 佛冈县| 沁源县| 阿坝| 松原市| 义马市| 盱眙县| 若羌县| 汝州市| 宁波市| 牟定县| 孝义市| 东兴市|