中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2025)06-038-1880-07
doi:10.19734/j.issn.1001-3695.2024.08.0354
Automatic classification of leukemia subtypes based on multi-scale multi-feature hybrid model
Gao Mingyang1,Geng Yan2,Yu Xiao3,Pei Bo4,Zhao Juanjuan1,Qiang Yan1,5t(1.ColegeofmuterSece amp;Tooy(lgeofatSce),anUiestofogin;2.SchoolfsieicalciediclUesitinasspialfieclUTaiyuanO3Uesfd6UfeUf030051,China)
Abstract:Leukemia,ahighlyconcealedcancer,presentssignificantchalengesinearlydetection,makingitafocalpointfor medical professionals.Existing fine-grained clasificationmodelsstrugglewithsmallsampleimbalanceddatasets,leadingto poorperformance in classfying leukemiasubtypes.Toaddressthese issuesandacceleratedoctors’diagnosticspeed while shortening treatment time,this paperproposedamulti-scalemulti-feature hybrid model(MSMFHM)fortheautomaticclassificationofleukemiasubtypesappicable tosmallsampledatasets.The modelfirstly extractedmulti-levelstructural features from imagesusingamulti-scalefeature extractionframeworkcombined withscalingoperationsandaCNNbackbone.Next,amultiscalefusion modulewith atention mechanisms integratedthesemulti-level structural featuresandextracted fine-grained features,effectivelyleveraging therobustnessofCNNinductivebiasandthecomplexglobalmodelingcapabilitiesofTransformers.Finally,toenhance robustnessand mitigate overfiting issues causedbysmallsamples,amulti-feature hybrid module combined texturefeatures withfine-grained features beforeclasification.Adatasetof7156leukemiacellimages,along with otherrelevantpublicdatasets,wascollctedtoevaluatethismethod.Theproposedmodelachievesclasificationaccuraciesof (204號 93.03% and 99.42% on private and public datasets,respectively,outperforming other advanced models. This method accuratelydistinguishedacute leukemia subtypecellsandservesasanefectivedesignapproach forcomputer-aideddiagnosisof leukemia.
Key words:leukemia;medical image processing;multi-scale feature fusion; Transformer
0 引言
全球造成成千上萬人死亡[1]。白血病初期癥狀包括疲勞、不明原因的體重減輕和頻繁感染,這些非典型癥狀易與其他普通疾病混淆,使病人錯過最佳治療時間。更重要的是該疾病的愈白血病是血液系統(tǒng)的惡性腫瘤,俗稱“血癌”,每年都會在后很差,任何診斷上的延誤都會對患者的生存率產(chǎn)生嚴重的負面影響。
為了解決這個問題,醫(yī)療專業(yè)人士建議人們定期體檢,進行常規(guī)血液檢查。在檢查中,醫(yī)生會對外周血涂片進行人工鏡檢,通過分析血細胞的形態(tài)來篩查白血病2。這一過程費時費力,且特別依賴檢查者的技術和經(jīng)驗,主觀性強,雖然出現(xiàn)了計算機輔助技術用于輔助檢查,但由于其分類精度不高,所以往往還是需要依靠醫(yī)生進行血細胞的分類與標記。
為了提高計算機輔助技術在白血病篩查方面的能力,已經(jīng)有許多人在相關鄰域進行研究。早期人們使用機器學習與手工特征相結合的方法構建模型對白血病進行分類[3-5],雖然此類方法訓練速度很快,但查詢時速度慢且對于噪聲數(shù)據(jù)表現(xiàn)不佳,分類效果有待提高。
隨著深度學習的不斷發(fā)展,越來越多的人開始使用深度學習方法[6\~8]。為了對ALL 細胞和健康細胞進行分類,Mourya等人[提出的模型使用卷積神經(jīng)網(wǎng)絡(CNN)提取離散余弦變換(DCT)域特征與光密度(OD)空間特征,將這兩種特征結合后送入分類器,最終準確率達到了 89.7% 。Gehlot等人[10]提出了SDCT-AuxNetθ用于區(qū)分ALL與正常細胞,它利用CNN分類器處理雙線性池化特征的同時使用SVM輔助分類器處理光密度特征,在ISBI2019數(shù)據(jù)集[11上達到了 94.8% 的準確率。Kassani等人[12]設計了一種自動化ALL細胞分類系統(tǒng),使用兩個經(jīng)過遷移學習CNN,通過混合不同網(wǎng)絡提取出來的圖像特征對細胞進行分類,在ISBI2019數(shù)據(jù)集上獲得了 96.17% 的準確率。此類方法雖然能有效提高分類效果但其對數(shù)據(jù)集質量與規(guī)模存在一定要求,難以進行推廣。
近幾年,隨著VisionTransformer[13]在圖像領域的興起,使用注意力機制對CNN模型進行加強的方法也越來越多[14,15]CNN和Transformer混合結構的應用使得模型能夠兼顧局部和全局信息的處理,因此混合模型在醫(yī)學圖像處理方面的應用也越來越多。Zhang等人[1設計了MSHT模型,將Transformer模塊引入到胰腺癌細胞分類中。模型將卷積神經(jīng)網(wǎng)絡生成的空間特征多階段空間特征轉變?yōu)槿肿⒁饬σ龑?,成功地在Rose圖像數(shù)據(jù)集中達到了 95.68% 的準確率。而在白血病細胞分類中,Jiang等人[17]提出了一個ViT-CNN集成模型對ALL細胞圖像和正常細胞圖像進行分類,以輔助急性淋巴細胞白血病的診斷,其結合了VisionTransformer模型和卷積神經(jīng)網(wǎng)絡模型,通過兩種完全不同的方式提取細胞圖像的特征,在ISBI2019數(shù)據(jù)集上的分類準確率達到了 99.03% 。結果表明雖然此種架構擁有良好的分類性能,但其細粒度分類能力還有待提高,存在進一步優(yōu)化以用于白血病亞型分類的空間
上述文獻通過各類神經(jīng)網(wǎng)絡對白血病分類方法進行研究,取得了優(yōu)異的成果,但大多數(shù)研究所使用的公開數(shù)據(jù)集(如:ISBI2019)僅包含白血病良惡細胞標簽,沒用針對白血病亞型進行標簽細分,導致針對白血病亞型的自動分類研究相對較少見。白血病可以分為髓系(AML)和淋系(ALL)兩大類,不同亞型的發(fā)病機制、治療方式以及愈后效果各不相同,因此,準確識別白血病亞型對于病人早期確診、制定有效治療方案至關重要。由于亞型分類中的原始細胞非常難區(qū)分,肉眼幾乎不可辨別,且類內(nèi)差異與類間相當,所以需要運用細粒度圖像識別方法進行精細化特征提取。然而在實際情況中由于樣本收集標注耗時長、工作難度大等原因,使得收集的數(shù)據(jù)集樣本量偏少且不平衡。而一般的細粒度網(wǎng)絡缺乏處理小樣本不平衡數(shù)據(jù)集的能力,無法有效應對亞型分類的需求。在這種背景下,模型需要具備更強的特征提取能力以及對不平衡數(shù)據(jù)的健壯性性,以提高分類的準確性。
為了解決上述問題,本文利用混合模式設計思路對現(xiàn)有細粒度特征提取架構進行重構,提出了基于多級多特征混合模型的白血病亞型自動分類模型(multi-scalemulti-featurehybridmodel,MSMFHM)。模型首先利用基于CNN的多尺度特征提取框架在不同層次上提取不同尺度的豐富信息,接著使用基于Transformer的多尺度混合模塊(multi-scalemixer,MSM),對不同尺度信息進行全局融合。緊接著多特征融合模塊(multi-featuremixer,MFM)會同時接受多尺度混合模塊的輸出特征和經(jīng)過CNN處理的紋理特征進行聯(lián)合特征提取。最終分類器將同時使用MSM模塊與MFM模塊提取的特征進行白血病亞型分類。
本文主要貢獻如下:
a)為了模擬醫(yī)生的觀察行為并增強網(wǎng)絡在各種尺度上提取細胞特征的能力,構建了一個多尺度特征提取框架。在這個框架內(nèi),利用并行池化操作對網(wǎng)絡輸入進行調(diào)節(jié),使CNN特征提取器能夠接收并提取樣本更加豐富的信息,增強了特征處理能力。
b)針對提取出的各尺度特征融合的問題,提出了多尺度混合模塊MSM,利用注意力機制對各尺度特征的特異點與共同點進行深度融合,有效增強了網(wǎng)絡對血細胞特征的定位與建模能力。
c)為了增強網(wǎng)絡的綜合性能,將紋理特征引入網(wǎng)絡,并設計了多特征融合模塊MFM對圖像多尺度融合特征與紋理特征進行聯(lián)合提取。
d)所提出的MSMFHM模型由專業(yè)醫(yī)學專家篩選的AML和ALL數(shù)據(jù)集與公開數(shù)據(jù)集上進行了評估,分別取得了 93.03% 和 99.42% 的準確率,超越了大多數(shù)自然圖像和細胞分類模型,展示出卓越的性能。
1方法
本文提出的多級多特征混合模型(MSMFHM)整體架構如圖1所示。針對白血病細胞圖片的特點,在特征提取階段模型使用了雙分支結構對圖像信息和紋理信息同時進行提取。圖像信息分支使用了多尺度特征提取框架,利用池化操作與CNN的配合,在相同特征圖尺寸下提取不同尺度的信息,并通過多尺度混合模塊MSM進行全局信息提取。紋理信息不如圖像信息復雜,所以紋理信息分支使用簡單卷積即可提取有效特征。在此之后,多特征融合模塊MFM將對紋理信息和多尺度信息進行聯(lián)合提取,以增強模型對細胞特征的辨識能力。最終分類器將同時接受MSM模塊與MFM模塊所提取的特征信息用于分類。
1.1多尺度特征提取框架
惡性細胞之間的差異有限,且細胞形態(tài)因人而異,導致其類內(nèi)差異大于類間差異,難以區(qū)分。因此,在血細胞形態(tài)學分析領域,傳統(tǒng)的粗粒度特征提取已經(jīng)不能滿足當前研究工作的需求,需要對細胞進行更細微的觀察。所以,本文在設計特征提取框架時,選用以Du等人[18]提出的細粒度特征提?。≒MG)網(wǎng)絡為基礎加以改進。在PMG網(wǎng)絡中,模型利用拼圖生成器生成不同粒度級別的輸入圖片并利用CNN基干提取出相應的三個不同尺度的特征圖,之后分別使用三個不同的分類器進行漸進式訓練與分類。但該模型訓練時間過長,且在面對細胞分類任務時容易出現(xiàn)過擬合,因此在設計網(wǎng)絡時只保留了其多尺度特征提取框架,并把特征提取網(wǎng)絡由傳統(tǒng)的ResNet-50[19] 更換為 ConvNeXt[20] 。ConvNeXt 模型以 Vision Transfor-mer(ViT)為參照對傳統(tǒng)的卷積模型在細節(jié)上進行了調(diào)整,有效提升了卷積網(wǎng)絡的綜合性能,有助于模型提取更具有辨識意義的局部特征。
此外,為了避免PMG網(wǎng)絡拼圖生成器所造成的局部信息和圖像空間結構關系的丟失,同時為了模擬醫(yī)生在辨別細胞時使用不同顯微鏡倍數(shù)觀察不同尺度信息的操作一在低倍率下觀察細胞染色是否正常,在高倍率下觀察細胞核之間的細微差別。模型設計了縮放聚焦模塊(resizefocus,RF)以替換網(wǎng)絡拼圖生成器,在特征提取前對原始圖像進行不同程度的縮放處理。RF模塊由并行的最大池化和平均池化組成,兼具了最大池化有利于提取局部突出特征和平均池化有助于減小圖像的空間維度的特點,公式如下:
xmaxpooli=Conv1(Maxpooling(xinputi))
xavgpooli=Conv2(Avgpooling(xinputi)))
xoutputi=Conv3(Concat(xMaxpooli,xiAvgpooli))
其中: xinputi 為輸入圖像, Convi 均為 1×1 卷積,加入卷積層的主要目的為整合池化信息,維持輸入通道數(shù)并作為可學習參數(shù)調(diào)整池化信息的比例。
如圖1所示,多尺度特征提取框架首先會利用RF模塊對輸入圖像尺寸進行三次不同程度的縮放。當輸入為 3×224× 224時,RF模塊輸出分別為 3×224×224,3×112×112,3×56×56c 隨后輸出圖像將依次送入CNN中進行多尺度特征提取。 3× 224×224 的圖像經(jīng)過CNN特征提取后將會在ConvBlock5輸出大小為 1024×7×7 的特征圖,記為 xoutput1 3×112×112 的圖像經(jīng)過CNN特征提取后將會在ConvBlock4輸出大小為 512×7×7 的特征圖,記為 xoutput2 3×56×56 的圖像經(jīng)過CNN特征提取后將會在ConvBlock3輸出大小為 256×7×7 的特征圖,記為xoutput3 。根據(jù)輸人尺寸的不同在CNN不同層級進行輸出可以避免模型對小尺寸輸入的過度處理并獲得相同大小的特征圖,便于后續(xù)網(wǎng)絡處理。
1.2 多尺度混合模塊
為了篩選更為重要的特征信息,并減少特征數(shù)量,本文設計了多尺度混合模塊。先前的特征提取使模型得到了細胞豐富的多尺度信息,而為了避免模型過于臃腫,需要在分類器前對特征進行融合與提取。Transformer有著優(yōu)秀的長距離建模能力,在注意力機制的引導下能夠更加細致地對全局信息進行綜合提取,有利于觀察細胞的整體特性。因此,在多尺度混合模塊中,模型利用注意機制的特征提取能力,深度整合來自不同尺度的特征。
在Transformer架構中,要求輸入具有相同的通道數(shù)量。因此,在不同尺度的特征圖進入模塊前需要對其進行預處理。特征圖將通過不同的ConvBlock進行通道調(diào)整,如圖1所示。在ConvBlock中會首先將不同特征的通道維度擴展到1024,然后將其壓縮到512以統(tǒng)一通道數(shù)量。這一過程公式如下:
xapi=ReLU(BatchNorm(Conv(xoutputi))))
xexpandi=ReLU(BatchNorm(Conv(xapi)))
在MSM模塊,如圖2所示,其前期處理與Transformer一致,即對輸人進行映射與編碼。所有特征圖都會經(jīng)過embed-ding模塊加入classtoken和位置編碼轉換為特征序列。在embedding模塊中,class token是一個可學習的矩陣,目的是為了將類別信息集中,在最后只有classtoken連接到分類器,以提高模型效率。位置編碼遵循標準的可學習設計,可以在patch中保留原始數(shù)據(jù)位置信息。總之在此過程中,特征圖被展平并轉置為特征序列 。然后,先通過拼接操作在特征序列首部加入classtoken,再對特征序列直接相加一維可學習位置編碼,編碼輸出記為 E ,其公式如下所示。
E=[xclass,xp1,xp2,…,xpN]+xpos
在一般的注意力網(wǎng)絡中,特征序列會經(jīng)過多個自注意力塊后再輸入到解碼器中對classtoken進行抽取。而本文參考了Yu等人[21]提出的PoolFormer架構中的觀點,即注意力機制是一種全局上下文信息提取操作,而其中的池化操作與注意力操作是等價的,并以此設計了全局點積操作(globaldot,Gdot)用以替換注意力對特征序列的處理。全局點積將特征向量經(jīng)全局平均池化后的信息作為權重,對原特征向量進行點積操作,公式如下:
xdot=BatchNorm(E?AvgPool(E))
在注意力融合過程中,不同的特征圖會分別作為查詢( 鍵 (K) 和值 (V) 。作為粒度級別較低的淺層特征 xoutput2 和 xoutput3 會經(jīng)過Gdot操作進一步提取深層信息后用作
和 K ,而 xoutput3 會在編碼后直接作為 V 進行輸入,這樣可以使不同階段的特征保持在同一特征深度。在輸出時為了防止可能出現(xiàn)的過擬合使用了類殘差的結構,
和 K 會與注意力融合結果一起進行輸出,輸出結果記為 Efeature 。其過程如下所示。
1.3多特征融合模塊
血細胞涂片圖像中存在豐富的細胞和細胞內(nèi)部結構的紋理特征,灰度共生矩陣(graylevelco-occurrencematrix,GLCM)能夠有效地捕捉到這些紋理特征,并將它們轉換為可以量化的特征向量,使模型可以更好地學習細胞內(nèi)部結構的變化和復雜性。通過灰度共生矩陣可以反映圖像灰度關于方向、相鄰間隔、變化幅度的綜合信息,使對細胞的紋理特征進行映射時可以在保持維度較低的情況下提供豐富的信息,有助于緩解小樣本數(shù)據(jù)帶來的過擬合問題。因此,本文選擇熵值灰度共生矩陣進行紋理特征計算,記為 xent ,計算公式如下:
其中: ?:p(i,j) 表示灰度圖片中 (i,j) 位置上的灰度值。
計算完成以后的紋理特征作為與細胞相對應的灰度圖片輸人,經(jīng)過簡易的卷積網(wǎng)絡提取深度特征后使用注意力機制提取特征,這一過程中的ConvBlock公式如下:
xentl=ReLU(BatchNorm(Conv(xentl-1)))l=1,2,3
單一紋理特征對模型的幫助有限,其主要作用是為提取出多尺度融合特征以紋理信息為指導進行加權,因此本文設計了多特征融合模塊,其結構如圖3所示。其中,映射、編碼等步驟與多尺度融合模塊相同。為了更全面地抽取紋理特征,模型對注意力結構進行了改進。在計算注意力分數(shù)時,經(jīng)過處理的紋理特征向量 xent3 將作為 Q,K 并重復計算兩次后利用可學習參數(shù)進行加權求和,公式如下:
改進后計算使模型可以更充分地學習到紋理特征之間的復雜非線性關系,增強了對紋理特征的表征學習能力。同時,可學習參數(shù)的加入使模型可以進行自適應權重分配,減少不相關信息的干擾,提高了模型的效率和泛化能力。多尺度融合模塊生成的融合特征 Efeature 此時將作為 ν 進行計算,公式如下:
Eent=drop(softmax(S)?V)
通過紋理特征對多尺度融合特征進行加權聚合,在增強模型對圖像紋理的感知能力的同時,也加強了模型對不同尺度信息的利用,有利于綜合性能的提升。
1.4分類器與損失函數(shù)
分類器會同時接受多尺度混合模塊的輸出特征和多特征混合模塊的輸出特征用于分類。為了減少分類器參數(shù)量,使模型不過于臃腫,分類器只會抽取特征中的classtoken進行計
算,公式如下:
Efeature=[xelassfeature,xoutputl1,xoutputl2,…,xoutputlN]
Eent=[xclassent,xoutput21,xoutput22,…,xoutput2N]
xclass=classifier(concate(xclassent,xclassfeature))
在損失函數(shù)的選擇中,為了展示模型的性能方便進行對比實驗,模型選擇常規(guī)的二元交叉熵損失函數(shù)進行計算。
2 實驗與結果分析
2.1 數(shù)據(jù)集
該研究已獲得山西醫(yī)科大學(中國太原)的倫理委員會批準,根據(jù)《赫爾辛基宣言》所有樣本均已去標識化,故獲得了豁免個體患者知情同意的許可。本研究的金標準是血液病理學家根據(jù)最新指南進行的診斷。所有診斷均基于臨床信息、骨髓細胞形態(tài)學、骨髓活檢結果、流式細胞術和遺傳數(shù)據(jù)進行確認。共有來自山西醫(yī)科大學第二醫(yī)院(中國太原)和山西省人民醫(yī)院(中國太原)的99名血液惡性腫瘤患者,包含急性髓系白血?。╝cutemyeloidleukemia,AML)和急性淋巴細胞白血?。╝cutelymphoblasticleukemia,ALL)。
為了收集足夠的細胞,本文使用SP-10儀器(Sysmex,日本神戶)對每位癌癥患者染色制作2或3張血涂片。并使用DI-60自動數(shù)字細胞圖像分析儀(Sysmex,日本神戶)分析血涂片,共收集了100082個數(shù)字化細胞圖像( 250×250 像素)。血涂片圖像中的許多成分和細胞對白血病及其亞型的診斷沒有貢獻,因此有選擇地保留了對各種白血病類型具有診斷意義的幼稚細胞。此外,體檢患者的惡性細胞和癌癥患者的正常細胞被排除在數(shù)據(jù)集之外。這些細胞圖像在臨床診斷和形態(tài)分析后進行了最后處理。它們以“jpg\"格式保存,分辨率為 360×360 都在相同的400倍放大倍數(shù)下。數(shù)據(jù)集在清洗后包括5121張急性髓系白血病(AML)細胞圖像,以及2035張急性淋巴細胞白血?。ˋLL)細胞圖像,該數(shù)據(jù)集總體規(guī)模與相關公開數(shù)據(jù)集類似,可以正常進行實驗研究,如圖4所示。
此外,由于缺乏此類公開數(shù)據(jù)集,本文選擇整合兩個相關公開數(shù)據(jù)集作為模型的獨立外部測試集對模型性能進行檢驗,如圖5所示。該測試數(shù)據(jù)集中的ALL細胞來自ISBI2019數(shù)據(jù)集[11],共選取了69名ALL患者的2397張細胞圖片,這些細胞是從顯微圖像中分割出來的,每個圖片都是采集后的真實圖像。該測試數(shù)據(jù)集中的AML細胞來自慕尼黑白血病實驗室數(shù)據(jù)集[22],共選取100名患者的2836張圖片,為了使該細胞圖片與ISBI2019數(shù)據(jù)集一致,本文使用 SAM[23] 對圖片進行了分割操作。
2.2實驗流程與模型實現(xiàn)細節(jié)
為了模擬真實情況并提高模型的穩(wěn)定性與健壯性,數(shù)據(jù)集在患者層面進行了訓練和驗證集的劃分。換句話說,與一個患者相關的所有細胞圖像要么全部包括在訓練集中,要么全部包括在驗證集中。在本文中,對于AML數(shù)據(jù),有4240張圖片分配給訓練集,881張圖片分配給驗證集;對于ALL數(shù)據(jù),有1752張圖片分配給訓練集,283張圖片分配給驗證集。在實驗中,模型使用3折交叉驗證重復訓練三次。每次實驗均訓練100 epochs,在指定epoch中驗證集準確性表現(xiàn)最佳的模型被保存為輸出模型,使用獨立測試集進行測試。
為了消除不同數(shù)據(jù)集細胞圖片染色不同的問題,本文將圖片轉換為HSV格式。在每次訓練過程中,輸入圖像都會被隨機旋轉,隨機水平翻轉和隨機“顏色抖動”,并在縮放到 256× 256大小后隨機剪裁到 224×224 。
模型利用PyTorch框架進行構建,多尺度特征提取框架中使用ConvNeXt-base模型作為CNNbackbone,參數(shù)設置與原模型保持一致。在多尺度混合模塊和多特征融合模塊中,由于接收的特征圖已有較小尺寸,故在注意力實現(xiàn)過程中沒有對圖片進行切片操作,而是展平后直接進行編碼操作,注意力編碼維度為512。最終各模塊輸出的classtoken在進入分類器前會統(tǒng)一進行展平操作,并通過卷積操作將通道數(shù)調(diào)整至1024。
模型在配備了NVIDIARTXA5000GPU和64GB內(nèi)存的服務器上進行訓練。軟件環(huán)境包括Python版本3.11.4和PyTorch版本 2.1.0+cull8 。訓練過程中使用RMSprop優(yōu)化器,初始學習率1E-5,并使用了余弦退火算法在訓練過程中動態(tài)調(diào)整學習率。此外,所有的訓練進展都使用Wandb平臺在線記錄。MSMFHM模型進行100epochs訓練大約需要 3h 的計算時間。
2.3 評價指標
對于MSMFHM和它的對照模型,采用了各種指標進行實驗結果的評估,包括準確度(Acc),精確度(Pre),召回率(Rec),敏感度(Sen),特異性(Spe),陽性預測值(PPV),陰性預測值(NPV)和 F1 分數(shù)。對于2類別分類任務(陽性或陰性),這些指標基于真正例(TP),真負例(TN),假正例(FP)和假負例(FN)進行計算。
2.4實驗結果與對比實驗
由于該領域的研究主要集中在良惡性分類上,專門針對白血病惡性分類的模型相對較少。因此,本文對提出的MSMF-HM模型與幾種廣泛使用的最先進模型以及三種最新的相關模型進行了比較評估。這些模型包括 MViTv2[24] (2022)、Conv-NeXt[20] (2022)、 ViT[13] (2020)、PMG[18](2020)、Swin Trans-former[25](2021),以及 SDCT-AuxNet[10](2020)、H-MIL[26](2023)和文獻[17](2021)中的模型。所有模型均在相同的超參數(shù)設置下收斂,并基于相同的標準對測試數(shù)據(jù)集上的性能進行了比較。
表1展示了這些模型在血細胞圖像分類測試過程中三次實驗的平均結果。MSMFHM表現(xiàn)出了卓越的整體性能,以 93.03% 的最高準確率(Acc)顯著超過了其他網(wǎng)絡。盡管大多數(shù)模型的準確率接近 89% ,但數(shù)據(jù)集的不平衡(2235個負樣本對比5121個正樣本)導致分類器傾向于多數(shù)類,造成了更高的特異性(Spe)和精確度(PPV)。然而,MSMFHM在代表了少數(shù)類敏感性(Sen)和陰性預測值(NPV)上取得了更高的結果,從而有助于整體性能的提升和 F1 得分的提高。通過比較表1可以發(fā)現(xiàn),與注意力相關的模型如ViT、SwinTransformer和MViTv2模型在整體得分上表現(xiàn)良好。這表明細胞圖像中的紋理信息可以通過基于注意力的全局特征提取方法在一定程度上被識別,但由于缺乏細粒度識別能力導致其無法很好地區(qū)分疾病亞型。因此,MSMFHM通過將注意力機制與紋理特征相結合,與多尺度特征提取框架相結合,有效彌補了注意力模型的缺點,提高了整體性能。
隨后,本文使用公開數(shù)據(jù)集組成的獨立外部測試集對模型效果進行驗證,在此期間不對訓練權重進行任何微調(diào)。在表2中,Transformer系列模型的準確度相比表1大幅下降,表示該系列模型受限于數(shù)據(jù)集規(guī)模和模型復雜度出現(xiàn)了過擬合現(xiàn)象。同樣CNN系列模型準確率也有下滑,其中表現(xiàn)最差的是細粒度圖像識別模型PMG,這表明雖然血細胞分類符合細粒度識別的類間差距小的特點,但由于數(shù)據(jù)集偏小的緣故,導致模型所需有效樣本不足,出現(xiàn)了過擬合現(xiàn)象。與之相對應的,本文模型相比其他模型再次表現(xiàn)出了最好的 Acc 與 F1 分數(shù),這表明模型能夠在小樣本數(shù)據(jù)集中提取出兼具差異性與泛化性的重要特征,展示了模型強大的綜合能力。
MSMFHM參數(shù)量約為 105M ,計算量約為 20G ,略大于:a)傳統(tǒng)卷積模型,如PMG模型(base模型參數(shù)量約為 63M ,計算量約為15G);b)注意力相關模型,如ViT(base模型參數(shù)量約為 86M ,計算量約為17G),SwinTransformer(base模型參數(shù)量約為 88M ,計算量約為15G)。綜上所述,MSMFHM的參數(shù)量與計算量在正??山邮艿姆秶鷥?nèi),但仍存在優(yōu)化空間,需要進一步的研究加以改進。
所示,其中(a)\~(c)為AML圖像,(d) ~ (f)為ALL圖像,紅色區(qū)域表示與輸出高度相關的區(qū)域,也就是模型的主要關注點(見電子版)。注意力區(qū)域的清晰顯示表明MSMFHM模型成功地捕獲了不同白血病種類細胞之間最具有差異性特征的細胞核區(qū)域。這進一步強調(diào)了MSMFHM模型在識別白血病細胞中的關鍵特征方面的有效性和準確性。
通過這種可視化方法可以更加深入地理解模型的工作原理,為其在臨床實踐中的應用提供了有力的支持。
此外,本文還使用 χt -SNE對原始圖像和模型特征圖進行分析,分析結果如圖7所示。在圖7(a)中,可以明顯看到原始圖像中的不同樣本類別混雜在一起,這代表各類樣本原始特征相似,為有效區(qū)分帶來了挑戰(zhàn)。而在圖7(b)中,經(jīng)過網(wǎng)絡處理后,不同樣本類別之間顯示出了明顯的邊界。同時,原始圖像由于具有豐富的復雜特征使其在 χt -SNE處理后,導致信息丟失并使樣本點在二維空間中呈現(xiàn)出廣泛散布的狀態(tài)。而處理后的圖像簡化了原始特征,增強了不同類別樣本之間的區(qū)分性特征,增加了類間距離并改變了樣本點分布,導致處理后部分空間未被完全占據(jù)。此情況表明了該網(wǎng)絡在特征選擇和提取方面具有卓越的能力。
綜上所述,MSMFHM在所有六項標準 Acc.Spe.Sen.PPV 、NPV和 F1 分數(shù)方面均取得了較好的成績,綜合性能優(yōu)于其他模型,且所提出的MSMFHM相比于其他模型在不平衡數(shù)據(jù)條件下具有更好的健壯性。
2.5 消融實驗
為了評估結構改進的效果并探討所提出的MSMFHM模型的效率,本文在相同的訓練和驗證設置下進行了多組消融實驗。MSMFHM消融實驗的主干網(wǎng)絡是官方的ConvNeXt-base網(wǎng)絡。消融實驗的結果如表3所示。當移除MSM模塊時,將使用拼接操作進行替換;當移除RF模塊時,模型則改為多尺度特征提取后利用ConvBlock進行特征圖大小的統(tǒng)一;當移除MFM模塊時,模型僅使用輸入圖像的多尺度特征進行分類預測。實驗結果表明,移除任何一個模塊都會導致模型性能下降,凸顯出這三個模塊在分類預測中的重要作用。
在消融實驗中,本文設計了不同條件的八次實驗,以考察每個模塊對模型性能的影響。最初,當未使用任何模塊時,模型的整體準確率為 88.79% ,敏感性為 80.68% 。這表明基礎模型具備一定的識別能力,但在識別負樣本方面表現(xiàn)較弱。RF模塊旨在通過控制輸入大小來幫助多尺度特征提取網(wǎng)絡生成不同尺度的特征。僅添加RF模塊后,模型的準確率顯著提高至 90.19% 。MSM模塊是網(wǎng)絡中最關鍵的模塊,它通過編碼和注意力機制有效整合了分層特征。引入MSM模塊后,模型的準確率達到92. 14% ,敏感性達到 87.75% 。這凸顯了MSM模塊在提升模型整體性能和識別負樣本方面的重要作用。引入MFM模塊的目的是增強特征的豐富性并提高模型的整體性能。然而,單獨使用MFM模塊對模型準確率的影響較小,表明在當前實驗設置下其對模型性能的貢獻有限。此外,RF和MSM模塊的同時使用進一步將模型的準確率提升至92.12% ,展示了這兩個模塊之間的協(xié)同效應。另外,RF和MFM模塊的組合,以及MSM和MFM模塊的組合,表明MFM模塊在組合使用時表現(xiàn)更佳,更適合與其他模塊進行協(xié)同合作。最終,在同時啟用所有模塊的情況下,模型實現(xiàn)了最佳性能,準確率達到 93.03% 新 F1 得分為 92.62% 。這表明同時利用RF、MSM和MFM模塊能夠最大限度地提升模型性能及其識別正負樣本的能力。
3結束語
為解決小樣本不平衡數(shù)據(jù)集的細粒度識別問題,本研究提出了MSMFHM模型,通過多尺度多特征混合設計,將對細粒度特征識別框架進行改進,成功引人了一個更為有效的模型網(wǎng)絡到白血病圖像分析領域。與現(xiàn)有的先進模型相比,MSMFHM在準確度和 F1 分數(shù)顯著提升。通過有效整合多尺度特征和紋理特征,MSMFHM模型能夠從多個角度對細胞進行全面而細致的建模。在特征融合階段,通過利用注意力機制的全局建模能力,MSMFHM有效地從多尺度特征和紋理特征中提取有價值的信息。與注意力相關模型和細粒度識別模型相比,MSMFHM的多尺度特征提取設計增強了模型的穩(wěn)定性和魯棒
在未來的研究中,計劃通過在不同數(shù)據(jù)集上進行更多實驗來進一步探索模型的潛力。同時,將繼續(xù)優(yōu)化模型的架構和損失函數(shù),以提升其性能和效率。此外,未來的目標還包括探討如何將這些研究成果轉換為實際的臨床應用,從而推動白血病的診斷和治療。
參考文獻:
[1]SainiA,KumarM,Bhatt S,et al.Cancercauses andtreatments [J].International Journal of Pharmaceutical Sciencesand Research,2020,11:3121-3134.
[2]Mittal A,Dhalla S,Gupta S,et al. Automated analysis of blood smearimages forleukemia detection:a comprehensivereview[J]. ACM Computing Surveys(CSUR),2022,54(11s):1-37.
[3]Mishra S,Majhi B,Sa P K,et al.Gray level co-occurrence matrix and random forest based acute lymphoblastic leukemia detection [J]. Biomedical Signal Processing and Control,2017,33:272-280.
[4]Rawat J,Singh A,Bhadauria H,et al.Classification of acute lymphoblasticleukaemiausinghybrid hierarchical classifiers[J].Multimedia Tools and Applications,2017,76(18):19057-19085.
[5]Srisukkham W,Zhang Li,Neoh S,et al.Intelligent leukaemia diag nosis with bare-bones PSO based feature optimization [J].Applied Soft Computing,2017,56:405-419.
[6]Laosai J, Chamnongthai K. Deep-learning-based acute leukemia classification using imaging flow cytometry and morphology[C]//Proc of International Symposium on Intelligent Signal Processing and Communication Systems. Piscataway,NJ:IEEE Press,2018: 427-430.
[7]Rawat J, Virmani J,Singh A,et al.FAB clasification of acute leukemiausingan ensembleof neural networks[J].Evolutionary Intelligence,2022,15(1):99-117.
[8]Yu Wei,Chang Jing,Yang Cheng,et al.Automatic classification of leukocytes using deep neural network [C]//Proc of the 12th IEEE International Conference on ASIC. Piscataway,NJ: IEEE Press,, 2017:1041-1044.
[9]Mourya S,KantS,Kumar P,et al. LeukoNet:DCT-based CNN architecturefor the classfication ofnormal versusleukemic blastsin B-ALL cancer[EB/OL]. (2018-10-18).htps://arxiv.org/abs/ 1810. 07961.
[10]Gehlot S,Gupta A,GuptaR.SDCT-AuxNet 0:DCTaugmented staindeconvolutional CNNwithauxiliaryclassifierforcancer diagnosis [J].Medical ImageAnalysis,2020,61:101661.
[11]Verma E,Singh V. ISBI challenge 2O19:convolution neural networks for B-ALL cell classification [C]//Proc of ISBI C-NMC Challenge : Classification in Cancer Cell Imaging:Select Proceedings.2019: 131-139.
[12]Kassani Sh,Kassani Ph,WesolowskiM,et al.A hybrid deeplearningarchitecture for leukemic B-lymphoblast classification [C]/′ (20 Proc of International Conference on Information and Communication Technology Convergence. Piscataway,NJ:IEEE Press,2019:271-276.
[13]DosovitskiyA,BeyerL,Kolesnikov A,etal.An image is worth 16x16 words:Transformers for image recognition at scale [EB/OL]. (2020-10-22).https://arxiv.org/abs/2010.11929.
[14]Dai Zihang,Liu Hanxiao,Le Q V,et al. CoAtNet: marrying convolutionandattentionforall datasizes[C]//Procofthe35th International Conference on Neural Information System.Red Hook,NT:Curran Associations Inc.,Piscataway,NJ:IEEEPress,2021:3965-3977.
[15]Wu Haiping,Xiao Bin,Codella N,et al.CvT:introducing convolutionstovision transformers[C]//Proc ofIEEE/CVFInternational Conference on Computer Vision. 2021:22-31.
[16] Zhang Tianyi,F(xiàn)eng Yunlu,Zhao Yu,et al.MSHT:multi-stage hybrid Transformer for the ROSE image analysis of pancreatic cancer [J]. IEEE Journal of Biomedical and Health Informatics,2023, 27(4):1946-1957.
[17]Jiang Zhencun,Dong Zhengxin,Wang Lingyang,et al.Method for diagnosis of acute lymphoblastic leukemia based on ViT-CNN ensemble model[M]// Computational Intelligence and Neuroscience.2021.
[18]DuRuoyi,Chang Dongliang,Bhunia AK,et al.Fine-grained visual classification via progressivemulti-granularity training of jigsaw patches [C]//Proc of European Conference on Computer Vision. Cham:Springer,2020:153-168.
[19]HeKaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learningforimagerecognition[C]//Procof IEEEConferenceon Computer Vision and Patern Recognition. Piscataway,NJ: IEEE Press,2016: 770-778.
[20]Liu Zhuang,Mao Hanzi,WuCY,etal.A ConvNet for the 2020s [C]//Proc of IEEE/CVF Conference on ComputerVisionand Pattern Recognition. 2022:11976-11986.
[21]Yu Weihao,LuoMi,Zhou Pan,et al.MetaFormer isactually what you need for vision [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2022:10819-10829.
[22]Hehr M,Sadafi A,Matek C,et al. Explainable AI identifies diagnostic cells of genetic AML subtypes[J].PLOS Digital Health,2023, 2(3):e0000187.
[23]KirillovA,Mintun E,Ravi N,et al.Segment anything[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2023:4015-4026.
[24]Li Yanghao,Wu C Y,F(xiàn)an Haoqi,et al.MViTv2:improved multiscale vision transformers for classification and detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022:4804-4814.
[25]Liu Ze,Lin Yutong,Cao Yue,et al.Swin Transformer:hierarchical vision transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2021:10012-10022.
[26]Gao Zeyu,Mao Anyu,Wu Kefei,et al.Childhood leukemia classificationviainformationbottleneck enhancedhierarchicalmulti-instance learming[J]. IEEE Trans on Medical Imaging,2023,42(8): 2348-2359.
[27]SelvarajuRR,CogswellM,DasA,et al.Grad-CAM:visual explanations from deep networksvia gradient-basedlocalization [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2017:618-626.