趙天賜,李建英,連荷清,劉丹,王庚,王欣,李柏蕤,吳衛(wèi)(.中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院檢驗(yàn)科,北京 00730;.北京小蠅科技有限責(zé)任公司,北京 00084)
血液分析儀作為外周血常規(guī)檢測儀器,可以對血細(xì)胞進(jìn)行自動分析,生成包括細(xì)胞計(jì)數(shù)與分類、細(xì)胞散點(diǎn)圖/直方圖、報(bào)警信息和可供參考的研究參數(shù)等結(jié)果。在日常血常規(guī)審核工作中,如果能夠第一時(shí)間從細(xì)胞散點(diǎn)圖/直方圖中發(fā)現(xiàn)問題,將極大程度節(jié)省結(jié)果分析、審核時(shí)間,提高工作效率,減少漏檢[1-2]。
準(zhǔn)確判斷細(xì)胞散點(diǎn)圖/直方圖是否正確是全血細(xì)胞分析初篩過程中的關(guān)鍵步驟。雖然血細(xì)胞分析儀提供了大量散點(diǎn)圖相關(guān)的報(bào)警信息[3-6],但在實(shí)際工作中,若完全依賴于儀器提供的報(bào)警信息,由于儀器內(nèi)部報(bào)警閾值或其他因素的影響,有時(shí)會出現(xiàn)誤報(bào)、漏報(bào)的情況,對最終的判斷帶來一定的不確定性。
為了能夠在實(shí)際工作中給檢驗(yàn)工作者提供準(zhǔn)確、全面的白細(xì)胞散點(diǎn)圖判斷結(jié)果作為參考,本研究設(shè)計(jì)了一個(gè)深度學(xué)習(xí)模型,用于識別和判斷血細(xì)胞分析儀中白細(xì)胞分類(white blood cell difference,WDF)通道散點(diǎn)圖是否異常。該模型將散點(diǎn)圖作為輸入,輸出散點(diǎn)圖正常或者異常的判斷結(jié)果。該模型基于卷積自編碼器算法[7-9]進(jìn)行特征提取,采用pytorch框架進(jìn)行訓(xùn)練,同時(shí)加入先驗(yàn)知識算法形成雙重驗(yàn)證機(jī)制,使模型能夠精確識別出異常散點(diǎn)圖,為檢驗(yàn)技師提供更有價(jià)值的參考,減少漏檢。
1.1 樣本選擇
1.1.1 模型建立與驗(yàn)證樣本選擇 選取北京協(xié)和醫(yī)院檢驗(yàn)科2020年5月至8月門診及住院患者的EDTA-K2抗凝血常規(guī)樣本32 729例,提取其WDF通道散點(diǎn)圖,其中首診樣本約占70%,復(fù)診樣本約占30%。所有樣本均在采集后4 h內(nèi)完成檢測。
1.1.2 模型測試樣本選擇 選取北京協(xié)和醫(yī)院檢驗(yàn)科2020年9月至10月門診及住院患者的EDTA-K2抗凝血常規(guī)樣本11 043例。所有樣本均在采集后4 h內(nèi)完成檢測。
1.2 主要儀器與試劑 Sysmex XN-20全自動血液分析儀及其配套檢測試劑、質(zhì)控品、校準(zhǔn)品(日本Sysmex公司)。
1.3 WDF通道散點(diǎn)圖細(xì)胞分類判斷方法 根據(jù)Sysmex XN-20儀器說明書中模式圖對WDF通道散點(diǎn)圖的細(xì)胞區(qū)域劃分方法對散點(diǎn)圖中出現(xiàn)的異常細(xì)胞分為7類,包括影細(xì)胞/細(xì)胞碎片、有核紅細(xì)胞、異常淋巴細(xì)胞/原幼淋巴細(xì)胞、不典型淋巴細(xì)胞/異型淋巴細(xì)胞、原始細(xì)胞、核左移、幼稚粒細(xì)胞,見圖1。
圖1 WDF通道散點(diǎn)圖細(xì)胞分類
1.4 數(shù)據(jù)集劃分
1.4.1 第1階段數(shù)據(jù) 選取北京協(xié)和醫(yī)院檢驗(yàn)科2020年5月至8月門診及住院患者的EDTA-K2抗凝血常規(guī)樣本,提取其WDF通道散點(diǎn)圖共計(jì)32 729份。由3位檢驗(yàn)技師對散點(diǎn)圖進(jìn)行分期標(biāo)注,間隔2周(脫敏期,排除人為主觀因素影響前后2次標(biāo)注結(jié)果)后,對這些散點(diǎn)圖進(jìn)行第2次標(biāo)注。其中,3位檢驗(yàn)技師2次標(biāo)注共6人次結(jié)果全部一致的散點(diǎn)圖共28 302份,可以認(rèn)為此28 302份散點(diǎn)圖為特征顯著散點(diǎn)圖。另有4 427份散點(diǎn)圖,雖然3位檢驗(yàn)技師最初的標(biāo)注結(jié)果不一致,但經(jīng)過共同討論后達(dá)成一致,若無法達(dá)成一致則追溯涂片鏡檢結(jié)果為最終判斷結(jié)果,據(jù)此認(rèn)為此4 427份散點(diǎn)圖為特征不顯著散點(diǎn)圖。數(shù)據(jù)集分為2類,即正常散點(diǎn)圖和異常散點(diǎn)圖,正常散點(diǎn)圖共20 959份,異常散點(diǎn)圖共11 770份。訓(xùn)練集、驗(yàn)證集和測試集A所含散點(diǎn)圖數(shù)量按照8∶1∶1進(jìn)行劃分。
1.4.1.1 訓(xùn)練集 用于前期模型訓(xùn)練。28 302份特征顯著散點(diǎn)圖中隨機(jī)選取80%,即22 642份散點(diǎn)圖加入訓(xùn)練集,4 427份特征不顯著散點(diǎn)圖中隨機(jī)選取80%,即3 543份散點(diǎn)圖加入訓(xùn)練集,訓(xùn)練集共26 185份。
1.4.1.2 驗(yàn)證集 用于驗(yàn)證模型性能。28 302份特征顯著散點(diǎn)圖中選擇除訓(xùn)練集之外數(shù)據(jù),隨機(jī)選取10%,即2 830份散點(diǎn)圖加入驗(yàn)證集,4 427份特征不顯著散點(diǎn)圖中選擇除訓(xùn)練集之外數(shù)據(jù),隨機(jī)選取10%,即442份散點(diǎn)圖加入驗(yàn)證集,驗(yàn)證集共3 272份。
1.4.1.3 測試集A 用于選擇性能最優(yōu)的模型。28 302份特征顯著散點(diǎn)圖中選擇除訓(xùn)練集與驗(yàn)證集之外數(shù)據(jù),即2 830份散點(diǎn)圖加入測試集A,4 427份特征不顯著散點(diǎn)圖中除訓(xùn)練集與驗(yàn)證集之外數(shù)據(jù),即442份散點(diǎn)圖加入測試集A,測試集A共3 272份。
正常散點(diǎn)圖和異常散點(diǎn)圖數(shù)據(jù)量分布見表1,特征顯著散點(diǎn)圖和特征不顯著散點(diǎn)圖數(shù)據(jù)量分布見表2。
表1 正常散點(diǎn)圖和異常散點(diǎn)圖數(shù)據(jù)量分布
表2 特征顯著、不顯著散點(diǎn)圖數(shù)據(jù)量分布
1.4.2 第2階段數(shù)據(jù) 從北京協(xié)和醫(yī)院檢驗(yàn)科2020年9月至10月門診及住院患者的EDTA-K2抗凝的血常規(guī)樣本,隨機(jī)選出11 043份WDF通道散點(diǎn)圖,由相同的檢驗(yàn)技師利用與第1階段數(shù)據(jù)同樣的方法進(jìn)行標(biāo)注,對于標(biāo)注結(jié)果不一致的散點(diǎn)圖,由3位檢驗(yàn)技師共同討論得到最終結(jié)果。此11 043份散點(diǎn)圖包含了特征顯著散點(diǎn)圖及特征不顯著散點(diǎn)圖,構(gòu)成了測試集B。
1.5 深度學(xué)習(xí)算法與圖像分析
1.5.1 圖像預(yù)處理 從Sysmex XN-20全自動血液分析儀中導(dǎo)出WDF通道散點(diǎn)圖后,為去除原始圖像中可能的干擾信息對模型輸出結(jié)果的影響、便于模型對輸入圖像進(jìn)行識別和特征提取,主要對原始圖像進(jìn)行了以下預(yù)處理。①將散點(diǎn)圖格式統(tǒng)一轉(zhuǎn)換為png格式;②去除散點(diǎn)圖中與散點(diǎn)不相關(guān)的信息,如坐標(biāo)軸及標(biāo)識等;③將散點(diǎn)圖背景統(tǒng)一轉(zhuǎn)換為白色。
1.5.2 網(wǎng)絡(luò)結(jié)構(gòu) 模型主要由卷積自編碼器中的編碼模塊、解碼模塊、異常值計(jì)算模塊和統(tǒng)計(jì)模塊組成,最終分類器采用神經(jīng)網(wǎng)絡(luò)模型和先驗(yàn)知識雙重驗(yàn)證機(jī)制,提高模型輸出準(zhǔn)確率。具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)圖
1.5.2.1 卷積自編碼器中的編碼模塊 編碼模塊可對輸入的待測圖像進(jìn)行特征提取,并且隨著編碼網(wǎng)絡(luò)的層次逐漸加深,提取的特征也呈現(xiàn)出由淺層到深層的特點(diǎn)。使用大量具有相同或相似特征的正常白細(xì)胞散點(diǎn)圖對編碼器進(jìn)行訓(xùn)練,可以使其準(zhǔn)確捕捉用于重構(gòu)圖像的特征信息。
1.5.2.2 卷積自編碼器中的解碼模塊 解碼模塊中的計(jì)算操作是編碼模塊的逆向操作,旨在由特征值還原出原圖像,得到重構(gòu)圖像。解碼器的訓(xùn)練與編碼器協(xié)同進(jìn)行,訓(xùn)練的最終目標(biāo)是使卷積自編碼器對正常白細(xì)胞散點(diǎn)圖的重構(gòu)誤差最小化。
1.5.2.3 異常值計(jì)算模塊 異常值計(jì)算模塊以重構(gòu)圖像和待測圖像作為輸入,計(jì)算二者之間的均方誤差作為卷積自編碼器的重構(gòu)誤差,并作為異常值計(jì)算的依據(jù)。
1.5.2.4 統(tǒng)計(jì)模塊 統(tǒng)計(jì)模塊以先驗(yàn)知識和待測圖像作為輸入,首先將擁有數(shù)十年散點(diǎn)圖判斷經(jīng)驗(yàn)的檢驗(yàn)技師知識經(jīng)驗(yàn)轉(zhuǎn)化為一系列統(tǒng)計(jì)指標(biāo)對應(yīng)的約束條件,之后待測圖像在統(tǒng)計(jì)模塊中經(jīng)歷相關(guān)數(shù)學(xué)運(yùn)算和變量統(tǒng)計(jì)得到判定結(jié)果。
1.5.2.5 分類器 異常值計(jì)算模塊輸出的異常值和統(tǒng)計(jì)模塊輸出的基于先驗(yàn)知識算法的判定結(jié)果均輸入到分類器之中,由分類器作進(jìn)一步的判斷,最終輸出結(jié)果。
1.6 性能確認(rèn)方法 最終以模型識別的精確率作為性能指標(biāo),算法模型在測試集上的精確率達(dá)到95%以上,且比檢驗(yàn)技師高,則能說明算法有較好的識別效果,同時(shí)能幫助檢驗(yàn)技師減少漏檢。另外,對比算法與檢驗(yàn)技師在異常散點(diǎn)圖以及特征不顯著散點(diǎn)圖上的識別精確率,算法模型識別性能有顯著提高,則能表明算法在比較難發(fā)現(xiàn)的(異常)樣本上對檢驗(yàn)技師有更有益的輔助作用,同時(shí)由方差來判斷其穩(wěn)定性。精準(zhǔn)率計(jì)算公式:P=TP/(TP+FP);P:精準(zhǔn)率;TP:把正類預(yù)測為正類的個(gè)數(shù);FP:把負(fù)類預(yù)測為正類的個(gè)數(shù)。
2.1 訓(xùn)練過程與結(jié)果 按照設(shè)計(jì)的先后順序訓(xùn)練了2個(gè)模型:模型1是現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型;模型2加入了先驗(yàn)知識算法,將圖像特征和先驗(yàn)知識結(jié)合,得到最終結(jié)果。
模型1是采用基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法構(gòu)建檢測模型。算法訓(xùn)練采用pytorch框架,訓(xùn)練過程經(jīng)過100個(gè)epoch,當(dāng)損失函數(shù)loss穩(wěn)定時(shí),即為訓(xùn)練過程結(jié)束,訓(xùn)練過程中每一個(gè)epoch結(jié)束時(shí)都會通過反向傳播對預(yù)測結(jié)果與真實(shí)結(jié)果比較,得到預(yù)測結(jié)果精確率,預(yù)測結(jié)果精確率較高的幾組模型作為備選模型,同時(shí)將備選模型用于測試集A,精確率最高的成為最優(yōu)模型。
模型2在模型1的基礎(chǔ)上加入先驗(yàn)知識算法,將神經(jīng)網(wǎng)絡(luò)模型中預(yù)測結(jié)果精確率較高的幾組模型與先驗(yàn)知識算法相結(jié)合作為備選模型,同時(shí)將備選模型用于驗(yàn)證數(shù)據(jù)集,精確率最高的為最優(yōu)模型。
2個(gè)模型在驗(yàn)證集上的表現(xiàn)見表3,模型2訓(xùn)練過程中Loss變化曲線見圖3,模型2訓(xùn)練過程中在驗(yàn)證集精確率變化曲線見圖4。
表3 2個(gè)模型在驗(yàn)證集上的表現(xiàn)結(jié)果
圖3 模型2訓(xùn)練過程中Loss變化曲線
圖4 模型2訓(xùn)練過程中在驗(yàn)證集的精確率變化曲線
2.2 測試過程與結(jié)果 在測試集A和測試集B上,模型2和檢驗(yàn)技師的精確率比較見表4,其中,檢驗(yàn)技師的精確率由3位檢驗(yàn)技師標(biāo)定的不同結(jié)果與最終討論結(jié)果對比產(chǎn)生。
表4 模型2和檢驗(yàn)技師在測試集A和測試集B的精確率比較
將測試集B中所含散點(diǎn)圖按是否正常分為正常散點(diǎn)圖和異常散點(diǎn)圖,按3位檢驗(yàn)技師2次標(biāo)定結(jié)果是否完全一致分為特征顯著散點(diǎn)圖和特征不顯著散點(diǎn)圖,并比較模型2、檢驗(yàn)技師和血液分析儀的精確率,結(jié)果見表5。
表5 模型2、檢驗(yàn)技師和血液分析儀在測試集B的精確率比較
在醫(yī)學(xué)領(lǐng)域,許多研究者已將圖像處理、傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等相關(guān)算法運(yùn)用到實(shí)際問題中[10-12]。WDF通道散點(diǎn)圖作為血常規(guī)初篩過程中判斷白細(xì)胞分類是否正確的一個(gè)重要參考,在血常規(guī)復(fù)檢和審核工作中尤為重要[13-16]。截至目前,在外周血細(xì)胞分析的復(fù)檢和審核規(guī)則中,與散點(diǎn)圖相關(guān)的規(guī)則僅為儀器是否給出陽性報(bào)警,若完全依賴儀器給出的陽性報(bào)警而不對散點(diǎn)圖進(jìn)行具體分析,則可能會出現(xiàn)漏檢。此外,鑒于檢驗(yàn)技師水平和經(jīng)驗(yàn),對散點(diǎn)圖的識別有差異,極有可能因無法識別出特征不顯著散點(diǎn)圖中存在的異常而出現(xiàn)漏檢。
本研究設(shè)計(jì)的模型將標(biāo)準(zhǔn)散點(diǎn)圖和高年資檢驗(yàn)技師的數(shù)十年散點(diǎn)圖判斷經(jīng)驗(yàn)相結(jié)合。采用深度學(xué)習(xí)算法針對散點(diǎn)圖提取高級特征,精確識別和定位散點(diǎn)圖異常點(diǎn),篩選有用信息自動建模,忽略不相干的背景信息。此外,將擁有數(shù)十年散點(diǎn)圖判斷經(jīng)驗(yàn)的高年資檢驗(yàn)技師的判斷經(jīng)驗(yàn)轉(zhuǎn)化為模型判斷條件,形成先驗(yàn)知識算法,與深度學(xué)習(xí)算法形成雙重驗(yàn)證機(jī)制,對散點(diǎn)圖進(jìn)行高精確率識別,使得模型的綜合判斷能力得到了極大的提升。
從實(shí)驗(yàn)結(jié)果表3可以看出,增加了先驗(yàn)知識算法之后的模型在精確率性能上表現(xiàn)更好,說明了檢驗(yàn)技師的判斷經(jīng)驗(yàn)?zāi)軌蛟谝欢ǔ潭壬蠌浹a(bǔ)儀器模式圖帶來的過擬合和精確率低等問題,使模型具有更好的魯棒性和泛化能力。從實(shí)驗(yàn)結(jié)果表4和表5可以看出,不論是在測試集A或測試集B上,本研究模型的表現(xiàn)都優(yōu)于檢驗(yàn)技師。這是因?yàn)闄z驗(yàn)技師在處理特征不顯著的WDF通道散點(diǎn)圖時(shí)主觀性較強(qiáng)。在這種情況下,本研究模型由具有明確分類特征的樣本進(jìn)行訓(xùn)練,對于特征不顯著的樣本,能夠通過識別待測散點(diǎn)圖的圖像特征并結(jié)合先驗(yàn)知識算法計(jì)算出屬于每個(gè)種類的得分,得出綜合結(jié)果,可重復(fù)性強(qiáng)。
值得注意的是,本團(tuán)隊(duì)在實(shí)際工作中發(fā)現(xiàn),儀器散點(diǎn)圖給出的報(bào)警信息不僅出現(xiàn)少報(bào)、誤報(bào)的現(xiàn)象,在某些情況下,散點(diǎn)圖未給出任何報(bào)警信息,或僅給出紅系、血小板相關(guān)報(bào)警信息,但該標(biāo)本涂片鏡檢可見白細(xì)胞異常,如原始細(xì)胞、異常淋巴細(xì)胞等,此類情況下,若完全依賴儀器給出的報(bào)警信息而不對散點(diǎn)圖進(jìn)行二次確認(rèn),則極大可能造成漏檢。本研究模型對儀器給出的散點(diǎn)圖進(jìn)行判斷,給出“正?!被颉爱惓!苯Y(jié)果,旨在輔助檢驗(yàn)技師對散點(diǎn)圖進(jìn)行二次判斷,并提供參考,減少完全依賴儀器給出的陽性報(bào)警信息而不對散點(diǎn)圖進(jìn)行二次確認(rèn)所導(dǎo)致的漏檢。此外,檢驗(yàn)技師在核查深度學(xué)習(xí)模型所給出的結(jié)果時(shí),可對模型結(jié)果進(jìn)行校正,校正后的數(shù)據(jù)可加入模型之后的訓(xùn)練過程中,進(jìn)一步提升模型判斷精確率。對于判斷較為困難的WDF通道散點(diǎn)圖,深度學(xué)習(xí)模型能夠給出所得出結(jié)果的置信度供檢驗(yàn)技師參考,大大提高了檢驗(yàn)技師的工作效率和判斷準(zhǔn)確率,減少漏檢。由此,檢驗(yàn)技師可以將寶貴的時(shí)間放到對標(biāo)本的全面判斷和異常標(biāo)本的涂片鏡檢中。
本團(tuán)隊(duì)將對模型進(jìn)一步訓(xùn)練和完善,實(shí)現(xiàn)對散點(diǎn)圖具體異常特征的識別和判斷,并與顯微鏡的鏡檢結(jié)果相結(jié)合,彌補(bǔ)現(xiàn)有外周血細(xì)胞分析復(fù)檢規(guī)則和審核規(guī)則中可能出現(xiàn)的漏檢情況,進(jìn)一步完善現(xiàn)有的外周血細(xì)胞分析復(fù)檢和審核規(guī)則,為建立外周血細(xì)胞分析智能審核系統(tǒng)奠定基礎(chǔ)。此外,本團(tuán)隊(duì)觀察到散點(diǎn)圖典型異常特征與某些血液系統(tǒng)疾病密切相關(guān),通過將散點(diǎn)圖典型異常特征與顯微鏡鏡檢結(jié)果相結(jié)合,實(shí)現(xiàn)對某些典型疾病的初步判斷和鑒別診斷,為臨床提供更有價(jià)值的參考。