李培媛,黃 遲
(1.太原理工大學(xué) 數(shù)學(xué)學(xué)院,太原 030024; 2.西南財(cái)經(jīng)大學(xué) 信息與工程學(xué)院,成都 611130)
圖像分類(lèi)的應(yīng)用極其廣泛,其在信息學(xué)、生物醫(yī)學(xué)、交通網(wǎng)絡(luò)分析、城市計(jì)算等領(lǐng)域均隨處可見(jiàn)。在醫(yī)學(xué)領(lǐng)域,蛋白質(zhì)亞細(xì)胞定位是指確定某種蛋白質(zhì)在細(xì)胞內(nèi)的具體存在部位,如核內(nèi)、細(xì)胞質(zhì)內(nèi)或細(xì)胞膜上等,這是一項(xiàng)重大挑戰(zhàn),同時(shí)也是一個(gè)極具意義的課題。人類(lèi)蛋白細(xì)胞圖譜描繪了人類(lèi)不同組織和器官中的蛋白質(zhì)表達(dá)情況。由于不同的細(xì)胞器有著自身獨(dú)特的環(huán)境,這些環(huán)境決定了細(xì)胞器的生理?xiàng)l件和相互作用情況,且蛋白質(zhì)處于特定的細(xì)胞器中時(shí)才可正常參與人體的生命活動(dòng),因此在不同細(xì)胞器中,同一種蛋白質(zhì)發(fā)揮的功能是存在差異的。蛋白質(zhì)分類(lèi)旨在確定蛋白質(zhì)所處的細(xì)胞器,這樣有助于定義蛋白質(zhì)的功能,且具有重要的意義[1]。例如正常細(xì)胞和腫瘤細(xì)胞中的分泌蛋白、膜蛋白在不同器官中的表達(dá)情況不同,蛋白質(zhì)的錯(cuò)誤定位通常與細(xì)胞功能障礙和疾病有關(guān)。然而,對(duì)蛋白質(zhì)進(jìn)行定位研究不僅耗時(shí)、耗力,且代價(jià)高昂。根據(jù)已有的顯微圖像數(shù)據(jù),采用算法預(yù)測(cè)蛋白質(zhì)所在細(xì)胞器名稱、實(shí)現(xiàn)信息自動(dòng)化處理[2]是解決以上問(wèn)題的關(guān)鍵。
雙線性卷積神經(jīng)網(wǎng)絡(luò)(Bilinear Convolutional Neural Network,BCNN)[3]引入外積融合圖像整體及局部特征信息,端對(duì)端地實(shí)現(xiàn)了細(xì)粒度圖像分類(lèi),且提升了分類(lèi)精度。文獻(xiàn)[4]提出空間金字塔池化(Spatial Pyramid Pooling,SPP)能將不同大小的特征圖轉(zhuǎn)化為固定維度,同時(shí)保留多維度信息。本文結(jié)合BCNN與SPP 2種結(jié)構(gòu)的優(yōu)點(diǎn),搭建一個(gè)粗細(xì)結(jié)合的CSPPNet網(wǎng)絡(luò)模型,在模型部分卷積層上生成特征圖后加入SPP層,與模型后期卷積生成的特征圖相結(jié)合,能夠同時(shí)提取圖片的整體特征和局部特征,且可以動(dòng)檢測(cè)圖片差異,對(duì)蛋白質(zhì)分類(lèi)的分類(lèi)精度有較大提升,再利用集成學(xué)習(xí)的方法進(jìn)一步提升準(zhǔn)確率。
蛋白質(zhì)亞細(xì)胞定位研究的方法普遍分為2類(lèi):一類(lèi)是一維層面上基于蛋白質(zhì)的氨基酸序列的定位方法;另一類(lèi)是二維層面上基于圖像特征圖提取進(jìn)行分類(lèi)的方法。第一類(lèi)將蛋白質(zhì)序列中字母序列轉(zhuǎn)化為數(shù)值來(lái)表示蛋白質(zhì)的序列,提取特征信息后使用數(shù)據(jù)挖掘算法定位蛋白質(zhì)亞細(xì)胞[5],常見(jiàn)的使用機(jī)器學(xué)習(xí)方法的模型有SVM[6]、K階最近鄰[7]和隱馬爾科夫模型[8]等。第二類(lèi)蛋白質(zhì)預(yù)測(cè)算法稱為蛋白質(zhì)亞細(xì)胞定位,其研究和實(shí)現(xiàn)需構(gòu)建合適的深度學(xué)習(xí)模型來(lái)實(shí)現(xiàn)圖像分類(lèi)任務(wù)。這項(xiàng)工作對(duì)細(xì)粒度要求高,且成果少。傳統(tǒng)的蛋白質(zhì)定位使用氨基酸序列數(shù)據(jù)信息,很難確定蛋白質(zhì)的轉(zhuǎn)移方向,而利用二維圖像中的視覺(jué)信息則能夠克服傳統(tǒng)方法中存在的不足[5]。
隨著高通量顯微鏡技術(shù)的進(jìn)步,圖像生成的速度加快,且遠(yuǎn)高于人工評(píng)估的速度。人類(lèi)蛋白細(xì)胞圖譜收集的圖片不斷增加,為加速對(duì)人類(lèi)細(xì)胞和疾病的理解,自動(dòng)化分析生物醫(yī)學(xué)圖像的需求更為迫切。蛋白質(zhì)的可視化圖像在生物醫(yī)學(xué)研究中被廣泛應(yīng)用,蛋白質(zhì)影像分析可能成為下一個(gè)醫(yī)學(xué)突破的關(guān)鍵。
瑞典提供的人類(lèi)蛋白圖譜(Human Protein Atlas,HPA)數(shù)據(jù)庫(kù)致力于繪制細(xì)胞、組織和器官中所有的人類(lèi)蛋白,有助于利用圖像探索感興趣的蛋白質(zhì),在更廣泛的背景下系統(tǒng)地分析轉(zhuǎn)錄組和蛋白質(zhì)組,以增進(jìn)對(duì)人類(lèi)細(xì)胞的了解。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的發(fā)展,人類(lèi)蛋白圖譜小組已經(jīng)展示了科學(xué)和人工智能方法用于人類(lèi)蛋白定位圖像的應(yīng)用前景,但是目前的結(jié)果還沒(méi)有專(zhuān)業(yè)級(jí)的注釋[9]。
深度學(xué)習(xí)網(wǎng)絡(luò)模型通過(guò)多層非線性變換從像素級(jí)的數(shù)據(jù)中逐層提取特征信息,具有強(qiáng)大的學(xué)習(xí)能力,為解決傳統(tǒng)的計(jì)算機(jī)視覺(jué)問(wèn)題開(kāi)拓了新的思路。隨著計(jì)算機(jī)視覺(jué)技術(shù)的不斷進(jìn)步,基于圖像的蛋白質(zhì)分類(lèi)作為細(xì)粒度分類(lèi)任務(wù)開(kāi)始被人們關(guān)注。AlexNet[10]、VGGNet[11]和GoogLeNet[12]在ILSVRC[13]分類(lèi)挑戰(zhàn)比賽中能夠大幅提升分類(lèi)性能,成功應(yīng)用于大規(guī)模計(jì)算機(jī)視覺(jué)任務(wù)中,如目標(biāo)識(shí)別、定位、檢測(cè)以及圖像分割等。VGGNet將加深網(wǎng)絡(luò)結(jié)構(gòu),GoogLeNet創(chuàng)新性地拓寬網(wǎng)絡(luò)寬度,改進(jìn)了CNN模型結(jié)構(gòu)。傳統(tǒng)的CNN通過(guò)不斷增加卷積層和池化層來(lái)加深網(wǎng)絡(luò),然而信息在層與層之間的傳遞過(guò)程中或多或少會(huì)丟失,造成信息損耗等情況,層與層的疊加還會(huì)導(dǎo)致梯度消失,使得較深的網(wǎng)絡(luò)無(wú)法訓(xùn)練。文獻(xiàn)[14]提出ResNet模型,該模型設(shè)計(jì)了特有的殘差學(xué)習(xí)模塊,在一定程度上解決了梯度消失的問(wèn)題。CNN的特征表達(dá)功能十分強(qiáng)大,網(wǎng)絡(luò)模型的改進(jìn)提升了粗粒度圖像分類(lèi)的精度,但在對(duì)細(xì)微差異的區(qū)分上存在一定局限性,細(xì)粒度的圖像分類(lèi)滿足了人們進(jìn)一步的需求,且其研究領(lǐng)域已經(jīng)取得了很多研究成果[15-17]。
蛋白質(zhì)分類(lèi)屬于細(xì)粒度分類(lèi),細(xì)胞圖像的復(fù)雜性要求網(wǎng)絡(luò)能夠提取更加細(xì)致的信息,已有的多數(shù)成果都基于單標(biāo)簽,存在很大的局限性,且許多工作嚴(yán)重依賴手工標(biāo)注,無(wú)法包含全部細(xì)胞器位置,然而搭建端對(duì)端的粗細(xì)結(jié)合[18]的網(wǎng)絡(luò)能避開(kāi)標(biāo)注框,有效提升細(xì)粒度分類(lèi)效果。
本文利用HPA數(shù)據(jù)集對(duì)蛋白質(zhì)實(shí)現(xiàn)任務(wù)分類(lèi),預(yù)測(cè)標(biāo)簽為蛋白質(zhì)所在的細(xì)胞器。本節(jié)詳細(xì)分析數(shù)據(jù)集及其特點(diǎn),其為數(shù)據(jù)集處理和模型搭建的依據(jù)。
1)分析圖像數(shù)據(jù)。HPA數(shù)據(jù)集包含多數(shù)人類(lèi)蛋白質(zhì)的四通道共聚焦圖像,數(shù)據(jù)集有31 072個(gè)蛋白圖譜樣本,每個(gè)樣本由4張像素為512×512灰度圖(如圖1)以及1個(gè)或多個(gè)標(biāo)簽組成。數(shù)據(jù)集標(biāo)簽為28種不同的亞細(xì)胞器,表示蛋白質(zhì)所在位置。圖1中四通道圖像表示4種染色方式,感興趣的蛋白質(zhì)(綠色),加上其他3個(gè)重要細(xì)胞器表示:細(xì)胞核(藍(lán)色),微管(紅色),內(nèi)質(zhì)網(wǎng)(黃色)。圖2是細(xì)胞圖譜的說(shuō)明性數(shù)據(jù)[9]。其中,1為2、3、4、5四通道合成圖像,2為感興趣的目標(biāo)蛋白,用綠色標(biāo)記,3為DAPI染色的細(xì)胞核,顯示為藍(lán)色,4為用抗微管蛋白抗體染色的微管,顯示為紅色,5為內(nèi)質(zhì)網(wǎng),顯示為黃色。
圖1 HPA數(shù)據(jù)集原始圖像數(shù)據(jù)Fig.1 Original image data of HPA dataset
圖2 HPA中說(shuō)明性圖像數(shù)據(jù)Fig.2 Illustrative image data in HPA
對(duì)原始圖片進(jìn)行染色處理,如圖3所示,上面4張圖為屬于核質(zhì)類(lèi)的一個(gè)蛋白圖譜樣本染色情況,下面4張圖為細(xì)胞液類(lèi)的染色情況。蛋白質(zhì)分類(lèi)任務(wù)難點(diǎn)一是圖像中沒(méi)有針對(duì)標(biāo)簽細(xì)胞器的標(biāo)注框,非專(zhuān)業(yè)人士難以辨別不同類(lèi)蛋白質(zhì)所在細(xì)胞器的不同位置及其區(qū)別,且難以對(duì)圖片分析進(jìn)行人工干預(yù),精細(xì)級(jí)識(shí)別使分類(lèi)任務(wù)不能取得很好的效果。
圖3 訓(xùn)練集中2組樣本染色后的對(duì)比圖
2)分析標(biāo)簽數(shù)據(jù)。圖4統(tǒng)計(jì)了數(shù)據(jù)集標(biāo)簽文件中各類(lèi)別的數(shù)量,核質(zhì)數(shù)量最多有12 885個(gè)。細(xì)胞質(zhì)膜、細(xì)胞液和細(xì)胞核仁較為常見(jiàn),過(guò)氧化物酶體、核內(nèi)體、溶酶體和微管末端在訓(xùn)練集中較為少見(jiàn),而棒和環(huán)最少,只有11個(gè)。蛋白質(zhì)分類(lèi)難點(diǎn)二是樣本數(shù)據(jù)不平衡。由于細(xì)胞類(lèi)型多樣性與不同細(xì)胞中蛋白質(zhì)所在亞細(xì)胞器的差異性,蛋白質(zhì)在核質(zhì)等細(xì)胞器中出現(xiàn)次數(shù)較多,在棒和環(huán)等細(xì)胞器中出現(xiàn)次數(shù)少,導(dǎo)致標(biāo)簽數(shù)量極度不均勻,稀少標(biāo)簽類(lèi)難以實(shí)現(xiàn)高精度預(yù)測(cè)。
圖4 訓(xùn)練集中28種標(biāo)簽數(shù)量的柱狀圖
圖5統(tǒng)計(jì)了每個(gè)樣本所含標(biāo)簽的數(shù)量,每個(gè)樣本標(biāo)簽量是不確定的,單標(biāo)簽、2標(biāo)簽、3標(biāo)簽、4標(biāo)簽、5標(biāo)簽的細(xì)胞圖樣本分別占總樣本量的48.68%、40.18%、10.17%、0.96%、0.01%,這說(shuō)明3個(gè)以上標(biāo)簽的數(shù)量極少但仍存在。蛋白質(zhì)分類(lèi)難點(diǎn)三是樣本所含標(biāo)簽量不同,無(wú)法設(shè)置固定的類(lèi)數(shù)及閾值,需對(duì)不同類(lèi)標(biāo)簽設(shè)定不同閾值使得預(yù)測(cè)精度最高。
圖5 樣本中所含標(biāo)簽數(shù)量統(tǒng)計(jì)Fig.5 Statistics on the number of tags contained in the sample
圖像識(shí)別的第一步是對(duì)圖像數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析和預(yù)處理。數(shù)據(jù)分析有助于了解圖像的實(shí)際情況,更好地理解與改進(jìn)圖像預(yù)處理方法。
實(shí)驗(yàn)中每個(gè)樣本都有4種染色模式,為方便訓(xùn)練,把4張圖片合成四通道(RGBY)圖像作為輸入。對(duì)圖片進(jìn)行簡(jiǎn)單地旋轉(zhuǎn)、水平鏡面翻轉(zhuǎn)、隨機(jī)剪裁、加高斯噪聲、對(duì)圖像的像素點(diǎn)進(jìn)行加亮或減暗、圖像對(duì)比度改變、平移等圖像增強(qiáng)操作,以加強(qiáng)訓(xùn)練魯棒性。蛋白質(zhì)分類(lèi)屬于細(xì)粒度分類(lèi),由于最常見(jiàn)的蛋白質(zhì)細(xì)胞器成分屬于粗級(jí)特征,如細(xì)胞質(zhì)膜、核仁、細(xì)胞液等,相比之下,核內(nèi)體、溶酶體、微管末端、棒和環(huán)等細(xì)致成分非常少見(jiàn)。對(duì)此稀少類(lèi)問(wèn)題,需另外進(jìn)行一些處理,如對(duì)少見(jiàn)標(biāo)簽的所在圖片進(jìn)行復(fù)制翻轉(zhuǎn)等操作,同時(shí)加入訓(xùn)練集使其比例增加。對(duì)于多標(biāo)簽而言,實(shí)驗(yàn)采用二值化法對(duì)28個(gè)標(biāo)簽進(jìn)行one-hot編碼。
本文借鑒BCNN的雙線性匯合,利用空間金字塔池化搭建一個(gè)更為細(xì)化的網(wǎng)絡(luò)結(jié)構(gòu)。BCNN是一個(gè)細(xì)粒度圖像識(shí)別的經(jīng)典模型,該模型能夠同時(shí)提取局部和全局特征并進(jìn)行融合,提取并結(jié)合網(wǎng)絡(luò)前期與后期的特征圖,通過(guò)外積融合可以達(dá)成相同的效果。將結(jié)合后的特征信息與全連接層相連并進(jìn)行分類(lèi)。
3.2.1 雙線性卷積神經(jīng)網(wǎng)絡(luò)
BCNN的具體流程為:圖像首先經(jīng)過(guò)CNN結(jié)構(gòu)提取特征,然后通過(guò)雙線性層和池化層與固定長(zhǎng)度的神經(jīng)元連接產(chǎn)生輸出。將2個(gè)獨(dú)立的CNN(VGGNet與ResNet)提取的特征采用外積結(jié)合構(gòu)成最簡(jiǎn)單的雙線性層。外積包含了特征通道之間成對(duì)的關(guān)系,但BCNN由2個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)組成,模型復(fù)雜且計(jì)算量多,存在一定的局限性。
3.2.2 空間金字塔池化
從輸入的不同大小的圖片中提取信息,使其變?yōu)楣潭ù笮〉奶卣飨蛄俊PP層有以下優(yōu)點(diǎn):
1)SPP層將不同大小的輸入圖像進(jìn)行一致化處理。
2)將一個(gè)特征圖從不同的維度進(jìn)行特征提取再聚合,顯示了算法的穩(wěn)定特性。
3)空間金字塔采用最大值池化函數(shù)對(duì)局部噪聲有較強(qiáng)魯棒性[19-20],提升目標(biāo)識(shí)別的準(zhǔn)確率。簡(jiǎn)單來(lái)說(shuō),由于對(duì)特征圖進(jìn)行了不同維度的特征提取,使提取特征多樣化,模型精度大幅提升。
圖6為SPP層結(jié)構(gòu),將任意大小的特征圖分別池化為4×4、2×2、1×1的表示,其中,4×4的特征拉伸成為16×x維。
圖6 SPP層結(jié)構(gòu)Fig.6 Structure of the SPP layer
3.2.3 網(wǎng)絡(luò)結(jié)構(gòu)搭建
創(chuàng)建一個(gè)分類(lèi)精度高且可以根據(jù)細(xì)胞圖像自動(dòng)分析預(yù)測(cè)蛋白質(zhì)所在細(xì)胞器的系統(tǒng),需要搭建一個(gè)適合的網(wǎng)絡(luò)結(jié)構(gòu)。BCNN模型的特點(diǎn)是同時(shí)用到圖片局部特征信息和全局特征信息并將兩者相融合,以降低信息損耗。在該過(guò)程中,利用BCNN特征累加的特性,同時(shí)設(shè)計(jì)減少模型復(fù)雜度與計(jì)算量的方法,即基于經(jīng)典CNN,本文設(shè)計(jì)了CSPPNet模型。CSPPNet提取并結(jié)合網(wǎng)絡(luò)前期與后期卷積層產(chǎn)生的特征圖,連接3層全連接層并進(jìn)行分類(lèi)。利用此方法,可構(gòu)建端對(duì)端的網(wǎng)絡(luò)模型,不用人為干預(yù)就可以學(xué)習(xí)到圖像的細(xì)節(jié)特征差異。特征學(xué)習(xí)過(guò)程是利用一種粗細(xì)結(jié)合的方法抓取圖形的整體信息,并檢測(cè)出更多、更微小的細(xì)節(jié)部分。前期特征圖提取全局特征,用來(lái)表明整體線索,后期特征圖提取局部特征,用來(lái)描述細(xì)致差異。
SPP層具有將一個(gè)特征圖從不同的維度進(jìn)行特征提取再聚合的特點(diǎn),且從多角度來(lái)表達(dá)圖片紋理,描述不同細(xì)粒度的特征圖信息。SPP將任意大小的特征圖轉(zhuǎn)換成固定維度的特征向量,網(wǎng)絡(luò)輸入任意大小的圖像而不需要縮放或裁減,更好地保留了圖像的特征信息,最后融合各個(gè)分支網(wǎng)絡(luò)的特征作為最后的特征表達(dá)并輸入全連接層,本文稱這種結(jié)構(gòu)為CSPPNet。VGG16-CSPPNet是在VGG16網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行改進(jìn),在block2(第4層卷積層)、block4(第10層卷積層)、block5(第13層卷積層)提取的特征后加入SPP層,之后將SPP層提取的特征圖進(jìn)行結(jié)合并連接3層全連接層,最后一層為28個(gè)輸出節(jié)點(diǎn)。ResNet34-CSPPNet是在ResNet34的基礎(chǔ)上進(jìn)行改進(jìn),在128、32、16大小的特征圖后加入SPP層,然后同樣將SPP層提出的特征圖進(jìn)行結(jié)合并連接3層全連接層。該模型兼具全局和局部模型高效性,局部高效性與其物體的位置及姿態(tài)無(wú)關(guān)。同樣,不同的連接方式將圖像特征無(wú)序組合,獲得平移無(wú)關(guān)性。另外,本文在模型中加入了dropout層,使得模型泛化能力增強(qiáng)。CSPPNet模型的參數(shù)可以被端對(duì)端的學(xué)習(xí),結(jié)構(gòu)如圖7所示。
圖7 CSPPNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 CSPPNet network structure
先將模型的全部可訓(xùn)練參數(shù)訓(xùn)練25次,之后對(duì)CSPPNet模型后7層參數(shù)進(jìn)行微調(diào),得到結(jié)果后進(jìn)行閾值選擇,合理的閾值選擇會(huì)大幅提升預(yù)測(cè)精度。
閾值選擇算法的步驟如下:
步驟1預(yù)測(cè)得分valscore記錄驗(yàn)證集預(yù)測(cè)的概率得分,預(yù)測(cè)值valpred記錄驗(yàn)證集預(yù)測(cè)標(biāo)簽,真實(shí)值vallabel記錄驗(yàn)證集的真實(shí)標(biāo)簽。閾值向量I記錄最終閾值,均為28維向量。閾值i從0到1(不包含1)變化,每次變化步長(zhǎng)為0.001,即i=0+0.001×m,m=0,1,…,1 000。
步驟2將驗(yàn)證集數(shù)據(jù)輸入保存的模型,得到valscore。
步驟3對(duì)閾值i,記錄valscore中大于i的元素所在坐標(biāo),valpred相同位置為1,其他為0。
步驟4定義f為維數(shù)為(1 000,28)的矩陣,f中元素(i,c)表示閾值為i時(shí),第c(c=1,2,…,28)類(lèi)的f1值。
步驟5計(jì)算f1值并列入矩陣f中。
步驟6觀察f的28個(gè)列向量,每列中的最大值對(duì)應(yīng)的閾值i記錄為此類(lèi)的最終閾值,得到28維閾值向量I。
3.2.4 集成算法
由于蛋白質(zhì)分類(lèi)是一個(gè)較為復(fù)雜的圖像分類(lèi)任務(wù),單個(gè)分類(lèi)器的學(xué)習(xí)能力不足,而集成學(xué)習(xí)具有提高整體泛化能力的特性,因此本文除了網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)外,還結(jié)合幾個(gè)不同CNN、不同采樣法學(xué)習(xí)到的分類(lèi)器組成一個(gè)強(qiáng)學(xué)習(xí)器。
集成學(xué)習(xí)需要解決2個(gè)問(wèn)題:一是學(xué)習(xí)若干個(gè)分類(lèi)器;二是選擇結(jié)合策略。實(shí)驗(yàn)用5個(gè)不同的CNN(inceptionv3、vggnet、ResNet34、bninception、CSPPNet)訓(xùn)練得到5個(gè)分類(lèi)器,選擇的結(jié)合策略為投票法,該樣本5個(gè)分類(lèi)器中某類(lèi)別標(biāo)簽數(shù)量過(guò)半(大于等于3)的為預(yù)測(cè)類(lèi)。
分類(lèi)問(wèn)題通常以準(zhǔn)確率、召回率、F1值等多種評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià),本文采用F1值為評(píng)價(jià)指標(biāo)。預(yù)測(cè)值與真實(shí)值均為28維向量,每個(gè)點(diǎn)為0或1,有該細(xì)胞器記為1,無(wú)則記為0。對(duì)無(wú)邊界框的多標(biāo)簽圖像分類(lèi)而言,如果產(chǎn)生錯(cuò)誤標(biāo)簽則有以下2種情況:一是缺失的標(biāo)簽(FN),二是額外的標(biāo)簽(FP)。因此F1值更適用于多標(biāo)簽情況,被用來(lái)描述分類(lèi)效果。以第一類(lèi)標(biāo)簽細(xì)胞核為例:
TP(True Positive):在真實(shí)標(biāo)簽中有細(xì)胞核,且被預(yù)測(cè)為有細(xì)胞核的樣本數(shù)量。
FP(False Positive):在真實(shí)標(biāo)簽中沒(méi)有細(xì)胞核,但被預(yù)測(cè)為有細(xì)胞核的樣本數(shù)量。
FN(False Negative):在真實(shí)標(biāo)簽中有細(xì)胞核,但被預(yù)測(cè)為沒(méi)有細(xì)胞核的樣本數(shù)量。
精確率(Precision)、召回率(Recall)和F1值的計(jì)算方法如下:
(1)
此外,多標(biāo)簽的準(zhǔn)確率(Accuracy)與單標(biāo)簽計(jì)算方式不同,計(jì)算方法如下:
(2)
其中,ti為第i類(lèi)預(yù)測(cè)正確的數(shù)量,ni為第i類(lèi)總數(shù),N為類(lèi)數(shù)28。對(duì)28個(gè)標(biāo)簽分別計(jì)算精度,然后對(duì)所有精度取平均值,即為準(zhǔn)確率。
圖8是驗(yàn)證集的精度、損失值與F1值折線圖,實(shí)線顯示ResNet34-CSPPNet訓(xùn)練過(guò)程,虛線顯示ResNet34訓(xùn)練過(guò)程。由此可見(jiàn),ResNet34-CSPPNet的訓(xùn)練結(jié)果更好。
圖8 ResNet34與ResNet34-CSPPNet的訓(xùn)練結(jié)果對(duì)比Fig.8 Comparison of training results of ResNet34 and ResNet34-CSPPNet
經(jīng)過(guò)25次迭代后,部分模型的準(zhǔn)確率與F1值對(duì)比結(jié)果如表1所示。從表1可以看出,相較于VGG16模型,VGG16-CSPPNet模型的F1值提高了0.227,準(zhǔn)確率提高了0.016。ResNet的殘差模塊直接將輸入信息繞過(guò)卷積層映射到輸出,為了保護(hù)信息的完整性,整個(gè)網(wǎng)絡(luò)只需要學(xué)習(xí)輸入、輸出差別的部分,簡(jiǎn)化了學(xué)習(xí)目標(biāo)和難度,因此ResNet34的分類(lèi)效果較好,且用時(shí)較短。相較于ResNet34模型,ResNet34-CSPPNet模型的F1值提高了0.031,準(zhǔn)確率提升了0.003。由此可以看出,加入SPP層進(jìn)行粗細(xì)結(jié)合考慮,對(duì)識(shí)別蛋白質(zhì)問(wèn)題有效。本文方法對(duì)CSPPNet進(jìn)行微調(diào)并與其他分類(lèi)器結(jié)果集成得分,表明本文粗細(xì)結(jié)合的CSPPNet與集成方法可以評(píng)估非均勻的數(shù)據(jù)集。
表1 5種模型的準(zhǔn)確率和F1值的比較Table 1 Comparison of accuracy and F1 value of the five models
本文構(gòu)建一個(gè)粗細(xì)結(jié)合的CSPPNet模型,端對(duì)端地實(shí)現(xiàn)蛋白質(zhì)分類(lèi),在結(jié)合整體特征和局部特征自動(dòng)檢測(cè)類(lèi)內(nèi)差異的同時(shí)降低了模型復(fù)雜度,并通過(guò)閾值選擇算法和集成學(xué)習(xí)方法得到更優(yōu)的分類(lèi)效果。下一步將從數(shù)據(jù)集和模型2個(gè)方向提升分類(lèi)效果,在數(shù)據(jù)集方面考慮引入外部數(shù)據(jù),增加稀少類(lèi)樣本量,而在模型改進(jìn)上引入注意力機(jī)制和壓縮雙線性池化,進(jìn)一步提升模型對(duì)細(xì)節(jié)信息的提取能力。