應(yīng)自爐 王文琪 徐 穎 李文霸
(五邑大學(xué)智能制造學(xué)部,廣東江門 529020)
SAR 是一種主動成像傳感器,其特點(diǎn)是能夠在全天時、全天候和遠(yuǎn)距離條件下生成高分辨率的雷達(dá)圖像。與光學(xué)成像系統(tǒng)相比,其獨(dú)特的電磁特性使其可以作為各種監(jiān)視和偵察系統(tǒng)的關(guān)鍵信息源,由于這些因素,對SAR 圖像進(jìn)行ATR 是一項(xiàng)重要的任務(wù)[1-3]。與此同時,深度學(xué)習(xí)框架在模式識別領(lǐng)域的出現(xiàn),使從任意原始輸入數(shù)據(jù)自動形成最優(yōu)特征描述子成為可能。受這一特性的啟發(fā),大量研究嘗試將深度學(xué)習(xí)框架成功應(yīng)用于SAR ATR。然而,獲取大量具有標(biāo)注信息的SAR 圖像訓(xùn)練樣本有以下三大難點(diǎn):1)受限于SAR 圖像收集的設(shè)備與技術(shù),與自然圖像數(shù)據(jù)集相比,生成用于訓(xùn)練的SAR 圖像數(shù)據(jù)成本較高;2)SAR 數(shù)據(jù)的訪問權(quán)限受到嚴(yán)格的管制,限制了參與標(biāo)注SAR 數(shù)據(jù)的人員數(shù)量;3)標(biāo)注SAR 數(shù)據(jù)需要訓(xùn)練有素的專家,這使得標(biāo)注SAR數(shù)據(jù)更加昂貴[4]。與傳統(tǒng)的人工特征提取方法相比,深度學(xué)習(xí)通常只做較少的先驗(yàn)假設(shè),不能很好地反映小規(guī)模標(biāo)記數(shù)據(jù)下大量數(shù)據(jù)的真實(shí)分布,從而導(dǎo)致過擬合問題。
最近,自監(jiān)督對比學(xué)習(xí)在SAR 圖像識別領(lǐng)域引起了越來越多的關(guān)注,因?yàn)樗梢岳梦礃?biāo)注數(shù)據(jù)進(jìn)行無監(jiān)督預(yù)訓(xùn)練,為目標(biāo)任務(wù)提供更好的初始網(wǎng)絡(luò)參數(shù)。這有助于改善其他任務(wù)在訓(xùn)練過程中的過擬合問題,最終達(dá)到不需要大量的人工標(biāo)注信息的效果。目前,各種類型的自監(jiān)督方法已被開發(fā)用于眾多遙感圖像處理領(lǐng)域應(yīng)用。例如,文獻(xiàn)[5]將對抗性自我監(jiān)督學(xué)習(xí)引入到SAR 目標(biāo)識別中,最大限度地提高SAR 圖像的隨機(jī)增強(qiáng)和其無監(jiān)督的對抗性例子之間的相似性,從而提升SAR 圖像識別的魯棒性。文獻(xiàn)[6]在對比學(xué)習(xí)的啟發(fā)下,提出了一種新的批處理實(shí)例判別與特征聚類框架,每個批次將實(shí)例標(biāo)簽分配給未標(biāo)記的數(shù)據(jù),并在這些增強(qiáng)的數(shù)據(jù)上進(jìn)行多次隨機(jī)增強(qiáng)和訓(xùn)練。文獻(xiàn)[7]提出一種編碼方案來描述類內(nèi)目標(biāo)姿態(tài)變化的旋轉(zhuǎn)模式,實(shí)現(xiàn)與人類相似的旋轉(zhuǎn)感知,并將其作為任務(wù)誘導(dǎo)的先驗(yàn),以提高特征的泛化能力。文獻(xiàn)[8]提出一種融合對比學(xué)習(xí)和對抗學(xué)習(xí)的遙感圖像語義分割模型,以在表征空間上對齊源域和目標(biāo)域。此外,提出了一種類別相似匹配采樣的訓(xùn)練策略,以幫助模型更好地工作。文獻(xiàn)[9]提出一種密集型自監(jiān)督表征學(xué)習(xí)方法,通過跟蹤目標(biāo)位置來學(xué)習(xí)像素級的表征,同時保持對目標(biāo)位置變化的敏感性,以確保不會造成錯誤匹配。同時,通過結(jié)合圖像級對比度和像素級對比度,學(xué)習(xí)時空不變特征。文獻(xiàn)[10]提出了基于最近鄰的數(shù)據(jù)增強(qiáng)方法,利用鄰近區(qū)域之間增強(qiáng)的語義關(guān)系。可以更準(zhǔn)確地捕獲多模態(tài)語義對齊。上述工作的主要思想是在避免模型塌縮的前提下,通過最大化相同圖像的不同數(shù)據(jù)增強(qiáng)樣本之間的一致性,來學(xué)習(xí)提取具有數(shù)據(jù)增強(qiáng)不變性的特征[11-14]。
然而,近期的研究將模型塌縮問題推廣到維度塌縮問題[15-16]。相較于模型塌縮,維度塌縮所表現(xiàn)的特征向量并不是完全縮小到表征空間中某個點(diǎn)上,而是只占據(jù)了表征空間中的低維子空間。文獻(xiàn)[17-18]將此問題定義為特征信息冗余,或特征豐富度低。與此同時,目前的自監(jiān)督對比學(xué)習(xí)并不完全適用于SAR 圖像識別,因?yàn)镾AR 圖像的類間樣本具有高相似性。若直接通過現(xiàn)有的自監(jiān)督對比學(xué)習(xí)對SAR 圖像進(jìn)行無監(jiān)督預(yù)訓(xùn)練,將獲得信息冗余的特征,難于滿足SAR 圖像類間相似度較高的應(yīng)用場景。針對以上問題,本文提出了一種基于孿生自監(jiān)督學(xué)習(xí)(Twin Self-Supervised Learning,TSSL)的小樣本SAR ATR 算法,以提升特征豐富度為目的,從而提升自監(jiān)督對比學(xué)習(xí)在MSTAR 數(shù)據(jù)集上的表征能力。隨后,本文還在MSTAR 數(shù)據(jù)集中,通過設(shè)置不同骨干網(wǎng)絡(luò)、批次大小及超參數(shù)λ 探討了該算法對SAR圖像自動目標(biāo)識別的影響。
本文共分為五個部分。第一部分為引言;第二部分介紹現(xiàn)有自監(jiān)督對比學(xué)習(xí)的基本原理;第三部分闡述本文所提出的整體模型框架和具體實(shí)現(xiàn)方法;第四部分給出具體的實(shí)驗(yàn)設(shè)置和結(jié)果分析;最后一部分是結(jié)論。
自監(jiān)督對比學(xué)習(xí)是一種無監(jiān)督表征學(xué)習(xí)的經(jīng)典框架,它使正樣本對的表征距離減小,而使負(fù)樣本對之間的表征距離增大。對比損失函數(shù)類似于分類領(lǐng)域的交叉熵?fù)p失函數(shù)。具體來說就是通過給一個特定的樣本使用交叉熵?fù)p失來預(yù)測一系列待測試的樣本是正樣本還是負(fù)樣本。如公式(1)所示,在文獻(xiàn)[19]中,作者發(fā)現(xiàn)對比學(xué)習(xí)的訓(xùn)練機(jī)制可以分解為兩個重要屬性:1)正樣本對在單位超球面上之間的對齊性;2)在單位超球面上優(yōu)化表征的均勻性。其中,均勻性解釋了負(fù)樣本對在避免模型塌縮的作用。
其中,zk與zpos互為正樣本對,zk與zneg互為負(fù)樣本對,Nk代表負(fù)樣本的集合,τ代表溫度系數(shù)。
不可否認(rèn)的是,該架構(gòu)的有效性已經(jīng)在不同的光學(xué)圖像數(shù)據(jù)集上得到證實(shí),但在SAR ATR 上的情況則不同。如圖1 所示,本文分別在ImageNet 數(shù)據(jù)集和MSTAR數(shù)據(jù)集中隨機(jī)抽取三個類別,每個類別隨機(jī)抽取三張圖片,并按類別順序排列在單位超球面上。其中,對于ImageNet數(shù)據(jù)集的樣本表征分布,任一類別樣本顯然與特征空間的其他部分是線性可分的,線性可分是一種用于評估表征質(zhì)量的常見標(biāo)準(zhǔn)[19];然而由于MSTAR數(shù)據(jù)集的類間樣本具有較高的相似性,對于MSTAR數(shù)據(jù)集的樣本表征分布則難以區(qū)分。因此對SAR 圖像進(jìn)行表征學(xué)習(xí)時,需要更豐富的特征為下游任務(wù)提供更好的判別環(huán)境。
圖1 不同數(shù)據(jù)集樣本在單位超球面上的表征分布圖Fig.1 Representation distribution of samples from different data sets on unit hypersphere
圖2展示了本文所提算法整體框架。上游的深度神經(jīng)網(wǎng)絡(luò)經(jīng)過孿生自監(jiān)督損失函數(shù)的訓(xùn)練之后,可以對輸入圖像進(jìn)行較好的表征[20]。然后,將上游網(wǎng)絡(luò)的多層感知機(jī)(即全連接層)舍去,只取出特征提取網(wǎng)絡(luò)并將網(wǎng)絡(luò)中的權(quán)重參數(shù)進(jìn)行凍結(jié)。在凍結(jié)了的特征提取網(wǎng)絡(luò)后面再添加新的全連接層并進(jìn)行參數(shù)初始化。最后,通過交叉熵?fù)p失對下游網(wǎng)絡(luò)進(jìn)行小樣本SAR 圖像有監(jiān)督訓(xùn)練。本文提出的TSSL 模型的總體框架如圖3 所示(即圖2 中的上游自監(jiān)督預(yù)訓(xùn)練任務(wù)),該模型由共享特征提取網(wǎng)絡(luò)模塊和孿生自監(jiān)督學(xué)習(xí)模塊組成,通過孿生自監(jiān)督學(xué)習(xí)算法對神經(jīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合優(yōu)化,其中孿生自監(jiān)督學(xué)習(xí)模塊由對比學(xué)習(xí)頭部網(wǎng)絡(luò)和特征冗余降低頭部網(wǎng)絡(luò)兩部分組成。具體而言,在孿生自監(jiān)督學(xué)習(xí)階段,共享特征提取網(wǎng)絡(luò)模塊首先對無標(biāo)簽信息的SAR 圖像樣本通過數(shù)據(jù)增強(qiáng)的方式來構(gòu)建正負(fù)樣本對,然后通過深度卷積神經(jīng)網(wǎng)絡(luò)將SAR 圖像從樣本空間映射到特征空間。之后,孿生自監(jiān)督學(xué)習(xí)模塊首先將SAR 圖像的特征分別通過兩個相互獨(dú)立的多層感知機(jī),然后分別進(jìn)行對比學(xué)習(xí)損失與特征冗余降低損失。在本節(jié)中,首先介紹共享特征提取網(wǎng)絡(luò)模塊中正負(fù)樣本對的構(gòu)建,然后介紹用于訓(xùn)練的孿生自監(jiān)督學(xué)習(xí)損失。
圖2 基于孿生自監(jiān)督學(xué)習(xí)的小樣本SAR圖像識別整體框架圖Fig.2 The overall framework of small sample SAR image recognition based on twin self-supervised learning
圖3 上游孿生自監(jiān)督預(yù)訓(xùn)練框架圖Fig.3 Upstream twin self-supervised pre-training framework diagram
目前的自監(jiān)督對比學(xué)習(xí)在圖像識別中具有顯著的效果,這得益于:通過最大化相同圖像的兩個不同增強(qiáng)視圖之間特征向量的一致性來學(xué)習(xí)表征,同時最大化從不同圖像生成的視圖之間的一致性。為了避免模型通過低級視覺線索一致性的最大化,通過一系列強(qiáng)圖像增強(qiáng)方法生成來自相同圖像的視圖。受到自監(jiān)督對比學(xué)習(xí)范式[11,21]的啟發(fā),本文提出的TSSL,通過隨機(jī)數(shù)據(jù)增強(qiáng)來構(gòu)建正負(fù)樣本對。最近的研究表明,數(shù)據(jù)增強(qiáng)在對比學(xué)習(xí)方法中至關(guān)重要,大多數(shù)研究采用弱增強(qiáng)方式,然而針對SAR 圖像的數(shù)據(jù)增強(qiáng)方式,本文將對所有的自監(jiān)督學(xué)習(xí)算法統(tǒng)一使用以下五種SAR 圖像的數(shù)據(jù)增強(qiáng)方式[6],包括:隨機(jī)裁剪(Random Crop with resized,RC)、隨機(jī)翻轉(zhuǎn)(Random Flip,RF)、隨機(jī)旋轉(zhuǎn)(Random Rotation,RR)、顏色擾動(Color Jitter,CJ)、和高斯噪聲(Gaussian Noise,GN)。其中,RC在輸入圖像的隨機(jī)位置進(jìn)行裁剪;RF以等概率隨機(jī)地水平或垂直翻轉(zhuǎn)圖像;RR 將圖像順時針或逆時針旋轉(zhuǎn)任意角度;CJ隨機(jī)擾動圖像的亮度、對比度和飽和度,考慮到SAR 圖像為單通道灰度圖像,設(shè)定亮度=0.4,對比度=0.4,飽和度=0。在以上數(shù)據(jù)增強(qiáng)方式的基礎(chǔ)上建立一個數(shù)據(jù)增強(qiáng)集合以便于構(gòu)建良好的正負(fù)樣本對;GN 向圖像的每個像素添加高斯噪聲,設(shè)定高斯噪聲的均值為0,標(biāo)準(zhǔn)差為0.1。具體來說,共享特征提取網(wǎng)絡(luò)模塊分別從數(shù)據(jù)增強(qiáng)集合中隨機(jī)抽取兩個不同數(shù)據(jù)增強(qiáng)方式的圖像構(gòu)成樣本對,在同一批次共有N張無標(biāo)簽SAR 圖像DU={x1,x2,…,xN}中,對任一圖像xk∈DU經(jīng)過兩個不同數(shù)據(jù)增強(qiáng)獲得兩個不同的視圖,來自于相同圖像不同數(shù)據(jù)增強(qiáng)方式的樣本構(gòu)成正樣本對(例如:與,來自不同圖像及其數(shù)據(jù)增強(qiáng)樣本作為負(fù)樣本對(例如,為了便于表述,將的負(fù)樣本分別記為。然后,將所有樣本輸入進(jìn)特征提取網(wǎng)絡(luò)中得到特征hk∈H,將SAR 圖像從樣本空間DU映射到特征空間H={h1,h2,…,hN},以便于后續(xù)的孿生自監(jiān)督學(xué)習(xí)的損失計(jì)算。
如圖3 所示,在訓(xùn)練階段,特征提取網(wǎng)絡(luò)、孿生自監(jiān)督學(xué)習(xí)模塊中的對比學(xué)習(xí)頭部網(wǎng)絡(luò)和特征冗余降低頭部網(wǎng)絡(luò)統(tǒng)一根據(jù)以下兩個損失函數(shù)進(jìn)行聯(lián)合優(yōu)化,即
其中LCL是對對比學(xué)習(xí)頭部網(wǎng)絡(luò)輸出的特征向量計(jì)算的損失函數(shù);相似地,LRR是對特征冗余降低頭部網(wǎng)絡(luò)輸出的特征向量計(jì)算的損失函數(shù);同時,為了使兩個損失共同更好地起作用,本文添加了一個超參數(shù)λ來平衡整個訓(xùn)練過程中的兩個損失值。
3.3.1 對比學(xué)習(xí)損失
由于直接在特征矩陣上進(jìn)行對比學(xué)習(xí)可能會造成信息損失[11],因此搭建一個多層感知機(jī)(即對比學(xué)習(xí)頭部網(wǎng)絡(luò),例如兩層非線性全連接神經(jīng)網(wǎng)絡(luò))將各個樣本特征hk∈H映射到子空間Z={z1,z2,…,zN}。同時,兩兩相似度用余弦距離來度量,即。因此對于第k個樣本的一個數(shù)據(jù)增強(qiáng)視圖的對比學(xué)習(xí)損失函數(shù)為:
其中τ代表溫度系數(shù)。相似地,對于第k個樣本的另一個數(shù)據(jù)增強(qiáng)視圖的對比學(xué)習(xí)損失函數(shù)為=
最后,對于整個批次樣本的對比學(xué)習(xí)損失函數(shù)為:
3.3.2 特征冗余降低損失
與章節(jié)3.3.1 類似,搭建的另一個多層感知機(jī)(即特征冗余降低頭部網(wǎng)絡(luò),例如兩層非線性全連接神經(jīng)網(wǎng)絡(luò))將各個樣本特征hk∈H映射到子空間F={f1,f2,…,fM}。其中,M為特征維度。對于整個批次樣本的一個數(shù)據(jù)增強(qiáng)視圖的任一特征維度向量為另一個數(shù)據(jù)增強(qiáng)視圖的相同特征維度向量為不同特征維度向量分別為和因此,為了降低樣本中各個特征之間的相關(guān)度,對于整個批次樣本的特征冗余降低損失函數(shù)為:
4.1.1 數(shù)據(jù)集介紹
為了評估所提出的TSSL算法,本文使用公開的MSTAR數(shù)據(jù)集作為評估基準(zhǔn),該數(shù)據(jù)集是在國防高級研究計(jì)劃局和空軍研究實(shí)驗(yàn)室的聯(lián)合支持下建立的。這些裝備基于桑迪亞國家實(shí)驗(yàn)室的SAR 傳感器平臺,用于十種不同類別的地面軍用車輛(裝甲人員運(yùn)輸車:BMP2、BRDM2、BTR60 和BTR70;坦克:T62、T72;防空坦克:ZSU_234;推土機(jī):D7;火箭發(fā)射器:2S1;和重型卡車:ZIL_131),如圖4 所示。對于每個類別的SAR 圖像從0°到360°方位角以5° 到6°的間隔變化獲得,空間分辨率為0.3 m×0.3 m,如表1所示。
表1 MSTAR數(shù)據(jù)集Tab.1 MSTAR data set
圖4 MSTAR 數(shù)據(jù)集圖片示例Fig.4 MSTAR data set picture example
本文使用沒有標(biāo)注信息的訓(xùn)練樣本進(jìn)行上游無監(jiān)督預(yù)訓(xùn)練。在下游圖像識別訓(xùn)練階段,從訓(xùn)練數(shù)據(jù)集中分別按1/32、1/16、1/8、1/4、1/2 的比例隨機(jī)抽取每個類別的有標(biāo)注樣本。在整個過程中,測試集保持不變。
4.1.2 實(shí)驗(yàn)設(shè)定
在上游任務(wù)自監(jiān)督預(yù)訓(xùn)練中,本文通過學(xué)習(xí)率為0.03 的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器[22]對各個算法迭代訓(xùn)練了500次,骨干網(wǎng)絡(luò)設(shè)定為ResNet18,批次大小設(shè)置為512。在下游小樣本SAR 圖像識別任務(wù)上,本文采用了對比學(xué)習(xí)方法的重要評估方法—線性評估,即凍結(jié)特征提取網(wǎng)絡(luò)的權(quán)重參數(shù)并僅訓(xùn)練分類層神經(jīng)網(wǎng)絡(luò)中的權(quán)重參數(shù)。在線性評估時,下游分類模型被迭代訓(xùn)練了100 次。本文實(shí)驗(yàn)的運(yùn)行環(huán)境統(tǒng)一在Ubuntu 16.04 系統(tǒng)上進(jìn)行,硬件配備為帶有8 GB 內(nèi)存的NVIDIA GTX 1080 顯卡,Intel Core i3-7350K 核心處理器。此外,所有的實(shí)驗(yàn)都是在CUDA 10.2 和Pytorch 1.8.1深度學(xué)習(xí)訓(xùn)練框架中實(shí)現(xiàn)的。
4.2.1 與監(jiān)督方法在小樣本數(shù)據(jù)集上的性能比較
為了驗(yàn)證本文提出的方法在小樣本SAR 圖像識別情況下的性能,本文使用了以下三種識別性能評估指標(biāo)[23-24]:
1)準(zhǔn)確率(Accuracy,Acc):
準(zhǔn)確率代表分類正確的樣本數(shù)占樣本總數(shù)的比例。準(zhǔn)確率是分類問題中最簡單也是最直觀的評價指標(biāo),但是當(dāng)不同類別比例非常不均衡時,占比大的類別往往成為影響準(zhǔn)確率的主要因素。
2)查準(zhǔn)率(Precision,Pre):
查準(zhǔn)率代表分類正確的正樣本個數(shù)占分類器判定為正樣本的樣本個數(shù)的比例。
3)查全率(Recall,Rec):
查全率代表分類正確的正樣本個數(shù)占真正的正樣本個數(shù)的比例。其中,將標(biāo)簽為真且預(yù)測對的樣例記為真正例(True Positive,TP);標(biāo)簽為真且預(yù)測錯的樣例記為假反例(False Negative,F(xiàn)N);標(biāo)簽為假且預(yù)測對的樣例記為真反例(True Negative,TN);標(biāo)簽為假且預(yù)測錯的樣例記為假正例(False Positive,F(xiàn)P)。
表2分別記錄了在五種不同比例下監(jiān)督方法與本文方法的小樣本SAR 圖像識別的實(shí)驗(yàn)對比數(shù)據(jù),其中監(jiān)督方法與上述自監(jiān)督方法使用相同的骨干網(wǎng)絡(luò)ResNet18。從表2 的實(shí)驗(yàn)結(jié)果可以看出,對于監(jiān)督方法,在小樣本SAR 圖像識別條件下存在嚴(yán)重的過擬合現(xiàn)象。值得慶幸的是,與監(jiān)督學(xué)習(xí)相比,本文所提出的方法在1/32、1/16、1/8、1/4、1/2 五種抽取比例中識別準(zhǔn)確率方面分別提升了29.66%、32.19%、5.69%、2.97%、1.53%。其中,標(biāo)簽數(shù)據(jù)越少提升效果越明顯。由此可見,自監(jiān)督預(yù)訓(xùn)練可以通過無標(biāo)注信息的SAR 圖像學(xué)習(xí)到對下游SAR 圖像識別有用的特征,進(jìn)而可以有效地緩解過擬合問題。
表2 不同比例小樣本條件下的識別結(jié)果Tab.2 Recognition results under different proportions of small samples
如前文所述,準(zhǔn)確率并不是衡量算法的唯一評估指標(biāo)。為了驗(yàn)證本文方法在不同類型目標(biāo)識別準(zhǔn)確率上的提升,在1/32 訓(xùn)練標(biāo)簽樣本的情況下,分別計(jì)算出兩種方法所對應(yīng)的混淆矩陣,并通過公式(6)和(7)計(jì)算出相應(yīng)的查全率、查準(zhǔn)率,如表3,表4 所示。同時,將兩種方法中的查準(zhǔn)率與查全率之間的查準(zhǔn)率-查全率(Precision-Recall,P-R)關(guān)系進(jìn)行可視化,如圖5所示。其中,在混淆矩陣中對角線上的數(shù)字是每個目標(biāo)識別正確的數(shù)量;在P-R 關(guān)系圖中數(shù)據(jù)點(diǎn)越靠近右上角一般代表算法性能越好。
表3 監(jiān)督方法在1/32比例的小樣本識別結(jié)果的混淆矩陣Tab.3 Confusion matrix of supervised methods in 1/32 scale for small sample identification results
表4 本文方法在1/32比例的小樣本識別結(jié)果的混淆矩陣Tab.4 Confusion matrix of our methods in 1/32 scale for small sample identification results
圖5 監(jiān)督方法與本文方法在1/32比例的小樣本識別結(jié)果的P-R關(guān)系圖Fig.5 The P-R diagram of the supervised method and our method for small sample recognition results at 1/32 scale
表4實(shí)驗(yàn)結(jié)果表明,和有監(jiān)督方法相比,本文方法在所有類別上都有比較滿意的性能提升。其中2S1、BMP2、BTR60、D7、ZIL_131、ZSU_234 六種類別的查準(zhǔn)率和查全率都有顯著的提升,具體地,查準(zhǔn)率最高提升了53.02%,查全率最高提升了85.04%;BRDM2、T72 兩種類別分類在保證較高查全率93.06%、72.85%的前提下,查準(zhǔn)率分別達(dá)到了88.85%、92.37%;類似地,BTR70,T62 兩種類別在維持較高查全率的同時,補(bǔ)齊了有監(jiān)督方法中查準(zhǔn)率34.18%、6.59%的這塊“短板”,從而進(jìn)一步地提升SAR 圖像識別性能。圖5 簡單明了地展示出:相對于監(jiān)督方法,本文方法在1/32 的小樣本SAR 圖像識別性能中,十種類別的P-R值都向右上角靠攏,進(jìn)一步證明了本文方法的有效性。因此,本文所提出的方法對于十個目標(biāo)的識別都取得了令人滿意的性能,這些結(jié)果也驗(yàn)證了本文方法在小樣本SAR 圖像識別的實(shí)驗(yàn)中的優(yōu)越性。
4.2.2 與其他方法在小樣本數(shù)據(jù)集上的性能比較
為了驗(yàn)證所提方法在小樣本數(shù)據(jù)集上的有效性,本文分別在構(gòu)建的1/32、1/16、1/8、1/4、1/2 小樣本數(shù)據(jù)集上分別對最近有關(guān)工作進(jìn)行了對比實(shí)驗(yàn)。其中,包含不同的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò):GoogLeNet[25]、ResNet50[26]、MobileNetV2[27]、ShuffleNetV2[28];SAR圖像識別領(lǐng)域中的TAI-SARNet[29]、SAMFFNet[3];以及自監(jiān)督學(xué)習(xí)方法:SimCLR[11]、MoCoV2[21]、BYOL[30]、SimSiam[31]、Barlow Twins[18]?;谛颖緮?shù)據(jù)集對不同方法進(jìn)行測試的對比實(shí)驗(yàn)結(jié)果見表5。由表5 可知,通過本文方法的識別準(zhǔn)確率比其他自監(jiān)督方法提升了大概7%~16%,這證明了通過本文方法可以降低特征之間的冗余度,從而進(jìn)一步提升深度神經(jīng)網(wǎng)絡(luò)的表征能力。同時,根據(jù)表5 結(jié)果可以看出,對于MSTAR 數(shù)據(jù)集,僅僅修改卷積神經(jīng)網(wǎng)絡(luò)的模型架構(gòu)并不能顯著提升識別性能,對其性能的提升并沒有起到?jīng)Q定性的作用。從另一方面還可以觀察到,當(dāng)樣本數(shù)據(jù)減少到原始數(shù)據(jù)的1/32 時,本文提出的方法相較于其他方法具有明顯的提升,具體地,相對最高準(zhǔn)確率的BYOL 方法提升了7.40%。從以上分析可以看出,當(dāng)訓(xùn)練樣本數(shù)量非常有限時,該方法具有明顯的優(yōu)勢,說明該方法在MSTAR 小樣本數(shù)據(jù)集上具有良好的泛化能力。
表5 各方法在不同比例的小樣本MSTAR數(shù)據(jù)集上的性能比較Tab.5 Comparison of the performance of each method on different proportions of small sample MSTAR datasets
4.3.1 骨干網(wǎng)絡(luò)
根據(jù)文獻(xiàn)[11]可知,在ImageNet 數(shù)據(jù)集中,隨著模型規(guī)模更大,自監(jiān)督預(yù)訓(xùn)練可以從中獲益更多。因此,在1/32 小樣本訓(xùn)練集上,分別做了ResNet18、ResNet34 和ResNet50 對自監(jiān)督小樣本SAR 圖像識別性能影響的實(shí)驗(yàn)與分析。結(jié)果如表6所示,可以看出ResNet18 的骨干網(wǎng)絡(luò)在本文方法中的性能達(dá)到82.95%,獲得的性能提升最多。這與文獻(xiàn)[11]的結(jié)論產(chǎn)生矛盾的原因可能是ImageNet數(shù)據(jù)集包含大約120萬個訓(xùn)練樣本,而MSTAR 數(shù)據(jù)僅僅只有2747個訓(xùn)練樣本,對應(yīng)量級的數(shù)據(jù)集需要匹配相應(yīng)規(guī)模的模型才能發(fā)揮更好的性能。在上游自監(jiān)督預(yù)訓(xùn)練階段,由于MSTAR 數(shù)據(jù)集中的訓(xùn)練樣本較少,避免出現(xiàn)無法收斂的問題,本文實(shí)驗(yàn)都選擇ResNet18作為骨干網(wǎng)絡(luò)。
表6 在1/32比例的小樣本下的不同骨干網(wǎng)絡(luò)性能結(jié)果Tab.6 The performance results of different backbone networks in a small sample of 1/32 scale
4.3.2 批次大小
由表7 可知,批次大小與準(zhǔn)確率呈正相關(guān)。這與文獻(xiàn)[11]中結(jié)論相似,與監(jiān)督學(xué)習(xí)相比,在對比學(xué)習(xí)中,更大的批次大小提供更多的負(fù)樣本對,進(jìn)而促進(jìn)模型收斂。同時,根據(jù)圖6可知,當(dāng)批次大小減小時,從小批次中提取負(fù)樣本對的SimCLR 性能表現(xiàn)會有所下降,例如,當(dāng)批次大小為32 時,Sim-CLR 的性能出現(xiàn)了急劇下降。而本文方法對于小批次具有一定的魯棒性。由于本文的實(shí)驗(yàn)為8G 顯存的NVIDIA GTX 1080,無法執(zhí)行批次大小高于512的實(shí)驗(yàn)。
表7 在1/32比例的小樣本下的不同批次大小性能結(jié)果Tab.7 Performance results of different batch sizes in a small sample of 1/32 scale
圖6 在1/32比例的小樣本下不同批次大小性能結(jié)果Fig.6 The performance results of different batch sizes in a small sample of 1/32 scale
4.3.3 超參數(shù)λ的大小
超參數(shù)λ 權(quán)衡了特征維度上冗余信息的程度,因此,本文探究了對比學(xué)習(xí)損失與特征冗余降低損失的超參數(shù)λ對TSSL 性能的影響。公式(1)中包含兩項(xiàng)損失函數(shù):第一個損失函數(shù)LCL,代表對比學(xué)習(xí)損失,增大正樣本對之間的相似度,縮小負(fù)樣本對之間的相似度;第二個損失函數(shù)LRR,代表特征冗余降低損失,消除特征維度上不同分量的相關(guān)性,也可視為特征向量上的一種間接白化。圖7展示了在1/32 比例的MSTAR 數(shù)據(jù)集情況下,不同超參數(shù)λ 的值所對應(yīng)的識別準(zhǔn)確率。隨著λ 值的變化,準(zhǔn)確率之間的波動較小。由此可知,本文方法對超參數(shù)λ不是很敏感。同時,隨著λ值的增加,性能出現(xiàn)不同程度的提升,說明本文方法對超參數(shù)λ 具有一定的魯棒性,且特征冗余降低損失對提升小樣本SAR 圖像的識別性能是有效的。
圖7 在1/32比例的小樣本下不同超參數(shù)λ大小性能結(jié)果Fig.7 The performance results of different hyper-parameters λ in a small sample of 1/32 scale
本文針對MSTAR 數(shù)據(jù)集中類間相似度過高影響現(xiàn)有自監(jiān)督學(xué)習(xí)表征性能的難點(diǎn)問題,提出了基于孿生自監(jiān)督算法,通過共享特征提取網(wǎng)絡(luò)模塊建立正負(fù)樣本對,結(jié)合對比學(xué)習(xí)損失和特征冗余降低損失共同提升神經(jīng)網(wǎng)絡(luò)的表征能力。在MSTAR 小樣本數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法可通過無標(biāo)注樣本使特征提取網(wǎng)絡(luò)具有良好的表征能力。相比于監(jiān)督方法和其他經(jīng)典自監(jiān)督方法,所提方法在1/32 比例的MSTAR 小樣本數(shù)據(jù)中識別準(zhǔn)確率分別最高提升了29.66%和7.40%。值得注意的是,隨著有標(biāo)注樣本數(shù)量的增多,提升性能逐漸降低,如何設(shè)計(jì)一種可以提取更多樣本信息的孿生自監(jiān)督算法是下一步值得研究的方向。