楊 虹,范 勇
(西南科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621010)
近年來,細(xì)粒度圖像識(shí)別因其廣泛的現(xiàn)實(shí)應(yīng)用得到了較高的關(guān)注,成為計(jì)算機(jī)視覺領(lǐng)域的熱門話題。細(xì)粒度圖像識(shí)別的目標(biāo)是區(qū)分一個(gè)大類中不同子類對(duì)象間的細(xì)微差異。如不同種類的鳥,不同型號(hào)的汽車等。因不同子類對(duì)象間細(xì)微的類間差異和較大的類內(nèi)差異[1]導(dǎo)致細(xì)粒度圖像識(shí)別任務(wù)較一般的圖像識(shí)別任務(wù)更具挑戰(zhàn)。因此,如何定位圖像的區(qū)分區(qū)域和高效提取區(qū)分區(qū)域的細(xì)粒度特征是細(xì)粒度圖像識(shí)別任務(wù)的主要難點(diǎn)。一些研究[2-4]通過使用人工標(biāo)注的圖像部位邊界框監(jiān)督網(wǎng)絡(luò)檢測(cè)關(guān)鍵部位區(qū)域并進(jìn)行識(shí)別,取得了一定的效果。然而,密集的人工標(biāo)注耗費(fèi)大量的人力和物力,使得基于人工標(biāo)注的識(shí)別方法難以應(yīng)用和擴(kuò)展。為此,一些研究[5-8]開始嘗試在僅使用圖像類別標(biāo)簽的情況下直接對(duì)圖像區(qū)分區(qū)域進(jìn)行弱監(jiān)督定位和識(shí)別。其中,Yang等[8]提出NTS-Net,采用合頁損失(Hinge Loss)作為排序損失監(jiān)督區(qū)域提議網(wǎng)絡(luò)(RPN)[9]提議出圖像的重要區(qū)域進(jìn)行識(shí)別。NTS-Net[8]在一定程度上解決了以往定位識(shí)別需要部位標(biāo)簽的問題。
但是,NTS-Net[8]采用的Hinge Loss難以使RPN[9]分值列表與對(duì)應(yīng)的置信度列表盡可能保持同序,從而減弱了網(wǎng)絡(luò)挖掘重要區(qū)域的能力。其次,NTS-Net[8]沒有對(duì)網(wǎng)絡(luò)的不同特征通道進(jìn)行關(guān)聯(lián)學(xué)習(xí),難以挖掘?qū)ο蟮募?xì)粒度特征。并且,NTS-Net[8]僅采用排序函數(shù)監(jiān)督往往會(huì)定位信息量大而非區(qū)分區(qū)域,從而提議出較大的框[10]。為此,該文提出一種基于區(qū)分區(qū)域定位的細(xì)粒度圖像識(shí)別方法。首先,使用貝葉斯個(gè)性化排序損失(BPRLoss)[11]監(jiān)督網(wǎng)絡(luò)以更有效地挖掘重要區(qū)域。隨后,為加強(qiáng)細(xì)粒度特征的提取,采用引入高效通道注意力(ECA)[12]模塊的特征提取器提取區(qū)域特征。同時(shí)采用標(biāo)簽平滑[13]策略使相同類靠近,不同類遠(yuǎn)離以監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征,進(jìn)一步定位區(qū)分區(qū)域。
本節(jié)將介紹與所提方法相關(guān)的工作,包括區(qū)分區(qū)域定位、通道注意力機(jī)制和標(biāo)簽平滑方法。
細(xì)粒度圖像識(shí)別中待識(shí)別對(duì)象之間往往僅存在一些局部,細(xì)微的差別。因此,如何有效學(xué)習(xí)定位出對(duì)象具有區(qū)分性的局部區(qū)域?qū)?xì)粒度圖像識(shí)別起著重要作用。深度卷積網(wǎng)絡(luò)濾波器(CNN filter)的響應(yīng)往往對(duì)應(yīng)于圖像的局部區(qū)域。因此,一些研究[14-16]通過使用深度卷積網(wǎng)絡(luò)濾波器(CNN filter)作為對(duì)象部位檢測(cè)器,從而定位出一些具有區(qū)分性的區(qū)域。其中,Wang等[14]使用了額外的可學(xué)習(xí)1×1卷積濾波器作為對(duì)象部位檢測(cè)器。隨后通過全局最大池化層得到濾波器的最高響應(yīng)用于對(duì)象識(shí)別,取得了較好的識(shí)別效果。注意力機(jī)制可以幫助人聚焦于對(duì)象的突出部分。受此啟發(fā),一些研究[5-7]使用注意力機(jī)制來學(xué)習(xí)定位對(duì)象可區(qū)分區(qū)域。Fu等[5]使用循環(huán)注意力模型來定位對(duì)象的區(qū)分區(qū)域。Zheng等[6]通過聚合響應(yīng)同一區(qū)域的特征通道來定位關(guān)鍵區(qū)域。Zheng等[7]設(shè)計(jì)了一個(gè)三線性注意力采樣網(wǎng)絡(luò),從數(shù)百個(gè)部位區(qū)域提議中學(xué)習(xí)細(xì)粒度細(xì)節(jié),并將學(xué)習(xí)到的特征有效地提取到單個(gè)深度卷積網(wǎng)絡(luò)中。但是,上述方法都難以對(duì)所提議區(qū)域的重要性程度進(jìn)行量化。為此,一些研究[8,10,17-18]通過借鑒目標(biāo)檢測(cè)的方法,使用合頁損失(Hinge Loss)作為排序損失監(jiān)督區(qū)域提議網(wǎng)絡(luò)(RPN)[9]提議圖像的重要區(qū)域。然而,如式(1)所示,當(dāng)正負(fù)樣本距離大于閾值1時(shí),Hinge Loss值為0,難以監(jiān)督目標(biāo)盡可能地保持同序,從而減弱了網(wǎng)絡(luò)挖掘圖像重要區(qū)域的能力。為此,在Yang等[8]方法的基礎(chǔ)上,該文提出使用貝葉斯個(gè)性化排序損失(BPRLoss)[11]監(jiān)督RPN網(wǎng)絡(luò)以更有效定位圖像的重要區(qū)域。
max(0,1-(s+-s-))
(1)
注意力機(jī)制在人類感知中起著重要的作用。人們可以通過注意力機(jī)制的幫助來篩選出對(duì)象的一些重點(diǎn)信息。受此啟發(fā),許多研究嘗試在深度神經(jīng)網(wǎng)絡(luò)中引入不同的注意力機(jī)制以促使網(wǎng)絡(luò)能夠有效關(guān)注對(duì)象的重要特征。通道注意力機(jī)制往往被用于挖掘網(wǎng)絡(luò)不同特征通道之間的關(guān)聯(lián)性。其主要作用是分配每個(gè)通道不同的權(quán)重,促使網(wǎng)絡(luò)關(guān)注重要的特征,同時(shí)抑制不重要的特征。擠壓和激勵(lì)(SE)模塊[19]首次提出一種有效的機(jī)制來學(xué)習(xí)通道注意,并取得了優(yōu)異的性能。通過對(duì)SE模塊[19]的深入研究,Wang等[12]認(rèn)為SE模塊[19]采用降維的方式降低模塊復(fù)雜度會(huì)給通道的注意學(xué)習(xí)帶來副作用,因此提出高效通道注意力(ECA)模塊,采用無降維的通道交互策略,通過一維卷積來使每個(gè)通道與相鄰的K個(gè)通道進(jìn)行交互學(xué)習(xí),進(jìn)一步提高了網(wǎng)絡(luò)性能。為加強(qiáng)網(wǎng)絡(luò)對(duì)細(xì)粒度特征的提取,文中方法使用引入ECA模塊[12]的特征提取器提取區(qū)域的細(xì)粒度特征。通過關(guān)聯(lián)不同的特征通道,促使網(wǎng)絡(luò)關(guān)注對(duì)象更具辨別性的細(xì)粒度特征。
Szegedy等[13]首次提出一種標(biāo)簽平滑方法,通過利用one-hot標(biāo)簽和標(biāo)簽上均勻分布之間的平均值來生成軟標(biāo)簽,從而對(duì)網(wǎng)絡(luò)正則化。通過深入研究標(biāo)簽平滑,Zhang等[20]認(rèn)為非目標(biāo)類不能簡(jiǎn)單的同等對(duì)待,與目標(biāo)類別相似的類別應(yīng)當(dāng)被分配更高的標(biāo)簽值,因此提出一種在線標(biāo)簽平滑方法。通過利用網(wǎng)絡(luò)中的統(tǒng)計(jì)信息指導(dǎo)生成軟標(biāo)簽,更合理地對(duì)待非目標(biāo)類別。為探索標(biāo)簽平滑[13]的作用原理,Müller等[21]通過可視化方法觀察使用標(biāo)簽平滑后分類器的倒數(shù)第二層,發(fā)現(xiàn)標(biāo)簽平滑可以使同類靠近,不同類遠(yuǎn)離。針對(duì)僅使用排序函數(shù)監(jiān)督網(wǎng)絡(luò)難以定位可區(qū)分區(qū)域的問題,該文使用Szegedy等[13]提出的標(biāo)簽平滑方法生成軟標(biāo)簽監(jiān)督網(wǎng)絡(luò),通過使同類靠近,不同類遠(yuǎn)離使網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征,從而促進(jìn)網(wǎng)絡(luò)進(jìn)一步定位區(qū)分區(qū)域。
本節(jié)先介紹了文中方法的網(wǎng)絡(luò)結(jié)構(gòu)與整體流程,隨后分別介紹了區(qū)域定位方法bprRPN,引入高效通道注意力機(jī)制的特征提取器網(wǎng)絡(luò)和標(biāo)簽平滑方法。
網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。圖片首先由引入高效通道注意力(ECA)模塊[12]的特征提取器提取特征,隨后分別經(jīng)過線性層和區(qū)域提議網(wǎng)絡(luò)(RPN)[9]。由線性層得到對(duì)象特征分類向量,并與標(biāo)簽平滑后的圖像標(biāo)簽使用交叉熵?fù)p失函數(shù)計(jì)算得到對(duì)象特征損失(object loss);由RPN提議M個(gè)局部區(qū)域及對(duì)應(yīng)分值,并在原圖裁剪這M個(gè)局部區(qū)域并上采樣至224×224大小。再由引入ECA模塊[12]的特征提取器得到M個(gè)局部區(qū)域特征,經(jīng)線性層和交叉熵?fù)p失函數(shù)計(jì)算得到局部區(qū)域置信度的列表。隨后通過BPRLoss損失函數(shù)[11]監(jiān)督M個(gè)局部區(qū)域分值的列表和置信度的列表同序,使RPN[9]總能夠提議重要的區(qū)域。再在這M個(gè)局部區(qū)域特征中選擇前N個(gè)區(qū)域特征作為部位特征。將部位特征與對(duì)象特征拼接(concat)后得到拼接特征。部位特征與拼接特征由線性層得到相應(yīng)的分類向量,隨后分別與標(biāo)簽平滑[13]后的圖像標(biāo)簽使用交叉熵?fù)p失函數(shù)計(jì)算得到部位損失(part loss)和拼接損失(concat loss)。最后,由拼接特征分類向量得出分類結(jié)果。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
為有效定位圖像的重要區(qū)域,該文提出一種BPRLoss[11]監(jiān)督區(qū)域提議網(wǎng)絡(luò)(RPN)[9]挖掘圖像重要區(qū)域的方法。首先將原圖調(diào)整為448大小并為其預(yù)設(shè)一系列不同大小(實(shí)驗(yàn)設(shè)置為48、96、192)和不同比例(實(shí)驗(yàn)設(shè)置為1∶1、2∶3、3∶2)的錨框。通過特征提取器得到特征圖,再經(jīng)RPN[9]得到預(yù)設(shè)錨框區(qū)域的分值。因此可以得到一個(gè)初始的區(qū)域分值的列表{S(R1),S(R2),…,S(RA)}。將列表按分值從高到低排序并通過非極大值抑制(NMS)去除重合大且分值小的框。再在剩下的框中選取分值最高的前M個(gè)區(qū)域,得到M個(gè)區(qū)域分值的列表{S(R1),S(R2),…,S(RM)}。隨后,M個(gè)區(qū)域由特征提取器提取特征,經(jīng)線性層和交叉熵?fù)p失函數(shù)后得到M個(gè)區(qū)域置信度的列表{C(R1),C(R2),…,C(RA)}。Yang等[8]認(rèn)為一個(gè)區(qū)域的置信度越高,則它對(duì)這個(gè)圖像的識(shí)別越重要?;谶@一思想,文中方法使用BPRLoss損失函數(shù)[11]監(jiān)督分值列表與置信度列表同序以使網(wǎng)絡(luò)總能夠定位重要的區(qū)域。具體來說,文中方法通過BPRLoss[11]鼓勵(lì)置信度越高的區(qū)域其在分值列表中有更高的排名,即期望當(dāng)區(qū)域置信度C(Rj)>C(Ri)時(shí),總有區(qū)域分值S(Rj)>S(Ri),即有:
(2)
如何有效提取細(xì)粒度特征是細(xì)粒度圖像識(shí)別的一個(gè)關(guān)鍵問題。NTS-Net[8]沒有關(guān)聯(lián)不同的特征通道,不能有效提取圖像的細(xì)粒度特征。為此,該文通過在特征提取器中引入高效通道注意力(ECA)模塊[12]以加強(qiáng)對(duì)圖像細(xì)粒度特征的提取。
以ResNet50為例,在網(wǎng)絡(luò)的每一個(gè)殘差塊中添加ECA模塊[12],從而構(gòu)成ECA-Res-block,如圖2所示,其中BN為批歸一化,Conv2d為二維卷積,Conv1d為一維卷積,GAP為全局平均池化。ECA主要通過建模相鄰K個(gè)通道之間的關(guān)系來生成通道注意力權(quán)重。
圖2 ECA-Res block結(jié)構(gòu)
首先,特征圖x∈RW×H×C作為ECA模塊的輸入,經(jīng)過一個(gè)全局平均池化層得到特征向量y∈RC,再通過一個(gè)卷積核大小為k的一維卷積來計(jì)算特征圖相鄰k個(gè)通道的跨通道交互。其中k可以根據(jù)通道數(shù)自適應(yīng)計(jì)算得到。然后,再由sigmoid函數(shù)計(jì)算得到注意權(quán)重ω。最后,將特征圖與注意權(quán)重逐點(diǎn)相乘得到注意后的特征圖。注意權(quán)重ω的計(jì)算過程如式(3)所示。
ω=σ(C1Dk(GAP(x)))
(3)
其中,σ表示sigmoid激活函數(shù),C1Dk表示一維卷積操作,GAP表示全局平均池化操作。
Yang等[10]認(rèn)為,NTS-Net[8]僅使用排序函數(shù)監(jiān)督網(wǎng)絡(luò)往往會(huì)定位信息量大而非可區(qū)分的區(qū)域,從而提議出較大的框。Schroff[22]、Yang等[10]認(rèn)為通過最小化同類距離和最大化不同類距離有利于網(wǎng)絡(luò)學(xué)習(xí)具有區(qū)別的特征。標(biāo)簽平滑[13]被證實(shí)能夠使相同類靠近,不同類遠(yuǎn)離[21]。針對(duì)使用排序函數(shù)監(jiān)督網(wǎng)絡(luò)會(huì)引入大量背景信息,難以定位圖像的區(qū)分區(qū)域的問題,該文使用標(biāo)簽平滑[13]生成軟標(biāo)簽以促使網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征,進(jìn)一步定位區(qū)分區(qū)域,從而提議更小且更準(zhǔn)確的區(qū)域框。具體來說,設(shè)原始標(biāo)簽為pi,即:
(4)
標(biāo)簽平滑后有:
(5)
其中,k為類別數(shù),ε為超參數(shù)。通過平滑標(biāo)簽操作,網(wǎng)絡(luò)能夠更有效地定位區(qū)分區(qū)域,進(jìn)一步提高識(shí)別準(zhǔn)確率。
文中方法的損失函數(shù)包括4個(gè)部分,即:
L=αLrank+βLobj+λLpart+γLconcat
(6)
其中,Lrank為排序損失,Lobj為對(duì)象損失,Lpart為部位損失,Lconcat為拼接損失。α、β、λ、γ為損失權(quán)重。
為驗(yàn)證文中方法的有效性,將文中方法在三種數(shù)據(jù)集CUB-200-2011(CUB)、FGVC Aircraft(Air)、Stanford Cars(Car)上分別進(jìn)行實(shí)驗(yàn)。三種數(shù)據(jù)集的劃分如表1所示。
表1 數(shù)據(jù)集劃分
實(shí)驗(yàn)使用在ImageNet上預(yù)訓(xùn)練好的ResNet-50作為網(wǎng)絡(luò)的BackBone。對(duì)訓(xùn)練圖片上采樣至600×600大小后經(jīng)中心裁剪為448×448大小,隨后對(duì)其進(jìn)行隨機(jī)水平翻轉(zhuǎn)。對(duì)測(cè)試圖片不采用隨機(jī)水平翻轉(zhuǎn)。網(wǎng)絡(luò)定位的重要區(qū)域數(shù)N通過定位區(qū)域數(shù)實(shí)驗(yàn)得出。區(qū)域定位方法bprRPN監(jiān)督的區(qū)域數(shù)M設(shè)置為6。NMS threshold設(shè)置為0.25。對(duì)于標(biāo)簽平滑操作,超參數(shù)ε設(shè)置為0.1。網(wǎng)絡(luò)使用Momentum SGD作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 1。學(xué)習(xí)率每60 epoch 乘以0.1。batchsize大小設(shè)置為12。損失函數(shù)權(quán)重設(shè)置為α=β=λ=γ=1。實(shí)驗(yàn)中評(píng)價(jià)指標(biāo)采用Top-1準(zhǔn)確率。
表2展示了文中方法與一些主流方法在CUB-200-2011、FGVC Aircraft、Stanford Cars三種數(shù)據(jù)集上的識(shí)別準(zhǔn)確率的對(duì)比??梢钥闯?文中方法在三種數(shù)據(jù)集上都取得了最好結(jié)果,分別為89.0%、93.9%和94.3%。同時(shí),文中方法相比NTS-Net在三種數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別提升了1.5百分點(diǎn)、2.5百分點(diǎn)和0.4百分點(diǎn),表明了文中方法的有效性。此外,文中方法相比CIN在三種數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別提升了1.5百分點(diǎn)、1.3百分點(diǎn)和0.2百分點(diǎn),相比FDL在三種數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別提升了0.5百分點(diǎn)、0.4百分點(diǎn)和0.1百分點(diǎn),相比PCA-Net則在CUB、Air二種數(shù)據(jù)集上有顯著提升,分別提升0.6百分點(diǎn)和1.5百分點(diǎn)。
表2 不同方法實(shí)驗(yàn)結(jié)果
為探索定位區(qū)分區(qū)域數(shù)量N的取值對(duì)文中方法識(shí)別準(zhǔn)確率的影響,記錄定位區(qū)域數(shù)N為3~5時(shí),文中方法在三種數(shù)據(jù)集上識(shí)別準(zhǔn)確率的變化。
實(shí)驗(yàn)結(jié)果如表3所示,在CUB-200-2011、FGVC Aircraft、Stanford Cars三種數(shù)據(jù)集上,定位區(qū)域數(shù)N取值為4時(shí),算法有最高的識(shí)別準(zhǔn)確率,分別為89.0%和93.9%以及94.3%。
表3 定位區(qū)域數(shù)量實(shí)驗(yàn)
為驗(yàn)證文中方法各模塊的有效性,將文中方法在CUB-200-2011、FGVC Aircraft、Stanford Cars三種數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。如表4所示,通過在ResNet-50網(wǎng)絡(luò)中引入提出的區(qū)域定位方法bprRPN后,網(wǎng)絡(luò)在三種數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別提升2.3百分點(diǎn)、2.3百分點(diǎn)和4.0百分點(diǎn),表明區(qū)域定位方法bprRPN能夠提議圖像的重要區(qū)域以促進(jìn)圖像的識(shí)別。繼續(xù)引入ECA模塊[12]后,網(wǎng)絡(luò)在三種數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別能夠繼續(xù)提升0.3百分點(diǎn)、0.6百分點(diǎn)和0.2百分點(diǎn),表明通過引入ECA模塊[12]能使網(wǎng)絡(luò)提取區(qū)分性更強(qiáng)的細(xì)粒度特征。進(jìn)一步,采用標(biāo)簽平滑策略[13]監(jiān)督網(wǎng)絡(luò),網(wǎng)絡(luò)在三種數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別能夠繼續(xù)提升0.9百分點(diǎn)、0.7百分點(diǎn)和0.3百分點(diǎn),表明通過采用標(biāo)簽平滑策略[13]能使網(wǎng)絡(luò)進(jìn)一步定位區(qū)分區(qū)域從而有效提高識(shí)別效果。此外,如表5所示,區(qū)域定位方法bprRPN相較NTS-Net[8]在CUB-200-2011和FGVC Aircraft數(shù)據(jù)集上有顯著提升,分別提升0.3百分點(diǎn)和1.2百分點(diǎn),僅在Stanford Cars數(shù)據(jù)集上有0.1百分點(diǎn)的下降。
表4 消融實(shí)驗(yàn)
表5 區(qū)域定位方法比較
圖3為網(wǎng)絡(luò)注意圖的可視化實(shí)驗(yàn)結(jié)果。如圖3(b)(c)所示,區(qū)域定位方法bprRPN提取對(duì)象細(xì)粒度特征的能力較NTS-Net[8]有一定的提升,但仍不能很好地提取到對(duì)象更具區(qū)分性的細(xì)粒度特征。如圖3(d)所示,引入高效通道注意力(ECA)[12]模塊后,通過關(guān)聯(lián)不同的特征通道,文中方法能夠更有效地提取對(duì)象區(qū)分性的細(xì)粒度特征。
圖4為網(wǎng)絡(luò)定位區(qū)域的可視化結(jié)果。如圖4(a)(b)所示,僅通過排序損失監(jiān)督網(wǎng)絡(luò)往往會(huì)提議較大的框,引入了大量的背景信息。該文通過使用標(biāo)簽平滑[13]進(jìn)一步監(jiān)督網(wǎng)絡(luò),促使網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征,從而定位對(duì)象的區(qū)分區(qū)域。如圖4(c)所示,網(wǎng)絡(luò)定位的局部區(qū)域更聚焦于對(duì)象的關(guān)鍵部位,且不會(huì)引入大量的背景信息。同時(shí),如圖4(a)(c)所示,相比NTS-Net[8],文中方法更能有效定位區(qū)分區(qū)域。
圖4 定位區(qū)域可視化 (a)NTS-Net (b)Ours(w/o LS)(c)Ours
針對(duì)細(xì)粒度圖像識(shí)別對(duì)象往往僅存一些局部、細(xì)微的區(qū)別,該文提出了一種基于區(qū)分區(qū)域定位的細(xì)粒度圖像識(shí)別方法。首先,使用提出的區(qū)域定位方法bprRPN定位一些重要區(qū)域。隨后,通過引入高效通道注意力(ECA)[12]模塊的特征提取器提取特征進(jìn)行識(shí)別。同時(shí)使用標(biāo)簽平滑策略監(jiān)督網(wǎng)絡(luò),促進(jìn)網(wǎng)絡(luò)定位區(qū)分區(qū)域。最終,文中方法在三種數(shù)據(jù)集上取得了較高的識(shí)別準(zhǔn)確率。同時(shí)相比NTS-Net[8]能夠更為準(zhǔn)確地定位區(qū)分區(qū)域。盡管文中方法能夠有效地定位區(qū)分區(qū)域,但并未考慮到不同區(qū)域之間的關(guān)聯(lián)性。因此,后續(xù)工作將探索如何關(guān)聯(lián)不同的局部區(qū)域以提升網(wǎng)絡(luò)的識(shí)別性能。