寧園園,張素蘭,陳 飛
(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024)
建筑風(fēng)格從地理位置、安全因素、建筑材料等方面考慮,每種風(fēng)格依賴于建筑元素的結(jié)構(gòu),且都有其獨(dú)特的特征表示。例如:玫瑰窗是哥特式風(fēng)格獨(dú)有的特征;巴洛克風(fēng)格的主要特征是圓頂、圓拱門等。建筑風(fēng)格分類旨在通過建筑元素以及建筑元素之間的空間關(guān)系預(yù)測建筑的風(fēng)格類別,準(zhǔn)確的分類對建筑歷史研究、建筑遺產(chǎn)保護(hù)和城市建設(shè)方面都具有重要意義。
近年來,建筑風(fēng)格分類已取得一些重要的研究成果。Xu等人[1]提出在多項(xiàng)式潛在邏輯回歸(Multinomial Latent Logistic Regression,MLLR)中引入概率分析,解決25類風(fēng)格的分類問題。Ren等人[2]設(shè)計(jì)概率層次圖表示基本元素的結(jié)構(gòu),從具有一致標(biāo)簽的3D模型中訓(xùn)練貝葉斯網(wǎng)絡(luò)對中國古建筑基本元素的語義屬性和層次結(jié)構(gòu)進(jìn)行編碼。Yi等人[3]收集17種建筑類別的圖像及描述信息,并采用卷積神經(jīng)網(wǎng)絡(luò)模型對美國房屋風(fēng)格進(jìn)行分類。Yoshi-mura等人[4]訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)對34個(gè)建筑師的多個(gè)作品進(jìn)行分類,通過訓(xùn)練網(wǎng)絡(luò)模型的權(quán)重計(jì)算建筑的視覺相似性。然而,上述方法都需要收集大量的有標(biāo)簽樣本,但在建筑風(fēng)格分類中,不同建筑風(fēng)格之間存在相似性,同一建筑風(fēng)格中又存在差異性[1],導(dǎo)致標(biāo)注更加困難。尤其對于建筑遺產(chǎn)圖像,因?yàn)榻ㄖ包c(diǎn)需要被保護(hù),不能對外開放,如故宮中的一些殿宇,圖像數(shù)據(jù)難以獲得,數(shù)據(jù)集中的標(biāo)簽樣本根本不足以涵蓋所有類別。因此,在缺少足夠訓(xùn)練數(shù)據(jù)的情況下,如何利用已知建筑風(fēng)格實(shí)例對未知建筑圖像風(fēng)格進(jìn)行分類成為一個(gè)難點(diǎn)。
零樣本分類技術(shù)旨在對訓(xùn)練階段未出現(xiàn)過的樣本類別進(jìn)行分類,該技術(shù)根據(jù)已知類和未知類之間的語義相關(guān)性,將已知類的知識(shí)遷移用于未知類的識(shí)別,可有效解決樣本標(biāo)簽缺乏時(shí)的分類問題。目前零樣本學(xué)習(xí)應(yīng)用于計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域。如圖1所示,針對建筑圖像標(biāo)記數(shù)據(jù)少甚至某些類別沒有標(biāo)注數(shù)據(jù)的情況,在建筑風(fēng)格分類任務(wù)上使用零樣本分類技術(shù),緩解各風(fēng)格樣本分布不均衡導(dǎo)致的識(shí)別率低下的問題,進(jìn)一步提高建筑圖像分類精度。
圖1 零樣本學(xué)習(xí)示意圖
零樣本學(xué)習(xí)技術(shù)的關(guān)鍵是學(xué)習(xí)一個(gè)嵌入空間,根據(jù)嵌入空間的不同主要分為語義空間嵌入、視覺空間嵌入、公共子空間嵌入。語義空間嵌入是將圖像特征映射到語義空間中,度量與語義描述向量的匹配度,匹配度最高的類標(biāo)簽為測試類輸入圖像的標(biāo)簽。視覺空間嵌入將語義向量映射到視覺特征空間中來保留更多描述信息,能夠從一定程度上緩解語義空間嵌入的樞紐點(diǎn)問題。但直接學(xué)習(xí)視覺空間和語義空間之間的映射函數(shù),導(dǎo)致模型泛化能力較弱,影響分類性能。而公共子空間嵌入[5]充分利用視覺和語義兩種模態(tài)信息的互補(bǔ)性和一致性,將視覺特征和語義特征映射到公共子空間中,能夠有效緩解域偏移問題。但由于在建筑圖像分類任務(wù)中,每種建筑風(fēng)格外觀特征整體相似,細(xì)節(jié)元素存在差異,如哥特式建筑從上到下由尖頂、玫瑰窗、飛扶檐、尖拱門組成,而巴洛克由圓拱門、穹頂構(gòu)成。從空間組成上看每個(gè)建筑元素對分類任務(wù)的重要程度不同,若采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),以最后一個(gè)卷積層的特征作為特征表示,則可能缺乏對建筑結(jié)構(gòu)的針對性,忽略圖像的各個(gè)通道和每個(gè)空間位置的重要程度,很難提取到魯棒性較高的元素特征。
視覺注意力能夠注意到與任務(wù)相關(guān)的區(qū)域,提取更有鑒別性的視覺特征。常見的注意力機(jī)制有通道注意力、空間注意力、時(shí)間注意力等。其中,通道注意力學(xué)習(xí)通道的權(quán)值并進(jìn)行交互,而空間注意力通過嵌入位置信息,學(xué)習(xí)空間中重要的區(qū)域。將通道注意力與空間注意力組成的混合注意力網(wǎng)絡(luò)學(xué)習(xí)圖像特征各個(gè)維度的權(quán)重,并通過特征加權(quán)可捕獲圖片不同物體不同位置的細(xì)節(jié)特征。因此,針對建筑圖像標(biāo)簽缺失及局部判別性區(qū)域定位不準(zhǔn)確的問題,提出一種基于雙注意力機(jī)制的零樣本建筑圖像分類方法。通過通道注意網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)每個(gè)通道權(quán)重,選擇圖像中建筑物本身,忽略背景噪聲影響;使用空間注意力對特征圖每個(gè)位置生成掩碼并加權(quán)輸出,提取與分類任務(wù)相關(guān)的細(xì)節(jié)特征。同時(shí),在學(xué)習(xí)各空間的映射中,采用生成器對映射后的特征重建,緩解空間映射過程中的信息損失問題,以保留更多原始信息,進(jìn)而提高建筑圖像分類精度。
Larochelle等人[6]在2008年首次為解決字符分類問題提出了零樣本學(xué)習(xí)。當(dāng)前,零樣本圖像分類應(yīng)用于圖像標(biāo)注、跨模態(tài)檢索、目標(biāo)檢測等領(lǐng)域。根據(jù)嵌入空間的不同,零樣本圖像分類可分為語義空間嵌入、視覺空間嵌入、公共子空間嵌入。Ding等人[7]利用邊緣去噪策略和自適應(yīng)圖訓(xùn)練潛在語義編碼器生成潛在語義表示,提高視覺-語義映射函數(shù)的泛化。但由于語義特征映射的維度較大,容易出現(xiàn)樞紐點(diǎn)問題,使將多個(gè)類別原型的近鄰點(diǎn)誤分類。為緩解樞紐點(diǎn)問題,保留更多語義描述信息,提出將語義向量映射到視覺空間。Zhang等人[8]提出視覺空間嵌入,結(jié)合多種語義模式進(jìn)行多模態(tài)特征融合并以端到端方式聯(lián)合優(yōu)化。由于零樣本分類中類別的視覺特征和語義特征在空間中的流形分布不同,且空間之間的維度相差較大,直接學(xué)習(xí)不同空間的映射會(huì)導(dǎo)致知識(shí)遷移能力較差。若通過學(xué)習(xí)一個(gè)公共子空間,實(shí)現(xiàn)視覺特征和語義特征對齊,可增強(qiáng)模型的泛化能力。趙鵬等人[9]根據(jù)已知類的視覺特征以及類別語義之間的關(guān)系,構(gòu)建了未知類的視覺特征,學(xué)習(xí)所有類別的視覺特征和語義特征到子空間的映射,并通過編碼-解碼器重構(gòu)技術(shù)緩解了知識(shí)遷移過程中遇到的域偏移和信息丟失問題。
目前的建筑風(fēng)格分類方法大多采用監(jiān)督學(xué)習(xí)方法。Chen等人[10]通過使用一個(gè)集成的卷積神經(jīng)網(wǎng)絡(luò)模型作為全局分類器建立了建筑標(biāo)注圖像數(shù)據(jù)集(Annotated Image Database of Architecture,AIDA)并生成場景類和建筑類別的預(yù)測標(biāo)簽。Obeso等人[11]提出使用網(wǎng)絡(luò)輸入處的稀疏特征以及原色像素值對墨西哥建筑物的圖像進(jìn)行分類。Shalunts等人[12]使用局部特征的聚類尋找窗戶的梯度方向,從而根據(jù)窗戶的幾何規(guī)則對不同建筑風(fēng)格的類型進(jìn)行分類,但該方法沒有考慮其他建筑元素對建筑風(fēng)格的影響,而且數(shù)據(jù)收集具有局限性。為緩解類別數(shù)據(jù)量不均衡的問題,Zhao等人[13]設(shè)計(jì)基于GoogleNet的深度神經(jīng)網(wǎng)絡(luò),對數(shù)據(jù)集的數(shù)量進(jìn)行增強(qiáng),提高建筑風(fēng)格分類性能。Chu等人[14]提出模擬空間配置提取可視化模型,解決目標(biāo)建筑的縮放、旋轉(zhuǎn)和變形問題,擴(kuò)充小類別樣本的數(shù)量??傊?這些方法一般需要大量標(biāo)注樣本,對沒有標(biāo)記樣本的類別如何分類研究甚少。
注意力機(jī)制能夠從無關(guān)的背景區(qū)域中提取出具有重要信息的目標(biāo)區(qū)域,目前已成功應(yīng)用于視頻分類、傳統(tǒng)圖像分類、機(jī)器翻譯和場景分割等方面。Hou等人[15]將空間坐標(biāo)信息整合到生成的通道注意力的特征向量中,避免全局池化造成位置信息損失,精準(zhǔn)地定位和識(shí)別感興趣的目標(biāo)。Li等人[16]提出了將通道注意力和空間注意力結(jié)合的方法,使模型聚焦于關(guān)鍵信息,并利用注意增強(qiáng)技術(shù)使模型捕獲特定于類的區(qū)域,提高遙感圖像的分類性能??紤]到圖像中不同建筑元素以及元素細(xì)節(jié)為風(fēng)格分類任務(wù)貢獻(xiàn)的權(quán)重不同,導(dǎo)致在提取圖像特征時(shí)無法對特征進(jìn)行區(qū)分,該文將通道注意力和空間注意力融合嵌入神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,獲得圖像不同元素中細(xì)節(jié)位置的權(quán)重值,進(jìn)而定位到判別性區(qū)域。
文中分類模型由特征提取、屬性編碼和空間映射與分類模塊組成,主要框架如圖2所示。
圖2 雙注意力機(jī)制的零樣本建筑圖像分類模型
2.2.1 特征提取
視覺判別性特征提取由主干網(wǎng)絡(luò)、通道注意網(wǎng)絡(luò)和空間注意網(wǎng)絡(luò)組成。主干網(wǎng)絡(luò)(Backbone)提取圖像的全局特征。通道注意網(wǎng)絡(luò)(Channel Attention Network,CAN)去除圖像中的天空、人、車等無關(guān)建筑的元素,定位圖像中重要的建筑主體??臻g注意網(wǎng)絡(luò)(Spatial Attention Network,SAN)提取具有空間信息的特征表示,將建筑主體中對分類任務(wù)影響更大的建筑元素賦予更高的權(quán)重。
該文使用ResNeXt殘差網(wǎng)絡(luò)作為圖像特征提取器,ResNeXt作為ResNet的升級版本,使用了ResNet的重復(fù)層策略及GoogleNet的分裂轉(zhuǎn)換合并(split-transform-merge)的思想。在相同的參數(shù)數(shù)量下,ResNeXt提取的特征有更強(qiáng)的表示能力,使圖像分類的精度更高。ResNeXt-101的每層是由多個(gè)Res-NeXt塊組成,如表1所示,在使用ResNeXt-101網(wǎng)絡(luò)提取特征時(shí),需要去除最后的全連接層和池化層,只保留特征提取部分。
表1 ResNeXt-101的網(wǎng)絡(luò)結(jié)構(gòu)
由于通過ResNeXt-101提取的特征圖有2 048個(gè)通道,使得判別特征分散。為了更好地進(jìn)行建筑主體性特征定位,首先使用1*1卷積壓縮通道Ftmp=conv1×1(fResNeXt),在不改變特征圖中建筑元素空間信息的情況下刪除冗余通道。通道注意網(wǎng)絡(luò)如圖2所示,利用全局平均池化(GAP)計(jì)算各個(gè)通道特征圖的特征值V(公式1),再計(jì)算各個(gè)通道的注意權(quán)值Wchannel(公式2),通過SoftMax使每個(gè)權(quán)重的和等于1。將通道權(quán)值作用于全局特征圖上,得到通道注意圖Fca(公式3)。
V=GAP(Ftmp),V∈R1×1×16
(1)
Wchannel=SoftMax(fc_attention(Ftmp)),Wchannel∈R
(2)
Fca=Ftmp×Wchannel,Fca∈R8×8×16
(3)
建筑圖像中并不是所有的區(qū)域都同等重要,只有與屬性標(biāo)簽相關(guān)的建筑元素才是需要關(guān)注的,如玫瑰窗、尖拱門等是哥特式風(fēng)格需要關(guān)注的空間區(qū)域??臻g注意網(wǎng)絡(luò)就是尋找建筑圖像空間中重要的區(qū)域進(jìn)行處理。為了突出重要像素,一些研究者使用遞歸神經(jīng)網(wǎng)絡(luò)計(jì)算圖像的空間權(quán)值,但這種方法會(huì)將特征展開為一維向量,破壞建筑元素的空間結(jié)構(gòu),為避免空間結(jié)構(gòu)的破壞,使用多層卷積組成的空間注意模型來提取像素點(diǎn)的空間權(quán)值Wspatial(公式4),將空間權(quán)值應(yīng)用于通道特征圖上計(jì)算注意特征圖Fatt(公式5)。
Wspatial=fs_attention(Fca),Wspatial∈R8×8
(4)
Fatt=Fca×Wspatial,Fatt∈R8×8×16
(5)
2.2.2 屬性編碼
語義特征由建筑圖像的語義屬性構(gòu)成,表示各風(fēng)格類別之間的關(guān)系,是零樣本建筑風(fēng)格分類的關(guān)鍵信息。利用one-hot對所有類別的屬性特征進(jìn)行編碼,0代表無該屬性,1代表有該屬性。如將哥特式建筑的屬性[rose-windows,narrow-window,glazing,…,Symmetrical, curve,gable]編碼為[1,0,1,…,1,1,0]。
2.2.3 空間映射與分類
視覺特征由雙注意力得到的特征圖構(gòu)成,保留建筑圖像中與屬性相關(guān)的判別性信息。為更好地對齊視覺特征和語義特征,通過全連接層將建筑圖像的視覺注意特征映射到公共子空間中,視覺特征到公共子空間中映射函數(shù)為φ(xi)=W1×fatt。在學(xué)習(xí)視覺特征到子空間的映射時(shí),由于每層的下采樣操作,使得包含未知類別的判別信息損失,因此使用生成器對特征進(jìn)行重建,從而減少信息的損失。同時(shí)將所有類別編碼后的屬性向量也通過全連接層映射到同一子空間中,學(xué)習(xí)語義映射函數(shù)φ(aj)=W2×aj。
在映射的語義向量中利用最近鄰算法尋找與訓(xùn)練集的視覺特征相匹配的向量,預(yù)測樣本的類別標(biāo)簽,即y(x)=argminD(φ(xi),φ(aj)),D代表距離度量函數(shù),文中使用歐氏距離作為度量函數(shù)。
為更好地優(yōu)化模型,該文使用特征重建損失、中心損失、回歸損失和交叉熵?fù)p失來訓(xùn)練DAM-ZSL模型。
將視覺特征映射到公共子空間時(shí),由于維度差異,導(dǎo)致一些與屬性相關(guān)的判別信息在知識(shí)遷移過程中丟失,為減少信息損失,提出使用生成器對映射后的特征進(jìn)行重建,計(jì)算重建損失(公式6),φ-1(φ(x))是生成器重建后的視覺特征向量。
(6)
通過最小化重建損失,使重建的視覺特征更接近實(shí)際數(shù)據(jù),以緩解特征映射過程中的信息損失問題。
在零樣本學(xué)習(xí)的訓(xùn)練任務(wù)中,視覺嵌入函數(shù)將視覺注意特征映射到公共子空間中,學(xué)習(xí)已知類的類原型特征Ck,即視覺特征的平均向量(公式7),m為每個(gè)類別的樣本總數(shù)。數(shù)據(jù)集中存在類內(nèi)差異大,類間差異小的特點(diǎn),因此使用中心損失函數(shù)縮小類內(nèi)距離(公式8),將類別相同的樣本更緊湊。
(7)
(8)
為了使嵌入的視覺特征與相應(yīng)的語義屬性嵌入向量接近,使用回歸損失(公式9)來最小化嵌入向量之間的誤差。
(9)
在分類任務(wù)中,常使用交叉熵?fù)p失(公式10)計(jì)算預(yù)測和真實(shí)標(biāo)簽之間的損失值。
c∈ys
(10)
因此,該文總的損失函數(shù)為(公式11):
l=lce+lr+lc+lreg
(11)
基于雙注意力機(jī)制的零樣本分類的目標(biāo)函數(shù)為(公式12):
(12)
基于雙注意力機(jī)制的零樣本建筑圖像分類具體流程如下:
算法1 DAM-ZSL算法
屬性標(biāo)簽集合A={a1,a2,…,an},迭代次數(shù)n為200
輸出:視覺映射矩陣W1,語義映射矩陣W2
Step 2:提取具有通道和空間信息的注意特征圖
fori=1 ton
(1)Wchannel=SoftMax(fc_attention(Ftmp)),Wchannel∈R求通道權(quán)值
(2)利用Fca=Ftmp×Wchannel,Fca∈R8×8×16求通道注意圖
(3)利用Wspatial=fs_attention(Fca),Wspatial∈R8×8求空間權(quán)重
(4)利用Fatt=Fca×Wspatial,Fatt∈R8×8×16提取包含通道和空間信息的注意特征圖Fatt
//根據(jù)公式(6)特征重建損失訓(xùn)練通道-空間注意網(wǎng)絡(luò)
End for
Step 3:利用one-hot對所有類別的屬性特征進(jìn)行編碼
Step 4:空間映射:初始化W1,W2
fori=1 ton
(1)利用φ(xi)=W1×fatt計(jì)算視覺映射矩陣W1
(2)利用φ(aj)=W2×aj計(jì)算語義映射矩陣W2
//根據(jù)公式(11)的中心損失、回歸損失以及交叉熵?fù)p失函數(shù)訓(xùn)練網(wǎng)絡(luò)
End for
End
該文提出的模型在具有代表性的零樣本數(shù)據(jù)集CUB-200-2011(CUB)[17]以及建筑風(fēng)格數(shù)據(jù)集Architecture Style Dataset[1]上作評估。數(shù)據(jù)集描述如表2。CUB共有11 788張圖片,有312個(gè)類級屬性,包括200個(gè)鳥類別,其中150個(gè)類別作為已知類,50個(gè)類別作為未知類。
表2 數(shù)據(jù)集描述
傳統(tǒng)的建筑風(fēng)格分類是依據(jù)標(biāo)記的類標(biāo)簽對圖像進(jìn)行分類,沒有考慮到風(fēng)格的語義屬性對分類精度的提高,根據(jù)Yi等人[3]提出的美國房屋風(fēng)格類別的屬性特征以及建筑領(lǐng)域的專業(yè)知識(shí),該文在Architecture Style Dataset[1]數(shù)據(jù)集中增加類別的語義屬性,屬性維度為31維,共有5 000張建筑圖像,包含25個(gè)風(fēng)格類別,其中訓(xùn)練集20個(gè)類別共4 042張圖像,測試集有5個(gè)類別共958張圖像,如表2。
該文使用ResNeXt-101作為圖像特征提取器,將數(shù)據(jù)集的圖像大小初始化為256×256,因此ResNeXt-101的最后一個(gè)卷積特征圖的大小為2 048×8×8。同TransZero[18]一樣,使用SGD優(yōu)化器(動(dòng)量為0.9,衰減率為0.000 1)對模型進(jìn)行優(yōu)化,設(shè)置batch大小為50,迭代200次來訓(xùn)練模型,并設(shè)置學(xué)習(xí)率為0.000 1。
該文采用所有未知類的平均top-1精度,即對所有未知類正確預(yù)測的均值(Average Class Accuracy,ACA)(公式13)作為評價(jià)分類的標(biāo)準(zhǔn):
(13)
為更好地將DAM-ZSL與其他先進(jìn)的模型(如DAP[19],ALE[20],AREN[21],APN[22],LDF[23],TransZero[18],LsrGAN[24]等)作比較,該文分別在零樣本通用數(shù)據(jù)集和建筑風(fēng)格數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
如表3所示,在通用數(shù)據(jù)集CUB上,DAM-ZSL模型的平均精度為75%,比TransZero模型提高了1.3百分點(diǎn),說明DAM-ZSL能夠?qū)W習(xí)與屬性信息高度相關(guān)的視覺特征表示,學(xué)習(xí)的視覺區(qū)域更能表現(xiàn)圖像的主體對象。
表3 不同模型方法在兩個(gè)數(shù)據(jù)集上的比較
在表3中,將零樣本學(xué)習(xí)用于Architecture Style Dataset上,DAM-ZSL模型的分類精度為39.1%,相比TransZero模型和AREN模型分別提高0.7百分點(diǎn)和0.9百分點(diǎn),表明將通道和空間注意力應(yīng)用于零樣本分類模型中能夠聚焦圖像的細(xì)節(jié)元素區(qū)域。同時(shí),將DAM-ZSL與LsrGAN算法進(jìn)行比較,分類精度提高了0.2百分點(diǎn),說明雖然LsrGAN算法利用語義正則化損失(Semantic Regularized Loss)使生成的未知類圖像更加接近真實(shí)圖像,但由于沒有充分考慮建筑圖像中與語義向量相關(guān)的細(xì)節(jié)元素的視覺特征對分類任務(wù)的影響,從而導(dǎo)致其精度略低于DAM-ZSL模型。與APN屬性原型網(wǎng)絡(luò)相比,文中模型分類結(jié)果稍差,原因在于APN學(xué)習(xí)屬性原型,將屬性原型定位到視覺區(qū)域中,能夠更加有效地減少匹配樣本數(shù)量,在數(shù)據(jù)量小的數(shù)據(jù)集中影響更大。
圖3展示建筑風(fēng)格數(shù)據(jù)集中5個(gè)類別的預(yù)測值與真實(shí)值之間的混淆矩陣??梢钥闯龈缣厥斤L(fēng)格的準(zhǔn)確率較高,原因在于其自身的建筑元素與其他未知類別的建筑元素相差較大,如玫瑰窗是其獨(dú)有的,不會(huì)導(dǎo)致誤分類。帕拉迪奧式建筑的整體對稱是對已知類中古羅馬和希臘建筑對稱性的傳承,能夠?qū)W習(xí)到帕拉迪奧式建筑與已知類之間的語義屬性關(guān)系,實(shí)現(xiàn)語義遷移,但其十字拱與巴洛克建筑的圓拱門存在語義干擾,容易導(dǎo)致其準(zhǔn)確率稍差。
圖3 Architecture Style Dataset未知類的混淆矩陣(%)
為進(jìn)一步評估雙注意力機(jī)制對零樣本分類結(jié)果的影響,進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表4所示。當(dāng)不使用雙注意力機(jī)制時(shí),分類精度明顯小于完整的模型(DAM-ZSL)。在CUB數(shù)據(jù)集中,精度下降1.2百分點(diǎn),在Architecture Style Dataset中,下降了2.6百分點(diǎn)。當(dāng)使用通道注意力時(shí),由于數(shù)據(jù)集中收集的圖像參差不齊,CUB數(shù)據(jù)集中圖像的目標(biāo)主體更清晰,而建筑風(fēng)格數(shù)據(jù)集中圖像包含建筑主體及樹、人、車等非建筑元素,因此分類結(jié)果對于CUB數(shù)據(jù)集影響不大,但對建筑風(fēng)格小數(shù)據(jù)集上提高1.8百分點(diǎn),說明通道注意力模型能夠有效地去除背景等非建筑元素的影響,提取到建筑物本身。當(dāng)使用空間注意力而不使用通道注意力時(shí),提取到的視覺特征是圖像中空間結(jié)構(gòu)性較強(qiáng)的區(qū)域,對建筑風(fēng)格數(shù)據(jù)集來說,圖像的空間組成較明顯,因此分類精度提高2.1百分點(diǎn)。當(dāng)結(jié)合通道注意力和空間注意力對圖像提取特征時(shí),能提取圖像中與屬性相關(guān)的視覺區(qū)域,使分類結(jié)果更準(zhǔn)確。
表4 雙注意力機(jī)制對ACA精度的影響 %
為了直觀地表示雙注意力機(jī)制在提取局部判別特征的有效性,使用Grad-CAM將DAM-ZSL模型提取出的注意特征圖可視化,如圖4所示。文中模型能夠提取出與建筑風(fēng)格分類相關(guān)的局部細(xì)節(jié)特征,如哥特式建筑的玫瑰窗,這說明將通道-空間雙注意力網(wǎng)絡(luò)引入零樣本分類任務(wù)中使學(xué)習(xí)到的視覺特征更加具有判別性。
為了對訓(xùn)練集中未知類的建筑圖像進(jìn)行正確分類,提出了一種基于雙注意力機(jī)制的零樣本建筑圖像分類方法,結(jié)合通道注意機(jī)制和空間注意機(jī)制提取了建筑風(fēng)格圖像中與屬性相關(guān)的判別性特征,同時(shí)將局部判別性特征和屬性特征映射到同一子空間中,使公共子空間中存在豐富的視覺信息和類別語義屬性之間的關(guān)系信息,并使用最近鄰算法實(shí)現(xiàn)了對未知建筑風(fēng)格樣本的有效分類。在之后的工作中將根據(jù)語義信息結(jié)合圖卷積網(wǎng)絡(luò)構(gòu)建類別之間的關(guān)系,進(jìn)一步提高零樣本建筑風(fēng)格圖像分類結(jié)果。