宗海燕,吳 秦+,王田辰,張 淮
1.江南大學(xué) 江蘇省模式識(shí)別與計(jì)算智能工程實(shí)驗(yàn)室,江蘇 無錫 214122
2.物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無錫 214122
場(chǎng)景分類是計(jì)算機(jī)視覺的一個(gè)重要研究方向,在很多領(lǐng)域如圖像檢索[1]、視頻檢索[2]、安全監(jiān)控系統(tǒng)[3]、移動(dòng)機(jī)器人視覺導(dǎo)航[4]等都得到了廣泛的應(yīng)用。圖像的場(chǎng)景分類問題實(shí)際上是利用計(jì)算機(jī)模擬人類的視覺感知原理,對(duì)包含若干語義信息的場(chǎng)景圖像實(shí)現(xiàn)自動(dòng)標(biāo)注。雖然在特征提取方面已經(jīng)取得了很多的成果,但是由于空間位置、光照、尺度等變化因素的影響,場(chǎng)景分類還是存在很大的挑戰(zhàn)性。
早期的場(chǎng)景圖像分類方法大多是利用圖像全局的低層特征[5-7],包括圖像的紋理、顏色和形狀等,雖然執(zhí)行簡(jiǎn)單,計(jì)算成本低,但是分類的性能有限。Lowe于1999年提出了尺度不變特征變換算法(scaleinvariant feature transform,SIFT)[8],在空間尺度中通過建立高斯差分金字塔提取關(guān)鍵點(diǎn),對(duì)尺度、旋轉(zhuǎn)和亮度具備一定的魯棒性,但是SIFT特征向量維數(shù)過高,計(jì)算量較大。后來2005年Li等人首次提出用視覺詞袋模型(bag of visual word,BOVW)[9]表示圖像的方法。將提取的特征表述成多個(gè)視覺詞匯的組合,構(gòu)成字典,通過分析計(jì)算樣本中視覺詞匯出現(xiàn)的頻率來對(duì)樣本進(jìn)行分類。模型主要分為三部分:特征的提取、視覺詞匯的形成和場(chǎng)景模型的建立。BOVW模型比較簡(jiǎn)易,能夠有效降低樣本的特征維數(shù),但是該模型沒有考慮特征點(diǎn)的空間位置信息。針對(duì)這一缺點(diǎn),Lazebnik等人于2006年提出了空間金字塔匹配模型(spatial pyramid matching,SPM)[10],對(duì)樣本空間進(jìn)行不同等級(jí)的劃分,充分考慮了特征的空間位置信息,很大程度地提升了BOVW模型的性能。后來,Wu等提出了CENTRIST[11](census transform histogram)特征,該特征能刻畫場(chǎng)景的全局結(jié)構(gòu)信息,易于實(shí)現(xiàn),無參數(shù),計(jì)算成本比較低,具有光照不變性。2012年Gazolli和Salles改進(jìn)提出的CMCT(contextual mean census transform)[12]特征,融合了結(jié)構(gòu)信息以及上下文信息。2014年Gazolli和Salles再次改進(jìn)提出了CTDN(census transform of distant neighbors)[13]特征,考慮增加遠(yuǎn)距離點(diǎn)的信息,但是對(duì)樣本的旋轉(zhuǎn)以及拍照角度等問題不具備一定的魯棒性。于是本文提出多尺度遠(yuǎn)距離點(diǎn)差值統(tǒng)計(jì)變換特征(multiscale census transform of difference of distant neighbors,MCTDDN),充分考慮了像素之間的對(duì)比度信息,并且利用二維Gabor濾波解決了樣本的旋轉(zhuǎn)以及拍攝角度等問題。
由于場(chǎng)景具有復(fù)雜性和多樣性,受到光照、拍攝角度等多方面影響,基于空間金字塔的詞袋模型提供的分類信息仍然具有局限性,僅僅利用單一的詞袋模型特征對(duì)場(chǎng)景進(jìn)行分類達(dá)不到很好的分類效果。對(duì)于場(chǎng)景圖像,相鄰像素以及圖像塊之間存在著一定的空間對(duì)比度信息,基于這一發(fā)現(xiàn),本文提出MCTDDN,并將該特征與BOVW模型特征進(jìn)行相互融合,全局的結(jié)構(gòu)信息和局部的關(guān)鍵點(diǎn)信息相結(jié)合,實(shí)現(xiàn)兩者特征的互補(bǔ)。文獻(xiàn)[14]的特征融合是將BOVW模型特征與局部二值模式(local binary patterns,LBP)或者LBP相關(guān)改進(jìn)特征進(jìn)行融合,但是LBP在圖像比較模糊或者光照變化強(qiáng)烈條件下,不能有效刻畫出紋理特征,而本文改進(jìn)的算法對(duì)光照具有一定的魯棒性。另外,以往的一些算法只是簡(jiǎn)單的兩種特征的并集或者串集,或者是以某種系數(shù)的串集,得到的特征維數(shù)增加,會(huì)將占用很大的內(nèi)存空間。不同于以往算法,本文采用的融合算法先分別利用兩種特征進(jìn)行分類,最后將兩者分類結(jié)果進(jìn)行融合,利用兩者的互補(bǔ)關(guān)系,在場(chǎng)景分類中取得了較好的分類效果。
Fig.1 Framework of bag of word algorithm based on spatial pyramid圖1 基于空間金字塔的詞袋模型算法框架
隨著計(jì)算機(jī)性能的大幅提升,機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí)的快速發(fā)展,特征融合的優(yōu)勢(shì)越來越明顯。將來源不同的信息整合到一起,去冗余;得到的融合信息將利于之后的分析處理。融合模型有多種方式,例如多核學(xué)習(xí)[15-16]、多視圖學(xué)習(xí)[17]等,融合沒有唯一正確的方法。融合的目標(biāo)就是盡量保持“準(zhǔn)確性”和“多樣性”間的平衡。多核學(xué)習(xí)雖然在解決一些異構(gòu)數(shù)據(jù)集問題上表現(xiàn)出了非常優(yōu)秀的性能,但由于需要計(jì)算各個(gè)核矩陣對(duì)應(yīng)的核組合系數(shù),需要多個(gè)核矩陣共同參加運(yùn)算,會(huì)占用很大的內(nèi)存空間。高耗的時(shí)間和空間復(fù)雜度是導(dǎo)致多核學(xué)習(xí)算法不能廣泛應(yīng)用的一個(gè)重要原因。多視圖學(xué)習(xí)是把數(shù)據(jù)表示成多個(gè)特征集,在每個(gè)特征集上用不同的學(xué)習(xí)方法進(jìn)行學(xué)習(xí)。如果只是簡(jiǎn)單地將不同特征組合,得到的特征將失去原來的意義,增加了維數(shù)給學(xué)習(xí)帶來困難。本文就是將兩種特征分別在不同的核協(xié)同表示模型上進(jìn)行學(xué)習(xí),通過計(jì)算兩者結(jié)果的殘差獲得最后的分類結(jié)果,充分發(fā)揮了各個(gè)特征的優(yōu)勢(shì)。
給定一個(gè)樣本集,首先提取每張圖像的SIFT特征,將獲得的離散特征點(diǎn)通過聚類生成視覺詞匯表;同時(shí)對(duì)圖像空間按金字塔水平進(jìn)行多層次的網(wǎng)格劃分,將第l層(l=0,1,…,L,L為總層數(shù))圖像沿水平和垂直方向分別劃分2l個(gè)單元,每一層圖像則被分為4l個(gè)相等同大小的子區(qū)域,分別統(tǒng)計(jì)每個(gè)子區(qū)域中視覺單詞出現(xiàn)的次數(shù),得到不同子區(qū)域的視覺單詞頻次直方圖,將一層中所有子區(qū)域的視覺單詞頻次直方圖按順序排列,通過式(1)得到該層的直方圖向量[10]:
給定兩幅圖像X、Y,它們?cè)诘趌層的匹配度可通過式(2)直方圖交叉核計(jì)算:
根據(jù)金字塔匹配原理,第l層匹配包含了第l+1層所有的匹配,因此可以用Il-Il+1來表示第l層新增加的匹配,層次越高,圖像劃分更稠密,匹配度更高,因此將每一層次的權(quán)重設(shè)置為1/2L-l,綜合所有層次,得到金字塔匹配核如式(3):
基于空間金字塔的詞袋模型引入了特征點(diǎn)的空間位置信息,在實(shí)際應(yīng)用中取得了不錯(cuò)的成果,圖1描述了該模型的基本框架。
Fig.2 Pixel distribution atK=4圖2 K=4時(shí)的像素分布圖
將得到的CTDN二進(jìn)制值轉(zhuǎn)化為十進(jìn)制,最后將得到的所有點(diǎn)的特征值統(tǒng)計(jì)成直方圖。
Gabor濾波器[20]是一個(gè)常用于邊緣檢測(cè)的線性濾波器。Gabor濾波器的頻率和方向表示接近人類視覺系統(tǒng)對(duì)于頻率和方向的表示,Gabor濾波常用于紋理表示和描述。二維Gabor濾波器具有在空間域和頻率域同時(shí)取得最優(yōu)局部化的特性,與人類生物視覺特性很相似,因此能夠很好地描述對(duì)應(yīng)于空間頻率(尺度)、空間位置及方向選擇性的局部結(jié)構(gòu)信息。Gabor濾波器可以在頻域的不同尺度、不同方向上提取相關(guān)特征,其定義如式(6)所示:
其中:
其中,μ為濾波方向;ν為濾波尺度;z為圖像坐標(biāo);σ為高斯函數(shù)半徑;κμ,ν為濾波器的中心頻率;κmax為最大頻率;f為空間因子。本文設(shè)置二維濾波器為5個(gè)尺度ν={0,1,…,4},8個(gè)方向μ={0,1,…,7},最終得到40個(gè)不同的Gabor濾波函數(shù),將其與圖像進(jìn)行卷積操作。
本文提出的多尺度遠(yuǎn)距離點(diǎn)差值統(tǒng)計(jì)變換特征算法的總體框架圖如圖3所示。給定一張測(cè)試圖片,分別在像素圖和濾波圖上提取改進(jìn)的遠(yuǎn)距離點(diǎn)差值統(tǒng)計(jì)變換特征,兩者信息補(bǔ)充結(jié)合作為最后的多尺度統(tǒng)計(jì)變換特征(MCTDDN)。
Fig.3 Overall framework of MCTDDN圖3 MCTDDN總體框架圖
CTDN算法提取了遠(yuǎn)距離的鄰點(diǎn)信息,但是并沒有考慮遠(yuǎn)距離點(diǎn)與滑動(dòng)窗口的對(duì)比度信息,對(duì)于背景類似的結(jié)構(gòu)塊不能獲得區(qū)分性較高的特征,于是本文提出遠(yuǎn)距離點(diǎn)差值統(tǒng)計(jì)變換(census transform of difference of distant neighbors,CTDDN)特征,通過像素之間差值的計(jì)算提取滑動(dòng)的窗口與對(duì)應(yīng)遠(yuǎn)距離像素點(diǎn)的對(duì)比度信息,進(jìn)而獲得圖像樣本的上下文信息,該遠(yuǎn)距離點(diǎn)滿足所在的窗口區(qū)域與滑動(dòng)窗口無交集且距離最近的要求,如圖4所示,通過增加對(duì)比度信息來增強(qiáng)圖像特征的表達(dá)力,凸顯出各個(gè)塊的差異,使得結(jié)構(gòu)類似的樣本更加具有區(qū)分力。
Fig.4 CTDDN feature extraction process圖4 CTDDN特征提取過程
假設(shè)給定一個(gè)中心點(diǎn)的像素值為I(x,y)的3×3滑動(dòng)窗口,為了降低算法的復(fù)雜性,本文僅選取距離中心點(diǎn)k=4像素遠(yuǎn)的像素點(diǎn)Np作為遠(yuǎn)距離鄰點(diǎn),p=0,1,…,7,像素值分別表示為I(x-4,y-4),I(x-4,y),I(x-4,y+4),I(x,y-4),I(x,y+4),I(x+4,y-4),I(x+4,y),I(x+4,y+4)。將Np分別與滑動(dòng)窗口邊緣點(diǎn)Ip做差值運(yùn)算,Ip的像素值分別表示為I(x-1,y-1),I(x-1,y),I(x-1,y+1),I(x,y+1),I(x+1,y-1),I(x+1,y),I(x,y-1),I(x+1,y+1),可以通過式(9)得到8個(gè)差值的均值(x,y):
該滑動(dòng)窗口中心點(diǎn)的CTDDN值可以通過式(10)計(jì)算得來:
其中,(x,y)為中心像素點(diǎn)的位置坐標(biāo),Mp為遠(yuǎn)距離點(diǎn)與最近的滑動(dòng)窗口邊緣點(diǎn)的差值,將得到的CTDDN二進(jìn)制值轉(zhuǎn)換為范圍在[0,255]的十進(jìn)制數(shù),最后將整個(gè)樣本的特征值統(tǒng)計(jì)成直方圖。
考慮到塊與塊之間的獨(dú)立性,給定一個(gè)n×n的滑動(dòng)窗口,設(shè)置距離值k=(3n-1)/2來選取遠(yuǎn)距離點(diǎn),以避免塊與塊之間信息的重合。如圖5所示,當(dāng)k=1,2,3時(shí),選取的遠(yuǎn)距離點(diǎn)所處的窗口都與原窗口有信息交匯;當(dāng)k=4時(shí),設(shè)置的遠(yuǎn)距離的鄰點(diǎn)與中心點(diǎn)距離最近且與原窗口相互獨(dú)立,既能在更大的區(qū)域提取特征,又能避免信息的冗余。
Fig.5 Information intersections with different distance values圖5 不同距離值的信息交叉圖
本文融合算法的整體流程如下:
(1)將訓(xùn)練樣本和測(cè)試樣本的兩種特征通過高斯核映射到高維空間;(2)將訓(xùn)練樣本高維空間特征作為字典;(3)提取測(cè)試樣本的特征,根據(jù)對(duì)應(yīng)字典的重構(gòu)誤差,得到誤差最小時(shí)的整體重構(gòu)系數(shù);(4)將整體重構(gòu)系數(shù)以及字典分別表示成每個(gè)場(chǎng)景種類的子重構(gòu)系數(shù)和子字典;(5)根據(jù)子重構(gòu)系數(shù)和子字典計(jì)算測(cè)試樣本兩種特征對(duì)于每個(gè)類別的重構(gòu)殘差;(6)設(shè)置權(quán)重參數(shù)組合兩種特征的重構(gòu)殘差,通過殘差的最小值來判斷測(cè)試樣本的標(biāo)簽。
具體運(yùn)算步驟如下所示:
得到核空間的協(xié)同系數(shù)后,每個(gè)種類的重構(gòu)殘差如式(14):
將最優(yōu)正則化參數(shù)λ1、λ2帶入式(14),最后設(shè)置一個(gè)權(quán)重參數(shù)μ通過式(16)計(jì)算融合后重構(gòu)殘差的最小值來判斷測(cè)試圖像的標(biāo)簽:
本文的特征是BOVW模型特征和MCTDDN特征的融合,根據(jù)兩者融合之后重構(gòu)殘差的最小值來判斷給定測(cè)試圖像的標(biāo)簽。樣本的全局結(jié)構(gòu)信息和局部關(guān)鍵點(diǎn)信息分別在不同的協(xié)同表示模型上進(jìn)行學(xué)習(xí),將兩者最優(yōu)分類狀態(tài)的參數(shù)傳遞到混合模型中,通過重新計(jì)算兩者融合之后的重構(gòu)殘差最后判斷測(cè)試圖像的標(biāo)簽,充分發(fā)揮了各個(gè)特征的優(yōu)勢(shì),兩者互補(bǔ),與以往方法簡(jiǎn)單的并集或者串集特征融合方式相比,本文方法一定程度上降低了內(nèi)存空間的使用。
為了驗(yàn)證本文提出算法的有效性,對(duì)兩個(gè)標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集的數(shù)據(jù)進(jìn)行測(cè)試。
第一個(gè)OT數(shù)據(jù)集[21]由Oliva和Torralba建立,包含8類:海岸(360幅)、森林(328幅)、高速公路(260幅)、市區(qū)住宅(308幅)、高山(274幅)、野外(410幅)、街道(292幅)、高層建筑(356幅)共2 688張圖像,每張圖像的大小為256×256像素。圖6給出了每類場(chǎng)景的圖像示例。
Fig.6 Samples of OT dataset圖6 OT數(shù)據(jù)集的圖像示例
第二個(gè)為L(zhǎng)S數(shù)據(jù)集[22],包含15類:臥室(216幅)、郊區(qū)住宅(241幅)、廚房(210幅)、客廳(289幅)、海岸(360幅)、森林(328幅)、高速公路(260幅)、市區(qū)住宅(308幅)、高山(274幅)、野外(410幅)、街道(292幅)、高層建筑(356幅)、辦公室(215幅)、工廠(311幅)、店鋪(315幅)共4 485張圖像,每張圖像平均大小為300×250像素。在OT數(shù)據(jù)集的基礎(chǔ)上增加了7類場(chǎng)景,主要為室內(nèi)場(chǎng)景,室內(nèi)與室外的結(jié)合增加了數(shù)據(jù)集的多樣性,更能驗(yàn)證算法的有效性。圖7為增加的7類場(chǎng)景圖像示例。
Fig.7 Samples added in LS dataset圖7 LS數(shù)據(jù)集增加的圖像示例
本文實(shí)驗(yàn)選取OT數(shù)據(jù)庫(kù)中每個(gè)種類的250張圖片,每類使用200張用于訓(xùn)練,50張用于測(cè)試,進(jìn)行5次交叉驗(yàn)證。OT數(shù)據(jù)集的每張圖像都是同等像素大小,不需要做前期預(yù)處理操作,對(duì)于BOVW模型的特征提取,設(shè)置碼本尺寸為1 024,空間金字塔為3個(gè)層次;對(duì)于本文提出的多尺度統(tǒng)計(jì)變換特征,設(shè)置5個(gè)尺度,8個(gè)方向的濾波器,然后分別在濾波返回值和原始像素圖像上分別進(jìn)行CTDDN特征的提取。對(duì)于分類器的設(shè)計(jì),BOVW模型特征和多尺度統(tǒng)計(jì)變換特征都是用高斯核進(jìn)行特征映射,通過實(shí)驗(yàn)驗(yàn)證,兩者的高斯核參數(shù)σ分別設(shè)置為1.0和0.8,兩者協(xié)同表示的正則化參數(shù)分別設(shè)置為10-5和10-3時(shí)得到較優(yōu)的準(zhǔn)確率。
表1為本文算法實(shí)驗(yàn)結(jié)果的混淆矩陣,矩陣第i行第j列的值代表第i類場(chǎng)景被分為第j類場(chǎng)景的比例,整體識(shí)別率達(dá)到90.8%,高樓的識(shí)別率最高達(dá)到98%,野外的識(shí)別率相對(duì)較低,野外和海岸的分界線有些模糊,可能是背景輪廓和顏色相似所致。圖8給出了野外和海岸的圖像示例,左側(cè)的野外圖形在本實(shí)驗(yàn)中被識(shí)別為海岸。
Table1 Confusion matrix of precision on OT dataset表1 OT數(shù)據(jù)集的準(zhǔn)確率混淆矩陣 %
本文是BOVW模型特征和MCTDDN特征的融合,表1的實(shí)驗(yàn)結(jié)果是當(dāng)融合權(quán)重值μ為0.8時(shí),獲得的最高的準(zhǔn)確率,對(duì)于不同μ取值的準(zhǔn)確率對(duì)比如圖9所示。當(dāng)μ=0時(shí)代表的是MCTDDN特征的識(shí)別率,當(dāng)μ=1時(shí)代表的是BOVW模型的識(shí)別率,兩者結(jié)合互補(bǔ)時(shí),當(dāng)BOVW模型特征比重大于MCTDDN特征時(shí),取得較好的分類效果。
Fig.8 Examples of scenes identified as coasts in wild圖8 野外被識(shí)別為海岸的場(chǎng)景示例
Fig.9 Results comparison of differentμon OT dataset圖9 OT數(shù)據(jù)集中不同μ值的實(shí)驗(yàn)對(duì)比
在相同的實(shí)驗(yàn)環(huán)境下,對(duì)比七種算法結(jié)果,如表2所示。從實(shí)驗(yàn)結(jié)果可知,BOVW模型優(yōu)于本文提出的多尺度統(tǒng)計(jì)變換特征MCTDDN,但MCTDDN優(yōu)于MS-CLBP(multiscale completed local binary pat-terns),本文將BOVW模型特征與MCTDDN特征融合后正確率相比其他三種融合算法都有所提高,可見本文提出的算法在提高OT數(shù)據(jù)集場(chǎng)景識(shí)別率有一定的實(shí)用價(jià)值與有效性。
Table2 Precision comparison of different algorithms on OT dataset表2 OT數(shù)據(jù)集上不同算法準(zhǔn)確率對(duì)比 %
遠(yuǎn)距離點(diǎn)差值統(tǒng)計(jì)變換特征的提取需設(shè)置滑動(dòng)窗口,本文設(shè)置了3×3、5×5、7×7三種尺寸,表3為不同尺寸的滑動(dòng)窗口下改進(jìn)的MCTDDN特征以及融合特征的實(shí)驗(yàn)結(jié)果。結(jié)果表明,對(duì)于OT數(shù)據(jù)集,5×5的滑動(dòng)窗口下取得最優(yōu)的整體分類效果;3×3的滑動(dòng)窗口過小,像素間距離過近,差異性不大,導(dǎo)致提取的特征不具備有力的區(qū)分性;7×7的滑動(dòng)窗口過大,具有差異性的像素位于窗口內(nèi)部,同樣導(dǎo)致提取的特征沒有足夠的區(qū)分性。
Table3 Precision comparison of different sizes of sliding window on OT dataset表3 OT數(shù)據(jù)集上不同滑動(dòng)窗口準(zhǔn)確率對(duì)比 %
實(shí)驗(yàn)選取數(shù)據(jù)庫(kù)中每個(gè)種類的200張圖片,每類使用150張用于訓(xùn)練,50張用于測(cè)試,進(jìn)行4次交叉驗(yàn)證,LS數(shù)據(jù)集的每個(gè)碼本尺寸為1 024,空間金字塔為3個(gè)層次;對(duì)于多尺度統(tǒng)計(jì)變換特征,設(shè)置5個(gè)尺度,8個(gè)方向的濾波器,然后分別在濾波返回值和原始像素圖像上分別進(jìn)行CTDDN特征的提取。對(duì)于分類器的設(shè)計(jì),BOVW模型特征和多尺度統(tǒng)計(jì)變換特征用高斯核進(jìn)行特征映射,通過大量實(shí)驗(yàn)驗(yàn)證,當(dāng)兩者的高斯核參數(shù)σ分別設(shè)置為1.0和0.7,兩者協(xié)同表示的正則化參數(shù)分別設(shè)置為10-5和10-2時(shí),數(shù)據(jù)集取得最優(yōu)的分類效果。
表4為本文算法的實(shí)驗(yàn)結(jié)果,整體識(shí)別率為85.3%。郊區(qū)的識(shí)別率最高為99.5%,臥室的識(shí)別率只有69.0%,很多的臥室場(chǎng)景被識(shí)別為客廳,主要是客廳和臥室很多背景物體相同,以及床的拍攝不完整,導(dǎo)致其輪廓與沙發(fā)類似。圖10給出了臥室和客廳的圖像示例,左側(cè)的臥室圖像在本實(shí)驗(yàn)中被識(shí)別為客廳。
在LS數(shù)據(jù)集中,對(duì)于BOVW模型特征和MCTDDN融合,表4的實(shí)驗(yàn)結(jié)果是當(dāng)權(quán)重值μ為0.84時(shí)獲得最高的識(shí)別率,當(dāng)μ取0時(shí)為單一的MCTDDN特征的準(zhǔn)確率,當(dāng)μ取1時(shí)為單一的BOVW模型特征的準(zhǔn)確率。對(duì)于不同μ取值的實(shí)驗(yàn)結(jié)果走勢(shì)如圖11所示。
Table4 Confusion matrix of precision on LS dataset表4 LS數(shù)據(jù)集的準(zhǔn)確率混淆矩陣 %
Fig.10 Examples of scenes identified as living room in the bedroom圖10 臥室被識(shí)別為客廳的場(chǎng)景示例
Fig.11 Results comparison of differentμon LS dataset圖11 LS數(shù)據(jù)集中μ不同值的實(shí)驗(yàn)對(duì)比
在相同的實(shí)驗(yàn)環(huán)境下,在LS數(shù)據(jù)集中對(duì)比七種算法結(jié)果,如表5所示,從實(shí)驗(yàn)結(jié)果可知,本文提出的多尺度統(tǒng)計(jì)變換特征MCTDDN優(yōu)于MS-CLBP,平均準(zhǔn)確率提高了4.5%,本文BOVW模型特征與MCTDDN特征的融合特征的正確率相比其他三種融合算法都有所提高,平均準(zhǔn)確率提高了1%至4%,可見本文提出的算法在提高LS數(shù)據(jù)集場(chǎng)景識(shí)別率有一定的實(shí)用價(jià)值。
對(duì)于LS數(shù)據(jù)集,本文遠(yuǎn)距離點(diǎn)差值統(tǒng)計(jì)變換特征的提取同樣設(shè)置了3×3、5×5、7×7三種滑動(dòng)窗口的尺寸,表6為不同尺寸的滑動(dòng)窗口下場(chǎng)景分類實(shí)驗(yàn)結(jié)果對(duì)比。結(jié)果表明,本文單一的MCTDDN特征以及融合特征都在3×3的滑動(dòng)窗口下取得最優(yōu)的場(chǎng)景分類效果。5×5和7×7的滑動(dòng)窗口對(duì)于LS數(shù)據(jù)集的樣本過大,窗口內(nèi)部包含了具有差異性大的像素,導(dǎo)致遠(yuǎn)距離點(diǎn)像素與窗口內(nèi)像素差值計(jì)算提取的特征沒有足夠的區(qū)分性。
Table5 Precision comparison of different algorithms on LS dataset表5 LS數(shù)據(jù)集上不同算法準(zhǔn)確率對(duì)比 %
Table6 Precision comparison of different sizes of sliding window on LS dataset表6 LS數(shù)據(jù)集上不同滑動(dòng)窗口準(zhǔn)確率對(duì)比 %
為驗(yàn)證融合特征優(yōu)于單個(gè)特征的分類結(jié)果,本文另外選擇了經(jīng)典的全局視覺特征GIST[23]和分層梯度方向直方圖(pyramid histogram of oriented gradients,PHOG)[24]特征。根據(jù)表7中單獨(dú)使用一種特征以及特征融合之后的實(shí)驗(yàn)結(jié)果,以及原論文中的實(shí)驗(yàn)結(jié)果表明特征融合的分類效果明顯優(yōu)于單個(gè)特征,利用兩種特征優(yōu)勢(shì)的互補(bǔ),能獲得更好的分類效果。
Table7 Precision comparison of two algorithms on two datasets表7 兩個(gè)數(shù)據(jù)集上兩種特征準(zhǔn)確率對(duì)比 %
針對(duì)單一特征無法給場(chǎng)景識(shí)別提供充足信息這一情況,以及基于空間金字塔的詞袋模型提供的空間分類信息具有局限性,會(huì)丟失部分細(xì)節(jié)信息,本文提出了一種多尺度遠(yuǎn)距離點(diǎn)差值統(tǒng)計(jì)變換特征,將其與BOVW模型特征通過核協(xié)同表示的方法進(jìn)行特征融合,添加了遠(yuǎn)距離像素點(diǎn)的對(duì)比度信息,充分考慮了全局特征和尺度信息。兩種特征的互補(bǔ),能得到更好的場(chǎng)景特征,從而獲得更高的場(chǎng)景圖像識(shí)別率。兩個(gè)經(jīng)典實(shí)驗(yàn)數(shù)據(jù)集的實(shí)驗(yàn)對(duì)比顯示:本文提出的兩種特征結(jié)合后的識(shí)別率明顯高于其他單一特征的識(shí)別率。
在接下來的研究工作中,將嘗試通過將高中低三個(gè)不同層次的特征結(jié)合來獲取更佳的場(chǎng)景特征,并探索在不降低準(zhǔn)確率的前提下降低算法空間復(fù)雜度和時(shí)間復(fù)雜度的方法。