梁曄 馬楠 許亮 桂雨晗
[摘要]基于詞包模型的圖像表示方法是目前應(yīng)用最廣泛的特征表示方法之一,特征編碼是該模型中非常重要的環(huán)節(jié)。針對(duì)已有編碼方法未考慮語(yǔ)義信息的缺點(diǎn),提出了基于局部性約束和視覺(jué)顯著性的特征編碼方法,并用于圖像分類。在5個(gè)標(biāo)準(zhǔn)圖像庫(kù)進(jìn)行實(shí)驗(yàn)和分析,結(jié)果表明融入顯著性語(yǔ)義信息的圖像編碼方法能夠提升分類性能。
[關(guān)鍵詞]視覺(jué)顯著性;特征編碼;圖像分類;局部性約束
[中圖分類號(hào)]TP391.41 [文獻(xiàn)標(biāo)志碼]A [文章編號(hào)]1005-0310(2020)01-0057-06
0 引言
近年來(lái),隨著Internet的廣泛應(yīng)用和智能手機(jī)、數(shù)碼相機(jī)等設(shè)備的普及,以圖像和視頻為主的多媒體信息逐漸成為人們傳遞和獲取信息的主要載體,在豐富人們生活、工作、教育和娛樂(lè)的同時(shí)也形成了海量的圖像數(shù)據(jù)。如何對(duì)這些圖像數(shù)據(jù)進(jìn)行有效的計(jì)算和管理成了巫待解決的問(wèn)題。視覺(jué)是人類獲取信息、認(rèn)識(shí)世界最重要的途徑。人類的視覺(jué)系統(tǒng)在獲取外界信息的過(guò)程中并不是被動(dòng)接受所有信息,而是通過(guò)人眼的視覺(jué)注意機(jī)制將次要的信息過(guò)濾掉,從而減少大腦處理信息的負(fù)擔(dān)。顯著性檢測(cè)技術(shù)是讓計(jì)算機(jī)模擬人眼的視覺(jué)注意力選擇機(jī)制,檢測(cè)圖像中最能引起用戶興趣和體現(xiàn)圖像內(nèi)容的顯著區(qū)域。顯著性檢測(cè)可以為諸多應(yīng)用提供原始對(duì)象,大大降低了計(jì)算量,應(yīng)用廣泛,是目前研究的熱點(diǎn)。此外,圖像分類方法是指根據(jù)圖像的內(nèi)容將其劃分到預(yù)定義類別的方法,是人工分類的延續(xù)和發(fā)展,也是實(shí)現(xiàn)對(duì)圖像自動(dòng)管理和語(yǔ)義理解的重要途徑,已經(jīng)在圖像檢索、智能安防、視頻監(jiān)控和無(wú)人機(jī)平臺(tái)上有廣泛的應(yīng)用,也是圖像研究領(lǐng)域的熱點(diǎn)問(wèn)題。
本文重點(diǎn)研究視覺(jué)顯著性和圖像分類的關(guān)系,根據(jù)圖像庫(kù)是否含有顯著區(qū)域把圖像庫(kù)分為場(chǎng)景類圖像庫(kù)和對(duì)象類圖像庫(kù)。對(duì)含有顯著區(qū)域的對(duì)象類圖像庫(kù),提出新的圖像分類方法,既突出了顯著區(qū)域?qū)τ诜诸惖闹匾?,也體現(xiàn)了局部性空間約束對(duì)于編碼一致性的重要作用,從而提高圖像分類的精度。
1 相關(guān)工作
1.1 圖像分類技術(shù)
圖像分類技術(shù)大體分為基于人工設(shè)計(jì)特征和基于深度學(xué)習(xí)特征的圖像分類方法[1-5],與本文相關(guān)的主要圖像編碼技術(shù)分析如下。
詞包(Bag of Feature,BoF)模型[6]將圖像表示為無(wú)序的特征集合,統(tǒng)計(jì)局部不變特征的全局出現(xiàn)情況,既保留了局部特征的不變性,又增強(qiáng)了全局特征的魯棒性,同時(shí)與數(shù)量龐大的局部不變特征相比起到簡(jiǎn)化特征的作用,是對(duì)圖像的壓縮表示。BoF方法最初采用硬指派方法對(duì)局部描述子進(jìn)行編碼。硬指派將視覺(jué)特征描述子分配給離它最近的一個(gè)視覺(jué)詞,被分配的視覺(jué)詞對(duì)應(yīng)的編碼為1,其余的視覺(jué)詞編碼為0。硬指派編碼方法對(duì)字典的失真錯(cuò)誤非常敏感。相對(duì)于硬編碼方法,軟指派編碼方法將一個(gè)特征描述子用多個(gè)視覺(jué)詞來(lái)描述。軟指派編碼的優(yōu)點(diǎn)是概念簡(jiǎn)單、計(jì)算有效,計(jì)算過(guò)程不需要優(yōu)化。稀疏編碼[7-8]作為一種軟指派編碼方法,將編碼看作視覺(jué)字典的稀疏子集的線性組合,并通過(guò)l1范式進(jìn)行正則化的近似。這種方法的缺點(diǎn)是優(yōu)化計(jì)算代價(jià)太大,且會(huì)產(chǎn)生相似描述子的編碼并不一致的問(wèn)題[9-10]。針對(duì)稀疏編碼存在的問(wèn)題,文獻(xiàn)[11]提出了基于局部性約束的編碼方法,證明了選擇局部視覺(jué)詞進(jìn)行編碼的合理性。文獻(xiàn)[12]在傳統(tǒng)的軟量化編碼方法上加入了局部性約束,將非近鄰的其他視覺(jué)詞的距離設(shè)置為。。顯著性編碼[13]指出顯著性是特征編碼的基礎(chǔ),顯著性強(qiáng)的視覺(jué)詞應(yīng)該得到更強(qiáng)的響應(yīng),并通過(guò)顯著性進(jìn)行編碼。文獻(xiàn)[9]在目標(biāo)函數(shù)里面增加了拉普拉斯矩陣進(jìn)行字典和編碼的學(xué)習(xí),以提高稀疏編碼一致性,這種方法的最大缺點(diǎn)是計(jì)算量太大。文獻(xiàn)[14]加入了圖像空間域的上下文信息,改善了編碼的一致性,取得了更好的效果。
以上文獻(xiàn)表明,目前的編碼技術(shù)主要是基于局部性約束的軟編碼。在圖像分類中,不同的視覺(jué)詞對(duì)描述圖像內(nèi)容所起的作用是不一樣的,但是目前的編碼方法并沒(méi)有考慮視覺(jué)詞所體現(xiàn)的語(yǔ)義性差異。
1.2 顯著性檢測(cè)技術(shù)
顯著性檢測(cè)方法大體上分為兩類:基于人工設(shè)計(jì)特征的檢測(cè)方法和基于深度學(xué)習(xí)特征的檢測(cè)方法。多數(shù)基于人工設(shè)計(jì)特征的方法都采用淺層模型和啟發(fā)式先驗(yàn)。最早的基于生物學(xué)模型的視覺(jué)計(jì)算模型由Koch和Ullman提出。Itti等[15]在Koch和Ullman模型基礎(chǔ)上并行地提取多尺度、多特征的顯著圖,此方法是最經(jīng)典的基于生物學(xué)模型的自底向上的方法。由于基于生物學(xué)模型的顯著性檢測(cè)方法過(guò)于復(fù)雜,研究重點(diǎn)逐漸轉(zhuǎn)向以對(duì)比度計(jì)算為主的提取方法,產(chǎn)生了純計(jì)算模型和混合模型[16-19]?;谌斯ぴO(shè)計(jì)特征的淺層模型雖然取得了一定的成效,但在處理有復(fù)雜背景的圖像時(shí)往往效果不佳。
隨著研究的發(fā)展,純粹的底層特征不能取得令人滿意的提取效果,越來(lái)越多的機(jī)器學(xué)習(xí)方法被引入到顯著性提取中,常用的機(jī)器學(xué)習(xí)方法有隨機(jī)森林、條件隨機(jī)場(chǎng)、多示例學(xué)習(xí)和高斯混合模型等。高級(jí)語(yǔ)義線索的利用也大大提高了自底向上提取方法的性能,包括通用的對(duì)象性、背景性、連通性、中心先驗(yàn)以及水平線、人臉、汽車、暖色調(diào)等[16-18]。隨著GPU等硬件資源的發(fā)展和大規(guī)模訓(xùn)練圖像集的涌現(xiàn),基于深度神經(jīng)網(wǎng)絡(luò)的顯著區(qū)域提取方法受到越來(lái)越多的關(guān)注[20-21]。文獻(xiàn)[22]通過(guò)無(wú)監(jiān)督方法學(xué)習(xí)多個(gè)中層濾波器進(jìn)行局部顯著區(qū)域的提取,并且將多個(gè)顯著區(qū)域的提取結(jié)果進(jìn)行融合。文獻(xiàn)[23]采用全局上下文信息和局部區(qū)域信息相融合的方法實(shí)現(xiàn)顯著區(qū)域的提取。文獻(xiàn)[24]在多任務(wù)學(xué)習(xí)框架下訓(xùn)練FCN網(wǎng)絡(luò);文獻(xiàn)[25]在recurrentFCN網(wǎng)絡(luò)結(jié)構(gòu)中引入顯著性先驗(yàn)取得了更準(zhǔn)確的推理結(jié)果。以上文獻(xiàn)都證明了將多尺度網(wǎng)絡(luò)結(jié)構(gòu)和深度特征應(yīng)用于顯著性檢測(cè)的有效性。
2 基于局部性約束和顯著性的分類方法
2.1 圖像庫(kù)的顯著性分析
對(duì)多個(gè)圖像庫(kù)進(jìn)行顯著性提取,觀察不同類別圖像庫(kù)的顯著圖是否存在差異。在場(chǎng)景類圖像庫(kù)中,以15場(chǎng)景類圖像庫(kù)[26]為例,從中選擇6幅圖像,提取對(duì)應(yīng)的顯著圖,如圖1所示,第一行為原圖,第二行為顯著圖。不難發(fā)現(xiàn),場(chǎng)景類圖像中不含有明顯的顯著區(qū)域。在對(duì)象類圖像庫(kù)中,以17花庫(kù)[27]、102花庫(kù)[28]、Caltech-101[29]、Caltech-256[30]和UIUC8[31]作為例子,提取這些圖像對(duì)應(yīng)的顯著圖,如圖2所示,可以看出對(duì)象類圖像中含有明顯的顯著區(qū)域。
通過(guò)上面分析,可以得出:場(chǎng)景類圖像的顯著圖和對(duì)象類圖像的顯著圖存在明顯的差異,顯著性分析結(jié)果能夠應(yīng)用到圖像分類算法中。下面討論的分類方法適用于含有顯著區(qū)域的對(duì)象類圖像庫(kù)。
2.2 基于局部性約束的特征編碼方法
2.2.1 圖像編碼的符號(hào)表示局部特征描述子的集合表示為
2.2.2 基于局部性約束的編碼方法
首先選取牲描述子xi的k個(gè)最近鄰視覺(jué)詞,在傳統(tǒng)軟件分配編碼基礎(chǔ)上引入局部性約束,編碼公式為
2.3 基于顯著性的編碼方法
當(dāng)圖像中包含顯著區(qū)域時(shí),顯著區(qū)域往往體現(xiàn)圖像的主體內(nèi)容,對(duì)圖像分類有重要的輔助作用。對(duì)圖像進(jìn)行編碼時(shí),本文認(rèn)為顯著區(qū)域的編碼值應(yīng)該賦予更大的值以突出這部分特征在圖像表示中的作用。以圖3為例,其中圖(a)為原圖像,圖(b)為原圖的顯著圖,圖(c)的紅色圓點(diǎn)表示背景中的一個(gè)局部特征描述子,圖(d)表示引入顯著性前的背景局部特征描述子的編碼情況,圖(e)表示引入顯著性后的背景局部特征描述子的編碼情況,圖(f)中的紅色圓點(diǎn)表示前景中的局部特征描述子,圖(g)表示引入顯著性前的前景局部特征描述子的編碼情況,圖(h)表示引入顯著性之后的前景局部特征描述子的編碼情況??梢钥闯觯瑢?duì)于背景局部特征描述子,由于顯著值較低會(huì)導(dǎo)致引入顯著性后的編碼值較引入顯著性前的編碼值有所降低;而對(duì)于前景局部特征描述子,由于顯著值較高會(huì)導(dǎo)致引入顯著性后的編碼值較引入顯著性前的編碼值有所提高。
基于顯著性的編碼方法為:通過(guò)顯著區(qū)域提取算法得到圖像的顯著圖I,其中sij代表(i,j)位置像素的顯著值。顯著性高的像素應(yīng)該加強(qiáng)像素的編碼值,所以將像素的顯著值和編碼值進(jìn)行融合得到新的編碼值,融合公式為
u'ij=uij×exp(sij)。(6)
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)選取的對(duì)象類圖像庫(kù)包括17花庫(kù)、102花庫(kù)、Caltech-101、Caltech-256和UIUC8庫(kù)。17花庫(kù)包含17個(gè)類,每個(gè)類包含80幅圖像。102花庫(kù)包含102個(gè)類,每個(gè)類包含80幅圖像。Caltech-101圖像庫(kù)包含102個(gè)圖像類,每個(gè)類包含31~800幅圖片,共9144幅。Caltech-256是一個(gè)圖像物體識(shí)別數(shù)據(jù)集,包含256個(gè)物體類別,每類圖片最少80幅,最多827幅,共30608幅圖片。UIUC8圖像庫(kù)包含8個(gè)運(yùn)動(dòng)類,每個(gè)類包含137~250幅圖像,共1579幅,可以用于運(yùn)動(dòng)分類。從每個(gè)圖像庫(kù)的每類中隨機(jī)選取30幅圖像用來(lái)訓(xùn)練,其余圖像用來(lái)測(cè)試。分類測(cè)試重復(fù)10輪,每次都隨機(jī)選取訓(xùn)練圖像和測(cè)試圖像,最后計(jì)算10輪的平均分類率和標(biāo)準(zhǔn)差。
實(shí)驗(yàn)在灰度范圍內(nèi)處理圖像,采用128維的SIFT[32]特征描述子,采樣間隔為8個(gè)像素,描述子周圍區(qū)域塊為16×16像素。通過(guò)k-means方法得到包含400個(gè)視覺(jué)詞的字典。編碼中的參數(shù)β=10,最近鄰的個(gè)數(shù)為5。實(shí)驗(yàn)采用文獻(xiàn)[17]的顯著區(qū)域提取方法進(jìn)行顯著性提取。實(shí)驗(yàn)中比較流行的編碼方法包括LLC[10]、SC[14]、ScSPM[8]和LSC[12]。
3.2 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)結(jié)果如表1所示。表格中的數(shù)字表示分類的精度,數(shù)值越大表明分類的精度越高,分類效果越好。運(yùn)用本文分類方法,17花庫(kù)和102花庫(kù)的性能提升特別明顯,原因是因?yàn)檫@兩個(gè)圖像庫(kù)圖像中的顯著區(qū)域和分類語(yǔ)義一致性非常高,顯著性加強(qiáng)了分類關(guān)鍵區(qū)域的編碼值;Caltech-101、Caltech-256和UIUC8庫(kù)的分類性能也有一定的提升,但是效果沒(méi)有花庫(kù)明顯,原因在于這3個(gè)圖像庫(kù)包含對(duì)象較多,且圖像結(jié)構(gòu)復(fù)雜。然而,實(shí)驗(yàn)數(shù)據(jù)都表明基于顯著性和局部性空間約束的分類方法在實(shí)驗(yàn)圖像庫(kù)中分類性能是最好的。視覺(jué)注意力機(jī)制可以自動(dòng)選擇一幅圖像中最能引起人們注意的區(qū)域,這些被關(guān)注的區(qū)域通常是圖像的主體,而圖像主體往往是分類的關(guān)鍵信息,所以視覺(jué)注意力相當(dāng)于對(duì)分類的關(guān)鍵信息進(jìn)行了選擇。對(duì)于圖像特征來(lái)說(shuō),在圖像編碼時(shí),加大顯著區(qū)域的特征編碼值,使得圖像的特征表示具有更強(qiáng)的判別性,從而能夠提高分類性能。
4 結(jié)束語(yǔ)
本文提出了基于局部性約束和視覺(jué)顯著性的特征編碼方法,加強(qiáng)了特征的語(yǔ)義性和判別性。本文在5個(gè)標(biāo)準(zhǔn)圖像數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和分析,結(jié)果表明融入顯著性語(yǔ)義信息的圖像編碼方法能夠提升分類性能,為圖像分類方法提供了新思路。但本文方法也有局限性,對(duì)于既包含對(duì)象類圖像、又包含場(chǎng)景圖像的混合圖像庫(kù)就不能很好地訓(xùn)練分類模型,這也是下一步將要研究的問(wèn)題。
[參考文獻(xiàn)]
[1]KOLSCH A,AFZAL M Z,EBBECKE M,et al.Real-time document image classification using deep CNN and extremelearning machines[C]//Proceedings of 14th IAPR International Conference on Document Analysis and Recognition,2017:1318-1323.
[2]ZHAO B,F(xiàn)ENG J,WU X,et al.A survey on deep learning-based fine-grained object classification and semanticsegmentation[J].International Journal of Automation and Computing,2017,14(2):119-135.
[3]ZHAO H,SHI J,QI X,et al.Pyramid scene parsing network[C]//Proceedings of IEEE Conference on Computer Visionand Pattern Recognition,2017:6230-6239.
[4]JIA X,SONG S,HE W,et al.Highly scalable deep learning training system with mixed-precision:Training imagenet in fourminutes[Z/OL].(2018-07-30)[2019-09-15].https://arxiv.org/pdf/1807.11205.pdf.
[5]HE T,ZHANG Z,ZHANG H,et al.Bag of tricks for image classification with convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2019:558-567.
[6]GABRIELLA C,CHRISTOPHER R D,F(xiàn)AN L X,et al.Visual categorization with bags of keypoints[C]//Proceedings ofEuropean Conference Computer Vision 2004,workshop on Statistical Learning in Computer Vision,2004:59-74.
[7]LEE H,RATFLE A,RAINA R,et al.Efficient sparse coding algorithms[C]//Proceedings of Advances in NeuralInformation Processing System,2006:801-808.
[8]YANG J,YU K,GONG Y,et al,Linear spatial pyramid matching using sparse coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2009:1794一1801.
[9]GAO S,TSANG I,CHIA L,et al.Local features,not lonely-Laplacian sparse coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2010:3555-3561.
[10]WANG J J,YANG J C,YU K,et al.Locality-constrained linear coding for image classification[C]// Proceedings of IEEEConference on Computer Vision and Pattern Recognition,2010:3360-3367.
[11]YU K,ZHANG T,GONG Y.Nonlinear learning using local coordinate coding[C]// Proceedings of Advances in NeuralInformation Processing System,2009:2223-2231.
[12]LIU L Q,WANG L,LIU X W.In defense of soft-assignment coding[C]//Proceedings of IEEE Conference on ComputerVision and Pattern Recognition,2011:2486-2493.
[13]HUANG Y,HUANG K,YU Y,et al.Salient coding for image classification[C]//Proceedings of IEEE Conference onComputer Vision and Pattern Recognition,2011:1753-1760.
[14]SHABOU A,LEBORGNE H.Locality-constrained and spatially regularized coding for scene categorization[C]//Proceedingsof IEEE Conference on Computer Vision and Pattern Recognition,2012:3618-3625.
[15]ITTI L,KOCH C,NIEBUR E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions onPattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[16]CHENG M,MITRA N,HUANG X,et al.Global contrast based salient region detection[J]·IEEE Transactions on PatternAnalysis and Machine Intelligence,2015,37(3):569-582.
[17]WANG J,JIANG H,YUAN Z,et al.Salient object detection:A discriminative regional feature integration approach[J].International Journal of Computer Vision,2017,123(2):251-268.
[18]JIA Y Q,HAN M.Category-independent abject-level saliency detection[C]//Proceedings of IEEE International Conferenceon Eomputer Vision,20113:1761-1768.
[19]JIANG P,LING II B,YUJY,et al.Salient region detection by UFO:uniqueness,focusness and objectness[C]//Proceedings of IEEE International Conference on Computer Vision,20,13:1976-1983.
[20] WANG W G,SHEN J B,SHAG)L:Video salient object detection via fully convolutional networks[J].IEEE Transactions,Image Processing,2018,27(I):38-49.
[21]WANG T,ZHANG IJ,WANG S,et al.Detect globally,refine locally:A novel approach to saliency detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2018:3127.-3135.
[22]LIN Y T,KONG S,WANG D H,et al.Saliency detection within a deep convolutional architecture[C]/Proceedings of theAssociation for the Advancement of Artificial Workshop,2014:839-848.
[23]ZHAO,OUYANG W L,LI H S,et al.Saliency detection by multi-context deep learning[C]//Proceedings of the IEEEConference ton Computer Vision and Pattern Recognition,21115:1265-1274.
[24]LI X,ZHAO L M,yyEILN,et al.Deep saliency:Multi-task deep neural network model for salient object detection[J].IEEE Transactions,on Imag3 Processing,2016,25(8):3919-3930.
[25]WANG L Z,WANG L J,LUHC,et al.Saliency detection with recurrent fully convolutional networks[C]//Proceedings ofEuropean Conference an Computer Vision,2016:825-841.
[26]LI F F,PERQNA P.A hayesian hierarchical model for learning natural scene categories[C]//Proceedings of IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition,2005:524-531.
[27]17category flower dataset[DB/OL].[2019-09-15].http://www.robots.ox.ac.uk/~ugg/drtafflowers/17/index.html.
[28]102category flower dataset[DB/OL].[2019-09-15]http://www:robots.ox.ac.uk/~vgg/data/flowers/102/udex.html,
[29]Caltech-101[DB/OL].(2006-04-05)[2019-09-15].http://www.vision.caltech.edu/Image_Datasets/Caltech101/.
[30]Caltech-256[DB/OL].(2006-11-15)[2019-09-15].http://www.visinn.caltech,edu/Image_Datasets/Caltech256/.
[31]Event dataset[DB/OL].(2007-11-01)[2019-09-15].http://vision.stanfvrd.edu/lijiali/event_dataset/.
[32]LOWE D G.Distinctive image features from scale-invariant keypoints[J].International jourrial of Computer Vision,2004,60(2):91-110.
(責(zé)任編輯 白麗媛)
[收稿日期]2019-09-18
[基金項(xiàng)目]北京市自然科學(xué)基金項(xiàng)目(4182022),國(guó)家自然科學(xué)基金項(xiàng)目(61871038,61871039)。
[作者簡(jiǎn)介]梁嘩(1978-),女,內(nèi)蒙古赤峰人,北京聯(lián)合大學(xué)信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室講師,博士,主要研究方向?yàn)閳D像處理;馬楠(1978-),女,北京市人,北京聯(lián)合大學(xué)機(jī)器人學(xué)院教授,博士,主要研究方向?yàn)閳D像處理和數(shù)據(jù)挖掘;許亮(1997-),男,安徽蕪湖人,北京聯(lián)合大學(xué)機(jī)器人學(xué)院2016級(jí)軟件實(shí)驗(yàn)班學(xué)生;桂雨晗(1998-),女,安徽東至人,北京聯(lián)合大學(xué)機(jī)器人學(xué)院2016級(jí)軟件實(shí)驗(yàn)班學(xué)生。E-mail:liangye@buu.edu.cn
北京聯(lián)合大學(xué)學(xué)報(bào)2020年1期