李新葉,朱 婧,麻麗娜
1.華北電力大學(xué) 電子與通信工程系,河北 保定071003
2.華北電力大學(xué) 科技學(xué)院,河北 保定071003
場(chǎng)景識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)任務(wù)之一,近年來(lái)得到了廣泛關(guān)注。因其在圖像檢索、人機(jī)交互、自動(dòng)駕駛、視覺(jué)監(jiān)控等多項(xiàng)應(yīng)用中發(fā)揮關(guān)鍵作用,幫助人們理解圖像,因而在計(jì)算機(jī)視覺(jué)領(lǐng)域扮演著重要的角色,越來(lái)越多的工作[1-3]對(duì)其進(jìn)行了研究。
現(xiàn)有的綜述[4-5]主要對(duì)基于手工特征的傳統(tǒng)場(chǎng)景識(shí)別法進(jìn)行研究,而手工特征在表達(dá)圖像語(yǔ)義方面能力有限,因此傳統(tǒng)場(chǎng)景識(shí)別法識(shí)別精度比較低。文獻(xiàn)[6]僅對(duì)早期(2016 年之前)少數(shù)基于深度學(xué)習(xí)的場(chǎng)景識(shí)別法進(jìn)行了簡(jiǎn)單介紹,這些方法雖然較傳統(tǒng)方法有所提高,但識(shí)別準(zhǔn)確率仍不高。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來(lái)越多的研究工作開始利用深度學(xué)習(xí)方法解決場(chǎng)景識(shí)別任務(wù),并取得了顯著的效果,與之前的研究相比,識(shí)別率有了明顯提升。本文對(duì)近年來(lái)基于深度學(xué)習(xí)的場(chǎng)景識(shí)別方法進(jìn)行分析和比較,對(duì)各種方法的優(yōu)劣進(jìn)行總結(jié),為未來(lái)的場(chǎng)景識(shí)別研究提供幫助。
場(chǎng)景識(shí)別,即根據(jù)場(chǎng)景圖像中包含的內(nèi)容為場(chǎng)景圖像分配語(yǔ)義標(biāo)簽。與目標(biāo)識(shí)別不同,場(chǎng)景識(shí)別任務(wù)更為復(fù)雜,不僅要考慮目標(biāo)、背景、空間布局等信息,對(duì)圖像中存在的各種依賴關(guān)系進(jìn)行挖掘也十分重要。因此,場(chǎng)景識(shí)別仍然是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。另外,場(chǎng)景識(shí)別還面臨著許多其他的問(wèn)題,例如:場(chǎng)景圖像類內(nèi)變化大,類間相似度高;數(shù)據(jù)分布不均衡等,這些問(wèn)題又一定程度上增加了場(chǎng)景識(shí)別的難度。
早期的場(chǎng)景識(shí)別任務(wù)主要研究利用各種底層特征表示圖像,例如,SIFT[7]、GIST[8]、HOG[9]、CENTRIST[10]等,操作簡(jiǎn)單但語(yǔ)義表達(dá)能力有限。OB(Object Bank)[11]、詞袋模型(Bag-of-Words)[12]等基于語(yǔ)義的識(shí)別方法縮小了特征與語(yǔ)義之間的鴻溝,但是想要實(shí)現(xiàn)識(shí)別性能的進(jìn)一步提升非常困難。自AlexNet[13]開始,隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的快速發(fā)展,人們開始利用深度學(xué)習(xí)方法進(jìn)行場(chǎng)景識(shí)別。利用深度學(xué)習(xí)方法進(jìn)行場(chǎng)景識(shí)別有以下優(yōu)勢(shì):首先,CNN可以從輸入圖像中自動(dòng)提取包含更多語(yǔ)義和結(jié)構(gòu)信息的特征,且經(jīng)過(guò)網(wǎng)絡(luò)結(jié)構(gòu)中的非線性變換后變得更具有判別力;其次,有研究[14]說(shuō)明深度層次結(jié)構(gòu)能更好解釋場(chǎng)景中的空間分布。
在對(duì)近年來(lái)基于深度學(xué)習(xí)的場(chǎng)景識(shí)別方法進(jìn)行總結(jié)后,本文將它們大體分為以下四類:深度學(xué)習(xí)與視覺(jué)詞袋結(jié)合場(chǎng)景識(shí)別法、基于顯著部分的場(chǎng)景識(shí)別法、多層特征融合場(chǎng)景識(shí)別法、融合知識(shí)表示的場(chǎng)景識(shí)別法。
詞袋模型基于文本處理的思想,把圖像看作視覺(jué)詞匯的無(wú)序集合,對(duì)由圖像得到的圖像塊進(jìn)行特征提取并聚類,構(gòu)建視覺(jué)碼本表示圖像,在一些研究[15]中取得了不錯(cuò)的效果。利用深度特征代替?zhèn)鹘y(tǒng)詞袋模型中的手工特征是提高識(shí)別精度最直接的方法,該類方法的基本流程如圖1所示。
圖1 基于深度特征的視覺(jué)詞袋模型場(chǎng)景識(shí)別法
許多工作以此為基礎(chǔ),將深度學(xué)習(xí)與傳統(tǒng)視覺(jué)詞袋模型進(jìn)行了結(jié)合。文獻(xiàn)[16]在ImageNet 和Places 以及兩者混合的數(shù)據(jù)集上對(duì)CNN 模型進(jìn)行預(yù)訓(xùn)練,提取圖像塊特征,并對(duì)應(yīng)生成三種碼本表示圖像,涵蓋了目標(biāo)屬性及場(chǎng)景屬性。由訓(xùn)練混合數(shù)據(jù)集提取的特征中同時(shí)包含了這兩種信息,因此可針對(duì)不同的場(chǎng)景分類任務(wù)自適應(yīng)地提取共享碼本特征,與原始碼本特征結(jié)合,為場(chǎng)景識(shí)別提供更全面的圖像表示。這種方法避免了額外的碼本訓(xùn)練,提高了識(shí)別效率,但根據(jù)具體任務(wù)自適應(yīng)選擇子碼本的算法有待于進(jìn)一步改進(jìn)。文獻(xiàn)[17]將CNN全連接層特征FCR與中層局部表示MLR(Mid-level Local Representation)、卷積Fisher 向量CFV(Convolutional Fisher Vector)兩種字典表示結(jié)合描述圖像。其中,F(xiàn)CR提供了全局信息;MLR通過(guò)聚類生成了類間通用的字典和特定于某一類的字典對(duì)多尺度圖像輸入進(jìn)行操作,生成中層表示,挖掘局部信息;CFV 基于CNN最后一個(gè)卷積層,采用多尺度比例高斯混合模型訓(xùn)練策略生成Fisher矢量,增強(qiáng)了識(shí)別性能。該圖像表示由三部分組成,CNN 模型與另外兩種字典表示并沒(méi)有在一個(gè)統(tǒng)一的框架下進(jìn)行聯(lián)合訓(xùn)練,同時(shí),不可避免的,該方案具有一定的參數(shù)復(fù)雜性和時(shí)間復(fù)雜性。文獻(xiàn)[18]提出了一種弱監(jiān)督網(wǎng)絡(luò)結(jié)構(gòu)PatchNet,該結(jié)構(gòu)設(shè)計(jì)采用了VGGNet16[19],以圖像塊為輸入,場(chǎng)景標(biāo)簽為輸出,分別在ImageNet 和Places 上進(jìn)行訓(xùn)練得到object-PatchNet和scene-PatchNet兩種模型,并由object-PatchNet提取的局部特征構(gòu)建碼本。識(shí)別過(guò)程中,scene-PatchNet 提取深度特征描述圖像塊,object-PatchNet 輸出的語(yǔ)義類別概率分布代替了傳統(tǒng)FV 編碼中的高斯混合模型,作為后驗(yàn)概率對(duì)圖像塊進(jìn)行整合,構(gòu)成了一種新的編碼機(jī)制
VSAD(Vector of Semantically Aggregated Descriptors),基于構(gòu)建的碼本表示圖像。
主題模型即在詞袋模型中引入主題元素,對(duì)視覺(jué)詞匯進(jìn)行二次抽象,是詞袋模型的一種擴(kuò)展。文獻(xiàn)[20]提出了一種局部類共享主題潛在狄利克雷分布來(lái)學(xué)習(xí)特定于類或類之間共享的主題,但該方法沒(méi)有考慮場(chǎng)景內(nèi)主題之間的相關(guān)性??紤]到這一點(diǎn),文獻(xiàn)[21]利用相關(guān)主題模型CTM(Correlated Topic Model)構(gòu)建了相關(guān)主題矢量表示,CTM 中的邏輯正態(tài)分布包含了主題之間的協(xié)方差計(jì)算,挖掘了主題之間的相關(guān)性。
相對(duì)于傳統(tǒng)詞袋模型而言,利用深度特征構(gòu)建碼本直接提高了場(chǎng)景識(shí)別精度,另外針對(duì)詞袋模型中固有的圖像表示方式缺乏空間信息的問(wèn)題,CNN 可以自動(dòng)提取空間特征,對(duì)這一問(wèn)題進(jìn)行彌補(bǔ)。詞袋模型簡(jiǎn)單易用,但仍有其自身的局限性:碼本的構(gòu)建過(guò)程需要根據(jù)要解決的具體任務(wù)進(jìn)行考量,不合適的碼本會(huì)在一定程度上對(duì)識(shí)別效果造成影響;結(jié)合了深度特征的視覺(jué)詞袋場(chǎng)景識(shí)別法仍然需要對(duì)大量的圖像塊特征進(jìn)行聚類處理,這在計(jì)算上造成了一定的負(fù)擔(dān)。
圖2 基于顯著目標(biāo)的場(chǎng)景識(shí)別法基本流程
人眼往往可以只根據(jù)圖像中最具代表性的部分判斷場(chǎng)景的類別,這一特性也激發(fā)了計(jì)算機(jī)視覺(jué)中利用顯著部分(顯著目標(biāo)、顯著區(qū)域及顯著形狀)提高識(shí)別準(zhǔn)確率的靈感。
一些研究[22-23]發(fā)現(xiàn)用于場(chǎng)景識(shí)別的CNN 可以定位出圖像中能提供有用信息的目標(biāo),即圖像中的顯著目標(biāo)對(duì)于提高識(shí)別精度作用更大,這類方法的基本流程如圖2 所示。文獻(xiàn)[24]中對(duì)于檢測(cè)到的每個(gè)目標(biāo),都有一個(gè)計(jì)數(shù)比率來(lái)表示目標(biāo)和場(chǎng)景類別之間的關(guān)聯(lián)強(qiáng)度,計(jì)數(shù)比率高的目標(biāo)在決定場(chǎng)景類別時(shí)貢獻(xiàn)更大。文獻(xiàn)[25]利用選擇搜索算法提取目標(biāo)塊并用CNN 模型提取特征后,為了選擇能代表場(chǎng)景類別的目標(biāo)塊,針對(duì)每一類圖像特征進(jìn)行光譜聚類并對(duì)每一簇訓(xùn)練一個(gè)二分類SVM,在測(cè)試階段將用訓(xùn)練好的SVM 來(lái)選擇有代表性的特征。文獻(xiàn)[26]提出了一種特征描述SDO(Semantic Descriptor with Objectness),將圖像塊送入CNN,由輸出向量計(jì)算目標(biāo)多項(xiàng)式分布,使用貝葉斯法則計(jì)算后驗(yàn)概率,利用目標(biāo)的共現(xiàn)模式在場(chǎng)景中選擇有判別力的目標(biāo)對(duì)圖像塊進(jìn)行篩選,并進(jìn)一步對(duì)Softmax輸出向量進(jìn)行降維。文獻(xiàn)[25-26]中采用的方案與基于詞袋模型的場(chǎng)景識(shí)別法面臨相同的問(wèn)題,即都需要對(duì)大量的圖像塊進(jìn)行聚類和篩選操作,這對(duì)計(jì)算資源提出了挑戰(zhàn)。為了解決類似的問(wèn)題,在計(jì)算時(shí)間和存儲(chǔ)空間上進(jìn)行優(yōu)化,文獻(xiàn)[27]提出顯著目標(biāo)共享的策略,對(duì)不同場(chǎng)景中的目標(biāo)模式進(jìn)行學(xué)習(xí)并將一些顯著目標(biāo)進(jìn)行共享,實(shí)驗(yàn)證明平均只需要四個(gè)關(guān)鍵目標(biāo)就足夠?qū)δ骋粓?chǎng)景類別圖像進(jìn)行表示。該方法有效提高了識(shí)別效率,數(shù)據(jù)集很大時(shí)效果更為明顯。上述基于目標(biāo)塊的識(shí)別方法中首先實(shí)現(xiàn)了對(duì)大量圖像塊的顯著程度度量,對(duì)目標(biāo)進(jìn)行選擇的操作有效提高了場(chǎng)景圖像表示的判別性,增大了不同類別場(chǎng)景之間的可區(qū)分度。但是這些方法并沒(méi)有考慮不同場(chǎng)景的特殊屬性,即復(fù)雜場(chǎng)景與簡(jiǎn)單場(chǎng)景的顯著目標(biāo)數(shù)量可能不同(例如室內(nèi)場(chǎng)景相對(duì)于自然場(chǎng)景而言場(chǎng)景構(gòu)成更復(fù)雜,顯著目標(biāo)數(shù)量也更多),相對(duì)固定的顯著目標(biāo)數(shù)量可能會(huì)在一些簡(jiǎn)單場(chǎng)景中引入噪聲。從這一出發(fā)點(diǎn)進(jìn)行考量,文獻(xiàn)[28]提出了一種自適應(yīng)識(shí)別判別性目標(biāo)塊的方法Adi-Red,通過(guò)計(jì)算最后一個(gè)卷積層的所有激活映射的加權(quán)和得到判別映射圖,使用滑動(dòng)窗口搜索映射圖的局部極大值,對(duì)高于設(shè)定閾值的部分進(jìn)行目標(biāo)選擇,使得顯著目標(biāo)塊的數(shù)量可以自適應(yīng)地變化,既不引入噪聲又不丟失重要信息。另外,該方法直接利用CNN 分類器提取目標(biāo)塊信息,無(wú)需經(jīng)過(guò)目標(biāo)檢測(cè)等操作,有效解決了傳統(tǒng)基于顯著目標(biāo)的場(chǎng)景識(shí)別法計(jì)算量大的問(wèn)題。文獻(xiàn)[29]為場(chǎng)景圖像分配軟標(biāo)簽作為目標(biāo)分布表示,與多分辨率CNN 框架結(jié)合進(jìn)行場(chǎng)景識(shí)別。在基于顯著目標(biāo)的場(chǎng)景識(shí)別方法中,將局部目標(biāo)特征作為場(chǎng)景全局特征的補(bǔ)充有效提高了場(chǎng)景識(shí)別的準(zhǔn)確率,但也存在一些局限性。首先,目標(biāo)檢測(cè)的準(zhǔn)確度將會(huì)影響場(chǎng)景識(shí)別準(zhǔn)確度,一旦目標(biāo)識(shí)別有誤將造成場(chǎng)景識(shí)別率下降的連鎖后果;第二,在這類方法中,盡管利用了目標(biāo)共現(xiàn)等手段對(duì)目標(biāo)顯著度進(jìn)行度量,但這仍是一種orderless 式的特征聚合,沒(méi)有考慮目標(biāo)間的關(guān)系也是一種具有強(qiáng)判別性的因素,缺乏對(duì)場(chǎng)景基于目標(biāo)的結(jié)構(gòu)化表示的研究。
文獻(xiàn)[30]根據(jù)一幅圖像中目標(biāo)框的分布計(jì)算出場(chǎng)景中每個(gè)位置的目標(biāo)密度,提取目標(biāo)密度最高的一個(gè)區(qū)域作為顯著區(qū)域,利用幾種尺度下顯著區(qū)域的融合特征表示圖像進(jìn)行場(chǎng)景識(shí)別。該方法并未用到整幅圖像的全局特征,可能會(huì)造成信息丟失;另外,場(chǎng)景具有相對(duì)不受控制的結(jié)構(gòu),關(guān)鍵的辨別性識(shí)別線索可能分布在不同區(qū)域,只利用目標(biāo)最集中的區(qū)域作為顯著部分缺乏說(shuō)服力。
此外,輪廓作為一種顯著形狀也被應(yīng)用到場(chǎng)景識(shí)別任務(wù)中。文獻(xiàn)[31]指出,人類可以從由輪廓構(gòu)成的線條圖準(zhǔn)確地分辨場(chǎng)景類別,并依此提出了一種基于中軸的輪廓顯著性測(cè)量方法,進(jìn)行局部分離、帶狀對(duì)稱和錐度的輪廓顯著性測(cè)量,選擇能提供更多信息的輪廓像素子集送入CNN中進(jìn)行場(chǎng)景識(shí)別。實(shí)驗(yàn)證明單獨(dú)利用線條圖進(jìn)行場(chǎng)景識(shí)別效果并不好,輪廓信息只能作為場(chǎng)景圖像的一種補(bǔ)充。
基于顯著部分的場(chǎng)景識(shí)別法中,最關(guān)鍵的部分在于如何得到更穩(wěn)健的補(bǔ)充信息(目標(biāo)特征、區(qū)域特征、形狀特征等),補(bǔ)充性特征提取有誤將影響最終的識(shí)別效果。
CNN 模型的每一層結(jié)構(gòu)都能學(xué)習(xí)到不同的特征,層次越深學(xué)到的特征越抽象也越具有判別力,將CNN多層特征進(jìn)行融合是一種常見的提高識(shí)別精度的方法。
文獻(xiàn)[32]用在Places 上預(yù)訓(xùn)練的CNN 模型提取場(chǎng)景圖像特征,連接最后兩個(gè)全連接層的輸出作為圖像表示,另外為了解決該操作造成的特征冗余,對(duì)特征進(jìn)行了選擇。與文獻(xiàn)[32]相同,文獻(xiàn)[33]同樣連接最后兩個(gè)全連接層的輸出表示圖像。以上兩種方法都集中在利用更為抽象的全連接層特征進(jìn)行圖像表示,忽視了卷積層中豐富的局部信息。
對(duì)于場(chǎng)景識(shí)別任務(wù)而言,需要從場(chǎng)景布局及細(xì)節(jié)信息兩方面進(jìn)行考慮。利用場(chǎng)景布局信息可以輕易對(duì)一些場(chǎng)景進(jìn)行區(qū)分(例如沙灘與教室的布局明顯不同);但在一些相似的場(chǎng)景類別中(例如餐廳與咖啡廳),細(xì)小的差異決定了最終的識(shí)別結(jié)果。全連接層特征對(duì)于區(qū)分以布局為主導(dǎo)的場(chǎng)景圖像效果較好,在細(xì)節(jié)處理上,卷積層特征往往能提供更多具體的信息。文獻(xiàn)[34]提出了一種局部卷積監(jiān)督層(LCS),通過(guò)繞過(guò)CNN 中的一個(gè)卷積層并直接連接到最終損失函數(shù)來(lái)增強(qiáng)局部卷積特性,并用Fisher 卷積矢量(Fisher Convolutional Vector,F(xiàn)CV)對(duì)局部信息進(jìn)行編碼,與全連接層特征相結(jié)合構(gòu)成LS-DHM 表示。文獻(xiàn)[35]提出了一種基于GoogleNet 的多級(jí)模型G-MS2F,針對(duì)GoogleNet的網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)輔助損失函數(shù)的位置分為三部分并得到對(duì)應(yīng)卷積特征進(jìn)行融合。GoogleNet本身在增加網(wǎng)絡(luò)深度和寬度的同時(shí)就對(duì)參數(shù)和計(jì)算量進(jìn)行了控制,以此為結(jié)構(gòu)基礎(chǔ)的G-MS2F 模型在訓(xùn)練階段的模型復(fù)雜度并沒(méi)有增加,測(cè)試時(shí)由于要對(duì)三個(gè)階段的特征進(jìn)行單獨(dú)提取,因此該模型會(huì)具有一定的時(shí)間復(fù)雜度。文獻(xiàn)[36]提出了一個(gè)兩階段的深度特征融合識(shí)別法,首先,對(duì)預(yù)訓(xùn)練的CaffeNet 和VGG-VD-16 進(jìn)行操作,將卷積層和全連接層的信息進(jìn)行整合,在每一個(gè)池化層后插入一個(gè)分支CNN,分支CNN包括三部分:1×1卷積層、非線性激活函數(shù)ReLU 和全局平均池化層;其次,對(duì)操作完成的兩個(gè)CNN 進(jìn)行線性結(jié)合,生成一個(gè)復(fù)合CNN,提高識(shí)別性能。文獻(xiàn)[37]以在ImageNet上訓(xùn)練的18層ResNet為遷移學(xué)習(xí)模型基礎(chǔ),在殘差塊之間提取多個(gè)特征并進(jìn)行融合,融合向量直接與K 維輸出層相連。該方法得到的結(jié)果受數(shù)據(jù)增強(qiáng)操作影響較大。文獻(xiàn)[38]將特征圖經(jīng)可視化后發(fā)現(xiàn),如果場(chǎng)景的關(guān)鍵目標(biāo)太小,其特征會(huì)隨著網(wǎng)絡(luò)層數(shù)的加深而變得不明顯或消失,但在較低層卻比較完整,基于此現(xiàn)象,提出了一種多層集成網(wǎng)絡(luò)來(lái)提高關(guān)鍵目標(biāo)比較小的場(chǎng)景的識(shí)別率,在多個(gè)低層后增加分類器,利用多個(gè)低層特征進(jìn)行單獨(dú)預(yù)測(cè),在網(wǎng)絡(luò)中進(jìn)行集成學(xué)習(xí)后做最終預(yù)測(cè)。增加分類器會(huì)影響深層網(wǎng)絡(luò)進(jìn)一步利用低層特征,因此設(shè)計(jì)了一條特征遷移路徑,使得低層特征也能跨過(guò)分類器直接送入深層。深層特征作為低層特征的補(bǔ)充,與其融合,確保低層特征可用來(lái)預(yù)測(cè)復(fù)雜場(chǎng)景。文獻(xiàn)[39]針對(duì)傳統(tǒng)的語(yǔ)義流形法在場(chǎng)景識(shí)別任務(wù)中的一些限制,提出了一種基于多尺度CNN 構(gòu)建語(yǔ)義流形的混合體系結(jié)構(gòu),對(duì)多個(gè)特征進(jìn)行融合。
在基于多層特征融合的場(chǎng)景識(shí)別法中,關(guān)鍵在于如何根據(jù)不同CNN 模型(例如VGGNet、GoogleNet、ResNet 等)的結(jié)構(gòu)特點(diǎn)來(lái)提取多層特征,特別要注意模型的參數(shù)復(fù)雜度和計(jì)算復(fù)雜度。
隨著深度學(xué)習(xí)的快速發(fā)展,計(jì)算機(jī)視覺(jué)領(lǐng)域中各種視覺(jué)處理任務(wù)的效果都得到了巨大的提升,為了取得進(jìn)一步的突破,許多研究工作開始從人類視覺(jué)特性角度出發(fā),結(jié)合額外的知識(shí)表示進(jìn)行圖像處理。場(chǎng)景圖像中包含著豐富的知識(shí)信息,將這些知識(shí)融入到場(chǎng)景識(shí)別中將有效提高識(shí)別精度。
文獻(xiàn)[40]除了融合了保留空間布局的目標(biāo)語(yǔ)義特征(SOSF)和全局外觀特征(GAF)外,還加入了外觀上下文特征(CFA),提出了一種結(jié)合CNN層和LSTM層的混合深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在CNN中將兩個(gè)不同中間卷積層輸出分別送入兩組多向LSTM層,并將LSTM的輸出連接起來(lái)得到CFA。其作為目標(biāo)語(yǔ)義和全局特征的補(bǔ)充,提供了場(chǎng)景圖像多向上下文信息,保留了圖像的空間布局。
現(xiàn)有的僅依靠目標(biāo)特征及目標(biāo)共現(xiàn)模式進(jìn)行場(chǎng)景識(shí)別的方法能取得不錯(cuò)的效果,但也無(wú)法消除場(chǎng)景標(biāo)簽歧義的問(wèn)題,不同的場(chǎng)景類別可能具有相似的目標(biāo)共現(xiàn)模式,因此必須加入更具有判別力的信息(例如目標(biāo)間關(guān)系)來(lái)解決這一問(wèn)題。文獻(xiàn)[41]利用場(chǎng)景圖對(duì)圖像中各目標(biāo)之間的關(guān)系進(jìn)行挖掘。在構(gòu)建場(chǎng)景子圖時(shí),提出一個(gè)概率框架對(duì)目標(biāo)進(jìn)行選擇,并確定一個(gè)最優(yōu)目標(biāo)個(gè)數(shù)上限進(jìn)行構(gòu)建。考慮到即使是在同一類場(chǎng)景中目標(biāo)屬性和關(guān)系類型也是在不斷變化的,因此只定義了兩目標(biāo)間是否有關(guān)系而不關(guān)注關(guān)系類型。該方案采用一個(gè)目標(biāo)堆疊網(wǎng)絡(luò)將場(chǎng)景子圖中的目標(biāo)和關(guān)系映射到一個(gè)潛在語(yǔ)義表示空間,同時(shí)用另一個(gè)CNN 模型將整個(gè)圖像也映射到這個(gè)空間,通過(guò)對(duì)場(chǎng)景子圖特征和全局特征進(jìn)行迭代學(xué)習(xí),實(shí)現(xiàn)了二次增強(qiáng),最終利用增強(qiáng)后的全局表示進(jìn)行場(chǎng)景識(shí)別。該方法的缺點(diǎn)在于僅僅對(duì)目標(biāo)間關(guān)系進(jìn)行了初步表示,并沒(méi)有對(duì)關(guān)系類型進(jìn)行精確定義,也沒(méi)有采用高效的推理機(jī)制對(duì)圖中信息進(jìn)行處理。在現(xiàn)有的表示關(guān)系的方法中,圖結(jié)構(gòu)是最常見有效的一種。一個(gè)通用的圖模型通常由節(jié)點(diǎn)和邊兩種重要元素構(gòu)成,其中節(jié)點(diǎn)v 代表目標(biāo),邊e 代表關(guān)系,如圖3 所示。一些研究采用GRU(Gated Recurrent Unit)等模塊作為存儲(chǔ)器,傳遞并更新節(jié)點(diǎn)信息。另外,為了對(duì)這類圖數(shù)據(jù)進(jìn)行高效的學(xué)習(xí),文獻(xiàn)[42]提出了一種圖卷積網(wǎng)絡(luò)(Graph Convolutional Network),以圖結(jié)構(gòu)中節(jié)點(diǎn)的特征矩陣和圖的鄰接矩陣為輸入,每一個(gè)隱藏層都對(duì)應(yīng)一個(gè)特征矩陣表示各節(jié)點(diǎn)的特征,并利用傳播規(guī)則對(duì)信息進(jìn)行整合形成下一層更抽象的特征。圖結(jié)構(gòu)在計(jì)算機(jī)視覺(jué)多個(gè)任務(wù)中得到了應(yīng)用,例如目標(biāo)檢測(cè)[43-45]、場(chǎng)景圖生成[46]、多標(biāo)簽圖像識(shí)別[47]等,當(dāng)然圖的實(shí)例化方式、信息傳播機(jī)制等都高度依賴具體的任務(wù)域,要依具體任務(wù)而定。將上述思想應(yīng)用到由場(chǎng)景圖像構(gòu)建的圖結(jié)構(gòu)中能充分挖掘場(chǎng)景中目標(biāo)之間的關(guān)系以及相互影響,可以作為未來(lái)研究的一個(gè)關(guān)注點(diǎn)。但是這種做法內(nèi)存開銷比較大,如何在大型數(shù)據(jù)集上實(shí)現(xiàn)較好的識(shí)別效果有待于進(jìn)一步研究。
(1)ImageNet[48]:包含1 500萬(wàn)張圖片,涵蓋2萬(wàn)多個(gè)類別,是用于計(jì)算機(jī)視覺(jué)研究的大型數(shù)據(jù)庫(kù)。
(2)Places[49]:包含1 000萬(wàn)張圖片,涵蓋包括室內(nèi)場(chǎng)景、自然場(chǎng)景、城市場(chǎng)景等在內(nèi)的434個(gè)類別。文獻(xiàn)[50]認(rèn)為在Places上預(yù)訓(xùn)練的CNN與在ImageNet上預(yù)訓(xùn)練的CNN相比可以學(xué)習(xí)到場(chǎng)景圖像中更多不同的特征。
(3)MIT Indoor67[51]:包含15 620張圖片,涵蓋67個(gè)室內(nèi)場(chǎng)景類別,每個(gè)場(chǎng)景類別至少包含100 張圖片,其中80張圖片用來(lái)訓(xùn)練,20張圖片用來(lái)測(cè)試。
(4)SUN397[52]:包含超過(guò)10 萬(wàn)張圖片,涵蓋397 個(gè)室內(nèi)、室外場(chǎng)景類別,每個(gè)場(chǎng)景類別至少包含100 張圖片,其中50張圖片用來(lái)訓(xùn)練,50張圖片用來(lái)測(cè)試。
(5)Scene 15[53]:包含4 485 張灰度圖像,涵蓋包括室內(nèi)場(chǎng)景、室外場(chǎng)景在內(nèi)的15 個(gè)場(chǎng)景類別。每個(gè)類別包含200~400張圖片,其中100張圖片用來(lái)訓(xùn)練,其余用作測(cè)試。
(6)UIUC-Sports[54]:包含1 792 張圖片,涵蓋8 個(gè)體育活動(dòng)場(chǎng)景類別,每個(gè)類別包含137~250 張圖片,其中70張圖片用來(lái)訓(xùn)練,60張圖片用來(lái)測(cè)試。
表1 中列出了各方法的特點(diǎn)以及同時(shí)解決的特定問(wèn)題。
圖3 圖結(jié)構(gòu)表示
為了對(duì)上述各種方法進(jìn)行比較,本文整理了各種方法在MIT Indoor67、SUN397、Scene 15及其他數(shù)據(jù)集上的結(jié)果,其中以正確率(Accuracy)為評(píng)價(jià)指標(biāo)。注意,以下所列實(shí)驗(yàn)在MIT67、SUN397、Scene 15、UIUC-Sports數(shù)據(jù)集上進(jìn)行的訓(xùn)練集/測(cè)試集劃分均按標(biāo)準(zhǔn)進(jìn)行,即如第4章所述。對(duì)于Places205,訓(xùn)練集中共有2 448 873張圖像,每類5 000 到15 000 不等,對(duì)應(yīng)的,另外100 張圖像用來(lái)驗(yàn)證,200 張圖像用來(lái)測(cè)試。對(duì)于Places365,訓(xùn)練集共有1 803 460張圖像,每類3 068到5 000不等,另50張圖像用來(lái)驗(yàn)證,900張圖像用來(lái)測(cè)試;在文獻(xiàn)[40]中,GAF 直接由Place 數(shù)據(jù)集主頁(yè)上公布的預(yù)訓(xùn)練的VGG16模型中提取,訓(xùn)練 提取SOSF和CFA時(shí),每類隨機(jī)選擇100 張圖像進(jìn)行訓(xùn)練,100 張圖像進(jìn)行測(cè)試。結(jié)果比較如表2所示。
MIT Indoor67、SUN397、Scene 15數(shù)據(jù)集是場(chǎng)景識(shí)別任務(wù)中最常用的數(shù)據(jù)集。由表2可以發(fā)現(xiàn),在對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練時(shí),除了用到以目標(biāo)為中心的大型數(shù)據(jù)集ImageNet外,大多數(shù)方法都在大型場(chǎng)景數(shù)據(jù)集Places或其子集上對(duì)網(wǎng)絡(luò)進(jìn)行了訓(xùn)練,這一步有利于卷積神經(jīng)網(wǎng)絡(luò)能針對(duì)場(chǎng)景圖像學(xué)習(xí)到更多豐富的特征。另外,通過(guò)表格可以看出,識(shí)別率較高的幾個(gè)方法中都采用了數(shù)據(jù)增強(qiáng)操作,特別是文獻(xiàn)[37]中效果提升最明顯,進(jìn)行數(shù)據(jù)增強(qiáng)一方面解決了數(shù)據(jù)量少的問(wèn)題,一方面也有效防止了過(guò)擬合。從識(shí)別準(zhǔn)確率來(lái)看,除了利用目標(biāo)特征作為全局特征的補(bǔ)充特征外,結(jié)合有效的知識(shí)表示(例如文獻(xiàn)[40]中的圖像上下文特征)能有效幫助理解圖像、提高場(chǎng)景識(shí)別率。利用顯著性測(cè)量方法對(duì)場(chǎng)景中存在的目標(biāo)進(jìn)行選擇,目標(biāo)判別力越強(qiáng)越能代表一類場(chǎng)景,越能有效區(qū)分不同的場(chǎng)景類別,如文獻(xiàn)[26],達(dá)到了相對(duì)較高的識(shí)別率;在文獻(xiàn)[29]中,顯著目標(biāo)選擇作為多分辨率網(wǎng)絡(luò)結(jié)構(gòu)的補(bǔ)充,一定程度上解決了標(biāo)簽?zāi):膯?wèn)題,也幫助提升了識(shí)別效果;另外,文獻(xiàn)[41]在構(gòu)建場(chǎng)景子圖時(shí)也對(duì)目標(biāo)進(jìn)行了選擇。利用目標(biāo)集中的顯著區(qū)域或場(chǎng)景輪廓線條信息作為場(chǎng)景辨別性線索來(lái)進(jìn)行場(chǎng)景識(shí)別效果并不理想。從文獻(xiàn)[25,33,35]不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果來(lái)看,在SUN397(混合場(chǎng)景)上能達(dá)到相對(duì)較高精度的方法在MIT67(室內(nèi)場(chǎng)景)上的效果卻不突出,說(shuō)明識(shí)別效果與數(shù)據(jù)集有關(guān)。
表1 典型基于深度學(xué)習(xí)的場(chǎng)景識(shí)別方法比較
表2 實(shí)驗(yàn)結(jié)果比較(正確率) %
本文對(duì)最近的基于深度學(xué)習(xí)的場(chǎng)景識(shí)別方法進(jìn)行了總結(jié)與分析,盡管這些方法已經(jīng)取得了顯著的成果,但準(zhǔn)確率還有待于進(jìn)一步提高,未來(lái)仍然面臨著諸多挑戰(zhàn):
(1)隨著圖像數(shù)據(jù)的不斷增長(zhǎng),場(chǎng)景類別也在急劇增加,將不可避免地出現(xiàn)類別重疊的問(wèn)題,導(dǎo)致場(chǎng)景標(biāo)簽?zāi):绾翁岣叽笠?guī)模場(chǎng)景識(shí)別的準(zhǔn)確率變得十分關(guān)鍵。
(2)與目標(biāo)識(shí)別不同,場(chǎng)景識(shí)別任務(wù)更為復(fù)雜,要考慮到圖像中的目標(biāo)、背景、空間布局以及內(nèi)在聯(lián)系,因此場(chǎng)景圖像中存在的類內(nèi)差異性和類間相似性問(wèn)題也比目標(biāo)圖像的類內(nèi)差異性和類間相似性問(wèn)題更復(fù)雜。
(3)場(chǎng)景圖像具有數(shù)據(jù)分布不均衡問(wèn)題,一些場(chǎng)景類別樣本數(shù)據(jù)嚴(yán)重缺乏,如果不對(duì)這部分場(chǎng)景類別作特殊考慮將嚴(yán)重影響識(shí)別的精確度。
(4)室內(nèi)場(chǎng)景識(shí)別始終是場(chǎng)景識(shí)別任務(wù)中最具挑戰(zhàn)性的部分,一些在室外場(chǎng)景上能達(dá)到很好識(shí)別效果的場(chǎng)景識(shí)別模型在室內(nèi)場(chǎng)景數(shù)據(jù)集上的表現(xiàn)卻不盡如人意。室內(nèi)場(chǎng)景相比于室外場(chǎng)景而言,布局變化更大,目標(biāo)信息更豐富,且受光線、角度變化的影響較大,如何從室內(nèi)場(chǎng)景特性角度出發(fā)提高識(shí)別效果也是難點(diǎn)之一。
未來(lái)的研究趨勢(shì)可以從以下幾點(diǎn)考慮:
(1)針對(duì)場(chǎng)景圖像的類間相似問(wèn)題,挖掘細(xì)節(jié)信息可以對(duì)不同場(chǎng)景類進(jìn)行區(qū)分,例如充分利用全連接層特征與卷積層特征的互補(bǔ)性,從場(chǎng)景整體布局和細(xì)節(jié)信息兩方面考慮。
利用顯著目標(biāo)進(jìn)行場(chǎng)景識(shí)別仍然是十分有效的方法,仍值得進(jìn)一步研究。但只利用目標(biāo)本身的特征及目標(biāo)共現(xiàn)模式也無(wú)法避免相似場(chǎng)景造成的歧義,結(jié)合更具判別力的信息(如目標(biāo)間關(guān)系)將緩解這一問(wèn)題。結(jié)合圖結(jié)構(gòu)等豐富的知識(shí)表達(dá)工具,應(yīng)用視覺(jué)推理模型,充分挖掘場(chǎng)景內(nèi)部的各種聯(lián)系,將進(jìn)一步提高場(chǎng)景識(shí)別性能。
(2)對(duì)于場(chǎng)景圖像中存在的數(shù)據(jù)分布不均衡問(wèn)題,特別是數(shù)據(jù)量小的類別,可能會(huì)出現(xiàn)過(guò)擬合,使得測(cè)試階段效果不好。數(shù)據(jù)增強(qiáng)是解決過(guò)擬合最有效的方法,在數(shù)據(jù)量小的類別中創(chuàng)造更多的數(shù)據(jù),使數(shù)據(jù)分布達(dá)到平衡,即可提高模型的識(shí)別效果。傳統(tǒng)的數(shù)據(jù)增強(qiáng)法包括:人工添加新數(shù)據(jù),但成本太高,不易實(shí)現(xiàn);另外,可以通過(guò)對(duì)圖像進(jìn)行平移、翻轉(zhuǎn)、裁剪、縮放等操作增加數(shù)據(jù),是相對(duì)簡(jiǎn)單易實(shí)現(xiàn)的操作。除此之外,可以采用元學(xué)習(xí)法[55]進(jìn)行解決,通過(guò)將元學(xué)習(xí)者與學(xué)習(xí)者相結(jié)合,在其他額外的圖像訓(xùn)練集上訓(xùn)練產(chǎn)生額外訓(xùn)練樣例的“幻覺(jué)者”,實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),并與正則化技術(shù)相結(jié)合,減少數(shù)據(jù)分布不均衡的影響。
(3)對(duì)于室內(nèi)場(chǎng)景識(shí)別問(wèn)題,在全局特征的基礎(chǔ)上,除了要更充分利用目標(biāo)信息外,可以增加場(chǎng)景屬性作為補(bǔ)充信息進(jìn)一步增加不同類別圖像的可區(qū)分度。場(chǎng)景屬性作為場(chǎng)景的構(gòu)成元素之一,不僅能反映目標(biāo)等內(nèi)容信息,還能從其他角度(例如場(chǎng)景功能屬性等)對(duì)場(chǎng)景進(jìn)行區(qū)分。挖掘特定于場(chǎng)景的屬性信息將為場(chǎng)景識(shí)別提供有效的幫助。