李林峰 陳程立詔 王恒森
摘 要:針對(duì)目前圖像檢索領(lǐng)域主要依靠語(yǔ)義相似性檢索圖片而忽略了場(chǎng)景中物體重要性關(guān)系問題,提出了一種基于場(chǎng)景感知的物體顯著性排名算法SASR,使圖像檢索更關(guān)注場(chǎng)景中物體的相互關(guān)系。SASR分為兩個(gè)階段,在第一階段,提出了基于視點(diǎn)數(shù)據(jù)的“組合閾值”物體級(jí)顯著性排名真值標(biāo)簽標(biāo)注方法,該方法簡(jiǎn)化了排名標(biāo)簽的標(biāo)注;在第二階段,提出了基于圖卷積網(wǎng)絡(luò)的物體級(jí)顯著性排序網(wǎng)絡(luò),該網(wǎng)絡(luò)解決了多個(gè)在物體級(jí)排序問題中存在的特異性難點(diǎn)。該算法改善了目前顯著性排名標(biāo)簽生成方式并進(jìn)行了大量對(duì)比實(shí)驗(yàn),在現(xiàn)有SALICON數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,其提升了顯著性排名的性能,在NUS-WIDE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明在該算法的支撐下,圖像檢索性能平均提升了2%,證明了其有效性。
關(guān)鍵詞:顯著性排名;場(chǎng)景感知;圖卷積網(wǎng)絡(luò);圖像檢索
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-047-3186-08
doi:10.19734/j.issn.1001-3695.2023.01.0028
Object saliency ranking awareness network for efficient image retrieval
Li Linfeng1,Chen Chenglizhao2,Wang Hengsen1
(1.College of Computer Science & Technology,Qingdao University,Qingdao Shandong 266071,China;2.College of Computer Science & Technology,China Petroleum University,Qingdao Shandong 266580,China)
Abstract:This paper introduced a novel approach for image retrieval,the scene-aware object saliency ranking algorithm(SASR),which addressed the issue of traditional image retrieval techniques relying on semantic similarity and neglecting the crucial importance of object relationships within a scene.SASR consisted of two stages.In the first stage,this paper proposed a viewpoint data-based method called the “combined threshold” to annotate true value labels for object-level saliency ranking,simplifying the annotation of ranking labels.In the second stage,this paper presented an object-level saliency ranking network based on graph convolutional networks that resolved several specific difficulties encountered in sorting objects.The proposed algorithm improved on the current saliency ranking label generation methods and was tested via a large number of comparative experiments.The experimental results on the SALICON dataset show that the SASR algorithm enhances saliency ranking perfor-mance significantly.Moreover,the results from the NUS-WIDE dataset indicate that,when supported by the proposed algorithm,image retrieval performance increases by an average of 2%,which solidifies the efficacy of the proposed algorithm.
Key words:saliency ranking;scene perception;graph convolutional network;image retrieval
0 引言
圖像檢索是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基本任務(wù),旨在通過圖像間的內(nèi)容語(yǔ)義相似性檢索圖像?,F(xiàn)有檢索方法[1,2]主要利用圖像的空間拓?fù)浣Y(jié)構(gòu)、內(nèi)嵌語(yǔ)義分布等信息進(jìn)行圖像的檢索。一般而言,現(xiàn)有檢索方法大多可以獲得較為理想的檢索結(jié)果,但其檢索得到的相似性圖像和輸入圖像并不完全一致。
如圖1(a)所示,輸入圖像中,人的重要性要比馬更高,而大多數(shù)檢索得到的圖像中的馬比人的重要性更高。盡管現(xiàn)有的這些方法可以根據(jù)輸入圖像(人和馬)檢索得到大量相似的圖像場(chǎng)景(人和馬),但檢索得到圖像場(chǎng)景中的物體重要性排名并不和輸入圖像中的物體重要性排名一致。導(dǎo)致這一現(xiàn)象的原因在于:現(xiàn)有圖像檢索方法大多忽略了輸入場(chǎng)景中的各物體間的重要性排序。
圖像檢索可以從一個(gè)大規(guī)模的圖像集合中找到與被檢索圖像最相似的圖像,而物體排名關(guān)系是指圖像中不同物體之間的重要程度區(qū)別,例如物體的相對(duì)位置、大小和姿態(tài)等。在圖像檢索中,物體關(guān)系丟失可能會(huì)導(dǎo)致檢索結(jié)果的誤差增加。因此,在設(shè)計(jì)檢索算法時(shí),通常會(huì)考慮如何保留物體之間的關(guān)系信息,例如,Ji等人[3]設(shè)計(jì)了一種利用顯著特征信息來突出圖像中顯著物體位置的視覺注意力模塊,該顯著性模塊為圖文提供了視覺上的先驗(yàn)知識(shí),從而提高了圖文匹配算法的性能。
受該思想啟發(fā),本文提出了一種能夠?qū)?chǎng)景中各物體進(jìn)行重要性排名的全新方法,使用顯著性方法解決圖像檢索方法
中物體關(guān)系缺失的問題。顯著性方法和圖像檢索方法在視覺注意力和圖像特征兩個(gè)方面相互關(guān)聯(lián),其中,顯著性檢測(cè)算法旨在識(shí)別圖像中最具有顯著性的物體,這些物體通常與人類視覺注意力緊密相關(guān);而圖像檢索的目標(biāo)是通過查詢圖像庫(kù)來尋找與查詢圖像相似的圖像,這需要考慮到人類對(duì)圖像的視覺注意力,因此顯著性方法可以為圖像檢索提供圖像中重要物體的先驗(yàn)知識(shí)。同時(shí),顯著性檢測(cè)算法通常使用各種視覺特征來描述物體的顯著性,例如顏色、紋理、邊緣等;而圖像檢索也需要使用視覺特征描述圖像內(nèi)容,以便于比較不同圖像之間的相似度。因此,基于這兩個(gè)方面,本文將顯著性物體排名算法和圖像檢索聯(lián)系起來,利用顯著性算法提取圖像中最具有顯著性的物體作為檢索的關(guān)鍵詞,通過物體的顯著性來優(yōu)化圖像檢索的性能。
如圖1(b)所示,新方法能夠?qū)斎雸D像中的各物體重要性進(jìn)行感知,從而能夠作為一個(gè)輔助模塊來提升現(xiàn)有的圖像檢索方法,提升現(xiàn)有圖像檢索方法的檢索粒度。如圖1所示,在本文提出的圖像物體重要性排序感知模塊的輔助下,對(duì)原輸入圖像進(jìn)行檢索得到的圖像中的馬的重要性要低于人(參見重要性排序真值,即圖1(b)最后一行)。值得一提的是,目前在計(jì)算機(jī)視覺領(lǐng)域內(nèi),顯著性檢測(cè)方法(包括視點(diǎn)預(yù)測(cè)[4,5]和顯著性物體檢測(cè)[6]兩個(gè)分支)可以在一定程度上對(duì)輸入圖像進(jìn)行物體級(jí)重要性感知,即顯著性檢測(cè)方法可以自動(dòng)定位輸入圖像中最顯著的圖像區(qū)域。然而,圖像顯著性檢測(cè)與本文關(guān)注的圖像內(nèi)物體間重要性排序并不一致。
一方面,從輸出結(jié)果來看,顯著性檢測(cè)方法通常僅能定位場(chǎng)景中最顯著的物體,并不能提供其他非顯著性物體間的重要性排序,而本文期望得到的是一種能夠涵蓋所有物體的重要性排序。
另一方面,從計(jì)算原理來看,顯著性檢測(cè)通常表征場(chǎng)景中最吸引人類視覺注意力的圖像區(qū)域,屬于人類觀察給定場(chǎng)景時(shí)所展示出的第一反應(yīng);而本文所關(guān)注的重要性排序偏重于語(yǔ)義層面,表征人類觀察給定場(chǎng)景時(shí),經(jīng)過一定的主被動(dòng)思考權(quán)衡后得出的物體級(jí)排序結(jié)果,是一種視覺注意力的第二反應(yīng)。
綜上,本文關(guān)注的物體級(jí)重要性排名是有別于傳統(tǒng)顯著性檢測(cè)問題的一個(gè)全新問題,是一種偏向于語(yǔ)義層面且粒度更細(xì)的全新任務(wù)。
為實(shí)現(xiàn)物體級(jí)重要性排名,存在兩大技術(shù)難點(diǎn)尚待攻關(guān)。其一,場(chǎng)景物體重要性排序真值數(shù)據(jù)(GT)如何獲取?如果重新以人工標(biāo)注的方式進(jìn)行大規(guī)模數(shù)據(jù)標(biāo)注,代價(jià)太高。其二,本文定義的物體級(jí)重要性排序的問題復(fù)雜度要遠(yuǎn)高于顯著性檢測(cè),如何設(shè)計(jì)一種合理的網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)這一復(fù)雜任務(wù),非常具有挑戰(zhàn)。針對(duì)上述問題,本文在下列三個(gè)方面作出實(shí)質(zhì)性貢獻(xiàn):
a)基于現(xiàn)有的視點(diǎn)真值數(shù)據(jù),本文提出了一種能夠很好表征物體級(jí)顯著性的評(píng)價(jià)方法,從而在數(shù)據(jù)層面保障了后續(xù)的物體級(jí)顯著性排序網(wǎng)絡(luò)的訓(xùn)練可行性。
b)針對(duì)本文關(guān)注的物體級(jí)顯著性排序這一全新問題,設(shè)計(jì)了一種能夠以物體語(yǔ)義為主要表征的邏輯推理網(wǎng)絡(luò),達(dá)成高質(zhì)量的物體級(jí)顯著性排名。
c)提出一種新的圖像檢索策略,在現(xiàn)有基于語(yǔ)義的圖像檢索方法的基礎(chǔ)上通過顯著性物體排名算法提高檢索粒度。
1 相關(guān)工作
1.1 顯著性排名
顯著性排名(SR)是顯著性檢測(cè)任務(wù)的一個(gè)分支任務(wù),其目的是對(duì)圖像中顯著性物體進(jìn)行排序。Islam等人[7]首次提出不同顯著性對(duì)象之間存在相對(duì)排名,采用全卷積結(jié)構(gòu)的網(wǎng)絡(luò)預(yù)測(cè)相對(duì)排名并分階段優(yōu)化網(wǎng)絡(luò)。Siris等人[8]采用人類注意力轉(zhuǎn)移來定義對(duì)象的顯著性排名,并提出了第一個(gè)SR數(shù)據(jù)集,認(rèn)為利用注意機(jī)制可以推斷觀察者的注意力轉(zhuǎn)移。Lyu等人[9]提出了一種新的偽裝目標(biāo)檢測(cè)模型來對(duì)偽裝目標(biāo)進(jìn)行排序,他們采用計(jì)算實(shí)例上的注視點(diǎn)數(shù)目來標(biāo)記實(shí)例的排名信息。Tian等人[10]提出了一個(gè)對(duì)象—上下文反映模塊,利用對(duì)象上下文交互信息對(duì)顯著對(duì)象進(jìn)行排序。Fang等人[11]提出了端到端SR模型,并引入了位置保留注意模塊,該模塊保留了圖像中物體的位置關(guān)系。Liu等人[12]提出了一個(gè)新的圖推理模塊,以學(xué)習(xí)具有局部和全局對(duì)比度的實(shí)例關(guān)系,該方法主要預(yù)測(cè)人與人的相互關(guān)系。同時(shí),Liu等人將該方法與人眼注意點(diǎn)預(yù)測(cè)方法在顯著性排名上進(jìn)行比較。但本文認(rèn)為文獻(xiàn)[12]的比較方式并不公平,因?yàn)楂@取人眼注意點(diǎn)預(yù)測(cè)模型的顯著性排名性能需要對(duì)顯著圖進(jìn)行二值化處理,然而實(shí)驗(yàn)證明在不同的二值化閾值下,人眼注意點(diǎn)預(yù)測(cè)模型的性能也會(huì)發(fā)生改變。因此,本文認(rèn)為顯著性排名方法與人眼注意點(diǎn)預(yù)測(cè)方法在進(jìn)行比較時(shí),應(yīng)該選取人眼注意點(diǎn)預(yù)測(cè)方法在多個(gè)二值化閾值下的最佳性能。
1.2 人眼注意點(diǎn)預(yù)測(cè)
人眼注視點(diǎn)預(yù)測(cè)(EFP)旨在預(yù)測(cè)人們?cè)谧匀粓?chǎng)景中的興趣位置。早期的EFP模型[13]通常使用低層特征(如局部/全局對(duì)比度、顏色、方向、亮度等)來預(yù)測(cè)固定映射,這是一種自下而上的方法。近年來,深度神經(jīng)網(wǎng)絡(luò)被用于學(xué)習(xí)高層次、自頂向下的特征,并取得了顯著的性能。此外,Jiang等人[5]收集了一個(gè)大規(guī)模的EFP數(shù)據(jù)集SALICON,其包含了大量真實(shí)人眼觀測(cè)點(diǎn)。Pan等人[14]將生成式對(duì)抗網(wǎng)絡(luò)引入EFP領(lǐng)域并使用了新的評(píng)估指標(biāo)。Droste等人[4]提出了域適應(yīng)網(wǎng)絡(luò),將圖像和視頻任務(wù)通過遞歸神經(jīng)網(wǎng)絡(luò)以統(tǒng)一的方式建模。Ding等人[15]提出了一種反饋遞歸卷積框架來學(xué)習(xí)豐富的上下文表示。
1.3 圖像檢索
基于內(nèi)容的圖像檢索(CBIR)近年來取得了長(zhǎng)足的發(fā)展。它的目的是根據(jù)內(nèi)容返回與查詢相似的圖像集合。傳統(tǒng)的CBIR方法首先提取圖像特征,然后根據(jù)圖像特征向量的距離(如余弦距離和歐氏距離)返回相似圖像。然而,由于高昂的計(jì)算成本,它們對(duì)于現(xiàn)實(shí)世界的數(shù)據(jù)庫(kù)是不切實(shí)際的。另一種方法是近似最近鄰(ANN),它以速度換取檢索精度,其中,哈希方法就是一種有效的圖像檢索ANN方法。傳統(tǒng)的監(jiān)督哈希方法包括核監(jiān)督哈希、潛在因子哈希、快速監(jiān)督哈希等。除了使用手工特征的傳統(tǒng)哈希方法外,最近提出了一些深度哈希監(jiān)督方法利用深度神經(jīng)網(wǎng)絡(luò)以獲得更強(qiáng)大的特征表示。例如,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)哈希(CNNH)[16]是獨(dú)立學(xué)習(xí)哈希函數(shù)和特征表示的,哈希函數(shù)學(xué)習(xí)不能反饋到特征學(xué)習(xí)中;為了解決這一問題,Lai等人[17]使用基于三組圖像的排序損失來聯(lián)合學(xué)習(xí)哈希碼和特征表示(NINH),使哈希函數(shù)學(xué)習(xí)可以向特征學(xué)習(xí)提供反饋。深度監(jiān)督哈希(DSH)[18]是一種基于兩兩的哈希來生成判別哈希碼。鑒別深度哈希(DDH)[19]提供了一個(gè)分割編碼模塊,以最大限度地提高哈希碼的可鑒別性。WMRDH[20]給出了一種順序感知的排序損失,并采用加權(quán)方案生成相似度保持哈希碼。Ji等人[21]提出了一種異構(gòu)記憶增強(qiáng)圖推理網(wǎng)絡(luò)HMGR來連接視覺和語(yǔ)言之間的語(yǔ)義相關(guān)性,通過提取實(shí)例特征并利用圖卷積網(wǎng)絡(luò)生成關(guān)系增強(qiáng)的特征表示,挖掘圖像中實(shí)例間的拓?fù)湟蕾囮P(guān)系,將聯(lián)合異構(gòu)記憶網(wǎng)絡(luò)集成到一個(gè)統(tǒng)一的視覺語(yǔ)義嵌入模型中,通過外部記憶存儲(chǔ)對(duì)視覺知識(shí)和文字進(jìn)行讀寫操作,利用實(shí)例間的相互關(guān)系作為附加信息來學(xué)習(xí)更有區(qū)分度的特征。
雖然之前的工作取得了穩(wěn)定的性能,但這些方法都是基于內(nèi)容語(yǔ)義相似性檢索圖像,會(huì)使場(chǎng)景中的物體相互關(guān)系丟失,從而導(dǎo)致檢索圖像場(chǎng)景中物體重要性關(guān)系與被檢索圖像不同。然而,實(shí)驗(yàn)證明在物體級(jí)顯著性排名算法的支撐下,通過物體重要關(guān)系相似性可以提升現(xiàn)有圖像檢索的性能。
2 研究方法
2.1 整體結(jié)構(gòu)
本文所提出的SASR整體框架包括兩個(gè)主要階段。第一階段為基于視點(diǎn)數(shù)據(jù)的“組合閾值”物體級(jí)顯著性排名真值標(biāo)簽制作方法(2.2節(jié));第二階段為基于圖卷積神經(jīng)網(wǎng)絡(luò)所開發(fā)的物體級(jí)顯著性排序網(wǎng)絡(luò)(2.3節(jié)),該網(wǎng)絡(luò)解決了多個(gè)在物體級(jí)排序問題中存在的特異性難點(diǎn)。
2.2 物體級(jí)顯著性排名真值數(shù)據(jù)獲取
如圖2所示,原始排名標(biāo)簽制作方法主要通過計(jì)算平滑后的顯著圖中的平均像素值、最大像素值或者注視點(diǎn)個(gè)數(shù)作為排名先后的依據(jù)。然而,這幾種方法在某些場(chǎng)景中往往會(huì)與人工排序的結(jié)果不一致,這是因?yàn)槭褂闷骄捣ɑ蛘咂渌椒ㄓ?jì)算排名會(huì)使排名更關(guān)注局部物體,忽視了物體在整張圖像的比例。針對(duì)這一問題,本文提出了一種新的標(biāo)簽制定方案,該方案可以使顯著性排名標(biāo)簽在接近人類視覺系統(tǒng)的基礎(chǔ)上簡(jiǎn)化排名標(biāo)簽的制定。如圖2所示,該圖片經(jīng)過人工排序后“母親”會(huì)被認(rèn)為是最顯著的,但是通過平均值法或Fixation法計(jì)算物體框中的平均像素值或平均注視點(diǎn)后,“母親”的排名信息比重被稀釋了,孩子成為最顯著的物體,當(dāng)通過最大值法計(jì)算物體框中的最大像素值時(shí),圖像中最不顯著的披薩反而成為較顯著的,與人工排序不一致。本文與其他方法不同,提出了一種新的排名制定方案,利用組合閾值使排名更符合人類視覺系統(tǒng)。現(xiàn)有SALICON數(shù)據(jù)集中提供了大量基于鼠標(biāo)軌跡的注視點(diǎn)信息,使用該注視點(diǎn)信息可以降低標(biāo)注數(shù)據(jù)集的成本。首先,計(jì)算物體框中的注視點(diǎn)數(shù)量占整張圖像總視點(diǎn)數(shù)的比重(局部信息);然后,計(jì)算該物體框占整張圖像的比重(全局信息);最終,設(shè)置組合閾值通過改變局部信息和全局信息的比重來定義圖片中物體的顯著性程度分?jǐn)?shù)。對(duì)象的排名由顯著性程度分?jǐn)?shù)決定,分?jǐn)?shù)越高表示對(duì)象越顯著,具體公式可表示為
其中:fixi表示圖像中第i個(gè)物體歸一化后的注視信息分?jǐn)?shù);Si表示歸一化后的尺寸信息分?jǐn)?shù);Rscorei表示顯著性程度分?jǐn)?shù);γ是組合閾值,目的是為了控制視點(diǎn)信息和尺寸信息的比重,γ對(duì)顯著性程度分?jǐn)?shù)的影響將會(huì)在式(2)和3.4節(jié)用戶研究中進(jìn)行說明。對(duì)尺寸信息Si做指數(shù)運(yùn)算的目的是為了讓尺寸信息的變化更加平滑,并通過β控制尺寸信息的上限,使尺寸信息eβ×Si介于歸一化的注視信息分?jǐn)?shù)fixi附近,防止尺寸信息過大導(dǎo)致顯著性程度分?jǐn)?shù)完全由物體尺寸決定,此處本文將β設(shè)定為0.75,具體消融實(shí)驗(yàn)可以見3.6.3節(jié)。
接下來,為了驗(yàn)證組合閾值γ對(duì)顯著性排名分?jǐn)?shù)的影響,本文從數(shù)據(jù)集中隨機(jī)挑選了3 000張圖片,并在不同組合閾值下對(duì)3 000張圖片中的物體按照本文方案進(jìn)行排名。最終,計(jì)算在相鄰閾值下圖像中物體排名的偏移量,偏移量是通過對(duì)相鄰組合閾值下所有圖像中對(duì)象的排名變化進(jìn)行求和計(jì)算得出的,該偏移量公式為
其中:OF表示偏移量;N表示圖片中物體總數(shù);γ是組合閾值,0.1≤γ≤1;Rankγi,j和Rankγ-0.1i,j表示相鄰組合閾值下物體排名。如圖3所示,在組合閾值為0.1時(shí),物體偏移量最大,在0.2~0.6和0.7~1.0,物體排名偏移變化較小,因此,本文選擇了在這三個(gè)閾值區(qū)間的平均值{0.1,0.4,0.8}進(jìn)行實(shí)驗(yàn)。
2.3 物體級(jí)顯著性排序網(wǎng)絡(luò)
顯著性排序網(wǎng)絡(luò)由物體位置信息獲取、顯著性感知特征編碼和關(guān)系推理模塊三個(gè)模塊組成,如圖4所示。
2.3.1 物體位置信息獲取
現(xiàn)有顯著性排名方法都是基于多任務(wù)的,網(wǎng)絡(luò)由分割任務(wù)和排名任務(wù)構(gòu)成,需要生成頗具挑戰(zhàn)性的像素級(jí)掩碼,并且顯著性排名性能與實(shí)例掩碼的質(zhì)量高度相關(guān),如果實(shí)例掩碼質(zhì)量較差,排名可能不準(zhǔn)確。同時(shí),目前尚未確定分割任務(wù)和排名任務(wù)能否互相促進(jìn),而且分割任務(wù)比檢測(cè)任務(wù)更復(fù)雜,前者為像素級(jí)別,后者為物體級(jí)別。因此,本文沒有采用像素級(jí)實(shí)例分割,而是直接采用現(xiàn)有的目標(biāo)檢測(cè)網(wǎng)絡(luò),這可以在簡(jiǎn)化模型的同時(shí)有效地獲取圖像中的物體。本文采用EfficientDet[22]高效目標(biāo)檢測(cè)網(wǎng)絡(luò)檢測(cè)給定的圖像并且每張圖像至少需要獲得2個(gè)目標(biāo)檢測(cè)框(假設(shè)一張圖片至少有2個(gè)物體)。為了使檢測(cè)的物體更加準(zhǔn)確,需要過濾掉重疊較大的目標(biāo)候選框。首先,計(jì)算任意兩個(gè)候選框之間的交并比(IoU)并設(shè)置IoU閾值為0.4,刪除IoU大于0.4的重疊目標(biāo)候選框;接下來,刪除了占圖片總面積過大(目標(biāo)檢測(cè)框面積大于圖像總面積的60%)和占圖片總面積過?。繕?biāo)檢測(cè)框面積不超過50)的目標(biāo)候選框。
2.3.2 顯著性位置感知特征編碼
顯著性位置感知特征編碼(SPFE)的目的是為了盡可能增大特征提取感受野并實(shí)現(xiàn)多尺度特征融合,同時(shí),將物體位置信息特征嵌入多尺度融合特征中,從而獲得一組包含豐富局部和全局信息的物體編碼特征。SPFE中的顯著性編碼器(SE)可以采用任何現(xiàn)有魯棒性強(qiáng)的模型,本文采用了UNISAL模型(詳細(xì)架構(gòu)見文獻(xiàn)[4])。使用UNISAL有兩個(gè)原因:a)UNISAL網(wǎng)絡(luò)將高斯先驗(yàn)圖加入網(wǎng)絡(luò)中,這會(huì)給網(wǎng)絡(luò)提供一個(gè)顯著性物體位置的先驗(yàn)知識(shí);b)UNISAL網(wǎng)絡(luò)的輸出特征維數(shù)較低,減少了網(wǎng)絡(luò)的學(xué)習(xí)參數(shù)。UNISAL模型骨干網(wǎng)絡(luò)由MobileNet編碼器與高斯先驗(yàn)映射連接,解碼器網(wǎng)絡(luò)與編碼器殘差特征連接,本文只選擇解碼器us2中間層平滑后的特征fu作為物體編碼特征,輸出形狀為(192,48,36)。由于單個(gè)物體特征被送入網(wǎng)絡(luò)中,物體相對(duì)于整幅圖像的全局信息會(huì)丟失,同時(shí)物體間的空間關(guān)系也會(huì)丟失,本文采用多尺度特征融合解決全局信息丟失的問題,每個(gè)物體框的深度特征都包含兩個(gè)尺度(局部物體框和全局物體框),兩者唯一的區(qū)別是全局物體框的尺寸比局部物體框大50%。全局物體框?qū)膱D像中帶來更多的全局信息,這會(huì)使物體特征更加豐富。如圖4所示,獲取整張圖片的特征fu后根據(jù)局部物體框坐標(biāo)和全局物體框坐標(biāo)使用RoI-align獲得物體的局部編碼特征ful和全局編碼特征fug,每個(gè)物體框特征的輸出形狀是(192,7,7),為了保留物體之間的位置信息,本文對(duì)物體在圖像的坐標(biāo)信息進(jìn)行位置編碼。首先,將物體框的中心坐標(biāo)調(diào)整為ful中的位置坐標(biāo);然后,將該坐標(biāo)送入1×1卷積中
獲得位置編碼fpe。最終的物體編碼特征可以通過融合兩個(gè)維度為192的物體局部—全局特征,然后將物體位置編碼和局部—全局特征進(jìn)行融合,融合后的物體特征的維度是192+192+2=386,具體公式可表示為
2.3.3 關(guān)系推理
由于圖像中的物體不是孤立存在的,往往具有某些聯(lián)系,所以在獲得物體編碼特征后,需要構(gòu)建關(guān)系推理學(xué)習(xí)模塊探索物體特征間的語(yǔ)義關(guān)系。眾所周知,圖卷積網(wǎng)絡(luò)(GCN)在描述物體之間的相互關(guān)系上具有顯著的效果,在GCN中,圖像中的每個(gè)物體對(duì)應(yīng)圖網(wǎng)絡(luò)的一個(gè)圖節(jié)點(diǎn),為了獲取多個(gè)物體特征編碼之間的語(yǔ)義關(guān)系,可以通過構(gòu)造一個(gè)鄰接關(guān)系矩陣學(xué)習(xí)物體間的關(guān)系,該矩陣測(cè)量了任意兩個(gè)物體之間的相關(guān)程度。本文假設(shè)所有的物體都是相互關(guān)聯(lián)的,該鄰接矩陣可以通過一個(gè)形狀為386×N和一個(gè)形狀為N×386的1×1卷積層組成,其中N表示圖像中物體的個(gè)數(shù),全連接層構(gòu)成的全連接鄰接矩陣的形狀是N×N。GCN訓(xùn)練完成后,可以得到和輸入形狀相同的形狀為N×386的推理特征。本文采用堆疊多個(gè)GCN層來獲得增強(qiáng)的特征表示,具體公式可以表示為
Euclid Math TwoRAp(n×n)表示權(quán)重參數(shù)關(guān)系矩陣;R表示鄰接關(guān)系矩陣;l表示GCN層數(shù),共使用了三個(gè)GCN層,最終產(chǎn)生一組語(yǔ)義關(guān)系豐富的深度物體特征編碼節(jié)點(diǎn)。本文將fl送入形狀為N×1的線性層,得到預(yù)測(cè)的物體顯著性分?jǐn)?shù)。
2.3.4 將SASR算法應(yīng)用于圖像檢索
本文提出了一種新的檢索策略,旨在基于訓(xùn)練好的SASR算法提高圖像檢索的細(xì)粒度,具體檢索流程如圖5所示,其中灰色陰影部分為現(xiàn)有圖像檢索模型流程,檢索流程的概述如算法1所示。首先,設(shè)置最小關(guān)系相似性閾值ω,并將圖像檢索測(cè)試集X輸入到現(xiàn)有訓(xùn)練好的圖像檢索模型獲得原始的檢索結(jié)果,表示為O。然后,采用顯著性排名網(wǎng)絡(luò)SASR計(jì)算原始檢索圖像O與被檢索圖像X中的物體之間的重要關(guān)系相似性(SRCC)。最后,過濾掉具有低重要關(guān)系相似性(SRCC<ω)的檢索圖像,獲得最終檢索預(yù)測(cè)結(jié)果F。
2.3.5 損失函數(shù)
本文提出的顯著性排名網(wǎng)絡(luò)解決了一個(gè)排名問題,針對(duì)該問題,本文采用均方誤差和排序損失共同優(yōu)化網(wǎng)絡(luò)模型,損失函數(shù)公式如下:
對(duì)于均方誤差式(6):y是實(shí)際顯著程度分?jǐn)?shù);是預(yù)測(cè)顯著程度分?jǐn)?shù);N表示一張圖像中物體的數(shù)量。對(duì)于排序損失式(7):i和j是兩個(gè)圖像中預(yù)測(cè)的物體顯著性分?jǐn)?shù);z是圖像中任意兩個(gè)物體的真實(shí)標(biāo)簽,可以是{1,-1}中的一個(gè),其中,標(biāo)簽1表示j的真實(shí)排名高于i,標(biāo)簽-1表示j的真實(shí)排名低于i;m是一張圖像中物體排名差異的最小值,此處,m被設(shè)置為0。在排序損失中,如果i和j被正確排序,且不等式-z×(j-i)+m>0成立,則排序損失被設(shè)置為0,否則,排序損失為-z×(j-i)+m,總排序損失為圖像中任意兩個(gè)物體的排序損失之和。最終,總損失由均方誤差和排名損失相加計(jì)算得出,權(quán)重α設(shè)置為0.001。
3 實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)現(xiàn)細(xì)節(jié)
1)數(shù)據(jù)集 為了有效驗(yàn)證所提排序算法對(duì)顯著性排名和圖像檢索性能的提升,本文同時(shí)在顯著性排名數(shù)據(jù)集和圖像檢索數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。由于所提算法是基于多物體標(biāo)簽的任務(wù),所以在顯著性排名任務(wù)上采用SALICON數(shù)據(jù)集,在圖像檢索任務(wù)上采用NUS-WIDE數(shù)據(jù)集[23]。
SALICON數(shù)據(jù)集包含20 000幅圖像,是從COCO數(shù)據(jù)集中挑選出的圖片,并使用鼠標(biāo)軌跡記錄人眼看到的物體位置,總共20 000幅圖像。由于SALICON的測(cè)試集沒有人工注釋數(shù)據(jù),所以本文將SALICON的驗(yàn)證集重新劃分成驗(yàn)證集和測(cè)試集,最終,顯著性排名數(shù)據(jù)集按照10 000/1 200/3 800的訓(xùn)練/驗(yàn)證/測(cè)試集進(jìn)行劃分。
NUS-WIDE包含81個(gè)類別、269 648幅圖像、多標(biāo)簽、彩色圖像數(shù)據(jù)集,本文選取最常用的21個(gè)類別,每個(gè)類別均超過50幅圖像,共計(jì)195 834幅圖像。隨機(jī)選取10 000幅圖像用做測(cè)試集和驗(yàn)證集,其余用做訓(xùn)練集。
2)參數(shù)設(shè)置 本文算法在一臺(tái)具有GeForce RTX 2080顯卡的計(jì)算機(jī)上使用Python在PyTorch深度學(xué)習(xí)框架中實(shí)現(xiàn),其中,PyTorch版本號(hào)為1.2,CUDA版本號(hào)為9.1,選擇Adam算法優(yōu)化網(wǎng)絡(luò),動(dòng)量為0.9,權(quán)重衰減為10-4,學(xué)習(xí)率為0.000 1,在每10個(gè)迭代后以0.1倍的指數(shù)衰減。batchsize為3,UNISAL權(quán)重被凍結(jié),模型在200個(gè)epoch左右收斂。
3.2 評(píng)價(jià)指標(biāo)
為了全面評(píng)估排序網(wǎng)絡(luò)的性能,本文采用斯皮爾曼等級(jí)相關(guān)系數(shù)(SRCC,越高越好)、F1-score(F1,越高越好)評(píng)估本方法的性能。為了驗(yàn)證排序網(wǎng)絡(luò)對(duì)圖像檢索方法性能的提升,本文采用平均精度均值(MAP,越高越好)指標(biāo)對(duì)圖像檢索精度進(jìn)行評(píng)估。SRCC是用來反映兩個(gè)隨機(jī)變量間的線性相關(guān)程度,可以定義為
其中:di表示第i個(gè)物體預(yù)測(cè)排名和真實(shí)排名的差異程度;N表示圖片中物體的個(gè)數(shù)。
3.3 實(shí)驗(yàn)結(jié)果和分析
本文和其他排名方法類似,與七種最新的EFP算法進(jìn)行了比較,分別是UNISAL[4]、SalGAN[14]、SalFBNet[15]、TranSalNet[24]、EML-Net[25]、ML-Net[26]和SALICON[27],為了客觀比較,所有定量評(píng)價(jià)都使用本文提供的顯著圖或由參數(shù)不變的可執(zhí)行代碼得到的顯著圖。
由于EFP方法只能生成顯著圖,為了計(jì)算EFP方法的排名性能,本文和其他顯著性排名算法一樣,將圖像中物體對(duì)應(yīng)的顯著圖區(qū)域灰度化和二值化處理后,通過計(jì)算物體區(qū)域中的白色點(diǎn)像素點(diǎn)數(shù)量,進(jìn)一步得到其他方法的顯著性排序。然而,在常規(guī)顯著性排名方法中,二值化閾值是通過計(jì)算整張顯著圖的灰度化平均值獲得的,這將導(dǎo)致其他方法的排序性能會(huì)隨著二值化閾值的改變而改變。因此,為了進(jìn)行公平的比較,本文提出了一種新的評(píng)估方案可以獲得更精確的二值化閾值以讓其他顯著性方法的性能達(dá)到最佳。首先,將每個(gè)物體框?qū)?yīng)的顯著圖進(jìn)行灰度化(θ);然后,分別計(jì)算圖像中的對(duì)應(yīng)物體顯著圖的灰度值的總和與物體面積的比例,得到圖像中每個(gè)物體的平均灰度值;最后,本文的二值化閾值T由該平均值和二值化權(quán)重決定,整個(gè)過程可由式(9)表示。
其中:Pi是第i個(gè)物體對(duì)應(yīng)的顯著圖;N是一張圖像中的物體數(shù)量;Ai是第i個(gè)物體的面積;sum表示計(jì)算灰度圖的像素值之和;λ是0-1的二值化閾值權(quán)重,用于控制二值化閾值的變化,以確保能夠?qū)ふ移渌椒ǖ淖罴研阅堋?/p>
本文在表1展示了不同方法在多個(gè)組合閾值(γ)下的顯著性排名性能,其他方法在當(dāng)前組合閾值下的最佳性能已用黑色粗體標(biāo)記出來。當(dāng)組合閾值γ=0.1時(shí),本文方法優(yōu)于其他模型的性能;當(dāng)組合閾值γ=0.4時(shí),本文方法的SRCC優(yōu)于其他模型,F(xiàn)1略低于其他模型最佳性能;當(dāng)組合閾值γ=0.8時(shí),本文方法的SRCC和F1指標(biāo)略低于其他模型的最佳性能。在組合閾值固定時(shí),其他模型的性能隨著二值化閾值權(quán)重λ的增大而降低,本文方法性能不隨著λ的改變而改變,這是因?yàn)楸疚纳傻腉T標(biāo)簽沒有涉及對(duì)顯著圖的二值化操作。當(dāng)λ固定,組合閾值增高時(shí),在排名標(biāo)簽中,物體尺寸因素占據(jù)的比重增大,人眼注意信息比重降低,本文模型性能下降,而其他模型的性能上升,這說明EFP模型在預(yù)測(cè)物體排名時(shí)更注重物體尺寸信息,本文方法更注重視點(diǎn)信息,實(shí)驗(yàn)結(jié)果體現(xiàn)了所提方法的優(yōu)勢(shì)。
為了驗(yàn)證所提顯著性排名網(wǎng)絡(luò)不僅僅在本文所提標(biāo)簽標(biāo)定方法上能夠帶來排名性能的提升,本文選擇在其他標(biāo)簽制定方法上進(jìn)行驗(yàn)證,如表2所示。這是在平均值法標(biāo)簽下排名網(wǎng)絡(luò)的性能,在多個(gè)二值化閾值權(quán)重下,本文算法性能皆超過了其他顯著性方法,證明所提算法不受標(biāo)簽制定方案的制約。
本文將影響顯著性排名效果的問題分為相似物體類和物體交叉類兩類。在不同場(chǎng)景下,圖6比較了本文算法與其他算法的可視化顯著性排名結(jié)果,在第一和二行可視化結(jié)果中,圖片中物體形狀和尺寸都較為相似,同時(shí)存在距離鏡頭較遠(yuǎn)的物體和靠近鏡頭的物體,本文算法仍能給出合理的排名預(yù)測(cè)結(jié)果。在第三行對(duì)比圖中,圖片中物體較為緊密,多個(gè)物體之間有一定交叉,本文算法也可以合理的預(yù)測(cè)多個(gè)交叉物體間的排名信息。由此可見,本文方法在多種復(fù)雜場(chǎng)景下均取得了較合理的效果,而其他算法在面對(duì)這兩類問題時(shí)排名結(jié)果不夠合理。
為了驗(yàn)證SASR能夠提升圖像檢索方法的檢索粒度,本文將SASR作為一個(gè)輔助模塊對(duì)現(xiàn)有的圖像檢索方法進(jìn)行驗(yàn)證(在組合閾值為0.1下實(shí)驗(yàn))。參與對(duì)比方法有CNNH[16]、NINH[17]、DSH[18]、DDH[19]、LSH[28]、DSRH[29]和MLSH[30]。操作流程如圖1(b)所示。首先使用現(xiàn)有圖像檢索方法獲取檢索結(jié)果;接下來,使用排名網(wǎng)絡(luò)計(jì)算檢索圖像與被檢索圖像中物體的重要關(guān)系相似度;最后,篩除重要關(guān)系相似度較低的檢索圖片(SRCC低于ω,將會(huì)在消融實(shí)驗(yàn)進(jìn)行說明)。表3給出了不同方法在不同哈希碼碼長(zhǎng)對(duì)應(yīng)的MAP值,其中右上角帶星號(hào)的方法為當(dāng)前圖像檢索方法在SASR的輔助下的性能。在SASR網(wǎng)絡(luò)的支撐下,場(chǎng)景中物體間的重要關(guān)系得以獲取,排除與被檢索圖像重要關(guān)系相似程度較低的圖像,使圖像檢索方法的性能得到提升,從而證明了所提算法能夠提升圖像檢索的檢索粒度。
為了進(jìn)一步說明所提方法的優(yōu)越性,本文在NUS-WIDE數(shù)據(jù)上48 bit條件下繪制了PR曲線,如圖7所示,PR曲線與坐標(biāo)軸圍成的面積越大,則表示該方法性能越好。從圖7可以看出,在顯著性排名網(wǎng)絡(luò)的輔助下,所有現(xiàn)有監(jiān)督哈希圖像檢索算法的性能得到了提升。
3.4 用戶研究與分析
由于顯著性排名本身是帶有較大主觀性的行為,本文選擇通過用戶研究來驗(yàn)證提出的排名方案的合理性。首先,從SALICON數(shù)據(jù)集中挑選了500張圖片進(jìn)行人工注釋,給定一張圖像,觀測(cè)者對(duì)圖像中的物體進(jìn)行排名注釋,將第一眼看到的物體視做最顯著的,最后注意到的物體視為最不顯著的。本文共邀請(qǐng)了45位用戶(年齡層次位于20~25歲,男性占24位,女性占21位)進(jìn)行研究,每位用戶需要重復(fù)三輪人工注釋,盡可能地消除注釋過程中的疲勞損失,最后對(duì)所有觀測(cè)者的排名注釋進(jìn)行平均作為最終排名結(jié)果。接下來,為了證明本文基于視點(diǎn)數(shù)據(jù)的組合閾值物體級(jí)顯著性排名真值標(biāo)簽制作方法的有效性并消除歸納偏差,將本文方法(組合閾值0.1下)與其他排名標(biāo)簽制定方法做了對(duì)比,即本文方法、平均值法、最大值法和Fixation法,具體可視化對(duì)比結(jié)果如圖8所示。在多個(gè)場(chǎng)景下,本文方法在組合閾值的約束下,排名結(jié)果不再僅僅局限于局部區(qū)域,同時(shí)關(guān)注物體占場(chǎng)景的比重,使排名結(jié)果更接近人類視覺系統(tǒng)。本文計(jì)算了四種排名方案(本文方法在三個(gè)組合閾值下)產(chǎn)生的排名結(jié)果中與人工注釋的排名相同的圖像數(shù)量,定量數(shù)據(jù)如表4所示。本文方案生成的顯著性排名在多個(gè)組合閾值下與人工注釋的圖像相同排名的圖片數(shù)量都超過其他方法,說明本文排名方法更接近人類真實(shí)視覺系統(tǒng)。
3.5 算法復(fù)雜度分析
本文所提出的顯著性排序算法采用了現(xiàn)有的目標(biāo)檢測(cè)模型生成物體框,而非使用像素級(jí)分割任務(wù);在獲取顯著性編碼特征方面,采用了現(xiàn)有權(quán)重固定的顯著性模型。因此,本文算法的主要復(fù)雜度消耗在圖卷積網(wǎng)絡(luò)組的訓(xùn)練上。具體的效率對(duì)比數(shù)據(jù)如表5所示,相較于其他顯著性方法,本文算法的模型參數(shù)量更低,效率更高。除了EML-Net,本文算法的運(yùn)行時(shí)間和參數(shù)量均優(yōu)于其他方法,能夠保證在排名性能提高的同時(shí),不增加算法復(fù)雜度。
3.6 消融分析
3.6.1 SPFE模塊的有效性
為了驗(yàn)證所提SPFE模塊的有效性,本文比較了兩種特征編碼方法(ResNet50編碼特征、VGG16編碼特征),實(shí)驗(yàn)結(jié)果如表6所示(所有消融實(shí)驗(yàn)都在組合閾值為0.1下進(jìn)行)。使用SPFE模塊的性能均遠(yuǎn)遠(yuǎn)高于另外兩種特征編碼方式。其中,在SALICON數(shù)據(jù)集上SRCC指標(biāo)分別增加了3.9%和5.2%,F(xiàn)1指標(biāo)分別增加了1.7%和3.0%。實(shí)驗(yàn)結(jié)果表明,使用單一局部特征編碼效果有限,SPFE模塊可以更好地識(shí)別圖像中的顯著物體。
3.6.2 圖卷積網(wǎng)絡(luò)的有效性
為了驗(yàn)證GCN能夠?qū)W習(xí)物體間的相互關(guān)系,本文將GCN替換成線性層。結(jié)果如表7所示,使用GCN的性能高于不使用GCN的性能,原因在于圖卷積網(wǎng)絡(luò)模塊考慮了物體編碼特征的差異性問題,允許物體之間的特征相互聯(lián)系,不重要的物體特征分配較小的權(quán)重,使得對(duì)更重要特征融合的更加充分。其中,在SALICON數(shù)據(jù)集上SRCC和F1指標(biāo)分別增加了8.2%和7.2%。由于本文算法通過堆疊多個(gè)GCN層來穩(wěn)定學(xué)習(xí)過程和豐富圖關(guān)系矩陣,所以探索GCN層數(shù)對(duì)網(wǎng)絡(luò)模型的影響也十分重要。具體消融實(shí)驗(yàn)如表8所示。當(dāng)GCN層數(shù)改變時(shí),顯著性排名性能會(huì)發(fā)生變化,并且,當(dāng)層數(shù)等于3時(shí),顯著性排名性能達(dá)到最高,因此,在本網(wǎng)絡(luò)中,將GCN層數(shù)設(shè)置成3以達(dá)到最佳性能。
3.6.3 超參數(shù)β對(duì)顯著性排名標(biāo)簽的影響
為了驗(yàn)證式(1)中超參數(shù)β對(duì)顯著性排名真值的影響,本文使用3.4節(jié)用戶研究中獲得的500張人工注釋的顯著性物體排名真值數(shù)據(jù)對(duì)β進(jìn)行消融分析。具體操作流程如下:首先,為了控制變量,本文固定組合閾值γ為0.1,接下來,計(jì)算不同β下顯著性排名標(biāo)簽與人工手動(dòng)注釋標(biāo)簽的物體排名標(biāo)簽偏移量,具體結(jié)果如圖9所示。隨著β的升高,排名偏移量變化較大,位于0.6~0.9,排名偏移量幾乎不變。但隨著β的繼續(xù)升高,排名偏移量又開始增高。這是因?yàn)楫?dāng)β較小時(shí),式(1)中物體顯著性排名主要由人眼注視點(diǎn)決定,導(dǎo)致物體尺寸信息對(duì)顯著性排名的貢獻(xiàn)相對(duì)于人眼注視信息過小,進(jìn)而導(dǎo)致顯著性排名只關(guān)注人眼局部注視信息。當(dāng)位于0.6~0.9時(shí),排名偏移量變化較小,這是因?yàn)榇藭r(shí)注視點(diǎn)信息和物體尺寸信息貢獻(xiàn)相當(dāng),顯著性排名更加穩(wěn)定。當(dāng)β過大時(shí),顯著性排名中注視點(diǎn)信息對(duì)排名標(biāo)簽的貢獻(xiàn)相較于尺寸信息過小,使顯著性排名過分關(guān)注全局信息而忽略了局部物體,從而導(dǎo)致了排名偏移量增高。綜上,本文將β設(shè)定為0.6~0.9內(nèi)的平均值,以促使注視點(diǎn)信息和物體尺寸信息對(duì)顯著性排名貢獻(xiàn)相當(dāng)。
3.6.4 最小關(guān)系相似性閾值ω對(duì)圖像檢索性能的影響
為了研究最小關(guān)系相似性閾值(ω)對(duì)圖像檢索性能的影響,本文計(jì)算了不同相似性閾值下的圖像檢索性能,并繪制了性能曲線,如圖10所示。隨著ω的增加,圖像檢索方法的平均精度(MAP)一開始會(huì)提高,然后會(huì)下降。MAP的初始增加歸因于現(xiàn)有圖像檢索結(jié)果與檢索到的圖像中的對(duì)象具有不同的相似關(guān)系,所提出的SASR算法可以過濾出相似度差異顯著的檢索結(jié)果,從而提高了性能。但是,當(dāng)將ω提高到一定范圍時(shí),原本正確的檢索結(jié)果也被過濾掉,導(dǎo)致精確率上升,召回率下降,最終導(dǎo)致MAP下降,因此,根據(jù)消融分析將閾值設(shè)為0.25。
4 結(jié)束語(yǔ)
本文提出一種新的圖像檢索策略,能夠在現(xiàn)有基于語(yǔ)義的圖像檢索方法的基礎(chǔ)上通過顯著性物體排名算法提高檢索粒度;闡述了顯著性算法和圖像檢索算法的內(nèi)在關(guān)聯(lián);提出了一種基于視點(diǎn)數(shù)據(jù)的組合閾值物體級(jí)顯著性排名真值標(biāo)簽制作方法,簡(jiǎn)化了排名標(biāo)簽的標(biāo)注;提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的物體級(jí)顯著性排序網(wǎng)絡(luò),在現(xiàn)有數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于當(dāng)前其他顯著性方法,并能提升圖像檢索方法的性能,證明了其有效性。后續(xù)將對(duì)特征融合編碼方式做進(jìn)一步研究,在確保不降低算法性能的前提下,盡可能降低模型的參數(shù)量;此外,會(huì)進(jìn)一步研究GCN對(duì)模型性能的影響,探討如何更有效地構(gòu)建鄰接矩陣來學(xué)習(xí)物體間的語(yǔ)義關(guān)系。
參考文獻(xiàn):
[1]Li Xiaoqing,Yang Jiansheng,Ma Jinwen.Recent developments of content-based image retrieval(CBIR)[J].Neurocomputing,2021,452:675-689.
[2]趙昕昕,李陽(yáng),苗壯,等.貪心非對(duì)稱深度有監(jiān)督哈希圖像檢索方法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(10):3156-3160.(Zhao Xinxin,Li Yang,Miao Zhuang,et al.Greedy-asymmetric deep supervised ha-shing for image retrieval[J].Application Research of Computers,2022,39(10):3156-3160.)
[3]Ji Zhong,Wang Haoran,Han Jungong,et al.Saliency-guided attention network for image-sentence matching[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:5753-5762.
[4]Droste R,Jiao Jianbo,Noble J A.Unified image and video saliency modeling[M]//Vedaldi A,Bischof H,Brox T,et al.Computer Vision.Cham:Springer,2020:419-435.
[5]Jiang Ming,Huang Shengsheng,Duan Juanyong,et al.Salicon:saliency in context[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1072-1080.
[6]王蕓,尹來國(guó),宋夢(mèng)柯.基于視覺信息補(bǔ)償?shù)亩嗔饕粢曪@著性檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2022,39(7):2230-2235.(Wang Yun,Yin Laiguo,Song Mengke.Multi-stream audio-visual saliency detection of visual information compensation[J].Application Research of Computers,2022,39(7):2230-2235.)
[7]Islam M A,Kalash M,Bruce N D B.Revisiting salient object detection:simultaneous detection,ranking,and subitizing of multiple salient objects[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7142-7150.
[8]Siris A,Jiao Jianbo,Tam G K L,et al.Inferring attention shift ranks of objects for image saliency[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:12130-12140.
[9]Lyu Yunqiu,Zhang Jing,Dai Yuchao,et al.Simultaneously localize,segment and rank the camouflaged objects[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:11586-11596.
[10]Tian Xin,Xu Ke,Yang Xin,et al.Bi-directional object-context prioritization learning for saliency ranking[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:5872-5881.
[11]Fang Hao,Zhang Daoxin,Zhang Yi,et al.Salient object ranking with position-preserved attention[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:16311-16321.
[12]Liu Nian,Li Long,Zhao Wangbo,et al.Instance-level relative saliency ranking with graph reasoning[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(11):8321-8337.
[13]Erdem E,Erdem A.Visual saliency estimation by nonlinearly integrating features using region covariances[J].Journal of Vision,2013,13(4):11.
[14]Pan Junting,F(xiàn)errer C C,Mcguinness K,et al.SalGAN:visual saliency prediction with generative adversarial networks[EB/OL].(2018-07-01).https://arxiv.org/abs/1701.01081.
[15]Ding G,I·mamogˇlu N,Caglayan A,et al.SalFBNet:learning pseudo-saliency distribution via feedback convolutional networks[J].Image and Vision Computing,2022,120:104395.
[16]Xia Rongkai,Pan Yan,Lai Hanjiang,et al.Supervised hashing for image retrieval via image representation learning[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2156-2162.
[17]Lai Hanjiang,Pan Yan,Ye Liu,et al.Simultaneous feature learning and hash coding with deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3270-3278.
[18]Liu Haomiao,Wang Ruiping,Shan Shiguang,et al.Deep supervised hashing for fast image retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2064-2072.
[19]Lin Jie,Li Zechao,Tang Jinhui.Discriminative deep hashing for scalable face image retrieval[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:2266-2272.
[20]Li Jiayong,Ng W W Y,Tian Xing,et al.Weighted multi-deep ranking supervised hashing for efficient image retrieval[J].International Journal of Machine Learning and Cybernetics,2020,11:883-897.
[21]Ji Zhong,Chen Kexin,He Yuqing,et al.Heterogeneous memory enhanced graph reasoning network for cross-modal retrieval[J].Science China Information Sciences,2022,65(7):article No.172104.
[22]Tan Mingxing,Pang Ruoming,Le Q V.EfficientDet:scalable and efficient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10778-10787.
[23]Chua T S,Tang Jinhui,Hong Richang,et al.NUS-WIDE:a real-world web image database from National University of Singapore[C]//Proc of ACM International Conference on Image and Video Retrieval.New York:ACM Press,2009:article No.48.
[24]Lou Jianxun,Lin Hanhe,Marshall D,et al.TranSalNet:visual saliency prediction using transformers[J].Neurocomputing,2022,494:45-467.
[25]Jia Sen,Bruce N D B.EML-Net:an expandable multi-layer network for saliency prediction[J].Image and Vision Computing,2020,95:103887.
[26]Cornia M,Baraldi L,Serra G,et al.A deep multi-level network for saliency prediction[C]//Proc of the 23rd International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3488-3493.
[27]Huang Xun,Shen Chengyao,Boix X,et al.SALICON:reducing the semantic gap in saliency prediction by adapting deep neural networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:262-270.
[28]Datar M,Immorlica N,Indyk P,et al.Locality-sensitive hashing scheme based on p-stable distributions[C]//Proc of the 20th Annual Symposium on Computational Geometry.New York:ACM Press,2004:253-262.
[29]Yao Ting,Long Fuchen,Mei Tao,et al.Deep semantic-preserving and ranking-based hashing for image retrieval[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:3931-3937.
[30]Ng W W Y,Li Jiayong,Tian Xing,et al.Multi-level supervised hashing with deep features for efficient image retrieval[J].Neurocomputing,2020,399:171-182.
收稿日期:2023-01-31;修回日期:2023-03-14 基金項(xiàng)目:山東省高等學(xué)校青創(chuàng)科技計(jì)劃創(chuàng)新團(tuán)隊(duì)資助項(xiàng)目(2021KJ062);國(guó)家自然科學(xué)基金資助項(xiàng)目(61802215)
作者簡(jiǎn)介:李林峰(1998-),男(通信作者),山東青島人,碩士,主要研究方向?yàn)轱@著性物體排名、計(jì)算機(jī)視覺(2736093676@qq.com);陳程立詔(1988-),男,江西萍鄉(xiāng)人,教授,博導(dǎo),博士,主要研究方向?yàn)轱@著性物體檢測(cè)、虛擬現(xiàn)實(shí)數(shù)據(jù)挖掘、模式識(shí)別;王恒森(1996-),男,山東日照人,碩士,主要研究方向?yàn)轱@著性物體檢測(cè).