摘 要:隨著深度神經網絡的不斷發(fā)展,跨模態(tài)檢索模型的構建也隨之取得了長足的進步。以圖卷積網絡(GCN)為基礎的跨模態(tài)檢索方法可以較好地捕獲數(shù)據(jù)的語義相關性,因此越來越受到人們的關注。但是,目前大部分研究多將標簽之間和樣本之間的相關性融入到跨模態(tài)表示當中,并沒有考慮到標簽集合之間的相關性對于跨模態(tài)檢索模型性能的影響。在多標簽場景下,標簽集合之間的多標簽相關性可以有效地描述對應樣本之間的語義關系,因此充分發(fā)現(xiàn)多標簽相關性并將其融入到跨模態(tài)表示中,對于提高跨模態(tài)檢索模型的性能有著重要的意義。提出了一種基于二重語義相關性圖卷積網絡 (dual semantic correlation graph convolutional networks,DSCGCN) 的跨模態(tài)檢索方法,該方法利用GCN自適應地發(fā)現(xiàn)標簽之間和多標簽之間的語義相關性,并將此二重語義相關性融入到樣本公共表示中。此外,還提出了一種多標簽相似性損失,用于使生成的樣本公共表示相似性更接近于語義相似性。通過在NUS-WIDE、MIRFlickr-25K和MS-COCO三個數(shù)據(jù)集上的實驗可以發(fā)現(xiàn),由于引入了多標簽語義相關性,DSCGCN可以獲得令人滿意的檢索效果。
關鍵詞: 語義相關性;自適應相關性矩陣;圖卷積網絡;跨模態(tài)檢索
中圖分類號: TP391文獻標志碼:A 文章編號: 1001-3695(2024)04-041-1239-08
doi: 10.19734/j.issn.1001-3695.2023.08.0370
Dual semantic correlation graph convolutional networks for cross-modal retrieval
Liu Jianan Fan Jingjing Zhao Jianguang Zhu Jie2
Abstract:With the continuous development of deep neural networks, significant progress has been made in the construction of cross-modal retrieval models. Cross-modal retrieval methods based on GCN have shown promising results in capturing semantic correlations in dat thus attracting increasing attention. However, most recent research focuses on incorporating correlations between labels and between samples into cross-modal representations, while the impact of correlations between label sets is neglected. In multi-label scenarios, the correlations between label sets can effectively describe semantic relationships between corresponding samples. Therefore, exploring the multi-label correlations and integrating it into cross-modal representations is important for improving the performance of cross-modal retrieval models. This paper proposed a dual semantic correlation graph convolutional networks (DSCGCN) cross-modal retrieval method. This method utilized GCN to explore the semantic correlations between labels and between multi-labels adaptively, and integrated the learned dual semantic correlations into the common representations. Additionally, it designed a multi-label similarity loss to make the similarities between the common representations more close to the semantic similarities. Experimental results on the NUS-WIDE, MIRFlickr-25K, and MS-COCO datasets demonstrate that because of multi-label correlations, DSCGCN achieves satisfactory retrieval performance. Key words:semantic correlation; adaptive correlation matrix; graph convolutional network(GCN); cross-modal retrieval
0 引言近年來,隨著計算機技術的不斷發(fā)展,跨模態(tài)檢索領域出現(xiàn)了許多性能優(yōu)越的方法,這些方法的研究重點多集中在如何將不同模態(tài)數(shù)據(jù)映射到一個公共表示空間內,以便進行匹配和檢索[1~4]。傳統(tǒng)方法通過線性或者非線性映射的方式對不同模態(tài)數(shù)據(jù)特征進行映射。典型相關分析(canonical correlation analysis,CCA)[5]通過最大化不同模態(tài)數(shù)據(jù)之間的相關性,來學習一個公共表示空間??缒B(tài)因子分析 (cross-modal factor analysis,CFA)[6]的目標是通過調整模型參數(shù),找到合適的共享因子表示,從而實現(xiàn)跨模態(tài)檢索。共正則化哈希(co-regularizedhashing,CRH)[7]嘗試將不同模態(tài)的數(shù)據(jù)映射到一個公共的漢明空間,以便在此空間上進行快速的跨模態(tài)檢索。以上傳統(tǒng)方法從不同角度學習了跨模態(tài)表示空間,但它們均受到特征表示能力不足和映射方法存在諸多假設等方面的局限性。隨著深度學習的興起,基于深度網絡的跨模態(tài)檢索方法逐漸成為熱點。對抗跨模態(tài)檢索(adversarial cross-modal retrieval,ACMR)[1]基于生成式對抗網絡(generative adversarial networks,GAN)的構建思想,嘗試通過對抗訓練來實現(xiàn)不同模態(tài)數(shù)據(jù)之間的檢索任務。該方法使用一個生成器來學習不同模態(tài)數(shù)據(jù)的公共表示,并使用一個辨別器來區(qū)分真實數(shù)據(jù)和生成數(shù)據(jù)。通過對抗訓練,生成器逐漸學習到能夠生成更真實的公共表示,從而提高跨模態(tài)檢索模型的性能。深度跨模態(tài)哈希(deep cross-modal hashing,DCMH)[2]通過深度神經網絡來提取不同模態(tài)數(shù)據(jù)的特征表示,并通過成對損失來約束模態(tài)間數(shù)據(jù)的成對語義關系。在DCMH基礎上,深度有監(jiān)督跨模態(tài)檢索(deep supervised cross-modal retrieval,DSCMR)[8]不僅考慮到了模態(tài)間數(shù)據(jù)的成對語義相似性關系,也考慮到了單一模態(tài)樣本自身的模態(tài)不變性?;谝恢滦员3值膶剐怨?(consistency-preserving adversarial hashing,CPAH)[9]提出了一種多任務對抗學習方法,這種方法可以使來自不同模態(tài)的樣本公共表示分布更加接近,增強了不同模態(tài)數(shù)據(jù)間的語義相似性。此外,自監(jiān)督學習和弱監(jiān)督學習近年來也被廣泛地應用于跨模態(tài)檢索研究。這些方法充分利用數(shù)據(jù)本身的信息來輔助特征學習,避免了大量的數(shù)據(jù)標注。自監(jiān)督對抗性學習(self-supervised adversarial learning,SSAL)[10]提出了一種基于自監(jiān)督的跨模態(tài)檢索方法,此方法利用自監(jiān)督學習來尋找公共的子空間,并在公共子空間內利用對抗學習來對齊不同模態(tài)的特征表示。雙向遞歸神經網絡(bidirectional recurrent neural network,BRNN)[11]利用弱監(jiān)督學習方法獲取圖像特征,并通過圖像和對應文本之間的語義關系對齊圖像,并進行文本表示。以上跨模態(tài)檢索方法僅僅關注了不同模態(tài)特征之間的相似性,并沒有考慮到數(shù)據(jù)之間的相關性對檢索性能的影響。
圖可以有效地描述數(shù)據(jù)之間的結構信息,這些結構信息可以有效地描述數(shù)據(jù)之間的相關性。因此,以圖結構數(shù)據(jù)為基礎的GCN被廣泛地引入到跨模態(tài)檢索模型的構建中。這些方法首先利用數(shù)據(jù)之間的相關性構造圖,然后利用GCN提取出帶有相關性信息的數(shù)據(jù)表示。GCN的引入為跨模態(tài)檢索領域帶來了新的突破,使得模態(tài)之間的關聯(lián)不再僅限于淺層的特征表達,而是為多模態(tài)數(shù)據(jù)的特征表示融入了更深層的語義相關性。
圖卷積哈希(graph convolutional hashing,GCH)[12]方法通過GCN將樣本的語義相關性信息融入到樣本公共表示中,提升了跨模態(tài)檢索的準確性。多標簽語義監(jiān)督圖注意力哈希(multi-label semantic supervised graph attention hashing,MS2GAH)[13]提出了一種圖注意力網絡來進行樣本公共表示學習,使模型更加關注于樣本中信息量較高的內容,增強了模型的魯棒性。圖卷積網絡離散哈希 (graph convolutional network discrete hashing,GCDH)[14]利用標簽之間的語義關系,通過GCN學習標簽特征,用于構造標簽分類器,從而將標簽的語義相關性融入到多模態(tài)數(shù)據(jù)特征中。加權圖結構語義限制網絡(weighted graph-structured semantics constraint network,WGSCN)[15]提出了一種基于圖的限制學習框架,用于挖掘跨模態(tài)數(shù)據(jù)之間的語義內涵。這些通過GCN學習數(shù)據(jù)和標簽特征的方法,融入了數(shù)據(jù)和標簽內在的相關性,因此提高了跨模態(tài)檢索的性能。隨著研究的不斷深入,研究人員發(fā)現(xiàn)數(shù)據(jù)相關性的準確程度對GCN的特征學習效果具有較大的影響。深度關系相似性學習(deep relational similarity learning DRSL)[16]通過特征相似性來構造數(shù)據(jù)圖,二重對抗圖神經網絡(dual adversarial graph neural networks,DAGNN)[17]通過標簽共現(xiàn)概率來構造標簽圖,這些方法均利用先驗知識作為相關性的衡量標準,無法獲得最優(yōu)的語義相關性,從而降低了生成特征的質量。為了解決此問題,自適應標簽圖卷積網絡(adaptive label-aware graph convolutional networks,ALGCN)[18]通過自適應的方式來動態(tài)調整不同模態(tài)數(shù)據(jù)之間的語義相關性,這使得ALGCN可以更加準確地發(fā)現(xiàn)數(shù)據(jù)之間的相關性。然而,目前基于GCN的跨模態(tài)檢索方法多從多模態(tài)數(shù)據(jù)之間以及標簽信息之間相關性的角度學習跨模態(tài)特征空間,并沒有考慮到多標簽信息之間的相關性。因此,本文提出了一種基于二重語義相關性圖卷積網絡的跨模態(tài)檢索方法,該方法構造了標簽圖和多標簽圖,然后利用GCN提取出帶有語義相關性的標簽嵌入和多標簽嵌入,并將兩者融入到跨模態(tài)公共表示的生成過程中。為了增強公共表示的判別性,DSCGCN構造了標簽和多標簽分類器,用于對樣本公共表示進行分類。此外,還提出了多標簽相似性損失,用于保持跨模態(tài)公共表示與其語義內容的特征一致性。
本文模型的貢獻如下:a)構造了標簽圖和多標簽圖,并利用GCN自適應地發(fā)現(xiàn)了標簽之間和多標簽之間的語義相關性;b)將獲取的標簽和多標簽嵌入向量作為分類器,增強了不同模態(tài)樣本公共表示的判別性;c)提出一種多標簽相似性損失,用于保持跨模態(tài)公共表示與其語義內容的特征一致性,從而使生成的樣本公共表示更接近于其語義特征;d)通過在三個公共數(shù)據(jù)集上的實驗表明,DSCGCN方法具有良好的性能。
1 問題定義與先驗知識
2.1 樣本表示學習
樣本表示學習模塊分為圖像表示學習分支和文本表示學習分支。這兩個分支分別用于提取圖像和文本的公共表示。
圖像表示學習分支使用19層的VGGNet[19]作為基礎網絡,從FC7層提取出維度為dv的圖像特征,再經過維度分別為4 096、4 096、1 024 的三個全連接層將圖像特征映射到公共表示空間內,生成圖像公共表示 v i,公共表示空間維度為d=1024。
2.3 多標簽表示學習
多標簽表示學習模塊主要用于生成帶有語義相關性的多標簽嵌入向量。首先利用多標簽頂點之間的語義相關性,構造出多標簽語義相關性矩陣,從而生成多標簽圖。接下來再利用GCN提取出帶有語義相關性的多標簽嵌入向量,用于構造多標簽分類器。此外,由于樣本之間的語義相關性取決于樣本對應標簽之間的語義相關性,所以,本模塊內生成的多標簽語義相關性矩陣可以有效地反映出樣本之間的語義相關性。
多標簽圖可以表示為GML=(VML,EML), 其中,VML為頂點集,EML為邊集,圖GML中包含m個頂點,每個頂點包含不同的多標簽集合,m為訓練樣本中的多標簽集個數(shù)。 K i=[ki ki2,…, kic]∈{0,1}c表示第i個多標簽頂點的標簽向量,如果第i個多標簽頂點包含第j個標簽,則kij= 否則kij=0。由于在多標簽場景下,每個頂點包含的標簽數(shù)量大于 所以| K i|0gt;1。在此基礎上,為任意第i個樣本分配一個向量 R i=[ri ri2,…,rim]∈{0,1}m,如果此樣本與第j個多標簽頂點擁有相同的標簽集,則rij= 否則rij=0??梢园l(fā)現(xiàn), R i為one hot向量。
4 實驗為了驗證DSCGCN的性能,在NUS-WIDE[22]、 MIRFlickr[23]和MS-COCO[24]三個數(shù)據(jù)集上進行了實驗。
4.1 數(shù)據(jù)集
NUS-WIDE數(shù)據(jù)集包含269 648個圖像-文本對,共屬于81個類別。每幅圖像由224×224×3維矩陣來表示,每個文本由1 000維向量來表示。從原數(shù)據(jù)集中選擇出屬于21個常用類別的190 421個圖像-文本對作為數(shù)據(jù)集,其中,隨機選取的2 000個圖像-文本對作為測試集,其他為訓練集。MIRFlickr數(shù)據(jù)集包含25 000個圖像-文本,共屬于24個類別。每幅圖像由224×224×3維矩陣來表示,每個文本由1 386維向量來表示。選取20 015個樣本對作為數(shù)據(jù)集,并從數(shù)據(jù)集中隨機選取2 000個圖像-文本對作為測試集,其他為訓練集。
MS-COCO數(shù)據(jù)集包含122 218個圖像-文本對,共屬于80個類別。每幅圖像由224×224×3維矩陣來表示,每個文本由2 000維向量表示。從數(shù)據(jù)集中隨機選取2 000個圖像-文本對作為測試集,其他為訓練集。
4.2 實驗設置
DSCGCN在PyTorch框架上驗證DSCGCN的有效性,并采用mini-batch Adam[25]優(yōu)化器來優(yōu)化DSCGCN。實驗中, NUS-WIDE、MIRFlickr和MS-COCO數(shù)據(jù)集上batch-size分別設定為1 024、64、512,在三個數(shù)據(jù)集上的學習率ξ均設定為0.000 001。超參數(shù)α=0.5、β=0.5、τ=0.4、p=0.5、λ1=0.8、λ2=0.2。樣本表示學習模塊中,圖像網絡使用預訓練的VGGNet提取圖像特征,文本網絡通過分類任務對MLP進行預訓練用于提取文本特征,圖像特征和文本特征經過全連接層后均生成維度為1 024的公共表示。標簽學習模塊和多標簽學習模塊均采用三層GCN,輸出維度為1 024的標簽嵌入向量和多標簽嵌入向量。初始標簽特征為由預訓練GloVe生成的維度為300的向量。
4.3 實驗結果分析
實驗中采取平均精度均值(mean average precision,mAP)來衡量算法的性能,該算法主要通過對平均精度(average precision,AP)求平均值計算得出,并選取了SCM[26]、SePH[27]、 ACMR、GCH、DSCMR、CPAH、MS2GAH、GCDH、ALGCN與DSCGCN進行比較。
4.3.1 檢索性能對比
表1分別列出了DSCGCN與九種跨模態(tài)檢索算法在三個數(shù)據(jù)集上的mAP分數(shù)。實驗由兩部分組成,即圖像檢索文本和文本檢索圖像,具體來說,圖像-文本指使用圖像作為查詢集且使用文本作為檢索集,文本-圖像指使用文本作為查詢集且使用圖像作為檢索集。由于DSCGCN采用實數(shù)值進行跨模態(tài)數(shù)據(jù)表示,為了進行公平的比較,表1中列舉的哈希方法均為去掉哈希層后生成特征的檢索結果。在以上方法中,SCM、SePH均為傳統(tǒng)的跨模態(tài)檢索方法,因此,其mAP值均低于剩余的八種深度跨模態(tài)檢索方法。ACMR通過在公共空間上的對抗學習,提高了具有相同語義標簽的樣本表示之間的相似性,同時增大語義不同樣本表示之間的差異性。不同模態(tài)數(shù)據(jù)之間往往具有一定的成對語義關系,這種語義關系可以提高公共表示空間的語義性,DSCMR不僅考慮到了模態(tài)間數(shù)據(jù)的成對語義關系,也考慮到了單一模態(tài)樣本自身的模態(tài)不變性,因此,該方法生成的樣本公共表示取得了較好的檢索效果,其mAP分數(shù)比ACMR高出7%左右。 與DSCMR相同,CPAH同樣采用了模態(tài)間數(shù)據(jù)的成對損失,然而,其提出的多任務對抗學習方法可以使來自不同模態(tài)的樣本公共表示分布更加接近彼此,增強了不同模態(tài)數(shù)據(jù)間的語義相關性,因此CPAH的mAP分數(shù)比DSCMR高出1%左右。
GCH、MS2GAH、GCDH、ALGCN、DSCGCN這五種方法均將GCN引入樣本公共表示的構建中。其中,GCH將不同模態(tài)數(shù)據(jù)的語義相關性融入樣本公共表示中,但由于其未考慮到單一模態(tài)樣本自身的模態(tài)不變性,其mAP分數(shù)比DSCMR低2%左右。與GCH相比,MS2GAH提出一種圖注意力網絡來進行樣本公共表示學習,使模型更加關注于樣本中信息量較高的內容,從而增強了模型的魯棒性。同時,MS2GAH還設計了一個標簽編碼器,用來提取樣本的多標簽語義信息,并用于指導樣本公共表示的生成過程。因此,其整體性能優(yōu)于GCH,mAP分數(shù)比GCH高出4%左右。然而GCH與MS2GAH僅僅將GCN用于學習帶有相關性的樣本特征,并未考慮標簽的語義相關性。GCDH將GCN應用于標簽語義關系的學習上,增強了樣本的公共表示。
此外,GCDH還提出了一個離散優(yōu)化策略,用于指導哈希碼的生成過程。因此,GCDH的mAP分數(shù)比GCH和MS2GAH分別高出6%和1%左右。 然而,GCDH和 MS2GAH中基于標簽和樣本特征構造的圖結構由先驗知識獲得,無法隨著網絡的更新進行自適應調整。ALGCN在GCN的基礎上,通過數(shù)據(jù)驅動的方式學習了標簽的語義相關性,并通過構造標簽分類器,將學習到的標簽嵌入向量用于樣本公共表示的生成。此外,ALGCN在公共表示空間的構造過程中,還考慮到了模態(tài)內和模態(tài)間數(shù)據(jù)的成對語義關系。因此,ALGCN的mAP分數(shù)在三個數(shù)據(jù)集上,比GCDH和MS2GAH分別高出2%和3%左右。與ALGCN不同,DSCGCN不但考慮到了標簽的語義相關性,還考慮到了多標簽的語義相關性,且使生成的樣本公共表示的相似性與其語義相似性保持一致,因此DSCGCN的mAP分數(shù)比ALGCN高出1%。
與DSCGCN相似,ALGCN同樣采用自適應的方式獲取標簽相關性,為了更加全面地比較ALGCN與DSCGCN的性能,實驗對這兩種算法的網絡結構和損失函數(shù)進行了進一步的分析。與ALGCN相比,DSCGCN在網絡結構方面提出了多標簽表示學習模塊,并構造了一個多標簽分類器,從標簽集合的角度對樣本進行分類。損失函數(shù)方面,DSCGCN提出了一種多標簽語義相似性損失,將語義信息融入到樣本公共表示中。與DSCGCN相比,ALGCN提出了一種魯棒自監(jiān)督損失,用來學習一個更加有效且具有魯棒性的標簽相關性矩陣。為了驗證網絡結構和損失函數(shù)對模型性能的影響,實驗設計了兩個基于ALGCN的變體算法?;贏LGCN,引入多標簽表示學習模塊并構造多標簽分類器,該算法命名為ALGCN-1?;贏LGCN引入多標簽表示學習模塊和多標簽語義相似性損失,并將此算法命名為ALGCN-2。從表2可以看出,ALGCN-1的mAP分數(shù)高于ALGCN,原因在于引入多標簽分類器,可以將樣本從標簽集合的角度進行分類,這提高了樣本對應標簽集合的整體性,使得其mAP分數(shù)比ALCGN高出0.2%左右。但是由于ALGCN本身已經引入標簽分類器,所以在此基礎上引入多標簽分類器的效果并不明顯。在ALGCN的基礎上引入多標簽語義相似性損失,可以看出,ALGCN-2的mAP分數(shù)相比ALGCN有著較大提升。這是因為ALGCN-2引入的多標簽語義相似性損失使樣本公共表示的相似性與其語義相似性保持一致,提高了樣本公共表示的語義性。還可以發(fā)現(xiàn),ALGCN-2的mAP分數(shù)甚至超過了DSCGCN,這是因為ALGCN-2與DSCGCN相比多引入了一個魯棒自監(jiān)督損失。由表2的結果可知,在擁有標簽分類器的前提下,多標簽分類器提升檢索精度的作用效果并不明顯。但是由于魯棒自監(jiān)督損失的引入,約束自適應鄰接矩陣的生成過程,所以ALGCN-2的mAP分數(shù)高于DSCGCN。通過以上實驗對比可以發(fā)現(xiàn),DSCGCN提出的多標簽分類器和多標簽語義相似性損失均可以提高ALGCN的檢索精度,在同時具有多標簽語義相似性損失的情況下,ALGCN的檢索精度要高于DSCGCN,說明了ALGCN提出魯棒自監(jiān)督損失的有效性。然而在不考慮多標簽分類器的情況下,擁有多標簽語義相似性損失的DSCGCN的mAP分數(shù)仍要高于擁有魯棒自監(jiān)督損失的ALGCN-1的mAP分數(shù)。通過損失的作用結果分析這個現(xiàn)象,即多標簽語義相似性損失可以減少樣本公共表示與其語義相似性之間的差距,提高樣本公共表示的語義性,而魯棒自監(jiān)督損失僅僅可以生成一個更加準確的標簽相關性矩陣,卻沒有直接作用于樣本公共表示的生成過程。此結果說明多標簽語義相似性損失的作用效果要優(yōu)于魯棒自監(jiān)督損失,故DSCGCN的mAP分數(shù)要高于ALGCN-1。
4.3.2 消融實驗
DSCGCN提出了標簽分類損失1、多標簽分類損失2、跨模態(tài)一致性損失3和多標簽語義相似性損失4四個損失函數(shù),為了驗證不同損失函數(shù)對DSCGCN性能的影響,針對DSCGCN進行了消融實驗?;谀繕撕瘮?shù)提出了五種消融實驗。DSCGCN- 只去除損失1。DSCGCN-2,只去除損失2。DSCGCN-3,只去除損失3。DSCGCN-4,只去除損失4。DSCGCN-5,同時去除損失1和2。消融實驗在三個數(shù)據(jù)集上進行,實驗的參數(shù)設置均與DSCGCN保持一致,結果如表3所示。
在針對DSCGCN開展的消融實驗中,損失函數(shù)的變化均對DSCGCN的性能造成了一定的影響,表3分別列出了去除不同損失函數(shù)對于DSCGCN算法mAP分數(shù)的影響。其中,DSCGCN-3的mAP分數(shù)僅次于DSCGCN,DSCGCN-3去除了跨模態(tài)一致性損失,這也說明了跨模態(tài)一致性損失在目標函數(shù)的四個損失中所占的影響最小,此結果與實驗參數(shù)的設置保持了一致,即λ2低于其他三個損失的參數(shù)值。DSCGCN-1與DSCGCN-2的mAP分數(shù)與DSCGCN相比均下降了2%左右。這說明標簽分類損失與多標簽分類損失對DSCGCN性能的影響較大,引入標簽分類器和多標簽分類器有助于學習到更加具有判別性的樣本公共表示。通過觀察可以發(fā)現(xiàn),DSCGCN-1與DSCGCN-2之間mAP分數(shù)的差距不大,說明標簽分類器與多標簽分類器之間的性能差異并不明顯,對網絡性能的影響差別不大。因此,在參數(shù)設置中將兩個分類損失的重要性合并,并通過參數(shù)λ1來衡量合并后的分類損失在目標函數(shù)中的重要性。與DSCGCN相比,DSCGCN-5的mAP分數(shù)出現(xiàn)了大幅度的下降,降幅為5%左右,與DSCGCN-1和DSCGCN-2相比mAP分數(shù)也降低了2%左右,這說明同時去除標簽分類損失和多標簽分類損失對模型造成的影響遠大于僅去除一個分類損失的影響。因此可以得出結論,同時去除標簽分類損失和多標簽分類損失會大幅度地降低檢索性能,但由于兩個分類損失單獨對模型的影響效果差距不大,所以引入任何一個分類損失就可以較好地彌補兩個分類損失同時缺失對網絡造成的影響。最后,去除多標簽語義相似性損失而保留其他損失的DSCGCN-4相對于DSCGCN的 mAP分數(shù)下降幅度最大,這個結果印證了多標簽語義相似性損失對于目標函數(shù)中的重要性要高于兩個分類損失之和,這一結果在目標函數(shù)的參數(shù)設置上也能夠體現(xiàn)。但是,將DSCGCN-4與DSCGCN-5相比,mAP分數(shù)差別并不明顯,DSCGCN-4性能略高于DSCGCN-5。這說明了分類損失在目標函數(shù)中的重要性僅次于標簽語義相似性損失,其重要性系數(shù)λ1=0.8,這在參數(shù)設置中也僅次于多標簽語義相似性損失的重要性系數(shù)1。因此,可以通過此消融實驗得出結論,多標簽語義相似性損失在目標函數(shù)中影響最大,分類損失重要性次之。其中,分類損失包括的標簽分類損失與多標簽分類損失的性能差別不大,因此在損失函數(shù)中設置了相同的重要性參數(shù)??缒B(tài)一致性損失在目標函數(shù)的四個損失中所占的影響最小,其重要性參數(shù)也最低。
4.3.3 參數(shù)敏感性分析
DSCGCN的目標函數(shù)中包含λ1與λ2,這兩個參數(shù)分別衡量了分類損失與跨模態(tài)一致性損失在目標函數(shù)中的重要性,選擇合適的λ1與λ2對DSCGCN的檢索性能有著重要的意義。圖2展示了在三個數(shù)據(jù)集中不同λ1對應的mAP分數(shù),此時固定了參數(shù)λ2=0.2。從圖中觀察可知,當λ1=0時,目標函數(shù)缺少了分類損失,學習到的樣本公共表示缺少了判別性,因此,其對應的mAP分數(shù)最低。當λ1=0.8時,在圖像檢索文本和文本檢索圖像兩個跨模態(tài)檢索任務中均能取得最好的mAP分數(shù)。隨著λ1的不斷增大,分類損失對目標函數(shù)的作用也在不斷增大,當分類損失在目標函數(shù)中所占的重要性僅次于多標簽語義相似性損失時,模型達到了最好的檢索效果。但是,當λ1繼續(xù)增大并超過0.8時,mAP分數(shù)出現(xiàn)了下降的情況,這是因為分類損失重要性過大,導致多標簽語義相似性損失的作用降低,造成了不同模態(tài)樣本的語義相關性降低,從而影響了跨模態(tài)檢索的性能。
圖3為不同λ2對應的mAP值,并在該實驗中設置λ1=0.8。由圖3可以發(fā)現(xiàn),跨模態(tài)一致性損失在目標函數(shù)中的重要性比較低,當λ2=0.2時,在兩個跨模態(tài)檢索任務中就已經取得了最好的mAP分數(shù)。但是通過觀察可以看出,當參數(shù)λ2超過0.2時,mAP分數(shù)下降的速度比較緩慢,這也說明了相比于其他兩個損失,跨模態(tài)一致性損失對目標函數(shù)的作用較低,即使加大跨模態(tài)一致性損失的重要性,也不會過于影響模型的性能。但是在參數(shù)λ2未超過0.2時,mAP分數(shù)也能保持一個上升的趨勢,說明跨模態(tài)一致性損失對DSCGCN的性能也作出了一定的貢獻。
在固定參數(shù)λ1與λ2的前提下學習參數(shù)α、β、τ和p。其中,參數(shù)α衡量了標簽自適應矩陣與標簽語義相關性矩陣的重要性關系,參數(shù)β衡量了多標簽自適應矩陣與多標簽語義相關性矩陣的重要性關系。對于參數(shù)τ與p,直接采用了ALGCN中的參數(shù)設定。在τ=0.4和p=0.5的前提下,調整參數(shù)α與β。在實驗中可以發(fā)現(xiàn),隨著α與β的不斷變化,其mAP分數(shù)有著相同的變化趨勢。因此,實驗中固定α=β, 并且發(fā)現(xiàn)這兩個參數(shù)在三個數(shù)據(jù)集上的最優(yōu)值分別為0.5、0.55、0.5。
4.3.4 數(shù)據(jù)可視化分析實驗中使用在MIRFlickr數(shù)據(jù)集上學習到的標簽嵌入、樣本公共表示和多標簽嵌入進行可視化分析,通過可視化結果來評估DSCGCN輸出的合理性。首先對標簽進行可視化,通過t-SNE [28]對標簽初始特征和標簽嵌入進行降維,并對降維后的結果進行可視化。如圖4、5所示,分別對未經過DSCGCN學習的標簽初始特征與經過DSCGCN學習的標簽嵌入進行了可視化。對兩圖進行觀察可以發(fā)現(xiàn),經過DSCGCN學習后的標簽嵌入包含了更多的語義相關性,如圖5所示,sunset與sea更為接近,baby與male更為接近。這都說明了在MIRFlickr數(shù)據(jù)集上,它們往往在同一個場景下出現(xiàn),因此學習到的標簽嵌入包含更多的語義相關性。由圖5還可以發(fā)現(xiàn),night和portrait被單獨劃分為一類,沒有與這兩類語義相關的類別。但是,由圖4可以發(fā)現(xiàn),這兩類被劃分為不合理的類當中。此結果同樣可以證明經過DSCGCN學習到的標簽嵌入的合理性。
此外,還對學習到的樣本公共表示和多標簽嵌入進行可視化,由于多標簽語義相似性損失最小化了樣本公共表示與對應標簽的語義相似性之差,所以將樣本公共表示與多標簽嵌入在同一個圖中進行可視化。如圖6所示,可以發(fā)現(xiàn),無法從模態(tài)角度區(qū)分樣本的公共表示,圖像與文本的公共表示特征可以很好地混合在一起,這說明不同模態(tài)的數(shù)據(jù)表示被較好地映射到了特征空間之中。此外還可以發(fā)現(xiàn),多標簽嵌入與樣本公共表示有著相同的分布。因此,該可視化結果能夠體現(xiàn)樣本公共表示和多標簽嵌入的合理性。
4.3.5 模型的泛化能力為了評估DSCGCN在不同數(shù)據(jù)集上的泛化能力,提出了一個泛化實驗。在某一個數(shù)據(jù)集上選取一定的數(shù)據(jù)作為訓練集對模型進行訓練,其次在其他數(shù)據(jù)集上挑選一定的數(shù)據(jù)作為測試集來對模型進行測試,其中挑選的測試集與訓練數(shù)沒有重復的樣本對。在本實驗中,選擇MIRFlickr數(shù)據(jù)集中的18 015個圖像-文本對作為訓練集對DSCGCN進行訓練,分別從NUS-WIDE和MS-COCO數(shù)據(jù)集上選取了2 000個圖像-文本對進行測試,結果如表4所示。其中,DSCGCN-NUS與DSCGCN-MS方法分別代表從NUS-WIDE和MS-COCO數(shù)據(jù)集中選取樣本作為測試集的實驗。為了便于比較,還列出了從MIRFlickr數(shù)據(jù)集中挑選2 000個樣本作為測試集的mAP分數(shù),并以DSCGCN-MIR命名該實驗。通過比較可以發(fā)現(xiàn),從NUS-WIDE和MS-COCO數(shù)據(jù)集中選取測試集與仍從MIRFlickr數(shù)據(jù)集中選取測試集的mAP分數(shù)相差不大,說明DSCGCN經過MIRFlickr數(shù)據(jù)集的訓練,仍然可以在其他數(shù)據(jù)集上保持良好的檢索效果。因此,經過訓練的DSCGCN擁有良好的泛化能力。
4.3.6 標簽集合相關性的作用為了體現(xiàn)標簽集合之間的相關性對于提升特征表示能力的作用,進行了如下實驗。在測試集中隨機選取一張圖像作為查詢,從剩余測試集中檢索出與該圖像公共表示特征最為相似的top-10個圖像。其中,圖7(b)檢索結果中的所有圖像均與查詢圖像具有至少一個相同的標簽,而圖7(a)的檢索結果中則存在兩個錯誤結果,分別處于第7和第9位。該結果說明標簽集合相關性可以有效地增強樣本的表示能力。
5 結束語
本文基于GCN提出了一種跨模態(tài)檢索方法DSCGCN,該方法利用GCN學習標簽之間和多標簽之間的語義相關性,并將此二重語義相關性用于指導樣本公共表示的生成過程。其次,提出的多標簽相似性損失可以有效縮小樣本的公共表示與其語義特征的差距。通過在三個數(shù)據(jù)集上的實驗表明,DSCGCN可以取得良好的檢索性能。在未來的工作中,將深入研究標簽嵌入、多標簽嵌入以及樣本公共表示之間的內在聯(lián)系,從而保持多標簽樣本公共表示的語義一致性。
參考文獻:
[1]Wang Bokun,Yang Yang,Xu Xing,et al. Adversarial cross-modal retrieval[C]// Proc of the 25th Annual International Conference on Machine Learning. New York: ACM Press,2017: 154-162.
[2]Jiang Qingyuan,Li Wujun. Deep cross-modal hashing[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017: 3232-3240.
[3]朱杰. 基于文本引導對抗哈希的跨模態(tài)檢索方法[J]. 計算機應用研究,2022, 39 (2): 628-632. (Zhu Jie. Text-guided adversarial hashing for cross-modal retrieval[J].Application Research of Computers ,2022, 39 (2): 628-632.)
[4]康培培,林澤航,楊振國,等. 成對相似度遷移哈希用于無監(jiān)督跨 [J]. 計算機應用研究,202 38 (10): 3025-3029. (Kang Peipei,Lin Zehang,Yang Zhenguo,et al. Pairwise similarity transferring hash for unsupervised cross-modal retrieval[J].Application Research of Computers ,202 38 (10): 3025-3029.)
[5]Hotelling H. Relations between two sets of variates[M]// Kotz S,Johnson N L. Breakthroughs in Statistics. New York: Springer,1992: 162-190.
[6]Li Dongge,Dimitrova N,Li Mingkun,et al. Multimedia content processing through cross-modal association[C]// Proc of ACM International Conference on Multimedia. New York: ACM Press,2003: 604-611.
[7]Zhen Yi,Yeung D. Co-regularized hashing for multimodal data[C]// Proc of International Conference on Neural Information Processing Systems. Piscataway,NJ: IEEE Press,2012: 1385-1393.
[8]Zhen Liangli,Hu Peng,Wang Xu,et al. Deep supervised cross-modal retrieval[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 10394-10403.
[9]Xie De,Deng Cheng,Li Chao,et al. Multi-task consistency-preserving adversarial hashing for cross-modal retrieval[J].IEEE Trans on Image Processing ,2020, 29 : 3626-3637.
[10]Wang Yangchao,He Shiyuan,Xu Xing,et al. Self-supervised adversarial learning for cross-modal retrieval[C]// Proc of the 2nd ACM International Conference on Multimedia in Asia. New York: ACM Press,2021: 1-7.
[11]Karpathy A,Li Feifei. Deep visual-semantic alignments for generating image descriptions[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 3128-3137.
[12]Xu Ruiqing,Li Chao,Yan Junchi,et al. Graph convolutional network hashing for cross-modal retrieval[C]// Proc of the 28th International Joint Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2019: 982-998.
[13]Duan Youxiang,Chen Ning,Zhang Peiying,et al. MS2GAH: multi-labelsemantic supervised graph attention hashing for robust cross-modal retrieval[J].Pattern Recognition ,2022, 128 : 108676.
[14]Bai Cong,Zeng Chao,Ma Qing,et al. Graph convolutional network discrete hashing for cross-modal retrieval[J/OL].IEEE Trans on Neural Networks and Learning Systems . (2022-05-23). http://doi.org/10.1109/tnnls.2022.3174970.
[15]Zhang Lei,Chen Leiting,Zhou Chuan,et al. Weighted graph-structuredsemantics constraint network for cross-modal retrieval[J]. IEEE Trans on Multimedia ,2024, 26 : 1551-1564.
[16]Wang Xu,Hu Peng,Zhen Liangli,et al. DRSL: deep relational similarity learning for cross-modal retrieval[J].Information Sciences ,202 546 : 298-311.
[17]Qian Shengsheng,Xue Dizhan,Zhang Huaiwen,et al. Dual adversarialgraph neural networks for multi-label cross-modal retrieval[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 2440-2448.
[18]Qian Shengsheng,Xue Dizhan,F(xiàn)ang Quan,et al. Adaptive label-aware graph convolutional networks for cross-modal Retrieval[J].IEEE Trans on Multimedia ,202 24 : 3520-3532.
[19]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014-09-04). https://arxiv.org/abs/1409.1556.
[20]David E,James L. A general framework for parallel distributed processing[M]// Parallel Distributed Processing: Explorations in the Microstructure of Cognition: Foundations. Cambridge,MA: MIT Press,1987: 45-76.
[21]Pennington J,Socher R,Manning C D. GloVe: global vectors for word representation[C]// Proc of International Conference on Empirical Methods in Natural Language Processing. Piscataway,NJ: IEEE Press,2014: 1532-1543.
[22]Chua T S,Tang Jinhui,Hong Richang,et al. NUS-WIDE: a real-world Web image database from National University of Singapore[C]// Proc of ACM International Conference on Image and Video Retrieval. New York: ACM Press,2009: article No.48.
[23]Huiskes M,Thomee B,Lew M. New trends and ideas in visual concept detection: the MIRFlickr retrieval evaluation initiative[C]// Proc of International Conference on Multimedia Information Retrieval. New York: ACM Press,2010: 527-536.
[24]Lin T Y,Maire M,Belongie S,et al. Microsoft COCO: common objects in context[C]// Proc of European Conference on Computer Vision. Piscataway,NJ: IEEE Press,2014: 740-755.
[25]Kingma Diederik P,Ba J. A method for stochastic optimization[C]// Proc of International Conference on Learning Representations. Pisca-taway,NJ: IEEE Press,2015: 1-14.
[26]Zhang Dongqing,Li Wujun. Large-scale supervised multimodal hashing with semantic correlation maximization[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2014: 2177-2183.
[27]Lin Zijia,Ding Guiguang,Hu Mingqing,et al. Semantics-preserving hashing for cross-view retrieval[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2015: 3864-3872.
[28]Maaten L,Hinton G. Visualizing data using t-SNE[J].Journal of Machine Learning Research ,2008, 86 (9): 2579-2605.
收稿日期:2023-08-22;修回日期:2023-10-18 基金項目:河北省自然科學基金資助項目(F2022511001);河北省高等學??茖W技術研究項目(ZC2022070);河北大學高層次人才科研啟動項目(521100223212);張家口市市級科技計劃財政資助項目(2311010A);張家口市2022年度基礎研究專項資助項目(2221008A);河北建筑工程學院2024年校級研究生創(chuàng)新基金資助項目(XY2024068)
作者簡介: 劉佳楠(2001—),男,河南洛陽人,碩士研究生,主要研究方向為機器學習與計算機視覺;范晶晶(1980—),女,河北張家口人,副教授,碩士,主要研究方向為機器學習;趙建光(1978—),男,河北張家口人,教授,碩導,博士,主要研究方向為互聯(lián)感知與智能計算;朱杰(1982—),男(通信作者),河北保定人,副教授,碩導,博士,主要研究方向為機器學習與計算機視覺(arthurzhujie@163.com).