• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    增量跨模態(tài)檢索方法

    2021-02-28 08:59:16江朝杰楊良懷范玉雷
    關(guān)鍵詞:哈希增量檢索

    江朝杰,楊良懷,高 楠,范玉雷

    (浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州 310023)

    1 引 言

    隨著互聯(lián)網(wǎng)和智能設(shè)備的高速發(fā)展,多模態(tài)數(shù)據(jù)每日呈百億量級(jí)增長(zhǎng),其中包括文本,圖像和視頻等,多種異質(zhì)數(shù)據(jù)源交叉融合呈現(xiàn).面對(duì)海量的多模態(tài)數(shù)據(jù),在各種大數(shù)據(jù)應(yīng)用中迫切的需要高效準(zhǔn)確的跨模態(tài)檢索技術(shù).跨模態(tài)檢索的主要挑戰(zhàn)是解決不同模態(tài)之間的語(yǔ)義鴻溝.為了解決這個(gè)問(wèn)題,主流的解決方案是學(xué)習(xí)一種對(duì)應(yīng)關(guān)系,利用該對(duì)應(yīng)關(guān)系將不同模態(tài)數(shù)據(jù)映射到一個(gè)同維度的公共子空間內(nèi),并通過(guò)它們?cè)诠沧涌臻g內(nèi)的距離表達(dá)數(shù)據(jù)之間的相似性.近幾年研究者們?cè)诳缒B(tài)檢索任務(wù)中取得了較大進(jìn)展[1].但是在許多實(shí)際檢索應(yīng)用中,其數(shù)據(jù)源總是不斷增量迭代的,如何從新類別樣本中學(xué)習(xí),利用新增數(shù)據(jù)集對(duì)檢索系統(tǒng)進(jìn)一步更新和完善,提升檢索系統(tǒng)性能是面臨的一個(gè)新問(wèn)題.

    為使模型能夠適應(yīng)新數(shù)據(jù)的檢索,這就要求跨模態(tài)檢索模型具有可擴(kuò)展性,同時(shí)兼容舊數(shù)據(jù)集的檢索效能.但目前大多數(shù)跨模態(tài)檢索模型缺乏可擴(kuò)展性,并且針對(duì)現(xiàn)有模型的微調(diào)會(huì)導(dǎo)致對(duì)舊樣本數(shù)據(jù)集的災(zāi)難性遺忘,導(dǎo)致在舊數(shù)據(jù)集上的檢索性能下降[2].若采用舊數(shù)據(jù)和新數(shù)據(jù)整合后重新訓(xùn)練模型的方案,將會(huì)導(dǎo)致計(jì)算成本和數(shù)據(jù)存儲(chǔ)開(kāi)銷不斷增加.因此,本文采用基于增量學(xué)習(xí)的跨模態(tài)檢索方法來(lái)實(shí)現(xiàn)模型的可擴(kuò)展性.

    通過(guò)增量學(xué)習(xí)實(shí)現(xiàn)跨模態(tài)檢索模型可擴(kuò)展性有以下優(yōu)點(diǎn):1)無(wú)需更新舊樣本數(shù)據(jù)集的哈希編碼;2)同時(shí)支持新、舊類別樣本的檢索;3)節(jié)省模型訓(xùn)練成本.增量學(xué)習(xí)是指模型自適應(yīng)地從不斷到達(dá)的數(shù)據(jù)流進(jìn)行學(xué)習(xí),且通常是在有限的資源開(kāi)銷下進(jìn)行模型擴(kuò)展.其挑戰(zhàn)在于平衡新知識(shí)與舊知識(shí)之間的關(guān)系,防止發(fā)生災(zāi)難性遺忘,即如何在學(xué)習(xí)新知識(shí)的情況下不遺忘舊知識(shí)[2].

    目前大多數(shù)研究通過(guò)知識(shí)蒸餾(Knowledge Distillation,KD)的增量學(xué)習(xí)方法保留對(duì)舊數(shù)據(jù)集的檢索性能.Hinton[3]等在2015年提出知識(shí)蒸餾技術(shù),其通過(guò)從教師網(wǎng)絡(luò)中提煉出學(xué)生網(wǎng)絡(luò)來(lái)簡(jiǎn)化深度網(wǎng)絡(luò)的訓(xùn)練過(guò)程,該方法將教師網(wǎng)絡(luò)中有用的信息遷移至學(xué)生網(wǎng)絡(luò)上進(jìn)行訓(xùn)練,將學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的共同概率分布輸出差異性指標(biāo)即兩者之間的KL散度作為目標(biāo)函數(shù),從而使得增量模型保留了舊模型中的關(guān)鍵參數(shù).

    在跨模態(tài)檢索中,由于存在不同模態(tài)成對(duì)樣本數(shù)據(jù),因此如何維系不同模態(tài)成對(duì)樣本在知識(shí)蒸餾網(wǎng)絡(luò)中的相似性成為一個(gè)難題.本文利用不同模態(tài)成對(duì)樣本間在某些維度上的一致性輸出概率分布來(lái)維系兩者之間的相似性.在跨模態(tài)檢索模型中將不同模態(tài)數(shù)據(jù)通過(guò)映射函數(shù)投影到公共子空間內(nèi),得到不同模態(tài)相同維度的特征表示.其中不同模態(tài)成對(duì)樣本特征表示共享語(yǔ)義標(biāo)簽信息,因此其特征表示在某些特定維度上保有相似性,本文將此維度稱為語(yǔ)義保留維度.為了使跨模態(tài)檢索模型在擴(kuò)展的過(guò)程中仍支持舊樣本數(shù)據(jù)集的檢索,采用知識(shí)蒸餾來(lái)保留不同模態(tài)成對(duì)樣本間在語(yǔ)義保留維度上特征分布的一致性;同時(shí)為了使增量數(shù)據(jù)生成的特征表示在子空間內(nèi)保有真實(shí)的語(yǔ)義分布,需要將增量數(shù)據(jù)集中標(biāo)簽之間的關(guān)聯(lián)程度信息加入到模型訓(xùn)練中.

    本文研究目的是如何在跨模態(tài)檢索模型擴(kuò)展中有效防止災(zāi)難性遺忘,并使所生成哈希編碼中包含更多的標(biāo)簽關(guān)聯(lián)語(yǔ)義信息.因此提出了增量跨模態(tài)檢索方法ICMR.主要貢獻(xiàn)如下:1)構(gòu)建跨模態(tài)知識(shí)蒸餾網(wǎng)絡(luò),學(xué)習(xí)教師網(wǎng)絡(luò)(跨模態(tài)檢索模型)中成對(duì)模態(tài)樣本特征表示在語(yǔ)義保留維度上的輸出概率分布,保留在舊樣本數(shù)據(jù)集上的檢索性能;2)在生成不同模態(tài)哈希編碼特征表示時(shí),將統(tǒng)計(jì)得到的新舊標(biāo)簽共現(xiàn)概率矩陣作為監(jiān)督信息作用于哈希編碼的生成約束,用以標(biāo)識(shí)樣本之間關(guān)于新增類標(biāo)簽的相似可信度.

    2 相關(guān)工作

    在機(jī)器學(xué)習(xí)中,增量學(xué)習(xí)一直是一個(gè)長(zhǎng)期存在的問(wèn)題.在深度學(xué)習(xí)開(kāi)始之前,人們一直在利用線性分類器、弱分類器集成,最近鄰分類器等來(lái)開(kāi)發(fā)增量學(xué)習(xí)技術(shù)[4,5].應(yīng)對(duì)檢索系統(tǒng)增量迭代的需求,近年來(lái)基于增量學(xué)習(xí)方法的研究成為熱點(diǎn).

    按照是否使用舊數(shù)據(jù)集,可將增量學(xué)習(xí)分成兩類.第1類方法不需要舊數(shù)據(jù)集,僅使用新增類樣本參與模型擴(kuò)展.Jung[6]等提出了一種領(lǐng)域遷移學(xué)習(xí),試圖通過(guò)凍結(jié)最后一層網(wǎng)絡(luò)層并且阻止特征提取層中共享權(quán)重的變化來(lái)保持舊樣本數(shù)據(jù)集檢索的性能.James[7]等提出在利用新數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)時(shí),限制重要權(quán)重改變來(lái)保留舊數(shù)據(jù)集檢索的性能.但該方法中新舊任務(wù)可能在這些權(quán)重上發(fā)生沖突.Li[8]等通過(guò)知識(shí)蒸餾與微調(diào)組合的方法來(lái)保持舊樣本數(shù)據(jù)集檢索的性能,通過(guò)學(xué)習(xí)而不遺忘的方法來(lái)克服災(zāi)難性遺忘.Konstantin[9]等通過(guò)知識(shí)蒸餾逐步學(xué)習(xí)目標(biāo)檢測(cè)器.

    第2類方法需要部分舊數(shù)據(jù)集.Rebuffi[10]等提出只需使用部分舊數(shù)據(jù)而非全部就能同時(shí)訓(xùn)練得到分類器和數(shù)據(jù)特征實(shí)現(xiàn)增量學(xué)習(xí),減輕新舊類別之間的不平衡.Wu[11]等從數(shù)據(jù)不平衡和對(duì)新類別樣本的預(yù)測(cè)偏差角度研究增量學(xué)習(xí),使用平衡的驗(yàn)證集和偏差校正層來(lái)緩解遺忘問(wèn)題.

    然而,以上方法均局限于單一數(shù)據(jù)模態(tài),不能處理不同模態(tài)類型之間的不一致分布和成對(duì)樣本間的復(fù)雜語(yǔ)義關(guān)系.Qi[12]等提出了跨媒體終身學(xué)習(xí)(CMLL)方法,它是我們所知第1個(gè)在跨模態(tài)檢索領(lǐng)域中研究增量學(xué)習(xí)方法的方案,通過(guò)域內(nèi)的分布對(duì)齊和域間的知識(shí)蒸餾,在充分保留原有數(shù)據(jù)關(guān)聯(lián)效果的同時(shí),利用知識(shí)遷移促進(jìn)新增數(shù)據(jù)的關(guān)聯(lián)學(xué)習(xí),實(shí)現(xiàn)跨媒體檢索.Chen[13]等提出解決可擴(kuò)展的跨模態(tài)哈希檢索方案,稱為可擴(kuò)展跨模態(tài)哈希(extensible cross-modal hashing,ECMH).ECMH方法基于跨模態(tài)哈希(CMH)模型進(jìn)行擴(kuò)展.ECMH通過(guò)精心設(shè)計(jì)的“弱約束增量學(xué)習(xí)”算法,僅使用新數(shù)據(jù)集來(lái)擴(kuò)展模型;其核心思想在增量學(xué)習(xí)中通過(guò)語(yǔ)義選擇性保留的方式維持不同模態(tài)成對(duì)樣本間的語(yǔ)義相似性.Mandal[14]等提出了用于跨模態(tài)檢索的增量哈希方法,稱為GrowBit,通過(guò)增加不同模態(tài)數(shù)據(jù)的特征編碼位數(shù)以更好的表示新數(shù)據(jù)包含的語(yǔ)義信息;此后,他們又提出了一種新穎的增量跨模態(tài)哈希算法,稱為ICMH[2],它可以適應(yīng)于新增樣本的檢索任務(wù),所提出的方法用于計(jì)算新數(shù)據(jù)集的哈希編碼特征表示,使其保留數(shù)據(jù)集本身的語(yǔ)義關(guān)系,它包括兩個(gè)連續(xù)的階段,即學(xué)習(xí)哈希碼和訓(xùn)練哈希函數(shù).

    然而以上這些方法皆忽略了挖掘樣本類別標(biāo)簽存在的關(guān)聯(lián)信息.很顯然新增數(shù)據(jù)集的樣本分布受標(biāo)簽語(yǔ)義的約束,標(biāo)簽之間的關(guān)聯(lián)程度在一定層面上表示了樣本的相似程度,因此加入有效的標(biāo)簽關(guān)聯(lián)程度信息能夠使基于增量學(xué)習(xí)的跨模態(tài)檢索系統(tǒng)精準(zhǔn)率更高.

    本文的目標(biāo)旨在解決跨模態(tài)檢索系統(tǒng)的可擴(kuò)展問(wèn)題,通過(guò)增量學(xué)習(xí)方法動(dòng)態(tài)的學(xué)習(xí)增量數(shù)據(jù)集包含的語(yǔ)義信息,使得生成不同模態(tài)的哈希編碼特征更具有判別性,滿足了節(jié)約計(jì)算成本和提升檢索精度的要求.

    3 基于跨模態(tài)檢索的增量學(xué)習(xí)方法

    本節(jié)主要介紹基于跨模態(tài)檢索的增量學(xué)習(xí)網(wǎng)絡(luò)架構(gòu).

    3.1 基本定義

    3.2 特征學(xué)習(xí)與表示

    對(duì)于圖像模態(tài)數(shù)據(jù),采用預(yù)訓(xùn)練VGG16神經(jīng)網(wǎng)絡(luò)模型提取特征,其中包括5個(gè)卷積層,3個(gè)全連接層以及5個(gè)池化層,全連接層fc7作為圖像特征輸出層.對(duì)于文本模態(tài)數(shù)據(jù),采用Google-News數(shù)據(jù)集預(yù)訓(xùn)練的word2vec模型來(lái)提取詞級(jí)別的文本特征.不同模態(tài)通道通過(guò)新增多層感知機(jī)網(wǎng)絡(luò)以生成相同維度的哈希編碼來(lái)解決可擴(kuò)展問(wèn)題.將跨模態(tài)模型中圖像、文本模態(tài)通道分別用特征映射Gx(x;θ)和Gy(y;θ)為每一個(gè)圖像/文本樣本生成一個(gè)同維度特征表示,特征表示矩陣分別為X和Y,其中對(duì)于圖像特征矩陣X而言,矩陣列是樣本數(shù)目索引,矩陣行上是特征向量的數(shù)值,文本特征矩陣Y與X是同型矩陣.所提ICMR會(huì)將舊參數(shù)θo更新為θn,相應(yīng)得到兩個(gè)版本的特征表示矩陣:使用舊模型生成的圖像特征為Xo,文本特征為Yo;使用增量網(wǎng)絡(luò)模型生成的圖像特征為Xn,文本特征為Yn.用舊模型生成新樣本特征表示的通道用n|θo表示,用增量學(xué)習(xí)模型生成新樣本特征表示的通道用n|θn表示.

    3.3 基于跨模態(tài)的增量學(xué)習(xí)網(wǎng)絡(luò)

    可擴(kuò)展的跨模態(tài)檢索模型目的是使得更新后的模型同時(shí)適應(yīng)舊樣本和新樣本數(shù)據(jù)集的檢索任務(wù),在保持舊樣本數(shù)據(jù)集的檢索效能的同時(shí)支持新樣本數(shù)據(jù)集的檢索.ICMR核心思想之一是不同模態(tài)成對(duì)樣本在特征分布空間中語(yǔ)義保留維度上的輸出概率分布是相似的,因此應(yīng)當(dāng)在模型更新中保留相似的語(yǔ)義分布信息,使得擴(kuò)展后的模型能夠適應(yīng)舊數(shù)據(jù)集的檢索任務(wù);另一個(gè)核心思想是為了使得生成不同模態(tài)的哈希編碼能更貼近原始數(shù)據(jù)集的分布,因此將統(tǒng)計(jì)得到的標(biāo)簽項(xiàng)關(guān)聯(lián)程度信息加入到模型訓(xùn)練當(dāng)中.

    如圖1所示,居上部分是預(yù)訓(xùn)練的跨模態(tài)檢索模型,本文選用Jiang[15]在2016年提出的Deep Cross-Modal Hashing(DCMH)跨模態(tài)哈希檢索模型作為預(yù)訓(xùn)練的跨模態(tài)檢索模型,其經(jīng)過(guò)舊數(shù)據(jù)集預(yù)先訓(xùn)練,將其作為本文構(gòu)建跨模態(tài)檢索模型的教師網(wǎng)絡(luò),通過(guò)約束教師網(wǎng)絡(luò)中語(yǔ)義保留維度上的輸出概率分布一致性來(lái)指導(dǎo)學(xué)生網(wǎng)絡(luò)進(jìn)行學(xué)習(xí).其中圖像模態(tài)通道和文本模態(tài)通道分別生成同維度的特征,灰色標(biāo)記代表了語(yǔ)義保留維度,在語(yǔ)義保留維度上通過(guò)跨模態(tài)知識(shí)蒸餾損失指導(dǎo)各自增量網(wǎng)絡(luò)模塊學(xué)習(xí);居左右部分將不同模態(tài)樣本在增量學(xué)生網(wǎng)絡(luò)的映射特征作為輸出,將經(jīng)由激活函數(shù)softmax的特征用于分類損失約束;居中部分不同模態(tài)特征輸出經(jīng)激活函數(shù)sign生成哈希編碼,其中將統(tǒng)計(jì)得到的新舊標(biāo)簽項(xiàng)之間的共現(xiàn)概率矩陣作用在哈希編碼的生成學(xué)習(xí)當(dāng)中.整體網(wǎng)絡(luò)架構(gòu)的目標(biāo)函數(shù)由3個(gè)損失函數(shù)組成:

    圖1 增量跨模態(tài)檢索方法結(jié)構(gòu)圖

    (1)

    其中θx為增量模型的圖像通道參數(shù),θy為文本通道參數(shù).采用了基于跨模態(tài)的知識(shí)蒸餾損失Ld,將原有跨模態(tài)檢索模型對(duì)舊樣本數(shù)據(jù)集的檢索性能遷移到增量模型當(dāng)中.類別誤差損失Lc,使模型從新樣本中學(xué)習(xí)新類別的語(yǔ)義信息.Lh作用在哈希編碼的生成,目的是使得生成哈希編碼特征表示更貼近新樣本數(shù)據(jù)集的真實(shí)語(yǔ)義分布.其中基于紡織品的增量數(shù)據(jù)集如圖2所示.

    圖2 新增樣本類數(shù)據(jù)集示意圖(下滑線字代表新增類標(biāo)簽)

    3.3.1 基于跨模態(tài)的知識(shí)蒸餾損失

    為了得到成對(duì)樣本特征表示間的語(yǔ)義保留維度分布位置,首先需要通過(guò)預(yù)訓(xùn)練的跨模態(tài)檢索模型分別生成不同模態(tài)的特征表示集合Xn|θo和Yn|θo,將經(jīng)過(guò)激活函數(shù)sign的特征在每一個(gè)維度上計(jì)算相似性,若相等或相應(yīng)維度上的差值小于某個(gè)閾值,則代表成對(duì)樣本特征在這個(gè)維度上的分布概率相似.根據(jù)上述定義維度對(duì)齊矩陣Mα:

    (2)

    α表示相應(yīng)維度上的差數(shù)絕對(duì)值不能高于這個(gè)閾值,因?yàn)椴煌B(tài)生成的特征維度上的差值太大表示了其包含的語(yǔ)義信息相似程度較低.其中Mα[i,j]表示第i個(gè)不同模態(tài)成對(duì)樣本特征在第j維度上的相似性,其中1表示相似,0代表了不相似.

    蒸餾學(xué)習(xí)要求學(xué)生網(wǎng)絡(luò)學(xué)習(xí)教師網(wǎng)絡(luò)的輸出概率分布,如果更新后的模型參數(shù)θn和原有模型參數(shù)θo具有相似的輸出概率分布,那么代表了可擴(kuò)展跨模態(tài)檢索模型一定程度上保留了舊模型檢索性能.針對(duì)不同模態(tài)的樣本實(shí)例,首先使用預(yù)訓(xùn)練的跨模態(tài)檢索模型將成對(duì)樣本集映射到公共子空間內(nèi),不同模態(tài)數(shù)據(jù)集分別生成特征矩陣集合.然后使用維度對(duì)齊矩陣Mα作為特征向量選擇器,使得增量模型輸出的特征在語(yǔ)義保留維度上其輸出概率分布與原模型保持一致.

    KL 散度是一種衡量?jī)蓚€(gè)概率分布的匹配程度的指標(biāo),兩個(gè)分布差異越大,KL散度越大,定義如下:

    (3)

    在知識(shí)蒸餾中p(x)是學(xué)生網(wǎng)絡(luò)目標(biāo)分布,q(x)是教師網(wǎng)絡(luò)去匹配的分布,如果兩個(gè)分布完全匹配,那么DKL(p‖q)=0.

    跨模態(tài)蒸餾學(xué)習(xí)中需要在softmax中增加溫度參數(shù)T.在原有的跨模態(tài)檢索模型中包含了數(shù)據(jù)結(jié)構(gòu)信息以及映射函數(shù)參數(shù),當(dāng)T值較大時(shí),相當(dāng)于用很高的“溫度”將關(guān)鍵的分布信息從原有的模型參數(shù)中分離,然后在同樣的溫度下用增量學(xué)生模型融合蒸餾的方法學(xué)習(xí)教師網(wǎng)絡(luò)的特征輸出概率分布,最后恢復(fù)溫度,讓兩者充分融合.

    (4)

    T是一個(gè)調(diào)節(jié)函數(shù),通常為1;T的數(shù)值越大則所有類的分布越平緩.修改后的softmax也被稱為軟目標(biāo)(soft target).應(yīng)用在蒸餾網(wǎng)絡(luò)中的學(xué)生和教師模塊中,那么不同模態(tài)輸出分別為Xsoft和Ysoft.

    為了使得不同模態(tài)通道增量網(wǎng)絡(luò)輸出與舊模型中的特征映射層網(wǎng)絡(luò)在語(yǔ)義保留維度上保持相似的輸出分布,本文構(gòu)建基于跨模態(tài)的知識(shí)蒸餾網(wǎng)絡(luò),其基于跨模態(tài)的知識(shí)蒸餾損失Ld定義:

    (5)

    其中°代表了矩陣乘積,不同模態(tài)通道的KL散度度量矩陣和維度對(duì)齊矩陣Mα乘積.

    3.3.2 新增類別的分類損失

    為了使不同模態(tài)數(shù)據(jù)投影到公共子空間之后分布特征包含新增類別語(yǔ)義信息,在蒸餾網(wǎng)絡(luò)的學(xué)生模塊中構(gòu)建分類誤差學(xué)習(xí).在學(xué)生網(wǎng)絡(luò)模塊中不同模態(tài)通道分別構(gòu)建多層感知機(jī)MLP.將不同模態(tài)公共子空間內(nèi)的特征作為輸入,利用交叉熵?fù)p失進(jìn)行分類訓(xùn)練.分類誤差損失需要將類標(biāo)簽集合one-hot編碼化,因此拆解后的樣本舊標(biāo)簽項(xiàng)one-hot編碼集合為L(zhǎng)o∈[0,1]No×k,其中k表示舊標(biāo)簽項(xiàng)數(shù)目.樣本新標(biāo)簽項(xiàng)的one-hot編碼集合為L(zhǎng)n∈[0,1]Nn×(m+k),其中Nn是新增數(shù)據(jù)集的大小,m是新增類標(biāo)簽項(xiàng)數(shù)目.其誤差為:

    (6)

    pi代表了不同模態(tài)特征類別的概率分布,ci代表了當(dāng)前新數(shù)據(jù)集中實(shí)例的類別標(biāo)簽,Xi代表了圖像數(shù)據(jù)集的第i個(gè)實(shí)例特征,Yi代表了文本數(shù)據(jù)集的第i個(gè)實(shí)例特征,N是訓(xùn)練批次樣本集的大小.

    3.3.3 蒸餾網(wǎng)絡(luò)總誤差

    蒸餾網(wǎng)絡(luò)的學(xué)生模塊經(jīng)過(guò)軟目標(biāo)可以學(xué)習(xí)跨模態(tài)教師模塊軟化的概率分布,硬目標(biāo)則是樣本的真實(shí)標(biāo)注.total loss設(shè)計(jì)為軟目標(biāo)與硬目標(biāo)所對(duì)應(yīng)的交叉熵的加權(quán)平均.其中軟目標(biāo)交叉熵的加權(quán)系數(shù)越大,表明遷移誘導(dǎo)越依賴教師網(wǎng)絡(luò)的貢獻(xiàn),有助于讓學(xué)生網(wǎng)絡(luò)更輕松擁有教師網(wǎng)絡(luò)的檢索性能,但訓(xùn)練后期需要適當(dāng)減小軟目標(biāo)的比重,讓真實(shí)標(biāo)注信息幫助提升檢索新樣本的能力[3].

    LKD(Wstudent)=αT2Ld+(1-α)Lc

    (7)

    其中α是權(quán)值參數(shù),標(biāo)識(shí)蒸餾損失和分類損失所占權(quán)重.在基于跨模態(tài)的蒸餾學(xué)習(xí)網(wǎng)絡(luò)中,不同模態(tài)的學(xué)生網(wǎng)絡(luò)參數(shù)由分類損失Lc和跨模態(tài)知識(shí)蒸餾損失Ld加權(quán)訓(xùn)練而成.

    3.3.4 哈希碼的學(xué)習(xí)

    Mandal[16]等在2017年提出了基于語(yǔ)義保留的跨模態(tài)哈希生成的方法,通過(guò)保持?jǐn)?shù)據(jù)樣本之間的語(yǔ)義相似性,從而使得生成的哈希碼保有原始數(shù)據(jù)集之中存在的真實(shí)語(yǔ)義分布信息.通過(guò)樣本標(biāo)簽之間相似性度量構(gòu)建“親和度”矩陣S,成為哈希編碼生成的監(jiān)督信息,約束不同模態(tài)哈希編碼的語(yǔ)義關(guān)系.

    s.t.A∈{-1,1}N1×q,B∈{-1,1}N2×q

    (8)

    其中q是哈希編碼的長(zhǎng)度,A和B分別是不同模態(tài)的哈希編碼,親和度矩陣S由樣本集之間的多標(biāo)簽one-hot編碼內(nèi)積得到,樣本數(shù)N1=N2.目的是使得生成的不同模態(tài)間的哈希編碼整體相似性接近其類別相似性,從而得到接近“真實(shí)”語(yǔ)義結(jié)構(gòu)關(guān)系的特征分布.

    圖3 拆解新舊標(biāo)簽項(xiàng)分層相似圖嵌入

    將不同模態(tài)樣本的特征表示經(jīng)由sign激活器生成相應(yīng)的哈希編碼.

    (9)

    假定新增樣本集大小為Nn,其中舊數(shù)據(jù)集標(biāo)簽項(xiàng)數(shù)目為k,新增數(shù)據(jù)集的標(biāo)簽項(xiàng)數(shù)目為k+m.共現(xiàn)矩陣可以統(tǒng)計(jì)出分類標(biāo)簽同時(shí)出現(xiàn)的次數(shù),其基本思想是:統(tǒng)計(jì)兩個(gè)分類標(biāo)簽同時(shí)出現(xiàn)的概率,如果概率越大,其相關(guān)性就越緊密,關(guān)聯(lián)度越高),構(gòu)建共現(xiàn)矩陣的基本步驟為:首先將每一份樣本的新增類標(biāo)簽分隔開(kāi)并轉(zhuǎn)換成列表,同時(shí)建立關(guān)于新增類標(biāo)簽的字典,建立空矩陣用于存放標(biāo)簽的共現(xiàn)矩陣,然后計(jì)算新增類標(biāo)簽項(xiàng)與舊類標(biāo)簽項(xiàng)之間的共現(xiàn)頻次,最后可取出標(biāo)簽之間的共現(xiàn)頻次用于新標(biāo)簽相似性程度的標(biāo)識(shí).

    在機(jī)器學(xué)習(xí)中,點(diǎn)互信息PMI通常用來(lái)衡量?jī)蓚€(gè)變量之間的相關(guān)性,基本思想是統(tǒng)計(jì)兩個(gè)詞語(yǔ)在文本中同時(shí)出現(xiàn)的概率,如果概率越大,其相關(guān)性就越緊密,關(guān)聯(lián)度越高.已知A標(biāo)簽和B標(biāo)簽的累計(jì)出現(xiàn)頻次和共現(xiàn)頻次,其PMI值等于log((共現(xiàn)頻次/A標(biāo)簽的累計(jì)出現(xiàn)頻次)*(共現(xiàn)頻次/B標(biāo)簽的累計(jì)出現(xiàn)頻次)).log取自信息論中對(duì)概率的量化轉(zhuǎn)換.

    (10)

    利用統(tǒng)計(jì)出的新舊標(biāo)簽共現(xiàn)頻次計(jì)算得到共現(xiàn)概率矩陣為:

    (11)

    其中Li來(lái)自于樣本新標(biāo)簽項(xiàng)集合,Lj來(lái)自于樣本舊標(biāo)簽項(xiàng)集合,m和k分別屬于新舊類標(biāo)簽項(xiàng)個(gè)數(shù).

    我抬頭看著楊公子,他的眼中似乎有些許淚光,他轉(zhuǎn)過(guò)頭不再看我。那一刻,我明白了,他心中一定曾經(jīng)有個(gè)意中人。

    在哈希碼的生成約束中,本文拆解樣本新舊類標(biāo)簽,通過(guò)計(jì)算新舊標(biāo)簽共現(xiàn)概率矩陣約束樣本關(guān)聯(lián)程度,以此使得生成哈希編碼特征分布更貼近真實(shí)語(yǔ)義關(guān)系.

    (12)

    其中k代表了舊標(biāo)簽項(xiàng)的數(shù)目,m代表了新增標(biāo)簽項(xiàng)數(shù)目,q代表了哈希編碼的長(zhǎng)度.Sco表示了新舊標(biāo)簽共現(xiàn)概率矩陣,其中新標(biāo)簽項(xiàng)作為行,舊標(biāo)簽項(xiàng)作為列.μ表示關(guān)于新舊標(biāo)簽項(xiàng)的樣本集相似矩陣所占權(quán)重.

    基于跨模態(tài)檢索的可擴(kuò)展網(wǎng)絡(luò)模型要求能夠在保留舊數(shù)據(jù)集語(yǔ)義信息的同時(shí)適應(yīng)增量樣本數(shù)據(jù)集的檢索效能.本文通過(guò)構(gòu)建雙通道跨模態(tài)蒸餾誤差Ld和類別誤差Lc以及哈希編碼生成約束誤差的Lh來(lái)實(shí)現(xiàn)其要求.其流程如算法1所示.

    算法1.ICMR.

    輸入:新增圖像數(shù)據(jù)集x、新增文本數(shù)據(jù)集y,標(biāo)簽集C

    輸出:不同模態(tài)通道學(xué)生網(wǎng)絡(luò)參數(shù)θx和θy

    1. 初始化跨模態(tài)通道θo以及增量網(wǎng)絡(luò)θn,不同模態(tài)迭代batch樣本集大小為q,迭代次數(shù)為p;

    2. 拆解新舊標(biāo)簽項(xiàng)進(jìn)行統(tǒng)計(jì)分析,得到新舊標(biāo)簽共現(xiàn)概率矩陣Sco;

    3. Repeat:

    4.Xn|θo,Yn|θo=G(x;θo),G(y;θo)

    5.Xn|θn,Yn|θn=G(x;θn),G(y;θn)

    6. 根據(jù)公式(2)得到維度對(duì)齊矩陣Mα;

    7. 根據(jù)公式(5)通過(guò)計(jì)算跨模態(tài)知識(shí)蒸餾損失Ld;

    8. 根據(jù)公式(6)計(jì)算類別誤差損失Lc;

    9.Hx=sign(Xn|θn),Hy=sign(Yn|θn);

    10. 通過(guò)樣本新舊類標(biāo)簽項(xiàng)計(jì)算類相似矩陣Sn和So;

    11. 根據(jù)公式(12)計(jì)算哈希編碼生成約束損失Lh;

    12. 根據(jù)公式(1)通過(guò)隨機(jī)梯度下降更新參數(shù)θx,θy;

    4 實(shí) 驗(yàn)

    在本節(jié)中,使用紡織品面料數(shù)據(jù)集、Flickr25K數(shù)據(jù)集以及Pascal-sentences數(shù)據(jù)集來(lái)評(píng)估本文提出方法的性能,并將其與近年來(lái)最先進(jìn)的幾種算法進(jìn)行對(duì)比.

    4.1 數(shù)據(jù)準(zhǔn)備

    紡織品數(shù)據(jù)集從紹興輕紡城圖來(lái)旺網(wǎng)站采集30000張圖像,主要是紡織品的圖樣圖案.采集數(shù)據(jù)的主要方法是利用HTML/XML解析器BeautifulSoup進(jìn)行網(wǎng)頁(yè)解析和數(shù)據(jù)集下載,并按照規(guī)定格式進(jìn)行數(shù)據(jù)整理.圖像的注釋描述中包含著相應(yīng)的短語(yǔ)描述及類別標(biāo)簽.其中真實(shí)標(biāo)簽屬性有32種,包括時(shí)裝、男/女裝等.為了實(shí)現(xiàn)增量樣本迭代,本文將32項(xiàng)的標(biāo)簽集分為26項(xiàng)的舊標(biāo)簽集和6項(xiàng)的新標(biāo)簽集.將包含任一這6項(xiàng)標(biāo)簽集的所有樣本當(dāng)作新增樣本集,其余的作為舊樣本集,整理后的新舊類樣本比為 4352∶25648.

    Flickr25K數(shù)據(jù)集[17]包含25000個(gè)圖文對(duì),每個(gè)實(shí)例被24個(gè)類別標(biāo)簽標(biāo)記,文本數(shù)據(jù)被表示為1386維度的詞袋向量(BOW),圖像特征由預(yù)訓(xùn)練模型VGG16預(yù)訓(xùn)練模型提取,其特征向量為4096維.本文將新舊標(biāo)簽項(xiàng)拆分為6∶18,整理后的新舊類樣本比為8200∶16800.

    Pascal-sentences數(shù)據(jù)集[18]分為20類,其數(shù)據(jù)集被廣泛地應(yīng)用于多標(biāo)簽分類的衡量標(biāo)準(zhǔn),總共包含1000張圖片,每張圖片對(duì)應(yīng)著5條文本描述,共有5000個(gè)圖文對(duì).數(shù)據(jù)集類標(biāo)簽包含4個(gè)大類:人、動(dòng)物、車輛、室內(nèi).每個(gè)類別包含的樣本數(shù)量相等,因此選用其中4個(gè)類別樣本作為增量樣本集,整理后的新舊類樣本比為1000∶4000.

    本文僅使用新增類樣本數(shù)據(jù)集用以訓(xùn)練增量網(wǎng)絡(luò)模型,樣本同時(shí)擁有新舊類標(biāo)簽項(xiàng).關(guān)于算法1的參數(shù),本文設(shè)定迭代批次大小q=128.迭代次數(shù)為p為300次.學(xué)習(xí)速率初始值等于0.01.其中μ和α權(quán)值默認(rèn)值為0.5.

    4.2 方法比較

    增量模型的設(shè)計(jì)是基于原有模型的擴(kuò)展,本文選用DCMH跨模態(tài)哈希檢索方法作為對(duì)比實(shí)驗(yàn)的基準(zhǔn)模型,該方法是基于深度學(xué)習(xí)的跨模態(tài)哈希檢索方法的開(kāi)始.本文將所提出的增量模型ICMR與DCMH進(jìn)行聯(lián)合訓(xùn)練的方法進(jìn)行實(shí)驗(yàn).本文僅使用增量數(shù)據(jù)集對(duì)實(shí)驗(yàn)進(jìn)行訓(xùn)練,選用近兩年提出的跨模態(tài)增量網(wǎng)絡(luò)模型與基準(zhǔn)模型進(jìn)行組合可得ECMH_DCMH[13],GrowBit_DCMH[14],ICMH_DCMH[2]以及本文提出方法ICMR_DCMH.在以下實(shí)驗(yàn)中,我們使用平均精度均值(MAP)和精確率召回率(PR)曲線來(lái)評(píng)估不同的方法.

    為了表現(xiàn)增量模型在新舊數(shù)據(jù)集上的檢索任務(wù)的對(duì)比,分別將DCMH方法和ICMR方法在新舊類樣本集上進(jìn)行檢索精準(zhǔn)度計(jì)算,在舊數(shù)據(jù)集上檢索表示為Old Tasks和在增量數(shù)據(jù)集上檢索表示為New Tasks.在方法比較中,將圖像用V表示,文本用T表示.

    評(píng)價(jià)標(biāo)準(zhǔn):對(duì)于不同的數(shù)據(jù)集檢索效果評(píng)價(jià),可在圖像檢索文本(V→T)以及文本檢索圖像(T→V)上由查詢集到被檢索數(shù)據(jù)集合的檢索效果來(lái)評(píng)價(jià).本文使用的是平均精度均值(MAP)來(lái)度量檢索的性能.

    (13)

    其中M是檢索集中相關(guān)實(shí)例的數(shù)目,prec(r)表示top r 檢索集中的檢索精度.rel(r)是一個(gè)非0即1的函數(shù),代表與不同級(jí)別r的相關(guān)性指標(biāo).PR曲線是以精準(zhǔn)率和召回率這兩個(gè)變量做出的曲線,其中recall為橫坐標(biāo),precision為縱坐標(biāo).表示在不同級(jí)別的檢索召回率下的準(zhǔn)確率.

    4.3 對(duì)比與評(píng)估

    如上所述表1給出了所有方法在增量Flickr25K數(shù)據(jù)集和增量紡織品數(shù)據(jù)集以及Pascal-sentences數(shù)據(jù)集的兩個(gè)跨模態(tài)檢索任務(wù)和哈希編碼從16到64位的MAP值.表2給出了DCMH深度跨模態(tài)哈希方法以及本文增量方法ICMR在新舊檢索任務(wù)上的對(duì)比,圖4給出了Flickr25K數(shù)據(jù)集和紡織品數(shù)據(jù)集對(duì)比實(shí)驗(yàn)的PR曲線圖.其中對(duì)比實(shí)驗(yàn)哈希編碼特征統(tǒng)一為32位.

    表1 增量學(xué)習(xí)方法平均精度均值(MAP)對(duì)比結(jié)果

    表2 平均精度均值(MAP)在新舊任務(wù)上的對(duì)比結(jié)果

    圖4 增量學(xué)習(xí)方法在Flickr25K和紡織品數(shù)據(jù)集的PR曲線

    從表1可以發(fā)現(xiàn),本文提出的方法在大多數(shù)編碼長(zhǎng)度檢索上的MAP值都高于其它方法,證明了本文提出的增量跨模態(tài)檢索方法在面對(duì)數(shù)據(jù)樣本增量迭代的場(chǎng)景下檢索性能更優(yōu).其中和其他跨模態(tài)增量方法相比上本方法較其它的方法精準(zhǔn)率高出2%-5%左右.

    在表2中發(fā)現(xiàn),ICMR方法在舊樣本數(shù)據(jù)集上的檢索精度較DCMH方法低,其差值保持在1%-2%左右,檢索精度差別不大.這說(shuō)明增量模型ICMR仍然保留了在舊樣本數(shù)據(jù)集上的檢索性能.同樣在新樣本數(shù)據(jù)集中,明顯表現(xiàn)出DCMH跨模態(tài)檢索模型的檢索精度極大的降低,而ICMR在新樣本數(shù)據(jù)集中保持了較高的檢索精度.其中差距最顯著的是DCMH與增量跨模態(tài)檢索方法ICMR在Flickr25K新數(shù)據(jù)集上的檢索精準(zhǔn)率,其差值為9.32%.

    從兩表聯(lián)合觀察,因?yàn)镈CMH是基于舊數(shù)據(jù)集訓(xùn)練得到的跨模態(tài)檢索模型,在新增類數(shù)據(jù)集上因?yàn)樾略龅臉?biāo)簽語(yǔ)義的缺失,DCMH模型在增量迭代數(shù)據(jù)集中檢索精度性能上表現(xiàn)出不足.但是對(duì)比表1可以得出結(jié)論,基于DCMH的增量學(xué)習(xí)網(wǎng)絡(luò)的組合,都使得擴(kuò)展后的DCMH模型在新樣本檢索任務(wù)中精度得到提升,其精度提升區(qū)間為5%-10%.因此可以看出增量網(wǎng)絡(luò)模型在訓(xùn)練學(xué)習(xí)過(guò)程中,通過(guò)跨模態(tài)知識(shí)蒸餾不僅有效的保留了舊樣本數(shù)據(jù)集檢索性能,還通過(guò)增量學(xué)習(xí)獲得標(biāo)簽語(yǔ)義信息以及新增樣本數(shù)據(jù)集樣本之間的真實(shí)語(yǔ)義關(guān)系.

    圖4給出了在Flickr25K數(shù)據(jù)集和紡織品數(shù)據(jù)集上哈希編碼為32位的兩個(gè)跨模態(tài)檢索任務(wù)的PR-Curve曲線,其值是根據(jù)檢索結(jié)果的所屬類檢索命中率以及漢明排序產(chǎn)生.從各圖的PR-Curve曲線可以看出,本文所提跨模態(tài)增量方法在不同的召回率下均獲得了較其它方法更高的精度.

    5 小 結(jié)

    本文提出了增量跨模態(tài)檢索方法.該方法僅使用新增類樣本進(jìn)行模型擴(kuò)展.構(gòu)建跨模態(tài)的知識(shí)蒸餾網(wǎng)絡(luò),目的是防止增量學(xué)習(xí)模型對(duì)舊數(shù)據(jù)集的災(zāi)難性遺忘.在生成不同模態(tài)哈希編碼特征表示時(shí),將新舊標(biāo)簽“共現(xiàn)概率矩陣”作為監(jiān)督信息作用于增量模型學(xué)習(xí),用以標(biāo)識(shí)樣本之間關(guān)于新增類標(biāo)簽的相似的可信度.實(shí)驗(yàn)結(jié)果表明,本文的算法在增量擴(kuò)展上具有更好的檢索性能表現(xiàn).

    下一步的工作我們將考慮成對(duì)模態(tài)數(shù)據(jù)的細(xì)粒度特征表現(xiàn),通過(guò)有效的細(xì)粒度成對(duì)語(yǔ)義特征匹配從而提高檢索系統(tǒng)中的檢索性能.

    猜你喜歡
    哈希增量檢索
    提質(zhì)和增量之間的“辯證”
    “價(jià)增量減”型應(yīng)用題點(diǎn)撥
    2019年第4-6期便捷檢索目錄
    基于均衡增量近鄰查詢的位置隱私保護(hù)方法
    專利檢索中“語(yǔ)義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    基于OpenCV與均值哈希算法的人臉相似識(shí)別系統(tǒng)
    基于維度分解的哈希多維快速流分類算法
    德州儀器(TI)發(fā)布了一對(duì)32位增量-累加模數(shù)轉(zhuǎn)換器(ADC):ADS1262和ADS126
    基于同態(tài)哈希函數(shù)的云數(shù)據(jù)完整性驗(yàn)證算法
    一種基于Bigram二級(jí)哈希的中文索引結(jié)構(gòu)
    海安县| 丹凤县| 铜山县| 中卫市| 进贤县| 三台县| 松原市| 鹤庆县| 沁源县| 浦江县| 清丰县| 屯昌县| 白城市| 永安市| 光泽县| 长丰县| 洞口县| 漳浦县| 邮箱| 基隆市| 阿图什市| 兰州市| 庄河市| 定兴县| 庆城县| 蓝田县| 弥勒县| 师宗县| 雷州市| 宜良县| 唐河县| 汤阴县| 襄樊市| 鹿邑县| 淳安县| 南华县| 平度市| 石嘴山市| 衡南县| 凌云县| 太湖县|