• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于漸進(jìn)多源域遷移的無(wú)監(jiān)督跨域目標(biāo)檢測(cè)

    2022-09-30 12:44:08
    自動(dòng)化學(xué)報(bào) 2022年9期
    關(guān)鍵詞:源域特征圖像

    李 威 王 蒙

    目標(biāo)檢測(cè)作為一類計(jì)算機(jī)視覺的基礎(chǔ)任務(wù),能對(duì)圖像前景對(duì)象進(jìn)行定位及分類,在智能駕駛、安防監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用[1-2].近年來(lái),伴隨著深度卷積神經(jīng)網(wǎng)絡(luò)[3]的發(fā)展,目標(biāo)檢測(cè)在檢測(cè)精度和時(shí)效性上均取得了一系列重大突破.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)方法,目前主要分為2 類: 1)兩階段檢測(cè)器,如區(qū)域卷積網(wǎng)絡(luò)(Region convolution neural network,R-CNN)[4]、快速區(qū)域卷積網(wǎng)絡(luò)(Fast R-CNN)[5]、超快速區(qū)域卷積網(wǎng)絡(luò)(Faster RCNN)[6]等,這類檢測(cè)器首先通過區(qū)域提取網(wǎng)絡(luò)得到感興趣的區(qū)域,再進(jìn)一步對(duì)這些區(qū)域進(jìn)行分類和回歸;2)單階段檢測(cè)器,如一見即得檢測(cè)器[7]、單發(fā)多框檢測(cè)器(Single shot multi-box detector,SSD)[8]等.這類檢測(cè)器中,直接對(duì)不同特征層上的預(yù)設(shè)邊框進(jìn)行分類和回歸,從而提升了檢測(cè)速度.雖然這些檢測(cè)方法均取得了不錯(cuò)的效果,但在許多實(shí)際場(chǎng)景中卻不能得到有效應(yīng)用.一方面,訓(xùn)練基于深層網(wǎng)絡(luò)的檢測(cè)器需要海量的標(biāo)注數(shù)據(jù),而從數(shù)據(jù)的收集到標(biāo)注,都是一件耗時(shí)費(fèi)力的事.此外,大部分人工數(shù)據(jù)標(biāo)注缺乏統(tǒng)一的標(biāo)準(zhǔn),會(huì)不可避免地引入人為偏差.另一方面,現(xiàn)有的目標(biāo)檢測(cè)方法一般假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)服從獨(dú)立同分布,而在實(shí)際應(yīng)用中卻難以滿足,從而導(dǎo)致在某數(shù)據(jù)集上訓(xùn)練好的檢測(cè)模型難以泛化到其他場(chǎng)景.例如,用天氣良好時(shí)采集的圖片訓(xùn)練得到的檢測(cè)模型,在有霧的情況下檢測(cè)性能會(huì)急劇下降.如圖1 所示,上邊為天氣良好情況下收集的圖片,下邊為有霧天氣下的數(shù)據(jù),這2 個(gè)數(shù)據(jù)集在風(fēng)格、光照以及顏色等方面存在差異.針對(duì)上述問題,本文主要研究無(wú)監(jiān)督跨域目標(biāo)檢測(cè)算法.其中,源域數(shù)據(jù)集(如圖1 中上行圖片)有分類標(biāo)注與邊界框標(biāo)注,而目標(biāo)域沒有標(biāo)注信息(如圖1 中下行圖片).將大量易得的標(biāo)注數(shù)據(jù)的知識(shí)遷移到其他不易得且缺乏標(biāo)注的數(shù)據(jù)域中,以提升檢測(cè)器在不同場(chǎng)景下的適應(yīng)能力,是本文的主要研究目的.

    圖1 Cityscapes[9] (上)與Foggy Cityscapes[10] (下)示例圖Fig.1 Examples from Cityscapes[9] (up) and Foggy Cityscapes[10] (bottom)

    圖2 無(wú)監(jiān)督跨域目標(biāo)檢測(cè)方法結(jié)構(gòu)圖Fig.2 Diagram for unsupervised cross-domain object detection

    針對(duì)目標(biāo)域標(biāo)注數(shù)據(jù)稀缺、領(lǐng)域分布異構(gòu)等問題,目前主要有兩類方法.一類是弱監(jiān)督的目標(biāo)檢測(cè)方法[11-12].給定只有分類標(biāo)注的數(shù)據(jù)集,通過區(qū)域提取網(wǎng)絡(luò)得到感興趣的區(qū)域,然后再設(shè)計(jì)分類器并用分類標(biāo)注進(jìn)行訓(xùn)練.相對(duì)于強(qiáng)監(jiān)督的目標(biāo)檢測(cè)方法,這種方法的檢測(cè)效果較差.另外一類,可概括為無(wú)監(jiān)督域自適應(yīng)方法[13],通過源域到目標(biāo)域的域自適應(yīng),將源域中的標(biāo)注信息遷移到目標(biāo)域,從而提升目標(biāo)域數(shù)據(jù)集上的檢測(cè)精度.為實(shí)現(xiàn)源域與目標(biāo)域的語(yǔ)義對(duì)齊,采用了最小化源域與目標(biāo)域之間度量距離的方法,如相關(guān)對(duì)齊[14]和最大均值差異[15]等.這種基于度量的方法取得了一定的效果,但在深度卷積網(wǎng)絡(luò)中,由于數(shù)據(jù)被映射到高維空間,效果有時(shí)反而更差[16].盡管無(wú)監(jiān)督域自適應(yīng)方法在圖像分類和分割等任務(wù)中均取得了不錯(cuò)的效果,但在目標(biāo)檢測(cè)方面的研究仍然不足.已有為數(shù)不多的研究[17-27],主要采用像素級(jí)對(duì)齊[17-18]或特征級(jí)對(duì)齊[18-25]來(lái)實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移.其中,像素級(jí)對(duì)齊主要采用圖像翻譯的方法來(lái)實(shí)現(xiàn),如采用循環(huán)對(duì)抗生成網(wǎng)絡(luò)(Cycle generative adversarial network,CycleGAN)[28]等,通過生成含有源域數(shù)據(jù)的內(nèi)容信息與目標(biāo)域數(shù)據(jù)的風(fēng)格信息的圖片,從而將源域中的標(biāo)注信息遷移到生成圖像.特征級(jí)對(duì)齊在特征層加入判別器,通過構(gòu)造對(duì)抗生成網(wǎng)絡(luò)(Generative adversarial networks,GAN)[29]使判別器無(wú)法將源域特征從目標(biāo)域特征中分辨出來(lái),進(jìn)而拉近兩個(gè)領(lǐng)域之間的特征分布.例如,Inoue 等[17]提出一種漸進(jìn)弱監(jiān)督跨域目標(biāo)檢測(cè)方法,先采用CycleGAN[28]生成含有源域數(shù)據(jù)空間語(yǔ)義信息和目標(biāo)域風(fēng)格特征的圖片,并將源域中的標(biāo)注信息遷移到生成圖像上;然后使用在源域數(shù)據(jù)上訓(xùn)練好的檢測(cè)模型在這些生成圖片上進(jìn)行微調(diào);最后,使用在目標(biāo)域上預(yù)測(cè)生成的偽標(biāo)簽進(jìn)一步訓(xùn)練,并得到在目標(biāo)域上的檢測(cè)模型.類似的,加噪標(biāo)簽[26]直接使用在源域數(shù)據(jù)上訓(xùn)練的檢測(cè)器在目標(biāo)域上預(yù)測(cè)生成偽標(biāo)注,然后使用一個(gè)分類模塊對(duì)偽標(biāo)簽進(jìn)行修正并與源域數(shù)據(jù)聯(lián)合訓(xùn)練,以得到一個(gè)更具魯棒性的檢測(cè)器.Chen等[19]在Faster R-CNN[6]的基礎(chǔ)上,通過實(shí)例級(jí)與圖像級(jí)的域自適應(yīng),實(shí)現(xiàn)了檢測(cè)模型的泛化.在此基礎(chǔ)上,文獻(xiàn)[20-25]通過不同特征層的對(duì)齊,實(shí)現(xiàn)了不同領(lǐng)域之間深層特征與淺層特征的適配.以上工作主要面向單源域到單目標(biāo)域的檢測(cè)遷移問題,為了進(jìn)一步有效利用眾多不同領(lǐng)域之間的相關(guān)知識(shí),一些研究者將目光轉(zhuǎn)向了更具挑戰(zhàn)性的多源域到單目標(biāo)域的遷移問題.Wang 等[27]提出了一個(gè)基于注意力機(jī)制的域自適應(yīng)檢測(cè)框架,實(shí)現(xiàn)了從多個(gè)源域到單目標(biāo)域的檢測(cè)任務(wù).其困難在于需要收集大量不同的源域數(shù)據(jù)集.此外,Kim 等[18]探索了如何生成多樣性的翻譯圖片來(lái)實(shí)現(xiàn)多源域適配,但其圖像轉(zhuǎn)換過程尚未利用目標(biāo)域特有的屬性特征,以使得生成圖像與目標(biāo)域特征分布更加相似.

    上述無(wú)監(jiān)督域自適應(yīng)方法的提出,證明了基于遷移的目標(biāo)檢測(cè)模型的有效性,但仍存在以下3 方面問題: 1)在像素級(jí)對(duì)齊時(shí),采用CycleGAN[28]等圖像翻譯方法生成的樣本,多樣性不夠,不能保持語(yǔ)義結(jié)構(gòu)的連續(xù)性;或是人為設(shè)置源域樣本的多樣性,而沒有充分利用目標(biāo)域的屬性特征;2)特征級(jí)對(duì)齊方面,大多只考慮單源域到單目標(biāo)域的遷移,沒有考慮多源域到單目標(biāo)域遷移的情景.特征對(duì)齊網(wǎng)絡(luò)在訓(xùn)練過程中,其判別性主要取決于有標(biāo)注信息的源域數(shù)據(jù),遷移性則取決于源域特征與目標(biāo)域特征之間的相似性.在單源域自適應(yīng)方法中,由于單一風(fēng)格的源域圖像通常只包含部分信息,因此檢測(cè)模型的判別性容易偏向于僅有的單一源域表示,從而影響目標(biāo)域上的性能;3)部分方法僅針對(duì)某一特定檢測(cè)模型,例如Chen 等[19]提出的實(shí)例級(jí)域自適應(yīng)方法在單階段的檢測(cè)模型中難以實(shí)現(xiàn).為嘗試解決這些困難,本文提出了一個(gè)漸進(jìn)對(duì)齊的無(wú)監(jiān)督跨域目標(biāo)檢測(cè)框架,主要工作如下: 1)對(duì)圖片特征進(jìn)行分解,分別得到域不變的結(jié)構(gòu)內(nèi)容特征與域特有的風(fēng)格屬性特征,以使得生成樣本更好地保持原數(shù)據(jù)的空間結(jié)構(gòu)信息.并且,通過源域與目標(biāo)域之間兩類特征的結(jié)合,能夠生成多樣性的數(shù)據(jù)樣本,這些不同風(fēng)格屬性的生成圖片豐富了源域樣本的多樣性;2)設(shè)計(jì)了一個(gè)基于對(duì)抗網(wǎng)絡(luò)的多域分類器,并將生成的具有不同屬性特征的樣本加入到源域數(shù)據(jù)集中,使檢測(cè)器能在多個(gè)源域數(shù)據(jù)集上訓(xùn)練,并且目標(biāo)域特征分布可以由多個(gè)與其風(fēng)格近似的源域數(shù)據(jù)來(lái)擬合,從而獲取多領(lǐng)域不變的特征表示;3)采用自訓(xùn)練框架進(jìn)一步提升目標(biāo)域上的檢測(cè)性能.源域和目標(biāo)域通過像素級(jí)對(duì)齊和多源域特征對(duì)齊后,檢測(cè)模型在目標(biāo)域上可以預(yù)測(cè)生成質(zhì)量較高的偽標(biāo)簽,從而避免了直接使用源域數(shù)據(jù)訓(xùn)練的模型預(yù)測(cè)生成偽標(biāo)注質(zhì)量差的問題.實(shí)驗(yàn)表明,采用這種漸進(jìn)域自適應(yīng)的訓(xùn)練方式,顯著地提升了檢測(cè)模型的遷移性能.

    1 基于漸進(jìn)多源域遷移的跨域目標(biāo)檢測(cè)方法

    1.1 問題描述

    在本文研究的無(wú)監(jiān)督跨域目標(biāo)檢測(cè)任務(wù)中,源域數(shù)據(jù)集有分類標(biāo)注與邊界框標(biāo)注,而目標(biāo)域沒有標(biāo)注信息.定義源域數(shù)據(jù)集為標(biāo)注集為目標(biāo)域數(shù)據(jù)為其中nS和nT分別表示源域與目標(biāo)域的數(shù)據(jù)大小,分別為第i張圖片的類別標(biāo)注集合與邊框標(biāo)注集合,C為源域數(shù)據(jù)的類別集合.并且,目標(biāo)域數(shù)據(jù)的類別集合是源域類別集合的子集.本文研究的目的是利用源域中豐富的數(shù)據(jù)與標(biāo)注信息,通過遷移學(xué)習(xí)的方法,將源域中的知識(shí)遷移到目標(biāo)域中,以提升目標(biāo)域測(cè)試集上的檢測(cè)性能.

    1.2 基本檢測(cè)模型

    考慮到實(shí)際應(yīng)用中檢測(cè)的時(shí)效性要求,本文采用單階段檢測(cè)器SSD[8]作為基本檢測(cè)模型.在SSD模型中,首先通過基礎(chǔ)網(wǎng)絡(luò)VGG16[30]提取特征,然后加入尺寸不同的特征層,并分別在6 個(gè)不同尺度的特征層上獲得檢測(cè)邊框集合與對(duì)應(yīng)的分類置信度,再對(duì)所得邊框進(jìn)行非極大值抑制,從而得到最終檢測(cè)結(jié)果.訓(xùn)練過程中,SSD 的目標(biāo)損失函數(shù)為:

    1.3 像素級(jí)域自適應(yīng)網(wǎng)絡(luò)

    1.3.1 特征表示分解

    在特征分解過程中,za ∈R8.在測(cè)試過程中對(duì)領(lǐng)域特有的屬性特征表示za進(jìn)行隨機(jī)采樣,令za近似于高斯分布,如圖3 所示.主要通過Kullback-Leibler (KL)散度來(lái)實(shí)現(xiàn):

    圖3 損失函數(shù)Fig.3 Loss function

    特征分解網(wǎng)絡(luò)結(jié)構(gòu)及其參數(shù)設(shè)置如圖4 所示.內(nèi)容編碼器Ec由3 個(gè)卷積層和4 殘差層組成,并使用了實(shí)例歸一化[32].為了將源域與目標(biāo)域映射到一個(gè)共享的空間,最后一個(gè)卷積層將共享參數(shù).屬性編碼器Ea由6 個(gè)卷積層組成,內(nèi)容判別器網(wǎng)絡(luò)由4 個(gè)卷積網(wǎng)絡(luò)組成.

    圖4 分解表示所采用模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Modular network structures used in the disentangled representation framework

    1.3.2 多樣性圖像翻譯

    在多樣性圖片翻譯過程中,生成器{GS,GT}與判別器{DS,DT}的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示,其使用了實(shí)例歸一化以增強(qiáng)圖像風(fēng)格遷移效果.整個(gè)圖像翻譯網(wǎng)絡(luò)框架如圖2(a)所示,其訓(xùn)練過程為:

    圖5 圖像翻譯中采用的生成器與判別器網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structures of the generator and the discriminator used in image-to-image translation

    1.4 多域特征級(jí)域自適應(yīng)網(wǎng)絡(luò)

    特征級(jí)域自適應(yīng)的主要目的是使得源域與目標(biāo)域在特征表示分布上盡可能相似,典型的方法是通過對(duì)抗生成網(wǎng)絡(luò)來(lái)實(shí)現(xiàn).文獻(xiàn)[33]將源域特征與目標(biāo)域特征作為判別器D的輸入,通過在判別器前面加入梯度反向?qū)?使得判別器無(wú)法分辨出特征層來(lái)自哪一個(gè)樣本域,進(jìn)而得到域不變的特征表示.文獻(xiàn)[18,34]指出,在單源域到單目標(biāo)域的遷移任務(wù)中,容易得到次優(yōu)解.由于風(fēng)格單一的源域圖像只包含部分信息,因此得到的特征表示具有偏向性.而使用多個(gè)風(fēng)格不同的源域數(shù)據(jù),可以得到不同方面的特征信息,從而使得多域不變的特征表示具有更強(qiáng)的泛化性能.

    將目標(biāo)域特征作為生成特征,則對(duì)抗損失函數(shù)為:

    此時(shí),多源域的檢測(cè)模型目標(biāo)損失函數(shù)為:

    聯(lián)合訓(xùn)練多源域分類器與檢測(cè)模型,訓(xùn)練過程如下:

    式中,超參數(shù)λ用于控制對(duì)抗損失的重要性.

    在訓(xùn)練過程中,判別器{Dm|m=0,1,2,3}的網(wǎng)絡(luò)結(jié)構(gòu)均由三個(gè)卷積層與三個(gè)全連接層組成,并使用了批歸一化[35].三個(gè)卷積層通道數(shù)分別為512、256 和128,步長(zhǎng)均為2.三個(gè)全連接層維度分別為512、256 和1,均使用LeakyRelu 激活函數(shù).在訓(xùn)練過程中,將SSD 的 Conv4_3_relu 特征層作為域分類器D的輸入,此時(shí)卷積特征層為512×38×38,經(jīng)過3 個(gè)卷積層后大小變?yōu)?28×10×10,之后再將特征層轉(zhuǎn)變?yōu)橐痪S向量作為全連接層的輸入.

    1.5 自訓(xùn)練

    自訓(xùn)練是半監(jiān)督學(xué)習(xí)的一種常用方法,旨在使用預(yù)訓(xùn)練模型在沒有標(biāo)注的圖片上自動(dòng)生成偽標(biāo)注,并使用偽標(biāo)注進(jìn)行全監(jiān)督訓(xùn)練.在無(wú)監(jiān)督跨域檢測(cè)任務(wù)中,源域數(shù)據(jù)與目標(biāo)源數(shù)據(jù)分布不一致,在源域數(shù)據(jù)上訓(xùn)練好的模型很難泛化到目標(biāo)域,使得在目標(biāo)域訓(xùn)練集上的預(yù)測(cè)結(jié)果存在大量漏檢與誤檢.而使用這些帶有 “噪音”的偽標(biāo)簽進(jìn)行迭代自訓(xùn)練時(shí),會(huì)進(jìn)一步強(qiáng)化這些錯(cuò)誤的信息,并導(dǎo)致更多錯(cuò)誤標(biāo)簽的生成.為了有效地解決這個(gè)問題,本文采取漸進(jìn)自訓(xùn)練方法,使用像素級(jí)對(duì)齊和多源域特征對(duì)齊后的檢測(cè)模型在目標(biāo)域訓(xùn)練集上進(jìn)行預(yù)測(cè),從而提升偽標(biāo)簽的質(zhì)量.具體而言,設(shè)數(shù)據(jù)集的類別集合為C,則在目標(biāo)域上生成的偽標(biāo)簽為∈C,j=1,2,···,nT}.其中分別為第j張圖片的分類標(biāo)注集合與邊框標(biāo)注集合,nT為目標(biāo)域數(shù)據(jù)大小.使用訓(xùn)練好的檢測(cè)模型對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行預(yù)測(cè),設(shè)定閥值θ,當(dāng)預(yù)測(cè)邊框的分類置信得分大于閥值θ時(shí),則將對(duì)應(yīng)的邊框與類別加入到偽標(biāo)簽中,并在目標(biāo)域訓(xùn)練集上的得到最終的偽標(biāo)簽使用目標(biāo)域訓(xùn)練集及其生成的偽標(biāo)簽進(jìn)行訓(xùn)練,過程如下:

    圖6 多域不變特征表示Fig.6 Multi-domain-invariant representation

    式中,w為檢測(cè)模型訓(xùn)練參數(shù).以上自訓(xùn)練過程可以多次迭代進(jìn)行,以漸進(jìn)提升偽標(biāo)簽的質(zhì)量.

    1.6 提出方法整體框架

    根據(jù)上述各模塊描述,提出方法整體框架如圖2所示.圖2(a)為像素級(jí)域自適應(yīng)網(wǎng)絡(luò)框架,其通過基于特征分解的圖像翻譯,將源域圖像XS轉(zhuǎn)換為XS2T,并將源域的標(biāo)注信息遷移到生成的圖片中.圖2(b)為多域特征自適應(yīng)網(wǎng)絡(luò)框架.將圖2(a)中生成的翻譯圖像XS2T加入到源域中,實(shí)現(xiàn)多源域特征對(duì)齊的對(duì)抗訓(xùn)練.圖2(c)為自訓(xùn)練操作,用圖2(b)中訓(xùn)練好的模型對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行預(yù)測(cè)生成偽標(biāo)簽,并進(jìn)一步做微調(diào)訓(xùn)練,得到最終的檢測(cè)模型.

    2 實(shí)驗(yàn)結(jié)果

    2.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

    為了證明提出檢測(cè)模型的有效性,分別在2 組遷移集上進(jìn)行實(shí)驗(yàn),包括Cityscapes[9]→Foggy Cityscapes[10]和VOC07[36]→Clipart1k[17],并使用檢測(cè)平均精度(mAP)作為評(píng)價(jià)指標(biāo).兩組遷移集具體情況如下:

    1)移集1: Cityscapes→Foggy Cityscapes.Cityscapes 作為源域數(shù)據(jù)集,Foggy Cityscapes 作為目標(biāo)域數(shù)據(jù)集.其中,Cityscapes 共有2 975 張訓(xùn)練圖片,Foggy Cityscapes 是在Cityscapes 數(shù)據(jù)集中加入合成霧制作而成,其訓(xùn)練數(shù)據(jù)大小為2 975,有500 張測(cè)試圖片.源域與目標(biāo)域數(shù)據(jù)均有8 個(gè)檢測(cè)類別,圖片分辨率均為1 024×2 048,在訓(xùn)練過程中,將圖像尺寸設(shè)置為300×300.

    2)遷移集2: VOC07→Clipart1k.VOC07 作為源域數(shù)據(jù)集,Clipart1k 作為目標(biāo)域數(shù)據(jù)集.其中,VOC07 中的訓(xùn)練集和驗(yàn)證集均作為源域訓(xùn)練數(shù)據(jù)集,共有5 011 張圖片;Clipart1k 共1 000 張圖片,訓(xùn)練集與測(cè)試集分別為500 張.源域與目標(biāo)域數(shù)據(jù)均有20 個(gè)檢測(cè)類別,在訓(xùn)練過程中,將圖像尺寸設(shè)置為300×300.

    2.2 實(shí)驗(yàn)設(shè)置

    本文提出了一種漸進(jìn)對(duì)齊的無(wú)監(jiān)督跨域目標(biāo)檢測(cè)方法.其訓(xùn)練主要分為基本檢測(cè)模型、像素級(jí)特征對(duì)齊、多源域特征對(duì)齊和自訓(xùn)練4 個(gè)步驟:

    1)基本檢測(cè)模型: 使用源域數(shù)據(jù),參照SSD[8]的參數(shù)設(shè)置,得到一個(gè)基本的檢測(cè)模型.

    2)在像素級(jí)對(duì)齊網(wǎng)絡(luò)中,實(shí)現(xiàn)多樣性的圖像翻譯.輸入圖像大小為256×256,訓(xùn)練批次大小為1,所有網(wǎng)絡(luò)模型的權(quán)重使用均值為0、方差為0.02 的高斯分布進(jìn)行隨機(jī)初始化.分別設(shè)置參數(shù)=1,=1,λcycle=10,λself=10,λKL=0.01.采用Adam[37]優(yōu)化算法,一階矩估計(jì)的指數(shù)衰減率β1設(shè)定為0.5,二階矩估計(jì)的指數(shù)衰減率β2設(shè)定為0.999.共訓(xùn)練180 個(gè)周期,內(nèi)容判別器初始學(xué)習(xí)率為 4×10-5,其他網(wǎng)絡(luò)結(jié)構(gòu)的初始學(xué)習(xí)率為1.0×10-4,在訓(xùn)練90 個(gè)周期后,學(xué)習(xí)率均減小為原來(lái)的0.1 倍.然后,將基本檢測(cè)模型作為預(yù)訓(xùn)練模型,并將生成的多樣性圖像作為輸入,參照SSD的訓(xùn)練參數(shù),得到一個(gè)檢測(cè)模型.

    3)在多源域特征對(duì)齊網(wǎng)絡(luò)中,使用SSD 作為基本的檢測(cè)器,由于顯存的限制訓(xùn)練批次大小設(shè)置為6.在訓(xùn)練過程中,檢測(cè)網(wǎng)絡(luò)使用像素級(jí)對(duì)齊網(wǎng)絡(luò)中訓(xùn)練好的模型作為預(yù)訓(xùn)練模型,初始學(xué)習(xí)率為0.001,訓(xùn)練周期為30 000,每到10 000 次迭代周期時(shí)學(xué)習(xí)率變?yōu)樵瓉?lái)的0.1 倍,其他參數(shù)設(shè)置均與SSD中相同.領(lǐng)域分類器加在VGG16 網(wǎng)絡(luò)中Conv4_3_relu層,平衡參數(shù)λ=1,其網(wǎng)絡(luò)權(quán)重使用均值為0、方差為0.02 的高斯分布進(jìn)行隨機(jī)初始化.領(lǐng)域分類器的學(xué)習(xí)率為 1.0×10-4,采用Adam[37]優(yōu)化算法,一階矩估計(jì)的指數(shù)衰減率β1設(shè)定為0.9,二階矩估計(jì)的指數(shù)衰減率β2設(shè)定為0.99.

    4)在自訓(xùn)練過程中,使用多源特征對(duì)齊網(wǎng)絡(luò)訓(xùn)練好的模型作為初始模型,學(xué)習(xí)率為 1.0×10-5,訓(xùn)練批次樣本數(shù)為16,共訓(xùn)練10 000 批次,其他設(shè)置與SSD 相同.自訓(xùn)練過程共迭代3 次,每一輪迭代過程都以上一輪的最終模型預(yù)測(cè)生成偽標(biāo)注,并作為預(yù)訓(xùn)練模型進(jìn)行微調(diào)訓(xùn)練.以上所有實(shí)驗(yàn)均在Ubuntu18.04 操作系統(tǒng)上完成,并使用pytorch1.0、python3.6 和顯卡GeForce RTX 2070 進(jìn)行模型訓(xùn)練.

    2.3 實(shí)驗(yàn)結(jié)果分析

    通過上述的實(shí)驗(yàn)方案,分別得到了遷移集1 和遷移集2 中對(duì)目標(biāo)域的檢測(cè)結(jié)果,如表1 所示.其中,基線方法為只使用源域數(shù)據(jù)訓(xùn)練得到的檢測(cè)模型.在全監(jiān)督方法中,將基線方法得到的模型作為預(yù)訓(xùn)練模型,再使用帶有標(biāo)注信息的目標(biāo)域訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,該方法在目標(biāo)域測(cè)試集上得到的結(jié)果可作為最終檢測(cè)性能的上限.由表1 可以看出,本文方法的每一步操作均提升了性能.具體而言,在Cityscapes→Foggy Cityscapes 的遷移實(shí)驗(yàn)中,通過生成多樣性(M=3)翻譯圖像,實(shí)現(xiàn)了像素級(jí)對(duì)齊,將檢測(cè)結(jié)果提升12.1%.進(jìn)一步地實(shí)施多源域特征對(duì)齊,檢測(cè)結(jié)果由初始的17.4%提升到32.7%;單獨(dú)采用自訓(xùn)練方法,檢測(cè)結(jié)果提升了2.7%.最后,通過綜合多源特征對(duì)齊與自訓(xùn)練方法,檢測(cè)結(jié)果提升到了32.9%,只比全監(jiān)督檢測(cè)結(jié)果低0.1%.在VOC07→Clipart1k 實(shí)驗(yàn)中,通過結(jié)構(gòu)化多樣性圖像翻譯,生成M=3 種不同風(fēng)格的圖片.在像素級(jí)對(duì)齊實(shí)驗(yàn)中,相比基線模型檢測(cè)平均精度提升了8.6%;在多源特征對(duì)齊試驗(yàn)中,檢測(cè)結(jié)果由23.2%提升到36.2%;通過自訓(xùn)練,檢測(cè)結(jié)果提升了0.7%;綜合本文所提出的所有模塊,最終檢測(cè)結(jié)果提升了15.4%.同時(shí),本文也與其他方法進(jìn)行了對(duì)比,主要包括域自適應(yīng)對(duì)抗網(wǎng)絡(luò)(Domain-adaption adversarial network,DAAN)[33]、CycleGAN 以及域遷移(Domain transform,DT)[17].其中DAAN 主要通過對(duì)抗生成網(wǎng)絡(luò)實(shí)現(xiàn)了源域與目標(biāo)域特征級(jí)對(duì)齊,在訓(xùn)練時(shí),將領(lǐng)域分類器加在SSD 網(wǎng)絡(luò)中的Conv4_3_relu 層.CycleGAN得到從源域到目標(biāo)域上的翻譯圖片,將源域中的標(biāo)注信息遷移到翻譯圖片,并使用在源域數(shù)據(jù)上訓(xùn)練的檢測(cè)模型在翻譯圖片上做微調(diào)訓(xùn)練.DT 中的方法與本文的更為接近,其在CycleGAN 的基礎(chǔ)上,進(jìn)一步的使用訓(xùn)練好的模型在目標(biāo)域數(shù)據(jù)上生成偽標(biāo)簽并進(jìn)行微調(diào),以得到最終的檢測(cè)模型.不同于本文設(shè)定閾值得到偽標(biāo)注,DT 將在目標(biāo)域訓(xùn)練集上分類得分最高的預(yù)測(cè)邊框作為偽標(biāo)簽.由表1 可知,本文方法優(yōu)于以上各種方法.以Cityscapes→Foggy Cityscapes 的遷移實(shí)驗(yàn)為例,相比DAAN,本文最終結(jié)果提升了7%.CycleGAN 與本文中的像素級(jí)自適應(yīng)的思想類似.不同的是,本文基于特征分解的圖像翻譯,其生成的樣本具有多樣性,從而使得翻譯圖片包含了目標(biāo)域中更多不同方面的信息.由表1 可以看出,相較于CycleGAN[17]方法,本文提出的像素級(jí)自適應(yīng)網(wǎng)絡(luò)的檢測(cè)性能提升了1.6%(27.9%比29.5%).DT 在進(jìn)一步使用自訓(xùn)練方法后,性能反而降低了4.6% (27.9%比23.3%),其原因在于DT 通過取首位排名分類得分對(duì)應(yīng)的預(yù)測(cè)邊框作為圖像的偽標(biāo)注,存在大量分類得分較低的錯(cuò)誤標(biāo)注,并遺漏了許多可能為正樣本的標(biāo)注.而本文中采用的基于閾值選取偽標(biāo)注的方法,則可以避免大量的錯(cuò)誤標(biāo)注與遺漏標(biāo)注,從而更好地提升檢測(cè)性能.

    表1 不同目標(biāo)檢測(cè)方法mAP 性能對(duì)比 (%)Table 1 Comparison of different detection methods on performance of mAP (%)

    此外,由圖7 和圖8 可以看出,本文方法在大多數(shù)類別上取得了最好的檢測(cè)效果,實(shí)現(xiàn)了類別級(jí)的檢測(cè)遷移性能提升.圖9 和圖10 則分別給出了分類置信度閾值為0.5 時(shí)遷移集1 和遷移集2 中目標(biāo)域上不同方法的檢測(cè)結(jié)果.可以看出,其他方法中均存在不同程度的錯(cuò)檢和漏檢情況,而本文方法得到的檢測(cè)結(jié)果明顯更好.

    圖7 在Cityscapes → Foggy Cityscapes 實(shí)驗(yàn)中不同方法在所有8 個(gè)類別上的mAP 表現(xiàn)Fig.7 Percategory mAP performance of different approaches over all the 8 categories on the experiment Cityscapes → Foggy Cityscapes

    圖8 在VOC07 → Clipart1k 實(shí)驗(yàn)中不同方法在所有20 個(gè)類別上的mAP 表現(xiàn)Fig.8 Percategory mAP performance of different approaches over all the 20 categories on the experiment VOC07 → Clipart1k

    圖9 多種方法在Cityscapes → Foggy Cityscapes 實(shí)驗(yàn)中檢測(cè)結(jié)果對(duì)比Fig.9 Comparison of different detection methods in the Cityscapes → Foggy Cityscapes experiment

    圖10 不同方法在VOC07 → Clipart1k 實(shí)驗(yàn)中檢測(cè)結(jié)果對(duì)比Fig.10 Comparison of different detection methods in the VOC07 → Clipart1k experiment

    2.3.1 基于Faster R-CNN 檢測(cè)框架的實(shí)現(xiàn)與比較

    本文的實(shí)驗(yàn)主要基于SSD 檢測(cè)框架完成,為了證明本文方法具有更廣的適用性,以Faster R-CNN為基本檢測(cè)模型,并在Cityscapes→Foggy Cityscapes 遷移集上進(jìn)行驗(yàn)證.具體而言,在Faster RCNN 檢測(cè)器中,以VGG16 作為基本的特征提取網(wǎng)絡(luò),輸入圖像較短邊大小設(shè)置為600.在訓(xùn)練基本檢測(cè)模型性過程中,依照Faster R-CNN[6]中的參數(shù)設(shè)置.在像素級(jí)域自適應(yīng)網(wǎng)絡(luò)中,使用基本檢測(cè)模型為預(yù)訓(xùn)練模型,學(xué)習(xí)率設(shè)置為0.001,迭代訓(xùn)練10 個(gè)周期.在特征級(jí)域適應(yīng)方法中,學(xué)習(xí)率設(shè)置為0.001,迭代訓(xùn)練10 個(gè)周期.其他參數(shù)設(shè)置均與Faster R-CNN[6]中相同.平衡參數(shù)λ=1,領(lǐng)域分類器加在VGG16 網(wǎng)路中Conv5_3_relu層,學(xué)習(xí)率為0.0001,采用Adam 優(yōu)化算法,一階矩估計(jì)的指數(shù)衰減率β1設(shè)定為0.9,二階矩估計(jì)的指數(shù)衰減率β2設(shè)定為0.99.在自訓(xùn)練過程中,只進(jìn)行一次迭代訓(xùn)練.取閾值θ=0.5,使用多源特征對(duì)齊網(wǎng)絡(luò)訓(xùn)練好的模型作為預(yù)訓(xùn)練模型,學(xué)習(xí)率為0.0001,單批次樣本數(shù)為1,共迭代訓(xùn)練20 000 次,其他設(shè)置與Faster R-CNN[6]相同.此外,不同于以上采用分步漸進(jìn)訓(xùn)練的方法,同時(shí)設(shè)計(jì)以VGG16 作為預(yù)訓(xùn)練模型,將像素級(jí)與特征級(jí)域自適應(yīng)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練.其中,初始學(xué)習(xí)率為0.01,訓(xùn)練次數(shù)為60 000,在迭代次數(shù)為40 000 時(shí),學(xué)習(xí)率變?yōu)樵瓉?lái)的0.1 倍.其他其他設(shè)置與Faster R-CNN[6]相同.整個(gè)訓(xùn)練過程中訓(xùn)練批次大小設(shè)置為1.實(shí)驗(yàn)結(jié)果如表2 所示,本文在對(duì)像素級(jí)對(duì)齊與特征級(jí)對(duì)齊網(wǎng)絡(luò)逐步訓(xùn)練時(shí),在目標(biāo)域上的檢測(cè)性能為38.7%.然后再進(jìn)一步自訓(xùn)練,平均準(zhǔn)確率達(dá)到了39.9%,這比原始的Faster R-CNN 模型提升了17.4%,而相較于全監(jiān)督方法,只差0.8%.同時(shí),相比對(duì)像素級(jí)對(duì)齊與特征級(jí)對(duì)齊網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,分步漸進(jìn)訓(xùn)練的方法取得了更好的效果,檢測(cè)平均精度要高出1.8%(38.7%比36.9%).

    表2 在 Cityscapes → Foggy Cityscapes 實(shí)驗(yàn)中基于Faster R-CNN 的不同跨域檢測(cè)方法性能對(duì)比 (%)Table 2 Comparison of different cross-domain detection methods based on Faster R-CNN detector in Cityscapes → Foggy Cityscapes (%)

    為了驗(yàn)證本文方法的有效性,本文與當(dāng)前最新進(jìn)的9 種無(wú)監(jiān)督跨域目標(biāo)檢測(cè)方法進(jìn)行了對(duì)比.其中,域自適應(yīng)Faster R-CNN[19]采用圖像級(jí)與實(shí)例級(jí)特征對(duì)齊的方法,實(shí)現(xiàn)源域與目標(biāo)域的對(duì)齊;DT[17]先使用CycleGAN 得到從源域到目標(biāo)域的翻譯圖像,以實(shí)現(xiàn)像素級(jí)的域自適應(yīng).然后再使用自訓(xùn)練方式,以進(jìn)一步減小源域與目標(biāo)域之間在高層語(yǔ)義特征的域差異;選擇性跨域?qū)R[21]為了緩解全局特征對(duì)齊的局限性,通過聚類的方式得到不同的提取區(qū)域,以實(shí)現(xiàn)更細(xì)節(jié)的局部對(duì)齊;多對(duì)抗超快速區(qū)域卷積網(wǎng)絡(luò)[23]、強(qiáng)弱分布對(duì)齊[20]和多層域自適應(yīng)[24]通過對(duì)不同特征層的對(duì)齊,以實(shí)現(xiàn)源域與目標(biāo)域淺層特征與深層特征的適配.域自適應(yīng)表示學(xué)習(xí)[18]使用CycelGAN 生成多樣性的圖像,然后再實(shí)現(xiàn)了多領(lǐng)域不變的特征表示;一致性教師客體關(guān)系[22]則使用了一致性教師訓(xùn)練的方法實(shí)現(xiàn)的方法實(shí)現(xiàn)高效的跨域檢測(cè);加噪標(biāo)簽[26]則采用在目標(biāo)域上生成偽標(biāo)注并進(jìn)一步對(duì)偽標(biāo)注進(jìn)行修正的方式來(lái)提升在目標(biāo)域上的檢測(cè)性能.由表2 可以看出,本文方法取得了更好的跨域檢測(cè)性能,即便在不使用自訓(xùn)練方法的情況下,在特征級(jí)對(duì)齊網(wǎng)絡(luò)中得到的檢測(cè)結(jié)果也比當(dāng)前最好的方法加噪標(biāo)簽高出2.2%.具體來(lái)說,域自適應(yīng)Faster R-CNN、選擇性跨域?qū)R、多對(duì)抗超快速區(qū)域卷積網(wǎng)絡(luò)、強(qiáng)弱分布對(duì)齊、多層域自適應(yīng)和MTOR 主要使用了不同策略的特征級(jí)對(duì)齊方法,相比于本文采用的多域?qū)沟姆椒?本文得到了更好的檢測(cè)性能.DT 和DMRL 均使用CycleGAN 生成從源域到目標(biāo)域的翻譯圖像,即便在只使用像素級(jí)對(duì)齊網(wǎng)絡(luò)的情況下,本文的檢測(cè)結(jié)果也更優(yōu).加噪標(biāo)簽則主要是使用自訓(xùn)練的策略,與本文得到的結(jié)果最為接近.加噪標(biāo)簽通過在源域上訓(xùn)練好的模型在目標(biāo)域上預(yù)測(cè)生成帶有噪聲的偽標(biāo)注,然后使用分類網(wǎng)絡(luò)對(duì)這些偽標(biāo)注進(jìn)行修正,并進(jìn)一步用于自訓(xùn)練.這種自訓(xùn)練策略,值得本文借鑒.最后,通過對(duì)每一個(gè)類別檢測(cè)結(jié)果的對(duì)比,可以看到本文提出的方法不僅實(shí)現(xiàn)了平均檢測(cè)精度的最優(yōu),而且也實(shí)現(xiàn)了類級(jí)別的跨域檢測(cè)性能提升,域檢測(cè)性能提升和性能提升.

    2.3.2 不同數(shù)據(jù)集上的性能比較

    在Cityscapes→Foggy Cityscapes 實(shí)驗(yàn)中,源域與目標(biāo)域訓(xùn)練數(shù)據(jù)數(shù)量相同,且Foggy Cityscapes 主要由Cityscapes 加入霧生成,二者之間有著完全相同的空間結(jié)構(gòu)信息.此時(shí),源域與目標(biāo)域數(shù)據(jù)差異相對(duì)較小.在VOC07→Clipart1k 實(shí)驗(yàn)中,源域有5 011 張圖片,目標(biāo)域只有500 張訓(xùn)練圖片,而且源域與目標(biāo)域空間信息不盡相同.因此,這組數(shù)據(jù)中源域與目標(biāo)域差異相對(duì)較大.圖11 分析了本文提出方法的每一成分對(duì)結(jié)果的影響.可以看出,在遷移集1 上的遷移效果較好,這也與遷移集1 中源域與目標(biāo)域差異更小的看法相符.其中,像素級(jí)對(duì)齊在遷移集1 上效果提升更明顯,而加入多源域特征對(duì)齊后,在遷移集2 上有更大的提升(3.2%比4.4%).在單獨(dú)使用自訓(xùn)練的情況下,在遷移集1上的檢測(cè)提升性能更好(2.7%比 0.7%),而在進(jìn)一步采取像素級(jí)對(duì)齊與特征級(jí)對(duì)齊后,自訓(xùn)練方法在遷移集2 上效果更明顯(0.2%比2.4%).這是因?yàn)?相對(duì)而言,遷移集1 中的域差異比遷移集2 中的更小,則在只使用源域數(shù)據(jù)訓(xùn)練得到的檢測(cè)模型在遷移集1 中可以生成更好的偽標(biāo)注.在采取像素級(jí)對(duì)齊與特征級(jí)對(duì)齊后,檢測(cè)模型在遷移集1 中的結(jié)果已經(jīng)相當(dāng)接近全監(jiān)督下的檢測(cè)結(jié)果,再使用自訓(xùn)練則容易發(fā)生過擬合.而在遷移集2 則可以得到質(zhì)量更好的初始偽標(biāo)注,從而更有利于檢測(cè)性能的提升.由上可見,不同的方法在不同的數(shù)據(jù)集上有不同的效果,但綜合不同的方法可以彌補(bǔ)各自方法的不足,進(jìn)而實(shí)現(xiàn)更好的遷移檢測(cè)性能.

    圖11 每一成分對(duì)mAP 的提升Fig.11 The mAP gain of each component

    2.3.3 源域數(shù)量的影響

    通過基于結(jié)構(gòu)分解的多樣性圖像翻譯,可以得到不同風(fēng)格屬性的翻譯圖片,并將其作為源域數(shù)據(jù)集.在得到多樣性翻譯圖像時(shí),有兩種策略: 1)將源域圖像與隨機(jī)的屬性特征相結(jié)合,如隨機(jī)噪聲;2)將源域圖像與指定的屬性圖片相結(jié)合,這里主要指目標(biāo)域中的圖片屬性.圖12 展示了由Cityscapes→Foggy Cityscapes 生成的3 種不同風(fēng)格的圖片.其中,第一列為輸入的不同內(nèi)容屬性圖片,最上面一行為3 種不同的目標(biāo)域風(fēng)格屬性,其在顏色、色調(diào)、紋理、風(fēng)格等方面存在差異.通過將每一張?jiān)从騼?nèi)容圖片與目標(biāo)域的風(fēng)格屬性相結(jié)合,從而可以為每一張內(nèi)容圖片生成多種帶有目標(biāo)域不同風(fēng)格的翻譯圖像.他們分別保留了源域圖片的空間內(nèi)容特征,卻帶有不同的風(fēng)格屬性.這樣生成的多樣性圖片包含了目標(biāo)域不同方面的信息,通過特征提取可以得到多樣性的特征表達(dá),然后再使用多域特征對(duì)齊網(wǎng)絡(luò),得到多個(gè)領(lǐng)域不變的特征表示,從而具有更好的魯棒性與泛化性能.此外,通過將源域圖片與隨機(jī)屬性如高斯噪聲相結(jié)合,也能生成隨機(jī)的多樣性翻譯圖像.由圖12 可以看出,使用目標(biāo)域?qū)偬卣魃傻姆g圖像在表觀特征上與目標(biāo)域更為相似.不同的是,使用CycleGAN 只能得到單一屬性的翻譯圖像.

    圖12 圖像翻譯結(jié)果示例圖Fig.12 Sample results of translated images

    源域數(shù)據(jù)的多樣性直接影響到最終的檢測(cè)結(jié)果,表3 給出了源域數(shù)量M對(duì)實(shí)驗(yàn)結(jié)果的影響.當(dāng)M=0時(shí),為基本的檢測(cè)模型.可以直觀地看出,在像素級(jí)對(duì)齊和多源域特征對(duì)齊實(shí)驗(yàn)中,隨著源域數(shù)據(jù)多樣性M的增加,在目標(biāo)域上的檢測(cè)結(jié)果不斷提升.在多樣性圖像翻譯過程中,可以將源域圖片的內(nèi)容特征與任意的目標(biāo)域風(fēng)格屬性特征相結(jié)合,因此可以得到多種不同風(fēng)格的翻譯圖片.受限于顯卡內(nèi)存,本文只取了M=3,在實(shí)際應(yīng)用中可以取更大的M值,并在理論上得到比本文報(bào)告中更好的檢測(cè)遷移效果.同時(shí),不同的屬性特征也會(huì)影響到最終的檢測(cè)性能.表4 給出了不同屬性特征對(duì)目標(biāo)域最終檢測(cè)結(jié)果的影響.由表4 可以看出,在基于SSD 或Faster R-CNN 的跨域檢測(cè)框架下,通過使用目標(biāo)域指定屬性得到的檢測(cè)結(jié)果都明顯優(yōu)于隨機(jī)屬性得到的檢測(cè)結(jié)果.

    表3 在Cityscapes → Foggy Cityscapes 實(shí)驗(yàn)中源域數(shù)量 M 對(duì)檢測(cè)性能的影響 (%)Table 3 Impact of the number of source domainsM on the detection performance in Cityscapes→Foggy Cityscapes (%)

    表4 Cityscapes → Foggy Cityscapes 實(shí)驗(yàn)中屬性特征對(duì)檢測(cè)性能的影響 (%)Table 4 Impact of attribute features on the detection performance in Cityscapes → Foggy Cityscapes (%)

    2.3.4 參數(shù) λ 敏感性分析

    在多源域特征對(duì)齊的訓(xùn)練過程中,式(11)中參數(shù)λ的設(shè)置對(duì)檢測(cè)損失與對(duì)抗損失的平衡起到關(guān)鍵作用.表5 給出了VOC07→Clipart1k 實(shí)驗(yàn)中,不同λ取值得到的檢測(cè)結(jié)果.從表中可以看出,在多源域特征對(duì)齊網(wǎng)絡(luò)中,參數(shù)λ的取值過大或過小都不利于最終的檢測(cè)結(jié)果.當(dāng)參數(shù)λ過小時(shí),多源域判別器的梯度反向傳播值相對(duì)較小,因此不能很好地訓(xùn)練判別器以得到多個(gè)領(lǐng)域不變的特征表示;當(dāng)參數(shù)λ過大時(shí),多源域判別器會(huì)反向傳播不正確的梯度值,將不利于檢測(cè)性能的提升.

    表5 在VOC07 → Clipart1k 實(shí)驗(yàn)中參數(shù) λ 的敏感性分析 (%)Table 5 Sensitivity analysis of λ in VOC07 → Clipart1k (%)

    2.3.5 閾值 θ 的敏感性分析

    在自訓(xùn)練過程中,根據(jù)在目標(biāo)域訓(xùn)練集上的預(yù)測(cè)邊框分類得分來(lái)選取偽標(biāo)注.當(dāng)閾值θ取值較高時(shí),盡管得到的偽標(biāo)注更為可信,但會(huì)遺漏大量的有用標(biāo)注.當(dāng)閾值θ值較小時(shí),預(yù)測(cè)分類得分較低的邊框包含其中,從而造成大量的錯(cuò)誤標(biāo)注.因此,閾值θ設(shè)定直接影響到生成的偽標(biāo)注的質(zhì)量.表6給出了VOC07→Clipart1k 試驗(yàn)中,不同θ取值得到的檢測(cè)結(jié)果.可以看到,在第一輪自訓(xùn)練過程中,當(dāng)θ=0.2 時(shí)取得了最好的檢測(cè)效果.由于目標(biāo)域訓(xùn)練數(shù)據(jù)比較少(只有500 張圖片),當(dāng)閾值θ較大時(shí),大量的圖片上無(wú)法生成偽標(biāo)注.此外,本文分析了多輪自訓(xùn)練的策略.通過設(shè)置不同的閾值θ,在每輪自訓(xùn)練后,選取效果最好的θ.由于第1 輪自訓(xùn)練后模型的性能漸進(jìn)提升,在下一輪自訓(xùn)練時(shí),將只選取更大的θ,以生成更為可靠的偽標(biāo)注.如表6 所示,總共進(jìn)行了3 輪自訓(xùn)練.在第2 輪自訓(xùn)練時(shí),在閾值θ=0.6 或θ=0.7 時(shí)取得了最好的效果.而在第3 輪自訓(xùn)練時(shí),已無(wú)法再提升模型的檢測(cè)性能.通過這種多輪次與漸進(jìn)提升閾值θ的自訓(xùn)練策略,可以有效提升在目標(biāo)域上的檢測(cè)性能.

    表6 在VOC07 → Clipart1k 實(shí)驗(yàn)中閾值 θ 的敏感性分析 (%)Table 6 Sensitivity analysis of θ in VOC07 → Clipart1k (%)

    3 結(jié)束語(yǔ)

    本文提出了一種基于漸進(jìn)對(duì)齊的無(wú)監(jiān)督跨域目標(biāo)檢測(cè)算法.首先,針對(duì)現(xiàn)有圖像翻譯中生成圖像風(fēng)格單一、語(yǔ)義結(jié)構(gòu)信息不一致的問題,通過圖像特征分解實(shí)現(xiàn)圖像的結(jié)構(gòu)化翻譯,將源域的內(nèi)容特征與目標(biāo)域的任意屬性特征結(jié)合,生成了從源域到目標(biāo)域映射的多樣性圖片,并將源域的標(biāo)注信息遷移到生成數(shù)據(jù),實(shí)現(xiàn)了像素級(jí)域自適應(yīng);其次,為了避免單源域遷移中特征對(duì)齊時(shí)出現(xiàn)的源域偏向性問題,設(shè)計(jì)多領(lǐng)域自適應(yīng)網(wǎng)絡(luò),得到多領(lǐng)域不變的特征表示,實(shí)現(xiàn)了多樣性特征級(jí)域自適應(yīng);最后,通過自訓(xùn)練在目標(biāo)域上生成偽標(biāo)簽,進(jìn)一步提升了模型在目標(biāo)域上的檢測(cè)性能.多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的算法取得了令人滿意的效果.與此同時(shí),由于本文在實(shí)現(xiàn)遷移的過程中給予了每個(gè)源域樣本同等的權(quán)重考慮,而沒有考慮不同樣本對(duì)目標(biāo)域的遷移效果,這個(gè)問題可作為開展下一步研究工作的方向.

    猜你喜歡
    源域特征圖像
    多源域適應(yīng)方法綜述
    改進(jìn)的LapSRN遙感圖像超分辨重建
    基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
    有趣的圖像詩(shī)
    如何表達(dá)“特征”
    不忠誠(chéng)的四個(gè)特征
    抓住特征巧觀察
    可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
    線性代數(shù)的應(yīng)用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    遙感圖像幾何糾正中GCP選取
    黑山县| 林甸县| 平远县| 综艺| 分宜县| 娱乐| 阜新| 长子县| 天台县| 和顺县| 阳城县| 涿州市| 和龙市| 五家渠市| 许昌县| 资溪县| 拉孜县| 平阳县| 韶关市| 大港区| 军事| 东阿县| 襄垣县| 桃园市| 杭锦后旗| 嘉义市| 永清县| 呼伦贝尔市| 临高县| 哈密市| 克东县| 桂平市| 铜川市| 金阳县| 株洲县| 高台县| 类乌齐县| 甘孜县| 荣成市| 榆树市| 临夏市|