霍占強(qiáng),劉玉潔,付苗苗,喬應(yīng)旭
(河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南焦作 454000)
基于特征的圖像匹配一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn),被廣泛應(yīng)用于各種視覺(jué)應(yīng)用,如對(duì)象和場(chǎng)景識(shí)別[1-2]、目標(biāo)跟蹤[3]、3D 重建[4-5]、圖像配準(zhǔn)[6-7]和圖像拼接[8-9]等。特征描述是圖像特征匹配中的重要步驟,描述子的性能直接影響后續(xù)的視覺(jué)應(yīng)用效果,因此,需要設(shè)計(jì)高效且魯棒性強(qiáng)的圖像特征描述方法。
在各種圖像特征中,特征點(diǎn)描述子得到廣泛研究。早期的特征點(diǎn)描述主要基于手工設(shè)計(jì)方法,具有代表性的特征點(diǎn)描述子包括浮點(diǎn)型描述子和二值型描述子。浮點(diǎn)型描述子包含SIFT(Scale-Invariant Feature Transform)[10]、DSP-SIFT(Domain-Size Pooling-Scale-Invariant Feature Transform)[11]、SURF(Speeded Up Robust Features)[12]和DAISY[13]等,二值型描述子包含BRIEF(Binary Robust Independent Elementary Feature)[14]、BRISK(Binary Robust Invariant Scalable Keypoints)[15]和FREAK(the Fast Retina Keypoint)[16]等。除了手工設(shè)計(jì)方法外,研究人員還提出基于學(xué)習(xí)的局部特征描述方法,如線性判別嵌入學(xué)習(xí)方法[17]和模塊化組合優(yōu)化學(xué)習(xí)方法[18]。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,基于深度學(xué)習(xí)的局部特征描述方法相繼被提出。文獻(xiàn)[19]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)學(xué)習(xí)塊描述子,利用ImageNet[20]訓(xùn)練卷積網(wǎng)絡(luò),在最后一層網(wǎng)絡(luò)中得到的特征優(yōu)于SIFT。文獻(xiàn)[21]采用共享參數(shù)的“雙塔”型網(wǎng)絡(luò)提取特征,然后將串聯(lián)特征作為度量網(wǎng)絡(luò)的輸入,其取得了較好的效果。文獻(xiàn)[22]提出一種基于困難樣本挖掘的訓(xùn)練策略,在相對(duì)淺的網(wǎng)絡(luò)結(jié)構(gòu)下取得了較好效果。文獻(xiàn)[23]提出L2Net,其能有效利用網(wǎng)絡(luò)中間卷積層的判別信息,大幅提高匹配性能。基于L2Net的網(wǎng)絡(luò)結(jié)構(gòu),文獻(xiàn)[24]提出HardNet,其使用三元組損失函數(shù),通過(guò)最大化每批次中最接近的正樣本與負(fù)樣本之間的距離來(lái)獲得更緊湊的描述子,HardNet的描述性能較L2Net 進(jìn)一步提升。文獻(xiàn)[25]認(rèn)為優(yōu)秀的特征描述方法應(yīng)該使不同的特征點(diǎn)均勻分布在特征空間中,在該假設(shè)下,提出基于負(fù)樣本距離第二矩的正則項(xiàng)。
除了特征點(diǎn)外,直線也是重要的圖像特征,其可捕獲圖像中的邊緣或紋理信息,因此,直線特征比點(diǎn)特征包含更多的結(jié)構(gòu)信息。另外,在諸如城市建筑物和道路等人造物體和場(chǎng)景中,存在大量的重復(fù)紋理或弱紋理區(qū)域,使得特征點(diǎn)描述子的匹配性能大幅下降。與點(diǎn)相比,直線包含更大的紋理區(qū)域以及更多的幾何信息,能夠?yàn)橹本€匹配提供更多的約束條件,從而有助于提高匹配性能[26]。但是,由于斷裂、遮擋等原因,2 條匹配直線的長(zhǎng)度可能不同,因此直線匹配也面臨一些特定的問(wèn)題。
目前,研究人員提出多種直線匹配方法,大體分為基于幾何關(guān)系的方法和基于統(tǒng)計(jì)的方法兩類。在基于幾何關(guān)系的方法中,文獻(xiàn)[27]提出基于圖像平面射影不變量的直線匹配算法,該算法選擇2 條直線和2 個(gè)點(diǎn)擬合局部單應(yīng)性矩陣,然后利用該單應(yīng)性矩陣進(jìn)行直線匹配。文獻(xiàn)[26]利用直線和點(diǎn)的關(guān)系構(gòu)造幾何不變量從而實(shí)現(xiàn)直線匹配,由于該方法依賴點(diǎn)的對(duì)應(yīng)關(guān)系,因此不適用于弱紋理場(chǎng)景的圖像匹配任務(wù)。在基于統(tǒng)計(jì)的方法中,文獻(xiàn)[28]受SIFT 的啟發(fā),提出均值標(biāo)準(zhǔn)差線描述子(Mean-Standard Deviation Line Descriptor,MSLD),將直線上每個(gè)點(diǎn)的支持區(qū)域劃分為重疊的子區(qū)域,然后計(jì)算梯度描述矩陣(Gradient Description Matrix,GDM),將該子區(qū)域表示為向量,為了避免直線長(zhǎng)度不一致的影響,統(tǒng)計(jì)GDM 列向量的均值和標(biāo)準(zhǔn)差,獲得與直線長(zhǎng)度無(wú)關(guān)的線描述子。文獻(xiàn)[29]利用平行線間較小的間距,加入尺度不變描述,構(gòu)造尺度不變的描述子SMSLD(Scale-invariant Mean-Standard deviation Line Descriptor),以提高寬基線下的匹配精度。文獻(xiàn)[30]引入亮度序劃分思想,提出基于亮度序的曲線描述子(Intensity Order Curve Descriptor,IOCD),其對(duì)扭曲、形變等變換圖像具有較好的魯棒性。文獻(xiàn)[31]將LBD(Line Band Descriptor)與幾何屬性相結(jié)合以解決匹配問(wèn)題,首先使用LBD 生成候選直線匹配,然后利用候選匹配的兩兩幾何屬性建立關(guān)系圖,在此基礎(chǔ)上獲得最終的匹配關(guān)系。文獻(xiàn)[32]結(jié)合直線的幾何屬性、局部外觀和直線鄰域的結(jié)構(gòu)上下文,提出一種雙視圖直線匹配算法,其適用于低紋理圖像的直線匹配任務(wù)。
近年來(lái),在各種視覺(jué)任務(wù)中,CNN 表現(xiàn)出其強(qiáng)大的特征提取與描述能力。然而,目前的線特征描述仍然基于傳統(tǒng)的手工設(shè)計(jì)方法。本文使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)直線特征的描述,提出一種基于CNN 的直線特征描述子,以實(shí)現(xiàn)高效的直線匹配。引入標(biāo)注匹配信息的大規(guī)模直線數(shù)據(jù)集,用于網(wǎng)絡(luò)的訓(xùn)練和測(cè)試,以驗(yàn)證該直線描述方法在圖像視角、模糊、尺度和旋轉(zhuǎn)等因素變化情況下的匹配性能。
為學(xué)習(xí)強(qiáng)魯棒性的直線特征描述子,本文構(gòu)建用于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的直線特征數(shù)據(jù)集,并對(duì)直線是否匹配進(jìn)行標(biāo)記。
以互聯(lián)網(wǎng)下載或戶外拍照的方式收集不同場(chǎng)景下的圖像,獲得大約5 600 對(duì)圖像,考慮到所收集圖像應(yīng)包含盡可能多的直線特征,因此大部分圖像為建筑物。同時(shí),這些圖像包括多種變換,如模糊、噪聲、旋轉(zhuǎn)、視角、尺度、光照和壓縮。圖1 所示為數(shù)據(jù)集中不同圖像變換的示例,每一行中第一幅為參考圖像,其余為不同變換程度的目標(biāo)圖像。
圖1 圖像變換示例Fig.1 Example of image transformations
利用Canny 邊緣檢測(cè)算子[33]獲取圖像的邊緣信息,然后去除曲率較大的點(diǎn),剔除長(zhǎng)度小于20 像素的較短直線,最終得到圖像中的檢測(cè)直線。隨后,為獲得匹配的直線對(duì),使用IOCD 描述子[30]對(duì)收集到的約5 600 對(duì)圖像進(jìn)行直線匹配,獲得潛在的匹配直線對(duì)。為確保匹配結(jié)果的準(zhǔn)確性,采用人工剔除錯(cuò)誤匹配的方法,將潛在匹配直線對(duì)中的錯(cuò)誤匹配剔除,獲得訓(xùn)練所需的約20.8 萬(wàn)對(duì)正確匹配直線。圖2所示為每種圖像變換下正確匹配的直線對(duì)數(shù)量。
圖2 不同圖像變換下正確匹配的直線對(duì)數(shù)量Fig.2 The number of matching line pairs correctly under different image transformations
在獲得匹配直線對(duì)后,為能夠利用網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對(duì)直線對(duì)是否匹配進(jìn)行標(biāo)記,標(biāo)記方法如下:將2 個(gè)連續(xù)數(shù)字i和i+1(i=0,2,…)分別分配給匹配的2條直線,作為它們的ID,同時(shí)存儲(chǔ)每條直線上各點(diǎn)的位置信息,例如,2 條直線的ID 分別是12 和13,則這2 條直線是匹配直線對(duì)。為得到非匹配的直線對(duì),只需從直線集中選擇ID 為i、j且j≠i+1 的直線對(duì)即可,例如,i=14、j=16 的2 條直線則為非匹配直線對(duì)。
本文利用直線周圍的局部圖像塊來(lái)表征該直線,對(duì)于圖像中由K個(gè)點(diǎn)組成的直線L,L上的像素點(diǎn)表示為Pi(i=1,2,…,K),直線L對(duì)應(yīng)局部圖像塊的提取方式為:
1)以點(diǎn)Pi(i=1,2,…,K)為中心,取該點(diǎn)周圍鄰域中大小為64×64 的正方形區(qū)域作為點(diǎn)Pi的支撐區(qū)域,表示為矩陣Ω(Pi)。
2)計(jì)算直線L與水平線之間的夾角θ:
其中,(x1,y1)和(x2,y2)分別表示直線L的2 個(gè)端點(diǎn)坐標(biāo)。
3)以點(diǎn)Pi為中心逆時(shí)針旋轉(zhuǎn)Ω(Pi),獲得點(diǎn)Pi的旋轉(zhuǎn)支撐區(qū)域,表示為Ω′(Pi):
其中,(x,y)是Ω(Pi)內(nèi)像素點(diǎn)的坐標(biāo),(X,Y)是旋轉(zhuǎn)后支撐區(qū)域Ω′(Pi)內(nèi)(x,y)對(duì)應(yīng)的坐標(biāo)。
4)根據(jù)各點(diǎn)的支撐區(qū)域得到直線L的支撐區(qū)域,表示為Ω(L):
其中,Ω(L)的大小為64×(32+K+32)。
由于檢測(cè)直線中包含的像素點(diǎn)數(shù)目不同,即直線長(zhǎng)短不一,導(dǎo)致直線支撐區(qū)域Ω(L)的大小也不同。為確保網(wǎng)絡(luò)輸入的一致性,本文利用線性插值方法將上述直線L的支撐區(qū)域Ω(L)轉(zhuǎn)換為大小為64×N的圖像塊,表示為矩陣M(L),其中,64 表示M(L)的高度,N表示M(L)的長(zhǎng)度。
圖3 所示為直線圖像塊的獲取過(guò)程:從原始圖像A和B中分別獲取匹配直線L和L′,然后依據(jù)直線的梯度方向獲取對(duì)應(yīng)的支撐區(qū)域Ω(L)和Ω(L′),隨后進(jìn)行尺寸歸一化得到最終的圖像塊M(L)和M(L′)。從圖3 可以看出,盡管2 條直線存在旋轉(zhuǎn)變化,但根據(jù)本文方法獲得的2 條直線的局部圖像塊非常相似,從而為獲取魯棒的直線特征描述提供支撐。
圖3 直線圖像塊獲取過(guò)程Fig.3 Acquisition process of line image blocks
近年來(lái),HardNet[24]在寬基線立體匹配、塊驗(yàn)證和實(shí)例檢索等方面表現(xiàn)出優(yōu)越性能。本文以HardNet 模型架構(gòu)為基礎(chǔ),學(xué)習(xí)直線特征描述子。HardNet 網(wǎng)絡(luò)架構(gòu)采用7 層全卷積網(wǎng)絡(luò)結(jié)構(gòu),在每個(gè)卷積層之后使用批量標(biāo)準(zhǔn)化,并通過(guò)改變卷積的步長(zhǎng)值實(shí)現(xiàn)降采樣操作。原始HardNet 訓(xùn)練集中的圖像大小為64×64,而本文直線圖像塊大小為64×N。為適應(yīng)本文圖像塊的尺寸,將最后一層卷積核的大小由8×8 改為16×32。圖4 所示為N取128 時(shí)本文神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),輸入為64×128 的圖像塊,輸出為128 維的直線描述子。
圖4 本文神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.4 Neural network model structure in this paper
三元組損失函數(shù)[24]在點(diǎn)特征描述方面具有優(yōu)越的學(xué)習(xí)能力,本文使用三元組損失函數(shù)來(lái)最大化訓(xùn)練數(shù)據(jù)中正樣本和與其最接近的負(fù)樣本之間的距離。三元組損失函數(shù)表示如下:
其中,t表示訓(xùn)練過(guò)程中每批次生成的三元組個(gè)數(shù),計(jì)算向量ai與向量bi之間的距離,ai代表直線L的描述子,bi代表直線L′的描述子,直線L和直線L′是圖像對(duì)中的一對(duì)匹配直線,即ai與bi為一對(duì)匹配的描述子,bjmin表示該批次生成的三元組中最接近ai的不匹配描述子,jmin=minj=1,2,…,n,j≠i d(ai,bj),akmin表示最接近bi的不匹配描述子,kmin=mink=1,2,…,n,k≠id(ak,bi)。
圖5 三元組的獲取過(guò)程Fig.5 Acquisition process of triples
將構(gòu)造的直線特征數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集2 個(gè)子集。訓(xùn)練集包含約16.7 萬(wàn)對(duì)匹配圖像塊,通過(guò)每批次生成512 個(gè)三元組的形式,共產(chǎn)生約360 萬(wàn)個(gè)三元組用于訓(xùn)練。測(cè)試集包含約4.1 萬(wàn)對(duì)匹配圖像塊和4.1 萬(wàn)對(duì)不匹配圖像塊,其中,不匹配圖像塊從匹配圖像塊數(shù)據(jù)集中隨機(jī)組合獲得。
網(wǎng)絡(luò)的訓(xùn)練參數(shù)設(shè)置如下:權(quán)值初始化為增益0.6、偏差0.01 的正交項(xiàng),優(yōu)化過(guò)程采用隨機(jī)梯度下降法,初始學(xué)習(xí)率為0.1,訓(xùn)練過(guò)程中每個(gè)學(xué)習(xí)周期的學(xué)習(xí)率降低,權(quán)值衰減為0.000 1,訓(xùn)練樣本的批量大小設(shè)置為512。需要注意的是,圖像塊在輸入模型之前需要進(jìn)行歸一化處理,即對(duì)于每個(gè)圖像塊,需要減去均值然后除以標(biāo)準(zhǔn)差,其中,均值和標(biāo)準(zhǔn)差從所有的訓(xùn)練圖像塊中計(jì)算得到。
在完成模型訓(xùn)練后,將測(cè)試集圖像塊輸入模型,得到所有圖像塊的描述子,然后計(jì)算這些描述子之間的距離值,對(duì)所有距離值進(jìn)行排序并計(jì)算正確率,進(jìn)而判斷模型是否收斂。
為評(píng)估本文基于CNN 的直線特征描述子的性能,使用與點(diǎn)特征描述子相同的評(píng)價(jià)指標(biāo),即FPR95(當(dāng)TPR(True Positive Rate)等于95%時(shí)的FPR(False Positive Rate))和mAP(mean Average Precision)[34]。具體地,在參數(shù)選擇過(guò)程中,根據(jù)式(6),在TPR=0.95 時(shí)計(jì)算FPR95。
其中,F(xiàn)P 表示不匹配樣本被預(yù)測(cè)為匹配樣本的數(shù)目,TN 表示不匹配樣本被正確預(yù)測(cè)為不匹配樣本的數(shù)目。FPR 值越小,說(shuō)明模型訓(xùn)練越好,得到的描述子性能越高。
對(duì)于圖像匹配,采用mAP 作為性能評(píng)估指標(biāo)。首先,計(jì)算圖像對(duì)上正確匹配類別的AP(Average Precision)為:
其中,n表示預(yù)測(cè)結(jié)果中檢索到的正確匹配直線對(duì)總數(shù),P表示預(yù)測(cè)結(jié)果中檢索到的正確匹配直線對(duì)總數(shù)與檢索到的直線對(duì)總數(shù)的比率。mAP 可以計(jì)算為:
其中,m為測(cè)試集中匹配與不匹配直線對(duì)的總數(shù)。
3.3.1 圖像塊尺寸確定
由于2 幅圖像中檢測(cè)到的匹配直線的長(zhǎng)度存在差異,因此2 條直線的原始支撐區(qū)域的大小不同。為了降低神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)復(fù)雜性,本文利用雙線性差值將直線圖像塊變換成大小為64×N的圖像塊。為了確定合適的N值,本節(jié)測(cè)試64、128 和256 三個(gè)不同N值的效果。當(dāng)輸入不同大小的圖像塊時(shí),分別進(jìn)行訓(xùn)練以獲取不同的模型,在訓(xùn)練期間僅需根據(jù)不同的N值來(lái)修改不同模型的輸入大小和輸出層的卷積核大小。對(duì)于所有模型,最終均輸出128 維的直線描述子。
圖6 所示為輸入不同尺寸的圖像塊時(shí),測(cè)試集在7 個(gè)訓(xùn)練周期內(nèi)的FPR95 值情況。從圖6 可以看出,圖像塊的大小會(huì)對(duì)描述子的性能產(chǎn)生影響。在3 個(gè)尺寸中,64×64 的圖像塊尺寸最小,對(duì)于較長(zhǎng)的直線特征可能會(huì)丟失更多信息,64×256 大小的圖像塊包含較長(zhǎng)直線特征的更多信息,但對(duì)于較短直線而言并不友好。在網(wǎng)絡(luò)的收斂速度方面,64×256 大小的圖像塊收斂速度最快,其次是64×128,最后是64×64。在最后一個(gè)訓(xùn)練周期中,64×256 和64×128 大小的圖像塊訓(xùn)練得到的FPR95值非常相近??紤]到計(jì)算機(jī)的內(nèi)存和速度,本文最終選擇大小為64×128 的圖像塊作為后續(xù)實(shí)驗(yàn)中神經(jīng)網(wǎng)絡(luò)的輸入圖像塊。
圖6 不同直線塊的訓(xùn)練結(jié)果Fig.6 Training results of different linear blocks
3.3.2 描述子維數(shù)確定
描述子的維數(shù)也會(huì)對(duì)匹配性能產(chǎn)生影響。為選擇合適的直線描述子維數(shù),本節(jié)分別評(píng)估32、64、128、256 和512 維數(shù)下的描述子性能,在訓(xùn)練期間僅需更改最終輸出層的維數(shù)便可獲得不同維數(shù)下的描述子。圖7 所示為描述子維數(shù)不同時(shí)測(cè)試集在5 個(gè)訓(xùn)練周期內(nèi)獲得的FPR95 值情況。
圖7 不同維數(shù)描述子的訓(xùn)練結(jié)果Fig.7 Training results of descriptor with different dimensions
從圖7 可以看出,相比其他維數(shù)的描述子,512 維的描述子在訓(xùn)練開(kāi)始時(shí)便得到最小的FPR95值,在第3 個(gè)訓(xùn)練周期,256 維和128 維的描述子達(dá)到與512 維描述子相近的性能。但是,描述子的維數(shù)越高,其訓(xùn)練時(shí)間越長(zhǎng),所需的訓(xùn)練參數(shù)也越多,從而導(dǎo)致計(jì)算成本增加。因此,為更加高效地訓(xùn)練神經(jīng)網(wǎng)絡(luò),本文后續(xù)所有實(shí)驗(yàn)均輸出128 維的描述子。
3.3.3 不同圖像變換下的性能評(píng)估
在確定網(wǎng)絡(luò)訓(xùn)練時(shí)輸入、輸出的最佳參數(shù)后,本節(jié)對(duì)學(xué)習(xí)到的描述子性能進(jìn)行評(píng)估。表1 所示為描述子在不同圖像變換下的FPR95 值,非常低的FPR95 值表明獲得的描述子在各種圖像變換下都具有較強(qiáng)的區(qū)分性。此外,與FPR95 值均大于1 的點(diǎn)特征描述子[24]相比,本文提出的直線特征描述子的FPR95 值更小,表明該描述子可以對(duì)圖像塊進(jìn)行更多的區(qū)分性描述。
表1 不同圖像變換下的FPR95 值Table 1 FPR95 values under different image transformations %
為進(jìn)一步評(píng)估基于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的直線描述子的性能,本節(jié)執(zhí)行圖像匹配任務(wù),利用不同描述子對(duì)參考圖像R和目標(biāo)圖像T中的直線進(jìn)行匹配,以評(píng)估描述子的性能。首先獲得參考圖像R中的直線圖像塊以及目標(biāo)圖像T中的直線圖像塊,分別記為MR={M(Li,i=1,2,…,NR)}和MT={M(Li,i=1,2,…,NT)},其中,NR是參考圖像R中檢測(cè)出的直線數(shù),NT為目標(biāo)圖像T中檢測(cè)出的直線數(shù);然后將MR和MT分別輸入經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中,并輸出大小分別為128×NR和128×NT的描述矩陣;隨后計(jì)算這2 個(gè)描述矩陣中各個(gè)描述子之間的歐氏距離;最后采用最近鄰與次近鄰的距離比(NNDR)匹配準(zhǔn)則獲得2 幅圖像的最終匹配結(jié)果。
在實(shí)驗(yàn)中,將本文所提描述子與MSLD[28]和IOCD[30]2 個(gè)基于手工設(shè)計(jì)方法的描述子進(jìn)行性能對(duì)比。MSLD 是一種簡(jiǎn)單且有效的算法,可以在沒(méi)有任何約束的情況下執(zhí)行,并且對(duì)于各種圖像變換都具有很強(qiáng)的區(qū)分性和魯棒性。IOCD 算法根據(jù)鄰域中像素強(qiáng)度的大小順序來(lái)劃分子區(qū)域,對(duì)幾何光學(xué)變換較大的圖像匹配效果較好。實(shí)驗(yàn)使用Oxford 數(shù)據(jù)集[34]和文獻(xiàn)[31]中的圖像集。Oxford 是特征匹配任務(wù)中廣泛使用的數(shù)據(jù)集,但其中部分圖像直線特征較少。文獻(xiàn)[31]中的數(shù)據(jù)集包含豐富的直線特征。在對(duì)比過(guò)程中,所有算法均采用相同的方法獲取檢測(cè)直線,將本文描述子稱為L(zhǎng)P-HardNet,使用mAP 作為性能評(píng)估指標(biāo)。
3.4.1 Oxford 數(shù)據(jù)集匹配結(jié)果
如圖8 所示,Oxford 數(shù)據(jù)集包含各種圖像變換,如圖像模糊(Bikes 和Trees)、視角(Graffiti 和Wall)、光照(Leuven)、JPEG 壓縮(Ubc)以及旋轉(zhuǎn)(Boat)。Oxford 數(shù)據(jù)集中包含7 組圖像,每組6 幅圖像,第一幅圖像作為參考圖像,其他圖像作為目標(biāo)圖像,圖像變換的程度逐漸增加。
圖8 Oxford 數(shù)據(jù)集Fig.8 Oxford dataset
圖9 所示為Oxford 數(shù)據(jù)集上MSLD、IOCD 和本文LP-HardNet 描述子的匹配結(jié)果。
圖9 3 種描述子在Oxford 數(shù)據(jù)集上的匹配結(jié)果對(duì)比Fig.9 Comparison of matching results of three descriptors on Oxford dataset
從圖9 可以看出,LP-HardNet 描述子在每種圖像變換下都取得最佳的匹配結(jié)果,與MSLD 描述子相比,平均匹配性能提高11.48%,與IOCD 相比,平均匹配性能提高12.67%,證明了所提描述子的有效性及在圖像匹配任務(wù)中的優(yōu)越性。同時(shí)可以看出,在視角變化和模糊變化下,LP-HardNet 描述子的性能提高最為明顯,在光照變化和壓縮變化的圖像變換中,LP-HardNet 描述子性能改善較小,對(duì)于具有尺度變化和旋轉(zhuǎn)變化的Boat 圖像序列,LP-HardNet 描述子能取得明顯的性能提升,相比MSLD 提升17.34%,相比IOCD 提升12.31%。
除匹配精度以外,正確匹配的直線數(shù)也是評(píng)判圖像匹配方法性能高低的重要因素。表2 所示為Oxford 數(shù)據(jù)集上不同描述子的正確匹配直線總數(shù)。從表2 可以看出,與其他2 個(gè)描述子相比,在具有相同數(shù)量檢測(cè)直線的情況下,LP-HardNet 描述子正確匹配直線的總數(shù)明顯提高。
表2 3種描述子在Oxford數(shù)據(jù)集上的正確匹配直線數(shù)量Table 2 The number of correct matching lines of three descriptors on Oxford dataset
3.4.2 直線數(shù)據(jù)集匹配結(jié)果
圖10 所示為文獻(xiàn)[31]中的直線數(shù)據(jù)集圖像序列,該數(shù)據(jù)集包含視角、尺度、遮擋和低紋理4 種不同的圖像變換。與Oxford 數(shù)據(jù)集中的圖像分布相同,該數(shù)據(jù)集中的每一組包含6 幅圖像,第一幅圖像作為參考圖像,其他圖像作為目標(biāo)圖像,且圖像變換程度逐漸增加。與Oxford 數(shù)據(jù)集不同,該圖像集主要包含人工場(chǎng)景,可以提取出更多的直線特征。
圖10 直線數(shù)據(jù)集Fig.10 Line dataset
圖11 所示為直線數(shù)據(jù)集上MSLD、IOCD 和本文LP-HardNet 描述子的匹配結(jié)果。從圖11 可以看出,LP-HardNet 在尺度變化中具有明顯優(yōu)勢(shì),對(duì)于遮擋和低紋理變化,LP-HardNet 的性能與MSLD 和IOCD 相似。表3 所示為3 種描述子在直線數(shù)據(jù)集上的正確匹配直線數(shù)。從表3 可以看出,LP-HardNet對(duì)直線特征描述具有較好的適應(yīng)性和可擴(kuò)展性。
圖11 3 種描述子在直線數(shù)據(jù)集上的匹配結(jié)果對(duì)比Fig.11 Comparison of matching results of three descriptors on line dataset
表3 3 種描述子在直線數(shù)據(jù)集上的正確匹配直線數(shù)量Table 3 The number of correct matching lines of three descriptors on line dataset
為進(jìn)一步驗(yàn)證本文所提描述子的有效性,從圖10直線數(shù)據(jù)集的每組圖像中選取一對(duì)圖像(每組參考圖像與目標(biāo)圖像中的第2 幅圖像),使用LP-HardNet描述子和LBD 描述子[31]進(jìn)行直線匹配。由于LBD 描述子采用LSD(Line Segment Detector)[35]方法提取直線特征[36],因此對(duì)選取的圖像重新進(jìn)行直線檢測(cè),保證2 種描述子對(duì)相同的直線進(jìn)行描述。同時(shí),為突出描述子的性能,獲得直線的LBD 描述子后,同樣使用NNDR 匹配準(zhǔn)則而非文獻(xiàn)[31]所述的幾何約束。表4所示為L(zhǎng)PHardNet 和LBD 描述子在4 對(duì)圖像中的AP 值,從表4可以看出,LP-HardNet 描述子的AP 值均高于LBD 描述子。對(duì)于遮擋和低紋理變換,2 種描述子的性能差異較小,而對(duì)于視角和尺度變換,LP-HardNet描述子的性能明顯優(yōu)于LBD 描述子,原因是在這2 種圖像變換下,文獻(xiàn)[31]所提的幾何約束對(duì)匹配性能有明顯提升,而本文對(duì)比實(shí)驗(yàn)并未利用該幾何約束。圖12所示為NNDR閾值為0.8 時(shí)LP-HardNet 描述子在4 對(duì)圖像中的直線匹配結(jié)果,該結(jié)果驗(yàn)證了LP-HardNet描述子的有效性。
表4 2 種描述子在4 對(duì)圖像上的AP 值Table 4 AP values of two descriptors on four pairs of images %
圖12 LP-HardNet 描述子的匹配結(jié)果Fig.12 Matching results of the LP-HardNet descriptor
圖像拼接是將數(shù)張有重疊部分的圖像(可能時(shí)間不同或視角不同)拼成一幅無(wú)縫全景圖的技術(shù),拼接效果直接影響后續(xù)的處理結(jié)果。本文將LPHardNet 描述子應(yīng)用于基于圖像匹配和圖像融合的圖像拼接任務(wù),實(shí)現(xiàn)過(guò)程為:首先使用LP-HardNet 描述子對(duì)待拼接的2 幅圖像進(jìn)行直線匹配,通過(guò)Harris[37]角點(diǎn)檢測(cè)器獲取匹配直線上的對(duì)應(yīng)特征點(diǎn),然后采用RANSAC 算法獲得變換矩陣,基于該變換矩陣實(shí)現(xiàn)圖像拼接。圖13 所示為經(jīng)典SIFT 點(diǎn)描述子和所提LP-HardNet 線描述子的圖像拼接結(jié)果,圖13(a)是需要拼接的2 組圖像,圖13(b)和圖13(c)分別是SIFT 和LP-HardNet 的拼接結(jié)果。從中可以看出,對(duì)于復(fù)雜場(chǎng)景圖像和簡(jiǎn)單紋理場(chǎng)景圖像,LPHardNet 描述子均可以獲得較好的拼接效果,與SIFT 拼接結(jié)果近似,證明本文基于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的直線特征描述子具有良好的描述性能。
圖13 圖像拼接結(jié)果Fig.13 Results of images mosaic
本文設(shè)計(jì)一種基于卷積神經(jīng)網(wǎng)絡(luò)的直線特征描述子LP-HardNet。為利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)獲得直線描述子,構(gòu)造標(biāo)注匹配直線和非匹配直線的大規(guī)模直線圖像塊數(shù)據(jù)集,將其輸入HardNet 網(wǎng)絡(luò)進(jìn)行訓(xùn)練并輸出直線描述子。通過(guò)執(zhí)行圖像匹配任務(wù)對(duì)LP-HardNet 描述子的性能進(jìn)行評(píng)估,結(jié)果表明,在視角、模糊、尺度和旋轉(zhuǎn)變化下,LP-HardNet 的描述性能均優(yōu)于傳統(tǒng)的手工設(shè)計(jì)描述子,此外,在圖像拼接任務(wù)中的應(yīng)用效果也顯示出LP-HardNet 描述子的優(yōu)越性能,驗(yàn)證了數(shù)據(jù)驅(qū)動(dòng)的網(wǎng)絡(luò)學(xué)習(xí)方法在圖像拼接中的有效性。下一步將研究不同的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)對(duì)直線特征描述子學(xué)習(xí)效果的影響。