付苗苗,杜光星(通信作者)
(1洛陽師范學(xué)院信息技術(shù)學(xué)院 河南 洛陽 471000)
(2武漢理工大學(xué)計算機(jī)與人工智能學(xué)院 湖北 武漢 430070)
圖像匹配用于幾何對齊傳感器在相同或不同時間從不同視點拍攝的同一場景的多個圖像,是圖像處理中的一項最重要且最基礎(chǔ)的任務(wù)。圖像匹配不僅廣泛應(yīng)用于圖像分類與檢索、圖像拼接以及3D重建等計算機(jī)視覺任務(wù)中,還應(yīng)用于人臉識別和指紋解鎖等實際工程應(yīng)用中。圖像匹配方法分為基于區(qū)域的方法和基于特征的方法2種類型[1]。基于區(qū)域的圖像匹配方法處理圖像用于檢查參考圖像和感測圖像之間像素的相似性,而無需使用優(yōu)化算法檢測顯著特征。但該方法會受到強(qiáng)度分布、光照變化和噪聲引起的幾何變形的影響,具有局限性。而基于特征的圖像匹配方法直接使用從兩幅圖像中提取的顯著特征匹配,不受圖像強(qiáng)度值影響,更適合光照變化和復(fù)雜的幾何變形?;谔卣鞯膱D像匹配由于其靈活性、魯棒性和廣闊的應(yīng)用前景而受到國內(nèi)外科研工作者的廣泛關(guān)注。
由于深度學(xué)習(xí)技術(shù)在深度特征獲取和非線性表達(dá)方面具有強(qiáng)大能力,常被應(yīng)用于圖像信息表示或相似性度量,是當(dāng)前圖像匹配任務(wù)中的熱點話題。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的圖像局部特征描述已被證明具有更好的匹配性能和更大的潛力。一般基于局部特征描述的圖像匹配方法通常分為如圖1所示的3個步驟。
圖1 基于局部特征描述的圖像匹配方法流程圖
文章全面客觀的比較與分析當(dāng)前主流傳統(tǒng)經(jīng)驗驅(qū)動的基于手工設(shè)計的圖像局部特征描述方法和由數(shù)據(jù)驅(qū)動的基于深度學(xué)習(xí)的圖像局部特征描述方法,總結(jié)圖像局部特征描述的現(xiàn)狀,以期為未來該領(lǐng)域研究者給出一定的參考。
基于梯度的圖像局部特征描述方法因在多種應(yīng)用中均有良好性能表現(xiàn)而受到研究者的廣泛關(guān)注,其中最具有代表性的是Lowe[1]在1999年所發(fā)表,并在2004年得到修正完善的尺度不變特征變換(Scale-invariant feature transform,SIFT)方法。該方法將獲取的支撐區(qū)域劃分成4×4的子區(qū)域,并對每個子區(qū)域中的直方圖進(jìn)行統(tǒng)計,然后將這些直方圖串連并進(jìn)行歸一化得到一個128維的特征描述向量,即為SIFT描述子(如圖2所示),其在視角變化、尺度變化、旋轉(zhuǎn)變化等多種圖像變化的圖像上表現(xiàn)出較強(qiáng)的區(qū)分性。但該描述子在場景較復(fù)雜的圖像上表現(xiàn)的匹配性能不佳。王志衡等[2]受到SIFT描述子鄰域位置劃分思想的啟發(fā)而提出了直線特征描述子MSLD,接著又將其應(yīng)用到曲線特征描述當(dāng)中,從而獲得了曲線特征描述子MSCD。MSLD(如圖3所示)和MSCD描述子分別解決了因直線和曲線長短不一而造成直線與曲線無法統(tǒng)一描述的問題,但在視角變換圖像上,圖像變形會使區(qū)域形狀發(fā)生畸變,從而導(dǎo)致描述子匹配能力下降。陳璐璐等[3]通過采用梯度序映射的方法獲得描述子GOCD,該描述子是基于全局梯度幅值級來劃分子區(qū)域和局部梯度序映射的,因此其不但能夠克服因采用固定形狀來劃分子區(qū)域的相關(guān)算法而產(chǎn)生的邊界誤差缺陷問題,還能克服因圖像遮擋而造成的錯誤匹配問題,但存在匹配速度較慢的缺陷。
圖2 SIFT描述子
圖3 直線特征描述子MSLD
基于圖像亮度的圖像局部特征方法用于比較不同位置采樣的像素的亮度,目前許多方法都是使用像素值的順序而不是原始亮度來設(shè)計的,亮度對旋轉(zhuǎn)和單調(diào)的強(qiáng)度變化是具有不變性的,它還將有序信息編碼到描述符中,同時可以保持描述子的旋轉(zhuǎn)不變性,而無需估計參考方向(如SIFT),這是大多數(shù)現(xiàn)有方法的主要誤差源。智珊珊等[4]受到根據(jù)亮度序映射來對子區(qū)域進(jìn)行劃分的思想啟發(fā)而提出了局部特征描述子IOCD,該方法在旋轉(zhuǎn)變化、視角變化、光照變化、噪聲變化等多種圖像變化上表現(xiàn)出較強(qiáng)的區(qū)分性和良好的匹配性能。但若圖像上存在遮擋或陰影情況時,根據(jù)亮度序映射來劃分子區(qū)域時會出現(xiàn)子區(qū)域錯誤劃分的狀況,從而導(dǎo)致不正確的匹配。王志衡等[5]在MSCD的基礎(chǔ)上,通過將亮度序劃分子區(qū)域的方法引入而提出了描述子IOMSD,該算法是根據(jù)全局梯度幅值序列和亮度序映射構(gòu)建的,該算法原理簡單、穩(wěn)定,但在弱紋理圖像上并不適用。江燕等[6]在已有的IOMSD和IOCD基礎(chǔ)上,通過將重疊亮度序劃分的思想引入而提出曲線特征描述子OIOMSD和OIOCD,兩個算法在一般的變換圖像上表現(xiàn)出較強(qiáng)的區(qū)分性和良好的匹配性能,特別是OIOCD在非線性光照變化圖像上表現(xiàn)出更好的區(qū)分性和魯棒性,但對尺度變化并不適用。
近年來,隨著大量實時系統(tǒng)和嵌入式設(shè)備的廣泛應(yīng)用,對空間占用小和匹配速度高的描述子的需求越來越高,因此該領(lǐng)域相關(guān)的研究人員也提出了許多存儲空間占用更少與匹配速度更快的二值描述子。LBP需要根據(jù)給定圖像塊的LBP特征,在像素距離r處將像素的灰度亮度與相鄰像素k的灰度亮度進(jìn)行比較,可以從比較中獲得表示感興趣點處灰度亮度與其每個相鄰點灰度亮度之間關(guān)系的二元向量,該方法具有在旋轉(zhuǎn)變化和灰度上具有較強(qiáng)的區(qū)分性等優(yōu)點,但其不僅會在運算時產(chǎn)生較長的直方圖,而且在平面圖像區(qū)域中魯棒性不明顯。Huang等[7]提出了BGP,在局部區(qū)域提取結(jié)構(gòu)梯度模式作為二值描述子,BGP及其增強(qiáng)的BGPM對各種變化具有魯棒性。Liu等[8]提出了BDVRP,該算法是通過聯(lián)合引入的局部梯度特征信息和灰度特征信息來對關(guān)鍵點周圍的特征信息進(jìn)行描述表達(dá)。以上幾種描述子都是基于局部二值模式統(tǒng)計信息進(jìn)行確定的。
二值描述子的另一種形式是基于局部特征信息的比較,其核心是比較選擇規(guī)則。Calonder等[9]提出了BRIEF,該算法是通過圖像拼接中幾個隨機(jī)點對強(qiáng)度的二進(jìn)制測試結(jié)果串聯(lián)而成。Gao等[10]提出了LTD,與BRIEF相比,LTD引入了一個閾值,將兩個像素的差異描述為三個值,與BRIEF相比,其可分辨性更高,同時對圖像變形更具有魯棒性。這些二值型描述子占有更少的存儲空間且擁有更快的匹配速度,極大地促進(jìn)了相關(guān)應(yīng)用的發(fā)展。
隨著深度學(xué)習(xí)在圖像識別任務(wù)中的不斷成功,近年來,利用深度學(xué)習(xí)進(jìn)行圖像局部特征描述和匹配的嘗試也顯示了巨大的機(jī)遇?;谏疃葘W(xué)習(xí)的圖像局部特征描述方法其實可以當(dāng)做是對基于學(xué)習(xí)方法的擴(kuò)充。Tian等[11]提出了基于不帶度量學(xué)習(xí)層的全卷積結(jié)構(gòu)的CNN模型L2-Net(如圖4所示),并在訓(xùn)練過程中比較了所有正樣本和負(fù)樣本之間的距離,這大大超過了以前的方法的性能,進(jìn)而表明L2-Net可以作為現(xiàn)有手工描述子的直接替代。Mishchuk等[12]提出了HardNet,在訓(xùn)練時只考慮一批訓(xùn)練數(shù)據(jù)中正樣本與最難分辨的負(fù)樣本之間的距離,進(jìn)一步提高了網(wǎng)絡(luò)的匹配性能?;粽紡?qiáng)等[13]通過直接從原圖像塊中進(jìn)行訓(xùn)練學(xué)習(xí)而獲得了直線特征描述子,并在相關(guān)實驗中取得了良好的性能,但由于構(gòu)造的訓(xùn)練樣本缺乏多樣性,該方法對遮擋和低紋理變化較為敏感。
圖4 L2-Net網(wǎng)絡(luò)架構(gòu)圖
圖像局部特征描述作為圖像匹配技術(shù)當(dāng)中的核心算法已被廣泛應(yīng)用于3D重建、智慧安防、視頻導(dǎo)航、指紋解鎖、零件自動檢測和質(zhì)量檢測等視覺和實際工程領(lǐng)域當(dāng)中。局部圖像特征描述方法是把局部區(qū)域描述成一個具有唯一性的特征描述子。一個魯棒的描述子應(yīng)該對于匹配塊不會因為視角、光照、旋轉(zhuǎn)、模糊和噪音等的變化而變化,同時對于非匹配塊要保持不同圖像塊之間的區(qū)分性。
在過去的幾十年里,相關(guān)研究人員在這一領(lǐng)域也取得了重大進(jìn)展。因此本文對現(xiàn)有的圖像局部特征描述方法(從手工設(shè)計到可訓(xùn)練的)進(jìn)行了全面的回顧,以便為該領(lǐng)域的研究人員提供更好的參考和理解,本文做了以下總結(jié):
(1)在實際的應(yīng)用過程中,常常遇到復(fù)雜且多樣的圖像變換情況,而傳統(tǒng)經(jīng)驗驅(qū)動的基于手工設(shè)計的圖像局部特征描述方法在面對復(fù)雜環(huán)境時,已經(jīng)無法取得令人滿意的結(jié)果,并且基于手工設(shè)計的方法幾乎接近瓶頸。
(2)近年來,深度學(xué)習(xí)在諸多視覺任務(wù)中也成功地展現(xiàn)出了其具有強(qiáng)大的函數(shù)擬合能力。而局部圖像特征描述算法的本質(zhì)任務(wù)也是設(shè)計一個復(fù)雜的函數(shù)映射使得相同物理的局部圖像輸出距離相近的特征向量,同時保證不同物理的局部圖像輸出距離較大的特征向量。因此,為了能夠充分利用深度學(xué)習(xí)的強(qiáng)大學(xué)習(xí)能力,基于深度學(xué)習(xí)設(shè)計局部圖像特征描述算法以獲得更加強(qiáng)區(qū)分性的特征描述子也是研究發(fā)展的必然趨勢。
(3)但是數(shù)據(jù)驅(qū)動的基于深度學(xué)習(xí)的圖像局部特征描述方法也有一些不足之處。該類方法的缺陷表現(xiàn)為:訓(xùn)練樣本缺乏多樣性且泛化的問題,如今不能獲得具有普遍且通用的數(shù)據(jù)集,因此導(dǎo)致在面對訓(xùn)練數(shù)據(jù)集中未出現(xiàn)的場景圖像時具有較強(qiáng)的敏感性。這其實是圖像局部特征描述方法的最大且重要的問題之一。與此同時,由于加入深度學(xué)習(xí)而加大了計算量,一部分方法需要加入大量的運行內(nèi)存、性能較好的CPU以及顯存較高的GPU,然而這對低功耗與實時性要求較為嚴(yán)格的領(lǐng)域便顯得更加明顯。
(4)近年來,隨著深度遷移學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)以及多任務(wù)學(xué)習(xí)的不斷深入發(fā)展,不僅可以看到解決訓(xùn)練樣本不足且多樣性問題的曙光,還可看到局部特征描述與圖像匹配使用一個框架來解決的曙光。