和 青,潘志松,羅健欣
(陸軍工程大學指揮控制工程學院 江蘇 南京 210007)
圖像是人類獲取信息最直接的方式,而在圖像處理的各類研究中,圖像拼接技術是一個重要課題。在研究項目或工程科學中往往需要用到超寬視角且具有高分辨率的圖像,放眼當下的圖像捕獲技術,只能通過犧牲分辨率為代價調整相機焦距的方法獲得具有大視角的全景圖像,但是低分辨率的圖像往往又難以滿足工程項目或科學研究的要求。為獲得具有較大的視域以及較高的分辨率的全景圖像,往往需要用到費用高昂且操作復雜的廣角鏡頭和掃描式照相機,即便如此,獲取的圖像仍然存在廣角鏡頭引起的扭曲、失真等現象。
針對以上問題,20 世紀90 年代中期圖像拼接技術應運而生,圖像拼接的本質是對多張具有重疊部分的圖像通過圖像配準等處理后,縫合成為一張具有更廣視角、更高分辨率的圖像。在將深度學習引入圖像拼接領域之前,傳統(tǒng)的圖像拼接技術主要為特征點法和光流法,其中主流的研究方向是特征點法,通過對拼接圖像進行特征點提取、特征點匹配、單應性矩陣估計等一系列處理完成圖像拼接。隨著深度學習的興起,Detone D[1]首次提出將混合輕量化神經網絡運用于圖像拼接技術研究,解決了傳統(tǒng)圖像拼接方法中特征點依賴和模型過大等問題,開啟了圖像拼接技術研究的新篇章。隨后,更多基于深度學習的圖像拼接網絡模型不斷提出,通過深度學習改進傳統(tǒng)圖像拼接方法成為目前研究的重要方向。
圖像拼接就是將具有重疊區(qū)域的若干圖像(大于或等于兩張)按照一定的規(guī)則進行變形,然后對齊一系列重疊空間,最終獲得一個具有更廣闊的視野、更豐富的內容、更高分辨率的高清無縫的圖像。圖像拼接分為4 個步驟,包括圖像配準、重投影、縫合和融合,其中圖像配準和融合是直接影響拼接性能的兩個最重要的因素。圖像配準算法可以分為基于空間域和基于頻域兩種,而其中基于頻域的圖像配準算法又包括基于輪廓的圖像拼接和基于底部特征的圖像拼接兩個小類。直接進行輪廓檢測的圖像配準方法需要的計算量和運算空間大,在實際應用中很少單獨使用,基于特征的圖像配準算法進行圖像拼接是主流的方法。
圖像配準是指搜索待拼接圖像中的有效特征點并進行配對,從而使圖像之間相互匹配,配準過程的精度和時間復雜度會直接影響整個圖像拼接時間和最終的效果[2]。
基于特征的圖像配準方法是目前圖像拼接的一個主流方法,其流程見圖1?;谔卣鞯膱D像拼接方法提取的特征主要包括點特征、線特征和面特征3 類,其中相較于其他特征,點特征在取出源數據中的冗余數據的基礎上能提供更多細微的信息,使得提取精度更高,因此基于點特征提取的圖像配準方法是圖像拼接技術研究中主流的方法?;邳c特征提取的圖像配準方法包括基于SIFT 的配準方法、基于SURF 的配準方法、基于ORB 的配準方法等。
首先,為了在圖像與圖像之間建立穩(wěn)定的關系,需要在具有重疊部分的兩幅圖像之間找到重疊區(qū)域之間的對應關系,但是逐一對每個像素進行比對計算需要花費大量時間和人力物力,因此對輸入的圖像組進行特征提取是圖像拼接一個重要的環(huán)節(jié),選擇具有平移、旋轉、放射不變性的具有明顯特征容易分辨的像素點,不僅可以極大程度的減少耗費的人力物力,而且對噪聲、光線變化也具有魯棒性。為了使圖像配準具有更高的精度和更強的魯棒性,提取的點特征至少需要滿足一下幾個特性:尺度不變性、旋轉不變性、幾何不變性、光照不變性,其中最重要的是尺度不變性和旋轉不變性[3]。
哥倫比亞大學的Dacid G.Lowe 教授[4]于1999 年第一次提出了Scale-invariant feature transform(SIFT)算法,即尺度不變特征變換算法,并于2004 年對SIFT 算法進行了總結完善,由于該算法提取的特征不僅保留了旋轉、平移、尺度不變性,具備優(yōu)越的穩(wěn)定性,并且對噪聲、光照和仿射變化也具有較好的魯棒性,該算法仍在圖像處理的多個領域發(fā)揮著重要的作用。SIFT 通過高斯微分函數識別潛在的對尺度和旋轉不變的興趣點,關鍵點需要滿足比周圍像素點的對比度高和不是邊緣點兩個要求,然后基于圖像局部的梯度方向,給每個關鍵點位置分配一個或者多個方向,最后在每個關鍵點的周圍領域內,在選定的尺度上測量圖像局部的梯度。
K.Sharm[5]在2011 年的ICCV 上提出了一種新的特征點檢測算法——Oriented FAST and Rotateg BRIEF(ORB)算法,該算法可以快速地對圖像中的關鍵點創(chuàng)建可以用于識別圖像中的對象的特征向量。ORB 算法雖然運行速度比SIFT 算法和SURF 算法快很多,但是犧牲了對于特征的細致描述和算法的穩(wěn)定性。表1 中比較了這幾類配準算法的性能,對像素為405×304 的圖像使用不同的特征提取方法提取特征點比較其性能,其中計算速度等于檢測到圖中特征點的個數除以運行時間,單位是:個/ms。
表1 各配準算法性能比較
然后,基于特征的圖像配準對提取到的特征點通常使用隨機抽樣一致算法(Random Sample Consensus,RANSAC)進行特征點匹配,排除不能正確匹配的點。RANSAC 算法是一種不確定性算法,隨機選擇一些數據,這些數據通常包含較大的噪聲或者無效點,假設一個用于解釋觀測數據的參數化模型,然后采用迭代的方式從包含異常值的數據中估計出數學模型的參數。最后,通過RANSAC算法得到的正確匹配點對用于單一性矩陣計算,找到待拼接圖像之間的扭曲關系,實現圖像拼接。
近年來,由于深度學習的發(fā)展,越來越多的研究者試圖通過神經網絡來解決傳統(tǒng)圖像拼接方法中的遺留問題,例如有研究者提出使用卷積神經網絡代替特征點提取和特征點匹配步驟,不依賴于特征點而直接估計圖像與圖像直接的配準關系,這樣可以有效地改善傳統(tǒng)方法中的特征點依賴問題?;谏疃葘W習的圖像拼接方法包括有監(jiān)督的[1]和無監(jiān)督的[6],提出了用卷積神經網絡進行單應性矩陣估計的基本模型。由于直接預測出單應性矩陣的參數比較困難,因此這兩種算法都用到了4 點參數化的單應性矩陣,通過一個VGG Net風格的網絡估計出圖像之間的配準關系,其網絡結構見圖2。不同點在于,有監(jiān)督的算法要求輸入地面真值(GT)來監(jiān)督訓練,因此只能用于合成由GT 單應性扭曲的目標圖像,對真實圖像的泛化能力較差。無監(jiān)督的算法,通過逐像素計算由單應性扭曲之后的圖像與原圖像之間的光度損失作為損失函數來訓練網絡,不需要GT,并且對真實世界圖像的對齊效果更好。
2018 年,Detone 等[7]提出了一個自監(jiān)督訓練的特征點檢測和描述符提取的算法模型,用于改善圖像拼接技術的性能。該模型不僅可以運行在大格式圖像上,并且在一次向前傳輸中一起計算像素級特征點的位置和描述符。Super Point 的結構是encoder-decoder,見圖3,其輸入是兩張單應變換的圖像,即其中一種圖像是由另一張圖像進行某種單應性變化得到的,decoder 部分分為特征點和描述子兩個部分,在描述子部分先學習半稠密的描述子然后進行雙三次插值算法得到完整的描述子,最后通過L2規(guī)范化將描述子轉化為單位長度的描述。
這些基于深度學習的算法雖然在一定程度上解決了傳統(tǒng)圖像拼接技術中的問題,提高了拼接算法的魯棒性,但是仍然存在兩個嚴重缺陷,其一是相對于圖像計算的損失不如在特征空間中計算得有效,其二是忽略類隨機抽樣一致(RANSAC)過程,在整個圖像中均勻地計算損失。相關人員研究[8]認為通過單應性矩陣進行圖像拼接對細節(jié)對齊處理得不好,而通過光流法進行圖像拼接又無法對齊差異較大的圖像,因此提出將單應性(粗對齊)與光流法(細對齊)結合通過迭代方式做對齊,此方法揚長避短地結合兩種對齊方法。
將源像素點重新投影到合成表面之后,由于光照、色澤等因素存在差異,通常在拼接圖像的交界處會存在明顯的不自然過度接縫,抑或是在重疊區(qū)域出現模糊重影。拼接接縫和重影不僅會影響拼接結果的美觀,而且會影響后續(xù)應用,如目標檢測等的精準度,因此需要使用圖像融合技術消除接縫。首先,能進行圖像融合的輸入的圖像應該滿足,對同一個場景中同一個物體含有不同的信息。其次,圖像融合是一種為人類或機器人能更好理解圖像信息提供幫助的手段,因此,一個優(yōu)秀的圖像融合算法應當滿足,與輸入的源圖像相比融合之后的圖像含有更重要、更準確的信息[9]。
圖像融合的算法有很多種,分類方法也不盡相同,根據圖像的表征層可以分為:特征級融合、像素級融合以及決策級融合,其中最為常用的是像素級融合方法。像素級融合方法主要是對像素灰度值進行加權平均等操作,加權平均融合是一種簡單的像素級圖像融合方法,將源拼接圖像中重疊區(qū)域對應的像素點乘以一個加權系數,然后權值相加就可以得到融合的圖像[10],像素級圖像融合算法雖然簡單,但是計算量較大。
此外,尋找一條最佳拼接縫也是消除重影的一個重要方法,近年來這一方法也逐漸被應用于圖像配準中。最早,Davis 于1998 年提出了使用迪杰斯特拉(Dijkstra)算法來尋找最佳拼接線[11]。此前的算法都限于兩張拼接圖像之間,而Agarwala 提出的運用圖割算法尋找最佳拼接線的方法,則可以作用于多幅(大于等于兩幅)圖像拼接尋找最佳的拼接線,但是該算法需要對所有的像素點進行優(yōu)化,計算時間代價較大[12]。
圖像拼接技術作為計算機視覺中的一個經典研究方向,具有完備的體系,綜合包含如特征點檢測、圖像配準和圖像融合等各種重要算法,在學術界和工業(yè)界都發(fā)揮著重要作用。深度學習的加入,不僅使以大數據驅動的有監(jiān)督學習的圖像拼接算法得到了充分研究,基于無監(jiān)督、半監(jiān)督的圖像拼接算法也得到了廣泛的研究,從而使得整個圖像拼接技術的研究都獲得了良好發(fā)展。但是目前的研究普遍側重于對圖像拼接過程中的某個環(huán)節(jié)進行優(yōu)化改進,尚且沒有一個完整、靈活且具有高魯棒性的圖像拼接算法。并且圖像拼接算法與自監(jiān)督學習中的“對比學習”存在對應關系,因此探索各種深度學習模型在圖像拼接領域的多種可能性,包括半監(jiān)督、無監(jiān)督、自監(jiān)督等學習模型,是一個很有前景的研究方向。