裴紅星, 劉金達, 葛佳隆, 張 斌
(鄭州大學 物理工程學院 河南 鄭州 450001)
普通相機拍攝圖像時,無法兼顧相機視場與視場中單個物體的分辨率問題,而全景相機普遍價格昂貴,不適用于低成本的一般性場景.為了使用普通相機獲取寬視角,甚至是360°全景圖像,人們提出了圖像拼接技術(shù).圖像拼接技術(shù)是指將含有重疊部分的兩幅或多幅圖像,通過圖像預處理、圖像配準和圖像融合技術(shù),拼接成一幅包含各圖像信息的高分辨率、寬視角圖像的技術(shù).該技術(shù)廣泛地應用在醫(yī)學成像[1]、遙感技術(shù)[2]、虛擬現(xiàn)實[3]、視頻編輯[4]等方面,隨著計算機視覺等技術(shù)的發(fā)展,其重要性日益凸顯.此外,圖像拼接技術(shù)還用于視頻壓縮[5],將視頻逐幀拼接為高分辨率圖像,去除重復部分,降低存儲空間,提高傳輸速度,采用相位相關(guān)法搜索給定目標,實現(xiàn)圖像索引[6].
圖像拼接技術(shù)最先應用在遙感技術(shù)領(lǐng)域,其核心是圖像配準,產(chǎn)生了兩個分支,一個分支是基于區(qū)域的圖像配準.早期主要采用全局搜索法進行圖像配準,計算量極大. 模板匹配法[7]相對于全局搜索法操作簡單,容易實現(xiàn),但都只能解決平移問題.Reddy于1996年提出擴展相位相關(guān)法[8],將相位相關(guān)法[9-10]和對數(shù)極坐標變換相結(jié)合,解決旋轉(zhuǎn)和尺度縮放問題,但該方法計算較為復雜.另一個分支是基于特征的圖像配準,包括角點、邊緣、斑點等.1988年,Harris提出了經(jīng)典的Harris角點檢測算法[11],將圖像中具有旋轉(zhuǎn)、平移不變性的角點作為特征點進行圖像配準.Lowe于1999年[12]提出,并在2004年[13]完善尺度不變特征變換(scale-invariant feature transform,SIFT)算法,該算法對平移、旋轉(zhuǎn)、尺度縮放和光照不均都有很好的適應性,是目前的研究熱點.
圖像拼接包括3部分:圖像預處理、圖像配準和圖像融合.
圖像預處理的目的是提高配準精度、降低配準難度,包括調(diào)整灰度差異、去噪、幾何修正以及將兩幅圖像投影到同一坐標系等基本操作.
圖像配準是計算出兩幅圖像間的空間變換模型并進行空間變換,使兩幅圖像的重疊部分在空間上對準,是圖像拼接的關(guān)鍵.圖像之間的空間變換關(guān)系包括:平移、旋轉(zhuǎn)、尺度縮放、仿射變換、投影變換,其中投影變換更具有普遍性.
假設(shè)圖像f1(x,y)、f2(x,y)存在投影變換關(guān)系,則用齊次方程(1)表示:
(1)
其中:m0、m1、m3和m4共同表示旋轉(zhuǎn)角度和縮放尺度;m2和m5分別表示x方向與y方向上的平移量;m6和m7分別表示x方向和y方向上的變形量.圖像配準的關(guān)鍵是用式(1)確定空間變換模型M的參數(shù).
圖像融合的目的是得到無縫的高質(zhì)量圖像.在不損失原始圖像信息的前提下,消除接縫與亮度差異,實現(xiàn)拼接邊界的平滑過渡.
基于區(qū)域的圖像配準分為基于空間域的圖像配準和基于變換域的圖像配準.
2.1.1基于空間域的圖像配準 基于空間域的圖像配準法有全局搜索法和模板匹配法[7].直接利用圖像像素的灰度信息,采用某種搜索方法,如以單個像素為單位平移的方法,確定當兩圖像重疊部分之間的相似性測度達到最大時的變換模型,常見的相似性測度有平均絕對差(mean absolute deviation,MAD)、誤差平方和 (sum of squared difference,SSD)、歸一化互相關(guān) (normalized cross correlation,NCC)等.
圖1 模板匹配法Fig.1 Template matching method
全局搜索法是使待配準圖像在參考圖像上平移,比較平移過程中兩幅圖像的配準程度,在進行所有平移之后選擇相似性測度最優(yōu)的平移量,這種方法的缺點是計算量極大.模板匹配法以兩幅圖像的重疊部分為基準,選取待配準圖像的一塊矩形區(qū)域為模板,在參考圖像中搜索相似區(qū)域,相似性測度最優(yōu)的位置即為最佳配準位置,如圖1所示.
模板匹配法操作簡單、匹配精度高,在圖像拼接[14-15]、目標識別[16-17]等方面得到廣泛應用.但全局搜索法和模板匹配法都要求圖像不能包含較大噪聲,不能有旋轉(zhuǎn)、尺度縮放等問題,計算量仍然較大,并且要求參考圖像中有完整的模板匹配目標.
2.1.2基于變換域的圖像配準
1) 相位相關(guān)法
根據(jù)傅立葉變換的平移不變性,相位相關(guān)法[9-10]將空間域上像素的平移轉(zhuǎn)換為頻率域上相位的平移.
設(shè)f1(x,y)和f2(x,y)是具有平移關(guān)系的兩幅圖像,其空間變換關(guān)系為
f2(x,y)=f1(x-x0,y-y0),
(2)
其中:(x0,y0)為兩幅圖像間的平移量. 則圖像f1與f2對應的傅立葉變換F1和F2之間關(guān)系為
F2(μ,ν)=e-j(μx0-νy0)F1(μ,ν).
(3)
由式(3)得出,圖像f1(x,y)和f2(x,y)在頻率域中幅值相同,相位不同.兩幅圖像間的互功率譜定義為
(4)
其中:*是復共軛運算符.
對式(4)右側(cè)進行傅里葉逆變換得沖擊響應函數(shù)δ(x-x0,y-y0),搜索使沖擊響應函數(shù)δ最大的點(x0,y0),則(x0,y0)即為圖像f1(x,y)和f2(x,y)之間的最佳平移量.
快速傅里葉變換(fast fourier transform,F(xiàn)FT)[18]提升了基于變換域的相位相關(guān)法的算法性能,效率高、計算簡單,相對于基于空間域的圖像配準,該方法對光照變化不敏感、抗噪能力強、穩(wěn)定性好. 該方法只對有平移關(guān)系的兩幅圖像有良好的效果,不適用于有旋轉(zhuǎn)和尺度縮放關(guān)系的圖像.二維快速傅里葉變換的時間復雜度可以用O(M·N·log(M·N))表示,其中M、N為圖像尺寸,所以其時間復雜度隨圖像尺寸增大呈指數(shù)增長.
2) 擴展相位相關(guān)法
Castro等[19]解決了相位相關(guān)法不適用于平移和旋轉(zhuǎn)的問題.Reddy[8]又在相位相關(guān)法的基礎(chǔ)上提出了將相位相關(guān)法和對數(shù)極坐標變換相結(jié)合的擴展相位相關(guān)法,通過對數(shù)極坐標變換將兩幅圖像間的旋轉(zhuǎn)和尺度縮放關(guān)系轉(zhuǎn)換為該坐標系下的平移關(guān)系.
設(shè)圖像f1(x,y)和f2(x,y)間存在平移、旋轉(zhuǎn)和尺度縮放關(guān)系,則其空間變換關(guān)系為
f2(x,y)=f1[s(xcosθ0+ysinθ0)-x0,s(-xsinθ0+ycosθ0)-y0],
(5)
其中:θ0為旋轉(zhuǎn)角度;s為尺度因子;(x0,y0)為平移量.
則圖像f1與f2對應的傅立葉變換F1和F2之間關(guān)系如式(6),
F2(u,v)=e-j2π(ux0+vy0)s-2F1[s-1(ucosθ0+vsinθ0),s-1(-usinθ0+vcosθ0)].
(6)
取F1、F2的幅度譜M1、M2,則M1與M2關(guān)系如式(7),
M2(u,v)=s-2M1[s-1(ucosθ0+vsinθ0),s-1(-usinθ0+vcosθ0)].
(7)
忽略比例因子s-2的影響,對M1與M2進行極坐標變換得
M2(r,θ)=s-2M1(s-1r,θ-θ0).
(8)
沿極坐標半徑r方向取對數(shù)可得
M2(logr,θ)=s-2M1(logr-logs,θ-θ0).
(9)
設(shè)ξ=logr,d=logs可得
M2(ξ,θ)=s-2M1(ξ-d,θ-θ0).
(10)
對式(10)用相位相關(guān)法可以計算出旋轉(zhuǎn)角度θ0和尺度因子s,對待配準圖像進行旋轉(zhuǎn)和尺度縮放后,兩幅圖像間只剩平移關(guān)系,再次使用相位相關(guān)法可以確定兩幅圖像之間的平移量(x0,y0).
擴展相位相關(guān)法具有相位相關(guān)法的效率高、對光照變化不敏感、抗噪能力強、穩(wěn)定性好等優(yōu)點,同時又解決了旋轉(zhuǎn)和尺度縮放問題,較相位相關(guān)法適用范圍更廣.該方法還可以與邊緣檢測相結(jié)合[20-22],進一步提高魯棒性和計算效率.但是算法復雜,并且要求兩幅圖像之間有較高的重合度.
與基于區(qū)域的圖像配準相比,基于特征的圖像配準只使用圖像的部分信息,如輪廓、角點等特征,主要有角點檢測法、基于輪廓特征的圖像配準、基于SIFT的圖像配準等.
2.2.1角點檢測法 角點是指灰度圖像中局部灰度梯度變化較大的點,或輪廓線上局部范圍內(nèi)的曲率極大值點.角點檢測法基本思想是提取特征點,匹配兩幅圖像中的特征點作為特征點對,再通過隨機抽樣一致性 (random sample consensus, RANSAC)算法[23],根據(jù)式(1)使用特征點對估計空間變換模型的參數(shù).
1) 角點提取常用Harris角點檢測法[11]、加速分割測試特征(features from accelerated segment test, FAST)算法[24-25]、最小核值相似區(qū)(smallest univalue segment assimilating nucleus, SUSAN)算法[26-27]等提取圖像中的角點.
圖2 不同類型的點Fig.2 Types of different points
a) Harris角點檢測法基本思想是計算某像素鄰域內(nèi)各像素的x和y方向上的梯度Ix、Iy,用角點響應函數(shù)(corner response function,CRF)表示梯度Ix、Iy的特征,如果某像素鄰域內(nèi)Ix、Iy的幅值都較大,CRF取局部區(qū)域極大值,則為特征點,如圖2(a)所示;如果只有一個方向的梯度幅值較大,另一方向的梯度幾乎為0,則為邊緣點,不是特征點,如圖2(b)所示;如果Ix、Iy的幅值幾乎都為0,則位于平坦區(qū)域,不是特征點,如圖2(c)所示.
Harris算法使用圖像的梯度特征檢測角點,具有光照不變性,還可以解決平移、旋轉(zhuǎn)問題,但是像素鄰域的窗函數(shù)對尺度變換敏感,不具備尺度不變性;Harris需要人工指定閾值,適應性較差,但可以與自適應閾值算法相結(jié)合[28]提高算法效率.
b) FAST算法基本思想是如果某像素的灰度值與足夠多的鄰域像素灰度值的差值較大時,認為該點為特征點.
以點P(x,y)為圓心,以3為半徑作圓,如圖3所示,則有16個像素p1,p2,…,p16分布在圓上,計算p1,p2,…,p16與中心點P的灰度值差值,如果有超過8個像素灰度值的差值的絕對值大于給定閾值s,則點P為潛在特征點.
為了去除干擾點,需要剔除潛在特征點中的非極大值點.若潛在特征點P的鄰域N內(nèi),如5×5鄰域,有多個潛在特征點,則用式(11)計算鄰域N內(nèi)每個潛在特征點的score值,若點P是鄰域N內(nèi)score值最大的潛在特征點,則保留點P,否則,剔除點P.
(11)
其中:f(i,j)是潛在特征點的鄰域像素灰度值;fp(x,y)是潛在特征點的灰度值;t為給定閾值.
FAST算法操作簡單,實時性好,但對包含噪聲的圖像魯棒性不好,檢測結(jié)果受給定閾值s和t的影響較大,不具備尺度不變性和旋轉(zhuǎn)不變性.研究表明,適當增加圖像對比度并濾波去噪能顯著提升FAST的穩(wěn)定性[29].
c) SUSAN算法與FAST算法基本思想類似,如果某像素灰度值與足夠多的鄰域像素的差值較大,認為該點為特征點,并可以根據(jù)鄰域特征剔除干擾點.
以點P(x,y)為圓心,以r為半徑的圓形區(qū)域作為點P的鄰域,鄰域內(nèi)共有R個像素.若鄰域內(nèi)有n個像素的灰度值與中心像素P灰度值之差小于給定閾值,則認為這n個像素與中心像素P灰度值相同,n個像素共同構(gòu)成核值相似區(qū)(univalue segment assimilating nucleus, USAN).
當中心像素P位于目標或背景中時,如圖4(a)、(b)所示,n與R大致相等;當中心像素P位于邊緣上時,如圖4(c)所示,n約為R的1/2;當中心像素P位于角點上時,如圖4(d)所示,n遠小于R;當中心像素P位于孤立點上時,如圖4(e)所示,n約為0.
圖3 FAST算法中點的鄰域Fig.3 Neighborhood of a feature point in FAST
圖4 SUSAN算法中點的鄰域Fig.4 Neighborhood of a feature point in SUSAN
然后根據(jù)USAN區(qū)域的特征去除干擾點.若USAN區(qū)域的質(zhì)心與模板中心P的距離小于給定閾值,則剔除;若存在USAN區(qū)域的質(zhì)心與模板中心P的連線上的像素不在USAN區(qū)域內(nèi),則剔除.
SUSAN算法與FAST算法類似,操作簡單,實時性好.該算法還根據(jù)USAN區(qū)域中像素數(shù)量n與鄰域內(nèi)像素總數(shù)量R的相對大小實現(xiàn)特征點檢測[30]或邊緣檢測[31],功能性強,可以解決旋轉(zhuǎn)和一定程度的尺度縮放問題,不涉及微分等操作,不易受單個噪聲點的影響,魯棒性好.但是該算法需要調(diào)節(jié)多個閾值,算法靈活但自適應性較差,對圖像亮度敏感,不具備光照不變性.文獻[32]提出,SUSAN與高斯-拉普拉斯算子 (Laplace of Gaussian,LoG)相結(jié)合可以顯著改善SUSAN算法對噪聲和光照的敏感性.
2) 角點配對
設(shè)圖像f1(x,y)和f2(x,y)中角點的集合分別為P和Q:P={p1,p2,…,pA};Q={q1,q2,…,qB}.
a) 鄰域特征法
計算角點p1的特征向量pa與qb間的歐式距離,距離最近且小于給定閾值的角點與p1組成特征點對,否則p1無配對特征點.在Q中依次為P中的其余角點配對.
b) 相關(guān)系數(shù)法
取各角點的(2K+1)×(2K+1)鄰域,其中:K=1,2,…;Rb為角點p1與Q中各角點之間的相關(guān)系數(shù),則有
(12)
角點檢測法在提取圖像特征時,有效降低了信息量,明顯降低了時間復雜度,其準確性和實時性較好,還可以解決部分目標物被遮擋、幾何變形等問題.但該類算法在特征提取過程中會損失大量的圖像信息,對特征不明顯、噪聲較多的圖像適應性較差.研究表明,與去噪算法、圖像增強算法相結(jié)合可以提升該類算法性能[33-34].
2.2.2基于輪廓特征的圖像配準 基于輪廓特征的圖像配準的基本思想是根據(jù)輪廓特征對所提取的輪廓進行匹配,再將輪廓匹配對中的某些點作為特征點對,并根據(jù)式(1)用特征點對估計空間變換模型.
Li等[35]提出的輪廓匹配算法,能夠處理包含有較大噪聲但具有清晰邊緣的圖像,且兩圖像中相同目標之間有形變的情況,具有很好的魯棒性和可靠性,可以處理圖像間平移、旋轉(zhuǎn)和尺度縮放的問題,對目標形變也有較好的適應性.
1) 輪廓提取
通常采用二值化、卷積或形態(tài)學處理等方法提取圖像中的目標輪廓,Li用高斯-拉普拉斯(LoG)算子對圖像進行卷積運算來提取圖像輪廓.拉普拉斯算子是二階微分算子,卷積后圖像中連續(xù)過零點即為輪廓線;為了克服拉普拉斯算子對噪聲與離散點的增強作用,在處理前使用高斯函數(shù)對原圖像進行降噪處理.提取的輪廓使用鏈碼[36]編碼描述,并對鏈碼進行歸一化處理,對歸一化鏈碼進行平滑濾波,使鏈碼表示的輪廓更加平滑.
2) 輪廓匹配
通過輪廓的形狀特征,包括周長c、輪廓到質(zhì)心的最大與最小距離dmax和dmin、Hu不變矩[37]中的一階不變矩h1和二階不變矩h2,構(gòu)成的特征向量間的歐氏距離對兩幅圖像上的輪廓配對,構(gòu)成輪廓匹配對.
3) 將輪廓匹配對的質(zhì)心作為特征點對,根據(jù)式(1)估計空間變換模型.
基于輪廓特征的圖像配準的關(guān)鍵是準確地提取輪廓特征,由于輪廓特征包含信息量較少,所以計算簡單、效率高,相對于角點檢測法,不易受單個噪聲點的影響,魯棒性較好,但是該類算法的配準精度依賴于輪廓提取精度,所以要求圖像具有明顯的輪廓特征.
2.2.3基于SIFT的配準算法 SIFT算法[12]能提取具有尺度不變、旋轉(zhuǎn)不變、光照不變的局部極值點作為特征點.其基本思想是使用降采樣和高斯函數(shù)構(gòu)建圖像尺度空間,提取極值點作為潛在特征點并剔除干擾點,將特征點鄰域像素的梯度作為特征向量來描述特征點,計算特征向量間的歐氏距離進行特征點配對,根據(jù)公式(1)估計空間變換模型的參數(shù).
1) 構(gòu)建尺度空間
如圖5所示,用高斯函數(shù)G(x,y,σ)對原圖像進行平滑處理,構(gòu)建圖像尺度空間L(x,y,σ),
L(x,y,σ)=I(x,y)G(x,y,σ),
(13)
T級金字塔的第t(t>0)級第1張圖像由第t-1級中第s-2層的圖像降采樣得到.最后構(gòu)建出級數(shù)為T,每級包含s層圖像的高斯圖像金字塔.
在T級高斯圖像金字塔的每一級中,相鄰尺度圖像兩兩相減得到高斯差分(difference of Gaussian,DoG)圖像金字塔,即D(x,y,σ)={f1-f0,f2-f1,…,fs-fs-1},其中fi,i∈[0,s]是尺度空間圖像.最后構(gòu)建出級數(shù)為T、每級包含s-1層圖像的DoG圖像金字塔.
圖5 構(gòu)建DoG圖像金字塔的過程Fig.5 The process of producing the DoG images
2) 特征點提取
在DoG圖像金字塔中,任意像素都可以用(t,r,x,y)表示,其中t為該像素所在DoG圖像金字塔的級數(shù),r為該像素所在第t級DoG圖像金字塔的尺度空間層數(shù),x和y為像素的坐標.當某像素d(t,r,x,y)的灰度值為其尺度空間r內(nèi)8鄰域內(nèi)的極值,且為第r-1和r+1層尺度空間圖像相同坐標的18個像素的灰度值極值時,該點為其尺度空間中3×3×3鄰域內(nèi)的潛在特征點,如圖6所示.
將位于曲率較低的邊緣上的潛在特征點剔除,如圖2(b)所示,并通過擬合特征點所在行和列的像素灰度值曲線,確定特征點的實際位置,最終得到特征點,如圖7所示.
圖6 SIFT特征點檢測Fig.6 The detection of feature points in SIFT
圖7 SIFT特征點檢測Fig.7 The accurate location of feature points in SIFT
3) 特征點描述
利用鄰域像素的梯度特征為特征點指定主方向,具體如下.
確定以特征點p(t,r,x,y)為圓心、3×1.5σ為半徑的鄰域,計算各鄰域像素梯度的幅值Mf和角度δ,
(14)
(15)
以45°的間隔將360°分為8個角度區(qū)間:
Dθ=(θ-22.5°,θ+22.5°],θ=k·45°,k=0,1,2,…,7.
(16)
計算特征點p(t,r,x,y)鄰域內(nèi)各像素梯度角度在8個角度區(qū)間內(nèi)的分布情況,將各角度區(qū)間包含的像素的梯度幅值相加,幅值之和最高的角度區(qū)間Dθ即為特征點的主方向θ,如圖8中的270°.
為了確保特征點的旋轉(zhuǎn)不變性,將特征點的鄰域旋轉(zhuǎn)θ;取特征點的16×16鄰域,如圖9,計算該鄰域內(nèi)各點梯度的幅值與角度,并使用高斯窗口對各梯度的幅值與角度高斯加權(quán),再將16×16鄰域劃分為16個4×4子鄰域,在各4×4子鄰域內(nèi)統(tǒng)計8個角度區(qū)間內(nèi)的梯度幅值之和作為子鄰域的種子點;16個種子點各有8個方向,共構(gòu)成128維的特征向量,最后對128維特征向量歸一化,去除光照影響,保證光照不變性.
圖8 8個45°的角度區(qū)間與梯度幅度直方圖Fig.8 Orientation intervals and the gradient magnitude histogram
圖9 SIFT特征點描述Fig.9 The feature description in SIFT
4) 根據(jù)兩幅圖像特征點的特征向量之間的歐氏距離對特征點配對,并根據(jù)式(1)用特征點對估計空間變換模型的參數(shù).
SIFT算法適用于平移、旋轉(zhuǎn)、尺度縮放、光照不一等情況,適應性強,并且對視角變化、仿射變換也保持一定程度的穩(wěn)定性;少量目標就可產(chǎn)生大量特征點,特征點的特征向量信息豐富,匹配精度高.該算法可以與其他形式的特征向量相結(jié)合,具有一定程度的可擴展性,是圖像配準領(lǐng)域中的研究熱點,其衍生算法加速穩(wěn)健特征[38-39]基本滿足了實時性要求.但SIFT算法復雜,構(gòu)建圖像金字塔、確定特征點的準確位置、估計主方向等操作可能會帶來累積誤差,造成特征點穩(wěn)定性較差;對紋理較少、較為平滑的圖像,128維特征向量可能沒有顯著差異,造成特征點匹配精度低.
由于圖像亮度差異等因素,配準后圖像可能存在明顯接縫,需要使用圖像融合技術(shù)來消除拼接縫隙.根據(jù)圖像的表征層可將圖像融合分為:像素級融合、特征級融合和決策級融合[40-41].像素級融合是目前常用的融合方法,指對像素灰度值進行直接平均、加權(quán)平均等操作,計算量較大.特征級融合是首先對圖像提取輪廓、紋理、角等特征,再對這些特征分析、處理與整合,得到融合后的特征,速度較快.決策級融合是在特征級融合的基礎(chǔ)上,對特征信息進行識別和分類,再基于認知模型和判別系統(tǒng)對決策的可信度量進行判斷,融合效果較好,速度快.但是特征級融合和決策級融合的算法復雜,融合過程中丟失較多的原始圖像信息,并且可能造成融合后圖像的失真,應用較少.
像素級融合中最簡單的方法是直接平均法,直接對配準后圖像重疊區(qū)域的灰度值取平均值,避免了灰度值直接相加造成的溢出.設(shè)f(x,y)是f1(x,y)、f2(x,y)融合后圖像,則直接平均法可以表示為
(17)
該算法簡單易行,但融合質(zhì)量較差,融合后圖像仍然可能存在明顯拼接縫隙.
加權(quán)平均法是對配準后兩幅圖像重疊區(qū)域的灰度值按一定規(guī)則加權(quán)后再計算平均值.設(shè)f(x,y)是f1(x,y)、f2(x,y)融合后圖像,則加權(quán)平均法表示為
(18)
w1、w2分別為圖像f1、f2對應像素灰度值相加時的權(quán)值,且w1+w2=1,0≤w1,w2≤1,常使用漸入漸出法對權(quán)值w1、w2進行動態(tài)選取,w1=x2-xi/x2-x1,w2=1-w1=xi-x1/x2-x1,其中:x1為待融合部分的左邊界;x2為待融合部分的右邊界;xi為待融合像素的橫坐標,且x1≤xi≤x2.加權(quán)平均法計算簡單、效率高,融合效果好,因此應用更為廣泛.另外,還可以使用拉普拉斯圖像金字塔[42]、小波變換[43]等方法實現(xiàn)圖像融合,但操作復雜、耗時較長.
在各個領(lǐng)域,圖像拼接都面臨通用性、魯棒性與實時性的問題.由于圖像種類繁多,尺寸、亮度、圖像特征多變,尚沒有一種算法可以適用所有情況的圖像拼接,找到通用性強的圖像拼接方法是目前重要的研究方向.在大尺度縮放、旋轉(zhuǎn)、平移的情況下,幾何畸變、重疊區(qū)域面積等問題會對圖像拼接的效率與精度產(chǎn)生很大影響,多數(shù)算法在上述條件差別較小時可以取得良好效果,但當上述條件差別較大時,可能存在拼接效果差、甚至拼接失敗的情況,提高算法的適應性和魯棒性仍是一個重要課題.另外,諸多實際場景,如軍事衛(wèi)星的成像、無人汽車對路況和行人的成像與識別等,對圖像拼接的實時性提出了更高的要求.
目前,研究人員通常從算法和硬件兩方面解決這些問題.在算法方面,常使用不同算法相結(jié)合的方式提升整體效率,如文獻[44]用相位相關(guān)法對圖像粗配準后,再用角點檢測法進行精配準,在不影響實時性的前提下提高了對紅外圖像的配準精度;文獻[45]將Harris的高效率與SIFT描述子的穩(wěn)定性相結(jié)合,先用Harris算法提取特征點,再用改進的SIFT特征向量對特征點配對實現(xiàn)圖像拼接;文獻[46]先根據(jù)圖像的梯度和不變矩確定兩幅圖像的大致重疊區(qū)域,再用SIFT對重疊區(qū)域?qū)崿F(xiàn)配準,極大提高了圖像配準的魯棒性和實時性;文獻[47]使用Harris算法對SIFT提取的特征點進一步篩選,提高了特征點的準確性;文獻[48]根據(jù)噪聲點、邊緣點、平滑點位于不同子空間的性質(zhì),用譜聚類的思想將像素進行分類并檢測邊緣,特別適用于包含有噪聲的圖像.在硬件方面,文獻[49]用圖形處理器(graphics processing unit,GPU)實現(xiàn)硬件加速,將配準速度提高了約10倍;文獻[50]用基于現(xiàn)場可編程門陣列(field-programmable gate array,F(xiàn)PGA)并行處理的Harris算法,實現(xiàn)了視頻的實時拼接.當前的圖像處理理論和硬件發(fā)展水平都影響著圖像拼接技術(shù)的發(fā)展與應用.
未來幾年,深度學習可能會對圖像拼接技術(shù)產(chǎn)生巨大推動作用.深度學習理論誕生于20世紀60年代,但由于硬件技術(shù)的限制,該技術(shù)在21世紀初才得到廣泛應用,尤其是在計算機視覺和自動語音識別領(lǐng)域.文獻[51]在仿真條件下,用全連接神經(jīng)網(wǎng)絡實現(xiàn)了醫(yī)學上計算機斷層掃描(computed tomography,CT)與超聲成像(ultrasound scan,US)圖像平移關(guān)系上的配準,但還不能應用在實際中.文獻[52]用同一卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)分別實現(xiàn)了對手寫數(shù)字、心臟核磁共振圖像兩種數(shù)據(jù)集的高效配準,但單個卷積神經(jīng)網(wǎng)絡對多種場景圖像配準的適應性還有待進一步研究.文獻[53]首次用卷積神經(jīng)網(wǎng)絡實現(xiàn)了無人汽車上多模態(tài)動態(tài)視頻的實時配準,但對更多平臺上、更多模態(tài)的圖像配準是另一個待解決的問題.目前,深度學習極大促進了圖像拼接領(lǐng)域的發(fā)展,對圖像拼接的通用性、魯棒性與實時性都產(chǎn)生了積極影響,但是深度學習在圖像拼接領(lǐng)域的應用還處在起步階段.更多方面,如軟硬件結(jié)合的方法、對多個場景的適應性、與傳統(tǒng)圖像拼接方法相結(jié)合的理論框架等,還有待進一步研究.
本文研究了圖像拼接技術(shù)中的核心算法,首先介紹了圖像拼接的技術(shù)背景、發(fā)展歷史和應用領(lǐng)域,指出了圖像拼接技術(shù)的目的與意義;然后概括了圖像拼接的主要流程,包括圖像預處理、圖像配準和圖像融合,并分析了圖像之間的變換關(guān)系;著重分析對比了圖像配準中的核心方法及各方法的特點,尤其對SIFT技術(shù)做了重點剖析,簡述了圖像融合的分類與常用技術(shù),最后,分析了圖像拼接當前面臨的主要問題與未來的可能發(fā)展趨勢.
目前,圖像拼接技術(shù)是圖像處理技術(shù)的重要研究領(lǐng)域,已經(jīng)在衛(wèi)星遙感、醫(yī)學圖像分析、虛擬現(xiàn)實、增強現(xiàn)實等方面得到了廣泛應用,也是機器人技術(shù)、自動駕駛、太空探索等前沿技術(shù)領(lǐng)域的重要組成部分.隨著計算機性能的發(fā)展和數(shù)字圖像處理理論的完善,以及近年來各技術(shù)領(lǐng)域?qū)D像處理技術(shù)需求的提高,圖像拼接技術(shù)無疑將會更進一步發(fā)展.