葛成,胡福喬,趙宇明
近年來(lái),高動(dòng)態(tài)范圍圖像合成(High Dynamic Range Image Composition)技術(shù)獲得了長(zhǎng)足發(fā)展。真實(shí)世界場(chǎng)景往往具有很高的動(dòng)態(tài)范圍,而傳統(tǒng)數(shù)碼照相機(jī)由于只具有有限的位深度,難以捕捉到完整的動(dòng)態(tài)范圍。一個(gè)彌補(bǔ)措施是通過(guò)拍攝多張相同場(chǎng)景不同曝光度的圖像并合成,間接恢復(fù)出完整的動(dòng)態(tài)范圍,再通過(guò)色調(diào)映射(tone mapping)算法,將高動(dòng)態(tài)圖像壓縮顯示在低動(dòng)態(tài)范圍顯示部件上(如LCD,CRT),實(shí)現(xiàn)圖像質(zhì)量的提升。
1999年Debevec和Malik在文獻(xiàn)[1]中描述了數(shù)碼相機(jī)成像的基本過(guò)程。在該模型中,相機(jī)的輸出主要由兩個(gè)因素決定。其一是場(chǎng)景的光線輝度(Scene radiance),在短時(shí)攝影中基本保持不變。另一因素是相機(jī)自身參數(shù),在光圈、增益等一定時(shí),主要由曝光時(shí)間決定。輸出圖像的灰度級(jí)和場(chǎng)景光線輝度之間的關(guān)系,可以用相機(jī)響應(yīng)函數(shù)(Camera Response Function,CRF)表示。Debevec和Malik采用求解超定線性方程組的方法,從多曝光圖像序列中恢復(fù)CRF。隨后Mitsunaga和Nayar發(fā)表了基于多項(xiàng)式逼近的CRF估計(jì)方法[2]。
利用相機(jī)響應(yīng)曲線,可以將多曝光圖像映射到光線輝度域上,對(duì)輝度空間的圖像進(jìn)行加權(quán)平均即得到對(duì)數(shù)HDR圖像。但是,在合成之前,一個(gè)重要的問(wèn)題是拍攝過(guò)程中圖像的抖動(dòng)和場(chǎng)景的運(yùn)動(dòng),以及目標(biāo)本身三維結(jié)構(gòu)在運(yùn)動(dòng)中造成的視差(parallex),故一個(gè)準(zhǔn)確的配準(zhǔn)過(guò)程十分重要。Tomaszewska提出了基于SIFT特征的配準(zhǔn)算法[3]。SIFT算法能夠較為有效的提取相似圖像中對(duì)應(yīng)的尺度不變的特征點(diǎn),但是它計(jì)算量較大,不適合實(shí)時(shí)圖像配準(zhǔn)。Greg Ward提出了一個(gè)基于圖像二值化的快速配準(zhǔn)算法[4]: 中值二值化圖像配準(zhǔn)(Median Threshold Bitmap,MTB)。該算法通過(guò)將不同曝光度圖像,按照各自灰度中值或均值進(jìn)行二值化,得到的二值化圖像,對(duì)于曝光時(shí)間的變化相對(duì)穩(wěn)定。然后通過(guò)圖像金字塔搜索,確定兩張不同曝光度圖像之間的X,Y方向平移量,從而實(shí)現(xiàn)配準(zhǔn)。由于配準(zhǔn)過(guò)程是大多進(jìn)行位運(yùn)算,故而速度較快。但是其缺點(diǎn)也是顯而易見(jiàn)的。主要是MTB的配準(zhǔn)檢測(cè),只能在X,Y方向上搜索得到整數(shù)平移量,而對(duì)沒(méi)有亞像素級(jí)別的精度,并且當(dāng)運(yùn)動(dòng)目標(biāo)距離鏡頭較近,目標(biāo)本身的三維形狀在序列圖像中產(chǎn)生較大視差效應(yīng)時(shí),簡(jiǎn)單的X,Y方向平移已經(jīng)無(wú)能為力。本文提出的SURF算法解決了在三維視差不能忽略的情況下,多曝光圖像序列的配準(zhǔn)問(wèn)題,并且算法具有較快的速度,適合于實(shí)時(shí)配準(zhǔn)情形。
當(dāng)圖像場(chǎng)景基本為平面物體或者目標(biāo)距離鏡頭較遠(yuǎn)時(shí),物體的三維形狀可以忽略。換句話說(shuō),即圖像之間的配準(zhǔn)關(guān)系可以簡(jiǎn)單的處理為X,Y平面上的平移或旋轉(zhuǎn)。2003年Greg和Ward提出的MTB(median threshold bitmap)法[4]即適用于該場(chǎng)合。MTB算法計(jì)算多曝光圖像各自的中值,并將其二值化,利用金字塔搜索獲得水平和垂直方向目標(biāo)運(yùn)動(dòng)量。在本文的后續(xù)實(shí)驗(yàn)中我們可以看到,MTB方法對(duì)物體三維形狀信息的忽略,導(dǎo)致近距離大目標(biāo)的配準(zhǔn)及合成中產(chǎn)生明顯的模糊和重影效應(yīng)。
為了準(zhǔn)確知道匹配圖像和參照?qǐng)D像之間的關(guān)系,需要找到目標(biāo)運(yùn)動(dòng)的參數(shù)模型。圖像運(yùn)動(dòng)主要可以分為幾類:平移,旋轉(zhuǎn),伸縮,仿射和投影。
對(duì)于參照?qǐng)D像像素坐標(biāo)(x,y),匹配圖像中的對(duì)應(yīng)像素坐標(biāo)可以表示為
其中~表示按比例相等,Cij為未知量。當(dāng)考慮 2維平面運(yùn)動(dòng)時(shí),C33=1。變換矩陣的參數(shù)取特殊形式時(shí),可以得到平移、旋轉(zhuǎn)、伸縮、仿射和投影的變換矩陣。
與基于像素灰度的MTB方法不同,基于特征的圖像配準(zhǔn)算法首先通過(guò)在圖像組中提取并匹配特征點(diǎn),利用對(duì)應(yīng)特征點(diǎn)的位置信息求解運(yùn)動(dòng)參數(shù)。Tomaszewska提出的SIFT配準(zhǔn)方法[3]采用SIFT算法定位待配準(zhǔn)圖像和參照?qǐng)D像中的尺度不變特征點(diǎn)(Scale invariant features)。該方法在曝光時(shí)間不處于極端狀態(tài)時(shí)(如極高或極低)較有效,當(dāng)曝光時(shí)間過(guò)大或過(guò)小時(shí),SIFT算法提取錯(cuò)誤特征點(diǎn)增多,對(duì)應(yīng)特征點(diǎn)的誤匹配也增多,這對(duì)運(yùn)動(dòng)參數(shù)的估計(jì)造成很大誤差,導(dǎo)致配準(zhǔn)失敗。另外,SIFT的計(jì)算量較大,不適合實(shí)時(shí)系統(tǒng)。
SURF(Speeded Up Robust Features)由Herbert Bay等人發(fā)表于ECCV2006[5]。該特征較之SIFT在計(jì)算速度和魯棒性上有較大改進(jìn)。它已經(jīng)被廣泛的應(yīng)用于目標(biāo)識(shí)別和跟蹤。SURF算法通過(guò)圖像二階Hessian矩陣的行列式計(jì)算感興趣點(diǎn)(interest points)的位置和尺度信息,圖像的二階Hessian矩陣定義如下:
在SURF算法之前,還有一些其他的特征點(diǎn)提取算法。根據(jù)Herbert文[5]所示,SURF算法的fast hessian特征提取方法比Hessian-laplace方法快5倍,比Harris-Laplace方法快12倍,比DoG(SIFT算法中有應(yīng)用)快3倍。除SURF外,這些特征點(diǎn)提取算子都不能滿足實(shí)時(shí)的要求。
SURF特征的描述子讓特征點(diǎn)具有對(duì)圖像視角、尺度、旋轉(zhuǎn)和光照變化的不變性。這些性質(zhì)使得SURF適合于多曝光的圖像配準(zhǔn)問(wèn)題。在特征點(diǎn)的位置確定以后,通過(guò)最近鄰搜索方法,獲得參照?qǐng)D和匹配圖中相對(duì)應(yīng)的特征點(diǎn)對(duì)。搜索過(guò)程可以用簡(jiǎn)單的蠻力搜索或更快的KD tree方法。
SURF配準(zhǔn)模型
SURF配準(zhǔn)模型如圖一所示。首先計(jì)算并匹配圖像組中的對(duì)應(yīng)特征點(diǎn),之后我們利用最小中值平方法計(jì)算運(yùn)動(dòng)變換矩陣(1)中的各個(gè)參數(shù)。最后,利用變換矩陣C將匹配圖映射到參照?qǐng)D坐標(biāo)系:
其中
我們注意到SURF特征對(duì)光照和顏色的變化具有較好的魯棒性,所以該算法對(duì)于不同曝光度的圖像配準(zhǔn)可以取得非常好的效果。另外,3×3的變換矩陣將圖像平移、旋轉(zhuǎn)、透視、視差等情況均包含在內(nèi),比僅僅考慮水平垂直平移量的MTB算法全面很多。
變換矩陣C中共有8個(gè)未知參數(shù),匹配的特征點(diǎn)一般遠(yuǎn)多于未知量的個(gè)數(shù),通常的解法是利用最小二乘估計(jì),將所有點(diǎn)對(duì)參與計(jì)算,得出變換矩陣。但在實(shí)際中,由于之前的特征提取和匹配過(guò)程均有一定的錯(cuò)誤率,發(fā)生錯(cuò)匹配的點(diǎn)對(duì)不應(yīng)該再參與變換矩陣的計(jì)算。去除這些誤匹配,可以進(jìn)一步提高算法的魯棒性。這里我們采用具有較好噪聲耐抗性的最小中值平方法(Least Median of Squares,LMEDS)。
圖一 SURF配準(zhǔn)模型
設(shè)已得到n對(duì)匹配點(diǎn)對(duì),從中隨機(jī)選擇4對(duì),根據(jù)4點(diǎn)對(duì),求解線性方程組,得到矩陣C的各個(gè)參數(shù)。利用得到的矩陣C將其余參照?qǐng)D像的特征點(diǎn)映射到匹配圖像中,得到特征點(diǎn)位置的估計(jì)值,并求估計(jì)值與實(shí)際值的誤差量,以下為Euclid范數(shù)表示的誤差量:
接下來(lái)的問(wèn)題是確定保證參數(shù)求解足夠精確的最小m值。我們假設(shè)錯(cuò)點(diǎn)占特征點(diǎn)集的比例為ε,則m次估計(jì)中至少有一次足夠準(zhǔn)確(即所取得四個(gè)點(diǎn)對(duì)都是好點(diǎn))的概率是:
保持P接近1,如令P=0.99,我們相信SURF特征提取和匹配可以保證大部分點(diǎn)正確,則ε較小,設(shè)ε=0.4,故
所以,我們只需在約34次重復(fù)計(jì)算中選取使得誤差中值最小的矩陣C即可。
我們用C++語(yǔ)言實(shí)現(xiàn)了本文算法,實(shí)驗(yàn)證明,該算法能夠?qū)Χ嗥毓庑蛄袌D像取得良好的配準(zhǔn)效果。在 Intel Core2 2.4GHZ機(jī)器上,對(duì)大小為 640×480的圖像對(duì),算法只需0.2~0.8s,具體取決于特征點(diǎn)的個(gè)數(shù),對(duì)同樣圖像序列,SIFT配準(zhǔn)算法需要2.4~2.8s。并且,在高曝光場(chǎng)合,過(guò)飽和的圖像使得SIFT常常發(fā)生誤匹配。
如前所述,當(dāng)運(yùn)動(dòng)目標(biāo)距離攝像機(jī)鏡頭較近,物體本身3維形狀產(chǎn)生視差時(shí),MTB方法僅僅在X,Y方向進(jìn)行平移變換,配準(zhǔn)后的合成圖像容易有鬼影出現(xiàn)。我們比較了MTB方法和SURF配準(zhǔn)方法,實(shí)現(xiàn)證明本算法配準(zhǔn)合成的HDR圖像質(zhì)量明顯好于MTB。
本文介紹了基于SURF特征點(diǎn)的多曝光序列圖像配準(zhǔn)算法。作為高動(dòng)態(tài)圖像(HDR)合成的預(yù)處理步驟,實(shí)驗(yàn)證明了該算法的有效性。本文還比較了傳統(tǒng)的MTB算法和基于SIFT特征的配準(zhǔn)算法,基于SURF的方法在配準(zhǔn)的準(zhǔn)確性和實(shí)時(shí)性方面均有良好表現(xiàn)。但另一方面,當(dāng)目標(biāo)缺乏紋理特征時(shí),SURF算法的性能亦會(huì)有所降低,這也是基于特征的算法的共同缺點(diǎn),也是本算法需要進(jìn)一步改善的方向。
[1]Debevec P,Malik J.Recovering High Dynamic Range Radiance Maps from Photographs[C]//Proceedings of the 24th annual conference on Computer graphics and interactive techniques(0-89791-896-7),1997,369-378.
[2]Mitsunaga T,Nayar S K,Radiometric Self Calibration[J].Computer Vision and Pattern Recognition,1999,(1):380.
[3]Tomaszewska A,Mantiuk R.Image Registration for Multi-exposure High Dynamic Range Image Acquisition[C]//WSCG 2007,F(xiàn)ull Papers Proceedings I and II,2007,49-56.
[4]Ward G.Fast,Robust Image Registration for Compositing High Dynamic Range Photographs from Handheld Exposures[J].Journal of Graphics Tools,2003,8(2):17-30.
[5]Bay H.SURF: Speeded Up Robust Features[J].Computer Vision and Image Understanding,San Diego: Academic Press Inc Elsevier Science,2008,110(3): 346-359.
[6]David G.Lowe.Distinctive Image Features from Scale-Invariant Keypoints[J].International Journal of Computer Vision(0920-5691),2004,(2): 91-110.
[7]Zitova B,F(xiàn)lusser J.Image registration methods: a survey[J].Image and Vision Computing,2003,21(11):977-1000.
[8]Reinhard E,Pattanaik S,Greg Ward,Debevec P.High Dynamic Range Imaging: Acquisition,Display,and Image-based Lighting[M].San Francisco: Morgan Kaufmann Publishers,2005.
[9]Grosch T.Fast and Robust High Dynamic Range Image Generation with Camera and Object Movement[C]//International Workshop Vision,Modeling,and Visualization,2006.