杜瑞濤 岑 峰
移動平臺上圖像拼接軟件中的視差問題
杜瑞濤 岑 峰
本文主要研究移動平臺上圖像拼接軟件中的視差問題,論述了圖像拼接中視差問題的由來及其影響,介紹了近年來在拼接算法方面針對視差問題的一些進展,并對當前移動平臺上一些常見的圖像拼接應用軟件進行分析,探究其在視差下的運行狀況與拼接效果,最后對基于移動平臺實現(xiàn)圖像拼接軟件時針對視差問題的可能處理方式進行探討。
基于智能移動平臺的圖像拼接軟件能夠使普通用戶輕易拍攝出寬視角的全景圖像,滿足人們對于寬視角、高分辨率全景圖像的需求,具有很高的應用價值,因而基于Android、IOS等移動平臺的圖像拼接軟件層出不窮,不斷發(fā)展。然而盡管對于圖像拼接的研究不斷深入,現(xiàn)今一般所使用的圖像拼接算法仍有其缺陷性和局限性,存在很多問題有待解決,如場景中的遮擋問題、運動目標的干擾問題等等,而視差問題也正是圖像拼接領域中的一個熱點問題。
對現(xiàn)今大多數(shù)圖像拼接算法而言,當輸入圖像中存在明顯視差時,普遍會由于配準模型無法處理視差而導致部分像素點的誤匹配,雖然圖像融合算法能夠在一定程度上弱化或掩蓋配準中的誤匹配問題,但其無法完全消除視差對全景圖像的不利影響。在某些特定的場景下,視差引起的誤匹配可能導致全景圖像中出現(xiàn)鬼影、錯位等諸多不良現(xiàn)象,嚴重影響全景圖像的質(zhì)量。對于圖像拼接應用軟件而言,當其未針對視差進行有效限制或處理時,便會影響軟件在特定場景下的拼接效果,降低軟件的適用性與體驗性。因此,對圖像拼接應用軟件中視差問題的研究具有重要的意義。
在本文中,主要論述了圖像拼接配準中的視差問題,介紹了當前在算法層面的一些進展,并對一些常見的移動拼接軟件進行分析,最后對基于移動平臺實現(xiàn)圖像拼接軟件時針對視差問題的處理方式進行探討。
當前,大多數(shù)圖像拼接算法主要包含預處理、圖像配準、圖像融合三個環(huán)節(jié),簡要流程如圖1所示。
以對兩幅圖像進行拼接為例,在進行拼接時首先根據(jù)這兩幅圖像間重合區(qū)域內(nèi)的對應像素點,計算這兩幅圖像中像素點的映射關系,求得配準模型。在生成全景圖像時,根據(jù)配準模型確定輸入圖像中像素點在全景圖像上的位置,從而將所有輸入圖像映射到同一坐標系,合成為全景圖像。然而由于配準模型的適用性與準確性是受很多因素影響的,大多無法達到完美的配準效果,故而再通過圖像融合技術弱化或掩蓋誤配準像素點的影響,從而生成一副視覺上比較一致的全景圖像。因此,圖像配準環(huán)節(jié)是整個拼接算法的核心,配準結(jié)果的好壞對全景質(zhì)量有著決定性的影響。
圖像拼接中的視差問題,就是指當輸入圖像間存在視差時,由于圖像配準環(huán)節(jié)中所使用的配準模型無法完全表述圖像之間的變換關系,導致重合區(qū)域內(nèi)對應像素點的誤匹配,降低配準效果的現(xiàn)象。在特定場景下,這種由于視差引起的誤匹配可能導致全景圖像的重合區(qū)域中出現(xiàn)鬼影、模糊,在拼縫處出現(xiàn)錯位、斷裂等諸多不良現(xiàn)象,惡化全景圖像的質(zhì)量。
在進行圖像配準時,當前一般使用射影變換(單應)作為全局配準模型,即將待拼接圖像上所有的像素點使用同一個單應矩陣映射到參考圖像上。以圖像i、j為例,基于射影變換的配準關系如下:
圖1 圖像拼接算法簡要流程圖
近些年對圖像拼接中的視差與配準問題的研究一直未曾中斷,相關學者不斷提出新的方法來處理視差問題。其中的主要思路是在配準時,并非使用單一的變換模型,而是整合多個變換模型,甚至整合不同種類的變換模型來表示兩幅圖像之間的變換關系,以此使待拼接圖像之間像素點的映射更加靈活,能夠更好的容忍視差,從而減弱視差對全景圖像的不利影響。
Junhong Gao等針對場景中存在遠距離背景與地平面兩個主平面的特定場景,采用雙單應性的方法來進行待拼接圖像的配準。通過對兩個主平面分別計算各自的單應性關系,使圖像間像素點的映射更加靈活,能夠一定程度上容忍視差。然而這種方法僅適用于某一類特定場景,不具有普適性。Seongdo Kim等在上述方法上進行了擴展,其將提取出的圖像特征點利用K-means進行聚類,對每一個聚類求得其對應的單應性矩陣,最終使用多個單應來表述兩幅圖像的變換關系。該方法能夠根據(jù)場景自動計算所需的單應個數(shù),適用于更多的場景,具有較好的普適性。WenYan Lin等也采用了類似思路,提出一種平滑變化仿射拼接方法,其通過求解多個局部的仿射變換關系,再整合為全局平滑的仿射變換作為拼接配準模型。該方法也能夠一定程度上處理視差問題。而Julio Zaragoza等更進一步,將圖像劃分為多個單元塊,對不同的單元塊使用不同的單應進行配準,同時用數(shù)學約束來維持各個單元塊的映射關聯(lián)性,以能夠生成視覺上連續(xù)的全景圖像。實驗表明,該方法也能夠一定程度上緩解視差的不利影響。Fan Zhang等則使用一種混合配準模型來處理視差問題,其通過單應來進行全局粗配準,以保存圖像的全局結(jié)構(gòu),然后使用局部配準模型(content-preserving warping)來進行精化配準,最終達到減弱視差影響的目的。
雖然對配準方法的研究不斷深入,然而至今仍未有一種能完美處理視差的配準模型。此外,通過整合多個局部模型行配準的方法會引入大量的計算,增加了配準算法的復雜度,對于移動拼接軟件這樣需要快速獲取拼接結(jié)果的應用場景并不合適。因此,當基于移動平臺實現(xiàn)圖像拼接應用軟件時,應采取額外措施來處理視差問題,以保證軟件在特定場景下的可用性與拼接效果。
隨著近年來各類智能手持設備性能的大幅提升,基于移動平臺的圖像拼接軟件的拼接效果不斷改善,魯棒性也不斷增強。然而當前很難有一種圖像拼接算法能夠保證任意取景方式下的全景效果,且隨意的取景方式對拼接算法的魯棒性要求過高,會增加算法的復雜度,延長拼接時間,降低軟件的體驗性。因此當前絕大多數(shù)的移動拼接應用軟件都對其取景方式進行了一定的限制,如要求單方向水平取景、設備豎直不傾斜等等。本文主要根據(jù)各軟件對取景過程限制的實現(xiàn)方式將常見的移動拼接軟件分為三類。
(1)利用圖像技術對取景過程進行限制
此類軟件主要利用圖像處理技術,確定已拍攝圖像與當前取景圖像之間的相對位置關系,從而對當前取景進行限制與指導。如Android平臺上的全景神拍、ProPanorama及一些手機自帶的全景拍攝功能等軟件都屬于這種方式。這類軟件對移動設備沒有附加要求,在各類智能設備上都能夠使用,通用性較好。然而該類軟件無法獲知移動設備在取景過程中的姿態(tài)變化與運動情況,因此其無法避免由于拍攝視點的平移而導致的視差,也無法在視差的引入過程中對用戶進行提示與告知。一般而言,該類軟件只要求拍攝過程中近似水平單方向取景,限制效果一般。
(2)借助傳感器對取景過程進行限制
此類軟件一般借助于移動設備內(nèi)置的傳感器,判斷當前取景是否滿足預設定的限制條件,并通過可視化的方式告知用戶。如IOS平臺上的轉(zhuǎn)轉(zhuǎn)鳥、DMD全景,Android平臺上的全景盡情拍等軟件都屬于此種方式。這類軟件要求設備內(nèi)置有特定的傳感器,否則便無法正常使用。由于這類軟件能夠獲知取景過程中設備姿態(tài)的變化及運動情況,因而能夠?qū)τ脩舻娜【胺绞竭M行更加多樣而嚴格的限制。然而當前此類軟件一般都基于方位傳感器監(jiān)測取景過程中設備的旋轉(zhuǎn)運動,忽略了對平移運動的限制,故無法避免視差的引入。因此基于方位傳感器的限制方式無法處理視差問題,需要考慮引入額外的限制方法。
(3)通過已拍攝圖像與傳感器對取景過程進行限制
此類軟件一般通過設備內(nèi)置的傳感器對取景過程中的手機姿態(tài)進行限定,同時利用已拍攝圖像對用戶當前取景進行指導。如Photaf Pro、3D全景相機等軟件,不僅通過水平儀對用戶拍攝時手機姿態(tài)進行限定,更利用已拍攝圖像使用戶在取景的過程中即完成了初步的預配準,提升了拼接的速度與質(zhì)量。由于該類軟件充分利用了移動設備的傳感器資源與已拍攝圖像,對取景過程的監(jiān)測與指導更加嚴格,因此其拼接質(zhì)量一般更好。然而由于此類軟件一般使用方位傳感器或重力傳感器,無法感知取景過程中拍攝視點的平移,因此對視差問題的幫助很小。
通過對軟件的取景方式進行限定,能夠使所拍攝的局部場景圖像在進行拼接之前就滿足某些預設定條件,使輸入圖像更加符合拼接算法的內(nèi)在要求,還能夠?qū)Ξ斍芭臄z進行指導,明確用戶操作,使軟件更易使用。然而,通過對當前移動拼接軟件的分析,可以發(fā)現(xiàn)大多軟件的取景過程并未針對視差問題形成有效的限制,無法避免視差的引入,也沒有在視差的引入過程中對用戶提示告知。
此外,通過分析各軟件在不同拍攝方式下的拼接效果,可以發(fā)現(xiàn)大多軟件在視差明顯的情況下,拼接質(zhì)量較差。以圖2中(a)所示的場景作為測試場景,該場景中的縱向深度差異明顯,因而對取景過程中的視點平移很敏感,較小的平移就能導致輸入圖像之間產(chǎn)生較大的視差。以拼接效果較好的第三類軟件中的Photaf Pro為例,繞光心旋轉(zhuǎn)取景拍攝獲得的拼接全景如圖2中(b)所示,而通過使拍攝視點平移的方式引入視差后得到的全景圖像如圖2中(c)所示。通過兩幅全景圖像與原始場景的對比,可以發(fā)現(xiàn)當取景過程嚴格繞光心旋轉(zhuǎn)時,由于輸入圖像間視差很小,因而獲得的全景圖像質(zhì)量很高,而當在輸入圖像間引入較大視差后,在全景圖像中的拼縫處發(fā)生了明顯的錯位和斷裂,拼接效果較差。此外,在通過平移設備引入視差的過程中,完全滿足軟件的預設定限制條件,軟件沒有進行任何相關提示。當使用其他軟件進行測試時,也會有類似結(jié)果。
圖2 Photaf Pro在特定場景的拼接結(jié)果對比
綜合來看,當前大多數(shù)的圖像拼接應用軟件對于室外較遠的自然場景的拼接效果較好,而對于一些場景深度差異明顯且拍攝取景過程中引入了較大視差的情況下,其生成全景的質(zhì)量普遍不高??梢越普J為,當前大多移動拼接軟件在取景過程中并沒有針對視差進行有效的限制,無法避免視差的引入,也沒有對用戶進行相關提示,且所用算法也無法較好的處理視差,從而導致軟件在特定場景下的拼接效果較差。因此,當基于移動平臺實現(xiàn)圖像拼接應用軟件時,應該引入新的方法與限制措施來處理視差問題。
通過前文對視差問題的論述與分析,可知在圖像拼接算法方面,只有對場景中每個深度的物體都求解其唯一的變換關系才能完全處理輸入圖像之間的視差,達到完美的配準效果,這顯然并不現(xiàn)實。而在實際應用中,平面場景的假設很難滿足,一般場景中普遍存在深度差異。因此,若圖像拼接軟件能夠通過某種措施促使用戶繞相機光心旋轉(zhuǎn)取景拍攝,減小取景過程中拍攝視點的平移,就能夠很大程度上避免視差的引入,提升全景的拼接質(zhì)量。此外,當取景過程滿足旋轉(zhuǎn)拍攝時,有:
當前加速度計主要根據(jù)施加于傳感器上的作用力,返回三個坐標軸上的線性加速度大小。由于加速度計無法檢測出設備繞坐標原點作純旋轉(zhuǎn)運動時的角加速度變化,故當設備做旋轉(zhuǎn)運動時,可近似認為各軸上加速度的變化只是由重力分量的變化而引起。以、、分別表示加速度計X、Y、Z軸上的加速度大小,令在繞加速度計坐標原點的純旋轉(zhuǎn)運動過程中,必然有:
故合成量 對于設備的旋轉(zhuǎn)運動是不敏感的。此外,當設備發(fā)生平移運動時,設備的線性加速度必然變化,最終導致合成量 的變化。因此,可以通過加速度計的數(shù)據(jù)合成量 來判斷取景過程中移動設備的線性運動情況,從而判斷拍攝視點是否發(fā)生了較大的平移。
當通過傳感器數(shù)據(jù)確認當前取景方式會導致輸入圖像間產(chǎn)生較大視差時,可以禁止用戶拍攝,同時根據(jù)已拍攝圖像,提示用戶變更當前取景位置,恢復到上一幅圖像的取景視點,繼續(xù)旋轉(zhuǎn)取景。通過這樣的方式,能夠使取景過程始終滿足旋轉(zhuǎn)拍攝的要求,從而在拍攝取景階段就避免視差的引入,對于移動拼接軟件中的視差問題有很大的幫助。
本文主要介紹了圖像拼接應用軟件中的視差問題,簡要闡述視差問題的原理、影響,并介紹了當前在拼接算法層面上針對視差問題的一些進展。此外,在對一些常見移動拼接應用軟件進行分析的基礎之上,對視差問題的可能處理方式進行了探討,即可通過加速度傳感器來對軟件使用過程中的拍攝取景方式進行監(jiān)測,限制取景過程中設備的平移運動,促使用戶盡可能旋轉(zhuǎn)取景,從而減小算法輸入圖像之間的視差,使其更加符合配準模型的要求,最終生成質(zhì)量更優(yōu)的全景圖像。
杜瑞濤 岑 峰
同濟大學電子與信息工程學院
杜瑞濤,男,碩士研究生,同濟大學電子與信息工程學院控制工程系,主要研究方向為圖像處理;岑峰,男,副教授,同濟大學電子與信息工程學院控制科學與工程系,主要研究方向為智能視覺處理技術與實現(xiàn)。
10.3969/j.issn.1001-8972.2015.07.001