吳曉秋,,b
(南京郵電大學(xué) a.通信與信息工程學(xué)院; b.江蘇省圖像處理與圖像通信重點實驗室,南京 210003)
室內(nèi)場景理解是國內(nèi)外學(xué)者的研究熱點之一,對于解決一些高級計算機視覺問題具有非常重要的意義。目標(biāo)分割與提取結(jié)果通常為目標(biāo)候選區(qū)域或目標(biāo)邊界框,是場景解析的關(guān)鍵步驟之一。經(jīng)過多年的發(fā)展,目標(biāo)提取算法目前可分為2類:一類是基于滑動窗口檢測思想[1]的算法,另一類是基于分割的算法,包含圖像過分割與分割拼合策略。第1類算法較經(jīng)典的是文獻(xiàn)[2]提出的DPM(Deformable Parts Model)目標(biāo)檢測算法,其采用改進(jìn)HOG特征[3]和SVM分類器[4],對目標(biāo)的形變具有很強的魯棒性,在行人檢測等方面具有顯著成果[5],但計算代價較大且不能使用復(fù)雜的特征表示。第2類算法較經(jīng)典的是文獻(xiàn)[6]提出的基于圖的圖像分割(Graph Based Segmentation,GBS)算法,其能快速找出視覺上一致的區(qū)域,被廣泛地應(yīng)用于圖像處理領(lǐng)域[7-8]。此后,文獻(xiàn)[9]提出gPb-UCM分層圖像分割算法,通過譜聚類結(jié)合局部和全局信息進(jìn)行輪廓檢測。文獻(xiàn)[10]提供了一個大型室內(nèi)RGB-D數(shù)據(jù)集-NYUv2。文獻(xiàn)[11]提出CPMC(Constrained Parametric Min-Cuts)約束參數(shù)最小割的前景目標(biāo)分割算法。文獻(xiàn)[12-13]利用RGB-D數(shù)據(jù)集,通過增加幾何特征或深度信息來提升效果,但這些有監(jiān)督算法的計算復(fù)雜度較大,需要預(yù)先得到的訓(xùn)練數(shù)據(jù),檢測時容易忽視平面區(qū)域物體。文獻(xiàn)[14]提出MCG多尺度組合分組算法,計算速度較快,分割效果在發(fā)表當(dāng)時屬于頂尖水平。文獻(xiàn)[15]融合深度信息將該算法擴展到RGB-D圖像,但需要預(yù)訓(xùn)練輪廓模型。文獻(xiàn)[16]利用文獻(xiàn)[13]的方法產(chǎn)生前景以及文獻(xiàn)[12]的方法進(jìn)行布局推理,提高了目標(biāo)提取的準(zhǔn)確度,但是目標(biāo)類別較少且召回率較低。文獻(xiàn)[17]提出一種無監(jiān)督的快速RGB-D目標(biāo)提取與分割算法,實例分割效果較好,但對圖像亮度變化等比較敏感。
雖然目標(biāo)提取算法在不斷的發(fā)展,但是由于RGB圖像的特征局限性,在應(yīng)用于復(fù)雜的室內(nèi)場景時還是存在一些提取錯誤,例如:遮擋造成的大物體提取不完整問題;平面區(qū)域物體及小尺寸物體容易被忽視的問題。針對上述問題,本文提出基于室內(nèi)RGB-D場景的無監(jiān)督場景布局估計與目標(biāo)區(qū)域提取算法。該算法通過過分割層次分組獲取所有由小至大的目標(biāo)區(qū)域,保留小尺寸物體;基于3D點云信息進(jìn)行平面分類,留取所有位于平面區(qū)域的RGB圖像分組結(jié)果,突出保留平面區(qū)域中的物體;同時通過點云信息的幾何連續(xù)性減少因遮擋造成的大物體提取錯誤。
本文算法首先利用輸入的3D點云做平面分割得到平面區(qū)域與非平面區(qū)域,并將平面區(qū)域進(jìn)行分類;然后利用基于圖的分割算法與約束參數(shù)最小割算法對預(yù)處理后的深度圖與RGB圖做過分割,得到不同大小的區(qū)域集合;接著利用4種不同的相似度衡量方式進(jìn)行區(qū)域合并以完成區(qū)域?qū)哟畏纸M,獲取所有尺度大小的目標(biāo)區(qū)域,考慮了多種圖像情況增加了算法的魯棒性;在此基礎(chǔ)上,對平面區(qū)域與非平面區(qū)域的遮罩采取不同的策略匹配包含遮罩的最小矩形邊界框;最后利用邊界框交疊率消除冗余邊界框,留下最佳目標(biāo)區(qū)域邊界框。本文算法流程如圖1所示。
圖1 本文算法流程
在布局估計部分,本文首先從由深度圖得到的密集3D點云中提取主要平面布局結(jié)構(gòu),為避免RGB圖像的噪聲影響,平面分割算法只利用由Kinect等深度傳感器得到的3D點云來做平面分割。
首先對3D點云中的每一個有效點p計算一個法線向量Np,然后在深度圖上進(jìn)行一致性采樣得到三角點集T={(pi1,pi2,pi3),i=1,2,…}來初始化平面候選區(qū)。對于每個三角點組ti∈T,采用RANSAC(Random Sample Consensus)點集對齊算法匹配一個候選平面Pi,然后在3D空間搜尋其內(nèi)點Si。
每個內(nèi)點可由深度圖中的一個像素點及其對應(yīng)的3D有效點表示,當(dāng)d(p,Pi) 其中,f為焦距,b為傳感器的基線長度,m為線性歸一化參數(shù),Z代表深度值。 得到內(nèi)點和候選平面之后,移除細(xì)小平面并且拼合空間上相近或接近共面的平面。為了過濾掉由于深度噪聲產(chǎn)生的假平面,計算每個平面Pi的內(nèi)點Si對應(yīng)的像素點連通域CCi={ci1,ci2,…,cij,…}每個連通域cij在3D點云中匹配一個對應(yīng)的平面Pcij。當(dāng)法線NPcij與NPi的角度大于一定閾值時,將cij從CCi中移除,然后根據(jù)剩下的連通域內(nèi)點重新計算Pi的平面參數(shù)。 在檢測得到主要平面區(qū)域以后,進(jìn)一步將它們分為邊界與非邊界平面,邊界平面即是沒有其他物體在其后面的平面。假設(shè)平面的法線向量面向觀察者,計算在平面另一面的點云數(shù)與整個場景的點云總數(shù)量之比γ,理想情況下邊界平面的γ即為0,考慮到噪聲影響,這里設(shè)置γ為0.01。 為了盡可能包含室內(nèi)場景的主要幾何結(jié)構(gòu)以及錯綜復(fù)雜的大小物體,本文結(jié)合RGB信息與深度信息,首先對像素級別的圖像進(jìn)行不同程度的過分割,得到區(qū)域級別的圖像,然后根據(jù)區(qū)域特征進(jìn)行層次分組,以獲取包含所有大小目標(biāo)區(qū)域的組級別圖像。 圖像過分割將圖像劃分為多個子區(qū)域,這些子區(qū)域由一系列位置相鄰且特征相似的像素點組成,也稱為超像素。本文采用2種快速的無監(jiān)督圖像分割方法——基于圖的分割方法和約束參數(shù)最小割方法利用RGB-D數(shù)據(jù)集進(jìn)行圖像過分割。 1)基于預(yù)處理后的RGB圖與深度圖的分割 對于RGB圖像,為了得到較精細(xì)的過分割效果以保留小尺寸目標(biāo),而不產(chǎn)生過多的冗余分割,先將圖像從RGB轉(zhuǎn)換到RGI顏色空間,即歸一化RGB中的R、G通道加上亮度I;另外為了減少陰影對分割的影響,對RGB圖像加上同態(tài)濾波,處理后為一張壓縮了亮度范圍并提亮了陰影部分的灰度圖。對于深度圖,由于深度圖中存在著深度信息丟失造成的深度空洞,利用全局優(yōu)化著色方法[18]對深度圖進(jìn)行空洞填補。 基于圖的分割方法能保留圖像低變化區(qū)域的細(xì)節(jié)而忽略高變化區(qū)域的細(xì)節(jié),有利于保留平面區(qū)域中目標(biāo),所以本文采用該方法對預(yù)處理后的彩色圖與深度圖進(jìn)行3種不同程度的分割。圖2展示了RGI通道圖像的分割結(jié)果,其中k為懲罰因子,控制著分割所形成的超像素大小,也表示圖像過分割程度,k越大,超像素越大,過分割程度越小。 圖2 基于RGI顏色空間3種程度的分割結(jié)果 2)基于RGB-D混合通道的分割 為更好地結(jié)合RGB圖像信息與深度信息提升分割效果,本文采用約束參數(shù)最小割方法結(jié)合圖像紋理、亮度等特征與深度信息來計算勢能。該算法由同等間隔的種子像素產(chǎn)生候選前景區(qū)域,目的是最小化式(2)所示的能量公式,即完成前背景分割。該能量公式基于像素標(biāo)簽{x1,x2,…,xN},其中xi∈{0,1},分別代表背景或前景,N為像素點總數(shù)。 在式(2)中,μ,υ∈,λ∈R,ν是所有像素點的集合,ε為相鄰像素間的邊緣集合,Cλ為代價函數(shù),給每個像素賦予前背景標(biāo)簽時都會產(chǎn)生一個代價,二元勢函數(shù)Vμυ在這里作為懲罰函數(shù),當(dāng)給相似的相鄰像素賦予不同的標(biāo)簽時,就會有一個懲罰值。 代價函數(shù)Cλ定義如下: 其中,νf代表前景種子,νb代表背景種子,λ為偏移量,f定義如式(4)所示。 f(xμ)=lnpf(xμ)-lnpb(xμ) (4) 在式(4)中,pf表示像素點i屬于前景區(qū)域的概率分布,為了加入深度信息,pf定義如式(5)所示。 (1-α)·‖D(i)-D(j)‖)) (5) 在式(5)中,D為深度圖,I為RGB圖像,j指種子區(qū)域的代表性像素點,這些像素點由K-均值算法(k=5)選出作為區(qū)域中心,α為比例因子,γ為尺度因子。 二元勢函數(shù)Vμυ定義如式(6)所示。 其中,2個鄰近像素的相似性g(μ,υ)是根據(jù)像素點μ與υ的gPb值[9]計算的,即: 在式(7)中,σ2為邊緣銳化參數(shù),用于控制二元項Vμυ的光滑性,gPb表示每一個像素作為邊界的可能性或者稱為后驗概率。為了結(jié)合深度信息,算法對RGB圖像和深度圖都進(jìn)行g(shù)Pb計算,并將其線性組合起來作為像素點的gPb值: gPb=α·gPbr+(1-α)·gPbd (8) 其中,gPbr表示RGB圖中像素點的gPb值,gPbd表示深度圖中像素點的gPb值,此處α設(shè)為0.3。 由于區(qū)域通常包含更豐富的信息,因此能更有效地表示物體的特征。在得到圖像過分割結(jié)果以后,根據(jù)區(qū)域特征對這些超像素進(jìn)行層次分組。 本文使用一種貪心算法來迭代進(jìn)行區(qū)域合并:假設(shè)初始區(qū)域(超像素)集合為R={r1,r2,…,rn},初始化相似度集合S=?,計算所有兩兩相鄰區(qū)域的相似度s(ri,rj)并將其添加到S中。找出集合S中相似度最大的2個區(qū)域ri和rj,將其合并為一個區(qū)域rt,從S中除去原先ri和rj與相鄰區(qū)域之間計算的相似度,即S=Ss(ri,r*)。然后計算rt與其相鄰區(qū)域的相似度,添加到集合S中,同時將新區(qū)域rt添加到集合R中。重復(fù)以上步驟直到整張圖像成為一個大區(qū)域就可完成區(qū)域?qū)哟螛涞臉?gòu)建即層次分組。 由于復(fù)雜室內(nèi)場景需要考慮紋理、光照條件等眾多因素,為了提高算法的魯棒性,本文定義4種高效的相似度衡量方法,這4種相似性特征在合并過程中是能夠被傳遞的,即將合并后rt的特征能由ri和rj直接計算得到,具體定義如下: 1)顏色相似度sc(ri,rj) 顏色直方圖在合并過程中同樣也是能被高效傳遞的,新區(qū)域的直方圖可通過計算下式得到: 其中,s(ri)表示區(qū)域ri的大小,即區(qū)域中包含像素點的個數(shù),新區(qū)域的大小為s(rt)=s(ri)+s(rj)。 2)紋理相似度st(ri,rj) 3)尺寸相似度ss(ri,rj) 尺寸相似度主要是為了鼓勵小區(qū)域盡早合并,這也避免了單一區(qū)域不斷吞并其他區(qū)域直至整個圖像被其吞并為一個區(qū)域,其計算公式如下: 其中,I是指整張圖像。 4)吻合相似度sf(ri,rj) 吻合相似度支持有相交或者包含關(guān)系的區(qū)域優(yōu)先合并,假設(shè)BBij為包含ri和rj的最小矩形邊界框,其越小則兩區(qū)域的吻合度越高。吻合相似度計算公式如下: 最后相似度s(ri,rj)的計算方式由以上4種相似度組合得到,計算公式如下: s(ri,rj)=a1sc(ri,rj)+a2st(ri,rj)+ a3ss(ri,rj)+a4sf(ri,rj) (14) 其中,ai∈{0,1},表示該相似度是否被使用。 由于不同區(qū)域的幾何屬性不一樣,本文在完成區(qū)域?qū)哟畏纸M以后,將得到的所有由小至大的目標(biāo)區(qū)域轉(zhuǎn)換為單個區(qū)域的二值圖像即遮罩,并根據(jù)平面分類的結(jié)果對不同區(qū)域的遮罩采取不同的匹配策略來匹配最小矩形邊界框。 1)平面區(qū)域 平面區(qū)域分為邊界平面與非邊界平面,邊界平面(如墻壁、地板等)能直接被采用,非邊界平面通常代表會因為雜物的遮擋被分割成多段的大物件(如床、沙發(fā)等)。因此,為降低遮擋影響完整地定位大物體,對每一個非邊界平面,找到它的邊界點來計算與其他非邊界平面的最小歐式距離,將距離小于一定閾值(5 cm)的平面區(qū)域拼合起來。最后,對邊界平面以及拼合后的非邊界平面匹配矩形邊界框。另外,對于位于平面區(qū)域的物體(如相框、紙張等),由RGB圖像產(chǎn)生的遮罩全都被保留采用,這改善了傳統(tǒng)分割與層次分組方法易將平面區(qū)域中目標(biāo)與背景混為一體的現(xiàn)象[12]。 2)非平面區(qū)域 對于非平面區(qū)域的物體,除了與非平面區(qū)域重疊面積過小的遮罩以外,其他遮罩都直接被采用。 最后對這些遮罩一一匹配邊界框,得到總邊界框集合B,如式(15)所示。 B=BBP+BMPR+BNPR+BPR (15) 其中,BBP代表邊界平面的邊界框,BMPR代表拼合平面的邊界框,BNPR代表非平面區(qū)域的邊界框,BPR代表平面區(qū)域的邊界框。 假設(shè)B={b1,b2,…,bn},首先去除細(xì)小邊界框,然后將邊界框按面積大小排序,從第一個邊界框開始循環(huán)計算其與其他邊界框的交除并(Intersection over Union,IoU),即2個邊界框的交疊率O(bi,bj): 其中,bi,bj∈B,a(bi)表示邊界框bi的面積。將交疊率大于閾值t的其他邊界框濾去,重復(fù)上述步驟,得到最后的邊界框集合。 本文利用NYUv2數(shù)據(jù)集進(jìn)行實驗仿真,圖3和圖4所示為場景布局估計結(jié)果,其中,黑色區(qū)域代表非平面區(qū)域,其他都代表平面區(qū)域,1代表邊界平面,0代表非邊界平面??梢钥闯?平面分割基本可以將主要平面幾何結(jié)構(gòu)(如墻壁)劃分出來,也可以將一些大尺寸物體(如櫥柜、電視機等)分割出來,非平面區(qū)域也能被較完整地劃分出來,如圖3(a)中的自行車;平面分類也基本可以將主要邊界平面與非邊界平面區(qū)分出來,如墻壁都被分類為邊界平面,而櫥柜等靠墻的大物件都為非邊界平面,但是由于深度信息的丟失與不完整也存在一些錯誤。 圖3 客廳場景布局估計結(jié)果 圖4 臥室場景布局估計結(jié)果 對于目標(biāo)邊界框,將本文算法與5個優(yōu)秀的類別獨立的目標(biāo)提取算法進(jìn)行比較,由于其中一部分算法帶有監(jiān)督學(xué)習(xí)步驟,為了公平比較,本文遵守了該數(shù)據(jù)集的劃分標(biāo)準(zhǔn)(795張訓(xùn)練圖像和654張測試圖像),僅對測試集做了算法測試與評估。 算法對每張圖片生成一系列邊界框,這些邊界框準(zhǔn)確地包含了各個尺度的目標(biāo)區(qū)域,為之后的高質(zhì)量實例分割、目標(biāo)識別、語義分割等問題打下良好基礎(chǔ)。5個比較算法分別為CPMC3D[13]、gPb3D[12]、MCG[14]、MCG3D[15]以及ZD3D算法[17]。其中,gPb3D、MCG、MCG3D均為有監(jiān)督方法,CPMC3D、ZD3D與本文均為無監(jiān)督方法。6種算法的邊界框召回率對比如圖5所示。 圖5 6種算法的邊界框召回率對比 跟隨MCG算法,本文定義邊界框召回率為超過0.5杰卡德得分(Jaccard score)的邊界框的占比率。由圖6~圖8和表1可以看出,本文算法得到的邊界框達(dá)到了最高召回率(91.6%),而邊界框數(shù)只占到了排第二的ZD3D算法的75%以及排第三的MCG3D的31%。同時,本文的算法是完全無監(jiān)督的,不需要任何預(yù)先的訓(xùn)練過程,計算效率也相對較高。從圖中對比可以看出,本文的算法定位到了更多的小物體,如圖8中桌上的臺燈與最左邊桌上的相框,以及圖7中左下方的玻璃瓶等。同時也兼顧地改善了區(qū)域遮擋現(xiàn)象,大物體也能被完整正確地框出來,如圖7中的瓶栽植物與圖8中桌子旁的暖風(fēng)機等。這說明本文算法結(jié)果盡可能地包含了各種尺度大小的物體,達(dá)到了很高的召回率。由于本文算法根據(jù)平面分割與分類的結(jié)果對不同的區(qū)域采取了不同的邊界框匹配策略,所以結(jié)果不容易忽視位于平面區(qū)域中的物體,如圖6中墻壁上的開關(guān)與插座等。 圖6 辦公室場景4種算法的細(xì)節(jié)對比 圖7 書房場景4種算法的細(xì)節(jié)對比 圖8 臥室場景4種算法的細(xì)節(jié)對比 表1 6種算法的召回率與候選邊界框數(shù)量比較 本文提出一種無監(jiān)督的室內(nèi)RGB-D場景布局估計與目標(biāo)區(qū)域提取算法。首先基于RGB-D數(shù)據(jù)集對場景進(jìn)行平面分割與分類,然后對RGB-D圖像進(jìn)行不同程度的過分割,接著利用4種相似度計算方式進(jìn)行區(qū)域合并得到區(qū)域?qū)哟畏纸M結(jié)果,最后對不同區(qū)域的遮罩采取不同的匹配策略以得到更準(zhǔn)確的目標(biāo)區(qū)域邊界框。實驗結(jié)果表明,該算法在產(chǎn)生較少目標(biāo)候選區(qū)的情況下達(dá)到了較高的召回率,能夠克服部分遮擋影響,準(zhǔn)確定位大小物體以及平面區(qū)域物體,并且結(jié)構(gòu)簡單,計算速度快。下一步將利用機器學(xué)習(xí)提煉高質(zhì)量邊界框,同時根據(jù)得到的目標(biāo)邊界框結(jié)合前景摳圖算法得到準(zhǔn)確的實例分割結(jié)果。2.2 平面分類
3 圖像過分割與層次分組
3.1 圖像過分割
3.2 過分割層次分組
4 遮罩邊界框匹配
5 實驗仿真與評估
6 結(jié)束語