朱新軍,趙浩淼,王紅一,宋麗梅,孫瑞群
(天津工業(yè)大學(xué) 人工智能學(xué)院,天津 300387)
光學(xué)三維測量是光學(xué)計(jì)量和信息光學(xué)中最重要的研究領(lǐng)域和研究方向之一[1]。結(jié)構(gòu)光三維測量技術(shù)是光學(xué)三維測量的重要方式[2],具有速度快和精度高等優(yōu)點(diǎn),在機(jī)器人引導(dǎo)、虛擬現(xiàn)實(shí)、人機(jī)交互、文物保護(hù)、機(jī)器人視覺、生物醫(yī)學(xué)等領(lǐng)域有相當(dāng)廣闊的應(yīng)用前景[3]。在過去的研究中,可以把傳統(tǒng)的結(jié)構(gòu)光相位提取技術(shù)主要分為兩類:以傅立葉變換法為代表的單幅圖相位提取方法[4]和相移方法[5]。傅立葉算法只需要單個條紋圖案并可直接獲得包裹相位圖。該方法受物體運(yùn)動影響的程度較低但存在相位提取精度較低和計(jì)算時間長等問題。相移算法至少需要3 幅條紋圖像[6],通過相移計(jì)算獲得相對相位圖。該方法對于投影光柵的標(biāo)準(zhǔn)性和相移量準(zhǔn)確度的要求較高。其精度高但受運(yùn)動環(huán)境影響較大。以上方法獲得的相位通常為包裹相位,需要通過一些展開方法將相對相位圖變換為絕對相位[7]。此外,在結(jié)構(gòu)光深度估計(jì)方面,傳統(tǒng)方法需要進(jìn)行系統(tǒng)標(biāo)定、相位深度映射完成深度測量與三維測量。
綜上所述,準(zhǔn)確的條紋相位估計(jì)與深度估計(jì)是結(jié)構(gòu)光測量的主要挑戰(zhàn)。近年來,在結(jié)構(gòu)光三維重建領(lǐng)域中出現(xiàn)了許多基于深度學(xué)習(xí)的方法。Feng 等人通過實(shí)驗(yàn)證明深度神經(jīng)網(wǎng)絡(luò)可以顯著提高單個條紋圖案的相位估計(jì)精度[8],具體來說,通過卷積網(wǎng)絡(luò)預(yù)測中間結(jié)果,最終得到高精度相位圖。Nguyen 等人提出了一種端到端的方法,使用全卷積網(wǎng)絡(luò)由條紋圖得到深度圖[9]。Jeught 等人提出了一種完全基于深度學(xué)習(xí)的從單個變形條紋圖案中提取深度信息的方法[10]。張釗等人提出了一種多階段深度學(xué)習(xí)單幀條紋投影的三維測量方法,通過分階段學(xué)習(xí)方式依次獲得物體的深度信息[11]。其中,大部分結(jié)構(gòu)光相位估計(jì)方法都基于卷積網(wǎng)絡(luò),不利于上下文信息的特征捕獲,而Transformer 的優(yōu)勢是利用注意力的方式捕獲全局的上下文信息,以對目標(biāo)建立遠(yuǎn)距離依賴,提取有力的特征。文獻(xiàn)[12-14]對這兩種網(wǎng)絡(luò)進(jìn)行優(yōu)勢互補(bǔ)[12-14]。Zhu 等人開發(fā)了一種混合CNN-Transformer 模型,該模型通過條紋級次預(yù)測進(jìn)行相位展開[15],在條紋級次預(yù)測方面取得了較好的效果。
本質(zhì)上,基于深度學(xué)習(xí)的相位估計(jì)和深度估計(jì)都屬于回歸預(yù)測問題。目前上述的模型雖然取得了較好的效果,但存在較大的誤差,仍有可提升的空間。為此,本文提出了一種CNN-Transformer 相結(jié)合的模塊,分4 個階段應(yīng)用在U 型總體架構(gòu)中,將局部特征與全局特征相融合,并更新了注意力機(jī)制的算法,在網(wǎng)絡(luò)中使用輕型自限制注意力(Light Self-Limited-Attention,LSLA)機(jī)制以節(jié)省計(jì)算成本和參數(shù)數(shù)量。最后,將所提出的網(wǎng)絡(luò)在結(jié)構(gòu)光深度估計(jì)和相位估計(jì)兩個任務(wù)中都進(jìn)行了實(shí)驗(yàn)。
典型的條紋投影輪廓術(shù)(Fringe Projection Profilometry,FPP)系統(tǒng)由投影儀和相機(jī)組成[16],圖1 為FPP 系統(tǒng)原理圖,投影儀將條紋圖案投影到目標(biāo)物體上,變形的條紋包含了物體的特征信息,然后由相機(jī)捕獲并輸出數(shù)字圖像。在多頻率的FPP 中,投影儀會投射多個不同頻率的條紋圖案,相機(jī)捕獲多張圖片,然后通過相位解算得到物體表面的三維形狀信息。
圖1 FPP 系統(tǒng)原理圖Fig.1 Schematic diagram of the FPP system
通過分析捕獲的變形條紋,解出相位跳變的包裹相位。圖像中的條紋可以表示為:
其中,In(x,y) 為某一像素點(diǎn) (x,y) 的光強(qiáng),A(x,y)為該像素點(diǎn)的背景光強(qiáng),B(x,y)為該點(diǎn)的調(diào)制光強(qiáng),φ(x,y) 為該點(diǎn)的相位值,n=0,1,···,N-1,為相移的步數(shù)。根據(jù)公式(1)計(jì)算出包裹相位:
包裹相位存在 2π的相位跳變。為得到連續(xù)的相位信息,需要將相位跳變的包裹相位展開,相位展開公式如下:
其中,?(x,y) 是展開相位,k(x,y)是條紋級數(shù)。
根據(jù)標(biāo)定相位與三角坐標(biāo)的關(guān)系,可以得到絕對相位,根據(jù)絕對相位可以直接獲取三維高度信息。
網(wǎng)絡(luò)的總體結(jié)構(gòu)是U 型結(jié)構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2 所示。其由一個編碼器-解碼器組成。該模型的輸入是結(jié)構(gòu)光圖像,在編碼器網(wǎng)絡(luò)中,通過下采樣方式將輸入圖像的分辨率降低,提取低分辨率特征,經(jīng)過4 次下采樣后,進(jìn)入解碼器網(wǎng)絡(luò),再進(jìn)行相同次數(shù)的上采樣操作,將編碼器學(xué)習(xí)的低分辨率特征映射到高分辨率像素空間中。該模型還使用了跳連接,在解碼器網(wǎng)絡(luò)中將淺層特征和深層特征相融合,從而提高邊緣信息的精細(xì)度。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram
太窄的網(wǎng)絡(luò)每一層能捕獲的模式有限,此時即使網(wǎng)絡(luò)再深也不可能提取到足夠信息往下層傳遞。加寬網(wǎng)絡(luò)可以讓每一層學(xué)習(xí)到更豐富的特征,比如不同方向,不同頻率的特征。但寬度增加會導(dǎo)致計(jì)算量成平方數(shù)增長??紤]到效率問題,要適當(dāng)調(diào)整網(wǎng)絡(luò)寬度。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),把網(wǎng)絡(luò)加寬到1 024 時效果最優(yōu)。
CNN 是一種前饋神經(jīng)網(wǎng)絡(luò),它的特點(diǎn)是卷積層和池化層交替使用,其可以直接處理高維數(shù)據(jù),自動提取圖像的特征信息,提高模型的計(jì)算效率,但不利于上下文信息的特征捕獲;Transformer 是一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,可以學(xué)習(xí)全局信息,提高模型的表達(dá)能力。在結(jié)構(gòu)光圖像處理過程中,由于圖像數(shù)據(jù)的維度較高,使用傳統(tǒng)的Transformer 模型會導(dǎo)致計(jì)算量過大,將CNN 和Transformer 結(jié)合可以提高模型的計(jì)算效率,同時將CNN-Transformer 的優(yōu)勢相結(jié)合,使用CNN 提取圖像的局部特征,Transformer 學(xué)習(xí)圖像的全局信息,局部特征與全局特征相融合,提升模型的表達(dá)能力?;诖?,本文在CMT[17]的基礎(chǔ)上進(jìn)行了改進(jìn),模塊可分為3 個部分,模塊的結(jié)構(gòu)圖如圖3 所示。
圖3 CNN-Transformer 模塊結(jié)構(gòu)圖Fig.3 Structure of the CNN-Transformer module
3.2.1 局部特征提取單元
由于Transformer 的特性可能會忽略圖像的部分局部信息,為了更有效地提取圖像的局部特征,使用深度卷積提高網(wǎng)絡(luò)的非線性能力和網(wǎng)絡(luò)的表達(dá)能力,如公式(4)所示:
其中,LFE代表局部特征提取單元,x∈RH×W×d,H×W是當(dāng)前階段輸入的分辨率,d表示特征的維度,DWConv表示深度卷積。深度卷積完全是在二維平面內(nèi)進(jìn)行。這種運(yùn)算對輸入層的每個通道獨(dú)立進(jìn)行卷積運(yùn)算,可以減少卷積的計(jì)算量,高效獲取圖像的局部信息,但存在不能有效利用不同通道在相同空間位置上的特征信息的問題,由于輸入的結(jié)構(gòu)光圖像是單通道,故可以避免深度卷積存在的這個問題。
3.2.2 輕量級自限制注意力
Transformer 可以有效地學(xué)習(xí)圖像的全局特征,然而在結(jié)構(gòu)光圖像處理中,數(shù)據(jù)的維度通常很高,使用全局自注意力的計(jì)算成本非常高。本文通過LSLA 機(jī)制[18]進(jìn)行全局特征的提取,將全局自注意力分解為局部和全局兩個部分,并使用位置信息模塊以及限制注意力模塊來增強(qiáng)位置信息以及控制注意力權(quán)重大小。在減少計(jì)算量的同時還可以利用圖像的空間結(jié)構(gòu)信息,從而對位置信息進(jìn)行更好的建模。
在傳統(tǒng)的自注意力機(jī)制中,鍵值對通常表示不同的語義信息。例如,在自然語言處理中,鍵可能表示輸入句子中的不同單詞,而值則表示與這些單詞相關(guān)聯(lián)的特征向量。在圖像領(lǐng)域,鍵和值通常表示不同的位置特征和圖像特征。然而,在LSLA 機(jī)制中,由于涉及圖像信息的處理,因此,將鍵值對替換為輸入X,這樣可以有效減少計(jì)算成本和模型參數(shù)量。此外,在圖像處理時,相鄰像素通常具有相似的特征,這也使得使用相同的輸入 X 作為鍵和值是可行的。這可以顯著減少 LSLA機(jī)制的計(jì)算成本,并使其適用于需要高效處理的應(yīng)用場景。
LSLA 機(jī)制包含位置信息模塊和限制注意力模塊。位置信息模塊使用了一個自適應(yīng)的位置編碼向量,增強(qiáng)了位置信息的表達(dá),可以更好地處理輸入數(shù)據(jù)中位置信息的變化。限制注意力模塊可以控制注意力權(quán)重的大小,避免出現(xiàn)過于集中的注意力分布,從而提高了模型的魯棒性和泛化能力。具體來說,在LSLA 機(jī)制中,對于每個輸入位置,首先使用一個局部自注意力模塊計(jì)算局部上下文信息。然后,使用一個全局自注意力模塊計(jì)算全局上下文信息,再進(jìn)行融合,得到最終的特征表示。另外,限制注意力模塊在softmax 函數(shù)之后使用外部位置偏差來限制一些較大的注意力權(quán)重值。內(nèi)外部位置偏差和動態(tài)尺度相互配合,LSLA機(jī)制的公式定義為:
其中,X為原始輸入數(shù)據(jù),Q是查詢矩陣,DS表示查詢塊附近的塊具有較大的動態(tài)尺度和內(nèi)部位置偏差值,Bi和B0分別是內(nèi)部位置偏差和外部位置偏差。
3.2.3 前饋神經(jīng)網(wǎng)絡(luò)
模塊的最后一部分使用比較簡單的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,FFN)。FFN 的信號從輸入層到輸出層單向傳遞,網(wǎng)絡(luò)的目標(biāo)是通過調(diào)整權(quán)值使預(yù)測輸出與實(shí)際輸出之間的誤差最小。使用的FNN 包含兩個線性層和一個GELU激活函數(shù)。第一個線性層將輸入的尺寸擴(kuò)大4倍,第二個線性層以相同的比例進(jìn)行尺寸縮小。這種縮放操作有助于保留有用的信息并去除不必要的信息,中間使用GELU 激活分離,因?yàn)镚ELU在負(fù)數(shù)輸入下更具有平滑性。
為了證明所提出的網(wǎng)絡(luò)對于結(jié)構(gòu)光圖像處理的有效性,本文進(jìn)行了兩種實(shí)驗(yàn):結(jié)構(gòu)光相位估計(jì)(利用條紋圖像預(yù)測包裹相位)和深度估計(jì)(利用條紋圖預(yù)測深度圖),并且在真實(shí)數(shù)據(jù)集和仿真數(shù)據(jù)集上分別做了實(shí)驗(yàn)。所提出模型的深度學(xué)習(xí)框架為Pytorch,實(shí)驗(yàn)GPU 為24 GB 內(nèi)存的NVIDIA GeForce RTX3090。
4.1.1 數(shù)據(jù)準(zhǔn)備
在結(jié)構(gòu)光圖像到包裹相位的預(yù)測實(shí)驗(yàn)中,本文使用的真實(shí)數(shù)據(jù)集和仿真數(shù)據(jù)集都由1 000 個樣本組成。本論文使用的是由Blender 生成的仿真數(shù)據(jù)集和Feng 等人制作的真實(shí)數(shù)據(jù)集[8],部分?jǐn)?shù)據(jù)示例圖如圖4 所示。每個樣本的大小均為640 × 480,按照8∶1∶1 的比例劃分訓(xùn)練集、驗(yàn)證集和測試集。實(shí)驗(yàn)以輸入結(jié)構(gòu)光圖像,計(jì)算高精度的包裹相位為最終目標(biāo)。
圖4 部分?jǐn)?shù)據(jù)示例圖。第一行為仿真數(shù)據(jù),第二行為真實(shí)數(shù)據(jù)。(a)仿真條紋圖;(b)仿真條紋圖D;(c)仿真條紋圖M;(d)仿真條紋圖包裹相位;(e)真實(shí)條紋圖;(f)真實(shí)條紋圖D;(g)真實(shí)條紋圖M;(h)真實(shí)條紋圖包裹相位Fig.4 Sample maps in some datasets.The first lines are simulation data,the second lines are real data.(a) Simulation fringe map;(b) simulation fringe map D;(c) simulation fringe map M;(d) simulation fringe wrapped phase;(e) real fringe map;(f) real fringe map D;(g) real fringe map M;(h) real fringe wrapped phase
在大多數(shù)相位解調(diào)技術(shù)中,背景強(qiáng)度A(x,y)被視為干擾項(xiàng),要從總強(qiáng)度中去除。根據(jù)公式(2)可以將包裹相位公式簡化為:
其中,c是取決于相位解調(diào)算法的常數(shù)(傅立葉方法中c=1/2,N步相移法中c=N/2),M(x,y)和D(x,y) 分別表示分子項(xiàng)cB(x,y)sinφ(x,y)和分母項(xiàng)cB(x,y)cosφ(x,y)的簡寫。
從結(jié)構(gòu)光圖像預(yù)測包裹相位有直接預(yù)測包裹相位及先預(yù)測出分子項(xiàng)D 和分母項(xiàng)M,再通過公式(6)對包裹相位進(jìn)行計(jì)算兩種方式。由于相位信息通過反正切運(yùn)算被約束在-π 到π 之間,因此,包裹相位會存在2π 的跳變。直接使用深度學(xué)習(xí)方法難以精確預(yù)測跳變位置,而通過預(yù)測中間變量D 和M 的方法不存在跳變,因此,利用D 和M 可以獲得更高質(zhì)量的包裹相位。實(shí)驗(yàn)中,使用UNet 網(wǎng)絡(luò)對這兩種方式進(jìn)行訓(xùn)練,比起直接預(yù)測包裹相位,通過訓(xùn)練得到D 和M 再計(jì)算包裹相位的預(yù)測精度提升了約60%。對于單輸入雙輸出任務(wù),需要預(yù)測的D 和M 有強(qiáng)關(guān)聯(lián)性,在原本網(wǎng)絡(luò)的基礎(chǔ)上添加一個分支對結(jié)果準(zhǔn)確率略有提升,而且雙輸出模型只需要訓(xùn)練一次,減少了訓(xùn)練時間,結(jié)果見表1。因此,本文把實(shí)驗(yàn)的重點(diǎn)放在同時預(yù)測D 和M 上。
表1 不同包裹相位計(jì)算方法比較Tab.1 Comparison of the different wrapped phase calculation methods
4.1.2 實(shí)驗(yàn)結(jié)果分析
在計(jì)算預(yù)測結(jié)果的損失時,背景誤差也會算入其中并且對結(jié)果有較大影響,而研究的重點(diǎn)應(yīng)該在有條紋部分的物體上。所以,本文提前批量制作了測試集的背景模板,以便獲得更準(zhǔn)確的實(shí)驗(yàn)結(jié)果。使用由同一頻率的四步相移獲得的條紋圖制作背景模板。
相移法的實(shí)現(xiàn)一般需要使用投影儀向被測對象投射多張固定位置的光柵條紋圖像,同時使用相機(jī)采集。利用N 步相移法經(jīng)被測對象調(diào)制后的變形條紋公式如式(7)所示,數(shù)據(jù)均由四步相移所得,I0(x,y)、I1(x,y)、I2(x,y)、I3(x,y)分別為相移0、π/2、π、3π/2 后的光柵圖像,可得到背景模板A(x,y),公式如下:
得到背景部分后,將背景部分設(shè)置為一個恒定值(實(shí)驗(yàn)中背景部分為1),將模板和預(yù)測的包裹相位進(jìn)行比較,然后去掉包裹相位圖的背景部分,可使得到的包裹相位部分的損失更準(zhǔn)確。
本文使用Unet[19]、DPH[20]、R2Unet[21]、SUNet[22]等網(wǎng)絡(luò)在相同數(shù)據(jù)集上進(jìn)行訓(xùn)練。得到D 和M 后,根據(jù)公式(7)得到包裹相位后計(jì)算損失值,結(jié)果見表2。從表2 可以看出,本文模型提高了包裹相位預(yù)測的精度,預(yù)測時間較UNet 和SUNet 長,較其他網(wǎng)絡(luò)短。圖5(彩圖見期刊電子版)顯示了所提出網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的比較結(jié)果及局部放大圖。從局部放大圖可以看出,在相位邊緣及物體不連續(xù)處,本文方法比其他方法預(yù)測結(jié)果更接近標(biāo)簽數(shù)據(jù)。為了更直觀地比較5 種網(wǎng)絡(luò)的預(yù)測結(jié)果,繪制了預(yù)測得到的包裹相位圖的第200行曲線圖,如圖6(彩圖見期刊電子版)所示??梢钥闯鏊岢瞿P偷玫降慕Y(jié)果細(xì)節(jié)信息比其他網(wǎng)絡(luò)更加接近標(biāo)簽。
表2 包裹相位預(yù)測方法比較Tab.2 Comparison of the wrapped phase prediction methods
圖5 不同網(wǎng)絡(luò)仿真和真實(shí)數(shù)據(jù)包裹相位對比。藍(lán)色框?yàn)榉抡鏀?shù)據(jù),橙色框?yàn)檎鎸?shí)數(shù)據(jù)。(a)UNet;(b)DPH;(c)R2UNet;(d)SUNet;(e)Ours;(f)標(biāo)簽Fig.5 Comparison of different network simulation and real data wrapped phases.The blue boxes are the simulation data,and the orange boxes are the real data.(a) UNet;(b) DPH;(c) R2UNet;(d) SUNet;(e) Ours;(f) Label
圖6 包裹相位結(jié)果曲線圖。(a)仿真數(shù)據(jù)結(jié)果比較;(b)真實(shí)數(shù)據(jù)結(jié)果比較Fig.6 Wrapped phase curves.(a) Comparison of simulation data;(b) comparison of real data
4.2.1 數(shù)據(jù)準(zhǔn)備
由于公開的結(jié)構(gòu)光深度數(shù)據(jù)集比較少,本文使用Blender 制作部分仿真數(shù)據(jù)集[23],生成數(shù)據(jù)集的流程如圖7(彩圖見期刊電子版)。Blender 可以通過調(diào)整對象模型、相機(jī)和投影儀來模擬真實(shí)世界的場景,使用相機(jī)捕捉和渲染物體圖像并輸出深度圖。
圖7 生成數(shù)據(jù)集流程圖。(a) 模型導(dǎo)入;(b) 調(diào)整大?。?c) 投影條紋Fig.7 Flowchart of dataset generation.(a) Model import;(b) adjust of the model size;(c) projection fringe
生成數(shù)據(jù)集的具體步驟如下:將stl 格式的模型導(dǎo)入到Blender 中。選中導(dǎo)入的模型,使用變換工具調(diào)整它的大小和位置,以適應(yīng)深度數(shù)據(jù)集的尺寸和視角。在Blender 中添加一個平面,將條紋圖像貼在平面上,然后將相機(jī)對準(zhǔn)模型和平面。確定相機(jī)的位置、方向、焦距等參數(shù),以保證生成深度數(shù)據(jù)集的質(zhì)量。在Blender 中安裝“Structured Light Scanning”插件,設(shè)置條紋圖像的參數(shù)和輸出路徑,然后點(diǎn)擊“掃描”按鈕開始生成深度數(shù)據(jù)集。在插件設(shè)置界面可以調(diào)整結(jié)構(gòu)光的編碼方式、條紋圖像的數(shù)量和周期、相機(jī)參數(shù)等。點(diǎn)擊“生成數(shù)據(jù)集”按鈕,Blender 會根據(jù)這些參數(shù)生成深度圖像數(shù)據(jù)集。
本文使用的真實(shí)結(jié)構(gòu)光數(shù)據(jù)集是Nguyen 等人使用由相機(jī)和投影儀組成的FPP 系統(tǒng)重建的深度圖[9]。將具有不同空間頻率的一組條紋圖案投影到目標(biāo)物體表面上,捕獲變形的結(jié)構(gòu)光圖案,計(jì)算相移條紋和深度圖的相位分布。仿真數(shù)據(jù)集和真實(shí)數(shù)據(jù)集包含540 張灰度圖像,圖像大小是640 × 480,按照8∶1∶1 的比例劃分訓(xùn)練集、驗(yàn)證集和測試集,部分?jǐn)?shù)據(jù)示例圖像如圖8 所示。
圖8 部分?jǐn)?shù)據(jù)示例圖。(a)仿真條紋圖;(b)真實(shí)條紋圖;(c)仿真深度圖;(d)真實(shí)深度圖Fig.8 Sample maps in the dataset.(a) Simulated fringe map;(b) real fringe map;(c) simulation depth map;(d) real depth map
4.2.2 消融實(shí)驗(yàn)
為了證明所提出的網(wǎng)絡(luò)結(jié)構(gòu)確實(shí)有效,本文在真實(shí)數(shù)據(jù)集上進(jìn)行了消融研究,逐步修改模塊結(jié)構(gòu)并評估結(jié)果。首先,在CMT 模塊進(jìn)行實(shí)驗(yàn)并把它作為基線模型,將CMT 模塊中的注意力機(jī)制改為LSLA 機(jī)制;然后,將CMT 模塊中最后的部分換為較為簡單的FFN;將CMT 模塊放到U 型結(jié)構(gòu)中,分為4 個階段的上采樣和下采樣,每個階段的CMT 模塊重疊兩次。
實(shí)驗(yàn)結(jié)果如表3 所示,通過替換注意力機(jī)制和改善網(wǎng)絡(luò)的總體結(jié)構(gòu),網(wǎng)絡(luò)性能得以逐漸提高。具體地,將注意力機(jī)制替換為LSLA 后,MSE下降了18.9%,模型預(yù)測時間也略有減少;將CMT 原本的反向殘差前饋網(wǎng)絡(luò)替換為更為簡單的FFN 后,MSE 幾乎沒有下降,但是預(yù)測時間減少了19.5%;最后把CMT 模塊應(yīng)用在U 型結(jié)構(gòu)中,分為編碼器和解碼器逐步提取圖像特征,結(jié)果表明放入U 型結(jié)構(gòu)后精度提升了21%。
表3 消融實(shí)驗(yàn)結(jié)果比較Tab.3 Comparison of ablation experiment results
4.2.3 實(shí)驗(yàn)結(jié)果分析
對于結(jié)構(gòu)光圖像的深度估計(jì)性能評價,本文選用了幾個有代表性的卷積網(wǎng)絡(luò)和混合網(wǎng)絡(luò)與本文提出的網(wǎng)絡(luò)進(jìn)行比較,在仿真數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),比較結(jié)果如表4 所示。從表4可以看出,所提模型的精度較其他幾種網(wǎng)絡(luò)高,模型預(yù)測的時間較DPH 和R2Unet 少,總體預(yù)測效率較高。圖9(彩圖見期刊電子版)顯示了本文方法與其他網(wǎng)絡(luò)在仿真數(shù)據(jù)集與真實(shí)數(shù)據(jù)上的視覺比較效果。前兩行是仿真數(shù)據(jù)及結(jié)果,后兩行是真實(shí)數(shù)據(jù)及結(jié)果。由圖9 可以看出:相較其他網(wǎng)絡(luò),本文所提出的網(wǎng)絡(luò)在邊緣處理和細(xì)節(jié)處理方面更優(yōu),預(yù)測結(jié)果更接近真實(shí)標(biāo)簽數(shù)據(jù)。
表4 不同方法深度估計(jì)結(jié)果比較Tab.4 Comparison of the depth estimation results by different methods
圖9 不同方法深度估計(jì)視覺結(jié)果比較。藍(lán)色框?yàn)榉抡鏀?shù)據(jù),橙色框?yàn)檎鎸?shí)數(shù)據(jù)。(a) 輸入數(shù)據(jù);(b) UNet;(c) DPH;(d) R2UNet;(e) Ours;(f)標(biāo)簽Fig.9 Comparison of the visual results of depth estimation by different methods.The blue boxes are the simulation data,and the orange boxes are the real data.(a) Input data;(b) UNet;(c) DPH;(d) R2UNet;(e) Ours;(f) Label
本文提出一種基于LSLA 的結(jié)構(gòu)光估計(jì)混合網(wǎng)絡(luò),用于處理結(jié)構(gòu)光圖像的相關(guān)任務(wù),如由結(jié)構(gòu)光圖像預(yù)測包裹相位、對結(jié)構(gòu)光圖像進(jìn)行深度估計(jì)。所提出的網(wǎng)絡(luò)使用U 型結(jié)構(gòu)架構(gòu),分4 個階段對結(jié)構(gòu)光圖像進(jìn)行上采樣和下采樣,每個階段都使用了兩個重復(fù)的CNN-Transformer 模塊。實(shí)驗(yàn)證明將LSLA 機(jī)制應(yīng)用在結(jié)構(gòu)光預(yù)測時可以減少預(yù)測時間,提高預(yù)測精度。為了評估所提出網(wǎng)絡(luò)的性能,挑選了幾個有代表性的網(wǎng)絡(luò)分別在真實(shí)數(shù)據(jù)集和仿真數(shù)據(jù)集上做對比實(shí)驗(yàn)。結(jié)果表明:本文提出的網(wǎng)絡(luò)可以提高結(jié)構(gòu)光圖像深度估 中,精度最高提升26%,在結(jié)構(gòu)光相位預(yù)測實(shí)驗(yàn)計(jì)和相位估計(jì)的性能。在結(jié)構(gòu)光深度估計(jì)實(shí)驗(yàn) 中,精度最高提升31%。