李 珣,李林鵬,Alexander Lazovik,王文杰,王曉華
1 西安工程大學(xué)電子信息學(xué)院,陜西 西安 710048;
2 格羅寧根大學(xué)伯努利實(shí)驗(yàn)室,格羅寧根 9747 AG,荷蘭
物體識(shí)別是機(jī)器視覺(jué)中的基礎(chǔ)核心內(nèi)容之一[1]。由于現(xiàn)實(shí)世界場(chǎng)景中復(fù)雜的光照和背景變化,造成現(xiàn)有RGB 圖像的識(shí)別算法難以滿足當(dāng)前智能化需求。因此,近年來(lái)結(jié)合RGB 圖像與深度圖像的識(shí)別方式成為提高目標(biāo)識(shí)別率的新途徑。同時(shí),對(duì)如何理解和利用兩者圖像的識(shí)別優(yōu)勢(shì)提出了新的挑戰(zhàn)[2]。當(dāng)前較多的RGB-D 物體識(shí)別算法依靠先驗(yàn)知識(shí)進(jìn)行目標(biāo)特征的設(shè)定,已有的成果中:Lai 等人[1]定義了一種稀疏距離度量方法來(lái)快速分類;Bo 等人[3]將內(nèi)核描述子擴(kuò)展到深度圖像,構(gòu)造了較為豐富的特征;Blum 等人[4]提出了一種基于特征學(xué)習(xí)的K 均值描述符方法;向程諭等人[5]分別提取目標(biāo)的RGB 和深度特征,結(jié)合線性SVM進(jìn)行分類。上述研究在早期的RGB-D 圖像識(shí)別研究中取得了一些成果,依靠先驗(yàn)知識(shí)的特征構(gòu)建方法雖然能夠在一定程度上改善RGB-D 物體識(shí)別的精度,但是該類方式不利于進(jìn)行非同類數(shù)據(jù)集的擴(kuò)展,且精度的提高空間有限。
近年來(lái),深度學(xué)習(xí)在圖像處理的研究中逐漸呈現(xiàn)出它的優(yōu)勢(shì)[6]。因此,科研人員將RGB 圖像與深度圖像相結(jié)合,并利用深度學(xué)習(xí)提升RGB-D 物體識(shí)別的準(zhǔn)確率,這種方法開始取代基于先驗(yàn)知識(shí)的特征獲取方法,成為當(dāng)前研究者們關(guān)注的熱點(diǎn)。Socher 等人[7]提出單個(gè)卷積層與遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)架構(gòu)。殷云華等人[8]設(shè)計(jì)了一種將CNN 與極限學(xué)習(xí)機(jī)相結(jié)合算法結(jié)構(gòu)。但是淺層的網(wǎng)絡(luò)結(jié)構(gòu)并不能發(fā)揮深度學(xué)習(xí)的優(yōu)勢(shì)。Eitel 等人[9]提出了稱為colorjet 的深度圖像處理方法,將深度圖像編碼為與RGB 圖像兼容的三通道圖像,使用5 個(gè)卷積層提取RGB 特征與深度特征,通過(guò)全連接層組合兩種模態(tài)的特征,該方法將RGB-D 數(shù)據(jù)集的識(shí)別結(jié)果提升到了91.3%。Aakerberg 等人[10]在Eitel 的方法上進(jìn)行了改進(jìn),提出了另外一種深度圖像處理方法,并將網(wǎng)絡(luò)層數(shù)提升到了16 層。但是已有模型僅僅將RGB 圖像特征和深度圖像特征進(jìn)行簡(jiǎn)單的拼接,仍存在RGB-D 圖像有用信息缺失的可能。
為進(jìn)一步提高三維目標(biāo)識(shí)別精度,本文提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的 RGB-D 物體識(shí)別算法(Re-CRNN),將雙流卷積神經(jīng)網(wǎng)絡(luò)與遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,對(duì)RGB 圖像和深度圖像進(jìn)行端到端的訓(xùn)練;基于殘差學(xué)習(xí)模型減小網(wǎng)絡(luò)參數(shù),計(jì)算深度圖像每個(gè)像素點(diǎn)的表面法線向量,編碼為三通道表示;在CNN網(wǎng)絡(luò)頂層采用了一種新的特征融合方式,用以獲得RGB-D 融合特征,融合后的特征經(jīng)過(guò)GRU 遞歸神經(jīng)網(wǎng)絡(luò)生成特征序列;最后,在實(shí)驗(yàn)中對(duì)比了不同非線性激活函數(shù)在融合框架上的表現(xiàn)結(jié)果,在華盛頓RGB-D 數(shù)據(jù)集中驗(yàn)證了本文算法的性能。
當(dāng)前深度學(xué)習(xí)網(wǎng)絡(luò)大多針對(duì)RGB 圖像,RGB 圖像與深度圖像的特征差異較大,使用深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練深度圖像依賴于深度圖像編碼[10-12],將單通道深度圖像編碼為與RGB 圖像兼容的三通道表示,利用遷移學(xué)習(xí)的方法微調(diào)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練(如圖1 所示)。本文首先使用遞歸中值濾波[10]減少噪聲干擾,重建缺失的深度值,對(duì)單通道深度信息每個(gè)像素點(diǎn)計(jì)算表面法線,將得到的表面法線歸一化為單位向量,根據(jù)該點(diǎn)的空間坐標(biāo)[A1,A2,A3]被編碼為A1→R、A2→ G、A3→ B 的三通道,并映射到整數(shù)值[0,255]之間,增強(qiáng)深度圖像的三維表達(dá)能力。在對(duì)單模態(tài)深度圖像的訓(xùn)練中,編碼后深度圖像的識(shí)別結(jié)果比原始深度圖像提高了23%。
CNN 需要固定網(wǎng)絡(luò)輸入圖像的尺寸,實(shí)現(xiàn)這個(gè)目標(biāo)最簡(jiǎn)單的方法是將圖像隨機(jī)裁剪或縮放為正方形(如圖2(a)所示),但是直接縮放或裁剪會(huì)損失圖像原始比例,導(dǎo)致幾何形變,如圖2(b)所示。
圖1 深度圖像編碼。(a) RGB 圖像;(b) 原始深度圖像;(c) 編碼后深度圖像Fig.1 Depth image encoding.(a) RGB image;(b) Original depth image;(c) Encoded depth image
圖2 圖像預(yù)處理。(a) 原始圖像;(b) 直接縮放圖像;(c) 短邊擴(kuò)充圖像Fig.2 Input image preprocessing.(a) Original image;(b) Direct zoom image;(c) Short edge extended image
實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)這種忽略被識(shí)別物體的比例特征會(huì)降低物體的空間幾何信息識(shí)別性能,與文獻(xiàn)[9]中實(shí)驗(yàn)結(jié)論相同。所以,本文對(duì)樣本圖像進(jìn)行歸一化預(yù)處理:目標(biāo)圖像長(zhǎng)邊保留原始比例縮放為256 pixels,短邊按照長(zhǎng)邊縮放后的像素差值進(jìn)行額外邊界創(chuàng)建,并沿短邊軸擴(kuò)充獲得256 pixels×256 pixels 的圖像,原始目標(biāo)于擴(kuò)展圖像居中位置,如圖2(c)所示,白色的虛線框中保留圖像的所有原始信息,框外為擴(kuò)充的邊界。
本文算法結(jié)構(gòu)主要由三部分組成:①主干網(wǎng)絡(luò)基于改進(jìn)殘差學(xué)習(xí)的雙流卷積神經(jīng)網(wǎng)絡(luò),每個(gè)數(shù)據(jù)流網(wǎng)絡(luò)參數(shù)設(shè)置相同,分別對(duì)RGB 圖像和深度圖像進(jìn)行訓(xùn)練,提取高階特征;② 一個(gè)新的特征融合單元,將CNN 頂層的RGB 特征和深度特征跨通道信息整合;③GRU 遞歸神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)架構(gòu)具體如圖3 所示。預(yù)訓(xùn)練階段分別使用ImageNet 數(shù)據(jù)集上的預(yù)訓(xùn)練權(quán)重來(lái)初始化RGB 圖像和深度圖像,并根據(jù)華盛頓RGB-D 數(shù)據(jù)集微調(diào)網(wǎng)絡(luò)參數(shù),生成RGB 層和Depth層的參數(shù)模型。由于數(shù)據(jù)集中樣本數(shù)量有限,對(duì)所有的圖像進(jìn)行旋轉(zhuǎn)、縮放、隨機(jī)裁剪進(jìn)行數(shù)據(jù)增強(qiáng),保留原始圖像標(biāo)簽,豐富樣本空間。
在RGB-D 圖像的特征學(xué)習(xí)過(guò)程中,如果用兩個(gè)數(shù)據(jù)流網(wǎng)絡(luò)同時(shí)訓(xùn)練RGB 圖像和深度圖像,則參數(shù)計(jì)算量較大。為了提高模型的計(jì)算速度,借鑒殘差神經(jīng)網(wǎng)絡(luò)(ResNet50)[13],基于殘差學(xué)習(xí)對(duì)本文網(wǎng)絡(luò)模型進(jìn)行改進(jìn)。ResNet 的思想是通過(guò)恒等映射(identity mapping)的跳躍式連接,將學(xué)習(xí)目標(biāo)分解為多個(gè)求殘差的過(guò)程,從而減小網(wǎng)絡(luò)的學(xué)習(xí)參數(shù),解決深層卷積神經(jīng)網(wǎng)絡(luò)的梯度彌散問(wèn)題。原始?xì)埐顚W(xué)習(xí)網(wǎng)絡(luò)第一層卷積核的大小為7×7。為提高網(wǎng)絡(luò)的復(fù)用率,使3 個(gè)3×3 的卷積核進(jìn)行替換,卷積后的感受野與一個(gè)7×7 的卷積核卷積的感受野大小相同,并降低了第一個(gè)卷積過(guò)程中的采樣損耗,提取了更多的細(xì)節(jié)信息。本文中RGB 與深度兩個(gè)數(shù)據(jù)流網(wǎng)絡(luò)采取相同的方案。
圖3 網(wǎng)絡(luò)模型Fig.3 Network model
假定網(wǎng)絡(luò)層的輸入為s,經(jīng)過(guò)中間層的期望輸出為H(s),殘差學(xué)習(xí)通過(guò)恒等映射跳過(guò)中間層將s作為初始輸出,此時(shí)中間層需要學(xué)習(xí)的特征F(s)=H(s)-s,學(xué)習(xí)目標(biāo)不再是完整的H(s),而是一個(gè)殘差H(s)-s,通過(guò)多條支路使當(dāng)前層的輸入直接傳輸?shù)礁畹木W(wǎng)絡(luò)層,有效地減少了計(jì)算參數(shù)。相較于VGG-16[11]的153 億次浮點(diǎn)運(yùn)算,50 層的ResNet 僅包含38 億次浮點(diǎn)運(yùn)算,降低了網(wǎng)絡(luò)的復(fù)雜程度。
殘差單元表示為
式中:si表示第i個(gè)殘差單元的輸入,si+1表示si的輸出,即下一個(gè)殘差單元的輸入;F是學(xué)習(xí)的殘差,iW代表第i個(gè)殘差單元的卷積操作,當(dāng)h(si)=si時(shí)表示恒等映射,f代表激活函數(shù)。當(dāng)h(si)=si,f(Qi)=Qi時(shí)可以計(jì)算出層到深層I所學(xué)習(xí)到的目標(biāo)特征:
通過(guò)鏈?zhǔn)角髮?dǎo)計(jì)算出反向過(guò)程的梯度:
式中:第一個(gè)偏導(dǎo)?floss/?si是Loss 函數(shù)floss到I的梯度,另一項(xiàng)偏導(dǎo)代表通過(guò)權(quán)重層傳播的梯度,常數(shù)1保證了快捷連接機(jī)制中梯度即使不斷衰減也不會(huì)完全消失。
為了避免已有的深度學(xué)習(xí)網(wǎng)絡(luò)中:決策層獲取每種模態(tài)的識(shí)別率[14],問(wèn)題注重單獨(dú)模態(tài)的識(shí)別結(jié)果,忽略了RGB 圖像和深度圖像的潛在互補(bǔ)特征;以及全連接層組合時(shí),在一定程度上提高了識(shí)別結(jié)果,但是簡(jiǎn)單的拼接特征并不能利用兩種模態(tài)的全部信息。所以在網(wǎng)絡(luò)中構(gòu)建了一個(gè)特征融合單元,如圖4 所示。將ResNet 提取的高層次特征融合為新的RGB-D 特征。去掉了ResNet 的最后一個(gè)全連接層,在特征融合前將兩個(gè)數(shù)據(jù)流網(wǎng)絡(luò)中conv5_x 輸出的feature map 合并起來(lái),組合新的fusion feature map,使用遞歸神經(jīng)網(wǎng)絡(luò)生成融合特征的高階表示。4.2 節(jié)中的實(shí)驗(yàn)結(jié)果證明了本文方法優(yōu)于文獻(xiàn)[9]提出的全連接層融合的方式。
圖4 特征融合單元Fig.4 Feature fusion unit
特征融合單元增加了一個(gè)1×1 卷積層、一個(gè)批量歸一化層、ReLU 激活函數(shù)和全局均值池化層。文獻(xiàn)[15]使用1×1 的卷積對(duì)不同層的特征圖進(jìn)行升維降維。融合層加入1×1的卷積對(duì)RGB特征和深度特征跨通道信息整合,并調(diào)整維度。用Krgb=[K1,K2,…,Ki]和Gdepth=[G1,G2,…,Gi]表示多模態(tài)網(wǎng)絡(luò)的輸入樣本,i是輸入的樣本標(biāo)簽,Ki和Gi分別對(duì)應(yīng)輸入的RGB 圖像和深度圖像。生成的map 充分融合為新的fusion feature map。經(jīng)過(guò)批量歸一化和一個(gè)ReLU 非線性激活函數(shù)提高網(wǎng)絡(luò)泛化能力,對(duì)所有feature map 進(jìn)行全局均值池化,并將輸出的結(jié)果排列起來(lái),第i個(gè)標(biāo)簽對(duì)應(yīng)的RGB 圖像和深度圖像生成的融合特征被表示為
最近研究表明,卷積遞歸相結(jié)合在多模態(tài)深度學(xué)習(xí)中具有優(yōu)勢(shì)[16]。RNN 中先前序列的所有輸入會(huì)共同作用當(dāng)前序列的輸出,卷積神經(jīng)網(wǎng)絡(luò)可以提取深層次的語(yǔ)義信息,RNN 重復(fù)利用CNN 提取到的融合特征生成更好的特征表示,學(xué)習(xí)RGB-D 圖像中的潛在互補(bǔ)信息。傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)在梯度傳播的過(guò)程中先前輸入序列的權(quán)重會(huì)逐漸減小,易出現(xiàn)梯度消失的問(wèn)題。本文使用遞歸神經(jīng)網(wǎng)絡(luò)改進(jìn)模型,被稱為GRU 遞歸神經(jīng)網(wǎng)絡(luò)[17],GRU 遞歸神經(jīng)網(wǎng)絡(luò)通過(guò)兩個(gè)門循環(huán)控制單元實(shí)現(xiàn)網(wǎng)絡(luò)的長(zhǎng)期記憶,更新門Zt(update gate)控制從先前隱藏狀態(tài)到當(dāng)前狀態(tài)的信息,避免參數(shù)的丟失,其表達(dá)式:
式中:α為sigmoid 激活函數(shù),x為時(shí)刻t輸入的特征向量,ht1-為t-1 時(shí)刻的隱藏狀態(tài),MZ和UZ是所學(xué)習(xí)的權(quán)重矩陣。
重置門(Reset gate)Rt對(duì)融合特征進(jìn)行過(guò)濾,減少冗余信息,增加魯棒性,其表達(dá)式:
式中:MR和UR對(duì)應(yīng)于不同時(shí)刻的權(quán)重矩陣,候選狀態(tài)與當(dāng)前狀態(tài)ht分別表示為
式中β是tanh 激活函數(shù)。重置門輸出值較低時(shí),遺忘先前的隱藏狀態(tài)并使用當(dāng)前輸入復(fù)位,從而有效地忽略不相關(guān)的信息,生成更緊湊的特征表示。
驗(yàn)證實(shí)驗(yàn)使用兩個(gè)公開的RGB-D 數(shù)據(jù)集,在Ubuntu16.04 操作系統(tǒng)下6 核i7-6700 CPU、單個(gè)NVIDIA 1080GPU、8 根16 G 內(nèi)存條的深度學(xué)習(xí)工作站進(jìn)行,并使用Tensorflow 框架作為網(wǎng)絡(luò)模型融合的基礎(chǔ)。
1) RGB-D object dataset
華盛頓大學(xué)的Lai 等人[1]公開的RGB-D 對(duì)象數(shù)據(jù)集包含300 個(gè)對(duì)象、51 個(gè)類別,總計(jì)約250000 張RGB-D 圖像。驗(yàn)證實(shí)驗(yàn)中,每隔5 幀對(duì)數(shù)據(jù)進(jìn)行二次采樣,生成41877 幅RGB 圖像和對(duì)應(yīng)的深度圖像。隨機(jī)抽取每個(gè)類別的一種對(duì)象用于測(cè)試,得到大約35000張訓(xùn)練圖像和7000 張測(cè)試圖像。RGB-D 數(shù)據(jù)集中的部分樣本如圖5 所示。
2) RGB-D sence dataset
本文在背景更復(fù)雜的RGB-D 場(chǎng)景數(shù)據(jù)集[18]上驗(yàn)證本文算法對(duì)于不同數(shù)據(jù)集的有效性。該數(shù)據(jù)集包含8 個(gè)不同的場(chǎng)景近6000 張RGB 圖像和深度圖像,所有的數(shù)據(jù)樣本通過(guò)Kinect 采集,該數(shù)據(jù)集的部分樣本如圖6 所示。
圖5 RGB-D 對(duì)象數(shù)據(jù)Fig.5 RGB-D object dataset
圖6 RGB-D 場(chǎng)景數(shù)據(jù)集Fig.6 RGB-D scene dataset
在RGB-D object dataset 上通過(guò)模型變化調(diào)整網(wǎng)絡(luò)的最優(yōu)性能。對(duì)比了不同非線性激活函數(shù)tanh、elu、sigmoid、ReLU、softplus 對(duì)融合網(wǎng)絡(luò)的影響,結(jié)果如圖7 所示。tanh 函數(shù)在零點(diǎn)梯度為1,有利于網(wǎng)絡(luò)中梯度的傳播,提升模型的非線性表達(dá)能力;其次是elu激活函數(shù),正區(qū)間的線性部分在一定程度緩解了梯度消失,負(fù)區(qū)間的軟飽和性可以增加對(duì)于輸入的變化和噪聲的魯棒性。對(duì)于RGB 圖像和RGB-D 圖像tanh 激活函數(shù)得出了最好的結(jié)果,在深度數(shù)據(jù)上elu 函數(shù)的表現(xiàn)最優(yōu),對(duì)于RGB 模態(tài)和融合結(jié)果低于tanh 函數(shù),總體差異較小可以忽略不計(jì),因此,本文使用tanh 作為融合網(wǎng)絡(luò)非線性激活函數(shù)。
本文使用后期融合的方式組合RGB 圖像和深度圖像的高階特征。為了驗(yàn)證后期融合在本文算法的有效性,分別將RGB-ResNet 和Depth-ResNet 的第二組到第五組(conv_2、conv_3、conv_4、conv_5)卷積特征作為特征融合單元的輸入,得到不同層級(jí)融合的識(shí)別結(jié)果。圖8 所示為不同層級(jí)的融合結(jié)果對(duì)比,深層網(wǎng)絡(luò)要比淺層網(wǎng)絡(luò)對(duì)特征的抽象程度要高,conv5_x 層的特征進(jìn)行融合準(zhǔn)確率更高。表1 中對(duì)比了全連接層融合(Fc-RGB-D)、特征融合層分類(Fu-RGB-D)與本文融合方式(Re-CRNN)的實(shí)驗(yàn)結(jié)果:conv5_x 生成的卷積特征作為特征融合單元的輸入,特征融合層中1×1 的卷積通道數(shù)為256,分類器為Softmax。與本文融合方法相比,全連接層簡(jiǎn)單的拼接融合方式遺漏了兩種模態(tài)之間的信息交互,隨著網(wǎng)絡(luò)層數(shù)的增加識(shí)別率接近飽和。特征融合單元的跨模態(tài)的交互過(guò)程生成新的遞歸序列后,GRU 的循環(huán)過(guò)程進(jìn)一步擴(kuò)大了RGB-D 圖像的特征表達(dá)效果,準(zhǔn)確率得到了進(jìn)一步的提高。
圖7 不同擠壓函數(shù)對(duì)網(wǎng)絡(luò)的影響Fig.7 Influence of different extrusion functions on the network
圖8 層級(jí)輸出對(duì)比Fig.8 Level output contrast
表1 特征融合方式對(duì)比Table 1 Comparison of feature fusion methods
4.3.1 RGB-D 對(duì)象數(shù)據(jù)集
對(duì)象識(shí)別廣泛處理兩個(gè)不同的問(wèn)題:實(shí)例識(shí)別和類別識(shí)別。實(shí)例(咖啡杯)代表獨(dú)特的對(duì)象,而類別(杯子)代表共享相似特征(形狀或結(jié)構(gòu))的實(shí)例[12]。按照4.1所述的10 個(gè)隨機(jī)分割進(jìn)行了實(shí)驗(yàn),訓(xùn)練前需對(duì)所有的深度圖像進(jìn)行可視化編碼,然后將RGB 圖像和深度圖保持原始比例縮放。實(shí)驗(yàn)設(shè)置預(yù)訓(xùn)練在ResNet50 上獲取RGB 圖像和深度圖像的初始化模型,此階段RGB圖像和深度圖像保持相同設(shè)置,初始學(xué)習(xí)率0.0001,沖量0.9,權(quán)重衰減0.0001,批量32,每種模態(tài)迭代50000 次獲得初始化模型,所需的時(shí)間為2 h。融合網(wǎng)絡(luò)使用SGD 優(yōu)化器訓(xùn)練我們的模型,取10 次的平均值為實(shí)驗(yàn)結(jié)果,融合網(wǎng)絡(luò)優(yōu)化過(guò)程所需的時(shí)間約為6 h。表2 對(duì)比了其他算法在華盛頓RGB-D 數(shù)據(jù)集上的分類結(jié)果。
表2 中可以看出,RGB-D 圖像的識(shí)別結(jié)果高于單獨(dú)模態(tài),證明融合RGB 特征和深度特征可以進(jìn)一步提高物體識(shí)別的準(zhǔn)確率。本文提出Re-CRNN 深度學(xué)習(xí)模型和融合方法在RGB-D 數(shù)據(jù)集上獲得了更好的識(shí)別結(jié)果,在類別識(shí)別中,RGB 圖像的平均識(shí)別率為90.3%,優(yōu)于其他方法。深度圖像的識(shí)別結(jié)果略低于文獻(xiàn)[10],結(jié)果相差較小,而RGB圖像和融合后的RGB-D圖像識(shí)別結(jié)果均表現(xiàn)出明顯的優(yōu)勢(shì),相較于文獻(xiàn)[7]提出的CNN-RNN 模型類別準(zhǔn)確率提高了7.3%。
圖9 展示了各類別分類結(jié)果的混淆矩陣(數(shù)據(jù)來(lái)源于第一個(gè)隨機(jī)分割),行的索引給出了RGB-D 數(shù)據(jù)集中所有類別的真實(shí)標(biāo)簽,列的索引給出了各類別的預(yù)測(cè)結(jié)果,對(duì)角線的結(jié)果表示正確分類的總體占比,可以清晰地看到容易錯(cuò)分的對(duì)象。圖10 列舉了總數(shù)據(jù)集中部分容易分錯(cuò)的樣本,容易錯(cuò)分的對(duì)象存在于顏色和紋理都相似的物體,具體集中在以下幾個(gè)類別:橙子類(orange)和桃子類(peach)、球類(ball)和大蒜類(garlic)、蘑菇類(mushroon)和大蒜類(garlic)等。
表2 與其他方法對(duì)比Table 2 Compared with other methods
圖9 RGB-D 對(duì)象數(shù)據(jù)集的混淆矩陣Fig.9 Confusion matrix on RGB-D object dataset
圖10 RGB-D 數(shù)據(jù)集中容易錯(cuò)分的對(duì)象Fig.10 Examples of misclassification in RGB-D object dataset
以上數(shù)據(jù)表明,首先,較少的實(shí)例會(huì)影響分類結(jié)果,如蘑菇類僅有3 個(gè)實(shí)例,訓(xùn)練樣本的單一化導(dǎo)致可學(xué)習(xí)特征類與量均受到限制,網(wǎng)絡(luò)無(wú)法泛化新增添的數(shù)據(jù),是造成錯(cuò)誤的分類的原因之一;其次,具有RGB 視覺(jué)分層上的相似數(shù)值的實(shí)例,在分類過(guò)程中較難被辨別,使結(jié)果產(chǎn)生偏差。深度圖像的分類依據(jù)是物體的幾何形態(tài),上述對(duì)象高度的類間幾何相似性使得深度圖像的區(qū)分度降低,也會(huì)影響到最終的識(shí)別結(jié)果;此外,受傳感器性能影響,已有的RGB-D 數(shù)據(jù)集中圖像的分辨率普遍不高,且深度圖像中物體邊緣部分深度值缺失,也可能對(duì)結(jié)果造成干擾。
4.3.2 RGB-D 場(chǎng)景數(shù)據(jù)集
室內(nèi)場(chǎng)景識(shí)別是典型的多分類問(wèn)題,場(chǎng)景圖像更加密集地記錄了場(chǎng)景中的所有物體。本文在RGB-D 場(chǎng)景數(shù)據(jù)集上進(jìn)行了額外實(shí)驗(yàn)來(lái)驗(yàn)證本文算法的普適性,對(duì)不同的室內(nèi)場(chǎng)景進(jìn)行分類,從該數(shù)據(jù)集中抽取1434 張RGB 圖像和深度圖像,共8 類場(chǎng)景,每類場(chǎng)景中包含多種相似物體。將所有的圖像尺寸調(diào)整為256×256,并對(duì)深度圖像完成表面法線編碼。從每類場(chǎng)景中隨機(jī)挑選80%的樣本用于訓(xùn)練,剩余的20%用于測(cè)試。其它實(shí)驗(yàn)設(shè)置與RGB-D 對(duì)象數(shù)據(jù)集相同,該數(shù)據(jù)集上的分類結(jié)果如表3 所示。
實(shí)驗(yàn)結(jié)果顯示,本文方法在RGB-D 場(chǎng)景數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果比之前的結(jié)果提高了4.5%,說(shuō)明面對(duì)更加復(fù)雜的場(chǎng)景,深度學(xué)習(xí)的算法比手工設(shè)計(jì)特征描述子更有競(jìng)爭(zhēng)性,Re-CRNN 可以在復(fù)雜的圖像中有區(qū)別地提取RGB 信息和深度信息,并且能夠有效地完成RGB特征與深度特征的融合。實(shí)驗(yàn)結(jié)果同時(shí)表明,對(duì)于背景雜亂的場(chǎng)景分類問(wèn)題,不同模態(tài)的信息互補(bǔ)是提高分類準(zhǔn)確率的有效途徑。場(chǎng)景數(shù)據(jù)集中分類結(jié)果的混淆矩陣如圖11 所示。
其中,縱坐標(biāo)表示真實(shí)樣本標(biāo)簽,橫坐標(biāo)表示預(yù)測(cè)標(biāo)簽。容易錯(cuò)分的場(chǎng)景主要存在于desk_2和desk_3,table_small_1 和table_small_2,分析其原因,在場(chǎng)景識(shí)別中最具有區(qū)別性的有用特征是不同的目標(biāo)對(duì)象,根據(jù)這些對(duì)象的分布和包含的不同語(yǔ)義特征進(jìn)行分類。而錯(cuò)分的場(chǎng)景中包含許多種相似的物體,如筆記本電腦、易拉罐、食品盒、杯子等,不僅具有相似的顏色信息,也包含相似的紋理信息,易產(chǎn)生檢測(cè)數(shù)據(jù)的混淆,造成錯(cuò)誤識(shí)別;深度圖像采集時(shí)目標(biāo)深度值相近且缺少明顯的標(biāo)志性數(shù)據(jù)特征,也會(huì)對(duì)識(shí)別結(jié)果造成一定影響,錯(cuò)分的場(chǎng)景示意如圖12 所示。
表3 RGB-D 場(chǎng)景數(shù)據(jù)集分類結(jié)果Table 3 RGB-D scene dataset classification result
圖11 RGB-D 場(chǎng)景數(shù)據(jù)集的混淆矩陣Fig.11 Confusion matrix on RGB-D sence dataset
圖12 RGB-D 場(chǎng)景數(shù)據(jù)集錯(cuò)分實(shí)例Fig.12 Examples of misclassification in RGB-D sence dataset
本文提出了一種基于雙流卷積遞歸神經(jīng)網(wǎng)絡(luò)的RGB-D 物體識(shí)別算法Re-CRNN,利用中值濾波去噪重建深度圖像缺失的深度值,引入特征編碼提高識(shí)別效果,數(shù)據(jù)樣本通過(guò)數(shù)據(jù)增強(qiáng)獲得擴(kuò)充。使用兩個(gè)并行的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)RGB 圖像和深度圖像進(jìn)行特征提取,基于殘差學(xué)習(xí)的思想對(duì)模型效率進(jìn)行提升。將CNN 網(wǎng)絡(luò)頂層提取的特征映射到一個(gè)公共空間,生成融合特征的高階表示。最后在不同的數(shù)據(jù)集上與其他方法進(jìn)行了實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果表明:RGB-D 圖像比單模態(tài)RGB 圖像具有更好的識(shí)別效果,Re-CRNN在華盛頓大學(xué)的 RGB-D 數(shù)據(jù)集識(shí)別準(zhǔn)確率可達(dá)94.1%。通過(guò)多個(gè)數(shù)據(jù)集的實(shí)驗(yàn),證明本文算法具有較好的普適性。