陳科山,薛旭,賈博然,宋鵬亮,梅育青
(北京交通大學(xué) 機(jī)械與電子控制工程學(xué)院,北京 100044)
洞庫(kù)類目標(biāo)通常在地理測(cè)繪、道橋建設(shè)、交通運(yùn)輸、軍事等領(lǐng)域中出現(xiàn), 屬于重點(diǎn)識(shí)別與檢測(cè)對(duì)象, 如隧道、山洞、坑道等.目標(biāo)的智能識(shí)別技術(shù)是智能控制、智慧交通、自動(dòng)駕駛、機(jī)器視覺等理論與技術(shù)的重要的組成部分之一.針對(duì)洞庫(kù)類目標(biāo)展開深入的研究具有重要的理論意義和特殊的軍事價(jià)值.
目標(biāo)識(shí)別是圖像學(xué)的重點(diǎn)研究方向,早期為基于人工設(shè)計(jì)識(shí)別特征的方法.該方法需要對(duì)識(shí)別對(duì)象建立特定識(shí)別模型,不僅設(shè)計(jì)難度大,魯棒性也普遍較低.近年來,目標(biāo)識(shí)別的主要方法已發(fā)展為基于深度學(xué)習(xí)(deep learning)的方法.目前,已經(jīng)出現(xiàn)了大量?jī)?yōu)秀的深度卷積網(wǎng)絡(luò)如GoogleNet、RCNN、Faster RCNN等[1-2].單純基于CNN的目標(biāo)識(shí)別需要大量的訓(xùn)練數(shù)據(jù)和更先進(jìn)的硬件系統(tǒng).針對(duì)這一問題, Li等[3]提出了數(shù)據(jù)需求量少、運(yùn)算量低的小樣本學(xué)習(xí).為解決該方法不能有效利用新數(shù)據(jù)的問題,出現(xiàn)了持續(xù)學(xué)習(xí)和元學(xué)習(xí).
結(jié)合深度學(xué)習(xí)的元學(xué)習(xí)(meta learning, ML)是深度學(xué)習(xí)領(lǐng)域中的前沿理論,Munkhdalai等[4]將上一個(gè)數(shù)據(jù)的訓(xùn)練標(biāo)記結(jié)果指導(dǎo)下一個(gè)數(shù)據(jù)訓(xùn)練,達(dá)到少量數(shù)據(jù)獲得良好標(biāo)記預(yù)測(cè)能力的效果.Andrychowicz等[5]通過訓(xùn)練專門的梯度控制網(wǎng)絡(luò),控制并預(yù)測(cè)訓(xùn)練中的梯度下降過程.Finn等[6]提出了一種基于多任務(wù)并行處理,合成不同任務(wù)訓(xùn)練梯度的模型,實(shí)現(xiàn)在少量訓(xùn)練數(shù)據(jù)基礎(chǔ)上的梯度快速精準(zhǔn)下降.Mishra等[7]直接利用每次訓(xùn)練的歷史數(shù)據(jù)參與到下一次訓(xùn)練,實(shí)驗(yàn)效果較為理想.Sung等[8]通過構(gòu)造評(píng)價(jià)模型控制并預(yù)測(cè)訓(xùn)練的損失.
持續(xù)學(xué)習(xí)(lifelong learning)是指模型可持續(xù)運(yùn)行,并利用新、舊數(shù)據(jù)同步訓(xùn)練新的網(wǎng)絡(luò)模型.Li等[9]從知識(shí)提取方面降低了舊知識(shí)的遺忘概率.Kirkpatrick等[10]提高了災(zāi)難性遺忘的抵抗能力.Triki[11]和Aljundi等[12]訓(xùn)練專門的編碼器或門網(wǎng)絡(luò)指導(dǎo)訓(xùn)練過程.
目前針對(duì)洞庫(kù)類目標(biāo)識(shí)別的相關(guān)研究較少,且基于圖像的方法較少.張輝等[13]基于霍夫直線檢測(cè)對(duì)洞庫(kù)類目標(biāo)識(shí)別做出了相關(guān)研究,識(shí)別洞庫(kù)類目標(biāo)兩側(cè)的直線結(jié)構(gòu),但在較復(fù)雜背景條件下的識(shí)別效果較差;Slavova等[14]基于多種傳感器方法在地面勘探領(lǐng)域中做出了相關(guān)研究并取得了良好的效果,但該方法適用范圍較??;Kasprak等[15]基于機(jī)載激光雷達(dá)進(jìn)行野外洞穴探測(cè),使用成本較高.
本文結(jié)合具體情況并研究大量文獻(xiàn),提出一種結(jié)合元學(xué)習(xí)和深度卷積網(wǎng)絡(luò)的元-卷積網(wǎng)絡(luò),并融合持續(xù)學(xué)習(xí)理論的洞庫(kù)類目標(biāo)識(shí)別方法.
本節(jié)將元學(xué)習(xí)理論融入CNN中,提出并設(shè)計(jì)了元-卷積網(wǎng)絡(luò)MCNN.相比傳統(tǒng)的CNN,MCNN可以將上一次訓(xùn)練的結(jié)果作為下一次訓(xùn)練的指導(dǎo),從而減少CNN對(duì)數(shù)據(jù)量的要求,解決基于小樣本洞庫(kù)類目標(biāo)數(shù)據(jù)的識(shí)別問題.典型的CNN由卷積層、池化層、全連接層和分類器組成.其中卷積層和池化層交替排列提取圖像特征,并連接全連接層和分類器.
卷積層將上一層的輸出特征圖作為輸入特征圖,利用該層的卷積核對(duì)輸入特征圖做卷積提取操作.洞庫(kù)類目標(biāo)識(shí)別是一種二分類識(shí)別,本文采用PRelu[16]作為卷積層激活函數(shù).PRelu是一種適用于二分類且不易丟失信息的激活函數(shù),公式為
(1)
式中:i為同一卷積層的不同通道;x為輸入的特征圖或其卷積結(jié)果;ai為偏置系數(shù)該激活函數(shù),在文獻(xiàn)[16]中有詳細(xì)表述.
池化層將輸入的特征圖進(jìn)行進(jìn)一步處理并提取主要特征,起到降低計(jì)算復(fù)雜度、提高主要特征利用率的作用.全連接層連接所有處理得到的特征并送入分類器進(jìn)行分類,得出輸入圖像的標(biāo)簽(label).本文采用Ren等[17]提出的Faster RCNN網(wǎng)絡(luò)作為元-卷積網(wǎng)絡(luò)的深度卷積網(wǎng)絡(luò)部分.同時(shí)結(jié)合元學(xué)習(xí)利用舊知識(shí)指導(dǎo)新知識(shí)的思想,建立如圖1所示的元-卷積網(wǎng)絡(luò)MCNN.
MCNN將小樣本訓(xùn)練數(shù)據(jù)逐次輸入至Faster RCNN中進(jìn)行特征提取,并輸出特征的初步分類結(jié)果;然后利用已學(xué)習(xí)到的結(jié)果指導(dǎo)預(yù)測(cè)下一個(gè)輸入的分類過程;以此循環(huán),直到將所有小樣本數(shù)據(jù)遍歷訓(xùn)練得出最終的深度洞庫(kù)模型.在洞庫(kù)類目標(biāo)識(shí)別問題中,僅存在“洞庫(kù)”和“背景”兩種Label,分類結(jié)果即為目標(biāo)識(shí)別結(jié)果.
深度卷積網(wǎng)絡(luò)利用損失函數(shù)(loss function)度量圖像分類的準(zhǔn)確度,并對(duì)產(chǎn)生較大Loss的分類結(jié)果進(jìn)行修正.單幅圖像xt的損失函數(shù)由擬合值與真值的偏差γt確定
L=L(γt).
(2)
此時(shí),xt的正確分類概率,即未經(jīng)指導(dǎo)預(yù)測(cè)的正確分類概率可表示為
xt~P(yt|xt),
(3)
式中yt為圖像xt的初步分類結(jié)果.若引入前t次的分類結(jié)果對(duì)其進(jìn)行指導(dǎo),經(jīng)指導(dǎo)后xt的損失函數(shù)為
(4)
此時(shí)xt的正確分類概率為
(5)
圖2中各個(gè)橢圓代表使某圖像正確分類的最小誤差范圍.xt未經(jīng)指導(dǎo)的分類結(jié)果會(huì)收斂于使xt分類誤差最小的方向,即箭頭1,顯然對(duì)前t次分類不利;經(jīng)過指導(dǎo)的分類結(jié)果會(huì)收斂于所有結(jié)果都可以接受的方向,即箭頭2.文獻(xiàn)[10]中采用選擇性減小權(quán)重的方法來削弱持續(xù)學(xué)習(xí)中的災(zāi)難性遺忘,本文將此思想擴(kuò)展至元學(xué)習(xí)范疇,并用于指導(dǎo)單任務(wù)、二分類、小樣本模型的訓(xùn)練.
MCNN基于小樣本訓(xùn)練得到深度洞庫(kù)模型.但在測(cè)試環(huán)節(jié)中,大量有用數(shù)據(jù)被遺棄;同時(shí),模型對(duì)一些視頻數(shù)據(jù)僅能做出部分識(shí)別,不能做出連續(xù)識(shí)別.若將正確識(shí)別的洞庫(kù)類目標(biāo)數(shù)據(jù)加入至深度洞庫(kù)模型,則可有效提高模型的識(shí)別能力.
本節(jié)結(jié)合持續(xù)學(xué)習(xí)理論,提出并設(shè)計(jì)基于MCNN洞庫(kù)模型的持續(xù)學(xué)習(xí)系統(tǒng)MCNN-LLS和洞庫(kù)類目標(biāo)的專家審核模型,有效利用新數(shù)據(jù)并持續(xù)提高識(shí)別效果.
如圖3,測(cè)試數(shù)據(jù)集r通過MCNN深度洞庫(kù)模型得出指導(dǎo)預(yù)測(cè)分類結(jié)果.該結(jié)果通過專家審核模型去除誤分類結(jié)果,將正確結(jié)果儲(chǔ)存至任務(wù)子空間中,并相對(duì)正在進(jìn)行的識(shí)別過程異步后臺(tái)掛起.在任務(wù)子空間中,對(duì)儲(chǔ)存的結(jié)果進(jìn)行連續(xù)性判別,在連續(xù)結(jié)果結(jié)束輸入之后同潛在任務(wù)、舊模型共同訓(xùn)練新的MCNN深度洞庫(kù)模型,用于下一組數(shù)據(jù)的識(shí)別,達(dá)到持續(xù)學(xué)習(xí)的效果.
MCNN-LLS通過專家審核模型去除誤識(shí)別結(jié)果,降低其對(duì)小樣本模型的影響;同時(shí),利用任務(wù)子空間異步掛起連續(xù)的識(shí)別結(jié)果,降低內(nèi)存使用率,提高算法執(zhí)行效率;潛在任務(wù)包含有未加入訓(xùn)練集的訓(xùn)練數(shù)據(jù),防止新數(shù)據(jù)過少產(chǎn)生MCNN對(duì)新數(shù)據(jù)不敏感的現(xiàn)象.
若專家審核模型同樣基于MCNN生成,則專家審核模型和MCNN深度洞庫(kù)模型對(duì)數(shù)據(jù)的計(jì)算結(jié)果收斂方向一致,不能達(dá)到審核判別的效果.而基于其他種類CNN的專家模型需要龐大的數(shù)據(jù)量,因此本文采用人工專家審核模型.
洞庫(kù)類目標(biāo)具有明顯的形狀、灰度等特征,人工專家審核模型可以提供可靠的審核判別結(jié)果.但基于人工特征的目標(biāo)識(shí)別方法難以對(duì)全圖進(jìn)行目標(biāo)的抓取,導(dǎo)致識(shí)別準(zhǔn)確度很低.MCNN會(huì)將識(shí)別結(jié)果用矩形框(boundingbox,BBox)框選,若僅對(duì)識(shí)別結(jié)果進(jìn)行審核則會(huì)顯著提高審核準(zhǔn)確率,因此可基于BBox中的內(nèi)容設(shè)計(jì)人工專家審核模型.
專家審核模型的重點(diǎn)步驟為圖像自適應(yīng)二值化,本節(jié)詳細(xì)介紹該步驟并對(duì)其他步驟做簡(jiǎn)略介紹.模型審核流程如圖4所示.
洞庫(kù)類目標(biāo)灰度與環(huán)境灰度差異較大,且具有明顯的類橢圓形狀特征.因此可將BBox中的內(nèi)容基于灰度特征做二值化處理凸顯形狀特征,對(duì)形狀特征進(jìn)行審核判別.如圖5,定義滑動(dòng)窗口在BBox中逐像素滑動(dòng),圖中滑動(dòng)窗口正處于洞庫(kù)邊緣.
(7)
Gatos等[18]對(duì)基于滑動(dòng)矩形窗的自適應(yīng)閾值二值化算法做出了經(jīng)典表述,如式(8)
T=m+A,
(8)
式中:T為圖像二值化自適應(yīng)閾值;m為窗口平均灰度;A為窗口自適應(yīng)灰度調(diào)整值.為使洞庫(kù)類目標(biāo)進(jìn)一步凸顯,取輔助函數(shù)h(x),灰度梯度差值函數(shù)f
(9)
(10)
改寫式(8)為
T=mh(-f)+g5h(f)+A,
(11)
式中g(shù)5為區(qū)域W5中的平均灰度.當(dāng)滑動(dòng)窗口位于暗區(qū)域邊緣時(shí),則會(huì)獲得更加嚴(yán)格的閾值生成方式,產(chǎn)生邊緣信息更為明顯的洞庫(kù)類目標(biāo)二值化圖像.
依據(jù)式(11)生成BBox中圖像的二值化結(jié)果后,可利用洞庫(kù)類目標(biāo)特有的橢圓形狀特征對(duì)其進(jìn)行判別.通過MCNN模型正確識(shí)別后的BBox中一定僅包含有洞庫(kù)類目標(biāo)和少量背景,其二值化圖像具有明顯的洞庫(kù)類目標(biāo)特征,相反錯(cuò)誤識(shí)別后的二值化圖像包含信息紛雜.因此提取二值化圖像中所有區(qū)域的邊緣,并計(jì)算其外接橢圓方程,將外接橢圓方程作與原有邊緣相比較,可以剔除明顯不具有橢圓特征的圖像.關(guān)于邊緣提取、判斷等的研究很多,本文采用Canny算子[19]和模板匹配[20]的思想進(jìn)行該步操作,利用Canny算子求取圖像邊緣信息,再經(jīng)過模板匹配尋找圖像中是否存在目標(biāo)特征,從而判斷圖像中是否有洞庫(kù)類目標(biāo).
本文實(shí)驗(yàn)數(shù)據(jù)分為訓(xùn)練集與測(cè)試集兩部分,訓(xùn)練集和測(cè)試集.訓(xùn)練集選取具有代表性的100張圖像,并通過旋轉(zhuǎn)、仿射、顏色、模糊等變換對(duì)訓(xùn)練集進(jìn)行擴(kuò)容,保證訓(xùn)練出的模型對(duì)圖像變換、采集條件不同、圖像具有多種噪聲等多種情況的適應(yīng)能力,提高訓(xùn)練過程的誤差的收斂速度和模型的精度.測(cè)試集包含有10段視頻,其中包含質(zhì)量不同的正樣本和負(fù)樣本.數(shù)據(jù)來源為網(wǎng)絡(luò)、實(shí)景拍攝、大型地景模型等,如圖6所示.所有實(shí)驗(yàn)基于CPU i7 7700HQ,GPU GTX1060完成,實(shí)驗(yàn)程序基于Windows系統(tǒng)下的Matlab 2017b軟件編寫,學(xué)習(xí)速率為0.001.
本文設(shè)計(jì)了3組對(duì)比實(shí)驗(yàn).第1組實(shí)驗(yàn)驗(yàn)證不同容量的小樣本訓(xùn)練集對(duì)MCNN訓(xùn)練效果的影響;第2組實(shí)驗(yàn)驗(yàn)證測(cè)試數(shù)據(jù)數(shù)量對(duì)本文算法識(shí)別效果的影響;第3組實(shí)驗(yàn)將本文算法、Faster RCNN、文獻(xiàn)[7]和文獻(xiàn)[13]的方法做對(duì)比實(shí)驗(yàn).
第1組實(shí)驗(yàn)在訓(xùn)練集容量分別為10,50和100的基礎(chǔ)上驗(yàn)證MCNN的訓(xùn)練效果,實(shí)驗(yàn)結(jié)果如圖7所示.圖7中MCNN在第2個(gè)訓(xùn)練周期(epochs)即可保持穩(wěn)定的訓(xùn)練準(zhǔn)確率,該實(shí)驗(yàn)結(jié)果表明,當(dāng)訓(xùn)練集容量達(dá)到50時(shí)訓(xùn)練準(zhǔn)確率趨近于理想,MCNN具有所需樣本容量小、訓(xùn)練準(zhǔn)確率高的特點(diǎn).
第2組實(shí)驗(yàn)在第1組實(shí)驗(yàn)的基礎(chǔ)上驗(yàn)證MCNN-LLS的識(shí)別能力和持續(xù)學(xué)習(xí)能力,如圖8所示,需要指出的是,測(cè)試過程是逐幀進(jìn)行的.圖8表明具有持續(xù)學(xué)習(xí)能力的MCNN-LLS可以在識(shí)別過程中不斷學(xué)習(xí)新數(shù)據(jù),逐步接近0.95的識(shí)別準(zhǔn)確率;而不具有持續(xù)學(xué)習(xí)能力的MCNN識(shí)別準(zhǔn)確率在0.85左右波動(dòng).
第3組實(shí)驗(yàn)選取本文方法MCNN-LLS,F(xiàn)aster RCNN(深度卷積網(wǎng)絡(luò)法)、元學(xué)習(xí)的方法(見文獻(xiàn)[7])、人工設(shè)計(jì)識(shí)別特征的方法(見文獻(xiàn)[13])在測(cè)試集上進(jìn)行對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如圖9所示.
該結(jié)果表明,本文方法MCNN-LLS與人工設(shè)計(jì)識(shí)別特征的方法相比,具有更高的識(shí)別準(zhǔn)確率;與Faster RCNN的方法相比,識(shí)別準(zhǔn)確率高,而且魯棒性好;與元學(xué)習(xí)的方法相比,識(shí)別準(zhǔn)確率更高,而且具有較好的持續(xù)學(xué)習(xí)新數(shù)據(jù)的能力.
基于洞庫(kù)類目標(biāo)樣本少、數(shù)據(jù)相似度高等特點(diǎn),提出結(jié)合元學(xué)習(xí)和深度卷積網(wǎng)絡(luò)的元-卷積網(wǎng)絡(luò),并融合持續(xù)學(xué)習(xí)理論的洞庫(kù)類目標(biāo)識(shí)別方法MCNN-LLS,該方法具有以下特點(diǎn):
① 在深度卷積網(wǎng)絡(luò)基礎(chǔ)上引入元學(xué)習(xí)理論,提出并設(shè)計(jì)了元-卷積網(wǎng)絡(luò)MCNN,實(shí)現(xiàn)了基于小樣本的洞庫(kù)類目標(biāo)識(shí)別,降低網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)量和計(jì)算量;
② 在MCNN基礎(chǔ)上融合持續(xù)學(xué)習(xí)理論,提出并設(shè)計(jì)了基于MCNN洞庫(kù)模型的持續(xù)學(xué)習(xí)系統(tǒng)MCNN-LLS,實(shí)現(xiàn)了模型的持續(xù)學(xué)習(xí),識(shí)別效果可隨識(shí)別過程逐步提高;
③ 設(shè)計(jì)MCNN-LLS中的洞庫(kù)類目標(biāo)專家審核模型,剔除誤識(shí)別結(jié)果,降低誤識(shí)別數(shù)據(jù)對(duì)小樣本數(shù)據(jù)的干擾,提高M(jìn)CNN-LLS的識(shí)別效果;
④ 實(shí)驗(yàn)結(jié)果表明,本文方法識(shí)別準(zhǔn)確率高,高于普通深度卷積網(wǎng)絡(luò)法、人工設(shè)計(jì)識(shí)別特征法和元學(xué)習(xí)法,并具有對(duì)新數(shù)據(jù)的持續(xù)學(xué)習(xí)的能力,有效提高了模型的識(shí)別能力.