王召新,劉華平,續(xù)欣瑩,孫富春
(1.太原理工大學(xué) 電氣與動力工程學(xué)院· 太原·030024;2.清華大學(xué) 計算機科學(xué)與技術(shù)系·北京·100084;3.清華大學(xué) 智能技術(shù)與系統(tǒng)國家重點實驗室·北京·100084)
深空探測作為人類航天活動的三大領(lǐng)域之一,充分展現(xiàn)國家的綜合實力,對國家經(jīng)濟、科技、社會發(fā)展具有重要意義[1]。復(fù)雜環(huán)境下的地形探測技術(shù)是提高無人平臺自主移動和環(huán)境適應(yīng)性能的關(guān)鍵因素[2],在大多數(shù)深空探測任務(wù)中,都以地面探測方式對無人平臺進行導(dǎo)航和跟蹤[3]。無人平臺根據(jù)不同的地形環(huán)境選擇不同的前進策略,進而在自主避障的前提下安全穿越地形區(qū)域[4]。
視覺作為人類最常用的環(huán)境感知方式,可以提供豐富的地形信息。正如文獻[5-6]所述,可以通過使用視覺數(shù)據(jù)獲得地形類別。但是僅僅依靠視覺提示可能會產(chǎn)生誤導(dǎo),例如,無人平臺會把冬天的干枯草地識別成土地。此時,觸覺數(shù)據(jù)的使用便顯得十分必要。文獻[7]將紅外距離傳感器、加速度計和力傳感器結(jié)合起來,以區(qū)分六種室內(nèi)表面地形。文獻[8-9]也使用觸覺傳感器來收集地形信息。因此,本文提出一種視觸融合的地形探測方法,有效地結(jié)合觸覺和視覺信息,實現(xiàn)兩種模態(tài)數(shù)據(jù)的優(yōu)勢互補。
目前,常用的地形識別方法有基于神經(jīng)網(wǎng)絡(luò)的算法和傳統(tǒng)的機器學(xué)習(xí)算法。針對不同地形的表面和結(jié)構(gòu),通過小波變換和紋理特征獲得低維和高維特征,通過分類器得到地形類別。傳統(tǒng)的機器學(xué)習(xí)算法收斂速度較慢,效率不高,難以滿足要求。例如支持向量機(Support vector machine, SVM)需要手動選擇核函數(shù)和誤差控制參數(shù)等,因此,SVM算法需要花費大量的時間來調(diào)整參數(shù)[10]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)的使用已經(jīng)在目標識別方面取得了成功。然而,大量的超參數(shù)和復(fù)雜的結(jié)構(gòu)使得深層神經(jīng)網(wǎng)絡(luò)經(jīng)歷一個耗時的訓(xùn)練過程。為了達到令人滿意的識別結(jié)果,深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)需要調(diào)整網(wǎng)絡(luò)參數(shù)或不斷增加隱含層層數(shù),這給深度學(xué)習(xí)的訓(xùn)練帶來了困難。并且在實際應(yīng)用中,在缺少監(jiān)督的天體表面環(huán)境中,無人平臺探測的目標通常呈現(xiàn)弱特征,另外傳感器收集的數(shù)據(jù)量有限,無法為深度學(xué)習(xí)提供足夠的數(shù)據(jù)進行訓(xùn)練。必須充分利用無人平臺的數(shù)據(jù)學(xué)習(xí)能力在有限壽命內(nèi)實現(xiàn)復(fù)雜地形的探索[11]。因此如何在小樣本數(shù)據(jù)情況下,充分利用傳感器信息資源完成地形識別任務(wù)成為無人平臺研究的一個熱點問題。
綜上所述,本文提出了一種基于多模態(tài)框架的寬度學(xué)習(xí)算法,能夠有效地融合無人平臺采集的地形圖像和觸覺信號,并且充分利用多模態(tài)信息來提取更多的抽象表示和不變特征,在自創(chuàng)建的多模態(tài)地形(visual-touch terrain,V-T2)數(shù)據(jù)集進行了實驗。實驗結(jié)果表明,視觸融合寬度學(xué)習(xí)地形分類的精度高于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法和支持向量機,避免了耗時的訓(xùn)練過程,且在小樣本數(shù)據(jù)情況下完成地形識別任務(wù),提高了地形識別的魯棒性和準確性。
2017年提出的快速增量學(xué)習(xí)方法寬度學(xué)習(xí)(Broad Learning,BRL)[12]是基于隨機矢量功能鏈神經(jīng)網(wǎng)絡(luò)的思想設(shè)計的。整個網(wǎng)絡(luò)由輸入、特征節(jié)點、增強節(jié)點和輸出四個部分組成。根據(jù)原始的BRL,本文提出了CFBRL-KCCA算法,首先,通過級聯(lián)特征節(jié)點寬度學(xué)習(xí)(Cascade Feature Nodes Broad Learning, CFBRL)[13]分別提取圖像和振動數(shù)據(jù)的特征,利用核典型相關(guān)分析(Kernel Canonical Correlation Analysis, KCCA)算法最大限度地提高兩種模態(tài)數(shù)據(jù)之間的相關(guān)性。最后,利用BRL分類器得到分類結(jié)果。該算法框架如圖1所示,主要包括三部分:
將預(yù)處理的圖像和振動數(shù)據(jù)輸入至視觸多模態(tài)網(wǎng)絡(luò),通過CFBRL算法的特征節(jié)點和增強節(jié)點的特征表示進行無監(jiān)督學(xué)習(xí)。首先,給定觸覺數(shù)據(jù)的輸入為X={x1,x2,…,xN},則第1組特征節(jié)點表示為
Fc1=G(XWcf1+βcf1)
(1)
式中,G是線性激活函數(shù);Wcf1和βcf1分別為第一組級聯(lián)特征節(jié)點寬度學(xué)習(xí)網(wǎng)絡(luò)中隨機生成的觸覺特征節(jié)點的權(quán)重和偏置;N表示該觸覺訓(xùn)練樣本集中共含有N個觸覺訓(xùn)練樣本。為了克服隨機初始化的不可預(yù)測性,CFBRL采用稀疏自動編碼器優(yōu)化輸入權(quán)重。之后,第一組特征節(jié)點的輸出作為第二組特征節(jié)點的輸入,則第2組特征節(jié)點表示為
Fc2=G(Fc1Wcf2+βcf2)
=G(G(XWcf1+βcf1)Wcf2+βcf2)
(2)
按照這一規(guī)律,第i組特征節(jié)點表示為
Fci=G(Fci-1Wcfi+βcfi)
(3)
圖1 算法框架流程圖
(4)
式中,ξ是非線性激活函數(shù),Wcej和βcej分別為CFBRL子網(wǎng)絡(luò)中生成第j組觸覺增強節(jié)點的權(quán)重和偏置。M組增強節(jié)點定義為EM=[E1,E2,…,EM]。
使用核典型相關(guān)分析算法,最大化觸覺初步特征矩陣Hc和視覺初步特征矩陣Hs之間的相關(guān)性,實現(xiàn)融合特征降維,確定兩個N維向量α和β,使得兩種模態(tài)樣本的線性組合U=ΦHc(Hc)α和V=ΦHsβ的相關(guān)系數(shù)最大,得到融合后的觸覺特征矩陣U和視覺特征矩陣V;其中,ΦHc(Hc)和ΦHs(Hs)是分別將觸覺初步特征矩陣Hc和視覺初步特征矩陣Hs映射到非線性特征空間得到。
融合后的觸覺特征矩陣U和視覺特征矩陣V經(jīng)寬度學(xué)習(xí)分類算法,通過嶺回歸的廣義逆近似求得CFBR的輸出即為地形識別結(jié)果Y,CFBRL網(wǎng)絡(luò)訓(xùn)練完畢;其中,所述地形識別分類結(jié)果Y的表達式如下
Y=[U|V]WN
(5)
(6)
(1)無人平臺和傳感器:數(shù)據(jù)采集使用Autolabor Pro 1(AP1)移動無人平臺,它是一款適用于全地形的移動底盤。該無人平臺共有四種速度檔位,分別是0.2(m/s),0.4(m/s),0.6(m/s),0.8(m/s)。在車身一側(cè),平行且靠近地面的位置配備一個AKF392B 三軸向加速度計,其采樣頻率范圍為5 Hz~1000 Hz,偏差典型值小于 0.1%,具有輸出穩(wěn)定、環(huán)境適應(yīng)性能好等優(yōu)點。加速度計采樣頻率選擇100 Hz和200 Hz采集不同路面的振動信號,數(shù)據(jù)采集平臺如圖2所示。
(a)AP1 移動無人平臺 (b)加速度傳感器
(2)地形選擇:數(shù)據(jù)采集確定了常見的六種路面數(shù)據(jù):瀝青(Asphalt)、草地(Grass)、馬賽克路(Mosaic road)、木板(Wood)、泥土路(Dirt)以及塑膠跑道(Plastic track)。其中,泥土是經(jīng)長期碾壓的緊實泥土,馬賽克路是巖石材質(zhì)組成的方格路面。
(3)視觸覺數(shù)據(jù)采集:控制AP1無人平臺以不同速度在六種地形上直線行駛,在每種地形上分別行駛了20分鐘,在四種車速和兩種采樣頻率總計八種場景下采集了16萬個觸覺數(shù)據(jù)點。視覺數(shù)據(jù)是使用AP1無人平臺上搭載的攝像機進行圖像采集得到,獲取的視覺數(shù)據(jù)主要用于后續(xù)通過視覺特征對地形進行識別?,F(xiàn)實生活中除了道路常見的顏色,如綠色的草地、紅色的塑膠跑道以及黑色的瀝青等,還有許多混雜的顏色,如瀝青具有白色的斑馬線以及黃色和藍色的漆線、藍色的塑膠跑道等。很多地形中還摻雜其他種類地形,如草地稀疏的部分有泥土,木板上有樹葉,泥土上有雜草和石塊等凸起。除了顏色和地形的交叉,不同的天氣和光照條件也會影響采集圖像的色彩,因此在采集視覺數(shù)據(jù)時考慮了晴天、遮蔭、傍晚光線弱以及晚上有燈光等光照條件,部分視覺數(shù)據(jù)集如圖3所示。每類地型采集50張圖像,全地形共計300張圖像。
圖3 真實采集的部分道路圖像
(1)觸覺數(shù)據(jù)預(yù)處理:為了保證數(shù)據(jù)的穩(wěn)定,將移動無人平臺啟動以及轉(zhuǎn)彎等時候采集的三維振動信號去掉,保留了9.6萬個數(shù)據(jù)點,將其分割成段(本實施例每種場景含有30段三維振動信號),每種車速和采樣頻率設(shè)置有1.2萬個數(shù)據(jù)點,然后進行數(shù)據(jù)增強,在一種車速和采樣頻率下,每類地形的觸覺數(shù)據(jù)增強為50段三維振動信號(即每類地形的各段三維振動信號分別與采集的一張圖像相對應(yīng)),全部地形共計300段三維振動信號。其后通過截止頻率為10 Hz的高通濾波器去除數(shù)據(jù)增強后各三維振動信號中因重力和加速度計漂移產(chǎn)生的干擾噪聲;利用快速傅里葉變換(DFT321)算法將濾波后的三維振動信號合成為一維振動信號;通過上述處理保留了三軸分量的時頻和光譜特性,并且合成前后信號的總功率保持不變,減少了特征計算的工作量。隨后,利用短時傅里葉變換的方法,將上述一維振動信號轉(zhuǎn)換到頻域,短時傅里葉變換中的漢明窗的窗口長度是128,窗口偏移量是64,采樣頻率為100 Hz或者200 Hz,得到加速度頻譜圖像,對該頻譜圖像進行降采樣,得到大小為32×32×3的頻譜圖像,
(2)視覺數(shù)據(jù)預(yù)處理:對得到的視覺數(shù)據(jù)進行降采樣,降采樣后每張圖像的大小均為32×32×3,避免因每幅圖像特征太多對系統(tǒng)造成噪聲和冗余。
把經(jīng)過預(yù)處理的300個觸覺樣本和300個圖像分別按4∶1的比例隨機劃分成240個觸覺訓(xùn)練樣本和240個視覺訓(xùn)練樣本以及60個觸覺測試樣本和60個視覺測試樣本。由于采集數(shù)據(jù)時設(shè)置了2種采樣頻率和4種速度共8種情況,實驗首先使用BRL算法驗證8種組合的觸覺數(shù)據(jù)分類情況,五折交叉驗證結(jié)果如圖4所示,測試精度分別是45.56, 50.11, 52.77, 49.23, 45.22, 47.48, 50.45和47.78。其中,橫坐標0.2-100表示無人平臺的運動速度0.2 m/s,采樣頻率100 Hz。
圖4 8種不同組合觸覺信號的地形識別精度
從分類結(jié)果可以看到,采樣頻率為100 Hz 的識別率明顯高于200 Hz的識別率。而且當(dāng)固定采樣頻率時,隨著速度的增加,識別率大致呈正態(tài)分布,當(dāng)V=0.6 m/s時得到最大值。最終,選擇了0.6 m/s,100 Hz 的數(shù)據(jù)樣本進行下一步的實驗。
在整個實驗中,比較了6種算法在單模實驗中的分類性能,仿真結(jié)果見表1。其中,支持向量機作為一種高精度分類工具,廣泛應(yīng)用于對象識別和分類等領(lǐng)域[14]。SVM分類器可以直接執(zhí)行二進制分類,也可以執(zhí)行多個分類任務(wù),這些任務(wù)使用libSVM工具箱的RBF核心函數(shù)來訓(xùn)練樣本。極限學(xué)習(xí)機器(Extreme Learning Machine, ELM)是一種新型的單層前饋網(wǎng)絡(luò),具有良好的學(xué)習(xí)能力[15]。對比觸覺數(shù)據(jù)的分類精度,得出SVM的效果最好,其次是CFBRL,僅僅比SVM落后了0.33%,而CFBRL在視覺數(shù)據(jù)的分類精度最好。
表1 不同模態(tài)數(shù)據(jù)在六種算法上的識別率
實驗也比較了Elm-CCA、Elm-KCCA、BRL-CCA、BRL-KCCA、CFBRL-CCA和CFBRL-KCCA算法在單模態(tài)和多模態(tài)中的分類性能。從圖5中可以看到,同一算法多模態(tài)數(shù)據(jù)的分類精度高于單模態(tài)數(shù)據(jù)的分類結(jié)果,并且使用KCCA算法的分類性能比使用CCA算法的分類性能好。對于使用KCCA的算法,參數(shù)設(shè)置如下:每個模型數(shù)據(jù)的高斯核S1和S2的寬度是16,M1=M2=1400(M1和M2是使用的隨機傅里葉特征的數(shù)目),并且輸出維度是50。
另一方面,CFBRL的分類性能優(yōu)于原始BRL結(jié)構(gòu)的分類性能。這是由于CFBRL的特征節(jié)點采用級聯(lián)結(jié)構(gòu),前一組特征節(jié)點的輸出作為下一組特征節(jié)點的輸入。因此,可以反復(fù)提煉數(shù)據(jù)特征,使用相對較少的特征節(jié)點也能達到較好的分類效果。本文提出的CFBRL-KCCA算法在幾種算法中得到了最高的分類結(jié)果,達到了84.67%。
圖5 不同算法在單模態(tài)和視觸融合數(shù)據(jù)的分類精度
為了比較四種BRL算法的性能,首先比較了這些算法學(xué)習(xí)到的特征的相關(guān)性。圖6(a)為不同算法在測試集上得到的前10個相關(guān)性最強的典型變量的相關(guān)系數(shù)之和。隨著輸出維數(shù)的增加,四種算法的相關(guān)系數(shù)之和呈現(xiàn)先升后降的趨勢。BRL-CCA和BRL-KCCA之間的差異不明顯。當(dāng)輸出尺寸大于50時,BRL-KCCA的優(yōu)點變得突出。整體來看,本文提出的CFBRL-KCCA的相關(guān)系數(shù)之和大于其他算法。此外,還比較了四種算法的識別率與輸出維數(shù)的關(guān)系。從圖6(b)可以看出,BRL-CCA的識別率有很大程度的波動,并且上升最快,但在四種算法中是最低的。本文提出的算法具有較好的魯棒性。當(dāng)輸出尺寸為50時,可以抵抗噪聲干擾達到85%的識別精度。
(a)輸出維數(shù)對相關(guān)系數(shù)之和的影響
(b)輸出維數(shù)對識別精度的影響
本文將寬度學(xué)習(xí)應(yīng)用于無人平臺的地形探測領(lǐng)域,提出了一種基于級聯(lián)特征節(jié)點寬度學(xué)習(xí)的多模態(tài)融合算法。該方法融合視觸信息的無監(jiān)督特征,最大限度地提高了兩個特征之間的相關(guān)性,實現(xiàn)了特征維數(shù)的聯(lián)合約簡,并利用寬度學(xué)習(xí)分類器獲得了地形識別結(jié)果。此外,開發(fā)了一種用于地形識別的視觸覺數(shù)據(jù)集V-T2,收集了6種道路上的圖像和觸覺信號。實驗結(jié)果表明,所提出的視觸融合框架在移動無人平臺地形探測中是有效的,尤其是在小樣本數(shù)據(jù)下能得到有競爭力的結(jié)果。