張 文, 劉 勇, 張超凡, 張 龍, 夏營(yíng)威
(1.中國(guó)科學(xué)院 合肥物質(zhì)科學(xué)研究院 應(yīng)用技術(shù)研究所,安徽 合肥 230031;2.中國(guó)科學(xué)技術(shù)大學(xué) 科學(xué)島分院,安徽 合肥 230026)
?
基于語(yǔ)義建圖的室內(nèi)機(jī)器人實(shí)時(shí)場(chǎng)景分類(lèi)*
張 文1,2, 劉 勇1, 張超凡1,2, 張 龍1, 夏營(yíng)威1
(1.中國(guó)科學(xué)院 合肥物質(zhì)科學(xué)研究院 應(yīng)用技術(shù)研究所,安徽 合肥 230031;2.中國(guó)科學(xué)技術(shù)大學(xué) 科學(xué)島分院,安徽 合肥 230026)
針對(duì)室內(nèi)環(huán)境下的機(jī)器人場(chǎng)景識(shí)別問(wèn)題,重點(diǎn)研究了場(chǎng)景分類(lèi)策略的自主性、實(shí)時(shí)性和準(zhǔn)確性,提出了一種語(yǔ)義建圖方法。映射深度信息構(gòu)建二維柵格地圖,自主規(guī)劃場(chǎng)景識(shí)別路徑;基于卷積網(wǎng)絡(luò)建立場(chǎng)景分類(lèi)模型,實(shí)時(shí)識(shí)別脫離特定訓(xùn)練;利用貝葉斯框架融合先驗(yàn)知識(shí),修正了錯(cuò)誤分類(lèi)并完成語(yǔ)義建圖。實(shí)驗(yàn)結(jié)果表明:機(jī)器人能夠進(jìn)行全局自主探索,實(shí)時(shí)判斷場(chǎng)景類(lèi)別,并創(chuàng)建滿(mǎn)足要求的語(yǔ)義地圖。同時(shí),實(shí)際路徑規(guī)劃中,機(jī)器人可以根據(jù)語(yǔ)義信息改善導(dǎo)航行為,驗(yàn)證了方法的可行性。
自主建圖; 卷積網(wǎng)絡(luò); 貝葉斯框架; 語(yǔ)義地圖
針對(duì)室內(nèi)非結(jié)構(gòu)化環(huán)境,移動(dòng)機(jī)器人不僅需要局部避障和自主導(dǎo)航能力,更需要自適應(yīng)的環(huán)境理解能力[1]。相對(duì)傳統(tǒng)同時(shí)同步與定位(simultaneous localization and mapping,SLAM)解決的定位問(wèn)題,機(jī)器人需及時(shí)提取場(chǎng)景中語(yǔ)義信息,從而協(xié)助高層決策過(guò)程,達(dá)到減弱人為干涉及指導(dǎo)機(jī)器人行為的目的[2]。目前,場(chǎng)景分類(lèi)主要通過(guò)語(yǔ)義標(biāo)簽賦予環(huán)境,并結(jié)合語(yǔ)義地圖實(shí)現(xiàn)[3,4]。
非結(jié)構(gòu)化環(huán)境的感知側(cè)重于視覺(jué)語(yǔ)義,而場(chǎng)景理解的提出,推動(dòng)了該領(lǐng)域的發(fā)展。Wu J[5]和Ranganathan A等人[6]利用不同的特征檢測(cè)方法訓(xùn)練并分類(lèi)房間,但空間視覺(jué)相似性較大;Pronobis A等人[2]融合二維激光雷達(dá)和相機(jī)實(shí)現(xiàn)場(chǎng)景分類(lèi)系統(tǒng),創(chuàng)建柵格地圖并積累語(yǔ)義標(biāo)簽,雖然訓(xùn)練集和測(cè)試集使用不同樓層,相似性依然較大;Meger D等人[7]通過(guò)檢測(cè)物體進(jìn)而推斷當(dāng)前場(chǎng)景的語(yǔ)義信息,例如微波爐更有可能位于廚房;上述算法均基于特征提取,耗時(shí)且需要離線(xiàn)訓(xùn)練。近年來(lái),在物體識(shí)別和檢測(cè)領(lǐng)域,利用卷積神經(jīng)網(wǎng)絡(luò)獲取學(xué)習(xí)特征成為新的趨勢(shì)。很多學(xué)者意識(shí)到深度卷積網(wǎng)絡(luò)較于經(jīng)典方法的優(yōu)越性[8,9],而Zhou B等人[10]更是驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)在場(chǎng)景分類(lèi)中的先進(jìn)性。
本文引入深度卷積網(wǎng)絡(luò)算法,重點(diǎn)研究了場(chǎng)景分類(lèi)策略的自主性、實(shí)時(shí)性和準(zhǔn)確性,構(gòu)建了一種機(jī)器人語(yǔ)義建圖綜合系統(tǒng),并應(yīng)用于中國(guó)科學(xué)院貝貝機(jī)器人本體,旨在實(shí)現(xiàn)室內(nèi)環(huán)境下的自主場(chǎng)景識(shí)別功能。
場(chǎng)景分類(lèi)策略流程如圖1所示,僅依靠RGB數(shù)據(jù)(RGBD)實(shí)現(xiàn),首先通過(guò)映射深度信息構(gòu)建柵格地圖,自主規(guī)劃場(chǎng)景識(shí)別路徑;其次基于深度學(xué)習(xí)建立場(chǎng)景分類(lèi)模型,實(shí)時(shí)識(shí)別脫離特定訓(xùn)練;最后利用貝葉斯估計(jì)融合先驗(yàn)知識(shí),修正錯(cuò)誤分類(lèi)并完成語(yǔ)義建圖。
圖1 場(chǎng)景分類(lèi)策略流程
1.1 自主規(guī)劃探索路徑
1.1.1 深度信息映射激光數(shù)據(jù)
語(yǔ)義地圖結(jié)構(gòu)需建立于傳統(tǒng)二維柵格地圖之上,本文在各室內(nèi)場(chǎng)景中,采用穩(wěn)定的Gmapping方法結(jié)合里程計(jì)和激光雷達(dá)實(shí)現(xiàn)。由于采用RGBD相機(jī)進(jìn)行物體識(shí)別,且激光雷達(dá)價(jià)格昂貴,故將信息豐富的深度數(shù)據(jù)轉(zhuǎn)換以代替激光數(shù)據(jù)。
深度圖變換激光數(shù)據(jù)的方法實(shí)質(zhì)是將一定高度范圍內(nèi)的數(shù)據(jù)進(jìn)行投影,其原理如圖2所示。對(duì)任意給定的深度圖像點(diǎn),相應(yīng)的映射步驟為:
1)將深度圖像的點(diǎn)m(u,v,z)轉(zhuǎn)換為其相機(jī)坐標(biāo)系下的對(duì)應(yīng)坐標(biāo)點(diǎn)M(x,y,z)。
2)計(jì)算直線(xiàn)AO和BO的夾角θ
(1)
3)將θ內(nèi)數(shù)據(jù)映射至有效激光槽。已知激光最小最大范圍(α,β),共細(xì)分為N份,則可用laser[N]表示激光數(shù)據(jù)。點(diǎn)M投影到數(shù)組laser中的索引值n可計(jì)算如下
n=N(θ-α)/(β-α)
(2)
laser[n]值為M在x軸上投影的點(diǎn)B到相機(jī)光心O的距離r,即
(3)
圖2 深度映射激光原理
1.1.2 未知環(huán)境自主全局探索
移動(dòng)機(jī)器人在未知環(huán)境中自主探索主要通過(guò)傳感器構(gòu)建地圖,并根據(jù)信息生成序列運(yùn)動(dòng)從而指導(dǎo)機(jī)器人進(jìn)行遍歷搜索。文中采用環(huán)境通路點(diǎn)拓?fù)鋱D(圖3),考慮路徑優(yōu)化、運(yùn)動(dòng)連續(xù)性等因素,最終完成機(jī)器人全局探索目標(biāo)。
圖3 環(huán)境通路點(diǎn)示意
自主探索時(shí),機(jī)器人根據(jù)激光數(shù)據(jù)確定當(dāng)前最優(yōu)通路點(diǎn),從而實(shí)時(shí)規(guī)劃每次下一步目標(biāo)路徑,直至完成全局遍歷并構(gòu)建環(huán)境地圖。其相關(guān)搜索步驟為:
1)若環(huán)境中不存在可用通路點(diǎn),且l(O,T)≤λ,搜索停止;否則,機(jī)器人移動(dòng)至原點(diǎn)O,其中,T為當(dāng)前拓?fù)涔?jié)點(diǎn)。
2)通過(guò)式(4)評(píng)價(jià)函數(shù)計(jì)算當(dāng)前通路點(diǎn),選擇最大值為此刻目標(biāo)點(diǎn),同時(shí)添加至當(dāng)前拓?fù)涔?jié)點(diǎn)T,并更新地圖,即
φp=(Wp×Ep×|θp-θr|)/Lp
(4)
式中 Wp為點(diǎn)P相鄰障礙物間可通過(guò)的寬度;Ep為點(diǎn)P處可觀測(cè)的未知環(huán)境面積;θp為點(diǎn)P指向的未探索區(qū)域方向;θr為機(jī)器人當(dāng)前方向角;Lp為機(jī)器人與點(diǎn)P距離。
3)判斷當(dāng)前拓?fù)涔?jié)點(diǎn)T是否存在通路點(diǎn),若有,則跳至步驟(2);若沒(méi)有,且環(huán)境中也不存在尚未探索的通路點(diǎn),則跳至步驟(1);若沒(méi)有,但環(huán)境中存在尚未探索的通路點(diǎn),則回溯到最近的尚未探索的拓?fù)涔?jié)點(diǎn)處。
1.2AlexNet實(shí)時(shí)分類(lèi)模型
采用ZhouB等人[10]發(fā)布的Places205卷積網(wǎng)絡(luò)建立分類(lèi)模型,該網(wǎng)絡(luò)沿用AlexNet結(jié)構(gòu)且特別訓(xùn)練用于場(chǎng)景分類(lèi)任務(wù)。Places205包含205個(gè)固定的已知場(chǎng)景類(lèi),通過(guò)大數(shù)據(jù)訓(xùn)練而得。其中,各語(yǔ)義類(lèi)訓(xùn)練不少于5 000幅圖像,采用人工方式區(qū)分標(biāo)記。由于數(shù)據(jù)的多樣性和差異性,確保了分類(lèi)器訓(xùn)練結(jié)果的通用性和穩(wěn)定性。因此,對(duì)于未知環(huán)境,無(wú)需再次訓(xùn)練和調(diào)整參數(shù),有助于移動(dòng)機(jī)器人實(shí)時(shí)創(chuàng)建語(yǔ)義地圖。
1.3 基于概率分布的語(yǔ)義建圖
1.3.1 融合先驗(yàn)知識(shí)的貝葉斯估計(jì)
本文將室內(nèi)語(yǔ)義場(chǎng)景分類(lèi)解釋為概率估計(jì)問(wèn)題,定義已知場(chǎng)景類(lèi)標(biāo)簽集合為
(5)
由于n服從正態(tài)分布,故相應(yīng)的似然函數(shù)可表示為
(6)
式中p(ωi|Xt)為第t幅圖像相對(duì)場(chǎng)景i類(lèi)的離散概率分布;ωi之間相互獨(dú)立。
相機(jī)獲取的前后兩幅圖像具有連續(xù)時(shí)間戳,該特性可利用貝葉斯估計(jì)方法。文獻(xiàn)[11]證明了當(dāng)上述估計(jì)問(wèn)題滿(mǎn)足一階馬爾科夫?qū)傩詴r(shí),將得到更為一致的場(chǎng)景類(lèi)判斷結(jié)果。假設(shè)具有一階馬爾科夫?qū)傩?將獲取以下貝葉斯估計(jì)公式
(7)
(8)
1.3.2 三維語(yǔ)義場(chǎng)景地圖
圖4為本文語(yǔ)義地圖結(jié)構(gòu),最下層為常規(guī)占用柵格,較高層次的柵格單元通過(guò)語(yǔ)義類(lèi)別進(jìn)行編碼,各層代表不同場(chǎng)景類(lèi)的概率。
實(shí)驗(yàn)中,基于單張地圖一個(gè)場(chǎng)景類(lèi)策略,將傳統(tǒng)柵格單元賦予語(yǔ)義信息,利用最大語(yǔ)義標(biāo)簽值進(jìn)行賦值。當(dāng)圖像流的實(shí)時(shí)分類(lèi)結(jié)果輸入系統(tǒng)后,對(duì)于相機(jī)視野內(nèi)的當(dāng)前激光線(xiàn)所覆蓋的每個(gè)柵格,利用遞歸的貝葉斯估計(jì)方法更新。
圖4 語(yǔ)義地圖結(jié)構(gòu)示意
(9)
為驗(yàn)證場(chǎng)景分類(lèi)策略的可行性,將其用于貝貝機(jī)器人本體,并在光電子中心進(jìn)行室內(nèi)語(yǔ)義建圖實(shí)驗(yàn)。機(jī)器人貝貝(圖5(a))基于機(jī)器人操作系統(tǒng)(robotoperatingsystem,ROS)開(kāi)發(fā),采用IntelRealSense深度相機(jī)獲取RGBD數(shù)據(jù),并通過(guò)TX1進(jìn)行圖形處理器(graphicsprocessingunit,GPU)加速處理。實(shí)驗(yàn)時(shí),機(jī)器人在8種不同用途環(huán)境(圖5 (b))中進(jìn)行自主探索,同時(shí)記錄圖像流、轉(zhuǎn)換激光和里程計(jì)信息。
圖5 實(shí)驗(yàn)機(jī)器人及不同場(chǎng)景
2.1 自主建圖結(jié)果
為驗(yàn)證移動(dòng)機(jī)器人在未知領(lǐng)域自主探索的有效性,選取實(shí)驗(yàn)室(lab)場(chǎng)景進(jìn)行實(shí)驗(yàn):轉(zhuǎn)換深度數(shù)據(jù)頻率為20Hz,最大范圍4m,機(jī)器人本體最大半徑0.4m,線(xiàn)速度為0.4m/s,角速度0.9rad/s。自主建圖的起點(diǎn)為lab入口的點(diǎn)A(1.22,-1.54)。
實(shí)驗(yàn)時(shí),機(jī)器人實(shí)時(shí)轉(zhuǎn)換激光數(shù)據(jù),遍歷全局并生成柵格地圖。自主探索實(shí)驗(yàn)結(jié)果如圖6所示,圓點(diǎn)為拓?fù)涔?jié)點(diǎn),連線(xiàn)為實(shí)際行走路徑,機(jī)器人最終回到點(diǎn)B(1.51,-1.42),完成遍歷。實(shí)驗(yàn)結(jié)果表明:在該環(huán)境中,采用的自主規(guī)劃路徑能夠有效探索區(qū)域,同時(shí)未發(fā)生明顯的死鎖現(xiàn)象,驗(yàn)證了該方法的可行性。
圖6 機(jī)器人自主探索路徑
2.2 語(yǔ)義地圖結(jié)果
已知實(shí)驗(yàn)可能出現(xiàn)的室內(nèi)語(yǔ)義標(biāo)簽類(lèi),故定義已知場(chǎng)景類(lèi)標(biāo)簽集合為
實(shí)驗(yàn)時(shí),在8種環(huán)境中生成柵格地圖。同時(shí),對(duì)獲取的實(shí)時(shí)RGB圖像,歸一化為227像素×227像素×3像素大小,并利用GPU加速計(jì)算的TX1平臺(tái),通過(guò)內(nèi)嵌Caffe工具配置的Places205卷積網(wǎng)絡(luò)識(shí)別場(chǎng)景標(biāo)簽號(hào),遞歸使用貝葉斯估計(jì)方法,并用不同顏色的最大語(yǔ)義標(biāo)簽值更新柵格顏色。最終的語(yǔ)義地圖如圖7所示。
圖7中,各場(chǎng)景均由標(biāo)簽進(jìn)行描述,但地圖基本均混合了其他場(chǎng)景。例如,洗手間環(huán)境主要是粉色的洗手間標(biāo)簽,但同時(shí)也包括了綠色的大廳標(biāo)簽和淺綠色的走廊標(biāo)簽。在大廳的語(yǔ)義地圖中,則具有綠色的大廳和淺綠色的走廊兩種標(biāo)簽,這是因?yàn)樵撎幍拈T(mén)禁系統(tǒng)有大面積玻璃門(mén),導(dǎo)致相機(jī)透視探測(cè)。另外,橙色會(huì)議室場(chǎng)景和紅色辦公室場(chǎng)景均存在一部分粉色標(biāo)簽,原因在于這些環(huán)境中均存在洗手池,卷積網(wǎng)絡(luò)在識(shí)別物體時(shí)將其判定為洗手間標(biāo)簽。
2.3 貝葉斯框架對(duì)語(yǔ)義建圖的影響
為驗(yàn)證貝葉斯框架的作用,在洗手間語(yǔ)義地圖時(shí),基于ROS中的rosbag記錄數(shù)據(jù),其中圖像流共有1 500幅圖像。在同一條件下,對(duì)該數(shù)據(jù)集分別利用貝葉斯估計(jì)和最大似然估計(jì)進(jìn)行語(yǔ)義建圖,對(duì)比效果如圖8所示。
圖8 不同方法對(duì)室內(nèi)數(shù)據(jù)集的效果對(duì)比
分析可得,貝葉斯估計(jì)結(jié)果濾除了虛假的誤判斷(黃色標(biāo)簽),而沒(méi)有融合先驗(yàn)知識(shí)的最大似然估計(jì)出現(xiàn)較為明顯的波動(dòng)數(shù)據(jù)(更多不屬于該環(huán)境的顏色標(biāo)簽)。因此,融合先驗(yàn)知識(shí)的貝葉斯估計(jì)作用積極且更加穩(wěn)定。
2.4 語(yǔ)義地圖對(duì)路徑規(guī)劃的影響
為測(cè)試語(yǔ)義地圖能否改善移動(dòng)機(jī)器人在環(huán)境中的行為,本文基于A-star(A*)算法進(jìn)行路徑規(guī)劃,根據(jù)地圖中的語(yǔ)義信息,將場(chǎng)景賦予不同的權(quán)重值,測(cè)試機(jī)器人行為。
實(shí)驗(yàn)時(shí),分別在工作時(shí)間和午餐時(shí)間,由相同起點(diǎn),模擬機(jī)器人取水任務(wù),測(cè)試實(shí)際規(guī)劃路徑。在光電子中心走廊設(shè)置同一起點(diǎn)A,但走廊兩端(B和C)的洗手間均有熱水點(diǎn),AC距離大于AB。測(cè)試結(jié)果及路徑如圖9所示。
結(jié)果表明,工作時(shí)間機(jī)器人選擇了短路徑AB執(zhí)行任務(wù),而午餐時(shí)間則選擇了繞路的長(zhǎng)路徑AC。原因在于,午餐時(shí)間將有部分人員去餐廳熱飯,以及大量人員穿過(guò)大廳去食堂,造成路徑擁擠,故此時(shí)經(jīng)過(guò)AB段走廊的權(quán)重值較大,機(jī)器人重新規(guī)劃路徑,選擇了長(zhǎng)路徑。因此,該語(yǔ)義地圖可以運(yùn)用于機(jī)器人任務(wù)并改善行為。
圖9 語(yǔ)義地圖上的路徑規(guī)劃
針對(duì)室內(nèi)機(jī)器人的場(chǎng)景識(shí)別問(wèn)題,提出了一種語(yǔ)義建圖方法,結(jié)合自主空間探索和深度學(xué)習(xí)策略,并輔以貝葉斯概率模型和GPU加速。語(yǔ)義建圖結(jié)果表明:機(jī)器人能夠進(jìn)行全局自主探索,實(shí)時(shí)判斷場(chǎng)景類(lèi)別和創(chuàng)建語(yǔ)義地圖,并及時(shí)通過(guò)貝葉斯估計(jì)更新誤分類(lèi)。通過(guò)機(jī)器人路徑規(guī)劃實(shí)驗(yàn),表明語(yǔ)義地圖能夠指導(dǎo)機(jī)器人完成導(dǎo)航任務(wù)。
[1]GalindoC,Fernandez-MadrigalJA,GonzalezJ,etal.Robottaskplanningusingsemanticmaps[J].RoboticsandAutonomousSystems,2008,56(11): 955-966.
[2]PronobisA,MozosOM,CaputoB,etal.Multi-modalsemanticplaceclassification[J].TheInternationalJournalofRoboticsResearch,2009,29(23):298-320.
[3]XiaoJ,EhingerKA,HaysJ,etal.Sundatabase:Exploringalargecollectionofscenecategories[J].InternationalJournalofComputerVision,2016,119(1):3-22.
[4]HemachandraS,WalterMR,TellexS,etal.Learningspatial-semanticrepresentationsfromnaturallanguagedescriptionsandsceneclassifications[C]∥IEEEInternationalConferenceonRoboticsandAutomation,2014:2623-2630.
[5] Wu J,Christensen H I,Rehg J M.Visual place categorization:Problem,dataset,and algorithm[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems,2009:4763-4770.
[6] Ranganathan A.PLISS: Detecting and labeling places using online change-point detection[C]∥Robotics: Science and Systems,2010:185-191.
[7] Meger D,Forssén P E,Lai K,et al.Curious george: An attentive semantic robot[J].Robotics and Autonomous Systems,2008,56(6):503-511.
[8] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.
[9] Razavian A S,Azizpour H,Sullivan J,et al.CNN features off-the-shelf: An astounding baseline for recognition[C]∥IEEE Confe-rence on Computer Vision and Pattern Recognition,2014:512-519.
[10] Zhou B,Lapedriza A,Xiao J,et al.Learning deep features for scene recognition using places database[C]∥International Conf on Neural Information Processing Systems,2014:487-495.
[11] Hornung A,Wurm K M,et al.octoMap:An efficient probabilistic 3D mapping framework based on octrees[J].Autonomous Robots,2013,34(3):189-206.
Real-time scene category of indoor robot based on semantic mapping*
ZHANG Wen1,2, LIU Yong1, ZHANG Chao-fan1,2, ZHANG Long1, XIA Ying-wei1
(1.Institute of Applied Technology,Hefei Institutes of Physical Science,Chinese Academy of Sciences,Hefei 230031,China;2.College of Science Island,University of Science and Technology of China,Hefei 230026,China)
Aiming at problems of robot scene recognition in indoor environment,a senmantic mapping algorithm is proposed,autonomy,realtime and accuracy of scene classification strategy are focused on.Two-dimensional grid map is constructed by mapping depth information and autonomously plan recognition path of scene.Convolutional network is applied to set up scene categorization model,recognize semantic classes without specific training in real-time.By Bayesian framework fusing prior knowledge,modify error classification and accomplish semantic mapping.Experimental results show that robot can carry out global autonomous exploration and realtime judge scene category,and set up semantic mapping which meets need.At the same time,in real path planning,robot can improve navigation behavior according to semantic information,feasibility of the method is verified.
independent mapping; convolutional network; Bayesian framework; semantic map
10.13873/J.1000—9787(2017)08—0018—04
2017—06—12
國(guó)家科技支撐計(jì)劃資助項(xiàng)目(2015BAI01B00);安徽省科技重大專(zhuān)項(xiàng)計(jì)劃資助項(xiàng)目(15CZZ02019);中國(guó)科學(xué)院STS項(xiàng)目(KFJ—SW—STS—161)
TP 242.6
A
1000—9787(2017)08—0018—04
張 文(1987-),男,博士研究生,研究方向?yàn)闄C(jī)器人視覺(jué)、SLAM、路徑規(guī)劃。
夏營(yíng)威(1985-),男,通訊作者,博士,副研究員,主要從事機(jī)器視覺(jué)、機(jī)器人、智能裝備等方面的研究工作,E—mail:xiayw@aiofm.ac.cn