李凌樂(lè) 李瑞華
(許昌學(xué)院工程技術(shù)中心,河南 許昌 461000)
基于視覺(jué)的非剛性物體跟蹤技術(shù)在計(jì)算機(jī)視覺(jué)、計(jì)算機(jī)圖形學(xué)和機(jī)器人社區(qū)中逐漸成為研究的熱點(diǎn)方向[1]。在諸如增強(qiáng)現(xiàn)實(shí)、醫(yī)學(xué)成像、機(jī)器人操縱等領(lǐng)域,可通過(guò)這項(xiàng)技術(shù)處理各種各樣的物體,如紙張、橡膠、黏性流體、電纜、食物等,具有潛在的廣泛應(yīng)用場(chǎng)景[2]。近年來(lái),機(jī)器人學(xué)術(shù)界及工程界越來(lái)越多地關(guān)注涉及食品操作任務(wù)的機(jī)器人,這有助于提高食品制作的效率、品控,同時(shí)可保障食品的衛(wèi)生[3]。圖1為披薩廚師機(jī)器人的操作場(chǎng)景示意圖,通過(guò)對(duì)人形雙臂的操作,完成披薩的制作,需要機(jī)器人支持可形變物體的復(fù)雜動(dòng)態(tài)操縱任務(wù)。
圖1 機(jī)器人制作披薩
人形披薩廚師機(jī)器人控制中的核心問(wèn)題即機(jī)器人的感知,通過(guò)傳感器來(lái)指引機(jī)器人可形變物體的跟蹤,力求良好的準(zhǔn)確性、穩(wěn)定性以及實(shí)時(shí)性。處理感知系統(tǒng)中的形變問(wèn)題需考率諸多影響因素,如對(duì)所選材料特性進(jìn)行建模,以及使該模型適配視覺(jué)和距離數(shù)據(jù)[4]。此外,還需考慮實(shí)時(shí)問(wèn)題,這是機(jī)器人動(dòng)態(tài)操作的硬性要求[5]。中國(guó)對(duì)于可形變物體跟蹤識(shí)別技術(shù)的研究尚處于起步階段,盡管許多研究提出了用有效的實(shí)時(shí)技術(shù)來(lái)處理經(jīng)歷等距或微小彈性形變的3D表面(如紙張、衣服等),但未能解決更大的彈性形變問(wèn)題。對(duì)于無(wú)紋理的彈性物體的建模通常需要依賴于有限元方法(Finite Element Method, FEM),但典型的有限元方法對(duì)于待識(shí)別物體發(fā)生較大形變以及快速形變后的識(shí)別效果仍不夠理想。因此,試驗(yàn)擬提出一種實(shí)時(shí)跟蹤方法,使用由RGB-D傳感器提供的視覺(jué)和距離數(shù)據(jù),通過(guò)跟蹤大幅度形變和快速剛性運(yùn)動(dòng)來(lái)處理無(wú)紋理的彈性物體,在應(yīng)用有限元方法的基礎(chǔ)上對(duì)模型進(jìn)行改進(jìn),建立一種帶有輪廓加權(quán)的同向旋轉(zhuǎn)FEM模型,實(shí)現(xiàn)可形變物體的跟蹤識(shí)別,對(duì)提出跟蹤合成數(shù)據(jù)和實(shí)際的披薩面坯實(shí)際圖像應(yīng)用模擬開(kāi)放框架架構(gòu)(SOFA)模擬器,驗(yàn)證文中所述算法的有效性。
逐幀跟蹤系統(tǒng)架構(gòu)如圖2所示。為達(dá)到可形變對(duì)象跟蹤的目的,對(duì)所考慮對(duì)象的視覺(jué)分割,使用基于圖像分割的方法以確保時(shí)間一致性。使用生成的分段點(diǎn)云,執(zhí)行剛性迭代最近點(diǎn)(ICP)以估計(jì)從點(diǎn)云到網(wǎng)格的剛性變換。使用上一步得到的分段點(diǎn)云,計(jì)算從點(diǎn)云到網(wǎng)格,施加在網(wǎng)格頂點(diǎn)上的外部線性彈性力,在相反方向則參考最接近點(diǎn)的對(duì)應(yīng)關(guān)系。應(yīng)用意義在于提高了數(shù)值分辨率,自動(dòng)發(fā)現(xiàn)目標(biāo)。捕捉到清晰的目標(biāo)特征,以利于實(shí)時(shí)的判斷和事后對(duì)照取證。
Grabcut算法是一種由微軟公司提出的圖像分割手段,通過(guò)在圖像中圈定一個(gè)方框,框外部分均為背景,而框內(nèi)部分則可能是前景或背景[6]。該算法被廣泛應(yīng)用于圖像分割中,具有高效的特征。Grabcut算法基于前景(對(duì)象)和背景的統(tǒng)計(jì)模型將視覺(jué)雙層分割任務(wù)轉(zhuǎn)化為能量最小化問(wèn)題[7]。
圖2 可形變對(duì)象跟蹤方法
(1)
E(α)=Edata(α)+γEsmooth(α),
(2)
(3)
式中:
Edata——數(shù)據(jù)能量項(xiàng),定義像素pi屬于前景或背景的觀察概率為p(pi|αi),Ui(αi)=-log[p(pi|αi)]為像素上觀察到的圖像數(shù)據(jù),如密度、顏色、位置等;
Esmooth——平滑能量項(xiàng),其目標(biāo)是支持像素內(nèi)的平滑度或空間相干性。
一旦通過(guò)用戶交互來(lái)分割初始圖像,則類似地處理以下幀,該操作并不是分割整個(gè)幀,而是圍繞分割區(qū)域的輪廓周線逐幀更新有效分割區(qū)域,據(jù)此提供分割過(guò)程中時(shí)間的一致性。如圖3所示,提取先前分割的前景輪廓周線,并在其上計(jì)算距離變換,從而向這些輪廓提供帶符號(hào)的距離圖d(負(fù)的外部,正的內(nèi)部)。
圖3 分割的時(shí)間一致性
根據(jù)距離圖上的固定閾值dt,在輪廓周圍定義一條窄條(|di|
試驗(yàn)主要處理的是可能發(fā)生大幅度彈性形變的物體,因此主要問(wèn)題在于相關(guān)物理模型的定義。相較于質(zhì)量彈簧系統(tǒng)的有限差分,F(xiàn)EM方法提供了一種真實(shí)的物理模型,依靠連續(xù)介質(zhì)力學(xué)能更好地表達(dá)相關(guān)的特性[9]??紤]建模精度問(wèn)題,采用具有四面體單元的體積線性FEM方法,其性能優(yōu)于其他拓?fù)浣Y(jié)構(gòu),同時(shí)兼顧了計(jì)算效率,并且便于使用拓?fù)浣Y(jié)構(gòu)進(jìn)行網(wǎng)格劃分。
(4)
(5)
其中Le為一個(gè)6×12常矩陣。
為將應(yīng)力與應(yīng)變聯(lián)系起來(lái),通過(guò)胡克定律的線性彈性理論可知,對(duì)于連續(xù)的各向同性材料,無(wú)窮小的應(yīng)力張量σe可表示為:
σe=Ceεe,
(6)
其中Ce為6階對(duì)稱矩陣,取決于材料的兩個(gè)彈性參數(shù)——楊氏模量E和泊松比υ。
通過(guò)式(5)、(6)可得:
(7)
(8)
(9)
形變配準(zhǔn)問(wèn)題在于將RGB-D傳感器提供的點(diǎn)云數(shù)據(jù)與已知的四面體網(wǎng)格適配,基本思想是導(dǎo)出點(diǎn)云對(duì)網(wǎng)格施加的外力,并將外力與物理模型計(jì)算的內(nèi)力整合至求解所得機(jī)械方程的數(shù)值求解中。這些外力是基于點(diǎn)云和網(wǎng)格之間的點(diǎn)對(duì)點(diǎn)對(duì)應(yīng)計(jì)算的,放寬了具有紋理對(duì)象或具有粗糙表面對(duì)象的限制,可以提取和匹配其中2D或3D關(guān)鍵點(diǎn)??梢钥紤]通過(guò)離線自動(dòng)重建和網(wǎng)格化技術(shù)構(gòu)建網(wǎng)格,通過(guò)對(duì)自旋圖像或局部3D特征的一些學(xué)習(xí)和識(shí)別解決初始化問(wèn)題。此外,假設(shè)所選材料楊氏模量和泊松比為已知的。
使用獲取的RGB圖像序列從其背景和遮擋中分割所需對(duì)象,由于不依賴于一些獨(dú)特的視覺(jué)特征,為避免模糊,深度傳感器提供的點(diǎn)云僅限于所考慮對(duì)象,在與背景匹配過(guò)程中或具有遮擋形狀,并能處理從輸入點(diǎn)云到網(wǎng)格的對(duì)應(yīng)關(guān)系。
以非剛性方式向網(wǎng)格注冊(cè)分段點(diǎn)云,采用類似ICP程序,假設(shè)通過(guò)3.2中估計(jì)的剛性變換更新集合X、XV。
由于依賴于唯一的幾何接近度可能導(dǎo)致使用單點(diǎn)對(duì)點(diǎn)匹配的不一致,因此采用兩組對(duì)應(yīng)關(guān)系。如圖4所示,從分段點(diǎn)云到網(wǎng)格,對(duì)應(yīng)性使得能夠跟蹤,如在拉伸力下的膨脹形變,對(duì)于該拉伸力,觀察到分段點(diǎn)云Y將在網(wǎng)格XV可見(jiàn)表面上擴(kuò)展,Y相對(duì)于XV擴(kuò)展區(qū)域可與XV外部區(qū)域匹配(右側(cè)紅色箭頭)。這些對(duì)應(yīng)關(guān)系還能處理遮擋和分割錯(cuò)誤,對(duì)象的相應(yīng)未觀察區(qū)域不會(huì)影響XV底層區(qū)域。相反,從XV到Y(jié),對(duì)應(yīng)物更適合跟蹤壓縮動(dòng)作下的收縮形變,XV外部區(qū)域與被壓縮物體的觀察點(diǎn)云Y外部區(qū)域相互匹配(左側(cè)綠色箭頭)。未觀察到區(qū)域?qū)⒂绊懪cXV的最近區(qū)域匹配的下面區(qū)域XV。
圖4 網(wǎng)格和點(diǎn)云間的對(duì)應(yīng)關(guān)系
3.3.2 計(jì)算外力 基于由NXV、NY給出的兩組網(wǎng)格和點(diǎn)云的對(duì)應(yīng)關(guān)系,在XV中對(duì)每個(gè)xi施加的外部彈力fext可按式(10)計(jì)算。
(10)
(11)
kext=1 N/m,λ=0.7
3.3.3 使用輪廓的加權(quán)力 基于3D幾何形狀建立對(duì)應(yīng)關(guān)系,位于網(wǎng)格遮擋輪廓上的頂點(diǎn)被吸引到點(diǎn)云中的擴(kuò)展區(qū)域。通過(guò)加權(quán)網(wǎng)格可見(jiàn)表面頂點(diǎn)來(lái)增強(qiáng)吸引力,給定其與投影網(wǎng)格的遮擋輪廓距離?;谕队熬W(wǎng)格的深度圖dM計(jì)算網(wǎng)格遮擋輪廓距離圖,進(jìn)而計(jì)算頂點(diǎn)xi權(quán)重wi。
(12)
式中:
σ——根據(jù)經(jīng)驗(yàn)設(shè)定的參數(shù)。
對(duì)wi歸一化,以便得到觀察概率,按式(13)計(jì)算力。
(13)
3.3.4 用于計(jì)算形變的數(shù)值解算器 估計(jì)網(wǎng)格形變包括求解基于拉格朗日動(dòng)力學(xué)方程,涉及內(nèi)部和外部力的常微分方程:
(14)
f=K′x+f0,
(15)
式中:
x——包含X、M中頂點(diǎn)位置的nX階向量;
C——nX×nX質(zhì)量和阻尼矩陣;
K′——nX×nX全局剛度矩陣。
使用得到的網(wǎng)格頂點(diǎn)的估計(jì)位置x可以更新X。
為了評(píng)估所提出的方法,測(cè)試各種物體形變和條件。對(duì)于非剛性注冊(cè)階段,采用模擬開(kāi)放框架架構(gòu)(SOFA)模擬器,該模擬器能處理各種物理模型并實(shí)時(shí)演化模擬。
依靠SOFA框架,首先生成一個(gè)涉及圓柱形彈性物體形變序列,由FEM同向旋轉(zhuǎn)方法建模,具有E=800 Pa的楊氏模量和ν=0.3的泊松比。基于手工設(shè)計(jì)的半徑×高度為0.11 m×0.02 m的圓柱面三角網(wǎng),使用3D Delaunay三角剖分,通過(guò)CGAL庫(kù)生成體積四面體網(wǎng)格,得到網(wǎng)格由1 369個(gè)元素和497個(gè)頂點(diǎn)組成,如圖6所示。
圖6 處理后的網(wǎng)格
模擬形變并生成序列,在Z方向上施加彈性拉伸力如圖7所示。對(duì)4種建模方法的效果進(jìn)行對(duì)比,分別獲取第15,50,55,150幀的形變識(shí)別情況,表明試驗(yàn)所提出的方法效果最好。
圖7 形變跟蹤結(jié)果
為了對(duì)真實(shí)數(shù)據(jù)進(jìn)行試驗(yàn),從校準(zhǔn)的RGB-D相機(jī)華碩Xtion,320×240 RGB和正在處理的深度圖像中獲取被調(diào)查場(chǎng)景的點(diǎn)云,使用帶有NVIDIA GTX 1060顯卡的標(biāo)準(zhǔn)筆記本電腦以及2.4 GHz Intel Core i7 CPU。分段過(guò)程涉及循環(huán),由于需要快速的實(shí)時(shí)性能,主要依賴于CUDA實(shí)現(xiàn)。試驗(yàn)對(duì)象涉及用硅制無(wú)紋理光滑彈性物體,網(wǎng)格尺寸0.12 m×0.01 m,包括574個(gè)頂點(diǎn)和1 675個(gè)元素。
在第一個(gè)特征序列中,物體經(jīng)大幅度剛性運(yùn)動(dòng)、各種等長(zhǎng)和彈性形變,設(shè)定kext=1 N/m,E=300 Pa,ν=0.3,跟蹤識(shí)別結(jié)果如圖8所示,使用帶有輪廓加權(quán)的同向旋轉(zhuǎn)FEM方法與其他模型方法進(jìn)行比較。
由表1可知,試驗(yàn)所提出的帶有輪廓加權(quán)的同向旋轉(zhuǎn)FEM模型在時(shí)間開(kāi)銷上并沒(méi)有劣化,不會(huì)影響控制系統(tǒng)的實(shí)時(shí)性。
試驗(yàn)通過(guò)RGB-D傳感器,采用視覺(jué)分割和有限元分析方法建立了彈性形變物體的模型,并實(shí)現(xiàn)了點(diǎn)云數(shù)據(jù)的注冊(cè)。試驗(yàn)提出的帶有輪廓加權(quán)的同向旋轉(zhuǎn)FEM模型可較好地實(shí)現(xiàn)對(duì)無(wú)紋理形變物體的跟蹤,在保障識(shí)別第1行顯示輸入RGB圖像;第2行顯示用質(zhì)量彈簧模型跟蹤對(duì)象的3D網(wǎng)格;第3行用標(biāo)準(zhǔn)FEM模型跟蹤;第4行用提出的方法效果的前提下,并未由于模型復(fù)雜度的提升而影響運(yùn)算的時(shí)間開(kāi)銷。試驗(yàn)缺少對(duì)更大的彈性形變的多種目標(biāo)進(jìn)行研究分析來(lái)驗(yàn)證算法的有效性,后續(xù)可增加試驗(yàn)的多目標(biāo)驗(yàn)證來(lái)完善算法的正確性。
圖8 披薩面團(tuán)的跟蹤效果
Figure 8 Pizza dough tracking effect
表1 4種模型算法各個(gè)階段的計(jì)算時(shí)間