朱興帥,葉彬,姚康,丁上上,徐道亮,付威威
(1.中國(guó)科學(xué)技術(shù)大學(xué) 生物醫(yī)學(xué)工程學(xué)院(蘇州),江蘇 蘇州 215000;2.中國(guó)科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所,江蘇 蘇州 215000)
目前,低成本消費(fèi)級(jí)虛擬現(xiàn)實(shí)(Virtual Reality,VR)產(chǎn)品將VR 技術(shù)迅速推向市場(chǎng),并且在醫(yī)療、制造、軍事等各行業(yè)獲得深度開發(fā)與應(yīng)用[1],但現(xiàn)有的手套和手柄5 mm 左右的定位精度無法滿足人們?cè)赩R 中對(duì)微小動(dòng)作和精細(xì)化交互的要求。在進(jìn)行諸如書寫、繪畫、注釋等交互任務(wù)時(shí),轉(zhuǎn)動(dòng)手腕利用交互筆就能夠提供更細(xì)致的輸入,并不需要操作手柄那樣大幅擺動(dòng)手臂。在二維平面內(nèi),Wacom 等品牌的觸控筆已經(jīng)能夠?qū)崿F(xiàn)亞毫米級(jí)的定位,但由于缺乏廣泛平面的靈活性且不支持空中技術(shù),從而將其操作范圍限定在了紙面框定的二維平面內(nèi)。利用交互筆實(shí)現(xiàn)三維空間的精細(xì)交互,可以提供更高維度的操作空間,幫助外化思維[2],因此具有良好的應(yīng)用場(chǎng)景。但目前技術(shù)實(shí)現(xiàn)上依然存在著難度,其中能否精確定位筆的3D 空間位置信息是通過交互筆進(jìn)行虛擬精細(xì)化交互的重要基礎(chǔ)。當(dāng)前,較為成熟的SteamVR 定位方案采用基站與定位器配合追蹤,不僅造價(jià)昂貴,而且隨著使用時(shí)間加長(zhǎng),結(jié)構(gòu)易磨損,導(dǎo)致定位精度下降。傳統(tǒng)的光學(xué)定位方案容易受遮擋情況和環(huán)境亮度的影響,通常需要多相機(jī)支持。近年來,深度學(xué)習(xí)迅速發(fā)展,并在目標(biāo)檢測(cè)[3-4]、語義分割[5-6]等領(lǐng)域取得了豐碩的成果。利用深度學(xué)習(xí)識(shí)別定位筆的3D 關(guān)鍵點(diǎn)相比上述定位方式具有上限高、成本低、適用性強(qiáng)等優(yōu)點(diǎn)。
利用深度學(xué)習(xí)進(jìn)行三維關(guān)鍵點(diǎn)估計(jì)主要有2 種方式:基于端到端的三維關(guān)鍵點(diǎn)估計(jì)和基于兩階段的三維關(guān)鍵點(diǎn)估計(jì)。人體關(guān)鍵點(diǎn)檢測(cè)、手部關(guān)鍵點(diǎn)檢測(cè)與筆關(guān)鍵點(diǎn)檢測(cè)本質(zhì)上是相通的,即解算各關(guān)鍵點(diǎn)因目標(biāo)的外部自由度或內(nèi)部自由度而多變的狀態(tài)空間,三者之間可以相互遷移應(yīng)用[7]。由于與筆關(guān)鍵點(diǎn)檢測(cè)相關(guān)的工作較少,因此本文著重介紹人體、手部關(guān)鍵點(diǎn)檢測(cè)以及手部-物體聯(lián)合關(guān)鍵點(diǎn)檢測(cè)的研究進(jìn)展。
在基于端到端的三維關(guān)鍵點(diǎn)估計(jì)方法中,網(wǎng)絡(luò)通過原始圖像直接回歸出三維姿態(tài)。在相關(guān)研究中:WANG等[8]將人體三維關(guān)鍵點(diǎn)表示為2.5D 中心點(diǎn)和關(guān)鍵點(diǎn)偏移,較好地預(yù)測(cè)了深度信息;PAVLAKOS等[9]沿用二維關(guān)鍵點(diǎn)估計(jì)的熱圖思想,使用三維的體積熱圖來表示人體關(guān)鍵點(diǎn),利用端到端的全卷積網(wǎng)絡(luò)回歸三維關(guān)鍵點(diǎn);SUN等[10]在三維熱圖回歸人體三維坐標(biāo)點(diǎn)時(shí),利用積分回歸方法代替原來的取最大值操作,避免了一定的量化誤差;ZHAN等[11]通過規(guī)范化坐標(biāo)系空間的三維光線估計(jì)人體三維姿態(tài),減輕了相機(jī)固有參數(shù)變化帶來的影響;CHEN等[12]通過基于多任務(wù)學(xué)習(xí)的方式同時(shí)估計(jì)手的三維姿態(tài)與形狀;LIU等[13]使用Transformer和聯(lián)合學(xué)習(xí)框架從RGB 圖片中聯(lián)合預(yù)測(cè)手部-物體姿態(tài)。基于端到端的方法雖然可以直接從二維圖像中得出三維坐標(biāo),但模型泛化性不強(qiáng),在實(shí)際應(yīng)用中預(yù)測(cè)效果不穩(wěn)定。
在基于兩階段的三維關(guān)鍵點(diǎn)估計(jì)方法中,網(wǎng)絡(luò)先通過二維關(guān)鍵點(diǎn)估計(jì)方法從原始圖像中估計(jì)出二維關(guān)鍵點(diǎn)或二維熱圖,再由這些二維姿態(tài)特征進(jìn)一步回歸三維關(guān)鍵點(diǎn)。在相關(guān)研究中:MARTINEZ等[14]將使用二維關(guān)鍵點(diǎn)坐標(biāo)標(biāo)注的數(shù)據(jù)集作為網(wǎng)絡(luò)輸入,通過全連接網(wǎng)絡(luò)直接回歸人體三維關(guān)鍵點(diǎn)坐標(biāo);LI等[15]利用三維姿態(tài)的二維重投影選擇最佳的人體三維關(guān)鍵點(diǎn);CHEN等[16]先預(yù)測(cè)人體的二維關(guān)鍵點(diǎn)坐標(biāo),再通過最近鄰匹配方法找到最優(yōu)的三維表示;ZIMMERMANN等[17]使用基于檢測(cè)的網(wǎng)絡(luò)生成2D 熱圖并預(yù)測(cè)二維手部關(guān)鍵點(diǎn)坐標(biāo),然后通過基于回歸的網(wǎng)絡(luò)回歸出三維關(guān)鍵點(diǎn);MUELLER等[18]使用殘差網(wǎng)絡(luò)預(yù)測(cè)手部二維關(guān)鍵點(diǎn)和三維關(guān)鍵點(diǎn),并通過3D 到2D 的重投影技術(shù)進(jìn)行優(yōu)化;ZHOU等[19]利用熱圖表示和積分訓(xùn)練預(yù)測(cè)三維關(guān)鍵點(diǎn);DOOSTI等[20]使用輕量級(jí)網(wǎng)絡(luò)估計(jì)手部和物體頂點(diǎn)的二維坐標(biāo),再通過圖卷積網(wǎng)絡(luò)將二維坐標(biāo)轉(zhuǎn)化為三維。兩階段方法是建立在二維關(guān)鍵點(diǎn)估計(jì)的基礎(chǔ)上對(duì)三維關(guān)鍵點(diǎn)進(jìn)行回歸的,當(dāng)前二維關(guān)鍵點(diǎn)估計(jì)研究發(fā)展成熟,能夠提供蘊(yùn)含三維信息的精確二維姿態(tài)特征,更利于三維關(guān)鍵點(diǎn)的高精度估計(jì)。
本文提出基于單目RGB 圖片的兩階段交互筆關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)PKPD-Net,用于識(shí)別定位筆上的3D 關(guān)鍵點(diǎn)。在筆的二維關(guān)鍵點(diǎn)估計(jì)階段,通過使用CBAM 模塊改進(jìn)融合方式,基于Offset 偏移量定位關(guān)鍵點(diǎn)亞像素,并利用輔助手部關(guān)鍵點(diǎn)預(yù)測(cè)方式約束筆的位置,從而優(yōu)化網(wǎng)絡(luò)提取的語義信息,減少精度丟失,提升二維關(guān)鍵點(diǎn)估計(jì)的準(zhǔn)確度。二維關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)CBAM-SHN 編碼生成關(guān)鍵點(diǎn)熱圖,其本質(zhì)為每個(gè)像素點(diǎn)作為預(yù)測(cè)關(guān)鍵點(diǎn)的概率圖。將經(jīng)Offset 偏移后的熱圖與上階段提取的特征圖級(jí)聯(lián)作為三維關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)的輸入,突出關(guān)鍵點(diǎn)準(zhǔn)確位置信息并排除冗余信息的干擾,經(jīng)網(wǎng)絡(luò)特征提取后,回歸出更精確的筆關(guān)鍵點(diǎn)三維空間坐標(biāo)。
PKPD-Net 第一階段以堆疊沙漏網(wǎng)絡(luò)(Stacked Hourglass Network,SHN)為骨架網(wǎng)絡(luò),通過CBAM注意力機(jī)制改進(jìn)沙漏模塊融合方式,解決網(wǎng)絡(luò)在編碼-解碼過程中丟失網(wǎng)絡(luò)淺層定位信息的問題。采用基于Offset 偏移量的關(guān)鍵點(diǎn)亞像素定位方式,在一定程度上解決二維關(guān)鍵點(diǎn)編碼-解碼時(shí)隨著圖片尺寸縮放產(chǎn)生的精度丟失問題。同時(shí),采用輔助手部關(guān)鍵點(diǎn)預(yù)測(cè)的方式約束筆的空間位置,提取更準(zhǔn)確的筆二維關(guān)鍵點(diǎn)信息。輸入圖片經(jīng)CBAM-SHN網(wǎng)絡(luò)產(chǎn)生編碼關(guān)鍵點(diǎn)熱圖(Heat Maps)和偏移圖(Offset Maps),熱圖中每個(gè)像素點(diǎn)的值代表該點(diǎn)屬于對(duì)應(yīng)類別關(guān)鍵點(diǎn)的概率,每個(gè)類別關(guān)鍵點(diǎn)對(duì)應(yīng)一個(gè)熱圖,將熱圖中響應(yīng)值最大的像素點(diǎn)作為對(duì)應(yīng)類別關(guān)鍵點(diǎn)的位置。偏移圖表示距離對(duì)應(yīng)類別關(guān)鍵點(diǎn)一定范圍內(nèi)的像素點(diǎn)與對(duì)應(yīng)類別關(guān)鍵點(diǎn)之間的位置關(guān)系。
PKPD-Net 第二階段將上階段提取到的特征圖與經(jīng)Offset 偏移后的熱圖級(jí)聯(lián),減少冗余信息干擾,同時(shí)提供更準(zhǔn)確的關(guān)鍵點(diǎn)姿態(tài)信息,經(jīng)多層卷積層在二維姿態(tài)特征中挖掘出有用的三維信息生成定位圖(Location Maps)。定位圖中的每個(gè)像素點(diǎn)都可以很好地反映出該點(diǎn)作為對(duì)應(yīng)類型關(guān)鍵點(diǎn)的位置關(guān)系。通過查詢CBAM-SHN 解碼出的二維關(guān)鍵點(diǎn)在定位圖對(duì)應(yīng)位置處的映射,即可得到最終的三維關(guān)鍵點(diǎn)信息。
PKPD-Net 整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版,下同)。
圖1 PKPD-Net 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 PKPD-Net network structure
在進(jìn)行關(guān)鍵點(diǎn)估計(jì)時(shí),首先需要將關(guān)鍵點(diǎn)坐標(biāo)編碼成關(guān)鍵點(diǎn)的概率圖,在回歸結(jié)果時(shí)將關(guān)鍵點(diǎn)的概率圖解碼成輸入圖像的空間坐標(biāo)。傳統(tǒng)的關(guān)鍵點(diǎn)解碼過程一般選取概率的最大激活點(diǎn)的坐標(biāo)作為預(yù)測(cè)關(guān)鍵點(diǎn)坐標(biāo),但在編碼過程中,下采樣操作會(huì)帶來一定的量化誤差,最終導(dǎo)致得到的關(guān)鍵點(diǎn)坐標(biāo)不夠準(zhǔn)確,影響網(wǎng)絡(luò)性能。由于關(guān)鍵點(diǎn)概率圖通常在概率的最大激活點(diǎn)附近存在多個(gè)峰值,因此應(yīng)從最大激活點(diǎn)到第二大激活點(diǎn)方向?qū)烙?jì)結(jié)果進(jìn)行經(jīng)驗(yàn)補(bǔ)償。上述2 種方式雖然在一定程度上減少了量化誤差,但在圖片尺寸縮放過程中依然存在較為嚴(yán)重的精度丟失現(xiàn)象。因此,本文采用基于Offset 偏移量的關(guān)鍵點(diǎn)亞像素定位方式,如圖2 所示。
圖2 基于Offset 偏移量的關(guān)鍵點(diǎn)亞像素定位Fig.2 Sub-pixel positioning of key point based on Offset
CBAM-SHN 網(wǎng)絡(luò)同時(shí)輸出預(yù)測(cè)關(guān)鍵點(diǎn)熱圖H={h1,h2,…,hK}和預(yù)測(cè)關(guān)鍵點(diǎn)位置偏移圖O={o1,o2,…,oK},兩者共同決定最終預(yù)測(cè)關(guān)鍵點(diǎn)坐標(biāo)。其中:oK=(oKx,oKy)為網(wǎng)絡(luò)學(xué)習(xí)到的編碼過程中產(chǎn)生的量化誤差;hK為關(guān)鍵點(diǎn)K對(duì)應(yīng)熱圖。取熱圖最大響應(yīng)處記為點(diǎn)p,則oKx(p)為關(guān)鍵點(diǎn)K在點(diǎn)p處的x方向位置偏移,oKy(p)為關(guān)鍵點(diǎn)K在點(diǎn)p處的y方向位置偏移。最終解碼關(guān)鍵點(diǎn)坐標(biāo)如式(1)所示:
其中:λ為分辨率縮放因子。當(dāng)手持物體交互操作時(shí),手的姿態(tài)可以極大地限制所持物體的姿態(tài),同時(shí)物體姿態(tài)也會(huì)限制手的姿態(tài),手和物體的語義存在一定關(guān)聯(lián)。因此,在手持交互筆進(jìn)行精細(xì)操作時(shí),手部姿態(tài)和筆的姿態(tài)會(huì)相互限制,兩者存在一定的位置關(guān)系。在網(wǎng)絡(luò)估計(jì)筆上關(guān)鍵點(diǎn)的同時(shí)引入手部關(guān)鍵點(diǎn)輔助,為網(wǎng)絡(luò)預(yù)測(cè)結(jié)果添加運(yùn)動(dòng)學(xué)約束,能夠更精準(zhǔn)地估計(jì)出筆上關(guān)鍵點(diǎn)的空間位置。
1.3.1 堆疊沙漏網(wǎng)絡(luò)
SHN是由NEWELL等[21]提出的用于姿態(tài)估計(jì)的神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)由多個(gè)堆疊起來的如圖3 所示的沙漏模塊組成,沙漏模塊由類似Inception[22]的殘差塊(Residual Block)[23]組成。SHN可以提取融合多尺度及上下文信息的特征,與其他姿態(tài)估計(jì)方法相比,可以更好地預(yù)測(cè)物體位置信息。
圖3 Hourglass Module 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Hourglass Module network structure
1.3.2 CBAM 注意力模塊
CBAM[24]是一種能夠?qū)μ卣鲌D像特定區(qū)域局部對(duì)焦的注意力模塊。對(duì)于任意一個(gè)給定特征圖,CBAM 利用通道注意力和空間注意力在通道和空間2 個(gè)獨(dú)立維度上對(duì)特征圖進(jìn)行權(quán)重分配,然后將權(quán)重乘以輸入特征映射,具體流程如圖4 所示,最終使網(wǎng)絡(luò)加強(qiáng)對(duì)感興趣區(qū)域的關(guān)注,并且抑制無用信息。
圖4 CBAM 網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 CBAM network structure
1.3.3 CBAM-SHN
SHN 模塊的主路進(jìn)行編碼,獲得尺寸逐漸縮小的特征圖,逐步提取圖像的高階特征。在模塊后半部分,逐步進(jìn)行上采樣,獲得高階高分辨率特征圖。此外,SHN 網(wǎng)絡(luò)的跳級(jí)路進(jìn)行特征圖通道數(shù)調(diào)整,再將跳級(jí)路的輸出和主路中對(duì)應(yīng)尺寸的特征圖進(jìn)行特征融合。但是在特征融合時(shí),很容易將與關(guān)鍵點(diǎn)預(yù)測(cè)無關(guān)的特征傳入,造成冗余或者丟失與關(guān)鍵點(diǎn)定位相關(guān)的信息,影響最終的關(guān)鍵點(diǎn)定位精度。為解決無效特征融合并且增加網(wǎng)絡(luò)對(duì)關(guān)鍵點(diǎn)定位信息的關(guān)注,本文引入CBAM 模塊改進(jìn)融合方式,提出CBAM-SHN 二維關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò),對(duì)不同特征進(jìn)行重要程度取舍,并學(xué)習(xí)特征的融合權(quán)重,提高關(guān)鍵點(diǎn)的定位精度。CBAM-SHN 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。
圖5 CBAM-SHN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 CBAM-SHN network structure
三維關(guān)鍵點(diǎn)估計(jì)任務(wù)的核心在于如何從缺失深度信息的二維圖像或者深度圖中估計(jì)深度信息。關(guān)鍵點(diǎn)的熱圖突出了關(guān)鍵點(diǎn)的位置信息,忽略了其他無關(guān)信息,關(guān)鍵點(diǎn)的特征圖提取了圖像特征,排除了冗余信息的干擾。因此,將第一階段CBAM-SHN 網(wǎng)絡(luò)提取到的二維關(guān)鍵點(diǎn)特征圖和經(jīng)過Offset 偏移后的熱圖級(jí)聯(lián)作為第二階段網(wǎng)絡(luò)的輸入更為合理。三維關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)提取二維姿態(tài)特征中有用的三維信息預(yù)測(cè)生成定位圖(Location Maps),其中每個(gè)像素值均編碼了相應(yīng)的關(guān)鍵點(diǎn)位置信息,定位圖尺寸與熱圖相同。依據(jù)二維關(guān)鍵點(diǎn)估計(jì)階段解碼出的關(guān)鍵點(diǎn)K像素坐標(biāo)(xK,yK),在定位圖中查找到K點(diǎn)對(duì)應(yīng)像素點(diǎn)位置處的值作為深度方向映射,并通過相機(jī)內(nèi)參計(jì)算得出最終的XK、YK,存為PK,3D=(XK,YK,ZK)。三維估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。
均方誤差(Mean Square Error,MSE)是預(yù)測(cè)值與目標(biāo)值之間的差值平方之和。MSE 函數(shù)常被用在回歸問題中評(píng)估模型的損失,在關(guān)鍵點(diǎn)估計(jì)的基線方法中也使用該函數(shù)作為損失函數(shù)。MSE 函數(shù)的計(jì)算公式如式(2)所示:
其中:n為回歸點(diǎn)個(gè)數(shù)為第i個(gè)點(diǎn)的預(yù)測(cè)值;fi為第i個(gè)點(diǎn)的目標(biāo)值。整體損失函數(shù)如式(3)所示:
其中:Lheat為二維熱圖的損失函數(shù);L2D為二維關(guān)鍵點(diǎn)的損失函數(shù);L3D為三維關(guān)鍵點(diǎn)的損失函數(shù);α1、α2分別為前2 種損失函數(shù)的權(quán)重;Hg為熱圖標(biāo)簽;Hp為預(yù)測(cè)熱圖;Pg,hand2D、Pg,pen2D分別為手和筆 的二維真實(shí)坐標(biāo);Pp,hand2D、Pp,pen2D分別為手和筆 的二維估計(jì)坐 標(biāo);Pg,pen3D為筆的三維真實(shí)坐標(biāo);Pp,pen3D為筆的三維估 計(jì)坐標(biāo);LMSE為MSE 損失函數(shù)。
本文將α1和α2設(shè)置為0.1,以使二維誤差(像素)和三維誤差(mm)處于相似的范圍內(nèi),將β1設(shè)置為0.2、β2設(shè)置為1,對(duì)手和筆設(shè)置不同的權(quán)重,達(dá)到手部關(guān)鍵點(diǎn)輔助估計(jì)的目的。
二維關(guān)鍵點(diǎn)評(píng)價(jià)指標(biāo)為平均終點(diǎn)誤差均值(mean End Point Error,mean EPE),單位為像素。該評(píng)價(jià)指標(biāo)是計(jì)算測(cè)試集數(shù)據(jù)中所有關(guān)鍵點(diǎn)的預(yù)測(cè)坐標(biāo)與真實(shí)坐標(biāo)之間的平均歐幾里得距離,可以反映模型對(duì)二維關(guān)鍵點(diǎn)的檢測(cè)精準(zhǔn)度,指標(biāo)值越小,則關(guān)鍵點(diǎn)的二維預(yù)測(cè)精準(zhǔn)度越高。二維關(guān)鍵點(diǎn)mean EPE計(jì)算公式如式(4)所示:
其中:n為關(guān)鍵點(diǎn)個(gè)數(shù);N為測(cè)試集總數(shù);xp,ij、yp,ij為第i個(gè)點(diǎn)在第j張圖中的二維預(yù)測(cè)值;xg,ij、yg,ij為第i個(gè)點(diǎn)在第j張圖中的二維真實(shí)值。三維關(guān)鍵點(diǎn)評(píng)價(jià)指標(biāo)與二維關(guān)鍵點(diǎn)相同,同樣為mean EPE,但單位為mm,該評(píng)價(jià)指標(biāo)可以反映模型對(duì)三維關(guān)鍵點(diǎn)的檢測(cè)精準(zhǔn)度,指標(biāo)值越小,則關(guān)鍵點(diǎn)的三維預(yù)測(cè)精準(zhǔn)度越高。三維關(guān)鍵點(diǎn)mean EPE 計(jì)算公式如式(5)所示:
其中:n為關(guān)鍵點(diǎn)個(gè)數(shù);N為測(cè)試集總數(shù);Xp,ij、Yp,ij、Zp,ij為第i個(gè)點(diǎn)在第j張圖中的三維預(yù)測(cè)值;Xg,ij、Yg,ij、Zg,ij為第i個(gè)點(diǎn)在第j張圖中的三維真實(shí)值。成功幀表示為單幀測(cè)試圖像的所有關(guān)鍵點(diǎn)中估計(jì)值與真實(shí)值的三維距離誤差的最大值小于設(shè)定閾值的測(cè)試幀。成功幀占比(Percentage of Success Frame,PSF)是計(jì)算測(cè)試集數(shù)據(jù)中成功幀總幀數(shù)占測(cè)試幀總幀數(shù)的比例,如PSF@4 是指閾值為4 mm 時(shí)的成功幀比例。PSF 能更好地反映出網(wǎng)絡(luò)在設(shè)定閾值范圍內(nèi)檢測(cè)關(guān)鍵點(diǎn)的綜合精準(zhǔn)程度,指標(biāo)值越大,則關(guān)鍵點(diǎn)的整體三維預(yù)測(cè)效果越好。PSF@τ計(jì)算公式如式(6)所示:
其中:n為關(guān)鍵點(diǎn)個(gè)數(shù);Xp,i、Yp,i和Zp,i為第i個(gè)點(diǎn)的三維估計(jì)值;Xg,i、Yg,i和Zg,i為第i個(gè)點(diǎn)的三維真實(shí) 值;τ為設(shè)定閾值;N為測(cè)試集總數(shù)。
實(shí)驗(yàn)通過雙目相機(jī)采集多視角下的手持筆雙目RGB 圖片,通過Labelme 標(biāo)注軟件手動(dòng)標(biāo)注出每張圖片中23 個(gè)關(guān)鍵點(diǎn)的二維像素坐標(biāo),再利用雙目立體視覺的方法[25]計(jì)算出每個(gè)關(guān)鍵點(diǎn)的三維坐標(biāo)。將雙目相機(jī)的右視圖作為數(shù)據(jù)集圖片完成關(guān)鍵點(diǎn)的三維標(biāo)注,其中訓(xùn)練集1 833張,測(cè)試集430張,共計(jì)2 263張RGB 圖片。23 個(gè)關(guān)鍵點(diǎn)標(biāo)注規(guī)則如圖7 所示。
圖7 23 個(gè)關(guān)鍵點(diǎn)標(biāo)注規(guī)則Fig.7 23 key points marking rules
在訓(xùn)練模型時(shí),將輸入圖像Resize 為256×256 像素,同時(shí)使用平移、旋轉(zhuǎn)、翻轉(zhuǎn)、色彩轉(zhuǎn)換等數(shù)據(jù)擴(kuò)增技術(shù),進(jìn)一步增加數(shù)據(jù)多樣性和數(shù)據(jù)總量。本文實(shí)驗(yàn)使用Adam[26]優(yōu)化器優(yōu)化,初始學(xué)習(xí)率為0.001,beta_1 為0.9,beta_2 為0.999。損失函數(shù)采用MSE 函數(shù),訓(xùn)練周期epoch 為100,每批次送入網(wǎng)絡(luò)的訓(xùn)練樣本Batch_Size 為16。實(shí)驗(yàn)環(huán)境如表1 所示。
表1 實(shí)驗(yàn)軟硬件配置Table 1 Software and hardware configuration of the experiment
為了評(píng)估本文方法的先進(jìn)性和有效性,實(shí)驗(yàn)對(duì)比了本文方法與其他先進(jìn)關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)的精度、參數(shù)量與推理速度,實(shí)驗(yàn)結(jié)果如表2 所示。從表2 可以看出,本文方法對(duì)比文獻(xiàn)[27]方法mean EPE 降低了0.882 mm,PSF@4 提升了31.38 個(gè)百分點(diǎn),對(duì)比文獻(xiàn)[20]方法mean EPE 降低了0.710 mm,PSF@4 提升了32.31 個(gè)百分點(diǎn),在精度方面顯著提高。本文方法在mean EPE 和PSF@4 指標(biāo)大幅提升的前提下,模型參數(shù)量與推理時(shí)間相較于2 個(gè)對(duì)比方法有一定增加,但幀率依舊可以保持在30 幀/s 以上,保證了精確輸入軌跡的連續(xù)性,充分證明了本文方法的可行性。
表2 不同方法對(duì)比Table 2 Comparison of different methods
為了進(jìn)一步研究本文方法估計(jì)的關(guān)鍵點(diǎn)精度范圍,對(duì)mean EPE 進(jìn)行分級(jí)。如表3 所示,將測(cè)試樣本的mean EPE 劃分為7類,在1.5~4.0 mm 范圍內(nèi)以0.5 mm 為間隔劃分為5類,小于1.5 mm 單獨(dú)劃分為一類,大于4.0 mm 單獨(dú)劃分為一類。從表3 可以看出:模型估計(jì)的關(guān)鍵點(diǎn)距離誤差在2.5~3.0 mm 區(qū)間的成功幀占比最多,為22.56%;模型估計(jì)的關(guān)鍵點(diǎn)距離誤差在小于等于3.0 mm 的成功幀占比超過半數(shù),為54.64%;模型估計(jì)的關(guān)鍵點(diǎn)距離誤差小于等于4.0 mm 的累計(jì)成功幀占比為85.80%。由此可見,本文方法在精度和魯棒性上較為出色。
利用本文方法和HOPE-Net[20]進(jìn)行關(guān)鍵點(diǎn)估計(jì)的定性可視化結(jié)果如圖8 所示,其中,圖8(a)、圖8(d)、圖8(g)分別是網(wǎng)絡(luò)輸入圖片,圖8(b)、圖8(c)分別是本文方法和HOPE-Net 針對(duì)圖8(a)的可視化估計(jì)結(jié)果,圖8(e)、圖8(f)分別是本文方法和HOPE-Net針對(duì)圖8(d)的可視化估計(jì)結(jié)果,圖8(h)、圖8(i)分別是本文方法和HOPE-Net 針對(duì)圖8(g)的可視化估計(jì)結(jié)果。從圖8 可以看出,與HOPE-Net方法相比,本文方法能夠較為準(zhǔn)確地估計(jì)出筆尖和筆尾的位置,定性可視化估計(jì)效果較優(yōu)。
圖8 可視化估計(jì)結(jié)果對(duì)比Fig.8 Comparison of visual estimation results
本文模型以堆疊沙漏網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),為了驗(yàn)證提出模型中每個(gè)關(guān)鍵模塊的先進(jìn)性和有效性,進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示,其中,“√”表示模型包含這一模塊。從表4 可以看出,與基礎(chǔ)網(wǎng)絡(luò)SHN 對(duì)比,添加CBAM 模塊使mean EPE 降低0.887 mm,添 加Offset 方法使mean EPE降低0.571 mm,使用輔助21 個(gè)手部關(guān)鍵點(diǎn)估計(jì)的方法使mean EPE 降低0.919 mm,將上述3 個(gè)模塊全部添加使mean EPE 降低1.723 mm。這是因?yàn)镃BAM 模塊優(yōu)化了融合的特征信息,基于Offset 偏移量的關(guān)鍵點(diǎn)亞像素定位減少了量化誤差,輔助手部關(guān)鍵點(diǎn)為筆的位置提供了約束,每個(gè)模塊使二維關(guān)鍵點(diǎn)和三維關(guān)鍵點(diǎn)估計(jì)精度均得到提升。上述實(shí)驗(yàn)結(jié)果證明了每個(gè)改進(jìn)模塊的先進(jìn)性和有效性。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Result of ablation experiment
為探究網(wǎng)絡(luò)關(guān)鍵超參數(shù)SHN 數(shù)量對(duì)模型性能的影響,在不同SHN 數(shù)量下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示。從表5 可以看出,在SHN 數(shù)量由1 增加至2后,網(wǎng)絡(luò)mean EPE 減少了0.196 mm,PSF@4 增加了16.27 個(gè)百分點(diǎn)。之后隨著沙漏網(wǎng)絡(luò)數(shù)量的增加,模型參數(shù)量在增加的同時(shí),mean EPE 基本不再減少,但PSF@4 出現(xiàn)下降趨勢(shì),模型綜合精準(zhǔn)度下降,魯棒性變差。
表5 不同SHN 數(shù)量的實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Experimental results with different number of SHNs
對(duì)PKPD-Net 網(wǎng)絡(luò)估計(jì)關(guān)鍵點(diǎn)進(jìn)行應(yīng)用開發(fā),實(shí)現(xiàn)交互筆精細(xì)交互的有益探索。如圖9 所示,相機(jī)擺放在書寫區(qū)域斜上方,利用白熾燈增加環(huán)境亮度,改善拍攝圖片質(zhì)量。通過相機(jī)采集使用者書寫時(shí)的畫面,將采集到的1 920×1 080 像素的RGB 圖片作為網(wǎng)絡(luò)數(shù)據(jù)輸入,利用PKPD-Net 定位筆上關(guān)鍵點(diǎn)的三維空間坐標(biāo)。隨后將模型預(yù)測(cè)的筆尖三維坐標(biāo)點(diǎn)根據(jù)時(shí)序依次連接,經(jīng)貝塞爾曲線擬合實(shí)現(xiàn)定性可視化呈現(xiàn)。人手在桌面繪制矩形,復(fù)原的軌跡如圖9(d)所示;人手在桌面繪制曲線,復(fù)原的軌跡如圖9(e)所示;人手在空中按照由內(nèi)向外由高到低繪制螺旋線,復(fù)原的軌跡如圖9(f)所示。圖中可視化線段越靠近外側(cè)(顏色越接近黃色),代表該點(diǎn)離桌面高度越高。由3 種操作的可視化軌跡可以看出,本文模型基本實(shí)現(xiàn)了筆尖的軌跡追蹤,可以根據(jù)使用者動(dòng)作進(jìn)行相應(yīng)的簡(jiǎn)易精細(xì)化操作。
圖9 書寫實(shí)驗(yàn)示意圖Fig.9 Schematic diagrams of writing experiment
本文提出一種基于單目RGB 圖片的兩階段交互筆關(guān)鍵點(diǎn)估計(jì)網(wǎng)絡(luò)。在筆的二維關(guān)鍵點(diǎn)估計(jì)階段,引入CBAM 改進(jìn)沙漏模塊融合機(jī)制,利用Offset偏移量實(shí)現(xiàn)關(guān)鍵點(diǎn)亞像素定位,采用輔助手部關(guān)鍵點(diǎn)預(yù)測(cè)的方式約束筆的位置,最終預(yù)測(cè)二維關(guān)鍵點(diǎn)mean EPE 為1.828 像素。在筆的三維關(guān)鍵點(diǎn)估計(jì)階段,級(jí)聯(lián)輸入特征圖和Offset 偏移后的熱圖,突出關(guān)鍵點(diǎn)位置信息并排除冗余信息,最終回歸三維關(guān)鍵點(diǎn)mean EPE 為2.485 mm。作為交互筆交互的有益探索,最后進(jìn)行簡(jiǎn)易精細(xì)化書寫操作的定性可視化呈現(xiàn)。由于使用的數(shù)據(jù)集較小,本文模型準(zhǔn)確度和操作精細(xì)程度呈現(xiàn)還存在一定的優(yōu)化空間。未來隨著數(shù)據(jù)的積累,將繼續(xù)進(jìn)行相應(yīng)的模型優(yōu)化和移動(dòng)端的算法應(yīng)用落地,同時(shí)針對(duì)空間點(diǎn)的軌跡優(yōu)化進(jìn)行更深入的研究。