• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度神經(jīng)網(wǎng)絡(luò)的視覺手部姿態(tài)追蹤系統(tǒng)*

    2021-01-18 03:56:12陳永樂陳偉全嚴繼超李武初
    機電工程技術(shù) 2020年12期
    關(guān)鍵詞:三維空間三維重建關(guān)鍵點

    肖 金,翟 倩,陳永樂,張 彬,陳偉全,嚴繼超,李武初

    (廣東工業(yè)大學華立學院,廣州 511325)

    0 引言

    手部交互是目前計算機圖像處理中的重要研究內(nèi)容。手語識別,社交互動,虛擬現(xiàn)實和增強現(xiàn)實中,手是人機交互的主要輸入設(shè)備[1-2]。目前的二維手部關(guān)鍵點識別及手部姿態(tài)追蹤相關(guān)研究已日趨成熟。如過去通過傳統(tǒng)圖像算法,如膚色分割,掌心分割等來實現(xiàn)手部區(qū)域的分割,但這種處理方法的依賴靜態(tài)的圖像處理,對圖像的彩色空間(RGB,HSI)等要求甚高。其次是依賴特征點提出,通過提出手部相關(guān)特征進行識別,一旦手部特征缺失,識別準確度就大幅下降[3]。并且這類傳統(tǒng)的手勢識別算法對雙手遮擋交互、障礙物遮擋、夜間、強光照等環(huán)境下的識別問題難以解決。隨著人工智能的發(fā)展,越來越多的手勢識別算法引入了深度神經(jīng)網(wǎng)絡(luò),通過各種環(huán)境下采集的數(shù)據(jù)集進行訓練,大幅度提高了在遮擋,日夜光線等苛刻環(huán)境下的識別準確度,由此二維的手部追蹤算法日趨完善[4-5]。但是二維的手部追蹤僅有兩個維度的信息,交互僅停留在平面階段,從而無法實現(xiàn)在空間中對手部的位置進行定位,而許多手部的交互動作是縱深的,如手語交流中的許多動作,影音娛樂中的動作捕捉,虛擬現(xiàn)實中的交互等,二維手部追蹤中缺失的第三維度信息就難以解決這些問題。而且通過二維的圖像去預(yù)測三維的手部姿態(tài)非常困難,因為手部的膚色相似,從三維空間中辨認手部關(guān)鍵點非常困難,其次手部動作中非常容易產(chǎn)生遮擋問題[6-8]。許多非視覺的研究中研究采用慣性傳感器解決遮擋問題,但在普通RGB相機中就非常困難[9]。

    由于實現(xiàn)具備空間定位及SLAM 信息的三維手部模型重建需要三維度數(shù)據(jù),而普通的RGB 相機僅能獲取二維數(shù)據(jù)。本文對普通RGB相機如何實現(xiàn)二維升三維的重建及對某一特征的識別與追蹤進行研究,從而實現(xiàn)了三維視覺手部追蹤。

    1 神經(jīng)網(wǎng)絡(luò)模塊設(shè)計

    1.1 總網(wǎng)絡(luò)架構(gòu)設(shè)計

    圖1 神經(jīng)網(wǎng)絡(luò)架構(gòu)圖

    如圖1所示,整個神經(jīng)網(wǎng)絡(luò)由3個網(wǎng)絡(luò)塊構(gòu)建成,輸入的圖像在手部位置分割網(wǎng)絡(luò)中定位手部在整個圖像中的位置,然后將輸出圖像經(jīng)過裁剪和尺寸變換并將手部位置放大輸入到下層的二維手部關(guān)鍵點識別網(wǎng)絡(luò)中。放大后的手部圖輸入到二維手部關(guān)鍵點識別網(wǎng)絡(luò)中,經(jīng)過計算輸出圖像中的手部21 個骨骼關(guān)鍵點的位置,在手勢識別的相關(guān)研究中,得出通過手部21 個關(guān)鍵點即可確定手部的位置。第3 層的二維轉(zhuǎn)三維網(wǎng)絡(luò)是整個神經(jīng)網(wǎng)絡(luò)的核心,它需要兩個輸入:第一個輸入是原圖像通過雙目立體匹配算法計算后轉(zhuǎn)換的深度圖,圖像中包含深度數(shù)據(jù),可以通過矩陣變換轉(zhuǎn)換成距離信息;第二個輸入是二維手部關(guān)鍵點識別的結(jié)果。通過兩個輸入,將手部關(guān)鍵點結(jié)果賦值在深度圖上,輸出21個關(guān)鍵點的深度信息,然后在網(wǎng)絡(luò)中進行匹配運算,預(yù)測在三維空間中最有可能的關(guān)鍵點坐標位置(xi,yi,zi),然后將這些坐標位置通過矩陣變換進行三維重建,得到三維空間中的手部位置。

    1.2 手部位置分割網(wǎng)絡(luò)

    手部位置分割網(wǎng)絡(luò)是圖像分割網(wǎng)絡(luò),原理主要是通過一些手部姿態(tài)數(shù)據(jù)訓練集進行訓練,這些被當成是圖像位置切割的樣本,在圖像輸入的時候,檢測輸入圖像中手部位置并將其分割出來。

    該網(wǎng)絡(luò)中的輸入主要是經(jīng)普通圖像輸入后矩陣變換處理后的張量,數(shù)據(jù)類型為tf.float32,及訓練中用于判斷真假的樣本權(quán)重train。網(wǎng)絡(luò)的輸出為輸入圖像中分割出來手部位置的得分圖,輸出得分最高的手部位置float32 張量,并且將其分割出來生成新圖像輸入到下層網(wǎng)絡(luò)中。

    1.3 二維手部關(guān)鍵點識別網(wǎng)絡(luò)

    二維手部關(guān)鍵點識別網(wǎng)絡(luò)是圖像識別網(wǎng)絡(luò),原理主要是通過一些標注好的帶關(guān)鍵點的二維手部姿態(tài)數(shù)據(jù)集進行訓練,讓網(wǎng)絡(luò)不僅可以識別手部圖像的關(guān)鍵點,還可以從某個關(guān)鍵點的位置在推理出其他關(guān)鍵點的的位置可能性信息。從上層分割出來的手部位置圖輸入后,通過訓練中用于判斷真假的樣本權(quán)重train 進行檢測,并且輸出二維手部關(guān)鍵點的得分圖,輸出每個得分最高,即置信度最高的關(guān)鍵點到下層網(wǎng)絡(luò)中。需要注意的是,這里輸出的得分圖為[B,256,256,21],包含手部骨骼21個關(guān)鍵點的得分。

    1.4 二維升三維重建網(wǎng)絡(luò)

    二維升三維網(wǎng)絡(luò)是這個神經(jīng)網(wǎng)絡(luò)的核心。在得到手部21個關(guān)鍵點的位置及深度數(shù)據(jù)后,首先是根據(jù)這些數(shù)據(jù)判斷該手型是左手還是右手,通過訓練中用于判斷真假的的樣本權(quán)重train 進行檢測,估計最有可能的空間手部三維姿態(tài),并且輸出標準化的三維坐標點,格式為[21,3],意為輸出21個關(guān)鍵點的三維坐標。

    2 系統(tǒng)硬件模塊設(shè)計

    如圖2 所示,硬件模塊由成像模塊,主板模塊及AI 芯片模塊組成。攝像頭模塊通過單目/雙目/TOF攝像頭采集圖像/視頻并且輸入到主板處理。算法模塊進行算法運算,該過程由AI 芯片模塊對其進行加速,首先將原始圖像的手部位置分割出來,輸入的圖像在手部位置分割網(wǎng)絡(luò)中定位手部在整個圖像中的位置,然后將輸出圖像經(jīng)過裁剪和尺寸變換并將手部位置放大輸入到下層的二維手部關(guān)鍵點識別網(wǎng)絡(luò)中,經(jīng)過計算輸出圖像中的手部21個骨骼關(guān)鍵點的位置,這與人體生理及運動學有關(guān),在手勢識別的相關(guān)研究中,得出通過手部21個關(guān)鍵點即可確定手部的位置。

    第3 層的二維轉(zhuǎn)三維網(wǎng)絡(luò)是整個神經(jīng)網(wǎng)絡(luò)的核心,它需要兩個輸入:第一個輸入是原圖像通過雙目立體匹配算法計算后轉(zhuǎn)換的深度圖,圖像中包含深度數(shù)據(jù),可以通過矩陣變換轉(zhuǎn)換成距離信息;第二個輸入是二維手部關(guān)鍵點識別的結(jié)果。通過兩個輸入,將手部關(guān)鍵點結(jié)果賦值在深度圖上,輸出21個關(guān)鍵點的深度信息,然后在網(wǎng)絡(luò)中進行匹配運算,預(yù)測在三維空間中最有可能的關(guān)鍵點坐標位置(xi,yi,zi),然后將這些坐標位置通過矩陣變換進行三維重建,得到三維空間中的手部位置。

    圖2 硬件模塊設(shè)計

    3 實驗數(shù)據(jù)

    3.1 測試集范例

    在公開數(shù)據(jù)集上實驗之前,這里先抽選了來自不同程度,不同環(huán)境下的一些圖片,這些圖片部分來源于純手部圖像,來自網(wǎng)絡(luò)的人像寫真,一些隨機搜索的包含手的圖像。從“相機角度”、“光源強度”、“膚色”、“復雜環(huán)境”、“手部遮擋”來測試該神經(jīng)網(wǎng)絡(luò)在應(yīng)對各種苛刻環(huán)境下的泛化性,為了排除可能會出現(xiàn)的偶然性和相似性,每組有3張程度因素從小到大的圖像集,一共7 組數(shù)據(jù),包含21 張測試圖。測試集的圖像數(shù)據(jù)如圖3所示。

    圖3 測試集范例

    3.2 范例實驗結(jié)果

    為了驗證實驗結(jié)果,同時也為了方便觀察每一層神經(jīng)網(wǎng)絡(luò)輸出圖像是否滿足需求和及時觀察到可能出現(xiàn)的識別錯誤,這里將每層神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果都作為實驗結(jié)果。測試集上的原圖經(jīng)過該三維手部追蹤神經(jīng)網(wǎng)絡(luò)中,首先經(jīng)過第一層“手部位置分割網(wǎng)絡(luò)”將手部位置從整張圖片中分割出來,輸出到第二層“二維關(guān)鍵點識別網(wǎng)絡(luò)”中,通過分割出來的手部圖像,識別二維中的21個手部骨骼關(guān)鍵點,并且為了方便可視化效果,通過人體關(guān)節(jié)點間的生理學連接,進行matplotlib 畫圖連線,渲染出來。此時可看到二維圖像的識別效果。輸出的二維關(guān)鍵點結(jié)果及雙目立體匹配得到的該位置的深度信息將會輸出到第三層“二維轉(zhuǎn)三維”網(wǎng)絡(luò)中,通過該層網(wǎng)絡(luò)預(yù)測缺失的第三維度信息,最終經(jīng)過手掌根部root點確定,標準化坐標處理等過程輸出在三維空間中的21個手部關(guān)鍵點三維坐標,通過matplotlib中的3D畫圖庫,在三維空間中進行生成。圖4所示為測試集的輸出效果圖。

    圖4 范例實驗結(jié)果

    可以看到,在大部分約束條件下,該網(wǎng)絡(luò)的識別準確率都比較可觀,除了一些手部信息缺失過多的圖像發(fā)生了關(guān)鍵點丟失,錯亂等情況;同時也有部分圖像關(guān)鍵點位置不明確,稍微扭曲。因為這些測試集來源都大相徑庭,圖像的尺寸差異巨大,輸入到神經(jīng)網(wǎng)絡(luò)中的圖像最終會被縮放,裁剪成同一尺寸,這些圖像因為某些尺寸比例的關(guān)系,經(jīng)過縮放后比例失調(diào),例如手掌變寬,手指壓長等扭曲現(xiàn)象,因此關(guān)鍵點發(fā)生了位置不明確的問題。

    但在實時攝像頭測試中,因為攝像頭輸入尺寸是每幀固定的,因此實時效果良好,整體實驗效果可以基本滿足手部追蹤的效果,同時,及時在某幀中發(fā)現(xiàn)識別錯誤,關(guān)鍵點連線錯亂等情況,在第三層中也會在預(yù)測過程中根據(jù)來自真實的三維數(shù)據(jù)進行修正,簡單來說,就是盡管手部識別效果異常“扭曲”、“不似人形”也會因為第三層的訓練數(shù)據(jù)是來自真實的“手”,因此會強行將異常的數(shù)據(jù)轉(zhuǎn)換為正常數(shù)據(jù),不會出現(xiàn)在三維重建中手部形象“畸形”的情況出現(xiàn)。

    3.3 效率分析

    由收集的測試數(shù)據(jù)集范例和公開測試集的實驗結(jié)果來看,可以看到,該網(wǎng)絡(luò)在應(yīng)對各種復雜條件下的泛化能力比較高,即使實驗場景包含可能的各種條件約束,成功實現(xiàn)手部位置分割的成功率達到了78%,同時二維關(guān)鍵點識別達到60%,這相對第一層中必然是更低的,因為首先網(wǎng)絡(luò)需要分割出手部的位置圖像,才能進一步對其進行關(guān)鍵點識別,雖然60%并不是十分優(yōu)秀的結(jié)果,但足以證明該網(wǎng)絡(luò)在應(yīng)對復雜環(huán)境下的能力,它包含的是圖像背景復雜,存在多個檢測角色,光源復雜,圖像存在關(guān)鍵位置遮擋等約束條件。而在三維重建中成功率達到了72%,即使在某幀中發(fā)現(xiàn)關(guān)鍵點識別錯誤、連線錯亂等情況,在第三層也會根據(jù)來自真實的已訓練三維數(shù)據(jù)進行修正。

    進一步分析觀察,簡單背景(男性)的數(shù)據(jù)集中三層網(wǎng)絡(luò)的準確率達到了90%、80%、86.7%,說明該網(wǎng)絡(luò)的訓練結(jié)果良好,應(yīng)對實驗室簡單背景環(huán)境的識別性能相對較高;而簡單背景(女性)中三層網(wǎng)絡(luò)的識別準確率達到了90%、80%、90%,這樣的對比結(jié)果也說明了,該網(wǎng)絡(luò)應(yīng)對異性的能力是相似的,同時這兩組數(shù)據(jù)的相似性,也排除了簡單背景(男性)中的實驗結(jié)果的偶然性。因為這兩組數(shù)據(jù)的背景不一樣,足以驗證該網(wǎng)絡(luò)在簡單背景下的識別能力。

    4 結(jié)束語

    本文提出了一種從普通RGB圖像中預(yù)測三維空間手部姿態(tài)并實現(xiàn)實時手部追蹤的神經(jīng)網(wǎng)絡(luò)。這個神經(jīng)網(wǎng)絡(luò)分為三層,首先通過一個神經(jīng)網(wǎng)絡(luò)進行手部位置的識別與分割,第二層網(wǎng)絡(luò)結(jié)構(gòu)基于上一層輸入的二維手部分割裁剪后的手型圖,這層的處理主要是實現(xiàn)識別二維圖像中的21個手部骨骼關(guān)鍵點。第三層網(wǎng)絡(luò)首先通過一個隱式的合成三維手部模型數(shù)據(jù)和三維手部數(shù)據(jù)集進行訓練,訓練后的網(wǎng)絡(luò)模型就可以實現(xiàn)從二維的手部關(guān)鍵點中與前置訓練的三維手部數(shù)據(jù)集進行匹配,估計缺失的第三維度信息,這樣就可以獲得手部骨骼關(guān)鍵點的三維數(shù)據(jù),進而可以通過OpenGL 或者Matplotlib等進行實時三維重建,將二維的手部追蹤進行升維。簡而言之,整個神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分為三層,最終的目的是從普通的RGB相機中實現(xiàn)三維的手部姿態(tài)估計。

    猜你喜歡
    三維空間三維重建關(guān)鍵點
    聚焦金屬關(guān)鍵點
    肉兔育肥抓好七個關(guān)鍵點
    基于Mimics的CT三維重建應(yīng)用分析
    軟件(2020年3期)2020-04-20 00:56:34
    三維空間的二維圖形
    基于關(guān)系圖的無人機影像三維重建
    三維重建結(jié)合3D打印技術(shù)在腔鏡甲狀腺手術(shù)中的臨床應(yīng)用
    白紙的三維空間
    學生天地(2016年33期)2016-04-16 05:16:26
    多排螺旋CT三維重建在頜面部美容中的應(yīng)用
    三維空間中次線性Schr(o)dinger-Kirchhoff型方程的無窮多個負能量解
    醫(yī)聯(lián)體要把握三個關(guān)鍵點
    谢通门县| 石景山区| 吉林省| 什邡市| 榆社县| 长乐市| 阿坝县| 岳普湖县| 遵义市| 新竹县| 和田县| 饶平县| 东辽县| 临漳县| 顺平县| 马公市| 塘沽区| 阿克苏市| 监利县| 清水河县| 乐都县| 贺兰县| 德钦县| 余江县| 绥化市| 龙胜| 灵山县| 兴城市| 泾源县| 龙陵县| 北海市| 浙江省| 漾濞| 湘乡市| 岳普湖县| 巴彦淖尔市| 中卫市| 博野县| 阿巴嘎旗| 临高县| 岚皋县|