樊英澤,楊煉鑫,王彥博,張劍書
(南京工程學(xué)院,江蘇 南京 211167)
人體姿態(tài)識別就是通過視頻圖像或傳感器獲取人體關(guān)鍵點(diǎn)數(shù)據(jù),構(gòu)建人體骨架信息,并基于此判斷人體的姿態(tài)和行為。人體姿態(tài)識別在人機(jī)交互方面有著非常重要的作用,同時也在人體運(yùn)動分析、康復(fù)訓(xùn)練輔助以及智能安防等領(lǐng)域有著廣泛的應(yīng)用前景。因此,人體姿態(tài)的估計(jì)與識別一直以來都是國內(nèi)外專家學(xué)者關(guān)注的研究熱點(diǎn)。本文結(jié)合AlphaPose模型和支持向量機(jī)模型設(shè)計(jì)了一個人體姿態(tài)識別與標(biāo)記系統(tǒng)。
目前,從原始數(shù)據(jù)獲取方式的角度來看,人體姿態(tài)分類方法[1]主要可以分為基于傳感器技術(shù)的方法[2]和基于計(jì)算機(jī)視覺的方法[3]這兩大類。基于傳感器技術(shù)的方法數(shù)據(jù)采集成本較高,且會影響運(yùn)動的舒適性,因此更適合一些小規(guī)模少目標(biāo)的專業(yè)運(yùn)動分析領(lǐng)域?;谟?jì)算機(jī)視覺的方法可以讓目標(biāo)對象擺脫交互設(shè)備的束縛,更適合應(yīng)用于公共場所這類多目標(biāo)的姿態(tài)識別。本文通過AlphaPose模型[4]進(jìn)行姿態(tài)估計(jì)。AlphaPose模型提出了RMPE(region multi-person pose estimation,區(qū)域多人姿態(tài)檢測)框架來克服檢測框質(zhì)量不高的問題,主要分為三個部分:SSTN, NMS, PGPG。這套方法能夠精確地將圖片里的人物框提取出來,并將其鼻子,眼睛,耳朵,肩部,肘關(guān)節(jié),腕關(guān)節(jié),髖關(guān)節(jié),膝關(guān)節(jié),踝關(guān)節(jié)相應(yīng)的坐標(biāo)檢測出來。
在利用AlphaPose模型提取目標(biāo)關(guān)節(jié)點(diǎn)的位置信息后,根據(jù)各關(guān)節(jié)點(diǎn)的坐標(biāo)向量即原始特征構(gòu)造并提取出可用于人體姿態(tài)分類的有效特征,并通過SVM模型,結(jié)合訓(xùn)練數(shù)據(jù)集以及篩選出的人體姿態(tài)特征,訓(xùn)練人體姿態(tài)分類模型,實(shí)現(xiàn)基于AI的人體姿態(tài)分類。
本文設(shè)計(jì)和實(shí)現(xiàn)基于支持向量機(jī)的姿態(tài)識別及標(biāo)記系統(tǒng),其架構(gòu)如圖1所示。從邏輯上分為四個功能模塊,即成員信息管理模塊、自定義文件標(biāo)記模塊、任務(wù)文件模塊、姿態(tài)識別模塊[5]。
圖1 基于支持向量機(jī)的姿態(tài)識別及標(biāo)記系統(tǒng)架構(gòu)
(1)主界面。本系統(tǒng)為多人協(xié)同的圖片數(shù)據(jù)標(biāo)記系統(tǒng),用戶類型分為兩種,管理員和普通用戶成員,其中管理員擁有用戶管理和任務(wù)管理權(quán)限,普通用戶只擁有圖片標(biāo)記權(quán)限。用戶登陸后可以選擇本地文件夾,對文件夾里的圖片進(jìn)行識別和標(biāo)記,也可以執(zhí)行管理員分配的姿態(tài)標(biāo)記任務(wù)[6]。此外,系統(tǒng)支持圖片識別與圖片批量識別功能,用戶可以進(jìn)行圖片姿態(tài)識別。如圖2所示:
圖2 系統(tǒng)主界面
自定義文件標(biāo)記模塊中,系統(tǒng)提供半自動標(biāo)記功能,用戶可以自主選擇本地文件夾,然后對文件夾里的圖片進(jìn)行識別和標(biāo)記。自定義文件標(biāo)記界面如圖3所示:
圖3 自定義文件標(biāo)記界面
用戶可以點(diǎn)擊左側(cè)的輔助識別按鈕,調(diào)用系統(tǒng)中的識別模型對待標(biāo)記的圖片進(jìn)行預(yù)識別。識別結(jié)果將顯示在界面下方,用戶只需直接核對AI的識別結(jié)果。若結(jié)果有誤可點(diǎn)擊重置圖框按鈕并手動畫框,然后點(diǎn)擊修改按鈕,即可完成數(shù)據(jù)標(biāo)記。用戶也可以不借助AI進(jìn)行純手動標(biāo)記,在圖片區(qū)域按住鼠標(biāo)左鍵來框選目標(biāo)所在區(qū)域,選中區(qū)域的左上角和右下角的坐標(biāo)會顯示在圖片左側(cè),再通過點(diǎn)擊下方的姿態(tài)按鈕來為當(dāng)前圖片文件中的目標(biāo)添加標(biāo)簽[7]。
同時,用戶可以通過任務(wù)文件模塊選擇管理員發(fā)布的標(biāo)記任務(wù)進(jìn)行數(shù)據(jù)標(biāo)記,如圖4所示:
圖4 任務(wù)標(biāo)記界面
在任務(wù)文件模塊中,用戶也可以選擇調(diào)用AI輔助識別進(jìn)行圖片姿態(tài)標(biāo)記,具體功能和自定義文件標(biāo)記模塊類似。
姿態(tài)識別模塊包括單張圖片識別和批量圖片識別兩個主要功能,調(diào)用已訓(xùn)練好的支持向量機(jī)模型直接對圖片或文件夾中圖片進(jìn)行標(biāo)記并保存數(shù)據(jù)結(jié)果,如圖5、6所示。
圖5 圖片識別界面
在姿態(tài)識別模塊中,用戶可以自行載入文件夾,并使用AI對文件夾內(nèi)的圖片進(jìn)行定位和姿態(tài)識別,若結(jié)果有誤可以重置圖框并進(jìn)行修改,最后保存結(jié)果數(shù)據(jù)[8]。
本系統(tǒng)實(shí)現(xiàn)了姿態(tài)估計(jì)和姿態(tài)分類,同時也提供了對人體姿態(tài)標(biāo)記的功能。本系統(tǒng)提供半自動標(biāo)記功能,既可以通過模型快速地識別并檢測出圖片數(shù)據(jù)中人類的姿態(tài),也可以方便快速地為圖片數(shù)據(jù)中的人類目標(biāo)添加位置標(biāo)簽和姿態(tài)標(biāo)簽。本系統(tǒng)提供的半自動化標(biāo)記和多人協(xié)同標(biāo)記可以在很大程度上提高圖片數(shù)據(jù)的標(biāo)記效率和標(biāo)記準(zhǔn)確率。
圖6 圖片批量識別界面