雷恒,王曉艷
(西南林業(yè)大學(xué),云南 昆明 650000)
近年來,我國手機(jī)支付的應(yīng)用已經(jīng)在全國范圍內(nèi)普遍開展,預(yù)示著人機(jī)交互活動(dòng)成為人們生活中必不可少的一部分。同時(shí),隨著機(jī)器視覺的進(jìn)一步發(fā)展和相關(guān)數(shù)據(jù)分析理論的不管改進(jìn)和完善,在未來將逐漸實(shí)現(xiàn)以計(jì)算機(jī)為中心的人機(jī)交互轉(zhuǎn)變?yōu)橐匀藶橹行牡娜藱C(jī)交互模式。手作為非剛性物體,其姿勢變化十分豐富,所表達(dá)的意思也很多。因此,基于機(jī)器視覺的手勢識別問題的解決對人機(jī)交互模式具有重要意義。與此同時(shí),深度學(xué)習(xí)已經(jīng)在語音識別、人臉識別等圖像識別中廣泛應(yīng)用并取得一定成果。本文將重點(diǎn)研究深度學(xué)習(xí)理論在手勢識別方向的應(yīng)用。具體闡述如下。
深度學(xué)習(xí)本身是一種算法,其區(qū)別于云計(jì)算和并行處理能力。對于識別領(lǐng)域而言,對某個(gè)目標(biāo)或?qū)ο蟮淖R別需經(jīng)歷傳感器獲取基本參數(shù)、對基本參數(shù)進(jìn)行預(yù)處理,對相關(guān)特征進(jìn)行提取,結(jié)合提取結(jié)果通過推理、預(yù)測后完成識別任務(wù)。傳統(tǒng)識別系統(tǒng)中對特征的推力、預(yù)測和識別由機(jī)器完成;而對特征提取等由人為進(jìn)行,該項(xiàng)操作的工作量也很大,一旦提取特征存在偏差將導(dǎo)致后續(xù)機(jī)器的識別精度。因此,基于機(jī)器完成對對象或目標(biāo)的特征提取不僅可解決工作量繁重的目標(biāo),而且還能夠解決參數(shù)提取特征的精度。
深度學(xué)習(xí)就是由機(jī)器完成對象特征的提取,正好與上述需求契合。深度學(xué)習(xí)網(wǎng)絡(luò)如圖1所示。
圖1 深度學(xué)習(xí)網(wǎng)絡(luò)
如圖1所示,深度學(xué)習(xí)最基礎(chǔ)的機(jī)制為對象的特征從底層傳遞至上層的過程中對各項(xiàng)參數(shù)特征和抽象信息進(jìn)行提取,其中所包含的信息眾多。與人腦學(xué)習(xí)機(jī)制不同,深度學(xué)習(xí)需要不斷訓(xùn)練才能獲得預(yù)期效果。
手勢識別的任務(wù)是基于深度學(xué)習(xí)分析出其中的內(nèi)涵,在整個(gè)識別過程中需經(jīng)歷檢測、跟蹤、識別三個(gè)流程。其中,檢測和跟蹤流程主要是對手與非手進(jìn)行區(qū)分;識別流程是對不同手勢進(jìn)行區(qū)分。實(shí)際上,檢測和跟蹤是保證識別準(zhǔn)確性的關(guān)鍵,即靜態(tài)手勢識別。因此,本節(jié)將重點(diǎn)對靜態(tài)手勢識別展開研究。為開展相關(guān)研究,制作相應(yīng)的手勢樣本,并為其賦予復(fù)雜的背景。
靜態(tài)手勢識別的核心內(nèi)容為采用最佳方法對手勢進(jìn)行識別?;谏疃葘W(xué)習(xí)可應(yīng)用于靜態(tài)手勢識別的方法包括采用深度網(wǎng)絡(luò)DBNs識別手勢、采用DNN方法進(jìn)行手勢識別、采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢識別、采用CNN和RBM聯(lián)合網(wǎng)絡(luò)進(jìn)行手勢識別。上述四種手勢識別方法與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的手勢識別方法相比,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)容易在學(xué)習(xí)訓(xùn)練過程中陷入循環(huán)且不容易從中間跳出,其對應(yīng)的訓(xùn)練學(xué)習(xí)速度較慢。本文將基于CNN方式對手勢進(jìn)行深度學(xué)習(xí),進(jìn)而實(shí)現(xiàn)識別的任務(wù)。并對不同訓(xùn)練樣本下不同迭代次數(shù)的錯(cuò)誤率進(jìn)行仿真分析,得出如圖2所示的結(jié)果。
圖2 靜態(tài)手勢識別錯(cuò)誤率仿真結(jié)果
如圖2所示,對著識別樣本數(shù)量的增加基于DNN方法識別的錯(cuò)誤率降低;而且,隨著深度學(xué)習(xí)迭代次數(shù)的增加,即加強(qiáng)學(xué)習(xí)的深度最終所獲取靜態(tài)手勢識別的錯(cuò)誤率明顯降低。
靜態(tài)手勢識別對應(yīng)的識別難度較低,而在實(shí)際應(yīng)用幾乎不存在靜態(tài)的情況。因此,針對復(fù)雜背景下手勢的識別應(yīng)重點(diǎn)開展研究。對于復(fù)雜背景下手勢的識別其主要難度在于待識別樣本中存在較大的噪聲,從而極大地增加了手勢識別的難度。
針對復(fù)雜背景下手勢的識別可采用DBNs網(wǎng)絡(luò)、DNN方法、RBM以及聯(lián)合網(wǎng)絡(luò)進(jìn)行訓(xùn)練。經(jīng)研究可得出如下結(jié)論:
(1)基于DBNs網(wǎng)絡(luò)對復(fù)雜背景下手勢的識別存在較大的困難,該方法對復(fù)雜手勢樣本的識別能力較弱;
(2)基于RBM方法對復(fù)雜背景下手勢的識別難度更大,該方法幾乎無法獲取復(fù)雜背景下手勢的參數(shù),同時(shí)還無法實(shí)現(xiàn)對復(fù)雜背景下手勢的重構(gòu)。
(3)基于DNN方法可實(shí)現(xiàn)對復(fù)雜背景下手勢的識別,其能夠在多次迭代次數(shù)達(dá)到收斂的效果。
綜合分析可知,用DBNs網(wǎng)絡(luò)、DNN方法、RBM以及聯(lián)合網(wǎng)絡(luò)對手勢識別的訓(xùn)練方法各有優(yōu)劣勢??偟膩碇v,可基于DNN方法實(shí)現(xiàn)對手勢識別的深度學(xué)習(xí)和訓(xùn)練,且其對應(yīng)的識別錯(cuò)誤率最低。
深度學(xué)習(xí)目前已經(jīng)應(yīng)用于各行各業(yè)中,雖然其在眾多行業(yè)中已經(jīng)應(yīng)用,但是實(shí)際應(yīng)用中對應(yīng)的訓(xùn)練方式、學(xué)習(xí)順序、數(shù)據(jù)處理等依然存在問題。本文重點(diǎn)研究深度學(xué)習(xí)理論和相關(guān)技術(shù)在手勢識別中的應(yīng)用,并總結(jié)得出如下結(jié)論:
對目前應(yīng)用較為廣泛的兩種深度學(xué)習(xí)方法進(jìn)行對比,包括以RBM為基礎(chǔ)的深度網(wǎng)絡(luò)和CNN深度網(wǎng)絡(luò)。經(jīng)仿真分析可知,CNN深度網(wǎng)絡(luò)針對靜態(tài)和復(fù)雜背景下手勢識別可以保證最高的識別準(zhǔn)確率;以RBM為基礎(chǔ)的深度網(wǎng)絡(luò)僅對靜態(tài)手勢的識別準(zhǔn)確率滿足要求,而針對復(fù)雜背景的識別效果不佳。因此,針對實(shí)際應(yīng)用中的手勢識別可以采用CNN深度網(wǎng)絡(luò)開展對靜態(tài)和復(fù)雜背景下的深度學(xué)習(xí)和訓(xùn)練。