• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向網(wǎng)頁交互場景下的手勢識別改進算法研究*

      2021-05-08 06:10:50周思昀施水才
      通信技術(shù) 2021年4期
      關(guān)鍵詞:精準(zhǔn)度手勢分類器

      周思昀,施水才

      (北京信息科技大學(xué) 計算機學(xué)院,北京 100192)

      0 引言

      相較于語言和文字,手勢是一種更加自然的交互方式。手勢識別技術(shù)使用戶能夠通過手勢對計算機下達指令,從而進行一系列操作,在人機交互、智能駕駛等領(lǐng)域均具有重要意義[1-3]。隨著計算機的普及,更加自然簡單的交互方式成為當(dāng)下的發(fā)展需求。利用手勢進行交互,可有效避免使用計算機的復(fù)雜性,使得用戶不需要進行專業(yè)性訓(xùn)練即可與計算機進行交互。此外,手勢識別作為非接觸式的交互方式,一定程度上更加方便快捷[4]。例如,應(yīng)用于智能家居領(lǐng)域時,用戶不需要與屏幕進行接觸即可完成交互。在當(dāng)下的疫情環(huán)境期間,采用非接觸式的手勢識別輸入指令,可避免接觸公共設(shè)施的屏幕,如快遞取件箱輸入驗證碼提取快遞,能夠有效避免人與人之間的病毒傳播。因此,在諸多方面來看,非接觸式手勢識別的研究對計算機技術(shù)的發(fā)展有著重要的促進作用,也具有對其應(yīng)用的現(xiàn)實意義[5]。

      使用手勢與網(wǎng)頁進行交互的過程中,存在著背景復(fù)雜度和計算機攝像頭所獲取的圖像像素過低的問題。針對手勢檢測問題,林海波等人提出一種通過使用深度圖像分割出手勢目標(biāo)的方式對手勢進行提取[6]。張強等人提出一種基于改進YOLOv3的手勢實時識別方法對深度圖像進行目標(biāo)識別[7]。這兩種方式都對深度圖像信息進行分析,在實際應(yīng)用中對硬件設(shè)備需求較高,因此更適用于交互游戲機或?qū)嶒炇噎h(huán)境。王龍等人采用通過對膚色進行檢測獲取手勢目標(biāo)的方式,解決了在設(shè)備限制的情況下采用計算機視覺的方式對手勢進行提取[8-10]。但是,以上實驗均在簡單背景的實驗室環(huán)境下進行,對復(fù)雜環(huán)境的手勢識別精準(zhǔn)度低于使用深度圖像的識別。因此,本文提出了一種針對復(fù)雜背景情況下的低像素二維圖像手勢目標(biāo)提取方法,采用色彩空間轉(zhuǎn)換后的膚色提取和改進后的邊緣提取相結(jié)合的方法,利用卷積神經(jīng)網(wǎng)絡(luò)進行特征提取和分類,再進一步使用支持向量機(Supportive Vector Machine,SVM)分類方法進行分類,通過分割閾值選取最優(yōu)結(jié)果,有效提升了在復(fù)雜背景和計算識別量大的網(wǎng)頁交互環(huán)境下手勢識別的精準(zhǔn)度。

      1 研究方法

      1.1 流程設(shè)計

      針對應(yīng)用場景進行創(chuàng)新,將手勢識別應(yīng)用于網(wǎng)頁交互領(lǐng)域,實驗流程如圖1所示。

      圖1 數(shù)字手勢模型流程

      為解決在網(wǎng)頁交互使用場景下存在目標(biāo)圖像背景復(fù)雜的問題,設(shè)計圖像預(yù)處理方法,對原始圖像進行處理,提升訓(xùn)練的精準(zhǔn)度。通過自適應(yīng)曝光增強算法與色彩空間轉(zhuǎn)換,消除亮度對膚色提取的影響,最終實現(xiàn)初始圖像中手部的提取。將獲得的手部輪廓作為輸入數(shù)據(jù),使用經(jīng)過優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進行特征提取分類,并通過SVM分類實現(xiàn)對手勢的分類,進而經(jīng)過篩選選定合適的結(jié)果,最終生成數(shù)字手勢識別的模型。

      1.2 手勢圖像的獲取

      手勢識別圖像拍攝于實驗室環(huán)境,通過攝像頭對6組手勢進行拍攝。為了避免因樣本量太少而導(dǎo)致訓(xùn)練不足,通常使用如彈性變形、噪聲和仿射變換之類的方法進行樣本擴展。本文提出的波形失真方法可以在不改變手勢結(jié)構(gòu)的情況下結(jié)合平移、旋轉(zhuǎn)和縮放來創(chuàng)建偽樣本,并實現(xiàn)樣本擴展。波形失真是一種通過正弦函數(shù)轉(zhuǎn)換原始圖像坐標(biāo)的算法,可表示為:

      通過調(diào)整正弦函數(shù)的幅度A和周期T,可以快速生成大量樣本。將正弦波的振幅和周期分別控制在間隔[0,6]和[80,120]中時,旋轉(zhuǎn)角度的字符在±30°之內(nèi),水平和垂直平移范圍在10%,縮放比例為10%,并隨機生成30個偽樣本圖像,共計獲得圖像12 000張,其中手勢圖像9 000張(每種手勢基礎(chǔ)圖像150張,通過旋轉(zhuǎn)縮放創(chuàng)建1 450張),非手勢的純背景干擾圖像3 000張,如圖2所示。隨機抽取900張手勢圖像和300張背景圖像作為測試樣本。

      圖2 訓(xùn)練手勢數(shù)據(jù)

      1.3 圖像預(yù)處理

      圖像預(yù)處理對于應(yīng)用于網(wǎng)頁的手勢識別系統(tǒng)意義重大。應(yīng)用于網(wǎng)頁交互的手勢圖像由于用戶的不確定性,往往具有背景復(fù)雜、亮度不確定的特點。圖3為復(fù)雜背景下的手勢圖像。手勢圖像的背景會對手勢獲取產(chǎn)生影響。本文中采用優(yōu)化參數(shù)的自適應(yīng)曝光算法,在圖像亮度過低時對圖像進行曝光處理,提高了手勢目標(biāo)提取的精準(zhǔn)度。此外,對于復(fù)雜的背景圖像,采用曝光處理能夠更好地區(qū)分前背景,在膚色檢測的步驟中避免背景中存在與膚色相近的顏色而對手勢目標(biāo)的提取產(chǎn)生影響。

      圖3 復(fù)雜背景下的手勢

      由圖4和圖5對比可知,采用優(yōu)化后的自適應(yīng)曝光算法能夠有效避免光線過暗帶來的影響,從而順利實現(xiàn)對手勢目標(biāo)的提取。

      圖4 未采用曝光算法的手勢

      圖5 采用曝光算法的手勢

      應(yīng)用于網(wǎng)頁交互的手勢識別的識別速度會對用戶體驗感產(chǎn)生影響。多余信息會對訓(xùn)練速度和后續(xù)的識別速度產(chǎn)生影響。為降低訓(xùn)練圖像噪點,減少圖像細節(jié),對目標(biāo)圖像進行高斯濾波。高斯模糊的實現(xiàn)是將原始圖像以正態(tài)分布進行卷積。二維高斯函數(shù)公式如下:

      如圖6所示,將圖像通過該式(2)轉(zhuǎn)化為被濾波后的圖像噪聲將明顯降低,能夠有效減少后續(xù)處理工作量。

      通過膚色檢測提取手勢的方法通常受到環(huán)境燈光或亮度的影響。本文根據(jù)Garcia等人提出的通過色彩空間轉(zhuǎn)換分離強度或亮度的方法[11],選擇Ostu閾值篩選算法對膚色進行提取。該方法使用YCbCr和HSV膚色子空間的近似值進行顏色聚類和過濾,以避免不同照明的影響[12]。

      圖6 高斯濾波處理

      RGB轉(zhuǎn)換為YCbCr的公式如下:

      式中,Y表示亮度,Cb表示藍色光分量,Cr表示紅色光分量。通過提取其中的Cr分量,對Cr進行Ostu二值化的分割獲取掩膜。本文使用的Ostu方法設(shè)置閾值是一種自適應(yīng)閾值二值化方法,采用聚類的思想,將圖像中的像素點按照灰度級進行區(qū)分。通過分析不同的像素點改變閾值,以實現(xiàn)皮膚顏色的自動檢測,最后通過腐蝕膨脹算法整理邊緣,過程如圖7所示。

      圖7 圖像預(yù)處理過程

      輪廓檢測基于邊緣中像素亮度的劇烈變化。根據(jù)邊緣的原因,對每個像素應(yīng)用微分方法或微分方法,以檢測灰度顯著變化的像素并將其標(biāo)記下來,如圖8所示。可見,邊緣檢測大大減少了數(shù)據(jù)量,分離了無關(guān)信息,并保留了主要結(jié)構(gòu)。

      1.4 基于CNN的特征提取方法

      本文通過對卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造進行調(diào)整,使用共享權(quán)值的稀疏連接并添加稀疏過濾器,有效提升了應(yīng)用于網(wǎng)頁的手勢識別訓(xùn)練速度和識別速度。卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層和池化層組成,通過設(shè)置卷積核在輸入的預(yù)處理后的圖像滾動對圖像的特征進行提取[13-14]。卷積神經(jīng)網(wǎng)絡(luò)是由神經(jīng)元組成的網(wǎng)絡(luò)系統(tǒng)結(jié)構(gòu),通過對各層之間進行相互連接形成整個神經(jīng)網(wǎng)絡(luò)。

      圖8 輪廓提取

      卷積神經(jīng)網(wǎng)絡(luò)的采樣層可以表示為:

      在權(quán)值初始化后,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)樣本按順序經(jīng)過卷積層、下采樣層和全連接層,通過向下傳播的方式獲取最后結(jié)果。但是,應(yīng)用于圖像識別中的卷積神經(jīng)網(wǎng)絡(luò)由于隱藏單元較多,將會出現(xiàn)連接權(quán)值過大的問題。此外,迭代次數(shù)的選定也將對訓(xùn)練結(jié)果產(chǎn)生影響[15]。例如,訓(xùn)練輪數(shù)過多可能產(chǎn)生數(shù)據(jù)過擬合或者局部最優(yōu)解的問題;訓(xùn)練輪數(shù)過少將會影響識別的精準(zhǔn)度,導(dǎo)致特征提取不充分等問題。因此,需采用共享權(quán)值的稀疏連接并通過稀疏濾波器進行特征提取,以降低神經(jīng)網(wǎng)絡(luò)數(shù)量級。全連接、稀疏連接對比如圖9所示。

      圖9 全連接與稀疏連接

      本文將特征識別分為兩個方面,分別對手掌和手指的特征進行提取,最后通過全連接將兩種特征進行權(quán)值計算生成整個手勢的特征。為避免不同指標(biāo)具有不同的量綱和量綱單位,先對輸入的圖像數(shù)據(jù)進行歸一化處理,具體計算公式如下:

      將手勢圖像的像素轉(zhuǎn)換成100×100后輸入卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)中共設(shè)置4層卷積層。第一層卷積層中包含32個稀疏濾波器,卷積核尺寸選擇5×5,步長選擇為2。隨著層數(shù)的增加,稀疏濾波器的數(shù)量隨之增加。在卷積層中,稀疏濾波器將對圖像特征進行優(yōu)化。

      具有N個樣本的數(shù)據(jù)集稀疏濾波函數(shù)的目標(biāo)函數(shù)為:

      總體CNN算法網(wǎng)絡(luò)架構(gòu)如圖10所示。

      圖10 CNN網(wǎng)絡(luò)架構(gòu)

      池化層緊隨卷積層后,采用下采樣的方式進一步對特征圖進行壓縮,去除冗余。池化層算法選擇方面,根據(jù)數(shù)字手勢識別的特點,特殊特征值比平均特征值更重要。在池化層中選擇最大池化的算法對數(shù)據(jù)進行處理,即在特征圖中尋找最大值。這樣可以減少計算時間,提高不同空間位置特征的魯棒性。

      池化算法的一般表達式為:

      式中,l代表目前池化層數(shù),down(·)代表池化函數(shù)。

      將下一卷積層中的濾波器個數(shù)設(shè)置為64,輸入數(shù)據(jù)為上一池化層輸出的結(jié)果。通過第2層卷積層后,圖像尺寸縮小為50×50,后續(xù)卷積層做相同處理,最終得到6個大小為6×6的特征映射圖。進一步與下層全連接層相連,構(gòu)成完整的卷積神經(jīng)網(wǎng)絡(luò)。

      設(shè)置3層全連接層對獲得特征圖進行聚類,可見層數(shù)的增加提升了模型非線性表達能力。逐層降低全連接層的輸出單元數(shù),已達到對不同數(shù)字手勢特征圖像進行分類的目的,最終由1 024個特征類別抽象為6個數(shù)字手勢類別。全連接層的激活函數(shù)選取修正線性函數(shù)(ReLU)的改進函數(shù)Leaky ReLu。該函數(shù)為非飽和函數(shù),能夠有效解決梯度消失的問題。此外,該函數(shù)是非線性的,能夠反向傳播錯誤并激活多個神經(jīng)元。若輸入值為負(fù),將為所有負(fù)值分配一個非零的斜率,避免了ReLu函數(shù)在訓(xùn)練過程中由于將負(fù)值設(shè)置為0導(dǎo)致的問題。

      1.5 SVM-CNN組合分類器

      在使用CNN卷積神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行分類后,再使用SVM分類器。當(dāng)分類結(jié)果產(chǎn)生沖突時,采用SoftMax算法輸出最大值判決確定最終的結(jié)果,如圖11所示。卷積神經(jīng)網(wǎng)絡(luò)與支持向量機的組合算法能夠?qū)⒂?xùn)練識別的精準(zhǔn)度提升2%~3%。支持向量機分類器是機器學(xué)習(xí)中常用的二分類處理方法。在樣本類別為K的情況下,需要K(K-1)/2個SVM子分類器確定分類結(jié)果。

      SVM與CNN兩種分類器模型具有相對獨立性。通過選取適當(dāng)?shù)拈撝礣H,對結(jié)果的選擇進行判定。若SVM的分類結(jié)果不小于TH,則選擇SVM分類器結(jié)果作為手勢識別的最終結(jié)果;反之,則選擇CNN分類器的分類結(jié)果。本文采取通過驗證集評估的方式估計最優(yōu)閾值。通過設(shè)定不同閾值對測試集進行驗證分類結(jié)果的正確性,最終確定正確率Pc與閾值TH之間的函數(shù)關(guān)系Pc(TH),從而獲得合適的組合分類器的分割閾值。由于閾值區(qū)間可能存在多個峰值,選取(tmin+tmax)/2作為組合算法的最終閾值。

      圖11 SVM-CNN組合分類器

      2 實驗結(jié)果與分析

      實驗硬件平臺為Intel Core i7 2.6 GHz 6核,軟件平臺為TensorFlow 1.14.0,數(shù)據(jù)集為百度AI studio數(shù)字手勢數(shù)據(jù)集。

      在框架下實驗使用百度AI studio數(shù)字手勢數(shù)據(jù)集對優(yōu)化后的SVM-CNN組合分類器進行驗證。訓(xùn)練過程中,采用隨機梯度下降法最小化訓(xùn)練誤差。圖12為20輪訓(xùn)練下手勢識別精準(zhǔn)度的區(qū)別,在訓(xùn)練到5~6輪時訓(xùn)練數(shù)據(jù)開始收斂。此外,輪數(shù)的提高可以有效提高手勢識別的精準(zhǔn)度。

      由實驗結(jié)果可知,使用自適應(yīng)曝光算法調(diào)整后的YCrCb色彩空間的膚色檢測算法能夠準(zhǔn)確提取目標(biāo)手勢,避免了光照和復(fù)雜背景環(huán)境對數(shù)字手勢識別的影響。采用高斯濾波對圖像進行降噪處理,能夠在一定程度上減少訓(xùn)練計算量和訓(xùn)練時間。

      從表1結(jié)果可知,使用SVM-CNN組合的分類器模型對數(shù)字手勢識別的精準(zhǔn)度有所提升。單一的SVM模型對手勢的識別正確率為97.28%,而傳統(tǒng)的CNN模型具有96.94%的識別率。由于缺少權(quán)值共享,上層網(wǎng)絡(luò)不能很好地服務(wù)于下層網(wǎng)絡(luò)。改進的SVM-CNN分類算法相較于單一模型的分類算法,具有更好的準(zhǔn)確性。

      如表2所示,在訓(xùn)練時間方面,單一模型的訓(xùn)練速度相較于組合模型的訓(xùn)練速度快。改進的SVM與CNN的組合算法由于添加了分割閾值進行判定結(jié)果選擇,速度相較于單一模型來說并不具有優(yōu)勢,但是識別效果具有顯著提升。此外,SVM與CNN的組合算法應(yīng)用了稀疏矩陣和權(quán)值共享,降低了計算的復(fù)雜程度,一定程度上縮短了訓(xùn)練時間,因此時間差距并不明顯。

      圖12 不同訓(xùn)練輪數(shù)下識別精準(zhǔn)度變化(SVM+CNN)

      表1 算法正確率對比

      表2 訓(xùn)練時間對比

      為達到實時效果,通常視頻采用28 fps作為標(biāo)準(zhǔn),即每秒鐘播放28幀圖像。實驗中對手勢模型的測試結(jié)果為如表3所示。

      表3 各手勢識別時間

      該結(jié)果通過對本文所提出模型使用Python自帶圖形化工具tKinter創(chuàng)建交互界面,實時獲取手勢數(shù)據(jù)并計算平均識別時間獲得。不同的手勢由于提取特征的不同,在識別時間上略有差距。本文實驗?zāi)P妥R別時間在50 ms左右,距離實時處理略有差距,但為實時識別處理墊底研究基礎(chǔ),在實際應(yīng)用中可考慮適當(dāng)提高硬件性能以達到實時效果。手勢識別的準(zhǔn)確率平均可達95.76%,識別精準(zhǔn)度較高。通過對手勢添加指令能夠有效獲取當(dāng)前鼠標(biāo)位置并對鼠標(biāo)進行移動,或下達對網(wǎng)頁放大縮小的指令。

      3 結(jié)語

      本文根據(jù)應(yīng)用于網(wǎng)頁交互的手勢識別的特點改進手勢提取算法,有效通過圖像預(yù)處理和膚色識別對目標(biāo)手勢進行提取和跟蹤,并實現(xiàn)使用SVMCNN組合算法正確識別手勢0~5。通過實驗可以看出,使用SVM-CNN的組合算法對手勢進行識別具有可行性。在模型訓(xùn)練過程中,需要測試不同的參數(shù),以提高訓(xùn)練模型準(zhǔn)確性,如更改不同的學(xué)習(xí)率和使用不同的激活函數(shù)。

      未來研究將集中研究更有效的手勢跟蹤和手勢識別方法,記錄和識別手勢運動的軌跡。在將手勢識別應(yīng)用于網(wǎng)頁交互的過程中,可繼續(xù)獲取每一次交互產(chǎn)生的數(shù)據(jù),并對此進行進一步的學(xué)習(xí),以完善該應(yīng)用。此外,可研究其他關(guān)于動態(tài)手勢在運動過程中產(chǎn)生的動態(tài)模糊的問題的健壯和有效方法,以便將系統(tǒng)組件集成到具有主動視覺系統(tǒng)的擬人化自主機器人的手勢接口和虛擬環(huán)境應(yīng)用中。

      猜你喜歡
      精準(zhǔn)度手勢分類器
      BH66F5355 增強型24-bit A/D MCU
      傳感器世界(2023年5期)2023-08-03 10:38:18
      讓黨建活動更加有“味”——禮泉縣增強“兩新”黨建精準(zhǔn)度
      挑戰(zhàn)!神秘手勢
      V字手勢的由來
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      論提高不動產(chǎn)產(chǎn)權(quán)保護精準(zhǔn)度的若干問題
      勝利的手勢
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      機械加工過程中的機械振動分析
      中國機械(2014年15期)2014-04-29 00:09:45
      涟水县| 泰顺县| 安溪县| 长兴县| 沈丘县| 丹阳市| 盐亭县| 昭觉县| 墨竹工卡县| 烟台市| 海原县| 长阳| 蛟河市| 扎鲁特旗| 庆云县| 丘北县| 盈江县| 新竹县| 临夏市| 景泰县| 宁强县| 偏关县| 霍州市| 疏附县| 平昌县| 克东县| 卢湾区| 香格里拉县| 广丰县| 民和| 台安县| 黎川县| 长宁区| 佛教| 聂荣县| 青川县| 洛扎县| 郴州市| 含山县| 民丰县| 临西县|