閆顥月,王 偉,田 澤
1.西安工程大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,西安 710048
2.集成電路與微系統(tǒng)設(shè)計(jì)航空科技重點(diǎn)實(shí)驗(yàn)室,西安 710068
隨著人機(jī)交互技術(shù)的不斷發(fā)展,人們的生活變得越來(lái)越智能化。傳統(tǒng)的人機(jī)交互方式是通過(guò)鼠標(biāo)、鍵盤及手柄等設(shè)備來(lái)實(shí)現(xiàn)的接觸式人機(jī)交互。而隨著語(yǔ)音識(shí)別、手勢(shì)識(shí)別等技術(shù)的發(fā)展,非接觸式的交互方式已成為目前主流的研究方向之一。手勢(shì)作為一種肢體語(yǔ)言,具有簡(jiǎn)單、直接、便捷等特點(diǎn),通過(guò)手勢(shì)識(shí)別實(shí)現(xiàn)的人機(jī)交互方式可用于車載座艙控制、航空航天、智能家居、智慧教育等領(lǐng)域,是未來(lái)人機(jī)交互技術(shù)的研究熱點(diǎn)之一。例如將手勢(shì)識(shí)別用于智能家居領(lǐng)域,那么只需通過(guò)簡(jiǎn)單的手勢(shì)即可實(shí)現(xiàn)對(duì)家居的遠(yuǎn)程控制,給人們的生活帶來(lái)了極大的便利。但是在實(shí)際的應(yīng)用中,因易受周圍環(huán)境的影響,使得算法在復(fù)雜環(huán)境(如光線、背景、距離、膚色)下進(jìn)行手勢(shì)識(shí)別仍面臨諸多困難。
手勢(shì)有靜態(tài)和動(dòng)態(tài)之分,動(dòng)態(tài)手勢(shì)可看作是由一系列相互關(guān)聯(lián)的靜態(tài)手勢(shì)組成,因此靜態(tài)手勢(shì)識(shí)別是研究動(dòng)態(tài)手勢(shì)及其應(yīng)用的重要基礎(chǔ),故本文以靜態(tài)手勢(shì)識(shí)別為研究對(duì)象。
迄今為止,手勢(shì)識(shí)別技術(shù)已經(jīng)經(jīng)歷了多個(gè)階段的發(fā)展,傳統(tǒng)的手勢(shì)識(shí)別通常是基于傳感器的方法和基于計(jì)算機(jī)視覺(jué)的方法進(jìn)行研究?;趥鞲衅鞯氖謩?shì)識(shí)別方法,通常需要借助硬件設(shè)備來(lái)獲取和識(shí)別手勢(shì)信息[1-3],例如可穿戴式數(shù)據(jù)手套、Leap Motion、Kinect等。這類方法雖然識(shí)別速度快,精確度高且不易受到外部復(fù)雜環(huán)境變化的影響,但需要借助硬件設(shè)備才能實(shí)現(xiàn)且操作不便捷,硬件設(shè)備價(jià)格昂貴。基于視覺(jué)的手勢(shì)識(shí)別方法主要是通過(guò)深度相機(jī)、顏色空間(RGB[4]、HSV[5]、YCbCr[6])或膚色檢測(cè)的方法對(duì)手勢(shì)區(qū)域進(jìn)行分割,然后對(duì)分割后的手勢(shì)通過(guò)模板匹配[7]、支持向量機(jī)(support vector machine,SVM)[8-9]等方法進(jìn)行識(shí)別,這些方法都是通過(guò)人工設(shè)計(jì)提取特征實(shí)現(xiàn)的,容易受到環(huán)境因素影響使得模型的魯棒性差,從而造成手勢(shì)識(shí)別率低的問(wèn)題。
近年來(lái),隨著深度學(xué)習(xí)的出現(xiàn),許多學(xué)者為了克服人工提取特征過(guò)程的復(fù)雜性,試圖將深度學(xué)習(xí)的方法用于復(fù)雜環(huán)境下的手勢(shì)識(shí)別,以期較大程度提升手勢(shì)識(shí)別率。例如,王龍等人[10]通過(guò)構(gòu)建膚色模型對(duì)手勢(shì)區(qū)域進(jìn)行檢測(cè),并利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)手勢(shì)進(jìn)行特征提取和識(shí)別,但這種基于膚色檢測(cè)的方法易受復(fù)雜環(huán)境下的光照、膚色等因素影響,導(dǎo)致算法的泛化能力和魯棒性較差。Mohanty等人[11]對(duì)原始圖像直接利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)進(jìn)行手勢(shì)識(shí)別,當(dāng)原圖像中存在膚色和背景顏色相近情況時(shí),CNN 不能直接學(xué)習(xí)到有效的信息,從而導(dǎo)致較高的誤檢率。隨著深度學(xué)習(xí)中目標(biāo)檢測(cè)算法的快速發(fā)展,越來(lái)越多的研究者發(fā)現(xiàn)將目標(biāo)檢測(cè)算法用于復(fù)雜環(huán)境下的手勢(shì)識(shí)別,有利于提高手勢(shì)識(shí)別性能。例如,Chang等人[12]使用Faster R-CNN算法進(jìn)行手勢(shì)識(shí)別并利用高斯濾波器對(duì)圖像數(shù)據(jù)進(jìn)行預(yù)處理。Ding 等人[13]提出將神經(jīng)網(wǎng)絡(luò)和SSD(single shot multibox detector)結(jié)構(gòu)結(jié)合來(lái)提取手勢(shì)關(guān)鍵點(diǎn)。文獻(xiàn)[12-13]雖然可以提高在光線和膚色等影響因素下的手勢(shì)識(shí)別率,但因模型較大且檢測(cè)時(shí)間較長(zhǎng),在復(fù)雜環(huán)境下難以滿足檢測(cè)的實(shí)時(shí)性。因此,彭玉青等人[14]通過(guò)改進(jìn)YOLO(you only look once)提出DSN算法對(duì)手勢(shì)進(jìn)行檢測(cè),并通過(guò)CNN 進(jìn)行識(shí)別。該算法不僅提高了手勢(shì)在光照不均勻、背景近膚色影響因素下的識(shí)別率,也提高了檢測(cè)速度,基本實(shí)現(xiàn)了對(duì)目標(biāo)的實(shí)時(shí)檢測(cè),但該算法對(duì)于復(fù)雜環(huán)境下的小尺度手勢(shì)的檢測(cè)效果較差。而最新提出的YOLOv5 算法相較于其他的YOLO系列算法,識(shí)別精度更高,識(shí)別速度更快,具有較強(qiáng)的實(shí)時(shí)性。雖然YOLOv5 模型已在大型公開數(shù)據(jù)集上達(dá)到較好的性能,但是針對(duì)特定的檢測(cè)對(duì)象,仍需根據(jù)所選數(shù)據(jù)集的不同特點(diǎn)對(duì)網(wǎng)絡(luò)進(jìn)行一定的改進(jìn)以提高模型對(duì)特定目標(biāo)的檢測(cè)性能。如錢伍等人[15]通過(guò)修改主干網(wǎng)絡(luò)卷積和構(gòu)建特征融合網(wǎng)絡(luò),提高了網(wǎng)絡(luò)對(duì)小目標(biāo)交通燈的檢測(cè)能力。雖然較高的手勢(shì)識(shí)別率具有重要的應(yīng)用,但現(xiàn)有的YOLOv5模型直接用于復(fù)雜環(huán)境下的手勢(shì)識(shí)別存在以下問(wèn)題:(1)在識(shí)別光照不均勻情況下的手勢(shì)時(shí),算法的泛化能力和魯棒性較差;(2)當(dāng)膚色與復(fù)雜背景中的其他物體顏色混淆時(shí),算法易產(chǎn)生較高的誤檢率;(3)在識(shí)別遠(yuǎn)距離或小尺度的手勢(shì)時(shí),算法易產(chǎn)生較高的漏檢和較低的識(shí)別率等缺陷。
針對(duì)目前手勢(shì)識(shí)別存在的問(wèn)題,如在光照不均勻、背景近膚色、復(fù)雜環(huán)境下手勢(shì)尺度較小導(dǎo)致手勢(shì)漏檢、誤檢以及識(shí)別率不高等,本文提出了一種基于改進(jìn)YOLOv5 網(wǎng)絡(luò)的手勢(shì)識(shí)別方法HD-YOLOv5s。首先采用自適應(yīng)Gamma 圖像增強(qiáng)方法對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,消除復(fù)雜環(huán)境下光照變化對(duì)手勢(shì)識(shí)別效果的影響;對(duì)于復(fù)雜環(huán)境中的背景干擾問(wèn)題,將動(dòng)態(tài)選擇機(jī)制網(wǎng)絡(luò)中的注意力機(jī)制模塊SK加入到特征提取網(wǎng)絡(luò)的末端特征提取層,通過(guò)對(duì)不同尺度的圖像自適應(yīng)調(diào)整卷積核的大小,更有利于提取到有效特征,提高網(wǎng)絡(luò)的特征提取能力;最后將特征融合網(wǎng)絡(luò)中的PANet結(jié)構(gòu)更換為調(diào)整過(guò)的雙向特征金字塔結(jié)構(gòu)BiFPN,提高復(fù)雜環(huán)境中小尺度手勢(shì)的識(shí)別率。
YOLOv5是一種用于目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型,隨著網(wǎng)絡(luò)深度和權(quán)重的不斷增加,YOLOv5依次分為YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四個(gè)版本。其中YOLOv5s模型最小,且推理速度較快。YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取網(wǎng)絡(luò)Backbone、特征融合網(wǎng)絡(luò)Neck、檢測(cè)網(wǎng)絡(luò)Prediction三部分。
Backbone 包括CSPDarknet、Focus 和SPP(spatial pyramid pooling)模塊,主要作用為提取圖像高(深)中低(淺)層的特征。YOLOv5的主干網(wǎng)絡(luò)為CSPDarknet53,相比于Darknet53網(wǎng)絡(luò)而言,C3_X模塊先將基礎(chǔ)層的特征映射劃分為兩部分,然后通過(guò)部分局部跨層融合的方法將它們合并,既解決了網(wǎng)絡(luò)優(yōu)化中的梯度信息重復(fù)導(dǎo)致的推理計(jì)算過(guò)高的問(wèn)題,又使整個(gè)網(wǎng)絡(luò)在減少了計(jì)算量的同時(shí)可以保證準(zhǔn)確率。為了提高網(wǎng)絡(luò)在特征提取時(shí)的效率,F(xiàn)ocus 模塊將主干網(wǎng)絡(luò)中輸入的特征圖進(jìn)行切片并拼接,壓縮網(wǎng)絡(luò)層數(shù),在保證檢測(cè)精度的同時(shí),有效降低了網(wǎng)絡(luò)計(jì)算量,提高了檢測(cè)速度。為了提取出圖像中的顯著特征,在CSPDarknet53 結(jié)構(gòu)的后面添加了SPP模塊,SPP結(jié)構(gòu)可以增大預(yù)測(cè)框的感受野,解決了目標(biāo)框和特征圖的對(duì)齊問(wèn)題,在提出最重要的上下文特征的同時(shí),又可以保證網(wǎng)絡(luò)運(yùn)行的速率。
Neck 的核心為特征金字塔(feature pyramid networks,F(xiàn)PN)[16]和路徑聚合網(wǎng)絡(luò)(path aggregation networks,PAN)[17],主要作用為增強(qiáng)網(wǎng)絡(luò)模型對(duì)不同縮放尺度對(duì)象的檢測(cè)。對(duì)于特征圖而言,深層的特征圖攜帶有更強(qiáng)的語(yǔ)義特征和較弱的定位信息。而淺層的特征圖攜帶有較強(qiáng)的位置信息和較弱的語(yǔ)義特征。對(duì)于FPN 網(wǎng)絡(luò)而言,其特征圖大小分為不同的尺度,可以對(duì)不同尺度做融合,F(xiàn)PN 把深層的語(yǔ)義信息傳遞到淺層,在多個(gè)尺度上提高了語(yǔ)義表達(dá)。而PAN則相反過(guò)來(lái)把淺層的位置信息傳遞到了深層,從而在多個(gè)尺度上提高了定位能力。
特征金字塔結(jié)構(gòu)PANet 是在FPN 的基礎(chǔ)上引入了自底向上的結(jié)構(gòu)。FPN 通過(guò)將深淺層特征信息進(jìn)行融合以達(dá)到提升目標(biāo)檢測(cè)的效果,尤其對(duì)于小尺度目標(biāo)檢測(cè)效果的提升尤為明顯。因?yàn)槟繕?biāo)檢測(cè)是像素級(jí)別的分類淺層特征,多為邊緣形狀等特征,所以網(wǎng)絡(luò)淺層特征信息對(duì)于目標(biāo)檢測(cè)非常重要。自底向上的結(jié)構(gòu)可以充分利用網(wǎng)絡(luò)淺層特征進(jìn)行分割,因此PANet在FPN的基礎(chǔ)上加了一個(gè)自底向上方向的增強(qiáng),使得深層特征圖也可以享受到淺層帶來(lái)的豐富的位置信息,從而提升大物體的檢測(cè)效果。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)只將網(wǎng)絡(luò)最深層的特征輸入到檢測(cè)層,導(dǎo)致小目標(biāo)特征在低層向高層傳遞中丟失,造成難以識(shí)別等檢測(cè)率低的問(wèn)題。YOLOv5 采用多尺度檢測(cè)的方法,將特征圖分別通過(guò)32 倍下采樣、16 倍下采樣、8 倍下采樣分為三種尺度,通過(guò)感受野的不同,實(shí)現(xiàn)大輸出特征圖檢測(cè)小物體,小輸出特征圖檢測(cè)大物體,克服了頂層特征的局限性。
本文提出的手勢(shì)識(shí)別方法HD-YOLOv5s 是以YOLOv5s模型為原型進(jìn)行改進(jìn)。HD-YOLOv5s模型的結(jié)構(gòu)如圖1 所示。HD-YOLOv5s 模型的各模塊結(jié)構(gòu)如圖2所示。圖1中對(duì)比原YOLOv5s模型結(jié)構(gòu),新增內(nèi)容用不同顏色標(biāo)出。
圖1 HD-YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 HD-YOLOv5s network structure
圖2 HD-YOLOv5各模塊結(jié)構(gòu)Fig.2 HD-YOLOv5s structure of each module
由于在復(fù)雜背景情境下,手勢(shì)目標(biāo)可能存在尺寸較小、背景近膚色等問(wèn)題,從而容易造成識(shí)別目標(biāo)尺度的多樣性,因此對(duì)于網(wǎng)絡(luò)模型的特征提取能力要求更高。注意力機(jī)制能夠提升網(wǎng)絡(luò)對(duì)模型特征的表達(dá)能力,強(qiáng)化重要特征,減弱一般特征,故本文采用融合注意力機(jī)制的方法增強(qiáng)網(wǎng)絡(luò)的特征提取能力。
而動(dòng)態(tài)選擇機(jī)制網(wǎng)絡(luò)(selective kernel neural network,SKNet)[18]采用了一種自適應(yīng)選擇機(jī)制。其優(yōu)點(diǎn)在于既考慮到了多個(gè)卷積核的作用,又使神經(jīng)元能夠根據(jù)不同尺寸的輸入信息選擇合適的卷積核大小,有效地調(diào)整了感受野的大小,從而使網(wǎng)絡(luò)更加關(guān)注重要特征的信息。相對(duì)而言,傳統(tǒng)卷積網(wǎng)絡(luò)在構(gòu)建時(shí)通常在同一層上僅采用一種卷積核,在進(jìn)行特征提取時(shí),每層網(wǎng)絡(luò)的卷積核大小是固定的,導(dǎo)致感受野大小也是確定的,而感受野尺度的大小能夠直接影響特征尺度的大小,因此在傳統(tǒng)卷積網(wǎng)絡(luò)中提取到的圖像特征較為單一,存在一定的局限性。盡管如Inception結(jié)構(gòu)為了適應(yīng)多尺度圖像,增加多個(gè)卷積核,但由于卷積核的權(quán)重都相同,訓(xùn)練完成后參數(shù)也是固定的,致使所有的多尺度信息被不加區(qū)分地全部使用。顯然,選擇動(dòng)態(tài)選擇機(jī)制網(wǎng)絡(luò)更有優(yōu)勢(shì)。
SKNet在SENet[19]網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合了多分支卷積網(wǎng)絡(luò)、空洞卷積和組卷積的思想,在關(guān)注通道間關(guān)系的同時(shí),也考慮到卷積核的作用。SKNet可以使網(wǎng)絡(luò)在提取特征時(shí)更加側(cè)重于對(duì)識(shí)別有用的通道,并自動(dòng)選擇最優(yōu)的卷積算子,進(jìn)一步改善識(shí)別性能。SKNet的操作分為分解(split)、融合(fuse)和選擇(select)三步,其結(jié)構(gòu)如圖3所示。
圖3 SKNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 SKNet network structure
具體步驟如下:
(1)分解。給定一個(gè)輸入特征X∈RH×W×C,進(jìn)行兩個(gè)卷積操作,卷積核分別為3×3和5×5,得到兩個(gè)輸出,為了進(jìn)一步提升效率,這里用dilation=2 的空洞卷積替代5×5 的卷積。
(2)融合。為了實(shí)現(xiàn)自適應(yīng)地調(diào)整感受野大小,首先將兩個(gè)分支結(jié)果通過(guò)逐元素求和的方法進(jìn)行融合,表述如下:
其次,對(duì)整合后的信息使用全局池化操作,獲取全局信息,如下式所示:
式中,F(xiàn)gp表示全局平均池化操作函數(shù),sc表示第c個(gè)通道的輸出,Uc(i,j)表示第c個(gè)通道的坐標(biāo),H為特征圖的高度,W為特征圖的寬度,其中i、j分別為特征圖高度和寬度的坐標(biāo)值。
最后,通過(guò)全連接層對(duì)sc進(jìn)行降維操作得到z,公式如下:
式中,F(xiàn)fc表示全連接操作函數(shù),δ表示非線性激活函數(shù),β為BN層,d表示用縮減比r控制全連接層,L為d的最小值,其中W∈Rd×c,z∈Rd×1。
(3)選取。首先生成通道的注意力,然后用來(lái)自適應(yīng)挑選不同規(guī)模的信息,表述如下:
式中,A,B∈Rc×d,ac,bc分別表示對(duì)應(yīng)的注意力向量,其中Ac表示第c行,ac表示a的第c個(gè)元素。
最后,將兩分支輸出的特征進(jìn)行加權(quán)融合得到Vc,公式如下:
其中,V=[V1,V2,…,Vc],Vc∈RH×W。
SKNet 是一個(gè)輕量級(jí)嵌入式的模塊,由多個(gè)SK(selective kernel)卷積單元組成,本文將SK卷積層加入到HD-YOLOv5s 主干網(wǎng)絡(luò)的末端C3 模塊后,使網(wǎng)絡(luò)更關(guān)注提取到有效特征。具體過(guò)程如下:設(shè)置初始特征圖大小為640×640×3,通道放縮系數(shù)為0.5,在經(jīng)過(guò)了1 次Focus 操作和4 次CBS 操作后末端C3 模塊的輸出特征圖大小為20×20×512,將其作為SK 模塊的輸入。首先通過(guò)分組卷積的方式將特征圖分別通過(guò)3×3和5×5的卷積核輸出兩個(gè)通道為512 的不同尺度的特征圖和。其次將兩個(gè)分支結(jié)果進(jìn)行逐元素加,經(jīng)過(guò)全局平均池化操作后輸出大小為1×1×512 的特征圖。然后經(jīng)過(guò)兩個(gè)全連接層進(jìn)行降維和升維操作后得到大小為1×1×d的特征圖,再經(jīng)過(guò)softmax 激活函數(shù)進(jìn)行動(dòng)態(tài)的自適應(yīng)調(diào)整,自動(dòng)選擇出最優(yōu)的卷積算子a和b,分別用來(lái)控制兩條分支的感受野特征圖。最后兩分支進(jìn)行加權(quán)融合計(jì)算后得到本層網(wǎng)絡(luò)的輸出結(jié)果,使網(wǎng)絡(luò)更加關(guān)注對(duì)識(shí)別有用的手勢(shì)信息。文獻(xiàn)[20-21]分別將SKNet 加入到Y(jié)OLOv3 和SSD網(wǎng)絡(luò)中,提高了網(wǎng)絡(luò)的特征提取能力,網(wǎng)絡(luò)的平均檢測(cè)精度值(mAP)也都有不同程度的提升。因此將SKNet添加到本文所提算法HD-YOLOv5s 中,以此來(lái)提高網(wǎng)絡(luò)的檢測(cè)性能。
本文的識(shí)別目標(biāo)為人的手部姿勢(shì),存在目標(biāo)較小、尺寸多樣的問(wèn)題。原始的YOLOv5s網(wǎng)絡(luò)模型使用特征金字塔網(wǎng)絡(luò)PANet 結(jié)構(gòu)來(lái)解決多尺度輸入的問(wèn)題。但由于輸入的手勢(shì)區(qū)域特征分辨率不同,PANet在融合不同的輸入特征時(shí),通常會(huì)不加區(qū)分地進(jìn)行融合,對(duì)于小目標(biāo)而言,仍然會(huì)出現(xiàn)誤檢和漏檢的情況。為了解決這一問(wèn)題,本文將采用調(diào)整過(guò)的加權(quán)雙向特征金字塔網(wǎng)絡(luò)替換PANet 進(jìn)行特征融合,進(jìn)一步提高模型的檢測(cè)效率,提升網(wǎng)絡(luò)對(duì)不同尺度手勢(shì)目標(biāo)的檢測(cè)效果。
谷歌大腦團(tuán)隊(duì)在EfficientDet 目標(biāo)檢測(cè)算法中提出了BiFPN[22],其主要思想可以概括為:有效的雙向跨尺度連接和加權(quán)特征融合。BiFPN 的特征融合方法是將雙向特征金字塔提取的特征加權(quán)后按像素求和。而原始的YOLOv5s算法則采取按通道維度進(jìn)行拼接的方式。因此本文將雙向特征金字塔BiFPN引入到Y(jié)OLOv5s模型的特征融合網(wǎng)絡(luò)中,采用按通道維度拼接方式進(jìn)行特征融合,并利用跨層級(jí)聯(lián)的方式,提高網(wǎng)絡(luò)特征融合能力。原始的YOLOv5s算法的特征融合網(wǎng)絡(luò)如圖4所示。
圖4 原始YOLOv5s算法的特征融合網(wǎng)絡(luò)Fig.4 Original YOLOv5s algorithm for feature fusion network
圖中Ci(i=2~5)表示前饋網(wǎng)絡(luò)提取到的多尺度特征。F表示C3_3算子,Pi表示輸出特征,2×指的是通過(guò)雙線性插值操作來(lái)實(shí)現(xiàn)兩倍的上采樣,0.5×表示下采樣。將主干網(wǎng)絡(luò)提取到的不同尺度的特征{C2,C3,C4,C5}輸入到特征融合網(wǎng)絡(luò)中,設(shè)置原圖分辨率為640×640,經(jīng)過(guò)雙向跨尺度連接和加權(quán)特征融合后,得到三個(gè)不同尺度的特征{P3,P4,P5}作為YOLOv5s 的檢測(cè)層,分辨率分別為20×20、40×40、80×80。
具體改進(jìn)如下:
(1)為了提高小目標(biāo)的識(shí)別準(zhǔn)確率,本文提出了一種充分利用低層級(jí)特征的特征融合方法。該方法充分利用P2特征,在特征融合中加入了高分辨率P2特征的信息。將用于檢測(cè)小目標(biāo)特征的P3與前一層級(jí)的特征C2 建立聯(lián)系,緩解由于網(wǎng)絡(luò)下采樣限制而間接導(dǎo)致的F3 特征的缺失,從而進(jìn)一步提高網(wǎng)絡(luò)對(duì)一部分小目標(biāo)的監(jiān)督能力。
(2)為了提高模型的效率,在網(wǎng)絡(luò)進(jìn)行自頂向下和自底向上的雙向特征融合的同時(shí),在同一尺度的輸入和輸出節(jié)點(diǎn)之間增加跨尺度橫向連接,這種跨層級(jí)的連接方式能夠?qū)⒈韺拥募?xì)節(jié)信息、邊緣信息、輪廓信息等整合到深層網(wǎng)絡(luò)中,從而在不增加計(jì)算量的情況下,實(shí)現(xiàn)對(duì)目標(biāo)邊緣的精確回歸,減少了網(wǎng)絡(luò)因?qū)蛹?jí)過(guò)多而造成的特征丟失。改進(jìn)后的特征融合網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 本文改進(jìn)的特征融合網(wǎng)絡(luò)Fig.5 Improved feature fusion network in this paper
圖5中紅色虛線表示跨層級(jí)聯(lián),跨層級(jí)聯(lián)表示在同一尺度的輸入節(jié)點(diǎn)到輸出節(jié)點(diǎn)之間增加一個(gè)跳躍連接,因?yàn)樗鼈冊(cè)谙嗤瑢?,所以可以在不增加太多?jì)算成本的同時(shí),融合更多的特征。如圖5 所示,為了減少計(jì)算量和縮短推理時(shí)間,本文并未在低層級(jí)的P2 特征上采用跨層加權(quán)融合,只是在獲取用于最終檢測(cè)的P3和P4特征時(shí)用了跨層加權(quán)融合,只是充分利用低層級(jí)的P2 特征,將高分辨率的特征信息引入到特征融合中,提高了檢測(cè)模型在小目標(biāo)檢測(cè)上的效果,有效提高了主干網(wǎng)絡(luò)在不同尺度手勢(shì)區(qū)域目標(biāo)檢測(cè)中的學(xué)習(xí)能力。
加權(quán)特征融合部分使用快速歸一化融合公式,如式(7)所示,其歸一化過(guò)程通過(guò)每個(gè)權(quán)值與全部權(quán)值加和得到,且歸一化權(quán)重的值在[0,1]之間,提高了GPU的運(yùn)行速度,減少了額外的時(shí)間成本。
在手勢(shì)數(shù)據(jù)集的采集過(guò)程中常常存在光照不均勻或背景近膚色等現(xiàn)象,該現(xiàn)象會(huì)導(dǎo)致圖片質(zhì)量下降,影響模型對(duì)手勢(shì)的識(shí)別效果,從而造成漏檢和誤檢的問(wèn)題。為了解決上述問(wèn)題,本文在原網(wǎng)絡(luò)的基礎(chǔ)上增加了一種自適應(yīng)調(diào)節(jié)對(duì)比度的圖像增強(qiáng)方法,即基于Retinex(Retina and Cortex)理論改進(jìn)的自適應(yīng)Gamma增強(qiáng)算法[23]。該算法的特點(diǎn)在于處理光照不均勻問(wèn)題時(shí)具有較好的對(duì)比度、自然性和時(shí)效性。對(duì)于目前常用的圖像增強(qiáng)算法如直方圖均衡化、Retinex算法等,在進(jìn)行圖像增強(qiáng)時(shí)會(huì)出現(xiàn)過(guò)度增強(qiáng)、顏色失真、光暈等問(wèn)題[24]?;赗etinex 的自適應(yīng)Gamma 增強(qiáng)算法可以根據(jù)圖像區(qū)域的明暗程度進(jìn)行自適應(yīng)的矯正,通過(guò)降低光照過(guò)強(qiáng)區(qū)域的圖像亮度,提高光照過(guò)低區(qū)域的圖像亮度,有效減弱圖像處理過(guò)程中的過(guò)度增強(qiáng)問(wèn)題,使圖像具有較好的對(duì)比度。其次,該算法通過(guò)自適應(yīng)矯正處理后保留了更多圖像的細(xì)節(jié)信息,可以減少圖像的顏色失真和光暈現(xiàn)象。此外,該算法在處理光照不均勻圖像時(shí)能夠根據(jù)光照分量的分布特性自適應(yīng)地調(diào)整Gamma 參數(shù),節(jié)省了人工設(shè)定Gamma值的時(shí)間。該圖像增強(qiáng)算法的主要步驟為:
(1)利用Retinex 理論將圖像的亮度分量和反射分量分離。
式中,Rc(x,y)表示被分離后的反射分量,Ic(x,y)表示RGB各個(gè)通道的亮度,L(x,y)表示圖像的亮度分量。
(2)利用自適應(yīng)Gamma 校正算法對(duì)亮度分量進(jìn)行矯正。
式中,Len(x,y)表示通過(guò)矯正后的亮度分量,γ(x,y)表示系數(shù)矩陣,表示亮度分量的累積分布函數(shù),Pω(l)表示各個(gè)亮度值的權(quán)值分布函數(shù):
式中,P(l)表示亮度分量的概率密度函數(shù),nl表示對(duì)應(yīng)的亮度包含的像素?cái)?shù),np表示亮度分量所含的像素總數(shù)。
(3)通過(guò)融合Len(x,y)和Rc(x,y)得到最終增強(qiáng)后的圖像,恢復(fù)原來(lái)圖像的顏色和細(xì)節(jié)。
通過(guò)矯正后的實(shí)驗(yàn)對(duì)比圖如圖6所示。
圖6 通過(guò)Gamma矯正前后的對(duì)比圖Fig.6 Pictures before and after correction by Gamma
實(shí)驗(yàn)結(jié)果表明,通過(guò)對(duì)光照不均勻的圖像進(jìn)行校正處理,不僅使預(yù)處理后的圖像清晰度得到了較大的提高,同時(shí)也增加了數(shù)據(jù)集中圖像的光照多樣性。將數(shù)據(jù)集進(jìn)行光照增強(qiáng)預(yù)處理,在提高手勢(shì)圖像質(zhì)量的同時(shí),也提高了手勢(shì)識(shí)別的準(zhǔn)確率和召回率。增加該圖像增強(qiáng)算法的HD-YOLOv5s手勢(shì)識(shí)別方法流程圖如圖7所示。
圖7 HD-YOLOv5s手勢(shì)識(shí)別方法流程圖Fig.7 Flowchart of HD-YOLOv5s hand gesture recognition method
本文采用NUS-II數(shù)據(jù)集[9],共有2 750個(gè)樣本,分為10類。數(shù)據(jù)集是通過(guò)在各種室內(nèi)和室外復(fù)雜環(huán)境下對(duì)40位不同手型和種族的實(shí)驗(yàn)人員采集而成的。該數(shù)據(jù)集中的手勢(shì)圖像具有不同的大小和尺寸,且膚色各異,背景復(fù)雜,符合本文的研究標(biāo)準(zhǔn)。數(shù)據(jù)集部分樣例如圖8所示。
圖8 NUS-II數(shù)據(jù)集樣例Fig.8 Sample in NUS-II dataset
自制手勢(shì)數(shù)據(jù)集采用紅外攝像頭進(jìn)行拍攝,在不同距離不同光照條件下分別對(duì)5 名實(shí)驗(yàn)人員進(jìn)行手勢(shì)采集,每名人員比出7種不同的手勢(shì),分別為數(shù)字手勢(shì)0~5以及手勢(shì)ok。為了獲得更多的數(shù)據(jù),本文采用數(shù)據(jù)增強(qiáng)的方法對(duì)采集的圖片進(jìn)行翻轉(zhuǎn)、縮放、移位等操作,對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。擴(kuò)充后的數(shù)據(jù)集,每個(gè)類有300 個(gè)樣本,總共2 100張圖片。
本文采用的手勢(shì)數(shù)據(jù)集均采用VOC 數(shù)據(jù)集格式,自制手勢(shì)數(shù)據(jù)集采用labelImage 標(biāo)注工具對(duì)格式為JPEGImages 的圖片進(jìn)行人工標(biāo)注,并將數(shù)據(jù)集中的2 100 個(gè)樣本按照9∶1 的比例劃分為訓(xùn)練集和測(cè)試集。自制手勢(shì)數(shù)據(jù)集的示例如圖9所示。
圖9 自制數(shù)據(jù)集樣例Fig.9 Sample in self-made dataset
為了更好地呈現(xiàn)對(duì)比實(shí)驗(yàn)前后的模型檢測(cè)性能,采用目前主流的目標(biāo)檢測(cè)算法的驗(yàn)證指標(biāo)進(jìn)行實(shí)驗(yàn)。本文采用的具體檢測(cè)指標(biāo)如下:
準(zhǔn)確率(Precision,P):模型預(yù)測(cè)的所有目標(biāo)中,預(yù)測(cè)正確的比例。
召回率(Recall,R):所有真實(shí)目標(biāo)中,模型預(yù)測(cè)正確的目標(biāo)比例。
式中,TP(true positives)表示手勢(shì)圖像的正確識(shí)別數(shù)目;FP(false positives)表示錯(cuò)誤辨識(shí)手勢(shì)圖像的數(shù)目;FN(false negatives)表示漏檢的手勢(shì)圖像數(shù)目。
平均精度(average precision,AP):數(shù)據(jù)集中單一類別的精度值,它的取值范圍是0 到1。因?yàn)槭褂?1 點(diǎn)插值采樣法會(huì)使模型在精度方面有損失,所以本文采用VOC 2010以后更改的AP值計(jì)算方法,定義如下:
式中,AP 是對(duì)P-R(Precision-Recall)曲線上的Precision值求均值。P-R曲線則是以召回率值為橫軸,準(zhǔn)確率值為縱軸,在坐標(biāo)軸上繪制出的一條曲線。首先對(duì)P-R曲線進(jìn)行平滑處理,即取所有真實(shí)的Recall 值都作為閾值,當(dāng)召回率r′大于每一個(gè)閾值時(shí),都會(huì)對(duì)應(yīng)得到一個(gè)最大的Precision值為Psmooth(r),然后用積分的方式計(jì)算平滑曲線下方的面積作為最終的AP值。
平均精度均值(mean average precision,mAP):數(shù)據(jù)集中所有類別AP 值的平均值,又稱識(shí)別率。計(jì)算公式如式(19)所示,其中k為識(shí)別目標(biāo)的總類別數(shù)。
本文的所有對(duì)比實(shí)驗(yàn)均在操作系統(tǒng)Windows10 下進(jìn)行,硬件設(shè)備為GPU NVIDIA GTX970。實(shí)驗(yàn)環(huán)境配置:深度學(xué)習(xí)框架為PyTorch 1.10.0;CUDA的版本號(hào)為CUDA10.2;cuDNN 的版本號(hào)為cuDNN8.2.4。實(shí)驗(yàn)參數(shù)配置:學(xué)習(xí)率(learning rate)設(shè)置為0.01,可以更快地使局部達(dá)到收斂;批次大小設(shè)置為16,使得訓(xùn)練速度較快。
3.4.1 對(duì)比實(shí)驗(yàn)
為了解決復(fù)雜環(huán)境下小尺度手勢(shì)識(shí)別率低的問(wèn)題,本文對(duì)YOLOv5s 模型的特征融合網(wǎng)絡(luò)做了改進(jìn),對(duì)當(dāng)前主流特征融合網(wǎng)絡(luò)FPN、PANet、BiFPN的精度值和參數(shù)量進(jìn)行比較,并選出檢測(cè)結(jié)果最優(yōu)的多尺度融合網(wǎng)絡(luò)。如表1所示,F(xiàn)PN只進(jìn)行自頂向下的單方向特征融合,檢測(cè)精度不高;PANet 在FPN 后面添加了一個(gè)自底向上的路徑,融合了低層特征的強(qiáng)定位信息,檢測(cè)進(jìn)度提升明顯;BiFPN網(wǎng)絡(luò)又在PANet的基礎(chǔ)上增加了雙向跨尺度連接,雖然參數(shù)量M相比于PANet的參數(shù)量提高了13.2%,但計(jì)算量FLOPs 幾乎無(wú)增長(zhǎng),且mAP 值增長(zhǎng)了1.4 個(gè)百分點(diǎn),因此增加跨尺度連接使網(wǎng)絡(luò)在幾乎不增加計(jì)算成本的情況下,融合了更多的特征,檢測(cè)精度相比于其他網(wǎng)絡(luò)更優(yōu)。
表1 特征融合網(wǎng)絡(luò)性能比較Table 1 Performance comparison of feature fusion networks
為了更好地展現(xiàn)出本文改進(jìn)模型的優(yōu)勢(shì),分別與目標(biāo)檢測(cè)算法中較為經(jīng)典的兩階段模型Faster R-CNN和一階段模型SSD、YOLOv3 以及YOLOv5s 進(jìn)行對(duì)照,模型統(tǒng)一使用NUS-II數(shù)據(jù)集進(jìn)行訓(xùn)練和驗(yàn)證,如表2所示。
表2 主流目標(biāo)檢測(cè)算法與本文方法對(duì)比Table 2 Comparison of mainstream target detection algorithms with methods in this paper
由表2 可知,F(xiàn)aster R-CNN、SSD 和YOLOv3 模型大小相當(dāng)于HD-YOLOv5s 模型大小的6~10 倍,參數(shù)量相當(dāng)于HD-YOLOv5s 的3~10 倍,因此HD-YOLOv5s 相較于這些模型而言屬于輕量級(jí)網(wǎng)絡(luò)。HD-YOLOv5s模型相比于YOLOv5s模型大小相差不大,雖然HD-YOLOv5s在原YOLOv5s 的特征融合網(wǎng)絡(luò)中添加了特征層,導(dǎo)致模型計(jì)算量增加,推理時(shí)間比YOLOv5s 慢了1.44 ms,但檢測(cè)精度比YOLOv5s 提高了3.6 個(gè)百分點(diǎn)。HDYOLOv5s 在檢測(cè)精度和推理速度方面都優(yōu)于Faster R-CNN、SSD 和YOLOv3 模型,且對(duì)單幀照片的檢測(cè)時(shí)間僅需0.01~0.02 s,能夠滿足手勢(shì)識(shí)別的實(shí)時(shí)性要求。
為了充分驗(yàn)證本文提出的手勢(shì)識(shí)別方法的優(yōu)越性,將本文方法與其他手勢(shì)識(shí)別方法在公共數(shù)據(jù)集NUS-II上進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表3所示。
表3 主流手勢(shì)識(shí)別算法與本文方法對(duì)比Table 3 Comparison of mainstream gesture recognition algorithms with methods in this paper
由表3可知,文獻(xiàn)[9]采用貝葉斯注意力模型提取手勢(shì)特征(顏色、形狀和紋理),并使用支持向量機(jī)進(jìn)行分類,識(shí)別率為93.7%。文獻(xiàn)[25]利用膚色模型將手勢(shì)區(qū)域分割出來(lái),然后用卷積神經(jīng)網(wǎng)絡(luò)對(duì)手勢(shì)區(qū)域進(jìn)行識(shí)別,識(shí)別率為95.6%。文獻(xiàn)[26]提出了基于深度卷積神經(jīng)網(wǎng)絡(luò)的新方法,將圖像調(diào)整到統(tǒng)一大小后,忽略分割和檢測(cè)階段,直接對(duì)手勢(shì)進(jìn)行分類,識(shí)別率為96.2%。文獻(xiàn)[27]提出了一種基于雙通道卷積神經(jīng)網(wǎng)絡(luò)(DC-CNN)的手勢(shì)識(shí)別方法,它將手勢(shì)圖像和邊緣圖像分別輸入兩個(gè)通道中,經(jīng)池化操作后在全連接層融合特征以提取更深的分類信息,識(shí)別率為98.0%?;谝陨辖Y(jié)果,可以得出以下結(jié)論。
(1)文獻(xiàn)[9,25]通過(guò)手勢(shì)分割和膚色檢測(cè)的方法,易受環(huán)境因素的影響,導(dǎo)致復(fù)雜環(huán)境下的手勢(shì)識(shí)別率不高,而本文提出的方法通過(guò)添加圖像增強(qiáng)預(yù)處理和在特征提取網(wǎng)絡(luò)中添加SKNet注意力模塊,提高了網(wǎng)絡(luò)的特征提取能力,增強(qiáng)了模型在復(fù)雜環(huán)境下的泛化能力和魯棒性,提高了手勢(shì)識(shí)別率。
(2)文獻(xiàn)[26-27]分別通過(guò)直接分類和增加網(wǎng)絡(luò)層次的方法對(duì)手勢(shì)進(jìn)行識(shí)別,利用這種結(jié)構(gòu)可以削弱光照不均勻及復(fù)雜背景的影響,提高模型對(duì)復(fù)雜環(huán)境的適應(yīng)性,但對(duì)于小尺度手勢(shì)的識(shí)別效果一般。而本文算法通過(guò)構(gòu)建新型的特征融合網(wǎng)絡(luò),提高了模型對(duì)遠(yuǎn)距離小尺度手勢(shì)的識(shí)別能力,進(jìn)一步提高了手勢(shì)識(shí)別率。
3.4.2 消融實(shí)驗(yàn)
為了驗(yàn)證各改進(jìn)模塊在YOLOv5s網(wǎng)絡(luò)模型中的作用,下面將基于YOLOv5s模型進(jìn)行消融實(shí)驗(yàn),并對(duì)改進(jìn)的不同模型性能進(jìn)行對(duì)比。如表4表示,其中“—”代表不使用,“√”代表使用。
從表4中可以看出,本文改進(jìn)的網(wǎng)絡(luò)模型HD-YOLOv5s的mAP 值達(dá)到了99.5%。改進(jìn)模型1 是在原主干提取網(wǎng)絡(luò)中加入注意力機(jī)制SKNet,參數(shù)量M并無(wú)大幅增長(zhǎng),mAP相較于原模型提高了1.5個(gè)百分點(diǎn),由于SKNet既是一個(gè)輕量級(jí)嵌入式模塊,又在自動(dòng)選擇最優(yōu)算子后產(chǎn)生了更合理的權(quán)重系數(shù),在參數(shù)量穩(wěn)定的情況下,提高了網(wǎng)絡(luò)的特征提取能力;改進(jìn)模型2是在原特征融合網(wǎng)絡(luò)中引入新型的雙向特征融合網(wǎng)絡(luò)BiFPN,對(duì)比表1中具有三層融合特征層的BiFPN,引入低特征層后的BiFPN的融合能力更強(qiáng),其充分利用低層級(jí)的P2特征,提高了檢測(cè)模型在小目標(biāo)檢測(cè)上的效果,對(duì)比檢測(cè)層為4的改進(jìn)模型3,改進(jìn)模型2并沒(méi)有將低特征層加入雙向特征融合中,mAP 下降了0.3 個(gè)百分點(diǎn),但計(jì)算量減小了0.5%,參數(shù)量減少了4.9%,故為了減少計(jì)算量和縮短推理時(shí)間,本文并未在低層級(jí)的P2 特征上采用雙向特征融合;改進(jìn)模型4是將注意力機(jī)制和改進(jìn)的特征融合模塊同時(shí)加入網(wǎng)絡(luò)中,與改進(jìn)模型2 相比,計(jì)算量和參數(shù)量幾乎無(wú)增長(zhǎng),但mAP 增長(zhǎng)了1.3 個(gè)百分點(diǎn),與原模型相比,mAP 增長(zhǎng)了3.4 個(gè)百分點(diǎn);改進(jìn)后的模型HD-YOLOv5 在輸入端對(duì)數(shù)據(jù)集進(jìn)行了Gamma 圖像增強(qiáng)預(yù)處理,mAP值達(dá)到了99.5%,相比原YOLOv5s網(wǎng)絡(luò)提高了3.6個(gè)百分點(diǎn)。
表4 各改進(jìn)模型的性能比較Table 4 Performance comparison of each improved model
如圖10 所示,分別為改進(jìn)前后的各模型在自制訓(xùn)練集上的訓(xùn)練結(jié)果曲線,其中設(shè)置迭代次數(shù)為200,學(xué)習(xí)率為0.01,動(dòng)量因子為0.937。圖(a)中橫坐標(biāo)E表示訓(xùn)練輪次,縱坐標(biāo)表示IOU為0.5時(shí)的mAP值,可以看出,改進(jìn)后模型的性能均比改進(jìn)前的模型更好。圖(b)中改進(jìn)后的HD-YOLOv5s 模型相比于YOLOv5 模型,收斂速度更快,Loss 值更小,說(shuō)明改進(jìn)后的模型網(wǎng)絡(luò)的收斂能力更強(qiáng)。
圖10 各模型訓(xùn)練曲線Fig.10 Training curves for each model
3.4.3 檢測(cè)結(jié)果分析
本文進(jìn)行訓(xùn)練的數(shù)據(jù)集為公共數(shù)據(jù)集NUS-II,驗(yàn)證結(jié)果如表5 所示。NUS-II 數(shù)據(jù)集雖然背景具有多樣性和復(fù)雜性,但對(duì)于本文而言,該數(shù)據(jù)集中不同光照條件下的手勢(shì)圖像較少。為了驗(yàn)證改進(jìn)方法的泛化能力及魯棒性,本文在具有豐富光照強(qiáng)度對(duì)比的自制數(shù)據(jù)集上也進(jìn)行了驗(yàn)證實(shí)驗(yàn),驗(yàn)證結(jié)果如表6所示??梢缘贸鯤D-YOLOv5s 在自制數(shù)據(jù)集上識(shí)別率也有較大的提升。由此可以證明,本文改進(jìn)的算法對(duì)于各種復(fù)雜背景下的干擾,都可以取得較好的識(shí)別效果和更好的魯棒性。
表5 不同手勢(shì)類別在NUS-II測(cè)試集上的檢測(cè)效果Table 5 Detection effects of different gesture categories on NUS-II test set
表6 不同手勢(shì)類別在自制測(cè)試集上的檢測(cè)效果Table 6 Detection effects of different gesture categories on homemade test set
為了驗(yàn)證改進(jìn)模型HD-YOLOv5s 的可行性,在測(cè)試集中選取部分手勢(shì)圖片進(jìn)行測(cè)試。如圖11 為模型YOLOv5s和模型HD-YOLOv5s在不同光照條件下的手勢(shì)識(shí)別效果對(duì)比圖,其中圖(a)和(b)分別表示在強(qiáng)光和弱光環(huán)境下對(duì)手勢(shì)的識(shí)別,圖(c)表示在光照不均勻環(huán)境下對(duì)手勢(shì)的識(shí)別,左圖均為YOLOv5s 模型的識(shí)別效果圖,右圖均為HD-YOLOv5s 模型的識(shí)別效果圖。可以看出改進(jìn)后的模型HD-YOLOv5s 在不同光照環(huán)境下對(duì)手勢(shì)圖像的識(shí)別率均有不同程度的提升,圖(c)中左圖將手勢(shì)ok和窗沿分別誤檢為手勢(shì)5和手勢(shì)0,右圖則識(shí)別正常且識(shí)別精度高于左圖。如圖12為改進(jìn)前后模型在背景近膚色情況下對(duì)手勢(shì)的識(shí)別效果對(duì)比圖,其中圖(a)和圖(b)分別表示在簡(jiǎn)單和復(fù)雜背景下對(duì)手勢(shì)的識(shí)別,圖(a)中通過(guò)左右圖對(duì)比可知,在簡(jiǎn)單背景下改進(jìn)前后模型的識(shí)別效果相差不大,圖(b)中在復(fù)雜背景下,右圖的識(shí)別率明顯高于左圖,可知改進(jìn)后的模型HDYOLOv5s對(duì)膚色近背景問(wèn)題下的手勢(shì)識(shí)別率有明顯的提升作用。如圖13為改進(jìn)前后模型在復(fù)雜環(huán)境下對(duì)小尺度手勢(shì)的識(shí)別效果,其中圖(a)、(b)、(c)分別表示在不同的復(fù)雜場(chǎng)景下對(duì)距離較遠(yuǎn)的小尺度手勢(shì)的檢測(cè),尤其在圖(a)中光照不均勻且背景復(fù)雜情況下,改進(jìn)后的模型對(duì)小尺度手勢(shì)的識(shí)別率提升效果較為明顯。
圖11 不同光照條件下的識(shí)別效果Fig.11 Recognition effect under different lighting conditions
圖12 背景近膚色情況下的識(shí)別效果Fig.12 Recognition effect in case of near-skin color background
圖13 復(fù)雜環(huán)境下小尺度手勢(shì)的識(shí)別效果Fig.13 Recognition effect of small-scale gestures in complex environment
綜上所述,改進(jìn)后的模型HD-YOLOv5s 相較于原模型YOLOv5s 在識(shí)別性能方面表現(xiàn)更優(yōu),YOLOv5s 模型在光照不均勻、背景近膚色等復(fù)雜環(huán)境下的識(shí)別性能不佳,容易出現(xiàn)誤檢等問(wèn)題,并且對(duì)遠(yuǎn)距離小尺度手勢(shì)的識(shí)別效果較差。而HD-YOLOv5s 模型能夠準(zhǔn)確識(shí)別復(fù)雜環(huán)境下的手勢(shì),且識(shí)別率較高,并改善了原模型YOLOv5s對(duì)小尺度手勢(shì)識(shí)別率低的問(wèn)題。改進(jìn)后模型的性能提升,并不是具體到某一方法的改進(jìn),而是通過(guò)模型整體的特征提取能力和特征融合能力的提高使模型的識(shí)別性能得到提升。
本文提出手勢(shì)識(shí)別方法HD-YOLOv5s,使得手勢(shì)識(shí)別在復(fù)雜場(chǎng)景下也能獲得較高的準(zhǔn)確率,進(jìn)一步促進(jìn)了人機(jī)交互技術(shù)的發(fā)展。首先采用基于Retinex理論的自適應(yīng)Gamma 圖像增強(qiáng)方法對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理;其次在特征提取網(wǎng)絡(luò)中引入自適應(yīng)卷積注意力機(jī)制模型SKNet,提高網(wǎng)絡(luò)的特征提取能力;最后將調(diào)整后的BiFPN結(jié)構(gòu)引入特征融合網(wǎng)絡(luò)中,提高了網(wǎng)絡(luò)對(duì)小目標(biāo)的識(shí)別率。
實(shí)驗(yàn)結(jié)果表明,HD-YOLOv5s 的mAP 值達(dá)到了99.5%,與Faster R-CNN、SSD 和YOLOv3 模型相比,本文方法對(duì)單個(gè)照片的檢測(cè)時(shí)間僅需0.01~0.02 s,模型較小,檢測(cè)速度較快,能夠滿足復(fù)雜場(chǎng)景下手勢(shì)識(shí)別的實(shí)時(shí)性要求。與原YOLOV5s 模型相比,模型精準(zhǔn)度提升了3.6個(gè)百分點(diǎn),且相比于目前主流的手勢(shì)識(shí)別算法,具有較好的泛化能力和魯棒性。最后,分別在自制數(shù)據(jù)集和具有復(fù)雜背景的公共數(shù)據(jù)集NUS-II 上做驗(yàn)證實(shí)驗(yàn),識(shí)別率達(dá)到99.5%和98.9%。結(jié)合上述所言,本文改進(jìn)的網(wǎng)絡(luò)模型對(duì)于光照不均勻、背景近膚色以及手勢(shì)尺度較小等問(wèn)題,都可以取得較好的識(shí)別效果和更好的魯棒性,且滿足復(fù)雜場(chǎng)景下手勢(shì)識(shí)別的實(shí)時(shí)性要求。
高效的靜態(tài)手勢(shì)識(shí)別是研究動(dòng)態(tài)手勢(shì)及其應(yīng)用的重要基礎(chǔ),實(shí)驗(yàn)證明本文方法在復(fù)雜環(huán)境下具有較好的魯棒性和實(shí)時(shí)性。未來(lái)計(jì)劃將本文方法用于具有復(fù)雜背景變化的動(dòng)態(tài)手勢(shì)追蹤中,嘗試解決其識(shí)別率差的問(wèn)題,使本文方法能夠在人機(jī)交互領(lǐng)域更具有實(shí)用性。