• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)Xception網(wǎng)絡(luò)的手勢(shì)識(shí)別

    2022-06-28 02:55:54周梓豪田秋紅
    軟件導(dǎo)刊 2022年6期
    關(guān)鍵詞:張量手勢(shì)準(zhǔn)確率

    周梓豪,田秋紅

    (浙江理工大學(xué)信息學(xué)院,浙江杭州 310018)

    0 引言

    人類通過(guò)手掌和手指的不同姿勢(shì)組合形成的具有特定含義的表達(dá)方式稱為手勢(shì)。手勢(shì)識(shí)別是人機(jī)交互領(lǐng)域的研究熱點(diǎn),相關(guān)技術(shù)廣泛應(yīng)用于智能家居、自動(dòng)駕駛、醫(yī)療保健和虛擬現(xiàn)實(shí)等領(lǐng)域,給人們的生活帶來(lái)極大便利,應(yīng)用價(jià)值不言而喻。手勢(shì)作為人與人之間日常交流的重要方式,更是聾啞人交流的最主要方式,蘊(yùn)含著豐富的信息。如果手勢(shì)識(shí)別技術(shù)更加完善,現(xiàn)實(shí)生活中應(yīng)用更加廣泛,聾啞人便能更加輕松舒適地融入社會(huì)。因此,手勢(shì)識(shí)別技術(shù)研究具有重要的現(xiàn)實(shí)意義。

    1 相關(guān)研究

    傳統(tǒng)手勢(shì)識(shí)別方法主要分為兩類:一類是基于硬件設(shè)備的方法,例如Kim 等[1]使用由3 軸加速度計(jì)、磁力計(jì)和陀螺儀組成的手套采集到的數(shù)據(jù)進(jìn)行三維建模并輸出到顯示器,對(duì)1~9 之間的數(shù)字識(shí)別準(zhǔn)確率可達(dá)99%以上,但數(shù)據(jù)手套操作復(fù)雜、價(jià)格昂貴,普及性較差;另一類是基于機(jī)器視覺(jué)的方法,例如Tian 等[2]設(shè)計(jì)了一種基于圖像處理的靜態(tài)單反系統(tǒng)分割方法,并將其與形態(tài)重建相結(jié)合,可從復(fù)雜背景中分割手勢(shì)圖像;李文生等[3]提出一種高效的基于HSV 顏色空間的多目標(biāo)檢測(cè)跟蹤方法,可準(zhǔn)確進(jìn)行動(dòng)態(tài)多點(diǎn)手勢(shì)識(shí)別。然而機(jī)器視覺(jué)方法普遍存在的問(wèn)題是提取到的特征容易受到背景因素干擾,且處理速度較慢。

    以上兩類方法需要人工設(shè)計(jì)手勢(shì)提取算法,可能會(huì)產(chǎn)生主觀性和局部性等問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)能夠自動(dòng)提取手勢(shì)的輪廓、膚色、紋理等深度特征,并且具有檢測(cè)速度快、抗干擾能力強(qiáng)和識(shí)別準(zhǔn)確率高等優(yōu)點(diǎn),因此在手勢(shì)識(shí)別領(lǐng)域逐漸成為主流。許多學(xué)者通過(guò)重新設(shè)計(jì)主干網(wǎng)絡(luò),融合多尺度特征和殘差連接等方法對(duì)經(jīng)典CNN 進(jìn)行改進(jìn),在提高識(shí)別準(zhǔn)確率方面取得較多進(jìn)展。例如,余圣新等[4]使用深度可分離卷積改進(jìn)Inception 網(wǎng)絡(luò),并結(jié)合殘差網(wǎng)絡(luò)以防止梯度彌散,在MNIST 手寫數(shù)字?jǐn)?shù)據(jù)集上達(dá)到99.45%的識(shí)別準(zhǔn)確率;周鵬等[5]基于語(yǔ)譜圖對(duì)DenseNet 卷積網(wǎng)絡(luò)進(jìn)行改進(jìn),識(shí)別準(zhǔn)確率明顯提高;王龍等[6]結(jié)合膚色模型和CNN 對(duì)不同背景下的手勢(shì)圖像進(jìn)行識(shí)別,取得了較高的識(shí)別準(zhǔn)確率和較好的實(shí)時(shí)性;熊才華等[7]基于ResNet50 殘差網(wǎng)絡(luò)對(duì)Fast R-CNN 網(wǎng)絡(luò)進(jìn)行改進(jìn),并融合實(shí)例批處理標(biāo)準(zhǔn)化方法以適應(yīng)不同的識(shí)別環(huán)境,對(duì)手勢(shì)的識(shí)別效果和魯棒性均有所改善;陳影柔等[8]提出一種基于多特征加權(quán)融合的靜態(tài)手勢(shì)識(shí)別方法,對(duì)手勢(shì)圖像數(shù)據(jù)集的識(shí)別準(zhǔn)確率達(dá)到99%以上;包嘉欣等[9]通過(guò)橢圓分割、最大連通域和質(zhì)心定位的方式提取出類膚色背景中的手勢(shì),并通過(guò)改進(jìn)VGG 網(wǎng)絡(luò)減少模型參數(shù)量,有效提高了手勢(shì)圖像的識(shí)別率;官巍等[10]將Fast R-CNN 替換為ResNet50,利用區(qū)域建議網(wǎng)絡(luò)生成的候選框和特征圖進(jìn)行興趣區(qū)操作,修改激活函數(shù)并進(jìn)行參數(shù)調(diào)節(jié),對(duì)手勢(shì)的識(shí)別率高達(dá)97.57%;馮家文等[11]提出雙通道CNN 模型,對(duì)兩個(gè)相互獨(dú)立通道輸入的手勢(shì)圖像進(jìn)行特征提取,融合不同尺度的特征,增強(qiáng)了模型的泛化性。以上改進(jìn)CNN 網(wǎng)絡(luò)取得了較高的識(shí)別準(zhǔn)確率,但仍存在參數(shù)量巨大的問(wèn)題。事實(shí)上,大部分CNN 難以兼顧識(shí)別準(zhǔn)確率與參數(shù)量之間的平衡,龐大的網(wǎng)絡(luò)結(jié)構(gòu)和巨大的參數(shù)量滿足不了其在資源受限的嵌入式和移動(dòng)端環(huán)境中進(jìn)行實(shí)時(shí)檢測(cè)的要求。

    針對(duì)CNN 存在的問(wèn)題,參考林景棟等[12]提出的CNN結(jié)構(gòu)優(yōu)化技術(shù),從平衡識(shí)別準(zhǔn)確率和模型大小的角度出發(fā),提出一種基于改進(jìn)Xception 網(wǎng)絡(luò)的手勢(shì)識(shí)別方法。改進(jìn)部分如下:使用密集連接代替殘差連接,對(duì)深度可分離卷積模塊進(jìn)行密集連接,壓縮網(wǎng)絡(luò)深度,從而更加有效地利用模型參數(shù),有效提高識(shí)別準(zhǔn)確率;融合SE 模塊,增強(qiáng)模型對(duì)重要特征的敏感度,同時(shí)抑制次要特征的作用;融合特征金字塔結(jié)構(gòu),通過(guò)對(duì)特征張量中不同感受野的使用對(duì)手勢(shì)圖像進(jìn)行分類,進(jìn)一步提高識(shí)別準(zhǔn)確率。

    2 網(wǎng)絡(luò)結(jié)構(gòu)

    2.1 Xception網(wǎng)絡(luò)結(jié)構(gòu)

    Xception 網(wǎng)絡(luò)[13]是在InceptionV3 網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合MobileNet 和ResNet 提出的CNN,該網(wǎng)絡(luò)使用深度可分離卷積將特征張量中的空間相關(guān)性與跨通道相關(guān)性完全解耦,相較于Inception 能更充分地發(fā)揮網(wǎng)絡(luò)參數(shù)的作用。Xception 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,其具有36 個(gè)卷積層,分別為1 個(gè)降采樣卷積層、1 個(gè)常規(guī)卷積層和34 個(gè)深度可分離卷積層;共分成14 個(gè)模塊,最大通道數(shù)達(dá)到2 048 個(gè),使得Xception 網(wǎng)絡(luò)結(jié)構(gòu)較深,參數(shù)計(jì)算量大,模型占用內(nèi)存較大,不適合部署在移動(dòng)端和嵌入式設(shè)備中進(jìn)行實(shí)時(shí)檢測(cè)。同時(shí),Xception 網(wǎng)絡(luò)缺少多尺度特征的融合,在特征提取過(guò)程中可能會(huì)由于感受野單一而造成特征損失。

    2.2 密集深度可分離卷積模塊

    現(xiàn)有經(jīng)典網(wǎng)絡(luò)一般通過(guò)增加網(wǎng)絡(luò)層數(shù)提升識(shí)別準(zhǔn)確率。Xception 網(wǎng)絡(luò)包含36 個(gè)卷積層,雖然深度可分離卷積模塊的計(jì)算量相較于常規(guī)卷積模塊已經(jīng)縮小,但模型大小和計(jì)算參數(shù)量仍然較大,無(wú)法滿足在移動(dòng)端上進(jìn)行實(shí)時(shí)檢測(cè)的要求。因此,本文利用DenseNet 密集連接網(wǎng)絡(luò)[14]的思想,對(duì)深度可分離卷積模塊進(jìn)行密集連接,通過(guò)將當(dāng)前模塊的輸出特征張量作為其所有后續(xù)模塊的輸入,使各層之間直接相連,最大程度確保最大化層際的信息流動(dòng),從而形成密集深度可分離卷積模塊。該模塊是改進(jìn)Xception網(wǎng)絡(luò)的基本模塊,結(jié)構(gòu)示意見(jiàn)圖2。密集深度可分離卷積模塊的輸出可表示為:

    Fig.1 Xception network structure圖1 Xception網(wǎng)絡(luò)結(jié)構(gòu)

    式(1)和圖2 中的X0均代表輸入密集深度可分離卷積模塊的特征張量,XL代表第L個(gè)深度可分離卷積模塊的輸出,DSCM(*)代表深度可分離卷積模塊,⊕代表通道疊加操作。如圖2 所示,第L個(gè)深度可分離卷積模塊的輸出由模塊內(nèi)位于其前繼的所有特征張量通道疊加后再經(jīng)深度可分離卷積模塊解耦得到。

    改進(jìn)Xception 網(wǎng)絡(luò)使用的密集深度可分離卷積模塊有2 種,一種由3 個(gè)深度可分離卷積模塊密集連接組成,另一種由2 個(gè)深度可分離卷積模塊密集連接組成。密集連接結(jié)構(gòu)可使特征得到再利用,同時(shí)通過(guò)適當(dāng)增加層內(nèi)通道數(shù)可更加充分地發(fā)揮網(wǎng)絡(luò)參數(shù)的作用,在保證網(wǎng)絡(luò)提取到更多手勢(shì)信息的同時(shí)有效減小模型深度,以抑制過(guò)擬合現(xiàn)象。

    2.3 基本卷積模塊

    2.3.1 降采樣卷積模塊和常規(guī)卷積模塊

    原始手勢(shì)圖像需歸一化為224 × 224 × 3 大小的RGB圖像,再進(jìn)行標(biāo)準(zhǔn)化。將原始手勢(shì)圖像從0~255 之間的整數(shù)映射為0~1 之間的浮點(diǎn)數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,首先將其輸入至降采樣卷積模塊,然后輸入常規(guī)卷積模塊中進(jìn)行特征圖像處理。這兩種卷積模塊結(jié)構(gòu)相同,均由卷積層、批量歸一化層和RELU 激活層依次連接組成,可表示為:

    式中,z代表輸入模塊的特征張量,代表卷積核個(gè)數(shù)為n、步長(zhǎng)為i×i的常規(guī)卷積函數(shù),BN(*)代表批量歸一化操作,RELU(*)代表RELU 激活函數(shù)。

    Fig.2 Dense depthwise separable convolution module structure圖2 密集深度可分離卷積模塊結(jié)構(gòu)

    在改進(jìn)網(wǎng)絡(luò)中,兩種卷積模塊的卷積核尺寸均為3 ×3,但卷積操作步長(zhǎng)以及卷積核個(gè)數(shù)不同。步長(zhǎng)為2 × 2 的卷積操作能夠代替池化層進(jìn)行降采樣處理,增加模型的感受野。輸出通道數(shù)為32 的縮小尺寸的特征張量,然后使用步長(zhǎng)為1 × 1 的常規(guī)卷積整合空間特征和跨通道特征,并使用64個(gè)卷積核擴(kuò)大通道數(shù)量,初步提取淺層特征。

    2.3.2 深度可分離卷積模塊

    淺層特征張量通過(guò)一系列由深度可分離卷積模塊組成的模塊進(jìn)行空間相關(guān)性與跨通道相關(guān)性之間映射的完全解耦。深度可分離卷積模塊由RELU 激活層、深度可分離卷積層和批量歸一化層組成。本文網(wǎng)絡(luò)使用如圖3 所示的2 種深度可分離卷積模塊,二者的差異在于RELU 激活層的位置,密集深度可分離卷積模塊由(a)類深度可分離卷積模塊組成,靠近網(wǎng)絡(luò)輸出的為(b)類深度可分離卷積模塊,RELU 激活層放在最后有助于圖像分類。

    Fig.3 Depthwise separable convolution module structure圖3 深度可分離卷積模塊結(jié)構(gòu)

    本文網(wǎng)絡(luò)使用的均為步長(zhǎng)為1 × 1,卷積核尺寸為3 ×3 的深度可分離卷積層。與常規(guī)卷積相比,逐一對(duì)通道進(jìn)行卷積操作能降低計(jì)算冗余度。例如使用K個(gè)尺寸為3 ×3 的卷積核對(duì)1 個(gè)尺寸為W×H×C的特征張量進(jìn)行卷積操作,然后輸出尺寸為W×H×K的特征張量。如果使用常規(guī)卷積進(jìn)行操作,則參數(shù)量為C×K× 3 × 3;而使用深度可分離卷積進(jìn)行操作,點(diǎn)卷積的參數(shù)量為C×K,深度卷積的參數(shù)量為K× 3 × 3,總計(jì)算量為K×(C+9),當(dāng)K和C較大時(shí),計(jì)算參數(shù)量能大大減少。

    2.4 SE模塊

    注意力機(jī)制的合理使用對(duì)于提高CNN 的性能具有重要作用。SE 模塊是注意力機(jī)制的一種,其思路簡(jiǎn)單、易于實(shí)現(xiàn),同時(shí)很容易被嵌入到當(dāng)前主流網(wǎng)絡(luò)模型中[15]。SE模塊可分為3 個(gè)部分,分別為壓縮模塊fsq、激勵(lì)模塊fex和重標(biāo)定模塊fscale,3個(gè)模塊可分別由以下公式表示:

    式中,GAP(*)代表全局平均池化函數(shù),x代表壓縮模塊獲得的全局描述,W(*)代表全連接函數(shù),δ(*)代表RELU激活函數(shù),σ(*)代表Sigmoid 激活函數(shù),d代表激勵(lì)模塊獲得的各通道權(quán)重。

    改進(jìn)網(wǎng)絡(luò)中SE 模塊的融合位置與結(jié)構(gòu)如圖4 所示。融合位置位于模塊間的局部最大池化層之前,輸入尺寸為H×W×C的特征張量,經(jīng)過(guò)全局平均池化層得到每個(gè)通道的全局描述,尺寸為1 × 1 ×C。通過(guò)兩個(gè)全連接層建模通道間的相關(guān)性,首先對(duì)通道進(jìn)行降維,數(shù)量減少至輸入的1/16,通過(guò)RELU 函數(shù)進(jìn)行非線性激活;然后通過(guò)全連接層升維,恢復(fù)到原來(lái)的通道數(shù)量,使用Sigmoid 激活函數(shù)返回對(duì)應(yīng)于每個(gè)通道0~1 之間的權(quán)重值;最后通過(guò)逐像素相乘操作將權(quán)重值加權(quán)至每個(gè)通道上。

    Fig.4 SE module fusion position and structure圖4 SE模塊融合位置與結(jié)構(gòu)

    2.5 改進(jìn)Xception網(wǎng)絡(luò)結(jié)構(gòu)

    Fig.5 Improved Xception network structure圖5 改進(jìn)Xception網(wǎng)絡(luò)結(jié)構(gòu)

    Xception 網(wǎng)絡(luò)結(jié)構(gòu)較深,多次進(jìn)行深度可分離卷積以及殘差連接導(dǎo)致其計(jì)算參數(shù)量巨大,難以應(yīng)用到移動(dòng)端上進(jìn)行實(shí)時(shí)監(jiān)測(cè);且Xception 網(wǎng)絡(luò)缺乏融合多尺度特征,可能受限于單一感受野而損失提取特征,導(dǎo)致準(zhǔn)確率無(wú)法繼續(xù)提高。本文針對(duì)這些問(wèn)題,對(duì)圖1 所示的Xception 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。改進(jìn)的地方如下:①將圖1 所有的殘差連接替換為密集連接,實(shí)現(xiàn)像殘差連接一樣的跳躍連接,能在密集壓縮網(wǎng)絡(luò)深度的同時(shí)提高識(shí)別準(zhǔn)確率,可以減少深度可分離卷積模塊數(shù)量與通道數(shù),因此改進(jìn)網(wǎng)絡(luò)適當(dāng)調(diào)節(jié)了卷積通道數(shù)量并消除了圖1 結(jié)構(gòu)中的中間部分;②將Xception 網(wǎng)絡(luò)結(jié)構(gòu)中部分由2個(gè)深度可分離卷積模塊組成的模塊替換為由3 個(gè)深度可分離卷積模塊組成的模塊,這是由于在密集連接中增加深度可分離卷積模塊數(shù)量有助于產(chǎn)生更多直接信息流動(dòng),有利于提高識(shí)別準(zhǔn)確率;③如圖5 所示,將SE 模塊融入網(wǎng)絡(luò)結(jié)構(gòu)中,在局部最大池化操作之前對(duì)特征張量進(jìn)行特征重標(biāo)定,提高網(wǎng)絡(luò)對(duì)重要特征的敏感程度;④如圖5 所示,在接近網(wǎng)絡(luò)的輸出部分對(duì)特征金字塔結(jié)構(gòu)進(jìn)行融合,通過(guò)逐點(diǎn)卷積層將第2 個(gè)SE 模塊和局部最大池化層的輸出通道數(shù)提升至728,作為第一融合特征張量;通過(guò)上采樣層將第4 個(gè)密集深度可分離卷積模塊的輸出特征張量尺寸修改為28 × 28 × 728,作為第二融合特征張量。兩個(gè)融合特征張量經(jīng)過(guò)逐像素相加操作,獲取到融合淺層、深層空間信息以及特征語(yǔ)義信息的特征張量用于圖像分類。改進(jìn)Xcep?tion 網(wǎng)絡(luò)的配置見(jiàn)表1。

    Table 1 Improved Xception network configuration表1 改進(jìn)Xception網(wǎng)絡(luò)配置

    3 實(shí)驗(yàn)方法與結(jié)果分析

    3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

    本實(shí)驗(yàn)采用NUS-Ⅱ(National University of Singapore)開源手勢(shì)數(shù)據(jù)集[16-17],共有2 750 張RGB 圖像,包含10 類手勢(shì),分別代表字母A~J,每個(gè)類別有275 幅圖像,由40 名不同種族22~56 歲的男性和女性在多種復(fù)雜背景下拍攝完成,且背景存在類膚色因素的干擾,數(shù)據(jù)集示例如圖6所示。將該數(shù)據(jù)集按照7∶2∶1 的比例隨機(jī)劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,并使用隨機(jī)旋轉(zhuǎn)、平移等實(shí)時(shí)數(shù)據(jù)增強(qiáng)方式避免過(guò)擬合。

    模型訓(xùn)練環(huán)境為13GB 內(nèi)存,NVIDIA Tesla P100 PCIE 16GB 顯卡,初始學(xué)習(xí)率設(shè)置為0.001,最大迭代周期(Ep?och)設(shè)置為40,批處理大小(Batch Size)設(shè)置為16,并通過(guò)回調(diào)函數(shù)在訓(xùn)練過(guò)程中對(duì)學(xué)習(xí)率進(jìn)行優(yōu)化,以便更加快速地獲得最優(yōu)模型?;卣{(diào)函數(shù)監(jiān)測(cè)的值為驗(yàn)證集準(zhǔn)確率,當(dāng)3 個(gè)迭代周期結(jié)束而驗(yàn)證集準(zhǔn)確率沒(méi)有提升時(shí),則將學(xué)習(xí)率縮小為原來(lái)的一半。

    Fig.6 NUS-Ⅱdataset example圖6 NUS-Ⅱ數(shù)據(jù)集示例

    3.2 實(shí)驗(yàn)結(jié)果分析

    3.2.1 不同模塊性能比較

    為了驗(yàn)證改進(jìn)Xception 網(wǎng)絡(luò)各個(gè)模塊的性能,在改進(jìn)網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)密集深度可分離卷積模塊、SE 模塊和特征金字塔結(jié)構(gòu)進(jìn)行消融比較實(shí)驗(yàn),結(jié)果見(jiàn)表2。可以看出,當(dāng)融合所有模塊時(shí),相較于Xception 網(wǎng)絡(luò),計(jì)算參數(shù)量大幅度減少,識(shí)別準(zhǔn)確率提升了1.09%,參數(shù)量減少了4/5。同時(shí),對(duì)于每一個(gè)單獨(dú)模塊的改進(jìn)均使準(zhǔn)確率有0.54%~0.72%的提升,且參數(shù)量大幅度減少。

    Table 2 Ablation comparison experiment result表2 消融比較實(shí)驗(yàn)結(jié)果

    3.2.2 網(wǎng)絡(luò)訓(xùn)練優(yōu)化器比較

    神經(jīng)網(wǎng)絡(luò)中的優(yōu)化器可通過(guò)適當(dāng)方法修改權(quán)重和學(xué)習(xí)率以達(dá)到最小化損失的目的,優(yōu)化器的選擇需要考慮準(zhǔn)確率與訓(xùn)練時(shí)間之間的平衡。本實(shí)驗(yàn)分別在Adam、RM?Sprop 和Nadam 優(yōu)化器下訓(xùn)練改進(jìn)Xception 網(wǎng)絡(luò),比較這3種優(yōu)化器下網(wǎng)絡(luò)的驗(yàn)證集準(zhǔn)確率曲線變化情況,結(jié)果如圖7 所示。可以看出,使用Nadam 優(yōu)化器進(jìn)行網(wǎng)絡(luò)訓(xùn)練的收斂速度最快,且波動(dòng)程度最??;RMSprop 優(yōu)化器訓(xùn)練前期波動(dòng)比Nadam 大,訓(xùn)練后期逐漸趨于穩(wěn)定,準(zhǔn)確率甚至超過(guò)Nadam;Adam 優(yōu)化器訓(xùn)練前期收斂速度較慢,訓(xùn)練后期仍然存在少許波動(dòng)。使用Adam、RMSprop 和Nadam 優(yōu)化器訓(xùn)練的網(wǎng)絡(luò)在驗(yàn)證集上的準(zhǔn)確率分別為99.45%、99.7%和99.64%,為兼顧訓(xùn)練時(shí)間與準(zhǔn)確率的平衡,最終選擇Nadam 作為改進(jìn)Xception 網(wǎng)絡(luò)的訓(xùn)練優(yōu)化器。

    Fig.7 Comparison of validation set accuracy curves of different opti?mizers圖7 不同優(yōu)化器驗(yàn)證集準(zhǔn)確率曲線比較

    3.2.3 改進(jìn)網(wǎng)絡(luò)與其他網(wǎng)絡(luò)比較

    為了驗(yàn)證本文網(wǎng)絡(luò)的可行性,在NUS-Ⅱ手勢(shì)數(shù)據(jù)集上將其與原始Xception、ResNet50[18]、InceptionV3[19]和In?ceptionResNetV2[20]等經(jīng)典CNN,以及MobileNet[21]和DenseNet121[22]等輕量級(jí)CNN 進(jìn)行比較,綜合考慮網(wǎng)絡(luò)的訓(xùn)練時(shí)間、模型大小、模型參數(shù)量和測(cè)試集準(zhǔn)確率評(píng)價(jià)其性能,結(jié)果見(jiàn)表3。

    Table 3 Performance comparison results of different networks表3 不同網(wǎng)絡(luò)性能比較

    可以看出,ResNet50 的訓(xùn)練時(shí)間比本文網(wǎng)絡(luò)減少了224s,但在模型大小、模型參數(shù)量和識(shí)別準(zhǔn)確率方面,本文網(wǎng)絡(luò)均遠(yuǎn)優(yōu)于ResNet50。由于ResNet50 存在許多卷積層和殘差連接,其模型大小和參數(shù)量均較大,而本文網(wǎng)絡(luò)使用密集深度可分離卷積模塊作為基本模塊,模型大小僅為54.19MB,約為ResNet50 的1/5,參數(shù)量亦約為ResNet50 的1/5,但識(shí)別準(zhǔn)確率比ResNet50 提高了2.73%。InceptionV3使用多尺度卷積、非對(duì)稱卷積等代替常規(guī)卷積,能夠在減少計(jì)算量的同時(shí)提升識(shí)別準(zhǔn)確率,但I(xiàn)nceptionV3 屬于非常深的卷積網(wǎng)絡(luò),其訓(xùn)練時(shí)間在所有網(wǎng)絡(luò)中最長(zhǎng),本文網(wǎng)絡(luò)在各方面都表現(xiàn)出比InceptionV3 更好的性能。Inception?ResNetV2 綜合了Inception 的多尺度卷積模塊以及ResNet的殘差連接兩部分優(yōu)點(diǎn),獲得了很高的識(shí)別準(zhǔn)確率,與本文網(wǎng)絡(luò)一樣達(dá)到99.64%,但訓(xùn)練時(shí)間較長(zhǎng),網(wǎng)絡(luò)深度十分大,模型大小達(dá)到673.27MB,參數(shù)量較多。DenseNet121 使用多個(gè)密集塊稠密連接,比傳統(tǒng)的級(jí)聯(lián)連接效率更高,同時(shí)在瓶頸層和過(guò)渡層中壓縮通道數(shù),使得網(wǎng)絡(luò)參數(shù)規(guī)模減小,但其在使用常規(guī)卷積的同時(shí)提取了空間和跨通道相關(guān)特征,比使用深度可分離卷積增加了計(jì)算參數(shù)冗余,且網(wǎng)絡(luò)中缺乏不同尺度特征張量的融合,使識(shí)別準(zhǔn)確率受到限制。因此,DenseNet121 的訓(xùn)練時(shí)間雖略短于本文網(wǎng)絡(luò),但綜合模型大小、模型參數(shù)量和識(shí)別準(zhǔn)確率來(lái)看,其性能遜于本文網(wǎng)絡(luò)。MobileNet 同樣使用了深度可分離卷積,結(jié)構(gòu)簡(jiǎn)單,具有良好的實(shí)時(shí)性,其訓(xùn)練時(shí)間、模型大小和模型參數(shù)量在所有模型中均達(dá)到最優(yōu)水平,但該網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率僅為90.36%,在一些高精度分類任務(wù)中可能達(dá)不到要求。

    部分網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的驗(yàn)證集準(zhǔn)確率曲線如圖8所示??梢钥闯觯疚木W(wǎng)絡(luò)雖然存在密集連接,導(dǎo)致訓(xùn)練時(shí)間略微增加,但收斂速度較快,可以利用提前停止的方法在網(wǎng)絡(luò)已經(jīng)收斂時(shí)獲得模型,抵消一部分影響。本文網(wǎng)絡(luò)約在12 個(gè)Epochs 后驗(yàn)證集準(zhǔn)確率曲線趨于穩(wěn)定;Incep?tionResNetV2 收斂速度也較快,約在14 個(gè)Epochs 后準(zhǔn)確率曲線達(dá)到收斂狀態(tài);其他網(wǎng)絡(luò)則在15~30 個(gè)Epochs 后曲線才趨于穩(wěn)定。

    Fig.8 Comparison of accuracy curves of validation sets of some net?works圖8 部分網(wǎng)絡(luò)驗(yàn)證集準(zhǔn)確率曲線比較

    本文網(wǎng)絡(luò)在識(shí)別準(zhǔn)確率和收斂速度上與Inception?ResNetV2 網(wǎng)絡(luò)相當(dāng),為了更加充分地比較兩個(gè)網(wǎng)絡(luò)的優(yōu)缺點(diǎn),以在NUS-Ⅱ手勢(shì)數(shù)據(jù)集上的訓(xùn)練和測(cè)試結(jié)果為依據(jù),單獨(dú)列出訓(xùn)練時(shí)間、模型大小、每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)和收斂速度等進(jìn)行比較分析,結(jié)果見(jiàn)表4。綜合多方面因素可知,本文網(wǎng)絡(luò)性能優(yōu)于Inception?ResNetV2網(wǎng)絡(luò)。

    Table 4 Detailed comparison between InceptionResNetV2 network and the proposed network表4 本文網(wǎng)絡(luò)與InceptionResNetV2網(wǎng)絡(luò)詳細(xì)比較

    為了充分驗(yàn)證本文網(wǎng)絡(luò)的泛化能力和魯棒性,選擇Xception、InceptionV3、MobileNet、ZFNet[23]作為對(duì)照網(wǎng)絡(luò),使用開源的Sign Language for Numbers 手勢(shì)數(shù)據(jù)集[20]進(jìn)行驗(yàn)證實(shí)驗(yàn)。該數(shù)據(jù)集共有11 種不同分類,其中包括10 種手勢(shì)類別,代表數(shù)字0 到9;1 種非手勢(shì)類別,代表非數(shù)字手勢(shì)圖像。每種類別各有1 500 張灰色圖像,共有16 500 張灰色圖像,按照7∶2∶1 的比例隨機(jī)分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。數(shù)據(jù)集示例見(jiàn)圖9,比較實(shí)驗(yàn)結(jié)果見(jiàn)表5。由于Sign Language for Numbers 手勢(shì)數(shù)據(jù)集中的背景比NUS-Ⅱ數(shù)據(jù)集簡(jiǎn)單,類膚色背景因素干擾也較少,本文網(wǎng)絡(luò)識(shí)別準(zhǔn)確率最高。

    4 結(jié)語(yǔ)

    Fig.9 Sign Language for Numbers dataset example圖9 Sign Language for Numbers 數(shù)據(jù)集示例

    Table 5 Results of the recognition accuracy of different networks on Sign Language for Numbers dataset表5 不同網(wǎng)絡(luò)對(duì)Sign Language for Numbers 數(shù)據(jù)集識(shí)別準(zhǔn)確率比較

    本文提出一種基于改進(jìn)Xception 網(wǎng)絡(luò)的手勢(shì)識(shí)別方法,通過(guò)深度可分離卷積模塊的密集連接,在減少計(jì)算參數(shù)量的同時(shí)更加充分利用模型參數(shù);通過(guò)SE 模塊建模通道之間的相關(guān)性,重標(biāo)定各個(gè)通道的重要性;融合特征金字塔結(jié)構(gòu),輸出同時(shí)包含淺層和深層語(yǔ)義的特征張量用于分類;使用數(shù)據(jù)實(shí)時(shí)增強(qiáng)、動(dòng)態(tài)學(xué)習(xí)率更新等方法優(yōu)化網(wǎng)絡(luò)訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)能夠適應(yīng)多種復(fù)雜背景因素干擾下的手勢(shì)識(shí)別任務(wù),在參數(shù)量較少的同時(shí)達(dá)到良好的識(shí)別準(zhǔn)確率,兼顧了訓(xùn)練時(shí)間、模型大小、模型參數(shù)量和識(shí)別準(zhǔn)確率之間的平衡。由于本文網(wǎng)絡(luò)是對(duì)Xception網(wǎng)絡(luò)進(jìn)行改進(jìn)的小型網(wǎng)絡(luò),后續(xù)將在保證準(zhǔn)確率的同時(shí)通過(guò)模型剪枝等方法對(duì)其進(jìn)行壓縮,以提高訓(xùn)練和檢測(cè)速度,并嘗試將其應(yīng)用于移動(dòng)端進(jìn)行手勢(shì)識(shí)別。

    猜你喜歡
    張量手勢(shì)準(zhǔn)確率
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    四元數(shù)張量方程A*NX=B 的通解
    挑戰(zhàn)!神秘手勢(shì)
    V字手勢(shì)的由來(lái)
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    勝利的手勢(shì)
    擴(kuò)散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
    平泉县| 保山市| 鄂伦春自治旗| 武川县| 日土县| 宝坻区| 宣恩县| 西畴县| 冀州市| 信丰县| 永善县| 讷河市| 镇江市| 庆阳市| 读书| 宁德市| 徐闻县| 绥阳县| 神池县| 东光县| 麻城市| 壤塘县| 崇左市| 安图县| 上犹县| 琼结县| 临桂县| 桂林市| 昌乐县| 色达县| 抚远县| 布拖县| 桃江县| 健康| 平泉县| 宾川县| 射阳县| 利辛县| 楚雄市| 东乌珠穆沁旗| 上虞市|