雷明煥 何高明
(梧州學(xué)院 廣西壯族自治區(qū)梧州市 543002)
根據(jù)第六次全國人口普查我國總?cè)丝跀?shù),推算2010年末我國殘疾人總?cè)藬?shù)8502萬人。其中聽力殘疾2054萬人;言語殘疾130萬人[1]。面對如此巨大的殘疾人基數(shù),我國積極推出政策以幫助殘疾人更快更好融入正常生活,其中科技部著力推進(jìn)助殘、惠殘產(chǎn)品研發(fā),通過“主動(dòng)健康和老齡化科技應(yīng)對”和“生物醫(yī)用材料研發(fā)與組織器官修復(fù)替代”重點(diǎn)專項(xiàng),部署開展康復(fù)輔助器具、人工組織器官修復(fù)材料等研發(fā)[2]。積極響應(yīng)國家號(hào)召,研究為輔助殘疾人與正常人群之間的簡便手語交流,基于深度學(xué)習(xí)技術(shù)開發(fā)設(shè)計(jì)用于聾啞人輔助的中國標(biāo)準(zhǔn)手語視頻分類方法,構(gòu)建手語使用者與正常人群體的簡便日常交流方案,意義非凡。手語“你好”語句例圖如圖1所示。
圖1:手語“你好”語句例圖[3]
手語識(shí)別分類問題可歸類為連續(xù)動(dòng)作的識(shí)別問題,國內(nèi)外學(xué)者對此展開有較多的研究,其中多以穿戴設(shè)備方法為主。例如劉闖闖等[4],依靠2個(gè)肌電信號(hào)采集傳感器和1個(gè)六軸陀螺儀傳感器構(gòu)建姿態(tài)數(shù)據(jù)采集裝置,最終結(jié)果為單詞(字)平均識(shí)別率97.6%。曹書敏[5],提出了一種基于IMU慣性傳感器的可穿戴設(shè)備的手勢識(shí)別系統(tǒng),通過手部動(dòng)作加速度量識(shí)別動(dòng)作,其實(shí)測數(shù)據(jù)平均識(shí)別率為91.75%。Zin Thi Thi等[6],運(yùn)用深度相機(jī)從UV視差圖中提取幀深度信息來定位人,通過DMA(Depth motion appearance)信息來訓(xùn)練SVM分類器,最終可在120幀的視頻中對單幀動(dòng)作識(shí)別平均識(shí)別率為98.3%。梁鵬[7]使用微軟Kinect智能攝像機(jī)設(shè)備捕獲提取人體骨骼特征,將連續(xù)動(dòng)作序列切割為單幀靜態(tài)動(dòng)作,基于靜態(tài)K均值算法對這些特征進(jìn)行聚類,選擇隱馬爾可夫模型進(jìn)行姿態(tài)識(shí)別,最終對四類特定動(dòng)作的平均識(shí)別率為93.75%。閔亞榮等[8],使用多個(gè)Kinect構(gòu)成多角度識(shí)別系統(tǒng),基于人體骨骼特征定位,利用卡爾曼濾波算法對多角度的數(shù)據(jù)進(jìn)行融合,結(jié)合動(dòng)態(tài)時(shí)間規(guī)劃算法匹配人物的動(dòng)作序列。
分析基于硬件的方法,由于其不便捷且高成本的特點(diǎn),在日常生活中經(jīng)常難以運(yùn)用,出于輕量化的需求,研究使用深度學(xué)習(xí)結(jié)合機(jī)器視覺方案設(shè)計(jì)手語動(dòng)作視頻分類方法。深度學(xué)習(xí)是新興的機(jī)器學(xué)習(xí)方法,可從有限樣例中,通過算法總結(jié)出一般性的規(guī)律,并可以應(yīng)用到新的未知數(shù)據(jù)上[9]。研究基于tensorflow 2.4開發(fā)軟件[10]構(gòu)建適用于手語視頻分類問題的神經(jīng)網(wǎng)絡(luò)模型,使用經(jīng)過正確標(biāo)識(shí)的手語視頻數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,訓(xùn)練后的模型可用于分類特定范圍的手語視頻。
手語視頻數(shù)據(jù)從中國科學(xué)技術(shù)大學(xué)公開提供的標(biāo)準(zhǔn)中國手語數(shù)據(jù)集[11]中獲取,選取10種手語語句類別,每類200個(gè)樣本構(gòu)成訓(xùn)練數(shù)據(jù)集。該數(shù)據(jù)集動(dòng)作標(biāo)準(zhǔn)、拍攝參數(shù)設(shè)置合理科學(xué),適合于作為手語視頻識(shí)別分類問題的訓(xùn)練集。
1.1.1 數(shù)據(jù)增強(qiáng)
數(shù)據(jù)集樣本量偏小,難以滿足模型訓(xùn)練的需求,需要進(jìn)行數(shù)據(jù)增強(qiáng),讓有限的數(shù)據(jù)通過人工處理以產(chǎn)生更多的等價(jià)數(shù)據(jù)來擴(kuò)充訓(xùn)練數(shù)據(jù)集。研究在模型訓(xùn)練數(shù)據(jù)集中添加了經(jīng)過尺寸放大及隨機(jī)裁剪后的人工數(shù)據(jù),這種數(shù)據(jù)增強(qiáng)方式一方面可以增加樣本量,另一方面又免于產(chǎn)生過多的人為數(shù)據(jù)噪聲。數(shù)據(jù)增強(qiáng)例圖如圖2所示。
圖2:數(shù)據(jù)增強(qiáng)例圖
1.1.2 視頻關(guān)鍵幀提取
保證模型需要的固定長度10幀的輸入序列,必要的一步預(yù)處理是關(guān)鍵幀提取,算法設(shè)定一個(gè)滑動(dòng)窗口置于視頻幀序列首,對窗口內(nèi)的所有幀做幀間差值并提取變化最大的一幀,幀間差值計(jì)算效果如圖4所示,然后窗口滑動(dòng)到下一批次圖像序列,直到整個(gè)視頻遍歷完畢,得到關(guān)鍵幀序列,通過遞歸調(diào)用關(guān)鍵幀提取算法,可以得到固定長度10的圖像輸入序列。完整關(guān)鍵幀提取算法流程如圖3所示。
圖3:提取關(guān)鍵幀流程圖
圖4:幀間差值計(jì)算例圖
深度學(xué)習(xí)視頻分類有多種實(shí)現(xiàn)方案,例如:3DCNN網(wǎng)絡(luò)、CNN-RNN融合網(wǎng)絡(luò)、雙流網(wǎng)絡(luò)等?;谳p量化和實(shí)時(shí)性的需求,選擇較為廣泛運(yùn)用的CNN-RNN融合網(wǎng)絡(luò)方案用以設(shè)計(jì)手語視頻分類模型。
研究基于MobileNetV2[12]和GRU[13]網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)融合網(wǎng)絡(luò)方案,使用MobileNetV2模塊作為二維圖像特征提取器,使用GRU模塊作為幀序列間特征提取器,在提取到每一幀的信息后用GRU進(jìn)行連續(xù)圖像序列的前后線性和非線性關(guān)系串聯(lián)分析。
1.2.1 MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)
MobileNetV2是谷歌針對于移動(dòng)和嵌入式深度學(xué)習(xí)部署而專門開發(fā)的新型CNN網(wǎng)絡(luò),具體結(jié)構(gòu)如表1所示。其提出的新型層結(jié)構(gòu):具有線性瓶頸的反向殘差(the inverted residual with linear bottleneck),特點(diǎn)是更輕量級和更快速的前向傳播,與其他分類網(wǎng)絡(luò)的性能對比如表2所示。
表1:MobileNet模型主體結(jié)構(gòu)
表2:不同主流分類網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上的圖像分類性能對比
融合網(wǎng)絡(luò)使用預(yù)訓(xùn)練過的MobileNetV2,通過tensorflow model zoo獲取在ImageNet(ILSVRC-2012-CLS)數(shù)據(jù)集上經(jīng)過預(yù)訓(xùn)練的MobileNetV2網(wǎng)絡(luò),減少原始模型濾波器數(shù)至35%,并刪去最后的Softmax層。
1.2.2 GRU網(wǎng)絡(luò)結(jié)構(gòu)
GRU是一種用于解決時(shí)間序列上前后關(guān)鍵點(diǎn)長期依賴問題而提出的RNN網(wǎng)絡(luò),相比一般RNN增加了細(xì)胞狀態(tài)(cell state)和門機(jī)制。細(xì)胞狀態(tài)用來在相距很遠(yuǎn)的時(shí)間步中記憶權(quán)重參數(shù),使得一些特征能夠跨越極長的時(shí)間步產(chǎn)生聯(lián)系,選擇GRU可以滿足對手語視頻的時(shí)間特征提取需求。GRU節(jié)點(diǎn)結(jié)構(gòu)如圖5所示。
圖5:GRU節(jié)點(diǎn)結(jié)構(gòu)
1.2.3 MobileNetV2-GRU融合網(wǎng)絡(luò)結(jié)構(gòu)
融合網(wǎng)絡(luò)結(jié)構(gòu)以固定長度10張的關(guān)鍵幀序列作為輸入數(shù)據(jù),視頻分類標(biāo)簽作為輸出。將MobileNetV2置于每一個(gè)時(shí)間步上作為特征提取器,每次輸入一組10幀的關(guān)鍵幀序列,對每一幀進(jìn)行特征提取得到10個(gè)輸出,這10個(gè)輸出在每個(gè)時(shí)間步中分別輸入給雙向GRU網(wǎng)絡(luò),10個(gè)時(shí)間步過后雙向GRU網(wǎng)絡(luò)各輸出一次結(jié)果,這個(gè)結(jié)果經(jīng)過輸出層得到模型輸出。
softmax多分類輸出層前添加BN(Batch normalization)歸一化層和Dropout層,并在全連接層中使用L2正則化激活函數(shù)防止嚴(yán)重過擬合問題。融合網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6:MobileNetV2-GRU融合網(wǎng)絡(luò)結(jié)構(gòu)圖
研究采用遷移學(xué)習(xí)方法對模型進(jìn)行訓(xùn)練。第一次訓(xùn)練鎖定MobileNetV2網(wǎng)絡(luò),開放剩余其余層參數(shù),模型凍結(jié)可以有效保存原網(wǎng)絡(luò)參數(shù)在大數(shù)據(jù)集上的訓(xùn)練成果,防止底層通用特征被覆蓋學(xué)習(xí)造成重復(fù)學(xué)習(xí)。第二次訓(xùn)練則開放全部參數(shù),對模型整體參數(shù)進(jìn)行微調(diào)。遷移學(xué)習(xí)方法可以有效縮小訓(xùn)練的時(shí)間花費(fèi),且使得模型具有更好的泛化能力,不易引起過擬合問題。訓(xùn)練流程如圖7所示。
圖7:MobileNetV2-GRU融合模型遷移學(xué)習(xí)流程圖
超參數(shù)設(shè)定:第一次訓(xùn)練學(xué)習(xí)率為0.01、訓(xùn)練批次為20。第二次訓(xùn)練學(xué)習(xí)率為0.0001、訓(xùn)練批次為60。動(dòng)態(tài)學(xué)習(xí)率(EarlyStopping)設(shè)定為5個(gè)批次內(nèi)精度沒有上升則學(xué)習(xí)率減少50%,在訓(xùn)練前期保持較高的學(xué)習(xí)率從而跳過loss局部最優(yōu)值,在訓(xùn)練后期則可以減少學(xué)習(xí)率得到較小的loss下降步長從而能夠得到整體最優(yōu)值。兩次訓(xùn)練中模型的精度以及l(fā)oss值變化趨勢如圖8和圖9所示。
圖8:MobileNetV2-GRU模型精度
圖9:MobileNetV2-GRU模型loss
使用測試數(shù)據(jù)集對模型識(shí)別分類效果進(jìn)行驗(yàn)證,包括10種語句類別,每種樣本量為25,單個(gè)視頻時(shí)長約為10-13s,使用RGB色域,由11個(gè)不同的拍攝者參與制作。驗(yàn)證結(jié)果如表3所示。
表3:MobileNetV2-GRU模型測試集驗(yàn)證結(jié)果
驗(yàn)證結(jié)果顯示模型最低識(shí)別精度為0.60,最高識(shí)別精度為0.95,平均精度為0.856,說明模型具有一定條件下較好的識(shí)別準(zhǔn)確率。
對比其他已知相關(guān)研究:如王鵬程[14],利用OpenPose進(jìn)行姿態(tài)識(shí)別,基于CNN-LSTM融合網(wǎng)絡(luò),構(gòu)建的舞蹈視頻分類模型,平均精度為0.6859,丁小雪[15]對視頻提取光流信息,利用CNNRNN雙路光流模型對視頻手勢進(jìn)行識(shí)別,平均精度為0.925,周傳[16]提出的基于雙流改進(jìn)C3D網(wǎng)絡(luò)的視頻人物行為分類方法,在UCF101數(shù)據(jù)集上的平均精度為0.8923。對比結(jié)果顯示,雙路GRU-MobileNet融合模型對手語動(dòng)作視頻有較好的識(shí)別精度。
算法精度不僅與模型的精度相關(guān),還依賴于關(guān)鍵幀的正確提取。研究采用了基于幀間差值計(jì)算的關(guān)鍵幀提取算法,該算法可以較為快速準(zhǔn)確地識(shí)別像素大范圍變動(dòng)的幀,在識(shí)別手語動(dòng)作變換關(guān)鍵幀的問題上該算法可以獲得較準(zhǔn)確的結(jié)果。
對于時(shí)間特征信息的提取采用雙向GRU網(wǎng)絡(luò),雙向GRU網(wǎng)絡(luò)將對視頻進(jìn)行正向和反向的特征識(shí)別,從而更易于學(xué)習(xí)動(dòng)作變換的前后聯(lián)系,應(yīng)用在手語識(shí)別問題上可以得到較為準(zhǔn)確的結(jié)果。
分析測試數(shù)據(jù)集的驗(yàn)證結(jié)果表明模型平均精度較好,但是不同類別之間的精度變化區(qū)間較大。初步判斷是模型輸入序列過短導(dǎo)致,10幀的關(guān)鍵幀序列長度并不能完全提供不同類別視頻之間的差異信息,下一步研究將圍繞調(diào)整模型輸入序列角度開展。
(1)研究采用中國科學(xué)技術(shù)大學(xué)公開提供的標(biāo)準(zhǔn)中國手語數(shù)據(jù)集構(gòu)建訓(xùn)練集,對訓(xùn)練樣本進(jìn)行關(guān)鍵幀提取等預(yù)處理步驟,構(gòu)建MobileNetV2-GRU融合網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,獲得了通過視頻進(jìn)行手語語句分類的手語視頻識(shí)別分類模型。
(2)選取由11個(gè)不同人員分別拍攝,共計(jì)10種別的250個(gè)手語語句視頻構(gòu)建測試集。模型在測試集上的驗(yàn)證結(jié)果為:模型平均精度0.856,平均loss 0.578。結(jié)果顯示模型具有較好的檢測精度。