摘要:針對手語難以被普通人理解的問題,提出一種基于深度三維卷積時序神經(jīng)網(wǎng)絡(luò)算法.從全局信息和多尺度時空卷積網(wǎng)絡(luò)模塊著手,基于聯(lián)系手語識別方法進行訓練,并通過對語料視頻模型提取特征關(guān)鍵幀,將關(guān)鍵幀的特征和手語視頻的特征進行融合,構(gòu)建Seq2Seq模型,降低其他動作對手語識別的影響.實驗結(jié)果表明,加入關(guān)鍵幀后,在Transformer基礎(chǔ)上的手語識別方式識別精度顯著提高.
關(guān)鍵詞:三維卷積神經(jīng)網(wǎng)絡(luò);遷移學習;關(guān)鍵幀;Seq2Seq模型
中圖分類號:TP393.06"" 文獻標志碼:A
Research and Application ofSign Language Recognition Algorithms Based on Deep Learning Models
ZHANG Shou-Zhen, JIANG Fei, GUO Du, LI Ming-Dong, WANG Ying, XIN Zheng-Hua
(College of Information Engineering, Suzhou University, Suzhou 234000, Anhui, China)
Abstract:A deep three-dimensional convolutional temporal neural network algorithm is proposed to address the difficulty of understanding sign language by ordinary people. Starting from the modules of global information and multi-scale spatiotemporal convolutional networks, training is conducted based on the method of associative sign language recognition. By extracting feature keyframes from the corpus video model, the features of keyframes are fused with those of sign language videos to construct a Seq2Seq model, reducing the impact of other actions on sign language recognition. The experimental results show that after adding keyframes, the recognition accuracy of sign language recognition based on Transformer is significantly improved.
Key words:three-dimensional convolutional neural network; transfer learning; keyframe; Seq2Seq model
0 引言
手語是一種非語言交流,且具有特殊意義的肢體語言,其識別的過程非常復(fù)雜.隨著對深度學習算法的研究,發(fā)現(xiàn)手語識別和分析在機器學習領(lǐng)域擁有廣泛的應(yīng)用前景[1].傳統(tǒng)的手語識別方法通常依賴手工特征提取,或是采用二維卷積對視頻反應(yīng)的時間信息進行分析,時效性較低,且能處理的識別種類比較單一[2].此外,如何在動態(tài)或靜態(tài)場景下正確識別手語動作,以及面對手語視頻中對應(yīng)的時間和空間信息,如何通過模型提取動作中的有效信息,是手語識別研究領(lǐng)域中常見的難點.近些年隨著深度學習技術(shù)的推廣,發(fā)現(xiàn)視覺處理算法也可與深度學習相結(jié)合,用以動態(tài)識別手語手勢圖像[3].卷積神經(jīng)網(wǎng)絡(luò)在手語圖像識別中的應(yīng)用是通過特征提取實現(xiàn)多維度手勢識別.本文提出一種基于三維卷積神經(jīng)網(wǎng)絡(luò)的手語識別方法,研究如何通過相應(yīng)算法進行手語視頻片段數(shù)據(jù)的提取與整合,以及在序列中輸入Encoder-Decoder模型等,最終完成手語識別的新模式[4].
1 孤立手語識別算法理論基礎(chǔ)分析
鑒于經(jīng)濟社會對實用化手語識別系統(tǒng)的迫切需求,充分利用現(xiàn)有先進技術(shù),結(jié)合手語識別最新研究成果,設(shè)計一款手語識別系統(tǒng),加快手語識別從實驗室研究走向?qū)嵉貞?yīng)用的進程,進而促進聾啞公益事業(yè)的發(fā)展.目前孤立詞手語識別常使用3D CNN作為特征提取器,將輸入的圖像序列轉(zhuǎn)化成特征向量形式,這種特征提取器能夠捕捉幀間的快速移動尤其是手部運動,但參數(shù)量巨大,計算耗時,對硬件平臺要求較高.
孤立手語詞識別是連續(xù)手語詞識別的基礎(chǔ),其算法的優(yōu)化能夠提高連續(xù)識別的精度與魯棒性,因此孤立手語詞識別成為該領(lǐng)域的一個重點.孤立詞識別的輸入數(shù)據(jù)是一段視頻,根據(jù)手語者速度的不同通常包含若干幀.
卷積被用于提取視頻模型及圖像的特征信息.其中,三維卷積算法因其能對視頻模型及圖像模型的時間曲線進行精準分析而得到廣泛應(yīng)用.其計算過程如式(1)所示:
Vxyij=bij+
∑Ri-1r=0∑Pi-1p=0∑Qi-1q=0wpqrijmv(x+p)(y+q)(z+r)(i-1)m,(1)
其中,bij是偏置向量,m表示與當前特征圖相連接的前一層特征圖集合,wpqrijm是三維卷積核在位置(p,q,r)的權(quán)重值,Ri-1和Pi-1分別表示卷積核的高度和寬度,Qi-1表示卷積核的時間維,如圖1所示.
基于Sports-1M數(shù)據(jù)集,統(tǒng)一輸入幀尺寸為127×170.使用0.5幾率隨機水平翻轉(zhuǎn)的數(shù)據(jù)增強的方法,將batch size設(shè)為30,初始學習率設(shè)為0.003,對固定的時間維度長度與變化的時間維度長度分別訓練.固定的長度分別為1、3、5、7,變化的時間核長度分別遞增3、5、7,測試結(jié)果表明,當時間維度為3時,表現(xiàn)最好[5].
2" 基于關(guān)鍵幀和Seq2Seq模型的手語識別算法
2.1 關(guān)鍵幀的特征提取
手語視頻本質(zhì)上是圖像序列的集合.關(guān)鍵幀的提取目標是選擇具有代表性的序列來表示成像效果,從而減少視頻數(shù)據(jù)冗余,根據(jù)其組織結(jié)構(gòu)可以細分為場景、鏡頭和幀.關(guān)鍵幀提取時首先對視頻序列進行鏡頭分割,然后在鏡頭中提取關(guān)鍵幀的內(nèi)容,再利用“關(guān)鍵幀”來獲得底層的形狀、紋理和顏色等特征[6].本文采用基于聚類的方法提取關(guān)鍵幀,具體步驟如圖2所示.
該算法能全面反映整個視頻流的特征信息,確保每幀都代表一類特征信息,從而避免關(guān)鍵信息丟失,并優(yōu)化關(guān)鍵幀冗余問題,尤其對于前后差異較大的視頻,可以引入視頻圖像互信息量理論對圖像間的關(guān)聯(lián)性進行表示,并利用該理論對鏡頭進行分割.
2.2 Seq2Seq模型設(shè)計
關(guān)鍵幀需要具有代表性,其提取應(yīng)盡量反映視頻模擬及圖像模型的所有特征,從而解決視頻數(shù)據(jù)中信息大量冗余問題.Seq2Seq模型根據(jù)輸入表達式,通過編碼器將輸入序列中的信息壓縮為標準的語義編碼[7],再通過解碼器翻譯此編碼并解碼為目標序列,其抽象結(jié)構(gòu)如圖2所示.
從圖2可知,通過Encoder-Decoder模型輸出的序列非單次生成,而是逐步完成[8].根據(jù)任務(wù)需求選擇不同的神經(jīng)網(wǎng)絡(luò)模型,如卷積神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)等.Seq2Seq模型結(jié)構(gòu)如圖3所示,其運行原理如下.
(1)將sequencel={Seq1,Seq2,…,Seqn}輸入到Encoder-Decoder模型中得到序列Y={y1,y2,…,yn},通過Encoder將其映射為固定大小的編碼,具體計算過程如式(2)和式(3)所示:
Sequenceltime=α(Sequenceltime,Sequenceltime-1),(2)
其中,a為加權(quán)線性計算,根據(jù)前一時刻的序列Sequenceltime-1和當前時刻序列Sequenceltime,計算出新的當前序列.
G=
β(Sequencel1,Sequencel2,…,Sequenceltime),(3)
其中,將過去的時間序列通過β表示的Encoder編碼層運算,得到中間隱含序列G.
(2)通過Decoder解碼得到目標序列,其計算方法如式(4)所示:
ytims=g(G,ytimes-1,stime), (4)
其中,Stime為Decoder中的隱藏層,g為非線性函數(shù),ytime-1為上一段時間解碼后的目標序列,每次解碼的序列最終組成Y[9].
3 實驗設(shè)計及結(jié)果分析
實驗采用精度較高的InceptionV3網(wǎng)絡(luò)模型對手語數(shù)據(jù)集進行特征提取,并通過SGD優(yōu)化器進行模型訓練,將提取的數(shù)值輸入到Seq2Seq模型,設(shè)置RMSprop為模型的優(yōu)化輔助,學習率為0.002,迭代周期為250輪,通過實驗得到具體數(shù)據(jù).
為更好地進行不同語料的識別實驗,在設(shè)置數(shù)據(jù)量時要完善手語數(shù)據(jù)集,解決目前手語數(shù)據(jù)集數(shù)量少,語料單一等問題,通過結(jié)合目前已有的手語數(shù)據(jù)集及自我搭建手語數(shù)據(jù)集、基于建模軟件搭建的手語模型等方式獲取數(shù)據(jù)[10].最終得到10組手語視頻模型數(shù)據(jù),其包含1 993個孤立詞樣本及257個連續(xù)手語樣本.
測試集和驗證集數(shù)據(jù)劃分采用交叉驗證法,對數(shù)據(jù)集劃分為m個相似但互斥的子集,選取m-1個子集數(shù)據(jù)作為訓練集,剩余1個子集作為測試集數(shù)據(jù);并進行m組訓練/測試,最終取m次測試結(jié)果的均值進行驗證.
InceptionV3網(wǎng)絡(luò)模型中將兩個4×4濾波函數(shù)替換為2×2卷積核,避免了特征提取瓶頸帶來的模型尺寸變小、通道數(shù)量壓縮等問題,更好地應(yīng)用于實驗?zāi)P吞幚?sup>[11].InceptionV3的網(wǎng)絡(luò)結(jié)構(gòu)如表1所列.
本實驗采用聚類的方法來對視頻模型及圖像的特征進行提取.
按照上述步驟以及所得數(shù)據(jù),針對InceptionV3特征提取方法及提取關(guān)鍵幀的方式進行實驗獲取其手語識別精度如圖4所示.
實驗中將特征提取方法獲取的特征值輸入至Seq2Seq模型,所得數(shù)據(jù)的變化精度如表2所列.
基于CSL-500數(shù)據(jù)集對R3D進行功能檢測并預(yù)處理實驗分析,預(yù)訓練后的識別率隨著模型深度增加逐步提升,從R3D18到R3D34再到R3D50,預(yù)訓練后的識別率從92.00%提升至92.55%,最終達到93.95%.但實驗中所有R3D模型的識別率有所減低,其中R3D50僅獲得47.11%,與預(yù)訓練數(shù)據(jù)相差較大,這表明當手語數(shù)據(jù)集較少時,較難去執(zhí)行三維卷積神經(jīng)網(wǎng)絡(luò). 實驗數(shù)據(jù)如表3所列.
通過聚類算法加入關(guān)鍵幀的手語視頻特征精度達到80%以上,較未加入關(guān)鍵幀的手語識別精準度整體提升6%左右.手語關(guān)鍵幀的加入提高了關(guān)鍵手勢的權(quán)重,在特征編碼時能夠提高關(guān)鍵手勢的影響力及模型識別率.
4 結(jié)語
本文主要針對靜態(tài)與動態(tài)連續(xù)手語識別,提出基于三維卷積神經(jīng)網(wǎng)絡(luò)的孤立詞手語識別算法.通過自行構(gòu)建的手語視頻及圖像數(shù)據(jù)集,采用InceptionV3進行特征提取,并且構(gòu)建Seq2Seq模型對特征信息進行關(guān)鍵幀編解碼,降低了非關(guān)鍵手勢對手語模型識別的影響,獲得較高的識別性能.
參考文獻:
[1] 黃同愿,譚禹,朱金江.基于SlowFast網(wǎng)絡(luò)的孤立詞手語識別算法研究[J].重慶理工大學學報(自然科學),2023,37(12):267-275.
[2] 黃子龍.視頻關(guān)鍵幀提取算法的比較[J].數(shù)字技術(shù)與應(yīng)用,2023,41(8):50-52.
[3] 張淑軍,張群,李輝.基于深度學習的手語識別綜述[J].電子與信息學報,2020,42(4):1021-1032.
[4] 陳雅茜,吳非,趙丁皓.基于身體姿態(tài)關(guān)鍵點檢測及算法融合的連續(xù)手語識別[J].西南民族大學學報(自然科學版),2023,49(2):165-172.
[5] 閆思伊,薛萬利,袁甜甜.手語識別與翻譯綜述[J].計算機科學與探索,2022,16(11):2415-2429.
[6] 薛翠紅,齊立萍,孫昊,等.基于顯著性和SURF的家居服務(wù)機器人物體識別算法[J].電視技術(shù),2017,41(2):54-60.
[7] 袁甜甜,趙偉,楊學,等.大規(guī)模連續(xù)中國手語數(shù)據(jù)集的創(chuàng)建與分析[J].計算機工程與應(yīng)用,2019,55(11):110-116.
[8] 夏利民,鄧克捷.基于自分裂競爭學習算法的關(guān)鍵幀提取[J].計算機工程與應(yīng)用,2011,47(2):146-148.
[9] 王民,李澤洋,王純,等.基于壓縮感知與SURF特征的手語關(guān)鍵幀提取算法[J].激光與光電子學進展,2018,55(5):190-197.
[10] 戴興雨,王衛(wèi)民,梅家俊.基于深度學習的手語識別算法研究[J].現(xiàn)代計算機,2021,27(29):63-69.
[11] 唐申庚,修雪玉,郭丹,等.基于智能生成技術(shù)的手語數(shù)字人發(fā)展現(xiàn)狀與趨勢[J].人工智能,2023(4):20-31.
[責任編輯:李嵐 杜佳]