李建平,賴永倩
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
人體行為識別[1]指從一段視頻中通過某種方法提取關(guān)鍵動(dòng)作特征來識別出不同的人體動(dòng)作。隨著互聯(lián)網(wǎng)的高速發(fā)展,人體動(dòng)作識別仍是一項(xiàng)有挑戰(zhàn)的課題。提取視頻中的動(dòng)作行為特征,可以利用視頻幀圖像處理、深度學(xué)習(xí)等方法,使得計(jì)算機(jī)能學(xué)習(xí)識別到人體動(dòng)作的行為變化。行為識別研究在智能監(jiān)控、智能醫(yī)療等領(lǐng)域都有廣泛的應(yīng)用。
早期行為識別中,由于技術(shù)限制,傳統(tǒng)視頻行為識別算法一般是通過手工構(gòu)造提取特征,例如利用方向梯度直方圖HOF/HOG[2],運(yùn)動(dòng)邊界直方圖MHB等傳統(tǒng)的提取特征方法,但該類方法是根據(jù)特定目的設(shè)計(jì)的。Wang等人[3]根據(jù)光流場的原理,研究了一種用于視頻運(yùn)動(dòng)軌跡的提取方法,即密集軌跡跟蹤算法(DT)。經(jīng)過對光流圖像和特征編碼方式等方面改造后形成iDT[4]算法,相比其他傳統(tǒng)算法有很好的效果和魯棒性。但隨著技術(shù)發(fā)展,其他識別方法也涌現(xiàn)而出。
隨著深度學(xué)習(xí)方法的出現(xiàn),學(xué)者們也紛紛將其應(yīng)用到視頻中進(jìn)行人體行為識別。在特征學(xué)習(xí)方面,它比傳統(tǒng)的學(xué)習(xí)算法更有效。Simonyan K等人[5]提出一種融合時(shí)間和空間兩個(gè)維度的雙流卷積網(wǎng)絡(luò),但計(jì)算較復(fù)雜且無法實(shí)現(xiàn)端到端識別;Donahue等人[6]利用LSTM方法對視頻序列進(jìn)行建模,但由于模型復(fù)雜度高,導(dǎo)致最終的識別率也不是很高。Tran等人[7]首次介紹了利用三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻圖像特征提取的方法,即C3D網(wǎng)絡(luò)模型,但是參數(shù)量大導(dǎo)致訓(xùn)練周期長且易過擬合。Carreira等人[8]將雙流法與三維卷積結(jié)合起來進(jìn)行行為識別形成膨脹卷積網(wǎng)絡(luò)模型(I3D)。為了克服深層網(wǎng)絡(luò)易出現(xiàn)梯度消失的現(xiàn)象,He等[9]提出了二維殘差網(wǎng)絡(luò)的結(jié)構(gòu)。隨后Hara[10]又將二維殘差結(jié)構(gòu)擴(kuò)展到了三維中形成3D Resnet模型,識別率也有所提高。Tran等[11]提出了偽3D殘差(R(2+1)D)網(wǎng)絡(luò),將三維卷積轉(zhuǎn)換成一維時(shí)序卷積和二維卷積相結(jié)合,用于視頻中的時(shí)空行為特征的提取。
在眾多視頻行為識別模型中,雙流法無法實(shí)現(xiàn)端到端的識別,利用C3D訓(xùn)練時(shí)間較長且效果不佳,且易發(fā)生過擬合。該文通過對比不同層數(shù)的殘差網(wǎng)絡(luò)最后選定ResNeXt101層殘差網(wǎng)絡(luò)。為了在降低建模復(fù)雜度的前提下,也能提高識別的準(zhǔn)確率,該模型增加了注意力機(jī)制來增強(qiáng)特征表示和穩(wěn)健性。首先,使用pytorch框架,在UCF-101和HMDB-51通用數(shù)據(jù)集上完成了對Kinetics預(yù)訓(xùn)練模型的訓(xùn)練和調(diào)試。其中,測試效果的評判主要包括識別率和損失函數(shù)值兩個(gè)方面的綜合考量。實(shí)驗(yàn)結(jié)果表明,ResNeXt 3維模型在保持較高識別率的同時(shí),訓(xùn)練時(shí)間也縮短了很多。它具有良好的時(shí)間和空間特性提取能力,有利于后續(xù)模型的改進(jìn)優(yōu)化。
傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)僅能提取出空間尺度的特征,而不能將圖像在時(shí)間尺度上的運(yùn)動(dòng)信息納入考慮范圍,也就是光流場,導(dǎo)致提取到的特征準(zhǔn)確率不高。在視頻行為識別中,既有時(shí)間維度的特征,又有空間維度的特征。2010年,Ji等[12]率先將三維卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到了視頻的人體行為識別領(lǐng)域。Tran等[7]經(jīng)過一系列研究測試,將3*3*3選作最佳卷積核,形成C3D模型。但由于三維卷積結(jié)構(gòu)參數(shù)量較多,容易出現(xiàn)過擬合導(dǎo)致識別效果不佳,這也限制了三維卷積網(wǎng)絡(luò)的應(yīng)用。
在處理視頻數(shù)據(jù)時(shí),將視頻分割為若干連續(xù)的圖像,來提取視頻幀的特征。當(dāng)輸入的數(shù)據(jù)是視頻流時(shí),二維卷積只是對視頻幀的空間維度進(jìn)行二維卷積核(i*i),因此,辨識準(zhǔn)確率很低。三維卷積就是把一個(gè)二維的卷積核變成i*i*i,在時(shí)空維度上對視頻幀進(jìn)行卷積核運(yùn)算操作。保留輸入信號的時(shí)間信息,通過將各特征映射與相鄰多幀進(jìn)行關(guān)聯(lián),得到視頻中的運(yùn)動(dòng)信息。整個(gè)卷積層的計(jì)算公式如公式(1):
(1)
2015年,何愷明等人[9]在ImageNet大型視覺辨識大賽上提出了殘差網(wǎng)絡(luò),取得了良好的圖片分類及目標(biāo)識別效果。他克服了以前由于網(wǎng)絡(luò)層過深造成的網(wǎng)絡(luò)模型識別性能下降的問題,可以保持超深的網(wǎng)絡(luò)結(jié)構(gòu),而且新提出了residual(殘差)模塊,通過跳躍連接來減輕因加大深度造成的梯度消失問題,并使用批量歸一化進(jìn)行加速訓(xùn)練,丟棄了以往的dropout模塊。ResNet網(wǎng)絡(luò)可以有效地防止傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在信息傳輸中出現(xiàn)的丟失和損失,從而確保了圖像特征信息的完整性。
ResNeXt網(wǎng)絡(luò)[13]是由Xie等前輩提出的,是ResNet在寬度上的擴(kuò)充,該網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)是以VGG的疊加原理和Inception的split-transform-merge思想為基礎(chǔ),其拓展能力更強(qiáng),可以確保模型的復(fù)雜性不會(huì)下降或者不會(huì)發(fā)生變化,并且模型的精確度也得到了改善。ResNeXt的中心思想是分組卷積,主要通過變化基數(shù)(Cardinality)來控制組的數(shù)量。簡單來講,組卷積就是每個(gè)分支生成的Feature Map的總通道數(shù)量為n。圖1(a)顯示了ResNet的網(wǎng)絡(luò)結(jié)構(gòu),圖1(b)是ResNeXt的網(wǎng)絡(luò)結(jié)構(gòu)。
如圖1所示,左右結(jié)構(gòu)復(fù)雜度大致相同。ResNeXt的殘差模塊主要包括了32個(gè)相同的分支,每個(gè)block圖層主要包括輸入的維度,卷積大小以及輸出維度大小。首先通過1*1的卷積進(jìn)行降維,再升維到3*3,然后在輸出前再降維到1*1。之后對第三卷積層的輸出進(jìn)行聚合操作,如公式(2),得到整個(gè)殘差塊的輸出。最后,將殘差塊和恒等捷徑連接的輸出聚合起來,聚合公式如公式(3)所示。
(a)ResNet殘差塊 (b) ResNeXt殘差塊,基數(shù)cardinality=32
(2)
(3)
DeepMind小組[14]首次將注意力機(jī)制應(yīng)用于圖像領(lǐng)域。就注意力機(jī)制的原理而言,通俗的理解就是將注意力放在重要的東西上。在圖像領(lǐng)域,就是改變每個(gè)通道的權(quán)重來加強(qiáng)對重要信息的關(guān)注。使得網(wǎng)絡(luò)模型提取到的特征更加全面,也能增強(qiáng)網(wǎng)絡(luò)模型對特征信息的敏銳度。可視化注意力的中心理念是要找到原始數(shù)據(jù)和它自己的關(guān)聯(lián),進(jìn)而突出自身的重要特征。
引入注意力機(jī)制后,可以對區(qū)域以外的重要特征進(jìn)行更好的提取,在獲得更全面特征信息的同時(shí),也能減輕較低層次因感受野較小導(dǎo)致無法獲得更多人體行為特征信息的問題。注意力機(jī)制模型主要包括通道注意力機(jī)制[15]與空間注意力機(jī)制(見圖2)。引入注意力機(jī)制,保證了在不增加網(wǎng)絡(luò)運(yùn)算量的前提下,加重對某些特征的提取,從而提高了識別的準(zhǔn)確率。
圖2 注意力模塊
因此,該文在視頻識別中引入注意力機(jī)制,主要用于增強(qiáng)網(wǎng)絡(luò)對行為特征提取的敏感度,使得網(wǎng)絡(luò)提取特征模型能充分利用識別區(qū)域之外的上下文特征信息。著重解決了在網(wǎng)絡(luò)層數(shù)較低的時(shí)候,因?yàn)楦惺芤俺叽绱笮∈芟迣?dǎo)致無法獲得更多行為特征信息的問題。在對視頻中人體行為識別的過程中,因?yàn)楣庹毡尘暗纫蛩氐牟淮_定,可能會(huì)導(dǎo)致識別目標(biāo)不準(zhǔn)確。因此,引入了注意力機(jī)制,通過給各個(gè)通道設(shè)置不同的權(quán)重,剔除掉了一些沒有意義的信息,更加注重動(dòng)作識別,增強(qiáng)對特定特征信息的提取效果。該文提出在ResNeXt殘差模型中加入注意力機(jī)制,提高特征提取的效率,增強(qiáng)上下文的相關(guān)性,對行為識別有所側(cè)重,使得提取效果更加明顯。
首先,把原始的視頻數(shù)據(jù)按照一定的方法截取為連續(xù)的視頻圖像幀,之后,對視頻圖像進(jìn)行剪裁翻轉(zhuǎn)、二值化、歸一標(biāo)準(zhǔn)化、灰度化等一系列預(yù)處理操作。在數(shù)據(jù)集的處理中,按照7∶3的比例將其劃分為訓(xùn)練集和測試集。之后把處理后的視頻幀輸入到嵌入注意力機(jī)制的ResNeXt殘差模型,使網(wǎng)絡(luò)更加重視有較強(qiáng)烈反饋的特性,提取時(shí)間和空間兩個(gè)維度的特征,同時(shí)考慮到各個(gè)層面的不同特征,確保所有的特征信息都能被充分利用。最后,經(jīng)過全局平均池化處理,對視頻中的人體行為進(jìn)行識別。
在整個(gè)網(wǎng)絡(luò)模型訓(xùn)練過程中,設(shè)置每次的訓(xùn)練迭代次數(shù)為200次,批處理量為32。設(shè)定最初的學(xué)習(xí)率為0.001,每迭代50次后,其自動(dòng)縮小為原來的1/10,直到訓(xùn)練結(jié)束。每迭代一次結(jié)束后都會(huì)直接進(jìn)行一次校驗(yàn),并分別記錄驗(yàn)證集上的識別準(zhǔn)確率和損失函數(shù)值,取最好的成績作為模型評估的依據(jù)。
圖3是該文所使用的殘差模塊的結(jié)構(gòu)。所采用的卷積網(wǎng)絡(luò)主體是由四個(gè)殘差模塊組成的ResNeXt 101殘差網(wǎng)絡(luò)。ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)采用一個(gè)拓?fù)湎嗤钠叫袎K重疊起來,對數(shù)據(jù)包進(jìn)行分組卷積,能保證不增加網(wǎng)絡(luò)參數(shù)復(fù)雜度的同時(shí)有效提高網(wǎng)絡(luò)的識別準(zhǔn)確度。第一層和最后一層采用1*1*1的卷積核,從而減少了總的參數(shù)量。中間網(wǎng)絡(luò)層用3*3*3的卷積核,F代表特征圖中的通道數(shù)目,而group代表分組卷積的總組數(shù),并將其劃分為多個(gè)小特征圖。每次卷積操作結(jié)束后,都會(huì)進(jìn)行一系列批量歸一化運(yùn)算,以確保數(shù)據(jù)的平均分配,加速網(wǎng)絡(luò)訓(xùn)練速度,避免過度擬合。除了最后一層的批量歸一化操作外,其他的層會(huì)在歸一標(biāo)準(zhǔn)化后加入RELU激活函數(shù),在完成shortcut后,重新利用激活函數(shù)對數(shù)據(jù)進(jìn)行處理。通常,在獲得殘差結(jié)果后,通過最大池化運(yùn)算對數(shù)據(jù)進(jìn)行壓縮,并將其輸入到下一層的網(wǎng)絡(luò)中。
圖3 三維殘差模塊
本次實(shí)驗(yàn)的軟件環(huán)境為64位Ubuntu20.04操作系統(tǒng),CUDA 11.6.1,CUDNN 11.1用于GPU加速的底層軟件平臺,編譯軟件為Pycharm,深度學(xué)習(xí)框架為PyTorch 1.11.1,Python版本為3.7.3。硬件環(huán)境為Intel(R) Core(TM) i7-4790 CPU @ 3.60 GHz,硬盤大小為1 024 GB,內(nèi)存容量為12G。實(shí)驗(yàn)所用的顯卡為GTX 1080 Ti。
3.2.1 UCF-101
UCF-101[16]是當(dāng)下行為類別和樣本數(shù)量最大的真實(shí)動(dòng)作識別數(shù)據(jù)集之一,其視頻數(shù)據(jù)主要是從YouTube收集的101個(gè)動(dòng)作類型和13 320種視頻。UCF-101是在不受約束的環(huán)境中錄制并上傳至YouTube,在相機(jī)的移動(dòng)過程中,人體的姿勢、觀察角、背景遮擋、照明條件、幀圖像質(zhì)量等在不同條件下有很大的差別,所以數(shù)據(jù)相對來說具有多樣性。其中101個(gè)動(dòng)作類型又被分為25個(gè)系列,每個(gè)系列包括4~7個(gè)相關(guān)的視頻錄像,主要包括人與物的互動(dòng)、人與人的交互、人體自身的行為、演奏樂器和做運(yùn)動(dòng)五種類別。其中動(dòng)作包括:跳遠(yuǎn)、騎車、彈鋼琴、寫字、跳高等。但是,同一系列的視頻也會(huì)有某些共性,比如背景、視角、照明條件等。部分動(dòng)作幀如圖4所示。
圖4 UCF-101部分動(dòng)作幀
3.2.2 HMDB-51
HMDB-51[17]是2011年Brown University大學(xué)公布的一個(gè)用于識別確定人的行為類型的數(shù)據(jù)集。這些視頻是從各個(gè)渠道收集的,大部分都是從電影中找到的,也有一部分從公共數(shù)據(jù)庫和YouTube之類的網(wǎng)絡(luò)視頻庫里收集的。它共分為51個(gè)動(dòng)作類別,每類包含至少有101個(gè)片段,總共含有6 849個(gè)視頻片段。五種主要的動(dòng)作行為有:一般的臉部行為、臉部操作、對象的行為、一般身體行為、肢體與對象的交互動(dòng)作和人體自身姿勢行為,例如吸煙、揮手、翻轉(zhuǎn)、走路、擊打等。部分動(dòng)作幀如圖5所示。
圖5 HMDB-51部分動(dòng)作示意圖
在對視頻進(jìn)行網(wǎng)絡(luò)訓(xùn)練前,視頻預(yù)處理是提高數(shù)據(jù)質(zhì)量和網(wǎng)絡(luò)模型泛化程度的必要條件。首先,將視頻數(shù)據(jù)轉(zhuǎn)換為連續(xù)的視頻幀圖像,然后,在指定的位置上進(jìn)行統(tǒng)一的圖像采集,得到一系列的訓(xùn)練樣本。如果輸入的采樣視頻幀數(shù)少于16幀,則循環(huán)地插入開始幀,直至達(dá)到16幀的輸入需求為止。接著,對所獲取到的視頻幀執(zhí)行抖動(dòng)(隨機(jī)切割裁剪)操作,進(jìn)行弱化數(shù)據(jù)噪聲,增加模型穩(wěn)定性。主要是:把視頻畫面從左上角按一定的規(guī)格開始裁剪10次,然后用同樣的方式把它的右上、右下、左下和中間部分進(jìn)行裁剪,將得到的幀做水平鏡像處理。同時(shí)為了使模型有更好的魯棒性,還實(shí)現(xiàn)了多尺度的視頻幀空間分割,裁剪尺寸的比例分別為,在訓(xùn)練和測試樣本上,將視頻的時(shí)間和空間均按照1∶1的比例分割為240×240 的大小,并將其調(diào)節(jié)為112×112,以此來提高實(shí)驗(yàn)的訓(xùn)練速度,同時(shí)不會(huì)降低測量的準(zhǔn)確率,最終單個(gè)樣本輸入的維度為16×3×112×112。對預(yù)處理后的視頻幀數(shù)據(jù)歸一化為(batch,3,16,112,112)的輸入大小。其中,batch表示批量處理的尺寸大小,3表示圖像通道數(shù)目,16表示連續(xù)而非交疊的圖像幀數(shù)。
該文利用Kinetics的預(yù)訓(xùn)練模型,實(shí)現(xiàn)在UCF-101和HMDB-51數(shù)據(jù)集上的遷移學(xué)習(xí)。隨著迭代次數(shù)的增大,該模型的識別準(zhǔn)確率逐漸提升,同時(shí)損失率也在下降。圖6為該模型在UCF-101數(shù)據(jù)集上迭代100次的整個(gè)過程。在整個(gè)模型的訓(xùn)練過程中,每迭代一次結(jié)束后都會(huì)在驗(yàn)證集上進(jìn)行一次校驗(yàn)。從圖6可看出,在UCF-101數(shù)據(jù)集上迭代到60次之前,準(zhǔn)確率整體增長趨勢比較快,同時(shí)損失值的減少幅度較大。隨著不斷增加迭代次數(shù),準(zhǔn)確率和損失函數(shù)值的整體變化速度趨于平緩,并在訓(xùn)練60次左右時(shí)開始趨于穩(wěn)定,最終該模型的準(zhǔn)確率可達(dá)96.0%。
圖6 該模型在UCF-101數(shù)據(jù)集上的迭代過程
(1)不同殘差網(wǎng)絡(luò)模型深度對實(shí)驗(yàn)的影響。
該文對ResNet101和ResNeXt34,50,101,152多個(gè)網(wǎng)絡(luò)深度進(jìn)行訓(xùn)練,在公共數(shù)據(jù)集UCF-101上進(jìn)行對比實(shí)驗(yàn)。其中,將16個(gè)不重疊的連續(xù)視頻幀作為訓(xùn)練的輸入,并將ResNeXt50和ResNeXt101的輸入視頻幀數(shù)增至64幀,進(jìn)行了對比實(shí)驗(yàn)。對于不同深度的模型,利用相同的目標(biāo)樣本訓(xùn)練更新頂層卷積層和分類層的權(quán)重參數(shù),總的迭代次數(shù)均為200,將各模型的訓(xùn)練時(shí)間和驗(yàn)證集上的最大精準(zhǔn)度作為評估模型的性能指標(biāo),結(jié)果如表1所示。
由表1可得,隨著層數(shù)加深,準(zhǔn)確率有所上升。而且視頻幀的輸入對結(jié)果也有很大影響。綜合發(fā)現(xiàn)ResNeXt101層的網(wǎng)絡(luò)結(jié)構(gòu)準(zhǔn)確率更好,同時(shí)也更加穩(wěn)定。
(2)有無注意力機(jī)制的對比實(shí)驗(yàn)。
加入注意力機(jī)制后,加強(qiáng)對前后視頻幀的關(guān)聯(lián),使得提取到的視頻特征更加完全,具體實(shí)驗(yàn)結(jié)果如表2所示。經(jīng)過多次實(shí)驗(yàn)迭代對比,并且不斷調(diào)整注意力機(jī)制的權(quán)重大小,發(fā)現(xiàn)加入注意力機(jī)制后,UCF-101和HMDB-51數(shù)據(jù)集上的識別準(zhǔn)確率都有明顯的提升。在UCF-101數(shù)據(jù)集上和HMDB-51數(shù)據(jù)集上的識別準(zhǔn)確率都提升了4.8%。由此可證明,加入注意力機(jī)制后,加深了對動(dòng)作特征的提取,準(zhǔn)確率有了明顯的提升。
表2 有無注意力機(jī)制的準(zhǔn)確率對比實(shí)驗(yàn) %
(3)與其他模型的對比實(shí)驗(yàn)。
在UCF-101和HMDB-51兩種典型數(shù)據(jù)集上將文中方法與其他的經(jīng)典識別模型進(jìn)行了比較。通過與改進(jìn)后的密集軌跡iDT算法、雙流法Two-Stream以及C3D算法三種傳統(tǒng)算法,并且與最近兩年利用殘差網(wǎng)絡(luò)進(jìn)行人體識別的相關(guān)文獻(xiàn)中的算法進(jìn)行對比實(shí)驗(yàn),結(jié)果如表3所示。由對比結(jié)果可知,該模型的識別準(zhǔn)確率更高,泛化性更好。
表3 在UCF-101和HMDB-51數(shù)據(jù)集上的準(zhǔn)確率P值對比 %
該文的主干網(wǎng)絡(luò)ResNeXt101層網(wǎng)絡(luò)模型與傳統(tǒng)的網(wǎng)絡(luò)模型(如iDT、Two-Stream、C3D)相比,ResNeXt101的實(shí)驗(yàn)精度更高,證明了該網(wǎng)絡(luò)模型的表達(dá)能力較強(qiáng)。從圖7中可明顯看出,嵌入注意力機(jī)制的殘差網(wǎng)絡(luò)模型在UCF-101數(shù)據(jù)集上相比C3D和雙流法分別提升了6%左右和8%左右,HMDB-51數(shù)據(jù)集上的準(zhǔn)確率也比雙流法提升了10%左右,證明了深層網(wǎng)絡(luò)模型在行為識別任務(wù)中取得了不錯(cuò)的效果。
圖7 各算法在UCF-101和HMDB-51數(shù)據(jù)集上的準(zhǔn)確率
該文提出了一種融合注意力機(jī)制的殘差三維網(wǎng)絡(luò)模型用以識別視頻中的人體行為。在當(dāng)下較流行的行為識別數(shù)據(jù)集上,首先進(jìn)行殘差網(wǎng)絡(luò)層數(shù)的對比實(shí)驗(yàn),然后選定ResNeXt 101層作為該殘差三維網(wǎng)絡(luò)結(jié)構(gòu)的殘差塊,保證了深層網(wǎng)絡(luò)提高識別率的同時(shí)也避免發(fā)生過擬合。在此基礎(chǔ)上,引入了注意力機(jī)制使殘差3D卷積結(jié)構(gòu)學(xué)習(xí)到的各個(gè)特征通道賦予不同的權(quán)重,加強(qiáng)對重要特征的提取。在UCF-101和HMDB-51兩個(gè)數(shù)據(jù)集上,與其他算法,包括近兩年的最新文獻(xiàn)中的方法都進(jìn)行了對比實(shí)驗(yàn)。實(shí)驗(yàn)表明,該模型能夠很好地提取出連續(xù)視頻幀的特征,并且注意力機(jī)制能夠充分利用時(shí)間和空間特征,識別準(zhǔn)確率也有了明顯提升。在下一步工作中,也會(huì)繼續(xù)對模型進(jìn)行優(yōu)化,考慮如何在盡可能減少模型參數(shù)的同時(shí)提升模型的運(yùn)行效率,保證模型獲得更好的效果。后續(xù)也會(huì)將優(yōu)化后的模型應(yīng)用于油田的實(shí)際工作環(huán)境下進(jìn)行工人的異常行為識別,增強(qiáng)網(wǎng)絡(luò)模型在實(shí)際生活場景下的特征學(xué)習(xí)能力。