劉春霞,高 強+,潘理虎,龔大立
(1.太原科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山西 太原 030024;2.精英數(shù)智科技股份有限公司,山西 太原 030006)
近幾年,透水事故的發(fā)生率有所降低,所采取的方式是指派專職人員對探放水作業(yè)進(jìn)行驗收,通過監(jiān)管探水作業(yè)從而杜絕透水發(fā)生。存在的問題是人工驗收耗時長、效率低,所采集的數(shù)據(jù)資料不便長期保存[1]。鑒于深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的快速發(fā)展和應(yīng)用場景逐漸成熟,Tran等[2]提出的網(wǎng)絡(luò)模型能夠在大規(guī)模樣本數(shù)據(jù)獲取出泛化性的特征信息。Juanhui Tu等[3]將人體骨架信息點與3D卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,在時間域和空間域中提取特征,應(yīng)用于增強區(qū)分捕獲全局關(guān)系的時空特征信息。但由于訓(xùn)練過程參數(shù)量較多,極易出現(xiàn)過擬合現(xiàn)象。Chengjie Wu等[4]則在網(wǎng)絡(luò)模型中加入時間語義信息的提取模組,對整個網(wǎng)絡(luò)進(jìn)行干預(yù)學(xué)習(xí),能夠?qū)⒄麄€時序圖像信息作出較為完整的提取。Kanav Vats等[5]引入結(jié)合長短期記憶[6](LSTM)的姿勢序列變換和光流特征網(wǎng)絡(luò)的雙通道網(wǎng)絡(luò),將時間和空間特征信息提取后再按權(quán)重融合,能夠獲取完整特征信息。而這兩種方法更側(cè)重于理解上下文語義關(guān)系,在表達(dá)圖像深層語義方面尚有不足[7]。
針對上述問題,提出一種融合交叉熵?fù)p失的3DCNN探水作業(yè)動作識別模型(water exploration action recognition net,WEARNet),以期利用分布式學(xué)習(xí)圖像特征信息的方法,提高探水作業(yè)動作識別效率,從而解決人工驗收探水作業(yè)效率低的問題。
在一般的網(wǎng)絡(luò)模型的設(shè)計中,采用的是自主學(xué)習(xí)型的特征提取網(wǎng)絡(luò)框架結(jié)構(gòu),將樣本數(shù)據(jù)輸送到模型后,利用隱藏層進(jìn)行特征信息的提取,再將得到的特征信息進(jìn)行全連接得到最后的學(xué)習(xí)結(jié)果。采用流程化的順序特征提取網(wǎng)絡(luò)模型,一方面能夠在無監(jiān)督的情況下完成學(xué)習(xí)過程,排除了人為因素的干預(yù);另一方面則是采用卷積核提取信息時造成神經(jīng)元被遺漏、擱置以及直接被壞死的情況,存在特征信息提取時神經(jīng)元被利用率不充足的弊端。受到生物神經(jīng)系統(tǒng)軸體信號刺激傳遞過程[8]的啟發(fā),設(shè)計出一種能夠?qū)⑻匦孕畔Ⅻc充分利用的網(wǎng)絡(luò)模型,自行學(xué)習(xí)并能夠調(diào)節(jié)學(xué)習(xí)深度,攝取到更多有用的信息點。具備有特點的信息元區(qū)域映射,得到關(guān)聯(lián)性采集,能夠把辨識度較差的信息二次更新利用,做到在模型訓(xùn)練過程中層層遞進(jìn)刺激性學(xué)習(xí)機制,讓學(xué)習(xí)過程不再出現(xiàn)層層衰減的現(xiàn)象,使網(wǎng)絡(luò)模型在進(jìn)步中強化學(xué)習(xí),以挖掘到更多的信息,基本結(jié)構(gòu)如圖1所示。
圖1 基本結(jié)構(gòu)
本文工作主要致力于得到最優(yōu)網(wǎng)絡(luò)模型,對非線性化函數(shù)選擇及使用和改善模型訓(xùn)練效率,得到真實一致性圖像特征信息圖[9],最接近實際地對特征進(jìn)行描述。
本文所提模型WEARNet共由3個部分構(gòu)成,共使用了4層3D卷積層來進(jìn)行特征提取。對于三維卷積神經(jīng)網(wǎng)絡(luò)而言,在學(xué)習(xí)訓(xùn)練過程中產(chǎn)生的參數(shù)量是呈指數(shù)增長的,參數(shù)數(shù)量的急劇上升很有可能會造成特征網(wǎng)絡(luò)圖的梯度直接消失,那么再獲取較為細(xì)致的特征信息就顯得較為困難。所以,在本文模型中引入了兩種層次化函數(shù)ReLU函數(shù)和SoftMax交叉熵?fù)p失函數(shù),并且在模型中先使用ReLU函數(shù)進(jìn)行線性化再使用SoftMax函數(shù)。原因在于,根據(jù)兩種函數(shù)的機理過程分析可得,ReLU函數(shù)是一個主線向前的非線性化過程,如果不先使用ReLU函數(shù),那么就會造成特征信息圖加載過多無用的數(shù)據(jù),網(wǎng)絡(luò)模型的收斂狀態(tài)瞬間就會達(dá)到穩(wěn)定,后面的卷積層也將不再起作用;相反,如果使用過多的ReLU函數(shù),特征信息圖又會顯得過于稀疏,特征豐富度也隨之下降。而在ReLU函數(shù)之后使用SoftMax函數(shù),賦予每一個神經(jīng)元概率值,讓其進(jìn)行區(qū)間劃分,得出可能值后再進(jìn)行學(xué)習(xí),會使得影響較大的信息得以保留,既保持了梯度的完整性,又兼顧到特征圖的豐富度[10]。
WEARNet模型中的第一部分和第二部分都屬于特征提取部分,網(wǎng)絡(luò)結(jié)構(gòu)都采用卷積之后再池化的學(xué)習(xí)步驟,共計4輪循環(huán)過程,而第三部分為特征全連接過程,產(chǎn)生三維特征信息圖。
第一部分見表1,卷積核大小為3×3×3,數(shù)量為32,主要聚焦于對全面信息點的捕獲攝取,對大范圍的特征信息進(jìn)行初步篩選,深度還較淺,這一部分也是為第二部分打下基礎(chǔ),將深度節(jié)點記錄并反饋給下層網(wǎng)絡(luò)。第二部分見表2,和第一部分不同的是將卷積核數(shù)量增加了一倍,主要進(jìn)行強化學(xué)習(xí),作用于局部潛層信息域,深入提取到更豐富的特征信息。
表1 第一部分網(wǎng)絡(luò)
表2 第二部分網(wǎng)絡(luò)
最后部分,見表3,是模型的特征全連接部分,經(jīng)過全特征拼接出相應(yīng)數(shù)據(jù)集的4類動作特征響應(yīng)圖。
表3 特征連接網(wǎng)絡(luò)
在經(jīng)過卷積操作之后,采用ReLU函數(shù)[11]對特征進(jìn)行非線性化,對卷積之后的數(shù)據(jù)進(jìn)行運算,層次化后的效果表現(xiàn)為特點較不明顯的信息元暫時被擱置,只留下較明確的信息,如下方法
(1)
在上述式(1)中,x表示的物理量為特征映射素點[12];即信息點非映射關(guān)聯(lián)輸出則為0,其余情況輸出則為線性化。此函數(shù)過程的作用是將信息特征呈現(xiàn)梯次表達(dá),避免在卷積過程中出現(xiàn)彌散現(xiàn)象。本文所建網(wǎng)絡(luò)模型中使用了兩層ReLU函數(shù),考慮到該函數(shù)作用于整個信息區(qū)域,如果使用過多的ReLU函數(shù),會引起網(wǎng)絡(luò)梯度下降過快,出現(xiàn)信息元還未被學(xué)習(xí)到就直接流失的情況。
在網(wǎng)絡(luò)前兩部分的第二層卷積層之后加入SoftMax交叉熵?fù)p失函數(shù),對所得特征信息進(jìn)行分類回歸擬合,對不同信息元進(jìn)行概率值化,按照動作的特點完成特征提取,在賦予神經(jīng)元一定程度信息標(biāo)記后再進(jìn)行學(xué)習(xí),從而加深網(wǎng)絡(luò)模型的泛化力度,如下方法
(2)
(3)
(4)
在式(2)中θ1,θ2,…,θk代表的是模型偏量數(shù)值,其維數(shù)則對應(yīng)于所分類的數(shù)量[13]。式(3)是k類特征神經(jīng)元分配概率值的過程。在式(4)中,x是特征信息元集合,hθ(x(i))是輸入x(i)時對應(yīng)歸屬類別的概率矩陣,p(y(i)=k|x(i))表示歸屬類別為k的概率值,而對于本文數(shù)據(jù)集,類別數(shù)k=4。根據(jù)該函數(shù)計算過程的機理,將其引入到本文網(wǎng)絡(luò)模型中,是為了對信息神經(jīng)元進(jìn)行值化后產(chǎn)生類效果,能夠在訓(xùn)練過程中被充分利用,讓信息元具有特征屬性后再被學(xué)習(xí)。
在深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,學(xué)習(xí)訓(xùn)練時都會對圖像產(chǎn)生分布偏移,數(shù)據(jù)點在層層卷積后已不再保持原態(tài),特征信息的提取造成困難。如果,能對發(fā)生偏移的神經(jīng)元進(jìn)行歸一化[14]處理,讓網(wǎng)絡(luò)建立新的數(shù)據(jù)分布[15],使得層與層的運算后不會產(chǎn)生較大誤差,使其保持相應(yīng)的真實度,則攝取特征信息的效率隨之會有所加強,學(xué)習(xí)訓(xùn)練的質(zhì)量也有所提升。歸一化過程方法如下
(5)
(6)
(7)
(8)
批量歸一化層是以批次為計量單位處理的數(shù)據(jù)信息元規(guī)則化的運算過程,式(5)是本批次期望值μβ的計算過程,式(6)是方差σβ的計算過程,利用式(7)做整體運算,得出歸一化運算結(jié)果,ξ是式子運算的極小常數(shù),之后再利用式(8)對式(7)得到的結(jié)果進(jìn)行變換,其中γ和β是可學(xué)習(xí)的兩個參量,分別表示縮放度和平移量[16]。采用批量規(guī)則化對神經(jīng)元進(jìn)行偏移糾正后,網(wǎng)絡(luò)特征圖則會更加清晰。
本實驗過程主要采用Python語言搭建模型框架,采用Tensorflow訓(xùn)練框架,16 G內(nèi)存,GPU為NVIDIA RTX 2080Ti,圖形加速工具為CUDA 10.0。
通過與煤礦安全相關(guān)的互聯(lián)網(wǎng)公司合作,在山西某煤礦生產(chǎn)基地組織實施實驗工程,利用高清錄像機進(jìn)行井下探水作業(yè)過程錄制采樣。而且為了保證樣本數(shù)據(jù)的多樣性,又兼顧到視頻拍攝的角度和人體姿勢的變化,共錄制了9個不同采煤區(qū)的探水作業(yè)視頻,最后篩選出45到50段特征性較強的樣本,共計有410段數(shù)據(jù)樣本。
經(jīng)過對自制數(shù)據(jù)集中的探水作業(yè)動作研究分析,可把探水作業(yè)過程看作分解動作的連續(xù),根據(jù)動作特點將其分為4個部分,如圖2所示:①扳手?jǐn)Q桿:操作員行走至鉆機頭部擰開鉆桿(圖2(a));②轉(zhuǎn)身拿桿:操作員將旁邊的鉆桿拿起并擺放到合適位置(圖2(b));③匹配并固定鉆桿:操作員將已經(jīng)擺放在合適位置的鉆桿與鉆機擰合(圖2(c));④擰開水龍頭:操作員轉(zhuǎn)身移動到水閥位置后打開水閥(圖2(d))。
圖2 4類作業(yè)動作
圖3 訓(xùn)練識別過程
3.4.1 加入不同數(shù)量卷積層實驗對比
首先做了關(guān)于卷積層數(shù)確定的實驗,實驗結(jié)果如圖4所示,折線A-acn、B-acn、C-acn分別對應(yīng)3層、5層和4層卷積層。從實驗結(jié)果可得,使用4層卷積層的模型擬合效果較好,能夠有效避免訓(xùn)練時出現(xiàn)過擬合和擬合不足等問題,較為適中,同時采用4層卷積層也不會使得訓(xùn)練周期過長。分析其原因,卷積層的使用主要在于特性信息的提取,產(chǎn)生數(shù)據(jù)量較大,如果使用較多的卷積層,則會造成數(shù)據(jù)量暴增,此時梯度也會隨之消散,模型過早擬合;而如果使用較少的卷積層,訓(xùn)練學(xué)習(xí)的強度又會達(dá)不到,不利于深層信息的提取。
圖4 不同卷積層數(shù)迭代訓(xùn)練準(zhǔn)確率對比
3.4.2 加入批量歸一化層實驗對比
其次做了關(guān)于加入批量歸一化的實驗,實驗結(jié)果如圖5所示,在加入歸一化層后的網(wǎng)絡(luò)模型的擬合效果有明顯提升,在訓(xùn)練200次之后趨于平穩(wěn)狀態(tài),識別精度已經(jīng)達(dá)到90%以上;同時,收斂速度也有所提升,歸一化也解決了訓(xùn)練周期過長的問題。
圖5 加入BN層的迭代訓(xùn)練準(zhǔn)確率對比
3.4.3 加入層級化函數(shù)實驗對比
還做了加入層次化函數(shù)的實驗對比,通過實驗得出在模型中加入兩種層次化函數(shù)的效果最好,實驗結(jié)果如圖6所示。折線rel-fun是在模型中只加入ReLU函數(shù)的效果反映圖,從實驗效果來看,只加入ReLU函數(shù)的模型會對信息元造成大量遺失,這種不利現(xiàn)象會引發(fā)特征提取的不充分;折線sof-fun是在模型中只加入SoftMax函數(shù)的效果反映圖,會造成網(wǎng)絡(luò)模型收斂速度過快,梯度消失的情況,不利于再進(jìn)行下層特征提?。欢劬€art-fun是在模型中同時加入ReLU函數(shù)和SoftMax函數(shù)的效果反映圖,是本文模型對非線性化過程的最優(yōu)使用,在保證信息元不缺少和豐富度的同時,回歸擬合符合深度學(xué)習(xí)評估,又能對其進(jìn)行完整提取,能夠達(dá)到模型設(shè)計的預(yù)期效果,使得在進(jìn)步中不斷地強化學(xué)習(xí)的思想得以體現(xiàn)。
圖6 不同函數(shù)迭代訓(xùn)練準(zhǔn)確率對比
3.4.4 本文算法性能驗證
在對模型的框架確定之后,做了本文WEARNet模型對自制數(shù)據(jù)集的實驗對比,主要關(guān)注的指標(biāo)是各類動作的識別精確度、召回率和以及F1 Score,實驗結(jié)果見表4。
表4 性能評價
最后,將本文WEARNet模型與目前較為優(yōu)異的模型[17,18]在自制數(shù)據(jù)集上做實驗對比,見表5。
表5 相同條件下各模型性能對比
從表5中可以看出本文WEARNet模型的識別精度高于其它模型,其訓(xùn)練效率也有較大提升。
文中針對礦井探水作業(yè)中人工驗收效率低耗時長等問題,提出一種融合交叉熵?fù)p失函數(shù)的3DCNN探水作業(yè)動作識別模型(WEARNet),使用ReLU層級化函數(shù)和SoftMax交叉熵?fù)p失函數(shù)過濾掉部分模糊特征信息,選擇較清晰的特征進(jìn)行學(xué)習(xí),從而挖掘出更深層次的特征信息;其次利用批量歸一化層對特征圖進(jìn)行規(guī)則化處理,解決數(shù)據(jù)分布漂移問題,進(jìn)一步增強模型的泛化能力;最后經(jīng)過實例驗證,模型具備較好的深層特征提取能力,算法的魯棒性和訓(xùn)練效率有所提高。所提方法在自制數(shù)據(jù)集上識別精確率最終達(dá)到95.64%,從技術(shù)層面來說,本文所提方法能夠使得智能識別驗收探水作業(yè)的精確度有所提高,可應(yīng)用于實際工程。