張立亞, 王寓, 郝博南
(1. 煤炭科學(xué)技術(shù)研究院有限公司, 北京 100013;2. 煤礦應(yīng)急避險技術(shù)裝備工程研究中心, 北京 100013;3. 北京市煤礦安全工程技術(shù)研究中心, 北京 100013;4. 中國傳媒大學(xué) 信息與通信工程學(xué)院, 北京 100024)
2020年2月25日,國家八部委聯(lián)合下發(fā)《關(guān)于加快煤礦智能化發(fā)展的指導(dǎo)意見》,加快了新一代信息化技術(shù)在煤礦行業(yè)的推廣應(yīng)用[1-2],其中礦井人員精確定位技術(shù)是煤礦智能化關(guān)鍵技術(shù)之一,可有效遏制煤礦井下超定員生產(chǎn),避免或減少煤礦重特大事故發(fā)生[3]。行人重識別技術(shù)作為人員身份位置信息確認的重要手段,對人員安全監(jiān)管有著重要意義。煤礦作為傳統(tǒng)高危行業(yè),礦井內(nèi)部結(jié)構(gòu)環(huán)境復(fù)雜,受井下低照度、高塵霧等影響,視覺圖像采集困難,人員信息獲取不到位[4],如何利用行人重識別技術(shù)高效準確區(qū)分井下工作人員身份位置信息是目前亟需解決的重要問題。
2006年N. Gheissari等[5]提出了2種行人重識別方法,分別使用興趣算子和模型擬合來建立2個個體之間的空間對應(yīng)關(guān)系,開啟了行人重識別新的研究熱潮。2007年,首個用于行人重識別算法研究的數(shù)據(jù)集VIPeR發(fā)布,包含了同一人的不同圖像,并囊括了攝像機視點變化等干擾因素[6]。從2014年開始,深度學(xué)習框架開始逐步應(yīng)用在行人重識別技術(shù)中,隨著開源人員訓(xùn)練數(shù)據(jù)庫數(shù)據(jù)量的增大[7],行人重識別技術(shù)得到了飛速發(fā)展。目前較為成熟的行人重識別方法主要包括基于元學(xué)習和基于度量學(xué)習2類,基于度量學(xué)習的方法相較基于元學(xué)習的方法,更側(cè)重于利用特征相似性來進行學(xué)習訓(xùn)練,特征相似性可以捕捉到數(shù)據(jù)的本質(zhì)特征,且可以減小噪聲的影響,因此基于度量學(xué)習的方法識別精度較高、應(yīng)用范圍更廣。文獻[8]提出了分層跨模態(tài)度量學(xué)習方法,解決了人員圖像距離過大的問題;文獻[9]提出了倒排k近鄰的度量學(xué)習方法,提高了特征之間的相關(guān)性;文獻[10]提出了基于等距度量學(xué)習策略的行人重識別Equid-MLAPG算法,提高了模型的魯棒性;文獻[11]提出了一種基于距離度量學(xué)習的行人重識別方法,對每一個攝像機建立一個距離度量模型,提高了識別正確率。由于現(xiàn)有度量學(xué)習的損失函數(shù)未考慮正負樣本之間的絕對距離,易造成梯度消失或梯度彌散現(xiàn)象,從而導(dǎo)致井下人員位置信息識別精度不高。
針對上述問題,本文提出了一種基于改進度量學(xué)習的煤礦井下行人重識別方法。首先,通過手工設(shè)計特征的方法對井下人員特征信息進行有效提取。然后,采用歐氏距離對人員高維特征進行相似性計算。最后,將提取到的特征輸入到基于改進度量學(xué)習的煤礦井下行人重識別算法中,通過在三重損失函數(shù)中加入自適應(yīng)權(quán)重,將正負樣本的絕對距離考慮在內(nèi),為不同絕對距離的正負樣本賦予不同權(quán)重,有效解決了傳統(tǒng)井下行人重識別算法中梯度消失或梯度彌散的問題,提升了模型識別精度。
煤礦井下基于傳統(tǒng)度量學(xué)習的行人重識別方法流程如圖1所示。首先進行特征提取,即通過神經(jīng)網(wǎng)絡(luò)中的卷積層和池化層對采集到的輸入圖像進行特征提取,其中,卷積層用來捕捉圖像的局部特征,池化層用來降低特征的維度并提高模型的計算效率。然后進行相似性度量,使用相似性度量方法計算2個行人圖像特征之間的距離或相似性得分,并選擇適當?shù)膿p失函數(shù)來優(yōu)化行人重識別模型。最后進行卷積迭代訓(xùn)練,用訓(xùn)練好的模型對人員進行重識別,得到結(jié)果。
圖1 煤礦井下人員重識別流程Fig. 1 Process for underground personnel re-recognition
傳統(tǒng)煤礦井下人員特征提取方法主要針對人員身體關(guān)鍵部分進行提取,忽略了環(huán)境、紋理與色彩等細節(jié),采集的人員特征信息單一,樣本量少,不利于模型準確率的提升。因此,采用手工設(shè)計特征提取井下人員面部信息、所穿工作服等信息。通過對圖像進行預(yù)處理,提取出圖像的特征點,然后對這些特征點進行描述,最終得到一個特征向量,用于圖像的識別和分類。篩選后的具體采集特征指標見表1。其中,手工設(shè)計特征主要包含顏色空間、紋理空間、局部特征、專用特征4種[12-13]。
表1 手工設(shè)計特征指標Table 1 Manual design feature indicators
煤礦井下結(jié)構(gòu)復(fù)雜,采掘工作面、變電所、硐室、主輔運等場所圖像環(huán)境差異較大。因此,煤礦井下行人重識別算法如何對不同視覺采集設(shè)備采集到的人員圖像信息進行相似性判斷是算法的核心部分。本文通過對提取的人員特征進行人員相似判斷,將不同圖像中具有相似特征的人判定為同一人[12],最終實現(xiàn)人員相似性判斷。選擇合適的特征相似性度測量方法是提高檢測準確率的關(guān)鍵,相似性度測量方法分為無監(jiān)督測量和有監(jiān)督測量[14-16]。本文采用有監(jiān)督測量中的歐氏距離計算方法對不同攝像機下行人圖像特征向量進行相似性計算,歐氏距離的計算公式為
式中:xi,yi為當前像素點i的2個特征向量;Xi,Yi為特征向量中的所有特征點;n為圖像中像素點個數(shù)。
損失函數(shù)是度量學(xué)習中的重要部分,是模型優(yōu)化的重要依據(jù),損失函數(shù)主要分為基于樣本對的損失函數(shù)、基于代理的損失函數(shù)和基于分類的損失函數(shù)3類。其中,基于樣本對的損失函數(shù)中的三重損失函數(shù)可以更好地解決訓(xùn)練數(shù)據(jù)中的類內(nèi)變化和類間差異問題,從而提高模型的準確率。三重損失函數(shù)的輸入為3張圖像,將這3張圖像分別命名為原始圖像特征A、正樣本圖像特征P、負樣本圖像特征N[17-18]。因此包括2對樣本,1對正樣本AP,1對負樣本AN。
三重損失函數(shù)的目標是使相同圖像樣本在編碼空間中距離更近,不同圖像樣本在編碼空間中距離更遠,即需要使圖像中負樣本對距離大于正樣本對距離,或大于某一特定值[19]。三重損失函數(shù)的計算公式為
式中:da,p,da,n分別為正負樣本對之間的歐氏距離,即正負樣本對之間的相似度;m為根據(jù)實際需求設(shè)置的訓(xùn)練閾值參數(shù),即設(shè)定的正負樣本之間的距離間隔[20],m值越小,最后得出的損失值越接近0,越難以區(qū)分相似圖像;m值越大,用置信度區(qū)分相似圖像越容易,但損失值很難接近0,且易導(dǎo)致模擬的神經(jīng)網(wǎng)絡(luò)收斂性變差[21]。
當三重損失函數(shù)對模型優(yōu)化成功時,會將編碼空間中的正負樣本對距離收斂在一個閾值范圍內(nèi),但傳統(tǒng)的三重損失函數(shù)只考慮了正負樣本對之間的相對距離,并沒有考慮正負樣本對之間的絕對距離,當特殊情況下負樣本和正樣本間距離太遠時,樣本間的差異會變得非常明顯,導(dǎo)致梯度變得非常小。在反向傳播的過程中,這些小的梯度會逐漸傳遞到模型的早期層,易造成這些層的權(quán)重更新變得非常緩慢,甚至不再更新,導(dǎo)致模型訓(xùn)練緩慢或停滯不前,通常將此類特殊情況稱為梯度消失或梯度彌散。三重損失函數(shù)的缺陷如圖2所示。
圖2 三重損失函數(shù)的缺陷Fig. 2 Deficiencies of triplet loss function
為解決上述問題,本文提出一種自適應(yīng)的三重損失函數(shù),在計算樣本之間距離的過程中引入自適應(yīng)變量。傳統(tǒng)三重損失函數(shù)使用歐氏距離來衡量樣本之間的相似性,然后將不同類別樣本之間的距離進行比較,從而計算不同類別樣本之間的差異。自適應(yīng)的三重損失函數(shù)增加了適應(yīng)性的權(quán)重來避免正負樣本由于絕對距離影響導(dǎo)致的模型精準度下降問題。具體來說,每個樣本的損失函數(shù)權(quán)重是動態(tài)調(diào)整的,根據(jù)歐氏距離計算結(jié)果,如果2個正樣本之間的距離很大,那么它們之間的損失函數(shù)權(quán)重就會變得越大,從而使模型更加關(guān)注樣本之間的區(qū)別。反之,如果1個負樣本和所有正樣本的距離都很大,那么它的損失函數(shù)權(quán)重就會變得很小,可以避免對模型訓(xùn)練造成不良影響,從而提高模型的性能。自適應(yīng)的三重損失函數(shù)為
式中:α為正樣本對相似性權(quán)重;β為負樣本對相似性權(quán)重;s為補償因子;x為目標樣本點;Q為所有正樣本集合;Z為所有負樣本集合。
本文提出的自適應(yīng)三重損失函數(shù)使用自適應(yīng)的權(quán)重對損失函數(shù)進行動態(tài)調(diào)整,保證正負樣本間距在合理范圍內(nèi),使得模型更加關(guān)注難分類的樣本和重要的樣本,在模型訓(xùn)練過程中忽略無關(guān)信息,提升模型收斂速度,增加模型的擬合能力,從而提高模型的性能和訓(xùn)練效率,降低梯度消失或梯度彌散問題的影響。傳統(tǒng)的三重損失函數(shù)與自適應(yīng)三重損失函數(shù)的函數(shù)曲線如圖3所示。
圖3 傳統(tǒng)與自適應(yīng)的三重損失函數(shù)的函數(shù)曲線Fig. 3 Function curves of traditional and an adaptive trip loss function
由圖3可看出,由于正負樣本分布不均,有些正負樣本間距過大,傳統(tǒng)三重損失函數(shù)的值會在一段時間內(nèi)停滯不前,甚至出現(xiàn)震蕩或上升的情況,不能正常下降。自適應(yīng)三重損失函數(shù)的曲線呈平滑的自然下降趨勢,這是因為本文提出的方法可針對樣本距離進行權(quán)重分配動態(tài)調(diào)整,避免了梯度消失或梯度彌散問題。
為了驗證本文提出的自適應(yīng)三重損失函數(shù)對度量學(xué)習的改進效果,在內(nèi)蒙古某煤礦現(xiàn)場獲取實驗數(shù)據(jù),從中選取60張完整的人身圖像作為測試集,對數(shù)據(jù)圖像進行基于HSV色彩空間的轉(zhuǎn)換,提升人員細節(jié)檢測的精確度[22-24]。將每個人不同姿態(tài)和角度的60張圖像作為訓(xùn)練集,利用圖像分割將訓(xùn)練集與測試集分割成3個子塊。 同時采用HSV顏色空間對圖像數(shù)據(jù)進行處理,圖像分割結(jié)果如圖4所示。
圖4 分割后子塊Fig. 4 Sub block and color extraction after segmentation
CMC(Cumulative Match Characteristic,累積匹配特征)曲線[23]將行人樣本與訓(xùn)練生成的K個行人圖像逐一進行對比,計算K個值中包含真實行人樣本的概率,通常又稱作擊中概率(top-k),k為樣本分別與K個值逐一比較的順序號,CMC曲線斜率越大,說明算法性能越好。
選取基于傳統(tǒng)度量學(xué)習的井下行人重識別方法與基于改進度量學(xué)習的井下行人重識別方法進行性能測試,得到CMC曲線,如圖5所示??煽闯鰝鹘y(tǒng)度量學(xué)習的井下行人重識別方法在圖像數(shù)位于兩端(小于10或大于50)時,識別效率不高,在相似樣本個數(shù)達到上限60時,樣本匹配概率僅為83%左右?;诟倪M度量學(xué)習的井下行人重識別方法在相似樣本個數(shù)為50左右時,樣本匹配概率達100%,相比原有模型識別準確率提升明顯。
圖5 基于傳統(tǒng)度量學(xué)習與改進度量學(xué)習的行人重識別效率Fig. 5 Rerecognition efficiency under traditional heavy recognition and adaptive metric learning
使用傳統(tǒng)度量學(xué)習的井下行人重識別方法和基于改進度量學(xué)習的井下行人重識別方法同時對分辨率分別為224×224與640×640的圖像進行識別,對比2種方法的推理耗時,對比結(jié)果見表2??煽闯龌诟倪M度量學(xué)習的井下行人重識別方法對224×224與640×640圖像的推理耗時比傳統(tǒng)重識別方法分別減少了44,68 ms。
表2 傳統(tǒng)與改進的度量學(xué)習的行人重識別推理耗時Table 2 The time cost between traditional rerecognition and adaptive metric learning
受到井下受低照度、高塵霧等環(huán)境影響及佩戴裝備限制,井下人員頭腳部分采集到的圖像精度往往較差且相似性普遍較高,本文提出的基于改進度量學(xué)習的行人重識別方法可對圖像中頭腳部分進行剝離,減小模型在訓(xùn)練及識別過程中由于頭腳相似性過高造成的噪聲,并對圖像進行三重分割,得到CMC對比結(jié)果,如圖6所示??煽闯龌诟倪M度量學(xué)習的井下行人重識別方法在舍棄行人頭腳部分圖像后表現(xiàn)更好,當相似樣本個數(shù)為42左右時,樣本匹配概率達100%,圖像識別準確率得到了進一步提高。
圖6 舍棄頭腳部信息后得出的自適應(yīng)的三重損失下重識別效率Fig. 6 Heavy identification efficiency of adaptive metric learning after discarding head and feet information
1) 基于傳統(tǒng)度量學(xué)習的井下行人重識別方法在相似樣本數(shù)位于兩端(小于10或大于50)時,識別效率不高,在相似樣本個數(shù)達到上限60時,樣本匹配概率僅為83%左右?;诟倪M度量學(xué)習的井下行人重識別方法在相似樣本個數(shù)為50左右時,樣本匹配概率達100%,相比原有模型識別準確率提升明顯。
2) 基于改進度量學(xué)習的井下行人重識別方法對224×224與640×640圖像的推理耗時比傳統(tǒng)重識別方法分別減少了44,68 ms。
3) 基于改進度量學(xué)習的井下行人重識別方法在舍棄行人頭腳部分圖像后表現(xiàn)更好,當相似樣本個數(shù)為42左右時,樣本匹配概率達100%,圖像識別準確率得到了進一步提高。