• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)ResNet-18的紅外圖像人體行為識(shí)別方法研究

      2021-11-05 03:01:46周嘯輝歐巧鳳熊邦書
      激光與紅外 2021年9期
      關(guān)鍵詞:池化殘差紅外

      周嘯輝,余 磊,何 茜,陳 涵,聶 宏,歐巧鳳,熊邦書

      (1.南昌航空大學(xué) 圖像處理與模式識(shí)別江西省重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330063;2.北愛荷華大學(xué)技術(shù)系,美國 愛荷華州 50614-0178)

      1 引 言

      人體行為識(shí)別是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的核心課題之一,目標(biāo)在于識(shí)別圖像或視頻中人的行為[1]。對(duì)人體行為進(jìn)行有效且精準(zhǔn)地識(shí)別是許多智能服務(wù)的基礎(chǔ),在智能監(jiān)控、智能家居、虛擬現(xiàn)實(shí)等諸多領(lǐng)域中具有重要的研究意義和廣泛的應(yīng)用價(jià)值,備受國內(nèi)外學(xué)者的關(guān)注[2]。

      近年來,紅外成像系統(tǒng)以其受光照影響小、保護(hù)隱私的獨(dú)特優(yōu)勢受到越來越廣泛的關(guān)注,眾多優(yōu)秀學(xué)者對(duì)紅外行為識(shí)別領(lǐng)域展開深入研究。Zhu等人[3]提出了一種隨機(jī)采樣結(jié)構(gòu),并建立統(tǒng)計(jì)特征空間;Hilsenbeck等人[4]利用霍夫森林提取時(shí)空域的整體通道特征;Tan等人[5]提出一種基于運(yùn)動(dòng)偏差圖象的相位特征描述符,在受試者個(gè)體差異較大的情況下仍具有較高的識(shí)別精度;Liang等人[6]提出一種分段架構(gòu),利用子動(dòng)作間關(guān)系,并結(jié)合異構(gòu)信息融合和類隱私保護(hù)協(xié)同表示,在多個(gè)數(shù)據(jù)集上取得了不錯(cuò)的表現(xiàn)。上述方法主要通過手動(dòng)提取特征,并制定相應(yīng)的判決標(biāo)準(zhǔn)進(jìn)行人體行為識(shí)別。然而,這些方法提取的特征往往不能準(zhǔn)確表征人體實(shí)際行為,從而導(dǎo)致識(shí)別準(zhǔn)確率較低。深度學(xué)習(xí)方法能自動(dòng)提取有效特征,成為解決該問題的一種有效途徑。

      深度學(xué)習(xí)[7]是機(jī)器學(xué)習(xí)的一個(gè)分支,在視覺識(shí)別和自然語言處理等領(lǐng)域取得了突破性進(jìn)展,也給紅外行為識(shí)別帶來了前所未有的發(fā)展。目前,紅外行為識(shí)別領(lǐng)域的深度學(xué)習(xí)方法主要分為兩類:基于視頻或基于圖像。

      基于紅外視頻,Gao等人[8]構(gòu)建了一個(gè)紅外行為識(shí)別數(shù)據(jù)集InfAR,并提出一種雙流卷積神經(jīng)網(wǎng)絡(luò),平均識(shí)別率為76.66 %;Liu等人[9]提出基于全局時(shí)間表示的三流卷積神經(jīng)網(wǎng)絡(luò),整合局部、全局時(shí)間信息和時(shí)空信息,在數(shù)據(jù)集InfAR和NTU RGB+D上取得79.25 %和66.29 %的平均識(shí)別率;Yang等人提出3D卷積神經(jīng)網(wǎng)絡(luò)結(jié)合SVM分類器的方法,識(shí)別精度達(dá)到96.5 %。

      基于紅外視頻的方法雖然取得了較高的識(shí)別精度,但它們的模型復(fù)雜,處理時(shí)間長,效率較低。相較而言,基于紅外圖像的人體行為識(shí)別方法模型簡單,處理速度較快,逐漸受到研究者關(guān)注。Akula等人[10]提出將2D CNN網(wǎng)絡(luò)用于識(shí)別行走、站立、靜坐、在桌子前靜坐、跌倒和倒在桌子上6種行為,其對(duì)跌倒的識(shí)別精度較低;Gochoo等人[11]利用三個(gè)傳感器,從x、y和z軸捕獲人體瑜伽姿態(tài),其總體識(shí)別率較高。然而,基于紅外圖像的方法僅對(duì)靜止行為有較好的識(shí)別效果;對(duì)于跌倒等包含一系列連續(xù)動(dòng)作的行為,由于難以依據(jù)單幀圖像進(jìn)行識(shí)別,這些方法往往不能達(dá)到令人滿意的效果。

      針對(duì)上述問題,本文提出紅外圖像拼接方法:通過將連續(xù)多幀圖像拼為一張大圖,實(shí)現(xiàn)從三維視頻到二維圖像的轉(zhuǎn)變。這樣既保留了數(shù)據(jù)的時(shí)空聯(lián)系,有利于后續(xù)識(shí)別工作;又可簡化識(shí)別模型,減少處理時(shí)間。殘差網(wǎng)絡(luò)[12]便于訓(xùn)練,易于收斂,泛化能力強(qiáng),性能優(yōu)異,在圖像識(shí)別方面得到了廣泛應(yīng)用。ResNet-18作為一種典型代表,識(shí)別精確率較高且模型參數(shù)較少;其在可見光圖像識(shí)別上一直表現(xiàn)良好,但在紅外圖像識(shí)別中效果欠佳。本文在ResNet-18網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)紅外圖像的特性對(duì)其進(jìn)行改進(jìn):首先,構(gòu)建多分支同構(gòu)結(jié)構(gòu),替換7×7卷積;然后,結(jié)合最大池化和平均池化對(duì)池化層進(jìn)行優(yōu)化;最后,引入非對(duì)稱卷積塊構(gòu)成多重殘差結(jié)構(gòu),并將改進(jìn)ECA模塊與CBAM的空間注意力模塊結(jié)合,加入殘差塊中。此外,考慮到跌倒常對(duì)人,尤其對(duì)老年人造成較為嚴(yán)重的傷害[13],因此本文選擇跌倒和易與跌倒相混淆的站到坐、坐到躺等行為,以及站立、靜坐、平躺、行走等常見行為作為研究對(duì)象,構(gòu)建紅外人體行為識(shí)別系統(tǒng),并對(duì)這7種行為進(jìn)行識(shí)別,取得了良好的效果。

      2 人體行為識(shí)別系統(tǒng)

      本文所設(shè)計(jì)的人體行為識(shí)別系統(tǒng)如圖1所示。首先,選擇德國海曼器件公司制造的HTPA80x64dR1L5.0/1.0熱成像陣列傳感器采集紅外信息,其分辨率為80×64像素。其次,為了盡可能減少視場盲區(qū),將傳感器安裝于距離地面1.8 m的墻角處,與水平方向的夾角為88°,與垂直方向的夾角為70°。從圖1可以看出,在1.8 m以下的區(qū)域中,除了陰影部分外,其余均在視場范圍內(nèi)。再次,將傳感器采集的溫度分布信息,通過I2C接口發(fā)送至樹莓派,并進(jìn)一步通過內(nèi)置通信模塊將其發(fā)送至PC端,從而獲取紅外圖像。最后,對(duì)紅外圖像進(jìn)行拼接,再經(jīng)過改進(jìn)ResNet-18卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行分類,完成人體行為識(shí)別。

      圖1 系統(tǒng)結(jié)構(gòu)示意圖Fig.1 System structure diagram

      3 紅外圖像拼接

      對(duì)于采集到的紅外圖像,考慮到幀與幀之間的關(guān)聯(lián)性,基于視頻流的深度學(xué)習(xí)方法是一個(gè)很好的選擇。然而,傳統(tǒng)基于視頻的深度學(xué)習(xí)方法存在模型復(fù)雜,處理時(shí)間長等缺陷?;趫D像的深度學(xué)習(xí)方法雖然具有模型相對(duì)簡潔,運(yùn)算處理快等優(yōu)勢;但人體行為往往包括一系列連續(xù)動(dòng)作,難以僅依據(jù)單幀圖像進(jìn)行識(shí)別。為了充分利用數(shù)據(jù)的時(shí)空聯(lián)系,方便后續(xù)識(shí)別,同時(shí)簡化識(shí)別模型,提高處理效率,本文提出紅外圖像拼接方法:將連續(xù)多幀圖像組合為一張大圖,實(shí)現(xiàn)從三維視頻到二維圖像的轉(zhuǎn)變。

      由于跌倒,從站到坐,從坐到躺等人體姿態(tài)變化過程的持續(xù)時(shí)間不超過4秒,且HTPA80x64dR1L5.0/1.0熱成像陣列傳感器幀率約為5 f/s,因此為了在一張大圖中包含完整的行為過程,本文選取25幀連續(xù)圖像進(jìn)行拼接,圖2為拼接后的跌倒?fàn)顟B(tài)示意圖。

      圖2 拼接圖像示意圖Fig.2 Schematic diagram of mosaic image

      4 改進(jìn)ResNet-18網(wǎng)絡(luò)

      近年來,由于在圖像和語音識(shí)別方面的良好表現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)逐漸成為研究熱點(diǎn)。殘差網(wǎng)絡(luò)是一種表現(xiàn)優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò),在圖像識(shí)別方面有著廣泛的應(yīng)用。ResNet-18網(wǎng)絡(luò)作為一種典型代表,其性能優(yōu)異且模型參數(shù)較少,在保持較高準(zhǔn)確率的同時(shí)僅占用較少的內(nèi)存空間[14]。

      ResNet-18網(wǎng)絡(luò)在可見光圖像識(shí)別上一直表現(xiàn)良好,但在紅外圖像識(shí)別中表現(xiàn)欠佳。本文在ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,針對(duì)人體行為識(shí)別任務(wù),并根據(jù)紅外圖像自身的特性,提出一種改進(jìn)ResNet-18網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)如圖3所示。首先,構(gòu)建多分支同構(gòu)結(jié)構(gòu)Conv_x,替換7×7卷積;然后,結(jié)合最大池化和平均池化,對(duì)池化層pool1、pool2進(jìn)行改進(jìn);最后,引入非對(duì)稱卷積塊構(gòu)成多重殘差結(jié)構(gòu),并將改進(jìn)ECA模塊與CBAM的空間注意力模塊結(jié)合,加入殘差塊Conv1_x、Conv2_x、Conv3_x和Conv4_x中。

      對(duì)于Conv_x中的每個(gè)卷積層,圖3中依次給出了輸入通道數(shù)、卷積核大小及輸出通道數(shù)。網(wǎng)絡(luò)的輸出將會(huì)給出圖像的類別,即圖像是跌倒,站立,靜坐,平躺,行走,站到坐以及坐到躺中的哪一類。表1給出了該網(wǎng)絡(luò)的相關(guān)參數(shù),包括各層的名稱,結(jié)構(gòu)參數(shù)和輸出大小,及相應(yīng)卷積層的核大小、輸出通道數(shù),池化層的核大小、步長。

      圖3 改進(jìn)ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Improve ResNet-18 network structure

      表1 改進(jìn)ResNet-18網(wǎng)絡(luò)相關(guān)參數(shù)Tab.1 Improve ResNet-18 network related parameters

      4.1 多分支同構(gòu)結(jié)構(gòu)

      傳統(tǒng)殘差網(wǎng)絡(luò)中第一層卷積為7×7的大卷積,目的是在不增加通道數(shù)的情況下,盡量保留原始圖像的信息。然而紅外圖像對(duì)比度低、圖像模糊[15],單一7×7卷積非線性表達(dá)能力不強(qiáng),特征提取效果不佳,為了增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力,提升網(wǎng)絡(luò)模型對(duì)紅外圖像的分類性能,本文設(shè)計(jì)了如圖3所示的多分支同構(gòu)結(jié)構(gòu)。該結(jié)構(gòu)由16組卷積構(gòu)成,即16條獨(dú)立路徑的同構(gòu)結(jié)構(gòu)。每組第一層卷積的步長為2,填充為1,其余層卷積步長為1,無填充。

      4.2 池化層改進(jìn)

      最大池化能夠提取圖像的主要特征,平均池化則能很好地保留圖像的背景信息。傳統(tǒng)殘差網(wǎng)絡(luò)使用單一的最大池化或平均池化,這樣不可避免地丟失了部分有用信息。為了盡量避免有用信息的丟失,本文設(shè)計(jì)了如圖3中pool1和pool2所示的池化結(jié)構(gòu),將最大池化和平均池化提取的特征進(jìn)行融合,這樣得到的特征將更豐富多元,其表達(dá)能力也更強(qiáng)。

      4.3 殘差塊改進(jìn)

      4.3.1 多重殘差結(jié)構(gòu)

      傳統(tǒng)殘差塊由2個(gè)堆疊的3×3卷積及恒等映射連接構(gòu)成,卷積結(jié)構(gòu)單一,提取特征方式固定。為增加網(wǎng)絡(luò)的多樣性,使網(wǎng)絡(luò)能夠提取不同尺度的圖像特征,本文設(shè)計(jì)了多重殘差結(jié)構(gòu)。如圖4所示。

      圖4 改進(jìn)殘差塊示意圖Fig.4 Improved residual block diagram

      多重殘差結(jié)構(gòu),在原結(jié)構(gòu)基礎(chǔ)上增加兩條并行的特征提取通路:一條通路由3×3卷積構(gòu)成,另一條通路由3×3卷積和1×3卷積、3×1卷積構(gòu)成的非對(duì)稱卷積塊堆疊而成。這種非對(duì)稱卷積塊抑制了模型的過擬合,增強(qiáng)了模型的非線性擴(kuò)展性,不但能夠提取更多空間特征,而且使提取的特征更加穩(wěn)定與多元。

      4.3.2 改進(jìn)CBAM

      在數(shù)據(jù)采集的過程中,不可避免會(huì)受到噪聲的干擾,而且不同情況下,人體在紅外圖像中所處位置以及呈現(xiàn)的形態(tài)是不一樣的。這就要求識(shí)別方法能夠更多地關(guān)注人體形態(tài)特征信息,而忽略其他無價(jià)值的信息;注意力機(jī)制很好地解決了這個(gè)問題。

      Wang等人[16]提出ECA模塊,給定通過全局平均池化(GAP)獲得的聚合特征,經(jīng)過大小為k的快速1D卷積實(shí)現(xiàn)跨通道信息交互,接著使用Sigmoid函數(shù)生成通道注意力權(quán)重,再將該權(quán)重與輸入特征相乘得到通道注意力特征。但是該模塊忽略了目標(biāo)特征的另一種重要表征形式——經(jīng)過全局最大池化(GMP)獲得的聚合特征。因此,本文同時(shí)使用GAP和GMP提取的特征對(duì)ECA模塊進(jìn)行改進(jìn),使網(wǎng)絡(luò)能夠更有效地增強(qiáng)有意義的特征通道。改進(jìn)ECA模塊如圖5所示,其中1D卷積核大小k=3,σ表示Sigmoid函數(shù)。

      圖5 改進(jìn)ECA模塊示意圖Fig.5 Improved ECA module diagram

      ECA模塊使網(wǎng)絡(luò)能更有效地選擇有意義的特征通道,CBAM[17]中的空間注意力模塊則使網(wǎng)絡(luò)能更多的關(guān)注有價(jià)值的區(qū)域信息。將改進(jìn)ECA模塊與空間注意力模塊結(jié)合,形成改進(jìn)CBAM模塊,該模塊如圖6所示,并將其加入多重殘差結(jié)構(gòu)中,對(duì)殘差塊完成進(jìn)一步的改進(jìn),示意圖如圖4所示。

      圖6 改進(jìn)CBAM模塊Fig.6 Improve CBAM module

      5 實(shí)驗(yàn)結(jié)果與分析

      5.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)環(huán)境為室內(nèi)普通辦公房間,實(shí)驗(yàn)數(shù)據(jù)來自三位不同身高、體態(tài)的實(shí)驗(yàn)人員(兩男一女);考慮季節(jié)對(duì)實(shí)驗(yàn)結(jié)果的影響,我們選擇最具代表性的夏季與冬季進(jìn)行數(shù)據(jù)采集;跌倒、站立、靜坐、平躺、行走、站到坐以及坐到躺等7種行為的示意圖如圖7所示。

      圖7 各種人體行為示意圖Fig.7 Diagrams of various human behaviors

      本文將拼接后得到的6930張紅外圖像按2:1的比例分成訓(xùn)練集與測試集,得到包含4620張圖像的訓(xùn)練集和包含2310張圖像的測試集。為了增加訓(xùn)練集的數(shù)量,減少模型的過擬合,采用水平翻轉(zhuǎn)的方法將訓(xùn)練集擴(kuò)充一倍,最終得到包含9240張圖像的訓(xùn)練集和包含2310張圖像的測試集。各個(gè)行為的實(shí)驗(yàn)次數(shù)、拼接后圖像數(shù)、水平翻轉(zhuǎn)前和水平翻轉(zhuǎn)后訓(xùn)練集圖像數(shù)、測試集圖像數(shù)如表2所示。

      表2 各行為相關(guān)圖像數(shù)

      5.2 環(huán)境與設(shè)置

      實(shí)驗(yàn)運(yùn)行環(huán)境:Debian操作系統(tǒng),Intel Xeon E5-2640 v4處理器,16G內(nèi)存,NVIDIA GTX1080Ti GPU。使用Pytorch深度學(xué)習(xí)框架搭建網(wǎng)絡(luò),網(wǎng)絡(luò)的損失代價(jià)函數(shù)選擇交叉熵?fù)p失函數(shù);采用Adam優(yōu)化方法,學(xué)習(xí)率設(shè)置為0.001。

      5.3 實(shí)驗(yàn)結(jié)果與對(duì)比分析

      為了使實(shí)驗(yàn)結(jié)果更加可靠,將改進(jìn)ResNet-18網(wǎng)絡(luò)訓(xùn)練三次,每次訓(xùn)練300輪,取最優(yōu)參數(shù)進(jìn)行測試,結(jié)果如表3所示。

      表3 混淆矩陣Tab.3 Confusion matrix

      從表3可以看出,在2310個(gè)行為中,正確識(shí)別2309次,錯(cuò)誤識(shí)別1次,準(zhǔn)確率高達(dá)99.96 %,且異常行為——跌倒——均能準(zhǔn)確識(shí)別,表明本文所提改進(jìn)ResNet-18網(wǎng)絡(luò)的識(shí)別效果良好。此外,誤判的圖像如圖8所示。

      圖8 誤判圖像Fig.8 Image of misjudgment

      從圖8可以看出,人體特征不明顯,使得行走圖像易與站立圖像相混淆。當(dāng)人體距離傳感器較遠(yuǎn),且環(huán)境溫度較高時(shí),可能出現(xiàn)圖像中噪聲過大導(dǎo)致網(wǎng)絡(luò)未能準(zhǔn)確提取人體特征的情況。然而,行走與站立均為正常行為,誤判不會(huì)造成嚴(yán)重后果。

      在基于紅外圖像的人體行為識(shí)別領(lǐng)域,文獻(xiàn)[10]識(shí)別的人體行為與本文相近,且其構(gòu)建的CNN網(wǎng)絡(luò)取得了比傳統(tǒng)LBP-KNN、HOG-KNN、LBP-SVM等方法更優(yōu)的識(shí)別精度;文獻(xiàn)[11]構(gòu)建的CNN網(wǎng)絡(luò)是目前人體行為識(shí)別效果最好的深度學(xué)習(xí)方法之一。為了進(jìn)一步驗(yàn)證本文所提改進(jìn)ResNet-18網(wǎng)絡(luò)的性能,在本文構(gòu)建的數(shù)據(jù)集下,與文獻(xiàn)[10]、文獻(xiàn)[11]構(gòu)建的CNN網(wǎng)絡(luò)以及ResNet-18網(wǎng)絡(luò)進(jìn)行對(duì)比,結(jié)果如表4所示。

      表4 各網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果對(duì)比Tab.4 Comparison of network experiment results

      從表4可以看出,與原始ResNet-18網(wǎng)絡(luò)相比,改進(jìn)ResNet-18網(wǎng)絡(luò)的識(shí)別率有所提升,這證明了本文所提方法的有效性;此外,改進(jìn)ResNet-18網(wǎng)絡(luò)的識(shí)別率明顯優(yōu)于文獻(xiàn)[10]和[11]中構(gòu)建的CNN網(wǎng)絡(luò),這證明了本文所提方法具有明顯的優(yōu)勢。

      6 結(jié) 論

      本文提出了一種基于改進(jìn)ResNet-18網(wǎng)絡(luò)的紅外圖像人體行為識(shí)別方法。首先,通過熱成像陣列傳感器采集跌倒、站立、靜坐、平躺、行走、站到坐及坐到躺7種行為的紅外圖像,并對(duì)圖像進(jìn)行拼接處理。接著,通過對(duì)ResNet-18網(wǎng)絡(luò)進(jìn)行相應(yīng)改進(jìn),增強(qiáng)了網(wǎng)絡(luò)的表達(dá)能力,降低了有用信息的丟失率,增加了網(wǎng)絡(luò)的多樣性,提升了網(wǎng)路的特征提取能力。經(jīng)實(shí)驗(yàn)表明,改進(jìn)ResNet-18網(wǎng)絡(luò)識(shí)別率達(dá)到99.96 %,不但高于傳統(tǒng)的ResNet-18網(wǎng)絡(luò),而且明顯優(yōu)于基于紅外圖像的其他網(wǎng)絡(luò),取得了理想的識(shí)別效果。

      猜你喜歡
      池化殘差紅外
      基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
      無線電工程(2024年8期)2024-09-16 00:00:00
      基于Sobel算子的池化算法設(shè)計(jì)
      基于雙向GRU與殘差擬合的車輛跟馳建模
      網(wǎng)紅外賣
      卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
      閃亮的中國紅外『芯』
      金橋(2021年4期)2021-05-21 08:19:20
      基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
      電子制作(2019年7期)2019-04-25 13:17:14
      基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
      邹平县| 香港 | 花莲市| 蒲城县| 宣威市| 大姚县| 岑巩县| 苍溪县| 绵竹市| 佛冈县| 绩溪县| 楚雄市| 阜南县| 安丘市| 贡嘎县| 措美县| 黔西| 岑溪市| 苏州市| 康保县| 株洲县| 上饶市| 伊吾县| 淮阳县| 鲜城| 雷州市| 治多县| 开鲁县| 锡林浩特市| 红原县| 刚察县| 海晏县| 德江县| 大同市| 保定市| 阳曲县| 驻马店市| 和平县| 若尔盖县| 神池县| 新平|