• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    改進(jìn)的CNN用于單幀紅外圖像行人檢測的方法

    2020-05-06 08:58:46崔少華李素文黃金樂
    紅外技術(shù) 2020年3期
    關(guān)鍵詞:錯(cuò)誤率行人投影

    崔少華,李素文,黃金樂,單 巍

    改進(jìn)的CNN用于單幀紅外圖像行人檢測的方法

    崔少華,李素文,黃金樂,單 巍

    (淮北師范大學(xué) 物理與電子信息學(xué)院,安徽 淮北 235000)

    針對全卷積神經(jīng)網(wǎng)絡(luò)對單幀紅外圖像行人檢測計(jì)算量大、檢測率較低等問題,提出了一種改進(jìn)的LeNet-7系統(tǒng)對紅外圖像行人檢測的方法。該系統(tǒng)包含3個(gè)卷積層、3個(gè)池化層,通過錯(cuò)誤率最小的試選法確定每層參數(shù),以波士頓大學(xué)建立的BU-TIV數(shù)據(jù)庫訓(xùn)練系統(tǒng)。首先,以俄亥俄州立大學(xué)建立的OTCBVS和Terravic Motion IR Database紅外數(shù)據(jù)庫作為測試圖像;然后,采用自適應(yīng)閾值的垂直和水平投影法得到感興趣區(qū)域(regions of interest,ROI);最后,將得到的ROI輸入訓(xùn)練好的系統(tǒng)進(jìn)行測試。3個(gè)測試集檢測實(shí)驗(yàn)表明,本文方法具有良好的識別能力,與不同實(shí)驗(yàn)方法相比,本文方法能有效提高檢測率。

    圖像處理;LeNet-7系統(tǒng);單幀紅外圖像;檢測率

    0 引言

    行人檢測是機(jī)器視覺領(lǐng)域的重要分支,目前已經(jīng)得到廣泛應(yīng)用,紅外視頻監(jiān)控作為當(dāng)今社會安防的重要手段,采用行人檢測技術(shù)對其進(jìn)行分析與捕捉具有極高的應(yīng)用價(jià)值。對紅外視頻的行人檢測就是對組成視頻的單幀紅外圖像行人檢測。由于人體在圖像中的大小和出現(xiàn)的位置都無法確定,所以在行人檢測研究的早期,往往采取對圖像進(jìn)行多尺度遍歷搜索的方式檢測是否存在人體目標(biāo)。例如,Nanda等[1]通過人體亮度分布概率設(shè)計(jì)了一種亮度概率模板,但由于人體姿態(tài)的多樣性,該方法仍需在不同尺度下使用多個(gè)模板進(jìn)行匹配。Bertozzi等[2]構(gòu)建了基于正面人體對稱性的形態(tài)學(xué)人體模型,并對人體在圖像中的大小進(jìn)行了預(yù)估,然后在圖像中進(jìn)行多尺度的搜索以確定可能存在人體的候選區(qū)域,最后將候選區(qū)域與構(gòu)建的人體模型進(jìn)行匹配完成紅外圖像中的行人檢測。這兩種方法雖然不易出現(xiàn)漏檢,具有較好的魯棒性,但在實(shí)時(shí)性上都大打折扣。因此,之后的紅外行人檢測方法中,都采用了感興趣區(qū)域分割和目標(biāo)識別的方法,以避免對圖像進(jìn)行多尺度遍歷搜索,提高系統(tǒng)的實(shí)時(shí)性。例如,Gao等[3]采用基于立體視覺的方法獲取ROI,根據(jù)提取行的位置和姿態(tài)對其分類,用于檢測路面、障礙物等,然而,該方法對獲取的ROI進(jìn)行分類仍然依賴人工,準(zhǔn)確率較低。

    隨著2012年神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)科學(xué)技術(shù)方面的應(yīng)用,其高效的網(wǎng)絡(luò)結(jié)構(gòu)和識別能力得到廣泛公認(rèn)。學(xué)者們嘗試將神經(jīng)網(wǎng)絡(luò)應(yīng)用于行人檢測領(lǐng)域,其中,Girshick等[4]提出基于建議區(qū)域ROI獲取的卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)行人檢測方法,利用CNN網(wǎng)絡(luò)代替了傳統(tǒng)的人工分類檢測。許茗等[5]采用包含12個(gè)卷積層的CNN將感興趣區(qū)域圖像輸入網(wǎng)絡(luò),由行人目標(biāo)概率圖生成紅外圖像中的行人目標(biāo)標(biāo)記框,用以訓(xùn)練和檢測CNN。譚康霞等[6]提出基于YOLO模型的紅外圖像行人檢測方法,利用23個(gè)卷積層和5個(gè)池化層構(gòu)成卷積神經(jīng)網(wǎng)絡(luò),對實(shí)際道路采集的紅外數(shù)據(jù)進(jìn)行訓(xùn)練與測試。陳恩加等[7]將CNN網(wǎng)絡(luò)和再識別模塊聯(lián)合,采用64個(gè)卷積層的全卷積網(wǎng)絡(luò)實(shí)現(xiàn)紅外圖像的行人檢測。上述方法雖然能有效完成行人檢測,但是均采用多層卷積的網(wǎng)絡(luò)對ROI特征進(jìn)行分類,網(wǎng)絡(luò)包含參數(shù)過多、容易過擬合,在環(huán)境較差的單幀紅外圖像行人檢測中正確率相對較低。

    基于前人的研究基礎(chǔ)和上述文獻(xiàn)的缺陷,本文提出一種基于LeNet-7的卷積神經(jīng)網(wǎng)絡(luò)對單幀紅外圖像行人檢測的方法。引入自適應(yīng)閾值的垂直和水平方向投影得到ROI的方法,將ROI圖像輸入本文構(gòu)建的LeNet-7系統(tǒng),該系統(tǒng)共包含3個(gè)卷積層、3個(gè)池化層和1個(gè)輸出層,每個(gè)卷積層所用卷積核大小和特征圖個(gè)數(shù)并不單一固定,而是以錯(cuò)誤率最小的實(shí)驗(yàn)試選法,通過實(shí)驗(yàn)數(shù)據(jù)確定。采用波士頓大學(xué)建立的BU-TIV(Thermal Infrared Video)Benchmark熱紅外視頻數(shù)據(jù)庫訓(xùn)練本文系統(tǒng),俄亥俄州立大學(xué)建立的OTCBVS和Terravic Motion IR Database紅外數(shù)據(jù)庫測試系統(tǒng),與不同方法進(jìn)行對比,本文方法更好地提高了檢測率。

    1 “方向投影”的ROI分割方法

    一般而言,人體溫度高于背景溫度,人體在紅外圖像中體現(xiàn)為高灰度區(qū)域[8]。然而,在城市環(huán)境中,車輛發(fā)動(dòng)機(jī)、熱水管和空調(diào)外機(jī)等非人體目標(biāo)在紅外圖像中也體現(xiàn)為高灰度區(qū)域,因此僅靠目標(biāo)灰度信息直接進(jìn)行行人檢測是不現(xiàn)實(shí)的。但是,與背景目標(biāo)相比較,人體在紅外圖像中灰度仍然較高,通過搜索紅外圖像中的“熱點(diǎn)區(qū)域”可以實(shí)現(xiàn)ROI的分割。因此本文采用一種“方向投影”的方法對人體可能存在的區(qū)域進(jìn)行分割。

    方向投影的基本方法是:首先,選擇一定的閾值對紅外圖像進(jìn)行分割,將分割后的圖像向軸作垂直投影,記錄下像素點(diǎn)的數(shù)量,此時(shí)圖像被分割為一系列垂直的亮度帶,然后將亮度帶向軸作水平投影,最后,得到高灰度區(qū)域的垂直位置與水平位置。具體的實(shí)現(xiàn)過程如圖1所示。

    第一步:閾值的選擇

    由于不同場景中的紅外圖像的亮度分布不同,因此在設(shè)置閾值時(shí)應(yīng)采取自適應(yīng)的方式。本文采用的分割閾值為:

    圖1 方向投影人體區(qū)域位置初定位

    Fig.1 Preliminary location of human body region by directional projection

    *max(im)+(1-)mean(im) (1)

    式中:為加權(quán)系數(shù)(0≤≤1);im為原始圖像;max為圖像灰度的最大值;mean為圖像灰度的均值。將圖像灰度最大值和圖像灰度均值進(jìn)行加權(quán)組合,可以增強(qiáng)分割閾值的自適應(yīng)性。通過大量實(shí)驗(yàn),本文最終將的取值定為0.25。經(jīng)過閾值分割以后,圖像當(dāng)中灰度較低的部分以及噪聲基本被消除,如圖1(b)所示。

    第二步:垂直投影

    將經(jīng)過閾值分割的圖像向軸作垂直投影,得到圖像的灰度垂直投影曲線,曲線記錄的是灰度值為1的像素點(diǎn)的數(shù)量,如圖1(c)所示。由圖1(b)可知,人體在圖像中為高灰度區(qū)域,在圖1(c)垂直投影曲線中表現(xiàn)為凸起的山峰,在投影曲線中凸起山峰的兩側(cè)分別尋找曲線的上升點(diǎn)與下降點(diǎn)作為一條亮度帶的起始點(diǎn)與結(jié)束點(diǎn),可得一系列垂直于軸的亮度帶,而人體可能存在的區(qū)域則被包含在亮度帶中。

    第三步:水平投影

    將垂直投影得到的亮度帶向軸做水平投影。與垂直投影相似,在水平投影曲線當(dāng)中也能夠得到一系列凸起的山峰,同樣將每個(gè)山峰的上升點(diǎn)和下降點(diǎn)分別作為水平亮度帶的起始點(diǎn)與結(jié)束點(diǎn),即得到一系列平行于軸的亮度帶,結(jié)果如圖1(d)所示。

    第四步:ROI的確定

    將垂直投影和水平投影得到的亮度帶同時(shí)放入原始圖像中相應(yīng)的位置,此時(shí)原始圖像可以被分割為許多高亮度的矩形區(qū)域,如圖1(e)所示。這些矩形區(qū)域就是本文確定的ROI,圖1(e)中一些矩形區(qū)域包含人體目標(biāo),一些高灰度區(qū)域則包含非人體目標(biāo)。

    本文將確定的ROI作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,利用訓(xùn)練好的CNN網(wǎng)絡(luò)進(jìn)行二分類,從而檢測出紅外圖像中的人體目標(biāo)。因此接下來本文對CNN網(wǎng)絡(luò)的建立進(jìn)行探討。

    2 LeNet-7網(wǎng)絡(luò)的建立

    2.1 CNN網(wǎng)絡(luò)的介紹

    傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中隱含層的神經(jīng)元與前一層是全連通的,這意味著每一個(gè)神經(jīng)元都與前一層的所有神經(jīng)元存在參數(shù)關(guān)聯(lián),從而使得傳統(tǒng)神經(jīng)網(wǎng)絡(luò)計(jì)算量大、速度慢,容易過擬合[9]。而CNN是一個(gè)由單層卷積神經(jīng)網(wǎng)絡(luò)組成的多層可訓(xùn)練監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),每個(gè)單層卷積神經(jīng)網(wǎng)絡(luò)包含卷積、非線性變換和下采樣(池化)3個(gè)階段。若設(shè)每個(gè)神經(jīng)元的輸入為x,輸出為y,每個(gè)神經(jīng)元的輸入和輸出之間并非全連接,而是通過一定大小的區(qū)域相連接,同時(shí)y中的神經(jīng)元通過一定大小的卷積核對這個(gè)區(qū)域進(jìn)行特征提取,從而使得輸入數(shù)據(jù)的權(quán)值數(shù)量大大降低(降維),提高了網(wǎng)絡(luò)的訓(xùn)練速度,避免了過擬合[10]。yx之間的監(jiān)督學(xué)習(xí)過程如式(2)所示:

    式中:是可訓(xùn)練的卷積核;b是可訓(xùn)練的偏置參數(shù)。

    2.2 LeNet-7系統(tǒng)的介紹

    CNN最為經(jīng)典的應(yīng)用是Y. Lecun等提出的LeNet-5系統(tǒng)[11],該系統(tǒng)設(shè)計(jì)之初主要應(yīng)用于手寫數(shù)字識別,識別錯(cuò)誤率僅達(dá)到0.9%。由于紅外圖像采集環(huán)境復(fù)雜,單幀圖像包含干擾目標(biāo)(非行人目標(biāo))種類較多,本文將傳統(tǒng)LeNet-5系統(tǒng)直接用于單幀紅外圖像行人檢測,實(shí)驗(yàn)結(jié)果并不令人滿意。因此本文對該系統(tǒng)進(jìn)行了改進(jìn),提出7層網(wǎng)絡(luò):LeNet-7系統(tǒng),除去輸入層,LeNet-7系統(tǒng)僅僅包含3個(gè)卷積層、3個(gè)池化層和1個(gè)輸出層,具體結(jié)構(gòu)如圖2所示。圖2中、、分別是各卷積層與池化層中特征圖的個(gè)數(shù),、、、、、和、、、、、分別為各個(gè)特征圖的寬和高。如果是LeNet-5系統(tǒng),則沒有C5和S6層,S4層直接全連接到輸出層。由圖2可知,影響LeNet-7系統(tǒng)的參數(shù)包含卷積核大小、特征圖個(gè)數(shù),目前對于二者的參數(shù)選擇沒有明確數(shù)學(xué)標(biāo)準(zhǔn)化,大多數(shù)依賴設(shè)計(jì)者的經(jīng)驗(yàn),本文采用錯(cuò)誤率最小的試選法,通過實(shí)驗(yàn)數(shù)據(jù)分析,對系統(tǒng)的卷積核大小、特征圖個(gè)數(shù)進(jìn)行選取,使系統(tǒng)達(dá)到最佳檢測效果。

    圖2 LeNet-7系統(tǒng)結(jié)構(gòu)

    2.3 LeNet-7系統(tǒng)參數(shù)的確定

    本文采用波士頓大學(xué)2014年提供的BU-TIV(Thermal Infrared Video)Benchmark[12]熱紅外視頻數(shù)據(jù)庫訓(xùn)練系統(tǒng),該數(shù)據(jù)庫包含的圖像環(huán)境多樣,相對復(fù)雜,具有很高的實(shí)用性。隨機(jī)提取3000個(gè)行人樣本,2000個(gè)用于訓(xùn)練,1000個(gè)用于測試;隨機(jī)提取3000個(gè)非行人樣本中,2000個(gè)用于訓(xùn)練,1000個(gè)用于測試。使用時(shí)所有樣本歸一化為32×32,步長為1,激活函數(shù)為ReLU,歷經(jīng)8000個(gè)epoch(訓(xùn)練次數(shù))。系統(tǒng)參數(shù)的選擇,采用錯(cuò)誤率最小的試選法,基本思想如下:

    1)在單層卷積網(wǎng)絡(luò)中(圖2中的C1層和S2層),估計(jì)卷積核大小的范圍,固定某一個(gè)卷積核尺寸,依次改變特征圖個(gè)數(shù),通過實(shí)驗(yàn)數(shù)據(jù)分析,選取該層最佳的卷積核尺寸和特征圖個(gè)數(shù)。

    2)將上一層網(wǎng)絡(luò)確定的參數(shù)作為C3層的輸入,聯(lián)合C1層網(wǎng)絡(luò),重復(fù)步驟1),選取C3層和S4層的最佳卷積核尺寸和特征圖個(gè)數(shù)。

    3)將上一層網(wǎng)絡(luò)確定的參數(shù)作為C5層的輸入,聯(lián)合C1、C3層網(wǎng)絡(luò),重復(fù)步驟1),選取C5層和S6層的最佳卷積核尺寸和特征圖個(gè)數(shù)。

    2.3.1 C1層參數(shù)的確定

    傳統(tǒng)LeNet-5系統(tǒng)用于數(shù)字識別時(shí),在最后一層使用16張?zhí)卣鲌D實(shí)現(xiàn)十分類(數(shù)字0~9),行人檢測只需實(shí)現(xiàn)二分類,因此本文選取特征圖范圍為1~16。一般,卷積核選取奇數(shù),由于行人在單幀紅外圖像中目標(biāo)較小,干擾目標(biāo)較多,為了保證檢測的正確率,卷積核不宜選取過大,因此本文選取卷積核大小范圍為1×1、3×3、5×5、7×7、9×9。采用檢測錯(cuò)誤率衡量網(wǎng)絡(luò)提取特征的能力,錯(cuò)誤率的描述如公式(3)所示:

    式中:ER為錯(cuò)誤樣本個(gè)數(shù),TOTAL為總樣本個(gè)數(shù)。錯(cuò)誤率越低,網(wǎng)絡(luò)提取特征的能力越強(qiáng),錯(cuò)誤率為0.5表示系統(tǒng)無法收斂。

    本文首先構(gòu)建單層卷積網(wǎng)絡(luò)(只保留圖2中的C1層和S2層)進(jìn)行實(shí)驗(yàn),結(jié)果如表1所示。由于網(wǎng)絡(luò)前向傳播時(shí)特征圖廣度逐層減小,后一卷積層中的卷積核大小不應(yīng)大于上一卷積層中卷積核的大小,因此,C1層的卷積核選擇3×3、5×5、7×7、9×9。由表1可知,除個(gè)別情況外,大部分不收斂(錯(cuò)誤率0.5000)情況出現(xiàn)在左下角呈階梯狀分布,大部分收斂(錯(cuò)誤率較?。┣闆r出現(xiàn)在右上角。由此可知,卷積核過小時(shí),增大特征圖個(gè)數(shù)使得系統(tǒng)輸出錯(cuò)誤率過大,無法收斂;卷積核過大時(shí),特征圖個(gè)數(shù)過大,也會使系統(tǒng)無法收斂。其中,9×9卷積核對應(yīng)的6個(gè)特征圖時(shí),單層網(wǎng)絡(luò)的錯(cuò)誤率最低,因此,C1層卷積層參數(shù)確定為9×9,6個(gè)特征圖。一般,該層卷積網(wǎng)絡(luò)特征圖尺寸為[13]:

    map=(-+1)×(-+1) (4)

    式中:為該層網(wǎng)絡(luò)的輸入圖像尺寸;為該層卷積核尺寸,因此,C1層×=24×24,池化層S2中×=12×12。經(jīng)過池化后系統(tǒng)的廣度(特征圖的尺寸)減小到原有的1/4,而數(shù)據(jù)的深度不變,系統(tǒng)的參數(shù)個(gè)數(shù)減小到了75%,計(jì)算量大大降低,池化層:S4層、S6層也是如此。

    表1 C1層不同卷積核和特征圖對應(yīng)錯(cuò)誤率

    2.3.2 C3層參數(shù)的確定

    聯(lián)合C1層網(wǎng)絡(luò),再次通過實(shí)驗(yàn)試選法進(jìn)行C3層參數(shù)的確定。其中,C3層卷積核大小選取1×1、3×3、5×5、7×7、9×9。由表1可知大部分不收斂的情況出現(xiàn)在特征圖個(gè)數(shù)大于10的時(shí)候,因此本次實(shí)驗(yàn)選取特征圖范圍為1~10。實(shí)驗(yàn)結(jié)果如表2所示,由表2可知,在非單層卷積網(wǎng)絡(luò)中,特征圖個(gè)數(shù)和卷積核大小并無規(guī)律可尋,5×5卷積核對應(yīng)5個(gè)特征圖時(shí),系統(tǒng)的錯(cuò)誤率最低,因此,C3層卷積層參數(shù)確定為5×5,5個(gè)特征圖,C3層×=8×8,池化層S4中×=4×4。

    2.3.3 C5層參數(shù)的確定

    聯(lián)合C1層、C3層網(wǎng)絡(luò),最后通過實(shí)驗(yàn)試選法確定C5層參數(shù)。一般,后一層的卷積核尺寸不大于上一層卷積核尺寸,因此本次實(shí)驗(yàn)選取卷積核大小為1×1、3×3、5×5,特征圖個(gè)數(shù)選取1~10,實(shí)驗(yàn)結(jié)果如表3所示。由表3可知,卷積核3×3時(shí)7個(gè)特征圖對應(yīng)的錯(cuò)誤率最小,此時(shí)C5層×=2×2,×=2×2。因此,C5層卷積核大小確定為3×3,特征圖個(gè)數(shù)為7。最終,LeNet-7系統(tǒng)參數(shù)確定為:9×9、6個(gè)特征圖;5×5、5個(gè)特征圖;3×3、7個(gè)特征圖。

    表3 C5層不同卷積核和特征圖對應(yīng)錯(cuò)誤率

    3 LeNet-7系統(tǒng)應(yīng)用于單幀紅外圖像

    3.1 行人檢測流程

    通過第1、2章的探討,本文建立了“方向投影”的ROI分割方法和7層的卷積神經(jīng)網(wǎng)絡(luò),單幀紅外圖像行人檢測的具體方法為:將分割得到的ROI依次送入訓(xùn)練好的LeNet-7系統(tǒng),經(jīng)由系統(tǒng)二分類,最終輸出檢測率數(shù)值。具體流程如圖3所示。

    圖3 單幀紅外圖像行人檢測流程

    需要指出的是:

    1)數(shù)據(jù)庫的選擇

    為了避免測試時(shí)ROI中出現(xiàn)訓(xùn)練系統(tǒng)所用BU-TIV數(shù)據(jù)庫中的人體目標(biāo),本文采用俄亥俄州立大學(xué)提供的OTCBVS Benchmark Dataset數(shù)據(jù)庫[14]和Terravic Motion IR Database數(shù)據(jù)庫[15]對LeNet-7網(wǎng)絡(luò)進(jìn)行測試。這樣固然可以避免測試集和訓(xùn)練集相互重合,但是對深度卷積神經(jīng)網(wǎng)絡(luò)的場景遷移能力提出了挑戰(zhàn)。

    2)人體目標(biāo)的大小

    本文訓(xùn)練樣本來自BU-TIV(Thermal Infrared Video)Benchmark數(shù)據(jù)庫,根據(jù)數(shù)據(jù)庫提供的ground truth文件可以發(fā)現(xiàn)大部分人體目標(biāo)大小為22×32,有一些特殊姿態(tài)的(如騎自行車或摩托車)的人體樣本,給出的目標(biāo)大小則為32×32。在制作訓(xùn)練樣本集和測試樣本集時(shí),本文將所有的樣本統(tǒng)一歸一化為32×32。為了保證訓(xùn)練好的系統(tǒng)有效用于測試,本文將ROI全部歸一化為32×32,以此保證測試集與訓(xùn)練集大小相同。

    3.2 實(shí)驗(yàn)結(jié)果與分析

    采用3個(gè)不同的紅外圖像測試集進(jìn)行紅外行人檢測實(shí)驗(yàn),測試集1來源于俄亥俄州立大學(xué)的OSU Thermal Pedestrian Database數(shù)據(jù)庫,測試集2來源于OSU Color-Thermal Database數(shù)據(jù)庫,測試集3來源于Terravic Motion IR Database數(shù)據(jù)庫。其中,測試集1由23副圖像組成,共含有101個(gè)人體目標(biāo),為多人體測試集;測試集2由54副圖像組成,每幅圖像含有一個(gè)人體目標(biāo),為單人體測試集;測試集3共有127幅攜帶武器的圖像,每幅圖像中含有2個(gè)人體目標(biāo),共含有254個(gè)人體目標(biāo)。實(shí)驗(yàn)結(jié)果如圖4所示。

    圖4 不同測試集行人檢測結(jié)果 (a)測試集1;(b)測試集2;(c)測試集3

    由圖4可知,3個(gè)測試集的圖像經(jīng)過自適應(yīng)閾值方向投影后得到的ROI中存在大量的非人體目標(biāo),經(jīng)過本文構(gòu)建的LeNet-7系統(tǒng)進(jìn)行分類后,人體目標(biāo)能夠很好地被分離,這表明本文提出的LeNet-7系統(tǒng)對單幀紅外圖像的人體檢測效果良好。為直觀反映檢測效果,采用檢測率(accuracy rate,AR)和虛警率(false alarm rate ,F(xiàn)AR)作為衡量指標(biāo),具體描述如下[16]:

    式(5)和式(6)中:TP為正確檢測的人體目標(biāo)數(shù)量;FP為未被正確檢測的人體目標(biāo)數(shù)量;FN為被誤判為行人的非人體目標(biāo)數(shù)量。將本文方法所得檢測結(jié)果與傳統(tǒng)“HOG+Fisher”(文獻(xiàn)[17])方法、文獻(xiàn)[6]方法對比,結(jié)果如表4所示。其中,文獻(xiàn)[17]對ROI的檢索性能受限于手動(dòng)設(shè)計(jì)的行人特征, 而且滑動(dòng)窗并未實(shí)現(xiàn)對于不同數(shù)據(jù)集的可伸縮性。文獻(xiàn)[6]構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)包含23個(gè)卷積層和5個(gè)池化層,參數(shù)多,計(jì)算復(fù)雜。

    由表4可知,本文構(gòu)建的LeNet-7系統(tǒng)在3個(gè)測試集中的檢測率均高于其他方法,這表明基于LeNet-7系統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)針對行人檢測系統(tǒng)具有很好的正確率、遷移性。在單人體測試集2中,本文方法檢測率達(dá)到100%,同時(shí)沒有產(chǎn)生虛警;測試集1和3中本文方法存在部分人體目標(biāo)未被正確檢測的問題,但虛警率為0%。經(jīng)過分析,原因是沒有正確檢測的ROI中行人之間存在較為嚴(yán)重的相互遮擋,導(dǎo)致系統(tǒng)無法正確判斷人體目標(biāo)的個(gè)數(shù)。在以后的工作中,本文將進(jìn)一步研究。

    表4 不同方法的實(shí)驗(yàn)結(jié)果

    4 結(jié)論

    本文提出一種基于LeNet-7的卷積神經(jīng)網(wǎng)絡(luò)對單幀紅外圖像行人檢測的方法。首先,采用自適應(yīng)閾值分割圖像,然后將分割后的圖像向軸方向投影,再向軸投影,最后將得到的ROI圖像輸入訓(xùn)練好的LeNet-7系統(tǒng)進(jìn)行測試。該系統(tǒng)僅包含3個(gè)卷積層,避免了全卷積神經(jīng)網(wǎng)絡(luò)參數(shù)多、計(jì)算量大等問題,每層的參數(shù)以錯(cuò)誤率最小的試選法進(jìn)行確定,避免了依賴經(jīng)驗(yàn)選擇參數(shù)的盲目性。其中,訓(xùn)練系統(tǒng)的6000個(gè)隨機(jī)樣本來自于BU-TIV數(shù)據(jù)庫,測試樣本來自于OTCBVS和Terravic Motion IR Database數(shù)據(jù)庫。3個(gè)不同測試集的實(shí)驗(yàn)結(jié)果表明,本文方法具有很高的紅外圖像行人檢測率,與傳統(tǒng)“HOG+Fisher”方法、采用多個(gè)卷積層的神經(jīng)網(wǎng)絡(luò)對比,本文算法的檢測率更高,虛警率更低,具有較高的實(shí)用性。然而,本文方法還有進(jìn)一步改進(jìn)的空間,當(dāng)ROI圖像中行人之間存在較為嚴(yán)重的相互遮擋時(shí),系統(tǒng)無法正確判斷人體目標(biāo),在接下來的工作中,將進(jìn)一步提高行人遮擋圖像ROI的分割精度,提升系統(tǒng)的識別能力,為更深層、更復(fù)雜的序列紅外圖像行人檢測作鋪墊。

    [1] Nanda H , Davis L. Probabilistic template based pedestrian detection in infrared videos[C]//,, 2002: 7712599.

    [2] Bertozzi M, Broggi A, Grisleri P, et al. Pedestrian detection in infrared images[C]//,, 2003: 7883392.

    [3] GAO Y , AI X , WANG Y , et al. U-V-Disparity based Obstacle Detection with 3D Camera and steerable filter[C]//,, 2011: 12095161.

    [4] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//, 2014: 580-587.

    [5] 許茗, 于曉升, 陳東岳, 等. 復(fù)雜熱紅外監(jiān)控場景下行人檢測[J]. 中國圖象圖形學(xué)報(bào), 2018, 23(12): 1829-1837.

    XU M, YU X S, CHEN D Y, et al. Man detection in complex thermal infrared monitoring scenes[J]., 2018, 23(12): 1829-1837.

    [6] 譚康霞, 平鵬, 秦文虎. 基于YOLO模型的紅外圖像行人檢測方法[J]. 激光與紅外, 2018, 48(11): 1436-1442.

    TAN K X, PING P, QIN W H. Infrared image pedestrian detection method based on YOLO model[J]., 2018, 48(11): 1436-1442.

    [7] 陳恩加, 唐向宏, 傅博文. Faster R-CNN行人檢測與再識別為一體的行人檢索算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2019, 31(2): 332-339.

    CHEN E G, TANG X H, FU B W. Pedestrian Search Method Based on Faster R-CNN with the Integration of Pedestrian Detection and Re-identification[J]., 2019, 31(2): 332-339.

    [8] 劉智嘉, 賈鵬, 夏寅輝, 等. 基于紅外與可見光圖像融合技術(shù)發(fā)展與性能評價(jià)[J]. 激光與紅外, 2019, 49(5): 633-640.

    LIU Z J, JIA P, XIA Y H, et al. Development and performance evaluation of infrared and visible image fusion technology[J]., 2019, 49(5): 633-640.

    [9] 吳志洋, 卓勇, 李軍, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的單色布匹瑕疵快速檢測算法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2018, 30(12): 2262-2270.

    WU Z Y, ZHUO Y, LI J, et al. Fast detection algorithm of monochrome fabric defects based on convolution neural network[J]., 2018, 30(12): 2262-2270.

    [10] 歐攀, 張正, 路奎, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像目標(biāo)檢測[J]. 激光與光電子學(xué)進(jìn)展, 2019, 56(5): 74-80.

    OU P, ZHANG Z, LU K, et al. Remote sensing image target detection based on convolution neural network[J]., 2019, 56(5): 74-80.

    [11] Y. Lecun, L. Bottou, Y. Bengi, et al. Gradient-based learning applied to document recognition[J]., 1998, 86(11): 2278-2324.

    [12] ZHENG Wu, Nathan Fuller, Diane Theriault, et al. IEEE Conference on Computer Vision and Pattern Recognition[DB/OL].(2014-6-24)[2019-12-18].http://csr.bu.edu/BU-TIV/BUTIV.html.

    [13] 呂永標(biāo), 趙建偉, 曹飛龍. 基于復(fù)合卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪算法[J]. 模式識別與人工智能, 2017, 30(2): 97-105.

    LU Y B, ZHAO J W, CAO F L. Image denoising algorithm based on compound convolution neural network[J]., 2017, 30(2): 97-105.

    [14] Riad I. Hammoud. OTCBVS Benchmark Dataset Collection[DB/OL].(2014-6-22)[2019-12-18].http://vcipl-okstate.org/pbvs/bench/.

    [15] Riad I. Hammoud. Terravic Motion IR Database[DB/OL].(2014-6-22)[20192-12-18].http://vcipl-okstate.org/pbvs/bench/Data/05/download.html.

    [16] 蘇育挺, 陳耀, 呂衛(wèi). 基于近紅外圖像的嵌入式人員在崗檢測系統(tǒng)[J]. 紅外技術(shù), 2019, 41(4): 377-382.

    SU Y T, CHEN Y, LU W. Embedded on-the-job detection system based on near infrared image[J]., 2019, 41(4): 377-382.

    [17] XU Y L, MA B P, HUANG R, et al. Person search in a scene by jointly modeling people commonness and person uniqueness[C]//22nd, 2014: 937-940.

    A Method of Pedestrian Detection Based on Improved CNN in Single-frame Infrared Images

    CUI Shaohua,LI Suwen,HUANG Jinle,SHAN Wei

    (College of Physics and Electronic Information, Huaibei Normal University, Huaibei 235000, China)

    We proposed an improved method of pedestrian detection in infrared images based on the LeNet-7 system, to address the problems of large computation and low detection rates in traditional methods based on a full convolution neural network. The system consists of three convolution layers and three pooling layers. The trail selection method with the smallest error rate is used to determine the parameters of each layer, while the BU-TIV database, established by Boston University,is used to train the system. Firstly, theObject Tracking and Classification in and Beyond the Visible Spectrum(OTCBVS) and Terravic Motion IR Database, established by Ohio State University,areused to test images. Then, the region of interest (ROI) is obtained by vertical and horizontal projection with adaptive thresholds. Finally, the ROI is input into the trained system for testing. Experiments on three test sets demonstrate that the proposed method has good recognition ability. Compared with different experimental methods, the proposed method can effectively improve the detection rate.

    image processing, LeNet-7 system, single-frame infrared image, detection rate

    TP391

    A

    1001-8891(2020)05-0238-07

    2019-06-25;

    2019-12-18.

    崔少華(1983-),女,碩士,講師,主要從事信號去噪、圖像處理等方面的研究。E-mail:flower0804@126.com。

    國家自然科學(xué)基金面上項(xiàng)目(41875040);安徽省教育廳項(xiàng)目(2018jyxm0530,2017kfk044,KJ2017B008)。

    猜你喜歡
    錯(cuò)誤率行人投影
    限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
    毒舌出沒,行人避讓
    意林(2021年5期)2021-04-18 12:21:17
    解變分不等式的一種二次投影算法
    基于最大相關(guān)熵的簇稀疏仿射投影算法
    找投影
    找投影
    路不為尋找者而設(shè)
    我是行人
    正視錯(cuò)誤,尋求策略
    教師·中(2017年3期)2017-04-20 21:49:49
    解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯(cuò)誤原因
    江永县| 城市| 积石山| 班玛县| 霍林郭勒市| 运城市| 墨脱县| 贵港市| 五峰| 云龙县| 镇赉县| 边坝县| 从化市| 石狮市| 闵行区| 游戏| 贵溪市| 彭泽县| 齐齐哈尔市| 玛曲县| 都江堰市| 肃南| 正蓝旗| 凤台县| 江油市| 西安市| 朝阳县| 郁南县| 米易县| 尖扎县| 岳池县| 抚宁县| 泾源县| 昂仁县| 清涧县| 烟台市| 登封市| 团风县| 新泰市| 黑龙江省| 大方县|