別倩,王曉*,徐新,趙啟軍,王正,陳軍,胡瑞敏
1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065;2.武漢科技大學(xué)智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430065;3.四川大學(xué)視覺(jué)合成圖形圖像技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,成都 610065;4.武漢大學(xué)多媒體網(wǎng)絡(luò)通信工程湖北省重點(diǎn)實(shí)驗(yàn)室,武漢 430072
行人檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域最基本的任務(wù)之一,具有廣泛的現(xiàn)實(shí)應(yīng)用價(jià)值。行人檢測(cè)是監(jiān)控監(jiān)視、監(jiān)控追蹤和自動(dòng)駕駛等應(yīng)用系統(tǒng)的核心技術(shù),同時(shí)也是行人重識(shí)別、行人檢索等任務(wù)的前提技術(shù)。近年來(lái),基于深度學(xué)習(xí)方法的行人檢測(cè)技術(shù)(Ouyang和Wang,2013;Tian 等,2015;Lin 等,2018;Li 等,2020b;Liu等,2019;趙永強(qiáng) 等,2020;甑燁 等,2021)取得了很大進(jìn)展,然而在光照不良條件下,可見光圖像中的行人目標(biāo)易與周圍環(huán)境呈現(xiàn)一樣的外觀特征,因此僅基于單一可見光模態(tài)的行人檢測(cè)器難以區(qū)分行人與周圍背景,易造成漏檢、誤檢等情況。
人臉識(shí)別(Lee 等,2016;He 等,2017;Wu 等,2021)、行人追蹤(Farooq 等,2015)、行人重識(shí)別(Andreas 等,2013;Ye 等,2018;Vladimir 等,2019;李俊宏 等,2020;鄭偉詩(shī)和吳岸聰,2018;趙才榮 等,2021;吳岸聰 等,2022;Li 等,2020a)和目標(biāo)檢測(cè)(Gupta 等,2014;Song 和Xiao,2016;Deng 和Latecki,2017;Xu 等,2018;蔣亭亭 等,2021;Fang 和Wang,2022)等領(lǐng)域的許多研究表明,相較于單一可見光模態(tài),引入一種新的模態(tài)可獲得更好的效果。
在常見的可見光+深度圖、可見光+雷達(dá)圖以及可見光+紅外圖等跨模態(tài)輸入組合中,雷達(dá)點(diǎn)云圖提供的信息不足以將行人與物體區(qū)分開,深度圖雖然可以提供行人輪廓信息但提供的輪廓不夠準(zhǔn)確。而熱紅外攝像機(jī)由于其根據(jù)溫差成像的特性,相較于深度圖和雷達(dá)圖可以提供更清晰的行人輪廓。同時(shí)結(jié)合可見光與紅外圖像可以有效地解決在低照度場(chǎng)景(如黑夜、霧天、雨天等)下可見光圖像表現(xiàn)較差的問(wèn)題,并能在一定程度上解決行人遮擋和背景混淆等問(wèn)題,如圖1 所示,其中,矩形框代表真實(shí)標(biāo)注框。因此,相比于其他結(jié)合模態(tài),結(jié)合紅外—可見光兩種模態(tài)在行人檢測(cè)領(lǐng)域得到了更廣泛的應(yīng)用。
圖1 在低照度情況下紅外圖像為可見光圖像提供輔助信息的可視化圖Fig.1 A visualization of an infrared image providing supplementary information to a visible image at low illumination((a)infrared image;(b)visible image)
近幾年,跨模態(tài)行人檢測(cè)方面的研究依然備受關(guān)注。圖2 是以跨模態(tài)行人檢測(cè)為關(guān)鍵詞在谷歌學(xué)術(shù)搜索得到的2015—2021 年發(fā)表的跨模態(tài)行人檢測(cè)論文數(shù)量統(tǒng)計(jì)??梢钥闯?,論文總體發(fā)表數(shù)量呈現(xiàn)上升趨勢(shì),雖然2020 年的論文發(fā)表數(shù)量有所下降,但2021 年呈現(xiàn)爆發(fā)式增長(zhǎng),推測(cè)是新冠疫情原因?qū)е略S多研究成果延后一年。結(jié)合可見光—紅外兩種模態(tài)的行人檢測(cè)任務(wù)已逐漸成為并將持續(xù)成為研究者關(guān)注的熱點(diǎn)任務(wù)。
圖2 2015—2021年跨模態(tài)行人檢測(cè)論文數(shù)量統(tǒng)計(jì)Fig.2 The number of publications on cross-modal pedestrian detection from the year 2015 to 2021
本文的貢獻(xiàn)可以總結(jié)為以下3 點(diǎn):1)與不同于Li(2021)根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)將近幾年的跨模態(tài)行人檢測(cè)工作分為單階段檢測(cè)和雙階段檢測(cè)兩類,本文根據(jù)研究針對(duì)的問(wèn)題詳細(xì)分類,更有利于對(duì)跨模態(tài)行人檢測(cè)領(lǐng)域感興趣的研究者快速了解該領(lǐng)域關(guān)注的問(wèn)題和熱點(diǎn)方向;2)基于不同的評(píng)價(jià)指標(biāo)對(duì)近幾年的跨模態(tài)行人檢測(cè)方法在不同層面進(jìn)行對(duì)比,提供了豐富的對(duì)比數(shù)據(jù);3)總結(jié)了跨模態(tài)行人檢測(cè)領(lǐng)域尚未完美解決的挑戰(zhàn),并提出對(duì)于未來(lái)跨模態(tài)行人檢測(cè)領(lǐng)域方向的思考。這將有助于啟發(fā)研究者實(shí)現(xiàn)更有價(jià)值的跨模態(tài)行人檢測(cè)器。
經(jīng)過(guò)眾多人工智能(artificial intelligence,AI)領(lǐng)域研究者的共同努力,跨模態(tài)行人檢測(cè)在各方面都取得了顯著性的成功。本文根據(jù)2007—2021 年跨模態(tài)行人檢測(cè)領(lǐng)域的研究熱點(diǎn)和重要數(shù)據(jù)集的提出時(shí)間整理了該課題的發(fā)展脈絡(luò),如圖3所示。
圖3 跨模態(tài)行人檢測(cè)領(lǐng)域歷年的研究熱點(diǎn)Fig.3 The hot research directions of cross-modal pedestrian detection in recent years
如何有效融合可見光和紅外兩種模態(tài)一直是備受關(guān)注的熱點(diǎn)問(wèn)題。在KAIST(Korea Advanced Institute of Science and Technology)數(shù)據(jù)集提出之前,面向紅外—可見光圖像的跨模態(tài)行人檢測(cè)研究都是基于OSU Color-Thermal(Ohio State University Color-Thermal)數(shù)據(jù)集(Davis 和Sharma,2007)。首先通過(guò)圖像融合技術(shù),其次通過(guò)背景減法在融合后的圖像上產(chǎn)生候選區(qū)域,最后對(duì)這些候選區(qū)域進(jìn)行分類判斷有無(wú)行人。早期,對(duì)兩模態(tài)圖像融合方法的研究主要包括基于輪廓的融合方法(Davis 和Sharma,2007)、基于聯(lián)合雙邊濾波器的融合方法(Choi 和Park,2010)和基于黎曼流形的融合方法(San-Biagio等,2012)等。對(duì)候選區(qū)域分類方法的研究主要包括基于周期性步態(tài)分析的分類方法(Leykin 等,2007)等。2014 年之前,面向紅外—可見光的跨模態(tài)行人檢測(cè)任務(wù)并未引起廣泛關(guān)注,主要原因在于OSU Color-Thermal 中的圖像大多在光線較好的白天場(chǎng)景下收集,結(jié)合紅外進(jìn)行檢測(cè)的優(yōu)勢(shì)并不明顯。
Hwang 等人(2015)通過(guò)以紅外圖像通道特征和紅外圖像的HOG(histogram of oriented gradient)特征作為附加通道特征擴(kuò)展聚集通道特征,提出了多光譜ACF(aggregated channel features)行人檢測(cè)器。實(shí)驗(yàn)證明,相比于僅用可見光圖像訓(xùn)練的檢測(cè)器,使用可見光—紅外圖像對(duì)的檢測(cè)器在不同光照、不同距離和不同遮擋條件下的性能表現(xiàn)顯著提高。隨后,其提出的KAIST數(shù)據(jù)集廣泛應(yīng)用在跨模態(tài)行人檢測(cè)領(lǐng)域,促進(jìn)了面向紅外—可見光圖像的跨模態(tài)行人檢測(cè)研究的再次興起。
早期基于背景建模的方法只能檢測(cè)運(yùn)動(dòng)的目標(biāo),對(duì)于靜止的行人目標(biāo)無(wú)法處理。手工特征方法可以檢測(cè)靜止的行人目標(biāo),但手工特征無(wú)法滿足各種環(huán)境下對(duì)檢測(cè)器高精度性能和魯棒性的要求,且手工特征方法無(wú)法實(shí)現(xiàn)一個(gè)端到端的檢測(cè)器。隨著深度學(xué)習(xí)技術(shù)的推廣,研究者發(fā)現(xiàn)基于深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的方法可以在行人檢測(cè)任務(wù)中提取更深層次、更具有區(qū)分力度的行人特征。如圖3 所示,2016 年及以后的所有關(guān)于跨模態(tài)行人檢測(cè)任務(wù)的研究都是基于CNN 模型上的改進(jìn)。跨模態(tài)行人檢測(cè)的基本流程圖如圖4所示,由于跨模態(tài)行人檢測(cè)輸入為紅外—可見圖像對(duì),因此檢測(cè)過(guò)程中通常需要進(jìn)行融合操作。但不同的跨模態(tài)行人檢測(cè)方法對(duì)應(yīng)不同的融合階段,因此不同方法對(duì)應(yīng)的位置不同。所以融合操作模塊并未在圖4中展示,具體細(xì)節(jié)如圖5所示。
圖4 跨模態(tài)行人檢測(cè)的基本流程圖Fig.4 Basic flow chart of cross-modal pedestrian detection
圖5 3個(gè)融合階段的可視化圖Fig.5 A visualization of the three fusion stages ((a)image fusion stage;(b)feature fusion stage;(c)decision fusion stage)
針對(duì)近幾年跨模態(tài)行人檢測(cè)研究的問(wèn)題,可分為模態(tài)差異大問(wèn)題的研究和實(shí)際應(yīng)用難問(wèn)題的研究?jī)深悺a槍?duì)模態(tài)差異大問(wèn)題的研究旨在解決相對(duì)于單一可見光模態(tài),新引入一個(gè)紅外模態(tài)后出現(xiàn)的問(wèn)題;針對(duì)實(shí)際應(yīng)用難問(wèn)題的研究旨在解決將紅外—可見光跨模態(tài)行人檢測(cè)器應(yīng)用到現(xiàn)實(shí)生活場(chǎng)景中出現(xiàn)的問(wèn)題。
1.1.1 基于圖像未對(duì)準(zhǔn)問(wèn)題的研究
圖像未對(duì)準(zhǔn)是指來(lái)自兩種模態(tài)的圖像之間存在位置偏移問(wèn)題,兩種圖像在同一空間位置顯示的信息不同。由于兩模態(tài)圖像是由紅外—可見光傳感器分別拍攝的,不同的傳感器具有不同的視角和視野,并且雙傳感器同步拍攝較為困難,因此對(duì)于結(jié)合紅外—可見光的行人檢測(cè)任務(wù),圖像未對(duì)準(zhǔn)問(wèn)題是一個(gè)較為常見的挑戰(zhàn)。在2019 年之前,F(xiàn)rench 等人(2018)提出兩模態(tài)圖像融合之后進(jìn)行特征提取和檢測(cè),但表現(xiàn)并不理想,主要是因?yàn)榭缒B(tài)行人檢測(cè)數(shù)據(jù)集中圖像未對(duì)準(zhǔn)的問(wèn)題。Li 等人(2018)在清洗KAIST 數(shù)據(jù)集時(shí),發(fā)現(xiàn)兩種模態(tài)圖像之間的未對(duì)準(zhǔn)問(wèn)題會(huì)造成檢測(cè)器的性能下降,因此重新標(biāo)注KAIST(Hwang 等,2015)數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)集。Zhang 等人(2019a)在2019 年首次針對(duì)跨模態(tài)行人檢測(cè)領(lǐng)域中兩模態(tài)圖像弱對(duì)齊問(wèn)題進(jìn)行系統(tǒng)地研究,以紅外模態(tài)作為參考模態(tài),可見光模態(tài)作為感知模態(tài),提出區(qū)域特征對(duì)齊(region feature alignment,RFA)模塊,用于解決兩種模態(tài)間的圖像弱對(duì)齊問(wèn)題。通過(guò)兩個(gè)模態(tài)真實(shí)行人標(biāo)注框的中心坐標(biāo)偏差算出兩個(gè)模態(tài)的偏移量,根據(jù)模態(tài)間的偏移量動(dòng)態(tài)地調(diào)整感知模態(tài)(可見光模態(tài)),這個(gè)過(guò)程中參考模態(tài)(紅外模態(tài))是不被調(diào)整的。不同于Zhang 等人(2019a)針對(duì)兩種模態(tài)圖像之間弱對(duì)齊問(wèn)題的研究,Wanchaitanawong 等人(2021)旨在解決兩模態(tài)圖像之間存在較大偏差時(shí)的行人檢測(cè)問(wèn)題,提出基于兩模態(tài)回歸和兩模態(tài)交并比(intersection over union,IOU)的檢測(cè)方法,模型中的RPN(region proposal network)網(wǎng)絡(luò)和檢測(cè)網(wǎng)絡(luò)具有一個(gè)兩模態(tài)的邊界框回歸器,用于獨(dú)立調(diào)整邊界框的位置。Wanchaitanawong 等人(2021)認(rèn)為在兩模態(tài)之間存在較大偏差時(shí),兩模態(tài)IOU 不應(yīng)僅計(jì)算一個(gè)統(tǒng)一的真實(shí)框和預(yù)測(cè)框的交并比,而應(yīng)同時(shí)計(jì)算兩種模態(tài)各自的真實(shí)框和預(yù)測(cè)框的交并比。實(shí)驗(yàn)表明,Wanchaitanawong等人(2021)提出的方法在兩種模態(tài)圖像存在強(qiáng)未對(duì)齊情況下有較明顯的性能提升。
1.1.2 基于融合不充分問(wèn)題的研究
關(guān)于兩種模態(tài)融合不充分的研究可以分為對(duì)兩種模態(tài)融合階段(何時(shí)融合)的研究和對(duì)兩種模態(tài)融合方式(如何融合)的研究。早期對(duì)于兩模態(tài)融合不充分的研究致力于融合階段的研究,根據(jù)不同融合階段所對(duì)應(yīng)的融合信息不同,可將融合階段的研究分為3 類,分別是圖像階段融合、特征階段融合以及決策階段融合。同樣,根據(jù)融合信息不同,可以將融合方式的研究分為3 類,分別是對(duì)圖像融合方式的研究、特征融合方式的研究以及檢測(cè)結(jié)果融合方式的研究。
1)圖像階段融合。如圖5(a)所示,此時(shí)融合的信息為圖像信息,融合操作在特征提取操作之前發(fā)生,這個(gè)階段的融合稱為圖像階段融合。在圖像階段進(jìn)行融合操作,不需要圖5(b)(c)所示的雙分支網(wǎng)絡(luò)結(jié)構(gòu),只需改變單分支網(wǎng)絡(luò)的第1 層卷積層輸入通道數(shù)即可。
對(duì)于圖像階段融合方式的研究,Wagner 等人(2016)提出的早期融合階段中采取的圖像融合方法是直接疊加型圖像融合。對(duì)于直接疊加型圖像融合,只需將單分支網(wǎng)絡(luò)的第1 層卷積層的輸入通道數(shù)由可見光的三通道變?yōu)榭梢姽?紅外的四通道。Hou 等人(2018)使用3 種常見的圖像融合方法,即Laplacian pyramid(Burt 和Adelson,1983)、curvelet(Candès 等,2006)和wavelet(Ranchin 和Wald,1993)進(jìn)行可見光和紅外圖像的融合。首先將RGB 格式的可見光圖像轉(zhuǎn)為HIS(hue-intensity-saturation)格式,其次將可見光圖像的I 通道和熱圖像單通道分別使用3 種圖像融合方法進(jìn)行融合,然后使用融合后得到的通道替換原可見光圖像的I 通道,最后再將經(jīng)過(guò)替換后的HIS 格式的可見光圖像重新轉(zhuǎn)化為RGB 格式的可見光圖像作為檢測(cè)器的輸入進(jìn)行檢測(cè)。相較于Wagner 等人(2016)提出的早期、后期的融合方法,使用3 種圖像融合方法的行人檢測(cè)器性能表現(xiàn)并不理想。Vandersteegen 等人(2018)在基于紅外圖像單通道包含的信息比可見光圖像的某個(gè)通道包含的信息更有價(jià)值的假設(shè)下,將RGB 圖像中的3 個(gè)通道分別替換成熱圖像單通道,同時(shí)將RGB 格式轉(zhuǎn)化為L(zhǎng)UV(L 表示明亮程度,U、V 表示圖片色度)格式,將U 或V 兩通道分別替換為熱圖像通道得到了5 種不同的替換模型。實(shí)驗(yàn)結(jié)果表明,替換RGB格式中的R通道與替換LUV格式中的U通道可得到相同的效果。由于直接替換RGB 中的R 通道不需要格式轉(zhuǎn)化,因此更推薦替換可見光圖像中的R 通道這一方式。French 等人(2018)采用Connah等人(2015)提出的多光譜圖像邊緣融合算法融合紅外—可見光圖像,相比于Liu 等人(2016a)提出的早期、中期和晚期融合算法,圖像邊緣融合算法性能表現(xiàn)并不理想。French 等人(2018)分析圖像邊緣融合算法表現(xiàn)較差的原因在于數(shù)據(jù)集中的紅外圖像和可見光圖像并沒(méi)有完全對(duì)齊。本文也認(rèn)為圖像對(duì)未對(duì)準(zhǔn)問(wèn)題是圖像融合方法檢測(cè)性能較低的主要原因,因?yàn)橄袼丶?jí)的圖像融合比特征級(jí)的特征圖融合對(duì)兩模態(tài)圖像對(duì)齊的要求更高。
2)特征階段融合。如圖5(b)所示,此時(shí)融合的信息為兩種模態(tài)的特征信息,融合操作在特征提取過(guò)程中發(fā)生,這個(gè)階段的融合稱為特征階段融合。由于圖像階段融合的行人檢測(cè)效果并不理想,近幾年的研究大都致力于兩種模態(tài)特征階段的融合。
對(duì)于單層特征圖融合階段的研究,Wagner 等人(2016)提出晚期融合方法,兩個(gè)子網(wǎng)絡(luò)分別提取兩種模態(tài)的特征,并在最后的全連接層融合兩個(gè)分支提取出的不同特征。實(shí)驗(yàn)表明,其提出的屬于特征階段融合的晚期融合檢測(cè)效果優(yōu)于其同時(shí)提出的屬于圖像階段融合的早期融合檢測(cè)效果。Liu 等人(2016a)對(duì)特征融合階段進(jìn)一步研究,提出4個(gè)不同的特征融合階段,分別是早期融合、中期融合、后期融合和置信度融合。4 個(gè)融合階段都基于雙分支的網(wǎng)絡(luò)結(jié)構(gòu)。其中置信度融合屬于決策融合階段的研究。早期融合是兩個(gè)分支經(jīng)過(guò)一個(gè)卷積層后進(jìn)行特征融合;中期融合是兩個(gè)分支經(jīng)過(guò)4 個(gè)卷積層后進(jìn)行特征融合;后期融合是兩個(gè)分支經(jīng)過(guò)最后一個(gè)卷積層后進(jìn)行特征融合。實(shí)驗(yàn)結(jié)果表明,中期融合階段優(yōu)于其他3 個(gè)融合階段,主要原因在于早期的特征圖包含較為豐富的細(xì)節(jié)信息,后期特征圖包含較為豐富的語(yǔ)義信息,而中期特征圖不僅包含豐富的語(yǔ)義信息同時(shí)也包含細(xì)節(jié)信息。K?nig 等人(2017)為找到RPN 中可見光和紅外特征的最佳融合階段,以產(chǎn)生更有效的候選區(qū)域,在Liu 等人(2016a)提出的早期融合、中期融合和晚期融合的基礎(chǔ)上,分別在第2層和第3層卷積層后對(duì)兩模態(tài)特征進(jìn)行融合,并通過(guò)實(shí)驗(yàn)對(duì)比不同特征階段融合檢測(cè)器的性能表現(xiàn),實(shí)驗(yàn)結(jié)果表明,在第3 個(gè)卷積層之后進(jìn)行兩模態(tài)特征圖融合效果最好。
對(duì)于多層特征圖融合階段的研究,Choi 等人(2016)認(rèn)為僅融合單個(gè)特征層是不夠的,淺層的特征分辨率高,但對(duì)于行人特征識(shí)別能力差。然而隨著卷積層的加深,特征圖對(duì)行人特征的識(shí)別能力增加,特征分辨率隨之下降。因此,Choi等人(2016)提出通過(guò)多尺寸特征圖融合來(lái)平衡不同卷積層之間特征識(shí)別能力和分辨率。不同于基于R-CNN(region convolutional neural network)網(wǎng)絡(luò)系列的檢測(cè)器,Zheng 等人(2019)設(shè)計(jì)了基于雙SSD(single shot detector)的跨模態(tài)行人檢測(cè)器(Liu 等,2016b),采用SSD 模型中 6 個(gè)不同尺寸特征圖檢測(cè)不同尺度目標(biāo)的思想,分別將兩分支的特征圖在conv4_3,conv7,conv8_2,conv9_2,conv10_2,conv11_2 共6 個(gè)不同尺寸的卷積層進(jìn)行融合。在此網(wǎng)絡(luò)模型基礎(chǔ)上,Zhuang 等人(2022)對(duì)在輸入通道融合兩模態(tài)特征、conv8_2 層之后融合兩模態(tài)特征和Zheng 等人(2019)提出的6 層融合3 種階段下檢測(cè)器的表現(xiàn)進(jìn)行比較,實(shí)驗(yàn)結(jié)果證明,對(duì)于雙分支SSD 結(jié)構(gòu)而言,6層融合檢測(cè)的效果最好。
常見的特征融合方式包括4 種方式,分別是平均融合、級(jí)聯(lián)融合、增強(qiáng)融合和加權(quán)融合,如圖6所示。
圖6 4種常見融合方式的可視化圖Fig.6 A visualization of the four fusion methods
Liu等人(2016a)提出使用級(jí)聯(lián)的方式進(jìn)行兩種模態(tài)特征圖的融合,如圖6(b)所示,但兩種模態(tài)特征圖的直接級(jí)聯(lián)操作會(huì)導(dǎo)致通道數(shù)加倍,為能夠繼續(xù)使用預(yù)訓(xùn)練的網(wǎng)絡(luò)模型參數(shù),在連接層后面引入NiN(network-in-network)層以減少通道數(shù),這種級(jí)聯(lián)融合方式在之后的研究中得到廣泛使用。不同于單獨(dú)使用級(jí)聯(lián)融合方式,Lee 等人(2018)引入特征加強(qiáng)的操作,使紅外特征圖和可見光特征圖中強(qiáng)度較高的部分會(huì)在聯(lián)系特征圖中也得到強(qiáng)調(diào)。首先利用Hadamard 積方法融合輸入的可見光特征圖和紅外特征圖得到兩種模態(tài)的關(guān)聯(lián)特征圖,其次將兩種模態(tài)的特征圖和關(guān)聯(lián)特征圖級(jí)聯(lián)得到最終的融合特征圖。Guan 等人(2018)組織對(duì)比實(shí)驗(yàn),以比較級(jí)聯(lián)融合(圖6(b))、增強(qiáng)融合(圖6(c))和加權(quán)融合(圖6(d))3 種特征融合方法的性能,經(jīng)實(shí)驗(yàn)表明,加權(quán)融合方法的效果最佳,增強(qiáng)融合方法其次,而最常用的級(jí)聯(lián)融合方法檢測(cè)效果最差。
為充分利用兩種模態(tài)之間的互補(bǔ)性,Zhang 等人(2019b)首次將注意力機(jī)制應(yīng)用于跨模態(tài)行人檢測(cè),提出跨模態(tài)交互式注意力網(wǎng)絡(luò)(cross-modality interactive attention network,CIAN)。首先,利用可見光和紅外兩個(gè)分支分別提取兩種模態(tài)的特征。其次,通過(guò)獲取兩個(gè)模態(tài)的全局特征將兩個(gè)模態(tài)之間的相關(guān)性編碼于注意力模塊。最后,以編碼得到的重要信息自適應(yīng)地調(diào)整兩種模態(tài)的融合權(quán)重,融合后特征圖中的有效信息會(huì)更加突出,而無(wú)效信息將被抑制。Zheng 等人(2019)提出以門控融合單元(gated fusion unit,GFU)的思想融合來(lái)自于兩種模態(tài)的特征圖。GFU 基于門控機(jī)制的運(yùn)行方式,在保證輸出融合特征圖通道數(shù)與輸入特征圖通道數(shù)相同的前提下,可以保留兩種模態(tài)的有效特征,同時(shí)降低無(wú)效特征的影響。Zhang等人(2019a)以紅外模態(tài)為參考模態(tài),可見光模態(tài)為感知模態(tài),提出基于置信度融合的方法。對(duì)于某一行人實(shí)例,若感知模態(tài)預(yù)測(cè)該候選區(qū)域?yàn)樾腥说母怕逝c參考模態(tài)預(yù)測(cè)其為行人的概率相差較大,則抑制感知模態(tài)的特征。Zhang 等人(2020a)為保持不同光譜特征之間的一致性,提出以循環(huán)融合方式動(dòng)態(tài)調(diào)整模態(tài)特征的融合過(guò)程(cyclic fuse-and-refine,CFR),認(rèn)為融合后的雙光譜特征通常比單光譜特征更具有判別性,使用融合后的雙光譜特征優(yōu)化單光譜特征,可使經(jīng)過(guò)優(yōu)化的單光譜特征相較于原光譜特征更具有判別性。但由于連續(xù)多次使用融合的多光譜特征來(lái)調(diào)整單光譜特征,兩種模態(tài)之間的互補(bǔ)性會(huì)隨著一致性增加而降低,所以通過(guò)控制循環(huán)優(yōu)化的次數(shù)來(lái)實(shí)現(xiàn)兩種模態(tài)之間一致性與互補(bǔ)性的平衡,實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)3 次循環(huán)優(yōu)化的檢測(cè)效果最好。Zhou 等人(2020)發(fā)現(xiàn)可見光—紅外兩種模態(tài)都有其內(nèi)在特質(zhì),兩種模態(tài)中都存在有效信息及噪音信息(可見光圖像在低照度條件下難以區(qū)分周圍背景和行人,紅外圖像在高溫條件下難以區(qū)分周圍背景和行人),僅使用簡(jiǎn)單的線性融合策略未能充分利用兩模態(tài)之間的互補(bǔ)性。因此,Zhou 等人(2020)提出使用差分模態(tài)感知(differential modality aware fusion,DMAF)模 塊,DMAF 充分利用兩種模態(tài)之間的互補(bǔ)性,從而可以產(chǎn)生更有效的融合特征表示。Zhang等人(2021a)提出由語(yǔ)義信息引導(dǎo)的類內(nèi)和類間注意力機(jī)制特征融合模塊(guided attentive feature fusion,GAFF)。在兩模態(tài)特征融合階段,兩種注意力機(jī)制將由行人的語(yǔ)義信息引導(dǎo),類內(nèi)注意力機(jī)制更關(guān)注對(duì)應(yīng)模態(tài)內(nèi)的有效信息,因此可見光和紅外特征圖中含有行人的區(qū)域會(huì)加強(qiáng);類間注意力機(jī)制更關(guān)注兩個(gè)模態(tài)間的有效信息,因此兩種模態(tài)中預(yù)測(cè)行人信息更準(zhǔn)確的模態(tài)將得到更多的信任。Yang 等人(2022)提出基于注意力機(jī)制的雙向自適應(yīng)注意力融合模塊(bidirectional adaptive attention gate,BAA-Gate),注意力機(jī)制用于抑制兩個(gè)模態(tài)中的噪聲信息同時(shí)挑選兩個(gè)模態(tài)間的有效信息。經(jīng)過(guò)注意力機(jī)制挑選后的紅外模態(tài)特征再經(jīng)過(guò)光照加權(quán)以用于調(diào)整可見光模態(tài)特征,同時(shí)可見光模態(tài)特征也以相同的方式用于調(diào)整紅外模態(tài)特征。與其他基于注意力機(jī)制的融合方法不同,Yang 等人(2022)將光照權(quán)重與注意力機(jī)制相結(jié)合,光照權(quán)重不僅用于兩種模態(tài)檢測(cè)結(jié)果的融合,而且用于適應(yīng)性地調(diào)整兩個(gè)模態(tài)特征之間校準(zhǔn)和融合的強(qiáng)度。Kim 等人(2022a)提出基于感興趣區(qū)域(region of interest,RoI)不確定性和預(yù)測(cè)不確定性的跨模態(tài)行人檢測(cè)框架。針對(duì)RoI 的不確定性,在結(jié)合兩種模態(tài)特征時(shí),設(shè)計(jì)不確定性感知特征融合(uncertainty-aware feature fusion,UFF)模塊,以減少融合過(guò)程對(duì)不確定性RoI 的特征影響;針對(duì)模態(tài)差異,提出不確定性感知的跨模態(tài)引導(dǎo)(uncertaintyaware cross-modal guiding,UCG)模塊,使用預(yù)測(cè)不確定性表示各模態(tài)中的RoI 預(yù)測(cè)的可靠性,引導(dǎo)高不確定性模態(tài)的特征分布靠近低不確定性模態(tài)的特征分布。
3)決策階段融合。如圖5(c)所示,決策階段融合一般發(fā)生在檢測(cè)結(jié)果產(chǎn)生之后,決策融合階段融合的信息為不同分支的檢測(cè)結(jié)果。
常見的檢測(cè)結(jié)果融合方式為平均融合(兩模態(tài)檢測(cè)結(jié)果的權(quán)重都為0.5)。Liu等人(2016a)提出的置信度融合是兩個(gè)分支網(wǎng)絡(luò)的級(jí)聯(lián),首先,兩個(gè)子網(wǎng)絡(luò)分別生成候選區(qū)域和置信度。其次,可見光模態(tài)網(wǎng)絡(luò)的輸出會(huì)作為輸入送入紅外模態(tài)網(wǎng)絡(luò),紅外模態(tài)分支網(wǎng)絡(luò)的輸出也會(huì)作為輸入送入可見光模態(tài)網(wǎng)絡(luò)以重新計(jì)算置信度。最后,通過(guò)平均融合方式合并兩模態(tài)網(wǎng)絡(luò)得到檢測(cè)結(jié)果。Li等人(2019)提出置信度級(jí)的非級(jí)聯(lián)融合,候選區(qū)域來(lái)自于兩種模態(tài)的第5 個(gè)卷積層后的融合特征圖,然后兩個(gè)子網(wǎng)絡(luò)分別以生成的候選區(qū)域作為輸入生成分類和邊界框預(yù)測(cè)的結(jié)果,最后將兩個(gè)子網(wǎng)絡(luò)產(chǎn)生的結(jié)果平均融合得到最終的檢測(cè)結(jié)果。
但在不同的環(huán)境下,兩種模態(tài)檢測(cè)結(jié)果的可靠性不一致,此時(shí)應(yīng)根據(jù)不同的場(chǎng)景自適應(yīng)地調(diào)整不同模態(tài)的檢測(cè)結(jié)果權(quán)重。引入輔助因素融合檢測(cè)結(jié)果是較為有效的融合方式。引入輔助因素融合檢測(cè)結(jié)果是指網(wǎng)絡(luò)根據(jù)引入的光照、溫度等條件計(jì)算出不同分支的檢測(cè)結(jié)果所對(duì)應(yīng)的權(quán)重參數(shù),將計(jì)算出的權(quán)重參數(shù)用于不同分支檢測(cè)結(jié)果的融合。Li等人(2019)研究發(fā)現(xiàn),在光照良好條件下,相于比單一模態(tài)的行人檢測(cè),可見光圖像和紅外圖像融合檢測(cè)的效果較好;在光照不良條件下,相比于使用兩種模態(tài)融合檢測(cè),單獨(dú)使用紅外圖像檢測(cè)的效果更好。因此,提出采用光照感知網(wǎng)絡(luò)(illumination aware network,IAN)預(yù)測(cè)圖像光照,從而計(jì)算得到兩種模態(tài)在不同光照下的權(quán)重以適應(yīng)性地調(diào)整對(duì)每一種模態(tài)檢測(cè)結(jié)果的信任程度。與Li 等人(2019)將光照權(quán)重用于兩種模態(tài)檢測(cè)結(jié)果的融合不同,Guan 等人(2019a)提出將光照權(quán)重用于白天和夜晚兩個(gè)子網(wǎng)絡(luò)檢測(cè)結(jié)果的融合。兩者的區(qū)別在于Li 等人(2019)認(rèn)為在白天場(chǎng)景下可見光網(wǎng)絡(luò)的檢測(cè)結(jié)果應(yīng)該賦予更大的權(quán)重,在夜晚場(chǎng)景下紅外網(wǎng)絡(luò)的檢測(cè)結(jié)果應(yīng)該賦予更大的權(quán)重。而Guan 等人(2019a)認(rèn)為在白天場(chǎng)景下白天分支網(wǎng)絡(luò)的檢測(cè)結(jié)果應(yīng)該有更大的權(quán)重,在夜晚場(chǎng)景下夜晚分支網(wǎng)絡(luò)的檢測(cè)結(jié)果應(yīng)該有更大的權(quán)重。在引入光照條件因素的基礎(chǔ)上,Zhuang 等人(2022)提出在外界溫度高(如夏季的白天)的場(chǎng)景下,人體與外界環(huán)境溫差不大,紅外圖像并不能提供清晰的行人輪廓。應(yīng)根據(jù)溫度和光照條件共同決定更信任哪一模態(tài)檢測(cè)結(jié)果,從而進(jìn)一步引入溫度條件結(jié)合光照條件進(jìn)行兩模態(tài)檢測(cè)結(jié)果的融合權(quán)重計(jì)算。
1.2.1 基于標(biāo)注成本問(wèn)題的研究
在實(shí)際應(yīng)用中,將跨模態(tài)行人檢測(cè)器應(yīng)用到某一新場(chǎng)景時(shí),其性能可能由于原訓(xùn)練場(chǎng)景和當(dāng)前目標(biāo)場(chǎng)景之間的差異而顯著下降。為使檢測(cè)器在不同的場(chǎng)景下都保持較好的性能,需要將檢測(cè)器應(yīng)用到目標(biāo)場(chǎng)景的數(shù)據(jù)集上進(jìn)行訓(xùn)練使其學(xué)習(xí)目標(biāo)場(chǎng)景的特有信息。然而目標(biāo)場(chǎng)景是多變的,如自動(dòng)駕駛的汽車一天可能會(huì)經(jīng)過(guò)各種各樣的場(chǎng)景,而不同場(chǎng)景光照不同、行人數(shù)量不同、行人遮擋程度不同、空曠程度不同以及天氣不同等。對(duì)各種目標(biāo)場(chǎng)景的數(shù)據(jù)集標(biāo)注是一個(gè)耗費(fèi)人力的過(guò)程,且為了訓(xùn)練跨模態(tài)行人檢測(cè)器在不同光照條件下的魯棒性,跨模態(tài)行人數(shù)據(jù)集一般是在全天候環(huán)境下拍攝的,對(duì)于數(shù)據(jù)集中較暗的場(chǎng)景下拍攝的可見光圖像,人眼也難以區(qū)別圖像中是否存在行人,這會(huì)造成許多誤標(biāo)和漏標(biāo)的情況。為解決數(shù)據(jù)標(biāo)注成本問(wèn)題,Cao 等人(2019a)提出將訓(xùn)練好的可見光行人檢測(cè)器用于為跨模態(tài)行人數(shù)據(jù)集標(biāo)注邊界框,并將自動(dòng)標(biāo)注過(guò)后的跨模態(tài)數(shù)據(jù)用于跨模態(tài)行人檢測(cè)器中進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)無(wú)監(jiān)督的跨模態(tài)行人檢測(cè)而無(wú)需人工標(biāo)注跨模態(tài)行人數(shù)據(jù)。不同于Cao 等人(2019a)使用訓(xùn)練好的可見光檢測(cè)器,Guan 等人(2019b)使用訓(xùn)練好的跨模態(tài)檢測(cè)器,先在一種跨模態(tài)數(shù)據(jù)中學(xué)習(xí),再將檢測(cè)器遷移到另一種跨模態(tài)數(shù)據(jù)中,遷移的過(guò)程不需要人工的標(biāo)注。與上述僅使用可見光檢測(cè)器或使用跨模態(tài)行人檢測(cè)器不同,Lyu 等人(2021)首先將兩種檢測(cè)器分別在可見光和紅外數(shù)據(jù)集上進(jìn)行訓(xùn)練,其次利用訓(xùn)練好的兩種檢測(cè)器分別為跨模態(tài)行人數(shù)據(jù)集中的可見光和紅外圖像生成偽標(biāo)簽,最后為使生成的偽標(biāo)簽更加可靠,利用光照權(quán)重來(lái)確定兩種模態(tài)檢測(cè)器生成的偽標(biāo)簽在不同光照條件下的優(yōu)先級(jí)。以上工作都是以無(wú)監(jiān)督遷移學(xué)習(xí)的方法解決人工標(biāo)注耗時(shí)的問(wèn)題,Zhang 等人(2021b)提出使用弱監(jiān)督學(xué)習(xí)的方法解決此類問(wèn)題,即采用少量人工標(biāo)注的標(biāo)簽。首次將主動(dòng)學(xué)習(xí)策略應(yīng)用于跨模態(tài)行人檢測(cè)領(lǐng)域,首先,隨機(jī)挑選一部分樣本進(jìn)行人工標(biāo)注后作為輸入數(shù)據(jù)送入檢測(cè)器進(jìn)行訓(xùn)練;其次,檢測(cè)器利用兩個(gè)模態(tài)圖像間的互補(bǔ)性以選取有效的樣本;最后,將檢測(cè)器選取的有效的樣本進(jìn)行人工標(biāo)注,并將標(biāo)注好的樣本繼續(xù)送入檢測(cè)器訓(xùn)練。重復(fù)上述過(guò)程,直至當(dāng)前檢測(cè)器可以達(dá)到與全監(jiān)督的跨模態(tài)行人檢測(cè)器相同的性能后結(jié)束循環(huán)。
1.2.2 基于硬件成本問(wèn)題的研究
在監(jiān)控領(lǐng)域中,道路監(jiān)控大多是可見光監(jiān)控。若將原有道路監(jiān)控都替換為可見光—紅外一體監(jiān)控所需成本較昂貴,且獲取嚴(yán)格對(duì)齊的雙光譜圖像通常需要特殊校準(zhǔn)板對(duì)雙光譜圖像進(jìn)行校準(zhǔn),這意味著更高昂的成本。目前主流的方法嘗試采用已有的跨模態(tài)數(shù)據(jù)訓(xùn)練檢測(cè)器,而測(cè)試檢測(cè)器僅在單一模態(tài)上進(jìn)行。如果檢測(cè)器的表現(xiàn)可達(dá)到與可見光和紅外圖像數(shù)據(jù)共同測(cè)試的效果,跨模態(tài)行人檢測(cè)器就可利用現(xiàn)有的可見光或紅外攝像機(jī)而不用使用特定的可見光—紅外一體攝像機(jī),這將大幅節(jié)省成本并且不用考慮雙光譜數(shù)據(jù)的未對(duì)準(zhǔn)問(wèn)題。Xu 等人(2017)提出采用生成偽紅外的思想解決此類問(wèn)題。首先,第1 個(gè)網(wǎng)絡(luò)輸入為可見光圖像和紅外圖像,該網(wǎng)絡(luò)學(xué)習(xí)從可見光圖像到紅外圖像的非線性映射關(guān)系;然后,將第1 個(gè)網(wǎng)絡(luò)學(xué)習(xí)到的參數(shù)作為第2 個(gè)網(wǎng)絡(luò)中的第2 個(gè)分支的參數(shù)。第2 個(gè)網(wǎng)絡(luò)中的第1 個(gè)分支學(xué)習(xí)可見光圖像的特征,第2 個(gè)分支學(xué)習(xí)可見光圖像生成的偽紅外圖像的特征;最后,將兩個(gè)分支分別學(xué)習(xí)到的特征融合用于行人檢測(cè)。Kruthiventi等人(2017)采用教師—學(xué)生網(wǎng)絡(luò)結(jié)構(gòu)解決此類問(wèn)題。首先,教師網(wǎng)絡(luò)由來(lái)自于兩種模態(tài)的數(shù)據(jù)共同訓(xùn)練,學(xué)習(xí)來(lái)自于兩種模態(tài)的特征;然后,由訓(xùn)練好的教師網(wǎng)絡(luò)指導(dǎo)輸入僅為可見光圖像的學(xué)生網(wǎng)絡(luò),既學(xué)習(xí)可見光圖像特征,又學(xué)習(xí)可見光圖像中類似于熱圖像的特征。Liu 等人(2022)同樣采用教師—學(xué)生網(wǎng)絡(luò)結(jié)構(gòu),但不同于Kruthiventi 等人(2017)設(shè)計(jì)的教師網(wǎng)絡(luò)簡(jiǎn)單的將兩種模態(tài)進(jìn)行融合學(xué)習(xí),為更明確地探索兩種模態(tài)之間特有和共有的聯(lián)系,提出基于通道分離和融合的跨模態(tài)特征學(xué)習(xí)(crossmodal feature learning,CFL)模塊,同時(shí),為使學(xué)生網(wǎng)絡(luò)能更有效地從訓(xùn)練好的教師網(wǎng)絡(luò)中學(xué)習(xí)跨模態(tài)知識(shí),從特征、檢測(cè)和分割3 個(gè)角度設(shè)計(jì)不同的蒸餾損失項(xiàng)。以上研究都使用紅外與可見光圖像進(jìn)行訓(xùn)練,測(cè)試僅使用可見光圖像。Kim 等人(2022b)在以上研究的基礎(chǔ)上,構(gòu)建可分別使用可見光或紅外圖像測(cè)試的多功能行人檢測(cè)器,設(shè)計(jì)多傳感器匹配對(duì)比損失以引導(dǎo)網(wǎng)絡(luò)在不考慮輸入模態(tài)的情況下能產(chǎn)生相似地視覺(jué)表示,并設(shè)計(jì)多光譜回憶(multi spectral recalling,MSR)存儲(chǔ)器用于儲(chǔ)存兩種模態(tài)的視覺(jué)特征表示,根據(jù)輸入模態(tài)的特征與MSR 中的鍵相似度,從MSR 中取出對(duì)應(yīng)的值,同時(shí)設(shè)計(jì)多光譜回憶損失以引導(dǎo)MSR 有效記住兩個(gè)模態(tài)的上下文信息。然而,僅基于單一模態(tài)圖像測(cè)試的方法,與同時(shí)使用紅外與可見光數(shù)據(jù)測(cè)試的方法仍然存在較大差距。對(duì)于分辨率較高的紅外熱像儀,其與多架無(wú)人機(jī)結(jié)合使用,成本是無(wú)法估計(jì)的。相比于車載和監(jiān)控行人檢測(cè)領(lǐng)域嘗試使用單一模態(tài)通過(guò)某種變換代替雙模態(tài),機(jī)載行人檢測(cè)領(lǐng)域意圖使用分辨率較低的紅外熱像儀與可見光相機(jī)結(jié)合,并通過(guò)特定處理以達(dá)到與使用高分辨率紅外熱像儀相同的效果。de Oliveira 和Wehrmeister 等人(2016)將低成本的熱像儀圖像與用于分類任務(wù)的CNN 相結(jié)合,以檢測(cè)候選對(duì)象,需要的紅外圖像僅為227 × 227 像素。實(shí)驗(yàn)結(jié)果表明,低分辨率的熱圖像在大多數(shù)情況下可以產(chǎn)生較為準(zhǔn)確的行人候選框,并且能夠在一定程度上提升檢測(cè)器速度。在此研究基礎(chǔ)上,de Oliveira 和Wehrmeister 等人(2018)將Haar 級(jí)聯(lián)(基于Haar 特征的級(jí)聯(lián)分類器)、LBP(local binary pattern)級(jí)聯(lián)、HOG + SVM(support vector machine)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)4 種機(jī)器學(xué)習(xí)技術(shù)用于特征提取和分類,將顯著圖技術(shù)(saliency map,SM)和低分辨率熱圖像處理技術(shù)(thermal image processing,TIP)用于產(chǎn)生行人候選框,在8 種自由組合中,經(jīng)過(guò)實(shí)驗(yàn)證明,通過(guò)將CNN 與TIP結(jié)合,可以達(dá)到最好的行人檢測(cè)性能。Beleznai 等人(2018)認(rèn)為紅外圖像在周圍環(huán)境溫度較高時(shí)提供的行人輪廓并不清晰,而深度圖像中偶爾存在無(wú)效像素出現(xiàn)于無(wú)紋理區(qū)域。因此提出使用熱紅外和深度圖數(shù)據(jù)生成行人候選框,再通過(guò)兩個(gè)分別訓(xùn)練的基于CNN 的分類器評(píng)估生成的候選框,最后將保留較好的候選框?qū)ο?。?jīng)實(shí)驗(yàn)結(jié)果表明,以此互補(bǔ)方式快速生成行人候選框的方法能夠在有限的成本下提供較好的行人檢測(cè)結(jié)果。
1.2.3 基于實(shí)時(shí)檢測(cè)問(wèn)題的研究
自動(dòng)駕駛系統(tǒng)需要在檢測(cè)到行人后快速做出一系列反應(yīng)從而避免意外事故的發(fā)生,所以不論是一般的行人檢測(cè)領(lǐng)域還是跨模態(tài)行人檢測(cè)領(lǐng)域?qū)π腥藱z測(cè)器的速度都有較高的要求。雖然使用兩階段網(wǎng)絡(luò)的跨模態(tài)行人檢測(cè)器精度較高,但自動(dòng)駕駛系統(tǒng)不僅要有較高的精度同時(shí)也需要較快的檢測(cè)速度,所以目前對(duì)實(shí)時(shí)檢測(cè)問(wèn)題的研究都致力于采用單階段網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)跨模態(tài)行人檢測(cè)器,旨在保持較高的檢測(cè)速度條件下達(dá)到與兩階段檢測(cè)器相同或更高的精度。單階段檢測(cè)器省略生成候選區(qū)域的過(guò)程,將行人定位任務(wù)和分類任務(wù)在同一個(gè)網(wǎng)絡(luò)中完成,從而在速度上實(shí)現(xiàn)優(yōu)于兩級(jí)檢測(cè)器的性能。Vandersteegen 等人(2018)提出在不改變檢測(cè)速度較高 的YOLOV2(you only look once V2)(Redmon 和Farhadi,2017)網(wǎng)絡(luò)結(jié)構(gòu)下,直接將可見光圖像三通道中的某一個(gè)通道替換為紅外圖像的單通道,采用替換后的圖像作為YOLOV2檢測(cè)器的輸入。替換圖像通道的操作耗時(shí)可忽略不計(jì),基于此方法的跨模態(tài)行人檢測(cè)器可以達(dá)到與傳統(tǒng)可見光行人檢測(cè)器一樣的速度。Zheng 等人(2019)使用速度和精度都較好的SSD(Liu 等,2016b)網(wǎng)絡(luò)設(shè)計(jì)基于雙分支SSD的跨模態(tài)行人檢測(cè)網(wǎng)絡(luò)。實(shí)驗(yàn)證明,雙分支SSD 檢測(cè)網(wǎng)絡(luò)速度相比于兩階段檢測(cè)網(wǎng)絡(luò)速度有較大提升。之后,雙分支SSD 網(wǎng)絡(luò)結(jié)構(gòu)在許多研究中廣泛使用。比如Zhou 等人(2020)設(shè)計(jì)的MBNet(modality balance network),Zhang 等人(2020a)設(shè)計(jì)的CFR(cyclic fuse-and-refines)等。Cao 等人(2019b)發(fā)現(xiàn)同一檢測(cè)器處理低分率輸入圖像的速度相較于處理高分辨輸入圖像的速度會(huì)有較大提升。但使用邊界框定位行人的跨模態(tài)行人檢測(cè)器在對(duì)分辨率較低的輸入圖像檢測(cè)時(shí),很難產(chǎn)生分類為正樣本的邊界框。為在提高跨模態(tài)行人檢測(cè)器檢測(cè)速度的同時(shí)保證檢測(cè)精度,提出采用更適用于處理低分辨率輸入圖像的盒級(jí)分割技術(shù)定位行人,如圖7 所示。盒級(jí)分割技術(shù)可以分割出大致的行人輪廓,從而減少邊界框中的無(wú)效區(qū)域,增多正樣本的數(shù)量。本文認(rèn)為,以使檢測(cè)器可以有效處理低分辨輸入圖像為出發(fā)點(diǎn),提高檢測(cè)器的速度,該研究提供了解決實(shí)時(shí)檢測(cè)問(wèn)題的另一種思路。
圖7 盒級(jí)分割技術(shù)的可視化圖Fig.7 A visualization of the box-level segmentation technique
由于檢測(cè)耗時(shí)時(shí)間較長(zhǎng)將阻礙行人檢測(cè)方法在無(wú)人機(jī)系統(tǒng)上的應(yīng)用,為實(shí)現(xiàn)機(jī)載圖像中的人員快速識(shí)別,de Oliveira 和Wehrmeister 等人(2016)提出首先使用熱紅外圖像產(chǎn)生較為數(shù)量較少且較為準(zhǔn)確的候選框,以解決滑動(dòng)窗口方法產(chǎn)生行人候選框較多且耗時(shí)較長(zhǎng)的問(wèn)題,其次將生成的候選框映射到熱紅外圖像對(duì)應(yīng)的可見光圖像中,最后使用CNN 分類器對(duì)候選框進(jìn)行分類和回歸。采用熱圖像生成候選框,能夠減少搜索空間,在保證準(zhǔn)確率的同時(shí)具有可接受的計(jì)算性能。Golcarenarenji等人(2021)提出修改YOLOV3(Redmon 和Farhadi,2018)模型結(jié)構(gòu),使用擴(kuò)展卷積替換原始模型在自底向上路徑中的最后兩個(gè)池化層,以提高獲得的特征圖分辨率,從而獲得更多關(guān)于小目標(biāo)行人的信息,提高遠(yuǎn)距離小目標(biāo)行人檢測(cè)結(jié)果的精度。實(shí)驗(yàn)結(jié)果表明,其提出的模型與YOLOV3 模型檢測(cè)準(zhǔn)確率相當(dāng),但速度加倍。Shao 等人(2022)認(rèn)為模型龐大、內(nèi)存有限和計(jì)算能力有限3 種因素限制了空中行人檢測(cè)算法在無(wú)人機(jī)平臺(tái)上的部署,因此提出將網(wǎng)絡(luò)修剪算法與YOLOV3 檢測(cè)算法相結(jié)合,以獲得修剪后的YOLOV3 模型。實(shí)驗(yàn)結(jié)果表明,與原始的YOLOV3模型相比,修剪后的模型體積縮接近95.5%,計(jì)算量減少約2/3,而準(zhǔn)確率僅降低1.7%。
相比于單一模態(tài)的行人檢測(cè)數(shù)據(jù)集,跨模態(tài)行人檢測(cè)數(shù)據(jù)集由可見光—紅外圖像對(duì)組成,每一對(duì)圖像由可見光攝像機(jī)和紅外攝像機(jī)同時(shí)在同一地點(diǎn)分別拍攝的圖像組成。
OSU Color-Thermal(Davis 和Sharma,2007)數(shù)據(jù)集是在2007 年收集并發(fā)表的數(shù)據(jù)集。此數(shù)據(jù)集在大學(xué)校園中一個(gè)繁忙的十字路口拍攝,包含6 個(gè)序列,前3 個(gè)序列在同一地點(diǎn)拍攝,后3 個(gè)序列在另一地點(diǎn)拍攝,圖像中包含大量行人。數(shù)據(jù)集中圖像為白天場(chǎng)景下采集,紅外圖像的優(yōu)勢(shì)并不突出。
KAIST(Hwang 等,2015)數(shù)據(jù)集是目前跨模態(tài)行人檢測(cè)領(lǐng)域最受歡迎并且應(yīng)用最廣泛的數(shù)據(jù)集。該數(shù)據(jù)集由在校園、街道以及鄉(xiāng)下等各種常規(guī)交通場(chǎng)景中捕獲的全天可見光—紅外熱圖像對(duì)組成。共包括95 328幅圖像和1 182個(gè)行人,每幅圖像都由可見光圖像和紅外圖像對(duì)組成。包含person、people和cyclist 共3 個(gè)類別,比較容易區(qū)分的個(gè)體標(biāo)注為person,不易區(qū)分的個(gè)體標(biāo)注為people,騎行者標(biāo)注為cyclist。此外,根據(jù)行人遮擋情況,KAIST 數(shù)據(jù)集可分為3類,即無(wú)遮擋、部分遮擋(≤ 50%行人區(qū)域被遮擋)和嚴(yán)重遮擋(> 50%的行人區(qū)域被遮擋)。隨著KAIST 數(shù)據(jù)集的廣泛應(yīng)用,KAIST 數(shù)據(jù)集的修改提升版逐漸提出。Liu等人(2016a)提出消除錯(cuò)誤邊界框標(biāo)注后的提升版測(cè)試數(shù)據(jù)集。Li等人(2018)提出凈化版本的訓(xùn)練數(shù)據(jù)集,消除了原始訓(xùn)練數(shù)據(jù)集中的一些錯(cuò)誤注釋。Zhang等人(2019a)為解決可見光—熱圖像對(duì)之間的不對(duì)齊問(wèn)題,分別為每個(gè)模態(tài)重新標(biāo)記行人并建立聯(lián)系,提出了新的配對(duì)版KAIST數(shù)據(jù)集。
CVC-14(computer vision center-14)(González等,2016)數(shù)據(jù)集是由車載雙攝像機(jī)晝夜在各種場(chǎng)景下拍攝的,該數(shù)據(jù)集中的可見光圖像為灰度圖。根據(jù)拍攝時(shí)間段,該數(shù)據(jù)集可分成白天和夜晚兩個(gè)子序列。對(duì)于訓(xùn)練數(shù)據(jù)集,白天和夜間子序列分別包含3 695和3 390個(gè)可見光—紅外圖像對(duì)。對(duì)于測(cè)試數(shù)據(jù)集,白天和夜晚子序列分別包含706和727個(gè)可見光—紅外圖像對(duì)。如圖8 所示,可見光和紅外攝像機(jī)的視野和分辨率存在不一致問(wèn)題。紅外圖像分辨率為640 × 512 像素,可見光圖像分辨率為1 280 ×1 024像素??梢姽鈹z像機(jī)的視野更廣,拍攝到的范圍更大,可以捕捉位于車兩旁的行人。紅外攝像機(jī)的視野較小,主要集中于車的正前方,無(wú)法捕捉位于車兩旁的行人。因此,González 等人(2016)對(duì)兩種模態(tài)圖像都單獨(dú)提供注釋,使用CVC-14 的數(shù)據(jù)集時(shí),需要手動(dòng)進(jìn)行空間位置對(duì)齊和裁剪。
圖8 CVC-14數(shù)據(jù)集的相關(guān)圖像Fig.8 Related images of the CVC-14 dataset ((a)fixed position diagram of two cameras;(b)a pair of sample images)
Utokyo(University of Tokyo)(Takumi 等,2017)數(shù)據(jù)集包括7 512組圖像,其中白天圖像3 740組,夜晚圖像3 772組,由可見光、遠(yuǎn)紅外、中紅外和近紅外4 種攝像機(jī)在大學(xué)校園中拍攝,包含6 066 組圖像未對(duì)齊的訓(xùn)練圖像和1 466 組圖像對(duì)齊的測(cè)試圖像。目前使用UTokyo 數(shù)據(jù)集的跨模態(tài)行人檢測(cè)方法大都只使用對(duì)齊的測(cè)試集圖像。
FLIR(forward looking infrared radiometer)(F.A.Group,2018)數(shù)據(jù)集是由車載可見光和紅外相機(jī)捕獲,包含10 000個(gè)可見光—紅外圖像對(duì),只有紅外圖像經(jīng)過(guò)標(biāo)注。Zhang 等人(2020a)對(duì)FLIR 數(shù)據(jù)集進(jìn)行清洗,保留了FLIR 數(shù)據(jù)集中最常用的人、汽車、自行車3個(gè)類別,移除了未對(duì)齊的可見光—紅外圖像對(duì)。清洗后的FLIR訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集分別包含4 129和1 013個(gè)對(duì)齊的可見光—紅外圖像對(duì)。
LLVIP(low-light visible-infrared paired)(Jia 等,2021)數(shù)據(jù)集是在2021 年提出的基于弱光場(chǎng)景的可見光—紅外圖像對(duì)數(shù)據(jù)集,包含30 976 幅圖像(15 488 對(duì)),每幅圖像都包含行人。由于數(shù)據(jù)集的拍攝時(shí)間段在18時(shí)—22時(shí)之間,因此大部分圖像都處于較暗的場(chǎng)景。如圖9 所示,該數(shù)據(jù)集是由可見—紅外一體雙目攝像機(jī)所拍攝的,原始拍攝的圖像也存在視野和分辨率不同的問(wèn)題。但LLVIP數(shù)據(jù)集已經(jīng)過(guò)裁剪和校準(zhǔn)處理,因此數(shù)據(jù)集中的每個(gè)圖像對(duì)嚴(yán)格意義上在空間和時(shí)間都是對(duì)齊的。
圖9 LLVIP數(shù)據(jù)集的相關(guān)圖像Fig.9 Related images of the LLVIP dataset
本文對(duì)現(xiàn)有數(shù)據(jù)集在不同層面上進(jìn)行了詳細(xì)對(duì)比,如表1所示。
表1 跨模態(tài)行人檢測(cè)數(shù)據(jù)集對(duì)比Table 1 Comparison of datasets for cross-modal pedestrian detection
錯(cuò)誤的檢測(cè)結(jié)果可能會(huì)使控制決策系統(tǒng)發(fā)出錯(cuò)誤的信號(hào)。漏檢率(miss rate,MR)是跨模態(tài)行人檢測(cè)領(lǐng)域最常用評(píng)價(jià)指標(biāo)之一,計(jì)算為
式中,Ntp表示預(yù)測(cè)為正樣本且預(yù)測(cè)結(jié)果為正確的邊界框數(shù)量,Ng表示真實(shí)邊界框的數(shù)量。MR表示正樣本未被檢測(cè)到的概率,可表示為
式中,Nfn表示預(yù)測(cè)為負(fù)樣本但真實(shí)為正樣本的邊界框數(shù)量。
通過(guò)設(shè)定不同的置信度閾值,可以得到以每幅圖像的平均誤檢個(gè)數(shù)(false positives per image,F(xiàn)PPI)為X軸,MR為Y軸的FPPI 曲線。其 中,MR為固定FPPI 值對(duì)應(yīng)的最小MR。FPPI 計(jì)算為
式中,Nfp代表被預(yù)測(cè)為正樣本但預(yù)測(cè)結(jié)果錯(cuò)誤的邊界框數(shù)量,即誤檢或虛檢個(gè)數(shù)。Np代表總圖像的個(gè)數(shù)。
采用FPPI曲線,均勻選?。?0-2,100]范圍內(nèi)的9 個(gè)FPPI,得到對(duì)應(yīng)的9 個(gè)MR的值,則平均對(duì)數(shù)漏檢率MR-2為
為了驗(yàn)證本文提出的ASRS-UKF濾波算法的有效性,分別將ASRS-UKF算法、SR-UKF濾波算法以及STSR-UKF算法對(duì)上述軌跡進(jìn)行跟蹤濾波。
除跨模態(tài)行人檢測(cè)器模型的準(zhǔn)確度外,檢測(cè)器的速度(speed)也是一個(gè)重要的評(píng)價(jià)指標(biāo)。這里的速度指的是檢測(cè)器處理一個(gè)可見光—紅外圖像對(duì)所需要的時(shí)間。一般來(lái)說(shuō),參數(shù)越多,模型復(fù)雜度越高。所以,除使用推斷時(shí)間評(píng)估檢測(cè)器模型的速度外,模型參數(shù)數(shù)量是另一個(gè)較為有效的評(píng)估指標(biāo)。
以MR-2為評(píng)價(jià)指標(biāo)時(shí),MR-2值越低越好。為保證公平地比較,檢測(cè)器都使用KAIST 數(shù)據(jù)集中的原始訓(xùn)練集進(jìn)行訓(xùn)練,在Liu 等人(2016a)提出的提升版KAIST測(cè)試集進(jìn)行測(cè)試。
表2 為國(guó)內(nèi)外前沿方法以MR-2為指標(biāo)在KAIST數(shù)據(jù)集中的無(wú)遮擋、部分遮擋(行人身體部分 ≤ 50%被遮擋)和嚴(yán)重遮擋(行人身體部分 > 50%被遮擋)以及近距離(車與人距離 ≤ 11 m)、中等距離(車與人距離在11~28 m 之間)和遠(yuǎn)距離(車與人距離 ≥ 28 m)6 個(gè)測(cè)試數(shù)據(jù)集上的比較結(jié)果??梢钥闯觯珹R-CNN(area-region convolutional neural network)、MBNet 和BAANet(bi-directional adaptive attention network)解決了可見光—紅外圖像對(duì)之間的弱對(duì)齊問(wèn)題,并且采用較好的融合方式,在近距離的行人檢測(cè)任務(wù)上MR-2達(dá)到0.00%。CIAN、MBNet和BAANet 等3 種方法借鑒SSD 多尺度檢測(cè)的思想,將不同尺寸的特征圖的檢測(cè)結(jié)果融合,更有助于小目標(biāo)行人的檢測(cè),在KAIST 的遠(yuǎn)距離測(cè)試數(shù)據(jù)集上性能有較大提升。
表2 前沿方法在KAIST無(wú)遮擋、部分遮擋、嚴(yán)重遮擋以及近距離、中等距離、遠(yuǎn)距離測(cè)試數(shù)據(jù)集上的MR-2性能比較Table 2 Comparison of log-averaged miss-rate of the state-of-the-art methods on no-occlusion,partial-occlusion,heavy-occlusion,near-scale,medium-scale,and far-scale test sets of KAIST dataset/%
表3 為國(guó)內(nèi)外前沿方法以MR-2為指標(biāo)在CVC-14數(shù)據(jù)集中的全天、白天、黑夜3個(gè)測(cè)試數(shù)據(jù)集上的比較結(jié)果。由于CVC-14 數(shù)據(jù)集中圖像未對(duì)準(zhǔn)問(wèn)題較為嚴(yán)重,相比于KAIST數(shù)據(jù)集,跨模態(tài)行人檢測(cè)器在CVC-14數(shù)據(jù)集上性能表現(xiàn)較低。
表3 前沿方法在CVC-14全天、白天、黑夜測(cè)試數(shù)據(jù)集上的MR-2性能比較Table 3 Comparison of log-averaged miss-rate of the state-of-the-art methods on all,day,and night test sets of CVC-14 dataset/%
表4為19種先進(jìn)的跨模態(tài)行人檢測(cè)方法以MR-2為指標(biāo)在KAIST 數(shù)據(jù)集中的全天、白天、黑夜3 個(gè)測(cè)試數(shù)據(jù)集上,僅考慮在無(wú)遮擋或部分遮擋且身高像素大于50 像素的行人的比較結(jié)果。從表4 可以看出,每種方法對(duì)于夜間圖像和白天圖像的行人檢測(cè)結(jié)果都存在著一定的差異,有的方法對(duì)于白天圖像的檢測(cè)效果比較好,而有的方法相反。本文發(fā)現(xiàn),CMT-CNN(cross-modality transfer convolutional neural network)、Halfway Fusion、IAF R-CNN(illuminationaware faster region convolutional neural network)、IATDNN+ IASS(illumination-aware two-stream deep convolutional neutral networks + illumination-aware semantic segmentation)和MSDS-RCNN(multispectral simultaneous detection and segmentation-region convo-lutional neutral networks)等直接使用級(jí)聯(lián)方式融合紅外—可見模態(tài)的方法,不能充分利用紅外圖像在夜間場(chǎng)景下的優(yōu)勢(shì),因此相比于夜間圖像,對(duì)于白天場(chǎng)景下的行人檢測(cè)效果更好。而引入注意力機(jī)制的CIAN、GAFF、BAANet 方法以及引入差分融合模塊的MBNet方法,以自注意力、差分融合的方式調(diào)整紅外特征圖在特征融合過(guò)程中的權(quán)重,更充分地利用紅外圖像在夜間場(chǎng)景下的優(yōu)勢(shì),因此在夜間場(chǎng)景下行人檢測(cè)效果更好。IAF R-CNN 和IATDNN+IASS引入光照權(quán)重網(wǎng)絡(luò),根據(jù)光照條件自適應(yīng)的調(diào)整紅外—可見光圖像在融合過(guò)程中的權(quán)重,但由于權(quán)重只用于兩分支的檢測(cè)結(jié)果融合而未在特征融合過(guò)程中使用,所以MR-2并無(wú)明顯提升。雖然MSDS RCNN 并未引入光照權(quán)重,但是其MR-2提升至11.63%,這表明將語(yǔ)義分割和目標(biāo)檢測(cè)任務(wù)結(jié)合學(xué)習(xí)有助于提高檢測(cè)性能。
表4 前沿方法在KAIST全天、白天、夜間測(cè)試數(shù)據(jù)集上的MR-2性能比較Table 4 Comparison of log-averaged miss-rate of the state-of-the-art methods on all,day,and night test sets of KAIST dataset/%
表5以速度為指標(biāo)對(duì)國(guó)內(nèi)外方法在KAIST測(cè)試集上進(jìn)行比較,速度的值越低表示檢測(cè)器效率越高,但速度同時(shí)也取決于機(jī)器。如表5所示,由于CFR_3方法采用雙模態(tài)特征循環(huán)融合的思想而未引入其他模塊,模型所需要的參數(shù)量較小,因此相比于運(yùn)行在1080Ti的其他方法,速度較快?;趦呻A段檢測(cè)網(wǎng)絡(luò)的Halfway Fusion、Fusion RPN + BDT、IAF R-CNN、IATDNN + IASS等方法,雖然檢測(cè)精度上有較大提升,但速度較慢,不符合現(xiàn)實(shí)場(chǎng)景對(duì)于實(shí)時(shí)檢測(cè)的要求。
表5 前沿方法在KAIST數(shù)據(jù)集的速度比較Table 5 Comparison of speed of the state-of-the-art methods on KAIST dataset
盡管近年來(lái)提出了一系列基于深度神經(jīng)網(wǎng)絡(luò)的跨模態(tài)行人檢測(cè)方法并取得相對(duì)優(yōu)異的性能,對(duì)比Li 等人(2018 年)為KAIST 數(shù)據(jù)集創(chuàng)建的人眼檢測(cè)基線,檢測(cè)器的表現(xiàn)仍然與人眼檢測(cè)的表現(xiàn)存在較大差距,跨模態(tài)行人檢測(cè)仍然是一個(gè)需要深入研究的方向。本文對(duì)跨模態(tài)行人檢測(cè)領(lǐng)域尚未解決的問(wèn)題進(jìn)行討論,并提出對(duì)于未來(lái)可行方向的思考。
1)模態(tài)間數(shù)據(jù)未對(duì)準(zhǔn)問(wèn)題。如圖8和圖9所示,CVC-14 數(shù)據(jù)集采用的雙攝像機(jī)與LLVIP 數(shù)據(jù)集采用的雙目單攝像機(jī)都由于不同傳感器的視野和視角不同,造成可見光—紅外圖像在空間上的未對(duì)準(zhǔn)問(wèn)題。在現(xiàn)實(shí)生活中,設(shè)備老化或外界干擾等原因?qū)?dǎo)致兩傳感器拍攝不同步,造成可見光—紅外圖像在時(shí)間上的未對(duì)準(zhǔn)問(wèn)題。當(dāng)兩模態(tài)圖像間存在未對(duì)準(zhǔn)問(wèn)題時(shí),兩種模態(tài)圖像(包括其產(chǎn)生的特征圖)在同一空間位置所表示的行人信息不一致,從而產(chǎn)生錯(cuò)誤的信息干擾檢測(cè)器的優(yōu)化。所以,解決兩模態(tài)圖像未對(duì)準(zhǔn)問(wèn)題將是一個(gè)重要的研究方向,不僅可以促進(jìn)未對(duì)齊跨模態(tài)數(shù)據(jù)集(如CVC-14,F(xiàn)LIR 等)的使用,還可以促進(jìn)雙傳感器在現(xiàn)實(shí)生活中的應(yīng)用。
2)不同視角下的跨模態(tài)行人檢測(cè)問(wèn)題。目前對(duì)于跨模態(tài)行人檢測(cè)領(lǐng)域的研究大都基于車載數(shù)據(jù)集KAIST、CVC-14 和FLIR,對(duì)于監(jiān)控視角下的跨模態(tài)行人檢測(cè)研究比較缺少。車載數(shù)據(jù)集相較于監(jiān)控視角拍攝的數(shù)據(jù)集場(chǎng)景多變,可以有效防止檢測(cè)模型對(duì)某一特定環(huán)境過(guò)擬合。圖10 為KAIST 數(shù)據(jù)集和LLVIP 數(shù)據(jù)集的可見光圖像的對(duì)比。從圖10(a)可以看出,由于夜間車輛行駛時(shí)通常會(huì)開啟前照燈,相比于監(jiān)控視角數(shù)據(jù)集,車載數(shù)據(jù)集中的夜間圖像可能較為明亮。因此,如果同時(shí)將車載—道路監(jiān)控兩種視角攝像頭拍攝的數(shù)據(jù)集用于跨模態(tài)行人檢測(cè)器的訓(xùn)練,既可以增加模型在更暗場(chǎng)景下的魯棒性,又可以防止模型對(duì)某一場(chǎng)景過(guò)擬合。
圖10 KAIST數(shù)據(jù)集和LLVIP數(shù)據(jù)集的可見光圖像對(duì)比Fig.10 Comparison of a visible image between KAIST dataset and LLVIP dataset ((a)KAIST;(b)LLVIP)
3)機(jī)載場(chǎng)景下的跨模態(tài)行人檢測(cè)問(wèn)題。在過(guò)去幾年中,無(wú)人機(jī)在監(jiān)視、搜索、救援以及快遞等民用領(lǐng)域中的應(yīng)用不斷增加。針對(duì)大面積流行性疫情(如新冠疫情)造成的社會(huì)形式,Shao 等人(2021)提出使用無(wú)人機(jī)進(jìn)行行人之間社交距離檢測(cè)。首先檢測(cè)器通過(guò)實(shí)時(shí)人頭檢測(cè)以準(zhǔn)確定位行人,其次利用獲得的無(wú)人機(jī)圖像(垂直圖像和傾斜圖像)到真實(shí)世界坐標(biāo)的變換矩陣,計(jì)算出無(wú)人機(jī)圖像上行人之間的社交距離,以實(shí)現(xiàn)可靠的行人個(gè)體之間的社交距離監(jiān)控,既可以節(jié)省人力也可以保證行人之間的距離,但此研究?jī)H針對(duì)白天場(chǎng)景。本文認(rèn)為,若引入紅外模態(tài)輔助,可實(shí)現(xiàn)全天候的行人距離監(jiān)測(cè),將更具實(shí)用價(jià)值。表6 展示了目前先進(jìn)的無(wú)人機(jī)目標(biāo)檢測(cè)數(shù)據(jù)集的對(duì)比。目前機(jī)載場(chǎng)景下沒(méi)有公開的跨模態(tài)行人檢測(cè)數(shù)據(jù)集,近幾年關(guān)于跨模態(tài)行人檢測(cè)的研究(de Oliveira 和Wehrmeister,2016,2018;Beleznai等,2018;Wang 等,2022)都是基于私有的數(shù)據(jù)集。因此,提出機(jī)載場(chǎng)景下的跨模態(tài)行人數(shù)據(jù)集是具有較大貢獻(xiàn)價(jià)值的一項(xiàng)工作,且機(jī)載場(chǎng)景下的跨模態(tài)行人檢測(cè)研究具有非常重要的現(xiàn)實(shí)意義。
表6 目前先進(jìn)的無(wú)人機(jī)目標(biāo)檢測(cè)數(shù)據(jù)集對(duì)比Table 6 Comparison of the current state-of-the-art UAV object detection datasets
4)遮擋條件下的跨模態(tài)行人檢測(cè)問(wèn)題。根據(jù)Dollar 等人(2012)的調(diào)查,在實(shí)際應(yīng)用中,行人遮擋情況在繁華擁擠的街道、大型商場(chǎng)、機(jī)場(chǎng)等場(chǎng)景是很常見的,70%左右的行人都存在遮擋情況。從表2可以看出,目前跨模態(tài)行人檢測(cè)的研究大多關(guān)注于檢測(cè)部分遮擋或沒(méi)有遮擋情況下的行人,跨模態(tài)行人檢測(cè)器在嚴(yán)重遮擋情況下的表現(xiàn)并不理想。但Hwang 等人(2015)的實(shí)驗(yàn)表明,不論是在無(wú)遮擋、部分遮擋還是嚴(yán)重遮擋情況下,在可見光圖像沒(méi)有足夠信息識(shí)別遮擋的行人時(shí),紅外圖像由于可以提供清晰的輪廓而具有一定的輔助檢測(cè)作用。因此,結(jié)合紅外圖像和可見光圖像用于進(jìn)行遮擋條件下的行人檢測(cè)是未來(lái)值得關(guān)注的一個(gè)研究方向。
5)小目標(biāo)行人檢測(cè)問(wèn)題。對(duì)比于大目標(biāo)行人包含的豐富檢測(cè)信息,小目標(biāo)行人的外表和輪廓信息都較模糊,檢測(cè)器很難將小目標(biāo)行人對(duì)象與周圍環(huán)境區(qū)分開來(lái)。如表2 所示,即使最先進(jìn)的跨模態(tài)行人檢測(cè)方法對(duì)于檢測(cè)小目標(biāo)行人的效果仍不理想,跨模態(tài)行人檢測(cè)領(lǐng)域中對(duì)于小目標(biāo)行人檢測(cè)技術(shù)的研究仍然存在著很大空白。因此,將紅外圖像與可見光圖像結(jié)合起來(lái)進(jìn)行小目標(biāo)行人檢測(cè)也是未來(lái)值得關(guān)注的一個(gè)研究方向。
6)惡劣天氣條件下的行人檢測(cè)問(wèn)題。霧天由于霧的遮擋導(dǎo)致可見光圖像中行人能見度低,雨天由于攝像頭前的雨滴導(dǎo)致可見光圖像中的行人不可見。而在上述情況下,紅外圖像都能提供較為清晰的行人輪廓,所以本文提出應(yīng)將跨模態(tài)行人檢測(cè)器應(yīng)用于雨、霧等惡劣天氣條件。目前的跨模態(tài)行人檢測(cè)的數(shù)據(jù)集都是在良好天氣場(chǎng)景下拍攝的,目前先進(jìn)的跨模態(tài)行人檢測(cè)方法也僅適用于良好天氣下的全天行人檢測(cè)。要實(shí)現(xiàn)全天候的跨模態(tài)行人檢測(cè)系統(tǒng),僅關(guān)注良好天氣下的白天和黑夜數(shù)據(jù)是不夠的,也需要關(guān)注如霧天、雨天等惡劣天氣下的數(shù)據(jù)。因此,提出基于霧天、雨天等天氣下的多光譜行人數(shù)據(jù)集是有實(shí)際意義的,并且針對(duì)惡劣天氣下的跨模態(tài)行人檢測(cè)任務(wù)也是一個(gè)可行的方向。
7)實(shí)時(shí)行人檢測(cè)的問(wèn)題。自動(dòng)駕駛系統(tǒng)和機(jī)器人系統(tǒng)需要快速返回行人檢測(cè)結(jié)果,如表5 所示,大多跨模態(tài)行人檢測(cè)器在GPU(graphics processing unit)上處理一對(duì)輸入圖像耗時(shí)較短,但在實(shí)際應(yīng)用設(shè)備上跨模態(tài)行人檢測(cè)器在GPU 上處理一對(duì)輸入圖像的耗時(shí)并不理想。行人檢測(cè)系統(tǒng)的檢測(cè)錯(cuò)誤將導(dǎo)致控制決策模塊發(fā)出錯(cuò)誤的決策信號(hào),行人檢測(cè)系統(tǒng)檢測(cè)耗時(shí)長(zhǎng)將導(dǎo)致決策模塊發(fā)出的決策信號(hào)不及時(shí)。對(duì)于自動(dòng)駕駛系統(tǒng),錯(cuò)誤或者延遲的決策信號(hào)都極有可能導(dǎo)致汽車與行人的碰撞。因此,準(zhǔn)確高效的行人檢測(cè)算法對(duì)于保障行人安全具有非常重要的現(xiàn)實(shí)意義,實(shí)時(shí)檢測(cè)也將是跨模態(tài)行人檢測(cè)持續(xù)發(fā)展的方向之一,并應(yīng)同時(shí)保證行人檢測(cè)的精度。
本文首先回顧了基于背景建模和手工特征的跨模態(tài)行人檢測(cè)研究,并根據(jù)基于深度學(xué)習(xí)方法的跨模態(tài)行人檢測(cè)研究針對(duì)的問(wèn)題進(jìn)行仔細(xì)分類并逐一展開介紹。其次,本文總結(jié)了7 個(gè)可用的數(shù)據(jù)集和3 個(gè)常用于評(píng)估跨模態(tài)行人檢測(cè)器性能的評(píng)價(jià)指標(biāo)。根據(jù)7 個(gè)數(shù)據(jù)集的不同使用場(chǎng)景、拍攝時(shí)段等進(jìn)行比較說(shuō)明,并在不同的數(shù)據(jù)集上以不同的評(píng)價(jià)指標(biāo)對(duì)近幾年前沿的跨模態(tài)行人檢測(cè)方法進(jìn)行比較分析。最后,本文討論了目前跨模態(tài)行人檢測(cè)領(lǐng)域仍然存在的問(wèn)題并提出未來(lái)可行的研究方向。
盡管基于深度學(xué)習(xí)的跨模態(tài)行人檢測(cè)近些年來(lái)取得了巨大的研究進(jìn)展,但是相關(guān)技術(shù)仍然難以滿足需求,仍然需要深入研究。希望通過(guò)本文能夠使更多讀者了解當(dāng)前工作,進(jìn)而提出更有價(jià)值的跨模態(tài)行人檢測(cè)方法。