師后勤,謝 輝,張夢鈺,姜 凌,陳 瑞
(南京工程學(xué)院 信息與通信工程學(xué)院,江蘇 南京 211167)
行人檢測是計算機視覺研究中的熱門和難點之一,它與其他技術(shù)結(jié)合可實現(xiàn)行人跟蹤、行人重識別等更高級的應(yīng)用。檢測行人時除了要考慮行人的姿態(tài)和形狀、攝像頭的角度之外,還面臨著視野遮擋、光線等不確定因素的影響,使行人檢測具有挑戰(zhàn)性。也因為攝影環(huán)境和設(shè)備問題,總會產(chǎn)生一些較低質(zhì)量的圖片。比如清晰度降低、色彩失真、失焦/跑焦等問題。為了后期改善圖像處理的品質(zhì),設(shè)計高效的低照度增強算法十分必要。這些增強技術(shù)的使用范圍廣泛,且市場前景廣闊。比如,視頻監(jiān)測、行人偵測、汽車自動駕駛。針對低光照下圖像質(zhì)量差的問題,研究者提出了各種解決方法,如基于去霧算法的模型也被嘗試用于增強低光照圖像,還有一些基于Retinex理論的傳統(tǒng)方法在可控條件下具有較好的視覺效果,但應(yīng)用于實際場景時,受限的建模能力導(dǎo)致圖像噪聲和顏色失真?;谏鲜鰡栴},可基于分量增強,提升光照增強性能,同時融合注意力機制的光照魯棒目標跟蹤算法。
隨著科學(xué)技術(shù)的快速發(fā)展和社會生活的需要,目標檢測被各個領(lǐng)域所需要,其中行人檢測的需求在生活中占據(jù)很大比例[1]。如自動駕駛、視頻監(jiān)控等。依托科技的成熟,應(yīng)用場景的多元化,行人檢測技術(shù)被研究者不斷優(yōu)化,大致可分為三類:
(1)基于候選區(qū)域的two-stages方法,如faster RCNN;
(2)基于回歸的one-stage方法,如YOLO系列;
(3)基于深度可分離卷積的輕量級深度神經(jīng)網(wǎng)絡(luò),如MobileNet[2]。
本文采用YOLOv3進行行人檢測。YOLOv3[3]是基于回歸的目標檢測算法,圖像特征提取采用創(chuàng)建的深度殘差網(wǎng)絡(luò)DarkNet53,后采用區(qū)域推薦網(wǎng)絡(luò)中的錨點機制,并將多個尺度融合,結(jié)構(gòu)如圖1所示。
圖1 YOLOv3多尺度預(yù)測部分結(jié)構(gòu)
YOLOv3算法借鑒了YOLOv1和YOLOv2,雖然缺乏明顯的創(chuàng)新點,但在保留YOLO家族[4-6]速度優(yōu)勢的同時,提高了檢測準確度,特別是對小物體的檢測能力。YOLOv3算法使用一個單獨神經(jīng)網(wǎng)絡(luò)作用在圖像上,將圖像劃分為多個區(qū)域并且預(yù)測邊界框和每個區(qū)域的概率。YOLOv3算法避免了細小問題的漏檢,故本文基于該算法進行改進。
低光照圖像是指在光照度低、光線不理想環(huán)境下獲得的圖像。低光照環(huán)境下的目標存在可見度低、信噪比低、色彩缺失等問題,導(dǎo)致圖像在現(xiàn)有目標檢測技術(shù)之下出錯率高,甚至無法檢測目標。此時,基于圖像信息傳達的高層計算機視覺任務(wù)失效,如行人檢測、人臉識別、視頻監(jiān)控和醫(yī)療圖像處理等。提高低光照環(huán)境下的圖像識別精度可以采用一些物理方法,例如:購買高清攝像機或延長圖像拍攝曝光時間等物理方法。但采用物理方法會大大增加目標檢測成本,嚴重的話還會導(dǎo)致采集的目標圖像出現(xiàn)過曝光或重影現(xiàn)象。因此,低光照圖像增強即基于軟件方法提升采集的低照度圖片質(zhì)量,恢復(fù)圖像隱含信息內(nèi)容的表達,已成為計算機底層視覺研究領(lǐng)域的重要研究內(nèi)容。
對于低光照圖像增強,各領(lǐng)域的研究者提出了有效的解決方法。其中最典型的是伽馬變換及LLNet算法,但此算法缺少對像素間關(guān)系的思考,處理過后的圖像容易出現(xiàn)曝光過少或過多的現(xiàn)象。因此出現(xiàn)了Retinex模型[7],這是受人類視覺注意力啟發(fā)而出現(xiàn)的物理模型,用Retinex網(wǎng)絡(luò)進行圖像增強,提高圖像的識別度。該算法簡單易行,處理圖片的速度快,精確度高,能有效提高目標檢測的正確率,被廣泛應(yīng)用于目標檢測領(lǐng)域。
如前所述,YOLOv3目前還存在一些問題,例如anchor機制中的超參比較難設(shè)計,以及冗余框非常多。為了提高檢測率,本文將注意力機制引入YOLOv3檢測框架,再結(jié)合低光照圖像增強方法,對行人目標進行檢測,提高檢測算法的光照魯棒性。算法的總體框架如圖2所示。
圖2 算法框架
Retinex是研究者通過模仿人類視覺系統(tǒng)而發(fā)明的一種算法,Retinex已從單尺度算法發(fā)展到現(xiàn)在的多尺度算法[8-9]。Retinex理論的基本假設(shè)是初始圖像G是光照圖像H和反射率圖像J的乘積,可表示為如下形式:
Retinex理論在彩色畫面強化、圖像去霧、彩色圖像還原等方面都具有很好的有效性,其基本內(nèi)涵就是物質(zhì)的色彩是由物質(zhì)對長波(紅)、中波(綠)和短波(藍)光的反映能力決定的,而并非由反射光強的絕對值決定。文中使用的RetinexNet模型由一個分解網(wǎng)絡(luò)和一個增強網(wǎng)絡(luò)構(gòu)成,分解網(wǎng)絡(luò)用于分解圖像,而增強網(wǎng)絡(luò)則用于調(diào)節(jié)光照條件,如圖3所示。
圖3 Retinex理論整體模型
圖3中,圖像的光照分量和反射分量會通過分解網(wǎng)絡(luò)分開,經(jīng)過回歸模型后,增強網(wǎng)絡(luò)會對其進行增強,最后再對分解后的分量做乘積便能得到一個新的增強后圖像,即輸出圖像。這種方法只對我們需要的參數(shù)進行訓(xùn)練。在對圖像進行分解后,利用增強網(wǎng)絡(luò)對圖像的亮度進行增強,最后結(jié)合去噪方法對圖像去噪。
輸入圖像進行低光照圖像增強之后,進入YOLOv3網(wǎng)絡(luò)進行行人檢測。本文將YOLOv3的主干網(wǎng)絡(luò)替換為GhostNet,保留多尺度預(yù)測部分,減少深度網(wǎng)絡(luò)模型參數(shù)和計算量以加快檢測速度。然后,采用SE(Squeeze and Excitation)注意力機制模塊,賦予重要特征更高的權(quán)值以提高檢測跟蹤的精確度,并引用目標檢測的直接評價指數(shù)GIoU來指示回歸任務(wù)。最后,用基于GhostNet的目標檢測算法進行行人檢測。
GhostNet結(jié)合了線性運算和普通卷積,將已得到的普通卷積特征圖形進行線性變換可以得到相似的特征圖形,進而產(chǎn)生高維卷積效果,從而降低建模參數(shù)和計算量。融合了卷積算法與線性計算的模型稱為Ghost模塊,如圖4所示。圖中,Y表示通過卷積生成的固有特征圖,Y'表示通過線性運算生成的冗余特征圖。
圖4 Ghost模塊原理
對于任意卷積層生成n個特征圖Y0∈ Rp'×w'×n的操作可以表示為:
式中:X為輸入數(shù)據(jù),X∈Rz×p×w;f∈Rc×k×k×n為該層的卷積核;*表示卷積操作;b為偏置項。卷積過程所需要的浮點數(shù)為n·p'·w'·c·k·k。原輸出的特征為某些內(nèi)在特征且通常數(shù)量都很少,可以通過一個普通卷積操作生成,即:
式中:Y∈Rp'×w'×m為普通卷積輸出;f'∈Rz×k×k×m為使用的卷積核。由于m≤n,將偏置項簡化?,F(xiàn)在需要得到n維特征圖,對得到只有m維的固有特征圖進行一系列簡單線性變換:
式中:yq'為固有特征圖中的第q個特征圖;Φqp為第q個特征圖進行的第p個線性變換的線性變換函數(shù)。最后,增加1個恒等映射Φqs將固有特征圖疊加到經(jīng)線性變換得到的特征圖上,以保留固有特征圖。
本文算法使用Pytorch框架實現(xiàn),在低光照數(shù)據(jù)集ExDark和VOC2012數(shù)據(jù)集上進行訓(xùn)練。硬件平臺為Inter(R)Core i5-9300CPU,運行內(nèi)存為8 GB,GPU為NVIDIA GeForce GTX 1650。
本文在YOLOv3以及卡爾曼濾波目標檢測跟蹤算法的基礎(chǔ)上,加入注意力機制研究復(fù)雜環(huán)境下的行人跌倒檢測算法和Retinex,提高算法對遮擋物影響、光照變化和陰影干擾等問題的魯棒性,減少誤判,提高檢測的準確度。在ExDark數(shù)據(jù)集上的檢測效果如圖5所示。
圖5 圖像增強前后檢測效果
在圖5(a)圖像中,由于光線不足導(dǎo)致圖像昏暗,傳統(tǒng)的YOLOv3算法無法檢測出路面上的行人。經(jīng)過圖像增強之后得到圖5(b)所示4張圖片,這4張圖像的特征明顯,容易辨識出行人。因此能實現(xiàn)低光照環(huán)境下的行人檢測。
此外,本文的算法在檢測準確率上相比YOLOv3更高,實驗結(jié)果比較見表1所列。
表1 實驗結(jié)果比較
本文針對低光照環(huán)境下的行人檢測錯誤率高且速度慢的問題,提出了基于注意力機制的低光照目標檢測算法。將YOLOv3的主干網(wǎng)絡(luò)加上基于Retinex視覺模型的低光照圖像增強算法,構(gòu)建融合注意力機制的行人檢測,以期提高低光照環(huán)境下行人檢測的準確率,解決YOLOv3在低光照下錯誤率高甚至無法檢測目標的問題。實驗結(jié)果表明,改進算法可以實現(xiàn)低光照環(huán)境下的行人檢測,能夠有效處理光照不足等復(fù)雜環(huán)境下行人檢測時圖像黑暗等問題,提高了檢測的準確度,并且在現(xiàn)實中具有很強的實用性。