朱達(dá)榮,王端標(biāo),汪方斌,龔 雪,楊 崗,嚴(yán)瑞陽
(1.安徽建筑大學(xué)機(jī)械與電氣工程學(xué)院,安徽 合肥 230601;2.安徽建筑大學(xué)建筑機(jī)械故障診斷與預(yù)警重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230601;3.安徽建筑大學(xué)工程機(jī)械智能制造重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230601)
隨著深度學(xué)習(xí)的快速發(fā)展,目標(biāo)檢測取得巨大突破,被廣泛應(yīng)用于醫(yī)療檢測[1]、人臉檢測[2]、行人檢測[3]、缺陷檢測[4]等。目標(biāo)檢測性能好壞與目標(biāo)尺度密切相關(guān),在目前公開數(shù)據(jù)集中,小目標(biāo)檢測存在誤檢和漏檢且檢測精度較低的情況[5]。而小目標(biāo)檢測在實(shí)際場景中具有重要的應(yīng)用,例如,在自動駕駛中,當(dāng)行人或者交通信號等目標(biāo)較小時(shí),自動駕駛車輛需要快速準(zhǔn)確地識別此類目標(biāo);在遙感圖像分析中,需對船舶、汽車等目標(biāo)進(jìn)行檢測[6],但由于這些目標(biāo)尺度過小造成檢測精度不高;在工業(yè)自動檢測中,需檢測出整個(gè)物料表面上小的缺陷[7]。因此,如何有效提高小目標(biāo)檢測性能,是當(dāng)前目標(biāo)檢測領(lǐng)域非常重要的研究課題。
通常對小目標(biāo)的定義有兩種:1)目標(biāo)所占像素點(diǎn)數(shù)占總像素點(diǎn)數(shù)的比例小于0.12%;2)根據(jù)具體的數(shù)據(jù)集進(jìn)行定義,如在COCO數(shù)據(jù)集中,將尺寸小于32×32像素的目標(biāo)稱為小目標(biāo)。近年來,國內(nèi)外學(xué)者針對小目標(biāo)檢測方法進(jìn)行了深入研究。唐聰?shù)萚8]提出多視窗SSD(Single Shot multibox Detector)模型,解決了傳統(tǒng)SSD在小目標(biāo)檢測上的不足。TAKEKI等[9]將深度檢測器與語義分割結(jié)合,并通過支持向量機(jī)將結(jié)果集成,解決了不同尺度下的目標(biāo)檢測問題。LIM等[10]連接多尺度特征并引入坐標(biāo)注意力機(jī)制,提高了對小目標(biāo)檢測的準(zhǔn)確性。
以上研究均是將可見光圖像作為輸入圖像,但可見光波段下的目標(biāo)檢測受外界環(huán)境因素影響很大,如光照條件、天氣狀況、空氣質(zhì)量等,這些外界環(huán)境因素直接影響目標(biāo)檢測識別率。而偏振成像受環(huán)境影響較小,同時(shí)偏振圖像能獲取目標(biāo)的偏振矢量信息,目標(biāo)與背景對比度高,增強(qiáng)圖像中目標(biāo)的清晰度,因此引入偏振成像技術(shù)。目前偏振探測技術(shù)應(yīng)用到諸多領(lǐng)域,驗(yàn)證了目標(biāo)檢測中引入偏振探測技術(shù)的可行性。宮劍等[11]提出一種紅外偏振圖像的艦船目標(biāo)檢測方法,解決海上環(huán)境惡劣時(shí)艦船與背景對比度低導(dǎo)致紅外探測準(zhǔn)確率不高等問題。薛模根等[12]利用偏振信息抑制豐富的背景分量,能有效檢測荒漠背景下弱小目標(biāo)。
目前目標(biāo)檢測方法分為以R-CNN(Region-based CNN)系列為代表的基于候選框的兩階段目標(biāo)檢測算法和以YOLO(You Only Look Once)系列為代表的單階段目標(biāo)檢測算法。而YOLOv5具有檢測精度高、速度快等特點(diǎn),因此本文在標(biāo)準(zhǔn)YOLOv5算法的基礎(chǔ)上,將改進(jìn)算法應(yīng)用在光伏組件表面落葉數(shù)據(jù)集中,實(shí)驗(yàn)和測試的結(jié)果驗(yàn)證了本文改進(jìn)算法的有效性。
YOLO是第一個(gè)將卷積神經(jīng)網(wǎng)絡(luò)識別思想擴(kuò)展到目標(biāo)檢測的算法,將輸入圖像通過Backbone提取特征后,從整個(gè)連接層映射到一個(gè)維度張量。YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)由輸入端、Backbone、Neck、Prediction四部分構(gòu)成,如圖1所示。
圖1 YOLOv5算法結(jié)構(gòu)
輸入端通過Mosaic數(shù)據(jù)增強(qiáng)、圖片自適應(yīng)縮放等操作對輸入圖像進(jìn)行處理,Backbone用CSPDarkNet53網(wǎng)絡(luò)提取圖像中的特征信息。Neck將特征金字塔網(wǎng)絡(luò)和路徑聚集網(wǎng)絡(luò)結(jié)合,對不同尺度的特征信息進(jìn)行融合。Prediction對Neck輸出的特征圖進(jìn)行預(yù)測。
本文在YOLOv5網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),在輸入端輸入偏振度圖像,提高目標(biāo)與背景對比度;減少C3模塊數(shù)量,保留圖像中高頻信息的同時(shí)提取更多的淺層特征信息;主干網(wǎng)絡(luò)中加入坐標(biāo)注意力機(jī)制,增大目標(biāo)物體的特征信息的權(quán)重,抑制無關(guān)信息;優(yōu)化邊界框回歸損失函數(shù),解決訓(xùn)練過程中梯度消失等問題。下面分別從輸入端偏振度圖像、特征提取網(wǎng)絡(luò)、坐標(biāo)注意力機(jī)制、損失函數(shù)四個(gè)方面進(jìn)行詳細(xì)介紹。
采用斯托克斯(Stokes)矢量描述光的偏振信息,假設(shè)進(jìn)入SALSA相機(jī)的光學(xué)信號的Stokes矢量為
(1)
其中,S0表示光的總強(qiáng)度,S1表示水平方向線偏振光的強(qiáng)度,S2表示對角方向線偏振光的強(qiáng)度,S3表示圓偏振光的強(qiáng)度,一般情況下圓偏振分量極少,可以忽略。I0、I45、I90、I135表示光通過方向角度分別為0°、45°、90°、135°的偏振片的強(qiáng)度。
偏振度P為
(2)
由圖2可知,由于光伏組件是人造目標(biāo),表面較為光滑,而落葉是自然目標(biāo),二者具有不同的偏振特性,故在偏振度圖像中二者亮度差異明顯。對比四幅圖可知,偏振度圖像能提高目標(biāo)與背景的對比度,增強(qiáng)目標(biāo)的邊緣輪廓。
(a)S0
(b)S1
(c)S2
(d)DOP
偏振度圖像中目標(biāo)與背景對比度高,目標(biāo)邊緣輪廓清晰,邊緣輪廓中含有大量的高頻信息,而在標(biāo)準(zhǔn)YOLOv5主干網(wǎng)絡(luò)中,大量的卷積操作(圖3)會使這些特征信息丟失,無法準(zhǔn)確檢測小目標(biāo)物體。因此本文簡化特征提取網(wǎng)絡(luò),減少C3模塊數(shù)量,如表1所示,保留高頻信息的同時(shí)獲得更多的淺層特征信息,同時(shí)減少模型的部署成本。
圖3 C3模塊
如圖4所示,坐標(biāo)注意力機(jī)制是分別在水平方向和垂直方向上進(jìn)行平均池化,再對空間信息編碼,最后把空間信息通過在通道上加權(quán)的方式融合。坐標(biāo)注意力機(jī)制能改變圖像中不同物體的權(quán)重,在偏振度圖像中目標(biāo)特性差異明顯,可以采用坐標(biāo)注意力機(jī)制加大利于檢測的特征信息的權(quán)重,減小無關(guān)信息的權(quán)重,聚焦目標(biāo)物體。
圖4 CA結(jié)構(gòu)
如圖5所示,在標(biāo)準(zhǔn)YOLOv5網(wǎng)絡(luò)輸出特征圖中落葉與背景光伏組件不易區(qū)分,對比(b)(c)兩圖,在加入坐標(biāo)注意力機(jī)制后,落葉權(quán)重被增大而背景光伏組件權(quán)重被減小,因此落葉更為清晰,邊緣輪廓信息也得到增強(qiáng),且增強(qiáng)了輸入偏振度圖像的特性。
(a)輸入圖像
(b)標(biāo)準(zhǔn)YOLOv5
(c)加入CA
本文針對主干網(wǎng)絡(luò)改進(jìn)后的網(wǎng)絡(luò)參數(shù)如表1所示,改進(jìn)后的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
表1 改進(jìn)后的CSPDarkNet53網(wǎng)絡(luò)參數(shù)
圖6 改進(jìn)后網(wǎng)絡(luò)
在標(biāo)準(zhǔn)YOLOv5模型中使用GIOU Loss作為邊界框回歸損失函數(shù),但GIOU Loss無法解決預(yù)測框在目標(biāo)框內(nèi)部且預(yù)測框大小相同的情況,GIOU Loss無法區(qū)分各預(yù)測框之間的位置關(guān)系。本文采用完全交并比損失函數(shù)(complete intersection over union loss,CIOU Loss)作為邊界框回歸損失函數(shù),如式(3)所示。
(3)
(4)
(5)
(6)
其中,α是一個(gè)平衡參數(shù),不參與梯度計(jì)算;v是衡量長寬比一致性的參數(shù);I表示交并比;A和B分別是預(yù)測框和真實(shí)框;CIOU Loss中考慮了邊界框中心點(diǎn)的距離信息與邊界框?qū)捀弑鹊某叨刃畔?直接度量兩個(gè)框的距離,使邊界回歸結(jié)果更好。
以光伏組件表面落葉為研究對象進(jìn)行識別,由于復(fù)雜自然環(huán)境的影響,光伏組件表面落葉分布稀疏程度不同,易出現(xiàn)漏檢、誤檢,且落葉占整幅圖像的比例小于10%,可認(rèn)為其是小目標(biāo)。
CPU配置為Intel?CoreTMi5-1035G1 CP @1.00 GHz,16 GB運(yùn)行內(nèi)存,操作系統(tǒng)Windows10,64位。Pytorch版本為1.7,Python語言環(huán)境為3.9。落葉數(shù)據(jù)集按照7∶3比例隨機(jī)劃分為訓(xùn)練集和測試集,圖片分別為308張和130張。批訓(xùn)練數(shù)據(jù)量為16,學(xué)習(xí)率為0.01,模型迭代150次,優(yōu)化函數(shù)采用隨機(jī)梯度下降(stochastic gradient descent,SGD)對模型進(jìn)行訓(xùn)練。
選用分時(shí)型偏振成像系統(tǒng)采集光伏組件表面落葉偏振度圖像,如圖7所示,通過在成像探測器前加可旋轉(zhuǎn)偏振片獲取不同時(shí)刻、不同方向的偏振光強(qiáng)圖像。整個(gè)系統(tǒng)主要由三部分組成:SALSA液晶偏振相機(jī)、鏡頭(SAMYANG AF35mm F1.4-22C)、帶偏振圖像采集軟件的筆記本電腦。
圖7 實(shí)驗(yàn)平臺
實(shí)驗(yàn)圖片采集于晴天上午8點(diǎn)至10點(diǎn)、中午11點(diǎn)至13點(diǎn)以及14點(diǎn)至16點(diǎn)三個(gè)固定時(shí)間段(每時(shí)間段為2小時(shí))進(jìn)行,每天拍攝約100張圖片,拍攝總天數(shù)為5天。光伏組件與地面傾角為60°,采取多個(gè)觀測角度、不同成像距離進(jìn)行拍攝。數(shù)據(jù)集的部分樣本如圖8所示。將采集到的圖片使用標(biāo)記軟件對其中落葉進(jìn)行標(biāo)注,并將標(biāo)注信息轉(zhuǎn)成txt形式導(dǎo)出。
(a)
(b)
(c)
數(shù)據(jù)集落葉分布情況如圖9所示,其中,圖9(a)表示落葉中心點(diǎn)在圖片中的位置坐標(biāo)分布情況,圖9(b)表示落葉目標(biāo)框的長和寬分別占圖片長和寬的比例。由圖9可知,數(shù)據(jù)集中落葉大小不一,小目標(biāo)落葉數(shù)量較多,落葉較為均勻地分布在圖片各個(gè)位置。
(a)落葉位置分布
(b)落葉目標(biāo)框長寬分布
使用準(zhǔn)確率(precision)、召回率(recall)、平均精度均值(mean average precision)等評價(jià)指標(biāo)評估算法的性能。準(zhǔn)確率VP表示被預(yù)測為正的樣本中實(shí)際為正樣本的概率,見式(7),其中TP代表真正例,FP代表假正例。召回率VR表示正的樣本中被預(yù)測為正樣本的概率,見式(8),其中FN代表假反例。平均精度均值VmAP是數(shù)據(jù)集中所有類別的平均精度的均值,見式(9)。
(7)
(8)
(9)
訓(xùn)練過程中標(biāo)準(zhǔn)YOLOv5算法和本文改進(jìn)算法的邊框回歸損失和置信度損失對比曲線見圖10,其橫坐標(biāo)為訓(xùn)練次數(shù),縱坐標(biāo)為Loss值。從圖10(a)可看出,改進(jìn)YOLOv5算法比標(biāo)準(zhǔn)YOLOv5算法收斂速度更快。從圖10(b)可看出,在25次迭代后改進(jìn)YOLOv5算法的損失值小于標(biāo)準(zhǔn)YOLOv5算法的損失值??梢?改進(jìn)YOLOv5算法最終的損失值要小于標(biāo)準(zhǔn)YOLOv5算法的損失值。
(a)邊框回歸損失
(b)置信度損失
消融實(shí)驗(yàn)結(jié)果如表2所示,以YOLOv5為標(biāo)準(zhǔn)算法增加改進(jìn)點(diǎn),其中改進(jìn)點(diǎn)1是減少主干網(wǎng)絡(luò)C3模塊的數(shù)量,改進(jìn)點(diǎn)2是加入坐標(biāo)注意力機(jī)制,改進(jìn)點(diǎn)3是優(yōu)化邊框回歸損失函數(shù)。
表2 消融實(shí)驗(yàn)結(jié)果
由表2可知,在標(biāo)準(zhǔn)YOLOv5算法的基礎(chǔ)上進(jìn)行改進(jìn),得到的優(yōu)化算法在準(zhǔn)確率、召回率和平均精度均值上都有不同程度的提升。將改進(jìn)點(diǎn)同時(shí)作用到標(biāo)準(zhǔn)YOLOv5算法時(shí),準(zhǔn)確率提升了0.59%,召回率提升了1.93%,平均精度均值提升了0.36%。實(shí)驗(yàn)結(jié)果表明,改進(jìn)點(diǎn)1、改進(jìn)點(diǎn)2、改進(jìn)點(diǎn)3的共同優(yōu)化使得YOLOv5算法能更加準(zhǔn)確地定位和識別落葉,整體提高落葉的檢測性能。
從測試機(jī)中隨機(jī)選擇圖片進(jìn)行測試,檢測結(jié)果如圖11所示。其中圖11(a)表示標(biāo)準(zhǔn)YOLOv5算法檢測結(jié)果,圖11(b)至(d)分別表示改進(jìn)點(diǎn)1、改進(jìn)點(diǎn)2、改進(jìn)點(diǎn)3的檢測結(jié)果,圖11(e)表示完全改進(jìn)后算法檢測結(jié)果。對比可以看出,標(biāo)準(zhǔn)YOLOv5算法檢測存在不少漏檢的情況,改進(jìn)點(diǎn)2、改進(jìn)點(diǎn)3能較好地解決部分漏檢,但當(dāng)落葉在光伏組件邊框附近時(shí)仍無法被準(zhǔn)確檢測出來,而改進(jìn)點(diǎn)1能較好地檢測到位于光伏組件邊框附近的落葉,完全改進(jìn)后算法檢測結(jié)果的整體置信度和效果均要高于標(biāo)準(zhǔn)YOLOv5算法。
中間特征圖比較結(jié)果見圖12,對比圖12(c)(e)和(d)(f)可以看出,減少C3模塊數(shù)量后特征圖中落葉的邊緣輪廓更加清晰,保留了輸入圖像中較多的高頻信息提取了更多的淺層信息;加入坐標(biāo)注意力機(jī)制后抑制背景等無關(guān)信息,特征圖中落葉與背景光伏組件的對比度得到提高,因此完全改進(jìn)后算法落葉檢測的置信度高于標(biāo)準(zhǔn)YOLOv5算法。
(a)輸入圖像
(b)標(biāo)注圖
(c)原算法P/2特征圖
(d)改進(jìn)后算法P/2特征圖
(e)原算法P/4特征圖
(f)改進(jìn)后算法P/4特征圖
(g)原算法P/8特征圖
(h)改進(jìn)后算法P/8特征圖
(i)原算法P/16特征圖
(j)改進(jìn)后算法P/16特征圖
(k)原算法P/32特征圖
(l)改進(jìn)后算法P/32特征圖
本文在標(biāo)準(zhǔn)YOLOv5的基礎(chǔ)上,分別從輸入端偏振度圖像、特征提取網(wǎng)絡(luò)、坐標(biāo)注意力機(jī)制、損失函數(shù)四個(gè)方面進(jìn)行改進(jìn),有效地增強(qiáng)了YOLOv5網(wǎng)絡(luò)模型對小目標(biāo)物體的檢測精度。運(yùn)用改進(jìn)后算法在自建數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,在準(zhǔn)確率、召回率、平均精度均值上分別提升了0.59%、1.93%、0.36%。