李天千 陳志鑫 黃桂鑫 溫森榮 黃思琪
摘? 要:為提高垃圾分類效率,應(yīng)對日益繁雜的垃圾分類工作,使垃圾分類智能化,高效化。運用卷積神經(jīng)網(wǎng)絡(luò)解決垃圾分類問題,對YOLOv3基礎(chǔ)算法進(jìn)行研究改進(jìn),并制作垃圾種類數(shù)據(jù)集,結(jié)合參數(shù)遷移學(xué)習(xí)訓(xùn)練垃圾分類識別模型。實驗表明樣本多的種類識別準(zhǔn)確率較高,而對于樣本少的種類,準(zhǔn)確率就下降了。相較于現(xiàn)有常用的垃圾分類識別算法,所提出的垃圾分類識別算法,識別性能更優(yōu),更適合廣泛推廣應(yīng)用。
關(guān)鍵詞:垃圾檢測;數(shù)據(jù)集制作;YOLOv3算法
中圖分類號:TP181? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2021)17-0092-04
Abstract: In order to improve the efficiency of garbage classification, deal with the increasingly complicated garbage classification work, and make garbage classification intelligent and efficient. Use convolutional neural network to solve the garbage classification problem, research and improve the basic algorithm of YOLOv3, and make a garbage type data set, combined with parameter transfer learning to train the garbage classification and recognition model. Experiments show that the recognition accuracy of the types with a large number of samples is higher, while for the types with a small number of samples, the accuracy is reduced. Compared with the existing commonly used garbage classification and recognition algorithms, the proposed garbage classification and recognition algorithm has better recognition performance and is more suitable for wide promotion and application.
Keywords: garbage detection; data set production; YOLOv3 algorithm
0? 引? 言
垃圾分類是推動我國新型城鎮(zhèn)生態(tài)文明水平提高的一大重要舉措。黨的十九屆五中全會擘畫了黨和國家未來五年乃至更長時期各項事業(yè)發(fā)展的宏偉藍(lán)圖,明確了發(fā)展的目標(biāo)和路徑,其中對垃圾分類問題提出了新的要求,表現(xiàn)垃圾處理正處于一個新的臺階,2021年是“十四五”開局之年,針對垃圾類問題如何再有新突破,是我們共同面對的社會性問題。對此,垃圾分類重在按一定規(guī)定或標(biāo)準(zhǔn),將垃圾分類儲存、投放和搬運,使其變?yōu)橐环N公共資源的做法,而人們在處理生活垃圾分類時對垃圾類型問題處理不當(dāng),將會導(dǎo)致分類處理垃圾工作效率低下,甚至造成超出預(yù)期的經(jīng)濟損失和環(huán)境破壞。
對此,在大數(shù)據(jù)環(huán)境下,結(jié)合當(dāng)前的計算機視覺知識,本文對垃圾識別進(jìn)行了一定的研究?;谏疃葘W(xué)習(xí)的目標(biāo)檢測算法的基本原理是利用大量卷積運算實現(xiàn)檢測算法自主對目標(biāo)圖像的特征進(jìn)行抽象和提取,并且對檢測到的特征進(jìn)行訓(xùn)練從而總結(jié)出其他的特征,在檢測計算機數(shù)字圖像上發(fā)揮著重大的作用。深度學(xué)習(xí)檢測算法主要分成兩種,兩步檢測法和單步檢測法,兩步檢測法主要代表為基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Region-based Convolution Neural Networks, R-CNN)算法以及對其改進(jìn)的算法如:Fast R-CNN和Faster R-CNN。而單步檢測算法是將區(qū)域選擇和檢測判斷結(jié)合在一起,構(gòu)成一體化的檢測網(wǎng)絡(luò),單步檢測法的主要代表為:SSD(Single Shot multibox Detector)算法和YOLO (You Only Look Once)檢測算法。深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,目前對檢測效率的要求較高,深度學(xué)習(xí)構(gòu)架內(nèi)的許多算法都在進(jìn)行改進(jìn),本文及研究主要用YOLO系列檢測算法,在YOLO系列算法中,YOLOv3算法超越了YOLO和YOLOv2在各方面都相對進(jìn)行了改進(jìn),如:運行速度、網(wǎng)絡(luò)學(xué)習(xí)深度、檢測準(zhǔn)確率等。本文基于圖像目標(biāo)檢測對生活垃圾進(jìn)行識別,主要運用了性能更好的YOLOv3檢測算法。如今生活處處充滿人工智能,科技結(jié)合環(huán)衛(wèi),在大數(shù)據(jù)時代,拍照識別搜索是生活常態(tài),本文針對垃圾分類技術(shù)對目標(biāo)檢測技術(shù)進(jìn)行研究,主要用YOLO檢測算法實現(xiàn)目標(biāo)檢測識別,致力于實現(xiàn)垃圾分類識別,提高垃圾分類工作的效率和準(zhǔn)確度。
1? YOLOv3算法
1.1? YOLOv3模型結(jié)構(gòu)
YOLOv3是YOLO系列算法中在YOLOv1與YOLOv2的基礎(chǔ)上的改進(jìn)版本,在精確度與速度的權(quán)衡中發(fā)展出來。YOLOv3僅使用卷積層,可以說是一個全卷積網(wǎng)絡(luò)。
YOLOv3其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示,該網(wǎng)絡(luò)借鑒了darknet-53的前52層,去除了最后的全連接層,大量的使用了殘差的跳層連接。在之前的網(wǎng)絡(luò)中,采樣是使用size為2×2,stride為2的max-pooling或average-pooling進(jìn)行降采樣。但在這網(wǎng)絡(luò)中,使用的則是stride為2的卷積來降采樣。與此同時,還在網(wǎng)絡(luò)中使用了上采樣、route操作等,并且在一個網(wǎng)絡(luò)中進(jìn)行了3次檢測。
為了保證分類加檢測的效果更好,且由于網(wǎng)絡(luò)的深度與其所表達(dá)的特征是相輔相成的,所以我們需要采用殘差的跳層連接來提高網(wǎng)絡(luò)的深度,使得網(wǎng)絡(luò)在更深的情況下繼續(xù)收斂下去,并使得模型能夠繼續(xù)訓(xùn)練。而在最后殘差中的1×1卷積,使用的是network in network的想法,該想法減少了每次卷積的channel數(shù),這起到了減少參數(shù)量和減少工作的計算量。
網(wǎng)絡(luò)中作者分別在32倍降采樣,16倍降采樣,8倍降采樣時進(jìn)行了檢測,這樣在多尺度的feature map上檢測跟SSD有點相似。
在網(wǎng)絡(luò)中使用上采樣是因為,直接使用下采樣的淺層特征來檢測,其表達(dá)效果不如先用下采樣后用上采樣的深層特征。因為越深的網(wǎng)絡(luò)其表達(dá)效果就越好。像比如在進(jìn)行16倍降采樣時,使用五次下采樣后的32倍降采樣,其深層特征比較小不好使用,這時候給它進(jìn)行布長為2的上采樣后得到的16倍降采樣特征,會比直接使用四次下采樣后的16倍降采樣特征的表達(dá)效果更好。同理8倍降采樣也是對16倍降采樣進(jìn)行一次步長為2的上采樣,這樣得到的深層特征就可以用來detection。
YOLOv3利用上采樣可以使得16倍降采樣和8倍降采樣使用深層特征。而直接進(jìn)行四次下采樣的16倍降采樣和直接進(jìn)行三次下采樣的8倍降采樣的淺層特征與采用了上采樣的深層特征的feature map大小是一樣的。為了能夠利用這些淺層特征,YOLOv3誕生了route層,它把上采樣后的16倍降采樣的feature map與直接四次降采樣的feature map在channel那里進(jìn)行拼接。同理8倍降采樣也是如此操作。這樣做的好處是使得網(wǎng)絡(luò)能夠同時學(xué)習(xí)淺層特征和深層特征,其表達(dá)效果會更好。
1.2? 邊界框預(yù)測
預(yù)測類別時,為了滿足多標(biāo)簽對象這一條件,在預(yù)測類別時,使用了logistic回歸代替softmax回歸。softmax回歸的前提是各類別分類是相互獨立的,這種前提在某些時候是沒有意義的,因此YOLOv3使用logistic回歸來預(yù)測。通過logistic預(yù)測每個類別得分并使用一個閾值來對目標(biāo)進(jìn)行多標(biāo)簽預(yù)測,而閾值高的類別是該邊界框的真正類別。為了減少后續(xù)計算量,logistic回歸在進(jìn)行predict前,去掉了不必要的anchor。而如何去除不必要的anchor,首先logistic回歸會對anchor所包圍區(qū)域都進(jìn)行目標(biāo)性評分(objectness score),評分低的anchor將會被淘汰。因此即使被淘汰的anchor區(qū)域的值高于我們所設(shè)定的閾值,我們也不會對它進(jìn)行predict。不同于faster R-CNN的是,YOLOv3只會對最佳的模板框進(jìn)行操作。而logistic回歸在這一過程中的作用便是:從9個anchor priors里選出objectness score(目標(biāo)存在可能性得分)最高的那一個。
YOLOv3的bounding Box由YOLOv2又做出了更好的改進(jìn),如圖2所示。在YOLOv2和YOLOv3中,都采用了對圖像中的物體進(jìn)行k-means聚類。 特征圖中的每一個cell都會預(yù)測3個bounding box,總共有(52×52+26×26+13×13)×3=10 647個預(yù)測框。每個bounding box都會預(yù)測三個東西:(1)每個框的位置,即中心坐標(biāo)為(tx,ty),框的高和寬分為別bh和bw。(2)一個objectness prediction。(3)N個類別,coco數(shù)據(jù)集80類,voc20類。
由于三次檢測所對應(yīng)的感受野不同,而最大的32倍降采樣的感受野適合檢測大的目標(biāo),因此當(dāng)輸入為416×416時,每個cell所對應(yīng)的三個anchor box分別為(116,90),(156,198),(373,326)。由于16倍適合一般大小的物體,所以anchor box為(30,61),(62,45),(59,119)。而8倍的感受野最小,適合檢測小目標(biāo),因此anchor box為(10,13),(16,30),(33,23)。
YOLOv3對(4+1+c)×k個大小為11的卷積核進(jìn)行卷積預(yù)測,其中,每個參數(shù)都有其特定的意思。k為預(yù)設(shè)邊界框(bounding box prior)的個數(shù),其值默認(rèn)為3;c代表著預(yù)測目標(biāo)的類別數(shù);4k個參數(shù)則用來檢測目標(biāo)邊界框的偏移量;k個參數(shù)用來預(yù)測目標(biāo)邊界框內(nèi)包含目標(biāo)的概率;最后,用ck個參數(shù)則來預(yù)測這k個預(yù)設(shè)邊界框所對應(yīng)的c個目標(biāo)類別的概率。圖2展示了目標(biāo)邊界框的預(yù)測過程。圖中的虛線部分為預(yù)設(shè)邊界框,通過網(wǎng)絡(luò)預(yù)測的偏移量計算得到的預(yù)測邊界框為實線矩形框。中心坐標(biāo)為(cx,cy),預(yù)設(shè)邊界框的寬和高分別為(pw,py),(tx,ty,tw,th)分別為網(wǎng)絡(luò)預(yù)測的邊界框中心偏移量(tx,ty)以及寬高縮放比(tw,th),而最終所預(yù)測的目標(biāo)邊界框則為(bx,by,bw,bh)。
2? 基于Tensorflow2的YOLOv3算法垃圾識別
2.1? 圖像數(shù)據(jù)的獲取
本次實驗將垃圾分為四大類:廚余垃圾,可回收垃圾,有害垃圾。具體采集方法,利用網(wǎng)絡(luò)爬蟲技術(shù)在各大圖片搜集網(wǎng)站搜索所需的圖片,并對圖片進(jìn)行自動排序命名為0001.jpg、0002.jpg……,在進(jìn)行手工篩選的同時,對這些圖片進(jìn)行預(yù)處理,由于收集到的圖片中,有些受天氣等外界影響較大,需對得到初始數(shù)據(jù)集后進(jìn)行去噪和增強處理,使得圖片中的特征更加明顯,最后利用labellmg對樣本進(jìn)行手動標(biāo)記。
2.2? 數(shù)據(jù)集標(biāo)注
通過利用labellmg對爬取的樣本圖片進(jìn)行標(biāo)注,如圖3所示。并將所標(biāo)記圖片依次保存為XML文件。由于儀器設(shè)備的限制,本次我們主要對可回收垃圾進(jìn)行樣本標(biāo)注,在這些樣本中紙巾和塑料的占比大,其他類型占比小。
3? 結(jié)? 論
經(jīng)過實驗,發(fā)現(xiàn)沒有檢測框的圖片,均是數(shù)據(jù)集中樣本類型較少的可回收垃圾,而有檢測框的可回收垃圾的圖片中,樣本數(shù)較多的紙巾辨識度較高。
因此可知:(1)數(shù)據(jù)集的數(shù)量對目標(biāo)檢測有影響。(2)訓(xùn)練時的迭代次數(shù)增加可降低loss,對目標(biāo)檢測有影響。(3)在運行代碼過程中發(fā)現(xiàn),適當(dāng)調(diào)整置信度和IOU,能夠影響圖像檢測的檢測框。
參考文獻(xiàn):
[1] 劉智嘉,汪璇,趙金博,等.基于YOLO算法的紅外圖像目標(biāo)檢測的改進(jìn)方法 [J].激光與紅外,2020,50(12):1512-1520.
[2] 林紅兵.“十四五”時期垃圾分類的機遇與展望 [N].中國建設(shè)報,2020-11-16(8).
[3] 郝楠.基于深度學(xué)習(xí)的公路障礙物檢測的研究 [D].成都:電子科技大學(xué),2019.
[4] 張奇.基于改進(jìn)YOLO的小目標(biāo)檢測算法應(yīng)用研究 [D].長春:吉林農(nóng)業(yè)大學(xué),2020.
[5] 彭偉航,白林,商世為,等.基于改進(jìn)InceptionV3模型的常見礦物智能識別 [J].地質(zhì)通報,2019,38(12):2059-2066.
[6] 單宇翔,龍濤,樓衛(wèi)東,等.基于深度學(xué)習(xí)的復(fù)雜場景中卷煙煙盒檢測與識別方法 [J].中國煙草學(xué)報,2021,27(5):71-80.
作者簡介:李天千(2000—),女,漢族,陜西渭南人,本科在讀,主要研究方向:深度學(xué)習(xí)、圖像處理。