摘要:提出一種基于圖像摳圖與copy-paste結合的數據增強方法(matting-paste),采用圖像摳圖法獲取單個垃圾實例的準確輪廓,并對單個實例進行旋轉和亮度變換.根據物體輪廓信息,把實例粘貼到背景圖上,無需額外的人工標注即可生成新的帶有標注的數據,從而提高數據集的多樣性和復雜性.結果表明:數據集擴充后的mask比數據集擴充前的識別精度提高了0.039,matting-paste能在已有數據集上有效地擴充數據,進一步提高模型的識別精度.
關鍵詞:數據增強; 圖像摳圖; copy-paste; 實例分割
中圖分類號: TP 274; TP 183文獻標志碼: A 文章編號: 1000-5013(2023)02-0243-07
Data Enhancement Method Combining Image Matting and Copy-Paste
YANG Tiancheng, YANG Jianhong, CHEN Weixin
(College of Mechanical Engineering and Automation, Huaqiao University, Xiamen 361021, China)
Abstract: A data enhancement method (matting-paste) based on image matting and copy-paste is proposed. Using the image matting method to obtain the precise contour of a single waste instance, and rotation and brightness transformation are carried out for each instance. Instances are pasted onto the background image according to the object′s contour information, and new annotated data can be generated without additional manual annotation, which improves the diversity and complexity of the dataset. The results show that the recognition precision of mask after dataset augmentation is improved 0.039 compared with before dataset augment. Matting-paste can effectively augment the data and further improve the the recognition precision of the model.
Keywords: data enhancement; image matting; copy-paste; instance segmentation
隨著城市化的發(fā)展和城市人口的不斷增加,城市生活垃圾(MSW)的數量急劇增加,類型也變得復雜.有效的廢棄物管理可以回收MSW中的可回收物,減少環(huán)境污染和資源浪費[1].傳統(tǒng)的回收工作需要大量的人工勞動力成本[2].深度學習技術可應用于垃圾的自動識別和分類,提高回收效率[3-4].實例分割可以很好地應用于固體廢物的識別和分類[5],作為一種監(jiān)督算法,檢測效果依賴于標注數據集的數量[6].數據集通常是手動標注的,標注數據集是一件耗時的工作,如標注1 000個COCO實例需22 h[7].
生活垃圾的形狀是多變的,手動標注垃圾的精確輪廓需要大量的人工成本.數據增強可擴展可訓練的數據集[8],傳統(tǒng)的數據增強方法針對的是整個圖像,只是簡單地增加數據集的數量,并沒有增加數據集的復雜性,不是專門為實例分割設計的.
Copy-paste是一種適用于實例分割的數據增強方法[9].它的核心思想是從原始圖像中復制實例,根據實例的標注輪廓將其粘貼到另一張圖像中.該方法可以有效提高數據集的多樣性,擴展可訓練的數據集.因此,對于copy-paste數據增強方法,每個實例輪廓的準確性會影響數據增強的效果.生活垃圾的形狀復雜多變,人工標注很難得到準確的輪廓.使用3D相機可以獲得物體的精確輪廓,但會額外增加設備的硬件成本.基于深度學習的圖像分割可以有效分割復雜背景中物體的輪廓[10],是一種低成本且有效的方法,常見的實例分割網絡如Mask R-CNN[11]和Mask Transfiner[12].自然圖像摳圖是從圖像中準確估計出目標前景,摳圖生成的前景比實例分割網絡獲取的輪廓更自然細膩.常見的圖像摳圖網絡有MODNet[13]和HAttMatting [14].基于此,本文提出圖像摳圖與copy-paste結合的數據增強方法.
1 材料和方法
1.1 數據集
為采集可回收垃圾的高質量的RGB圖像,搭建圖像采集平臺(圖1).圖像采集平臺包括彩色相機和發(fā)光二極管(LED)光源,成本低,不需要昂貴的高精度的3D相機.當輸送帶將可回收垃圾運送至相機下方拍攝時,將可回收垃圾的RGB圖像截取,縮放至分辨率為1 400 px×728 px,以去除亮度不均勻的區(qū)域.輸送帶的有效寬度為1 400 mm,因此,一張圖像中可能有多個垃圾實例.為了防止圖像失真,保證分割效果的準確性,當圖像輸入到實例分割網絡時,圖像的上、下邊緣用0像素填充至分辨率為1 400 px×1 400 px.
數據集分為利樂包、紙和紙杯3類.利樂包由紙、聚乙烯和鋁[15]組成,而紙杯由紙和聚乙烯組成.由于數據集的成分和回收再生過程不同,需要進一步精細分類.數據集有2 274張圖像,這些圖像是在同一輸送帶上收集的.訓練集由1 868張圖像組成,物體稀疏放置,很少存在堆疊的情況.測試集有406張圖像,物體密集放置,存在粘連堆疊的情況.數據集圖片使用Labelme軟件手工注釋.
1.2 分割網絡
1.2.1 Mask R-CNN Mask R-CNN是基于R-CNN的實例分割模型,在COCO實例分割任務中均優(yōu)于以往的網絡,它不僅可以檢測出圖像中實例種類的位置,還能為每個實例生成分割掩膜.Mask R-CNN結構,如圖2所示.圖2中:C2~C5為物體的低、高層特征;P2~P6為特征圖;FPN為特征金字塔;RPN為區(qū)域提取網絡;ROI層為目標層.
由圖2可知:輸入的圖片首先在主干網絡中經過多次卷積、池化操作后,圖片分辨率逐漸減小,維度不斷增加,從而提取到物體的深層特征;其次,使用FPN[16]進行特征融合;通過上采樣和下采樣,融合圖片的高層和低層特征,并得到特征圖;RPN生成一系列建議框,建議框代表著特征圖上的一處矩形區(qū)域,矩形區(qū)域中可能包含有物體,也可能不包含物體;ROI層根據建議框的位置,從特征圖上截取相應的矩形區(qū)域并縮放到固定大小,然后傳遞給全連接層,對物體進行分類和邊界框回歸,得到物體的類別和位置;Mask R-CNN在ROI層之后添加了卷積層,用于計算物體的二進制掩膜以分割物體的輪廓.
1.2.2 Mask Transfiner 這是一種優(yōu)質高效的實例分割算法.與現(xiàn)有方法不同,Mask Transfiner不會統(tǒng)一處理整張圖像,其識別容易出錯并需要優(yōu)化的像素區(qū)域(信息損失區(qū)域)這些像素區(qū)域點采用四叉樹結構表示,并根據下采樣物體掩膜的信息損失計算得到,主要分布在物體的邊界或高頻區(qū)域中,空間上不連續(xù).基于Mask Transfiner[17],四叉樹結構只處理檢測到的易出錯的樹節(jié)點,同時進行自校正.由于信息損失區(qū)域的位置稀疏,僅占圖像總像素的一小部分,這允許Mask Transfiner以較低的計算成本預測出高度準確的實例掩膜.
1.2.3 圖像摳圖 圖像摳圖是指圖像和視頻中準確的前景估計問題[18].摳圖算法被應用于圖像編輯和影片剪輯,可以精確地將圖像或視頻中的前景估計出來.圖像摳圖的目的是從給定圖像(I)中提取所需的前景(F).預測每個像素(i)具有精確前景概率α的alpha蒙版,即
Ii=αiFi+(1-αi)Bi.(1)
式(1)中:B是I的背景.
圖像摳圖是具有挑戰(zhàn)性的,因為式(1)右側的所有變量都是未知的.現(xiàn)有的摳圖方法分為兩類:一類是使用預定義的trimap圖作為輔助輸入;另一類是在不輸入trimap圖的情況下完成摳圖.trimap圖有絕對前景(α=1.0)、絕對背景(α=0)和未知區(qū)域(α=0.5)3個區(qū)域的掩碼.由于創(chuàng)建trimap圖會增加額外的工作量,因此,使用了trimap-free摳圖方法.MODNet是一種trimap-free的摳圖網絡,無需額外輸入即可實現(xiàn)發(fā)絲級的人像摳圖.MODNet的摳圖效果,如圖3所示.由圖3可知:輸入原始圖像后,MODNet會生成一張alpha圖,alpha圖的白色部分代表前景,黑色部分代表背景.
2 實驗方法
2.1 實例輪廓
獲取實例輪廓的流程,如圖4所示.圖4中:從數據集圖片中截取實例時,忽略有圖片邊緣的物體,以及存在粘連堆疊的物體,保證每個截取的物體都是獨立且完整的;截取的圖像使用padding方法進行填充,填充的形狀為正方形,防止在輸入分割模型時因縮放造成長寬比失真.
由于分割模型的初始權重不是專門表示分割垃圾圖像的,因此,需要使用少量的垃圾圖片樣本進行遷移學習,使分割模型具有分割出垃圾輪廓的能力.
由圖4可知:從1 868張原始圖片中截取了1 417個形狀完整物體,手工標注其中190個物體的準確輪廓,用于訓練MaskR-CNN,Mask Transfiner和MODNet;再使用訓練好的分割模型分別預測截取的1 417個物體的輪廓(alpha圖);最后,使用opencv的輪廓算法,把物體輪廓轉換成點集寫入json文件,實現(xiàn)物體輪廓的自動標注.
不同方法的輪廓標注,如圖5所示.由圖5可知:MODNet獲取的物體輪廓最準確,能得到利樂包的吸管部分和扭曲變形的紙準確的輪廓;Mask Transfiner的分割效果比Mask R-CNN更好一些.
2.2 數據集的擴充
Matting-paste可以根據已有標注的數據集,自動擴充帶標注的數據集,從而提高數據集的多樣性和復雜性.生成圖像數據的流程,如圖6所示.
1) 復制實例.根據標注數據集的json文件中物體的輪廓信息,把輪廓內的像素摳下來.如果標注的物體輪廓不準確,則輪廓內的像素可能會包含輸送帶的背景,或者輪廓沒有完全包含物體.
2) 數據增強.對每個實例進行旋轉和亮度變換,以提高數據集的多樣性.因為相機的拍攝視野和垃圾的尺寸是固定的,因此,沒有使用copy-paste中的大尺度抖動來改變實例的尺寸大小.
3) 選擇背景圖.原始數據集雖然是在同一條輸送帶采集的,但是由于輸送帶不同區(qū)域受污染的程度不同,因此,在選擇背景時從多張背景中隨機選取一張,使生成的數據集更符合實際工況.
4) 生成粘貼點.為保證每個實例粘貼的隨機性,對每張背景圖片隨機劃分為m×n的網格,其中,m為行數,3≤m≤6;n為列數,3≤n≤8.隨機生成k個粘貼點,當m×nlt;15時,0≤k≤m×n,當m×n≥15時,0≤k≤15.粘貼點相對網格的中心位置發(fā)生x和y方向上的隨機偏移,并限制每個網格最多只能有一個粘貼點.
5) 粘貼實例.根據生成的粘貼點,隨機選擇數據增強后的實例粘貼到背景圖片上.每個實例的標注輪廓根據json文件的點集進行x和y方向偏移,實例的類別標簽使用json文件中的原始標簽.物體堆疊的情況,粘貼后實例會覆蓋之前的實例輪廓,輪廓超過圖片邊界的部分會被截掉.
2.3 實驗設置
為了驗證數據擴充方法的有效性,對比不同數據擴充方法對識別精度的影響.使用MaskR-CNN識別精度,以ResNet 50[19]作為主干網絡,使用FPN融合多尺度特征,主干網絡使用ImageNet數據集上預訓練的權重進行遷移學習.
實驗的深度學習框架為pytorch 1.9;環(huán)境為Python 3.7;設備的操作系統(tǒng)為Windows 10專業(yè)版;CPU為Intel i5-10400F;GPU為Nvidia RTX3090;內存為16 GB.每個模型訓練24個epoch,學習率為0.001 25,batch size為2,前1 000步迭代執(zhí)行學習率線性預熱方法,增長率為0.001.
采用均值平均精度(PmA)來綜合評估模型的性能,采用精度表示在所有被預測為正樣本中實際為正樣本的概率,采用召回率表示在所有實際為正樣本中被預測為正樣本的概率.在一定的交并比(IOU)閾值下,利用不同精度和召回率的組合,可以得到一個特定類的平均精度(PA),即
式(3)~(6)中:P為識別精度;nTP為垃圾種類被正確識別的個數;nFN為垃圾被錯誤識別為背景的個數;nFP為背景被識別為垃圾的個數;r為召回率;m為類別數.
3 實驗結果與分析
3.1 生成的圖片效果
實際圖片與生成圖片的比較,如圖7所示.
通過設置更多的粘貼點,可以使生成的圖片中有更多的垃圾實例.Copy-paste方法使用的物體輪廓是手工標注的,手工標注的輪廓可能包含傳送帶背景,物體存在堆疊時的效果不真實.手工標注也可能丟失物體的部分輪廓,并且物體邊角部分的輪廓不平滑,這導致copy-paste生成的圖片不自然.使用圖像摳圖方法獲取的輪廓很準確,可以保留更多物體的原始輪廓信息,如利樂包的吸管部分.因此,matting-paste生成的圖片更真實,物體堆疊時的效果和真實的圖片很相似.
3.2 識別精度結果
自動生成的數據集與原始的訓練集混合,可以得到擴充后的訓練集.原始的訓練集記為DOR;原始訓練集的物體輪廓是手工注釋的,擴充后的訓練集記為DCP;使用Mask R-CNN的標注輪廓擴充后的訓練集,記為DMR;使用Mask Transfiner的標注輪廓擴充后的訓練集,記為DMT;使用MODNet的標注輪廓擴充的訓練集,記為DMA.
為了驗證數據集擴充的有效性,確定最優(yōu)的數據集擴充數量.先使用matting-paste的方法擴充訓練集至3 000張,每次遞增1 000張,并與原始1 868張訓練集作為對比.不同訓練集的識別精度,如表1
所示.表1中:mask為掩膜;box為邊界框,IOU閾值為[0.50:0.95].由表1可知:擴充訓練集之后,模型的精度明顯提高;在數據集擴充至6 000張后,模型的識別精度達到最高,mask的識別精度達到0.692,比數據擴充前提高了0.039,box的識別精度達到0.642,比數據擴充前提高了0.028.因此,matting-paste方法擴充數據集是有效的.
為比較不同輪廓獲取方法對數據集擴充后模型識別精度的影響,分別把訓練集擴充到6 000張,對比不同數據集的識別精度(表2).由表2可知:DCP相比于原始的訓練集精度有所提高;使用分割網絡獲取的輪廓比手工標注的輪廓更準確,且DMR,DMT,DMA的精度都比DCP高,說明在數據擴充時,單個實例輪廓標注的準確性影響著模型的精度,輪廓的識別精度提高了0.024,mask(0.50以上)的識別精度提高了0.014,box([0.50:0.95])的識別精度提高了0.017,box(0.50以上)提高了0.011,數據增強效果優(yōu)于DCP.
Matting-paste數據集擴充方法可以對數據集中的物體重新進行排列組合,自動生成帶標注數據集圖片以擴充訓練集,從而提高模型的識別精度.當數據集擴充至6 000張時,模型的精度提升效果最優(yōu).相比于手工標注和Mask R-CNN,Mask Transfiner獲取的輪廓,matting-paste方法獲取的物體輪廓最準確,擴充的數據集質量最好.
4 結束語
提出一種matting-paste的數據集擴充方法,首先,使用摳圖方法獲取單個垃圾實例的準確輪廓,并對單個實例進行旋轉和亮度變換,以增加數據的多樣性.其次,根據物體輪廓信息把實例粘貼到背景圖上.此方法無需額外的人工標注,即可自動生成新的帶有標注的數據集用于訓練,從而提高訓練集的多樣性和復雜性.數據集擴充后的模型精度比擴充前模型的精度提高了0.039.該方法可以應用于垃圾的目標檢測和實例分割等分類任務中,在已有數據集上進一步擴充數據集,提高模型的識別精度.
參考文獻:
[1]GUNDUPALLI S P,HAIT S,THAKUR A.A review on automated sorting of source-separated municipal solid waste for recycling[J].Waste Management,2017,60:56-74.DOI:10.1016/j.wasman.2016.09.015.
[2]SEIKE T,ISOBE T,HARADA Y,et al.Analysis of the efficacy and feasibility of recycling PVC sashes in Japan[J].Resources, Conservation and Recycling,2018,131:41-53.DOI:10.1016/j.resconrec.2017.12.003.
[3]ZHANG Qiang,YANG Qifan,ZHANG Xujuan,et al.A multi-label waste detection model based on transfer learning[J].Resources, Conservation and Recycling,2022,181:106235.DOI:10.1016/j.resconrec.2022.106235.
[4]SOUSA J,REBELO A,CARDOSO J S.Automation of waste sorting with deep learning[C]∥2019 XV Workshop de Viso Computacional.Brazi:IEEE Press,2019:43-48.DOI:10.1109/WVC.2019.8876924.
[5]LI Jiantao,F(xiàn)ANG Huaiying,F(xiàn)AN Lulu,et al.RGB-D fusion models for construction and demolition waste detection[J].Waste Management,2022,139:96-104.DOI:10.1016/j.wasman.2021.12.021.
[6]HAFIZ A M,BHAT G M.A survey on instance segmentation: State of the art[J].International Journal of multimedia Information Retrieval,2020,9(3):171-189.DOI:10.1007/s13735-020-00195-x.
[7]LIN T Y,MAIRE M,BELONGIE S,et al.Microsoft coco: Common objects in context[C]∥European Conference on Computer vision.[S.l.]:Springer,2014:740-755.DOI:10.1007/978-3-319-10602-1_48.
[8]SHORTEN C,KHOSHGOFTAAR T M.A survey on image data augmentation for deep learning[J].Journal of Big Data,2019,6(1):1-48.DOI:10.1186/s40537-019-0197-0.
[9]GHIASI G,CUI Yin,SRINIVAS A,et al.Simple copy-paste is a strong data augmentation method for instance segmentation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2021:2918-2928.
[10]MINAEE S,BOYKOV Y Y,PORIKLI F,et al.Image segmentation using deep learning: A survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,44(7):3523-3542.DOI:10.1109/TPAMI.2021.3059968.
[11]HE Kaiming,GKIOXARI G,DOLLR P,et al.Mask r-cnn[C]∥Proceedings of the IEEE International Conference on Computer Vision.Piscataway:IEEE Press,2017:2961-2969.DOI:10.48550/arXiv.1703.06870.
[12]KE Lei,DANELLJAN M,LI Xia,et al.Mask transfiner for high-quality instance segmentation[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Orleans:IEEE Press,2022:4412-4421.DOI:10.48550/arXiv.2111.13673.
[13]KE Zhanghan,SUN Jiayu,LI Kaican,et al.Modnet: Real-time trimap-free portrait matting via objective decomposition[C]∥Proceedings of the AAAI Conference on Artificial Intelligence.[S.l.]:AAAI Press,2022,36(1):1140-1147.DOI:10.1609/aaai.v36i1.19999.
[14]QIAO Yu, LIU Yuhao, YANG Xin, et al.Attention-guided hierarchical structure aggregation for image matting[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2020:13676-13685.
[15]MA Yuhui.Changing tetra pak: From waste to resource[J].Science Progress,2018,101(2):161-170.DOI:10.3184/003685018X15215434299329.
[16]LIN T Y,DOLLR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE Press,2017:2117-2125.
[17]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[J].Advances in Neural Information Processing Systems,2017,30:1-15.
[18]WANG Jue,COHEN M F.Image and video matting: A survey[J].Foundations and Trends in Computer Graphics and Vision,2008,3(2):97-175.DOI:10.1561/0600000019.
[19]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE Press,2016:770-778.
(責任編輯:" 陳志賢 英文審校: 吳逢鐵)
收稿日期: 2022-09-25
通信作者: 楊建紅(1974-),男,教授,博士,主要從事多模態(tài)視覺檢測方法及系統(tǒng)開發(fā)、基于多平臺的機器深度學習算法、高效率智能分選機器人的研究.E-mail:yjhong@hqu.edu.cn.
基金項目: 福建省科技重大專項(2020YZ017022); 福建省廈門市科技計劃項目(2021FCX012501190024); 深圳市科技計劃項目(JSGG20201103100601004)