• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)Mosaic數(shù)據(jù)增強(qiáng)和特征融合的Logo檢測

    2022-10-27 02:44:18陳翠琴范亞臣
    計算機(jī)測量與控制 2022年10期
    關(guān)鍵詞:特征圖像融合

    陳翠琴,范亞臣,王 林

    (西安理工大學(xué) 自動化與信息工程學(xué)院,西安 710048)

    0 引言

    標(biāo)志(Logo)是將企業(yè)、公共機(jī)構(gòu)、事業(yè)單位或個人的產(chǎn)品和服務(wù)標(biāo)識出來的獨(dú)特的圖形文字或圖形符號的組合。Logo檢測是目標(biāo)檢測的一個具體應(yīng)用。它在知識產(chǎn)權(quán)保護(hù)、產(chǎn)品品牌識別、電商平臺保護(hù)、智能交通車輛標(biāo)識檢測、社交媒體產(chǎn)品品牌管理等多個領(lǐng)域有著廣泛的應(yīng)用。自然圖像中的Logo檢測方法大致分為基于手工設(shè)計特征的方法和基于深度特征的方法。Sanyal等人[1]提出了一種基于harris仿射檢測器獲得的尺度不變特征變換(SIFT, scale-invariant feature transform)關(guān)鍵點(diǎn)的方法。Gao等人[2]提出了一種通過空間光譜顯著性來發(fā)現(xiàn)Logo的檢測方法,然后對查詢圖像中使用的這些區(qū)域提取加速魯棒特征(SURF)。然后根據(jù)提取的SURF特征發(fā)現(xiàn)數(shù)據(jù)集圖像與查詢圖像之間的相似度。為了減少誤報,使用了局部空間上下文。Chinmoy等人[3]提出了一種基于SIFT、SURF和HOG描述符的Logo融合識別方法。自2012年以深度學(xué)習(xí)為主的圖像分類以來,深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的使用在計算機(jī)視覺領(lǐng)域變得普遍。CNNs在目標(biāo)特征提取和表達(dá)方面比人工選擇更合理、更強(qiáng)。S.C.H.Hoi等人[4]創(chuàng)建了大規(guī)模Logo圖像數(shù)據(jù)集LOGO-Net以促進(jìn)標(biāo)志檢測和產(chǎn)品品牌識別的研究,通過探索RCNN[5],F(xiàn)ast RCNN[6]和SPPnet[7]等幾種最先進(jìn)的基于區(qū)域的深度卷積網(wǎng)絡(luò)技術(shù)來解決深度Logo檢測和品牌識別任務(wù)。Oliveira等人[8]使用遷移學(xué)習(xí)來利用強(qiáng)大的卷積神經(jīng)網(wǎng)絡(luò)模型Fast RCNN來訓(xùn)練大規(guī)模的數(shù)據(jù)集,并將它們重新用于圖形Logo的檢測。C.Eggert等人[9]將Faster R-CNN[10]應(yīng)用到公司Logo檢測任務(wù)中,引入了一種改進(jìn)的生成錨點(diǎn)建議的方案,并提出了一種對Faster R-CNN的修改,它利用了小物體的高分辨率特征地圖,而提高小目標(biāo)檢測的性能。Yang等人[11]針對機(jī)動車Logo檢測任務(wù)的YOLOv3模型[12]進(jìn)行修改,通過難樣本訓(xùn)練解決小目標(biāo)檢測問題。

    Logo經(jīng)常出現(xiàn)在較復(fù)雜的背景中,同時Logo對象具有多尺度特性,因此本文提出了MP-YOLOv4(improved mosaic and PANet YOLOv4)算法。相比于原始的YOLOv4算法[13],本文主要做了以下的改進(jìn)。為了進(jìn)一步豐富Logo對象的尺度和背景,提出了一種改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法,將6張原始圖片進(jìn)行隨機(jī)縮放、裁剪并拼接構(gòu)成新的訓(xùn)練數(shù)據(jù),與單張圖片和4張原始圖片拼接一起作為模型的訓(xùn)練輸入,并確定3種輸入形式的相對最優(yōu)比例,同時采用在訓(xùn)練結(jié)束的前30個世代關(guān)閉Mosaic數(shù)據(jù)增強(qiáng)的訓(xùn)練策略。為了進(jìn)一步加強(qiáng)多尺度特征融合,本文在路徑整合網(wǎng)絡(luò)(PANet, path aggregation network)[14]的基礎(chǔ)上,結(jié)合跨層連接、重復(fù)堆疊、直接連接和加權(quán)特征融合等操作,設(shè)計了一種新的特征金字塔網(wǎng)絡(luò),增強(qiáng)了網(wǎng)絡(luò)的特征融合和特征表達(dá)能力。

    1 相關(guān)工作

    1.1 YOLOv4網(wǎng)絡(luò)

    YOLOv4是YOLO系列中的一種新的目標(biāo)檢測方法,它的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

    圖1 YOLOv4的整體網(wǎng)絡(luò)結(jié)構(gòu)

    YOLOv4目標(biāo)檢測網(wǎng)絡(luò)主要由輸入(input)、骨干特征提取網(wǎng)絡(luò)(backbone)、特征融合部分(neck)和預(yù)測頭(head)四部分組成。模型對于輸入采用了Mosaic數(shù)據(jù)增強(qiáng)方法,豐富了對象的上下文,提高了訓(xùn)練效率。在骨干特征提取網(wǎng)絡(luò)中,在YOLOv3中Darknet的基礎(chǔ)上,融入了CSPnet,從而整合成新的骨干網(wǎng)絡(luò)CSPDarknet,并在其中用Mish激活函數(shù)代替了LeakyReLU激活函數(shù)。在Neck部分,使用空間金字塔(SPP,spatial pyramid pooling)和PANet對從骨干網(wǎng)絡(luò)中獲取的3個有效特征層來進(jìn)行多尺度特征融合。在預(yù)測部分仍然使用YOLOv3中的Head對來自不同尺度的融合特征進(jìn)行預(yù)測。本文主要Logo檢測任務(wù)中的復(fù)雜背景和多尺度問題,對YOLOv4算法中的Input部分和PANet部分進(jìn)行改進(jìn)。

    1.2 Mosaic數(shù)據(jù)增強(qiáng)方法

    Mosaic數(shù)據(jù)增強(qiáng)算法參考了CutMix[15]數(shù)據(jù)增強(qiáng)算法,是對CutMix數(shù)據(jù)增強(qiáng)算法的進(jìn)一步擴(kuò)展。一般的數(shù)據(jù)增強(qiáng)方法是對一幅圖像進(jìn)行翻轉(zhuǎn)、色域變換、縮放等操作,而CutMix的數(shù)據(jù)增強(qiáng)方法是將兩幅圖像進(jìn)行拼接,并將拼接后的圖像直接傳輸?shù)缴窠?jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。Mosaic數(shù)據(jù)增強(qiáng)算法利用4幅圖像進(jìn)行拼接,形成包含4幅原始圖像的合成圖像,它可以在一幅合成圖像中訓(xùn)練出多個不同的目標(biāo);這使得對象出現(xiàn)在它們正常出現(xiàn)的背景之外,為模型提供更加復(fù)雜和有效的訓(xùn)練背景;同時,在批處理歸一化[16]操作中,可以同時計算6張圖像的數(shù)據(jù),這意味著不需要將超參數(shù)批大小(batch_size)設(shè)置得太大,就可以有效地訓(xùn)練模型,這樣可以在單個GPU下訓(xùn)練目標(biāo)檢測算法,提高了模型訓(xùn)練的效率,節(jié)省計算開銷。此外,在原始的YOLOv4模型訓(xùn)練過程中,模型有0.5的概率輸入單張原始圖像進(jìn)行訓(xùn)練,同時有0.5的概率輸入由四張圖像拼接而成的合成圖像來進(jìn)行訓(xùn)練。

    1.3 多尺度特征融合

    不同圖像之間以及同一張圖像內(nèi)部多個Logo對象的相對尺度差別較大,Logo檢測任務(wù)中的多尺度檢測問題面臨著很大的挑戰(zhàn)。為了在網(wǎng)絡(luò)內(nèi)部融合多尺度特征,獲得多尺度特征表達(dá),Lin等人[17]提出了著名的特征金字塔網(wǎng)絡(luò)(FPN, feature pyramid networks)。文獻(xiàn)[18]使用FPN來融合高低層級的語義信息,提升濾袋開口檢測問題中對小目標(biāo)的檢測效果。Liu 等人提出了PANet。PANet在FPN的原自頂向下金字塔方法的基礎(chǔ)上增加了一個自底向上的信息流,重新構(gòu)建了一個強(qiáng)化了空間定位信息的特征金字塔。在YOLOv4目標(biāo)檢測模型中就是使用PANet來進(jìn)行特征融合。Pang 等人[19]認(rèn)為無論是FPN還是PANet在構(gòu)建特征金字塔時都是使用自上而下或者自底而上的路徑來傳遞特征,這個過程會導(dǎo)致信息的丟失,因此他們提出了平衡特征金字塔(BFP, balanced feature pyramid),以同等重視多尺度特征圖。它通過縮放、整合、精煉和增強(qiáng)4個步驟來獲得相對平衡地兼顧所有特征層的特征圖。

    2 面向Logo檢測的YOLOv4算法的改進(jìn)

    2.1 改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法

    原始的Mosaic數(shù)據(jù)增強(qiáng)方法對四張原始圖像進(jìn)行翻轉(zhuǎn)、縮放、色域變換和拼接,從而形成包含4幅原始圖像的合成圖像。為了進(jìn)一步豐富Logo對象的背景,提高模型在復(fù)雜背景下檢測Logo的魯棒性,同時提高訓(xùn)練效率,本文提出改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法,如圖2所示。為了便于闡述,將單張原始圖像記為mos1,由4張、6張圖像混合而成的合成圖像分別記為mos4和mos6。上面和中間的實線箭頭表示的通道是原始的Mosaic方法,然而改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法增加了下面虛線箭頭表示的通道,即使用6張圖像拼接成的合成圖像(mos6)作為模型的訓(xùn)練數(shù)據(jù),與mos1和mos4一起作為模型的訓(xùn)練輸入。

    圖2 改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法

    2.1.1 由6張原始圖像合成訓(xùn)練數(shù)據(jù)

    1)生成圖像隨機(jī)縮放的大小、隨機(jī)粘貼的位置和裁剪的范圍。

    首先按公式(1)生成6張圖像分別縮放的隨機(jī)值:

    nws=[int(w*rand(0.4,1)),int(w*rand(0.4,1)),

    int(w*rand(0.4,1)),int(w*rand(0.4,1)),

    int(w*rand(0.4,1)),int(w*rand(0.4,1))]

    nhs=[int(h*rand(0.4,0.8)),int(h*rand(0.4,0.8)),

    int(h*rand(0.4,0.8)),int(h*rand(0.4,0.8)),

    int(h*rand(0.4,0.8)),int(h*rand(0.4,0.8))]

    (1)

    式中,rand()函數(shù)以均勻分布從一定范圍內(nèi)取出隨機(jī)值,int()函數(shù)是對小數(shù)進(jìn)行四舍五入的操作,(w,h)表示網(wǎng)絡(luò)要求輸入的高和寬。nws和nhs中都包含了6個元素,依次對應(yīng)6張圖像隨機(jī)縮放之后的寬和高。

    其次要生成分別沿x方向的一個偏移比例和y方向的兩個偏移比例,計算方法如公式(2)所示:

    offset_x=rand(1/4,3/4)

    offset_y1=rand(2/9,4/9)

    offset_y2=rand(5/9,7/9)

    (2)

    接著按照公式(3)生成6張圖片的粘貼位置:

    place_x=[int(w*offset_x)-nws[0],

    int(w*offset_x)-nws[1],

    int(w*offset_x)-nws[2],int(w*offset_x),

    int(w*offset_x),int(w*offset_x)]

    place_y=[int(h*offset_y1)-nhs[0],

    int(h*offset_y2)-nhs[1],

    int(h*offset_y2),int(h*offset_y2),

    int(h*offset_y2)-nhs[4],

    int(h*offset_y1)-nhs[5]]

    (3)

    式中,place_x和place_y分別都包含了6個元素,分別對應(yīng)6張圖片隨機(jī)粘貼的橫坐標(biāo)和縱坐標(biāo)。

    最后,利用偏移比例按照公式(4)計算出圖像裁剪的界限:

    cutx=int(w*offset_x)

    cuty1=int(h*offset_y1)

    cuty2=int(h*offset_y2)

    (4)

    式中,cutx是x方向的裁剪界限,cuty1和cuty2是y方向的兩條裁剪界限。利用3條界限分別裁剪出6張圖像的相應(yīng)部分并拼接在一起,從而構(gòu)成一張新的圖像。

    2)按照索引從訓(xùn)練集中選取一條訓(xùn)練數(shù)據(jù),然后隨機(jī)選取5條訓(xùn)練數(shù)據(jù),共獲得6條數(shù)據(jù)。

    3)分別對每一張訓(xùn)練圖像進(jìn)行一系列基本的數(shù)據(jù)增強(qiáng)。以0.5的概率對圖像進(jìn)行左右翻轉(zhuǎn),按照公式(1)對圖像進(jìn)行高和寬的隨機(jī)縮放。

    4)6張圖像按照公式(3)各自粘貼到一張像素值為(128,128,128),大小為[416,416]的圖像上的指定位置。得到的6張圖像如圖3所示。

    圖3 6張圖像的隨機(jī)粘貼位置

    5)按照公式依次裁取6張圖像中的指定區(qū)域拼接成一張新的圖像。再對合成圖像色度(hue)、飽和度(sat)和明度(val)進(jìn)行扭曲, 扭曲系數(shù)分別是hue=0.1,sat=1.5,val=1.5。生成的訓(xùn)練數(shù)據(jù)及標(biāo)注情況如圖4所示。

    圖4 合成圖像及標(biāo)注信息

    2.1.2 確定相對更優(yōu)的輸入比例

    在網(wǎng)絡(luò)訓(xùn)練過程中mos1、mos4和mos6這3種形式的輸入所占的比例記為,這種組合在一定程度上使訓(xùn)練數(shù)據(jù)集的尺度變化特征更加多樣化,從而進(jìn)一步衰減背景對目標(biāo)特征的干擾。在本文中通過枚舉的方法來獲得三者相對更優(yōu)的輸入比例。

    2.1.3 改進(jìn)的Mosaic訓(xùn)練策略

    使用Mosaic合成的訓(xùn)練圖片,遠(yuǎn)遠(yuǎn)脫離了自然圖片的真實分布,即Mosaic合成的圖片與自然圖片存在較大的語義鴻溝。同時,Mosaic數(shù)據(jù)增強(qiáng)過程中存在大量的裁剪操作會帶來很多不準(zhǔn)確的標(biāo)注框。因此,本文對YOLOv4中Mosaic訓(xùn)練策略進(jìn)行了改進(jìn)。在訓(xùn)練結(jié)束前的30個世代關(guān)閉Mosaic數(shù)據(jù)增強(qiáng),即只使用數(shù)據(jù)集中單張原始圖像來訓(xùn)練模型。這樣訓(xùn)練策略下數(shù)據(jù)集更專注于原始圖片,使得模型能很好地學(xué)習(xí)到目標(biāo)的總體特征,在此基礎(chǔ)上,用Mosaic數(shù)據(jù)增強(qiáng)合成的圖像擁有更加復(fù)雜的背景,用來增強(qiáng)模型對局部特征的學(xué)習(xí)能力,從而提高整個模型的泛化能力。

    2.2 改進(jìn)的多尺度特征融合

    在YOLOv4中,當(dāng)輸入圖像大小為416*416時,骨干網(wǎng)絡(luò)從輸入圖像中提取出3個層次的有效特征層C1,C2和C3。為了讓整個模型學(xué)習(xí)到更加多樣化的特征,提高模型的檢測性能,目標(biāo)檢測網(wǎng)絡(luò)的特征融合部分對不同層級的特征做進(jìn)一步的增強(qiáng)和融合。本文對YOLOv4中的PANet部分進(jìn)行改進(jìn)。改進(jìn)主要包括了跨層連接、重復(fù)堆疊、直接連接和加權(quán)特征融合4個方面。在本文所有的實驗中,當(dāng)兩個或多個特征進(jìn)行融合的時候,采用的是元素對位相加(element-wise add)的方式,而不是特征圖堆疊(concat)的方式。

    2.2.1 跨層連接

    在圖5(a)PANet的基礎(chǔ)上,首先去除了未經(jīng)過特征融合的即只有一個輸入的節(jié)點(diǎn),即P3和P1,因為未經(jīng)過特征融合的特征圖對多尺度預(yù)測的貢獻(xiàn)較小。其次在同一尺度的輸入特征圖和輸出特征圖之間增加一條新的連接,以融合更豐富的特征,稱為跨層連接,最終的網(wǎng)絡(luò)結(jié)構(gòu)如圖5(b)所示,圖中的短劃線表示引入的跨層連接。

    圖5 PANet和跨層連接的結(jié)構(gòu)

    以特征圖P2_1為例,使用跨層連接之后,特征圖P2_1的計算方法如公式(5)所示:

    P2_1=C2+upSample(C3)

    (5)

    式中,upSample()是上采樣函數(shù),實驗中使用縮放因子為2的最近鄰上采樣。

    特征圖P2_2的計算方法如公式(6)所示:

    P2_2=C2+P2_1+downSample(P1_2)

    (6)

    式中,downSample()是下采樣函數(shù),在實驗中使用步長為2的卷積進(jìn)行下采樣。

    2.2.2 重復(fù)堆疊

    為了進(jìn)行充分的加強(qiáng)特征提取,在Neck部分將設(shè)計的特征金字塔結(jié)構(gòu)多次堆疊。如圖6所示,將設(shè)計的跨層連接結(jié)構(gòu)重復(fù)堆疊了3次,以獲得更有效的特征融合和特征表達(dá)。

    圖6 重復(fù)堆疊后的網(wǎng)絡(luò)

    2.2.3 直接連接

    針對卷積過程中小對象容易丟失的問題,在特征融合網(wǎng)絡(luò)中設(shè)計了信息直接連接層。在跨尺度連接特征融合金字塔的每個迭代輸出節(jié)點(diǎn)中,我們使用信息直接連接層與初始輸入特征圖進(jìn)行特征融合,使小目標(biāo)特征信息在特征提取過程中保持完整,如圖7所示。圖中的6條點(diǎn)劃線表示6處直接連接。

    圖7 使用直接連接之后的網(wǎng)絡(luò)結(jié)構(gòu)

    以特征圖P2_4為例,使用信息直接連接之后,特征圖P2_4的輸出為:

    P2_4=C2+P2_2+P2_3+downSample(P1_4)

    (7)

    2.2.4 加權(quán)特征融合

    當(dāng)融合具有不同分辨率的特征時,常見的方法是先將它們的大小調(diào)整為相同的分辨率,然后直接再對其求和。在PANet中,網(wǎng)絡(luò)均等地對待所有輸入特征,而不同的輸入特征具有不同的分辨率,它們對輸出特征的貢獻(xiàn)通常是不相等的。為了解決這個問題,為每個輸入添加額外的權(quán)重,并讓網(wǎng)絡(luò)學(xué)習(xí)每個輸入特征的重要性。采用快速歸一化融合[20]的方法來進(jìn)行加權(quán)特征融合,它的計算方法如公式(8)所示:

    (8)

    式中,O是輸出特征,Ii是要第i個要融合的特征,wi是第i個要融合特征的權(quán)重,在每個wi后應(yīng)用ReLU激活函數(shù)來確保wi大于0。以及ε設(shè)置為0.000 1是為了避免數(shù)值不穩(wěn)定。網(wǎng)絡(luò)在訓(xùn)練的過程中能夠?qū)W習(xí)到對于各個輸入特征的權(quán)重,從而實現(xiàn)有側(cè)重地進(jìn)行特征融合。

    以特征圖P2_4為例,使用加權(quán)特征融合之后,特征圖P2_4的輸出為:

    (9)

    2.3 改進(jìn)的YOLOv4算法整體框架

    最終,本文將提出的算法稱為MP-YOLOv4,MP-YOLOv4算法的整體框架如圖8所示。首先,使用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)算法為模型提供單張原始圖像、4張圖片拼接成的合成圖像和6張圖片拼接成的合成圖像共3種形式的訓(xùn)練輸入數(shù)據(jù);其次由Backbone從輸入圖像中提取特征并獲得3個初步的有效特征層用于構(gòu)建特征金字塔;然后使用改進(jìn)的路徑整合網(wǎng)絡(luò)PANet來進(jìn)行多尺度特征增強(qiáng)和融合;最后使用YoloHead得出預(yù)測結(jié)果。

    圖8 MP-YOLOv4的整體框架

    3 實驗驗證和分析

    3.1 實驗設(shè)置

    本文實驗的硬件環(huán)境為:處理器為Inter(R)Xeon(R)CPU E5-2640 v4 @2.4 GHz,顯卡為NVIDIA 1080Ti(11G)。網(wǎng)絡(luò)訓(xùn)練階段的軟件開發(fā)環(huán)境為:操作系統(tǒng)是64位CentOS Linux 7;驅(qū)動版本是460.80;CUDA版本是11.2;深度學(xué)習(xí)框架是Pytorch1.4.0;編程語言是Python3.7。關(guān)于目標(biāo)檢測模型訓(xùn)練過程中,網(wǎng)絡(luò)參數(shù)的設(shè)置為:使用在COCO數(shù)據(jù)集上訓(xùn)練獲得的YOLOv4整體網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重;網(wǎng)絡(luò)輸入圖像的高和寬是416和416;總共訓(xùn)練100個世代(epoch);YOLOv4網(wǎng)絡(luò)訓(xùn)練分為兩個階段,凍結(jié)訓(xùn)練階段網(wǎng)絡(luò)的主干部分被凍結(jié),特征提取網(wǎng)絡(luò)的參數(shù)不發(fā)生改變,解凍訓(xùn)練階段整個網(wǎng)絡(luò)的參數(shù)都會發(fā)生改變;凍結(jié)訓(xùn)練階段的batch_size設(shè)置為8,解凍訓(xùn)練階段的batch_size設(shè)置為4;凍結(jié)訓(xùn)練階段初始學(xué)習(xí)率為10-3,解凍訓(xùn)練階段的初始學(xué)習(xí)率設(shè)置為10-4,學(xué)習(xí)率策略使用余弦退火學(xué)習(xí)率;使用多線程讀取數(shù)據(jù),num_workers設(shè)置為4;使用Adam優(yōu)化算法。

    3.2 實驗數(shù)據(jù)集

    FlickrLogos-32數(shù)據(jù)集[21]由從Flickr官網(wǎng)上收集的真實世界的圖像組成,共包含了32種Logo。整個數(shù)據(jù)集被分割為3個不相交的子集P1、P2和P3。第P1是訓(xùn)練集,由每個類10張人工精心挑選的圖像組成,這些圖像中僅包含單個Logo,且背景干擾較少。另外P2(驗證集)和P3(測試集)每個類包含30張圖像。與P1不同的是,這些圖像包含了一個或多個Logo實例,且實例的背景更復(fù)雜。

    3.3 評價指標(biāo)

    在本文中使用COCO評價指標(biāo),包括AP、AP50、AP75、APS、APM和APL。其中AP為0.50到0.95之間10個不同IOU設(shè)置下平均準(zhǔn)確率的平均值;AP50為IOU等于0.5時所有類別上的平均準(zhǔn)確度;AP75指標(biāo)更加嚴(yán)格,表示IOU等于0.75時所有類別上的平均準(zhǔn)確度;APS、APM和APL分別描述模型在小目標(biāo)、中目標(biāo)和大目標(biāo)上的準(zhǔn)確度。使用模型大小(model size)來評估模型所占的內(nèi)存空間。

    3.4 實驗過程

    3.4.1 驗證改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法

    本節(jié)將首先確定相對較好的比例設(shè)置,其次驗證提前30個epoch終止訓(xùn)練的有效性。

    在不同比例設(shè)置下的YOLOv4模型上的實驗結(jié)果如表1所示。

    表1 不同比例設(shè)置下的模型性能

    實驗M1(1∶0∶0)中僅使用mos1圖像訓(xùn)練,實驗M2(1∶1∶0)中均等地使用mos1和mos4圖像訓(xùn)練,這是原始YOLOv4算法中的設(shè)置,實驗M3(1∶0∶1)中均等地使用mos1和mos6圖像訓(xùn)練,對比這3個實驗可以發(fā)現(xiàn),M2和M3都可以提升模型的性能,且M2的提升要相對更明顯;值得注意的是,M3雖在其他指標(biāo)上不如M2,但是M3(使用了mos6數(shù)據(jù))提高了模型在小目標(biāo)(APS)檢測方面的性能。實驗M4(1∶1∶1)中均等地使用mos1、mos4和mos6數(shù)據(jù)進(jìn)行訓(xùn)練,比M2和M3的效果都要好。這證明了在原始Mosaic基礎(chǔ)上,添加mos6數(shù)據(jù)進(jìn)行訓(xùn)練能夠改善模型性能。

    為了驗證數(shù)據(jù)集應(yīng)該更側(cè)重于mos1、mos4和mos6中的哪一種,開展了實驗M5(2∶1∶1),M6(1∶2∶1),M7(1∶1∶2),與實驗M4(1∶1∶1)分別進(jìn)行對比,可以得出結(jié)論,當(dāng)使用比例1∶1∶2,即當(dāng)數(shù)據(jù)集更側(cè)重本文提出的mos6數(shù)據(jù)時,模型在犧牲很少APM的情況下,在其他指標(biāo)上的性能都獲得了大幅度提升。因此,選擇1∶1∶2這個相對來說最優(yōu)的比例作為模型訓(xùn)練過程中的輸入設(shè)置,即有0.25的概率輸入mos1數(shù)據(jù),同樣有0.25的概率輸入mos4數(shù)據(jù),有0.5的概率輸入本文提出的mos6數(shù)據(jù)。

    為了驗證提出的Mosaic訓(xùn)練策略的有效性,即在訓(xùn)練結(jié)束的前30個epoch關(guān)閉Mosaic數(shù)據(jù)增強(qiáng)技術(shù)是否能夠提升模型的性能,在兩種情況下分別進(jìn)行了實驗,實驗結(jié)果如表2所示。2∶2∶1(w)表示使用提出的訓(xùn)練策略,2∶2∶1(wo)表示不使用。通過實驗結(jié)果可以得出結(jié)論,在損失很小AP50和APM的條件下,其他指標(biāo)獲得了較大幅度的提升。因此,本文提出的提前終止Mosaic數(shù)據(jù)增強(qiáng)的訓(xùn)練策略是有效的。

    表2 是否使用訓(xùn)練策略的對比實驗結(jié)果

    3.4.2 驗證改進(jìn)的PANet

    為了驗證改進(jìn)的Neck中跨層連接(①)、反復(fù)堆疊(②)、直接連接(③)和加權(quán)特征融合(④)4個方面分別對于網(wǎng)絡(luò)的有效性,下面對改進(jìn)了Neck進(jìn)行了消融實驗分析。實驗結(jié)果如表所示。實驗BL是基線實驗,未使用任何一個改進(jìn),實驗N1使用了跨層連接(①),實驗N2在N1基礎(chǔ)上多次堆疊了特征金字塔模塊(②),實驗N3進(jìn)一步引入了跨層連接(③),實驗N4在N3的基礎(chǔ)上引入了加權(quán)特征融合(④)。通過分析表3發(fā)現(xiàn),依次引入每一個改進(jìn)都在一定程度上改善了模型性能。同時引入以上4個方面的改進(jìn),在減少21.7%模型大小的同時,在所有指標(biāo)上的精度都獲得了提升,平均精度(AP)提高了0.8%,IOU等于0.5時的平均精度(AP50)提高了1.2%。

    表3 特征融合實驗

    3.4.3 總體實驗

    為了驗證文中提出MP-YOLOv4目標(biāo)檢測算法的有效性,在FlickrLogos-32數(shù)據(jù)集上對YOLOv4算法和MP-YOLOv4算法進(jìn)行了訓(xùn)練和測試,并與YOLOv3、SSD[22]和Faster R-CNN等經(jīng)典的目標(biāo)檢測算法進(jìn)行對比實驗。實驗結(jié)果如表4所示。與YOLOv4相比,本文提出的MP-YOLOv4方法在IOU等于0.5時的平均精度值(AP50)達(dá)到了67.4,AP50提高了2.4%,模型大小減小了21.7%。

    與YOLOv3、以VGG為骨干的Faster R-CNN和以Resnet50為骨干的Faster R-CNN以及SSD相比,本文提出的MP-YOLOv4算法在精度方面達(dá)到了最高,同時在模型大小方面也達(dá)到了可觀的水平,因此在模型大小和模型精度之間獲得了一個較好的平衡。

    3.4.4 消融實驗

    為了分別驗證文中提出的改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法和改進(jìn)的PANet的有效性,開展了以下的消融實驗。在基線實驗T1中未采用本文提出的任何一個改進(jìn),在實驗T2中僅采用了改進(jìn)的Mosaic(IM,improved mosaic),設(shè)置3種輸入的比例為1∶1∶2,在實驗T3中僅采用了改進(jìn)的特征融合部分(IP,improved PANet),在實驗T4中同時采用了本文提出的兩個改進(jìn)。實驗結(jié)果如表5所示。通過分析表5可以得出結(jié)論,引入兩個改進(jìn)中的任意一個都在一定程度上提高模型在所有指標(biāo)上的性能,同時引入這兩個改進(jìn),能在最大程度上提升模型性能。

    表5 消融實驗研究

    通過表4可以得出結(jié)論,本文提出的MP-YOLOv4算法在平均精度(AP)上達(dá)到了36.7%,較YOLOv4提高了2.2個百分點(diǎn),IOU等于0.5時的平均精度(AP50)達(dá)到了67.4%,較YOLOv4提高了2.4個百分點(diǎn)。同時在APS、APM和APL等指標(biāo)上均有提高,說明MP-YOLOv4算法相比于YOLOv4在多尺度檢測問題方面的性能得到了改善。

    表4 YOLOv4和MP-YOLOv4的對比實驗結(jié)果

    3.4.5 可視化研究

    除了定量的實驗結(jié)果之外,圖9展示了YOLOv4算法和MP-YOLOv4算法對于FlickrLogo-32數(shù)據(jù)集中一些有挑戰(zhàn)性樣本的檢測結(jié)果。其中圖(a)、(b)、(c)為YOLOv4 網(wǎng)絡(luò)的檢測結(jié)果,圖(d)、(e)、(f)為MP-YOLOv4算法的檢測結(jié)果。從圖中可以得出結(jié)論,本文提出的MP-YOLOv4算法對于小尺寸目標(biāo)、密集目標(biāo)和光照條件差等條件下有著更好的檢測性能,存在更少漏檢和誤檢等情況。

    圖9 YOLOv4和MP-YOLOv4的檢測效果對比

    4 結(jié)束語

    針對Logo檢測任務(wù)中出現(xiàn)的復(fù)雜背景干擾和多尺度目標(biāo)等問題,本文提出了一種改進(jìn)目標(biāo)檢測算法MP-YOLOv4。改進(jìn)了YOLOv4中的Mosaic數(shù)據(jù)增強(qiáng)算法,提出使用6張圖片混合、四張圖片混合和單張圖片3種形式來共同作為模型的訓(xùn)練輸入,并確定了3種輸入的相對最優(yōu)比例,同時采用了在訓(xùn)練結(jié)束前30個epoch關(guān)閉Mosaic數(shù)據(jù)增強(qiáng)方法訓(xùn)練策略,改進(jìn)的Mosaic方法豐富了Logo對象出現(xiàn)的背景,使得模型更好地學(xué)習(xí)到Logo對象的全局特征和局部特征,并優(yōu)化了模型訓(xùn)練。結(jié)合跨層連接、重復(fù)堆疊、直接相連和加權(quán)特征融合等操作重新設(shè)計了網(wǎng)絡(luò)的加強(qiáng)特征融合部分,增強(qiáng)了網(wǎng)絡(luò)的多尺度特征表達(dá)能力。實驗結(jié)果表明,相較于YOLOv4算法,本文提出的方法壓縮了21.7%的模型大小,在平均精度上提高了2.2個百分點(diǎn),在IOU等于0.5時的平均精度提高了2.4個百分點(diǎn)。同時,在小、中和大目標(biāo)檢測方面的性能都有提升。這說明,本文提出的MP-YOLOv4算法能更好地解決Logo檢測任務(wù)中的復(fù)雜背景和多尺度問題。

    猜你喜歡
    特征圖像融合
    改進(jìn)的LapSRN遙感圖像超分辨重建
    村企黨建聯(lián)建融合共贏
    融合菜
    從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
    有趣的圖像詩
    《融合》
    如何表達(dá)“特征”
    不忠誠的四個特征
    抓住特征巧觀察
    線性代數(shù)的應(yīng)用特征
    河南科技(2014年23期)2014-02-27 14:19:15
    嘉义市| 浪卡子县| 甘泉县| 纳雍县| 土默特右旗| 凤城市| 恩施市| 定结县| 香港 | 德昌县| 肇庆市| 双桥区| 剑河县| 宾阳县| 澄迈县| 文成县| 米泉市| 长葛市| 福清市| 龙井市| 宁武县| 深州市| 广平县| 连城县| 黄龙县| 宜川县| 陆川县| 安阳市| 萨嘎县| 咸丰县| 宣恩县| 蒙阴县| 汉源县| 方山县| 红原县| 衡东县| 固阳县| 景泰县| 平阳县| 太仓市| 梧州市|