莊建軍, 石瀟愉
(南京信息工程大學(xué)電子與信息工程學(xué)院, 南京 210044)
互聯(lián)網(wǎng)的普及和智能手機(jī)的大眾化使人們的購(gòu)物方式產(chǎn)生了巨大的變革。在年輕一代中,傳統(tǒng)線下購(gòu)物幾乎已經(jīng)被線上購(gòu)物所取代。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心的數(shù)據(jù),中國(guó)線上購(gòu)物人數(shù)達(dá)到8.42億人,已超過(guò)總?cè)藬?shù)的1/2。一方面,互聯(lián)網(wǎng)帶來(lái)的海量產(chǎn)品令人目不暇接,用戶(hù)無(wú)法快速定位自己想要的物品,商標(biāo)檢測(cè)方法可以幫助用戶(hù)實(shí)現(xiàn)即拍即搜的效果,獲得極大便利;另一方面,大量的商標(biāo)侵權(quán)行為滋生,2022年,中國(guó)商標(biāo)異議裁定數(shù)量達(dá)1.7×105。巨大的數(shù)據(jù)量面前,由于商標(biāo)的圖片屬性,人工排查侵權(quán)行為效率低下,而使用商標(biāo)檢測(cè)方法則只需拍攝一張照片即可從數(shù)據(jù)庫(kù)中索引到相關(guān)產(chǎn)品,隨后再由人員進(jìn)行裁定,極大提高了工作效率。
王一海[1]提出了使用反向傳播(back propagation BP)神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行商標(biāo)識(shí)別,但這種靠全連接層的網(wǎng)絡(luò)效率過(guò)低。Leng等[2]引入主流的目標(biāo)檢測(cè)模型YOLOv3,在Flickrlogos-32數(shù)據(jù)集上取得了73.9%的mAP(mean average precision)。林軼等[3]基于YOLOv3得到一種交通標(biāo)志的識(shí)別方法,與商標(biāo)識(shí)別類(lèi)似,但是商標(biāo)所在場(chǎng)景更為復(fù)雜。丁明宇等[4]把YOLO(you only look once)與文字識(shí)別技術(shù)相結(jié)合,進(jìn)行商品參數(shù)的提取??偟膩?lái)看,原有的商標(biāo)識(shí)別方法,其覆蓋面不廣,使用的模型則相對(duì)落后,方法不夠有效。
隨著科技的不斷革新,對(duì)商標(biāo)識(shí)別方法提出了更高的要求,需要設(shè)計(jì)一種更準(zhǔn)、更小、更快的模型??v觀當(dāng)下使用較多的目標(biāo)檢測(cè)算法[5],一類(lèi)是以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region convolutional neural networks R-CNN)系列算法為典型的雙階段(two-stage)檢測(cè)算法,這類(lèi)算法的實(shí)現(xiàn)需要先進(jìn)行區(qū)域生成,再對(duì)區(qū)域進(jìn)行檢測(cè)達(dá)到由粗到細(xì)的整個(gè)過(guò)程。該類(lèi)算法的第一階段不但導(dǎo)致了總體計(jì)算量的增加,也給訓(xùn)練帶來(lái)很大的壓力。最后,該類(lèi)模型在普通硬件條件下無(wú)法達(dá)到實(shí)時(shí)檢測(cè)的要求,檢測(cè)速度較慢。另一類(lèi)單階段(one-stage)目標(biāo)檢測(cè)算法以YOLO為典型,它們的主要特點(diǎn)是實(shí)現(xiàn)了端到端操作,不需要多余的工作就能達(dá)到輸入圖片輸出結(jié)果的效果。其中YOLOv7是當(dāng)前最新的版本,相較之前的YOLO版本進(jìn)步顯著,其速度和精度在5FPS-160FPS的范圍內(nèi)達(dá)到了業(yè)內(nèi)最高[6]。
商標(biāo)識(shí)別存在以下難點(diǎn),首先,商標(biāo)在產(chǎn)品中出現(xiàn)的形式多樣,有標(biāo)志也有文字,因此在樣本相對(duì)較少的情況下想要得到較高的精度存在著一定的困難,對(duì)模型的泛化能力提出了更高要求。其次,電商產(chǎn)品中商標(biāo)大小差異大,這對(duì)模型的多尺度檢測(cè)能力提出了的嚴(yán)峻挑戰(zhàn)。再者,數(shù)據(jù)集中商標(biāo)出現(xiàn)的位置及方向不同,這也會(huì)對(duì)檢測(cè)造成一定的困擾。鑒于此,兼顧檢測(cè)精度和檢測(cè)速度的提升,選用YOLOv7作為基礎(chǔ)模型并對(duì)其進(jìn)行針對(duì)商標(biāo)檢測(cè)的改進(jìn)。研究成果可做到商標(biāo)的智能化實(shí)時(shí)檢測(cè),解放人們?cè)诜直嫔虡?biāo)時(shí)付出的勞動(dòng)力。
數(shù)據(jù)集取自天池平臺(tái),從整個(gè)數(shù)據(jù)集中篩選出其中74類(lèi)商標(biāo)共6 673張從線上購(gòu)物平臺(tái)中截取的圖片。其中不但有實(shí)物拍攝圖,也有商家提供的在干凈背景下的獨(dú)立商標(biāo),這有利于模型訓(xùn)練初期對(duì)特征的提取,加快收斂速度。挑選出來(lái)的圖片中只有少部分已被標(biāo)注的COCO(common objects in context)結(jié)構(gòu)標(biāo)簽,而研究所采用的是VOC(visual object classes)結(jié)構(gòu)的標(biāo)簽,因此通過(guò)文件處理將這部分json文件轉(zhuǎn)化為所需的xml文件。剩余圖片則通過(guò)LabelImg軟件進(jìn)行手動(dòng)標(biāo)注,直接獲得所需的xml文件。標(biāo)簽文件和對(duì)應(yīng)的圖片同名,信息包括各圖片中商標(biāo)的類(lèi)別名稱(chēng)和位置信息,其中位置信息包括左上坐標(biāo)(xmin,ymin)以及右下坐標(biāo)(xmax,ymin)。
為得到訓(xùn)練過(guò)程中需要的先驗(yàn)框,訓(xùn)練前使用K-means[7]算法對(duì)數(shù)據(jù)集進(jìn)行聚類(lèi)。該階段可繪制可視化結(jié)果,觀察得到商標(biāo)大小的分布,聚類(lèi)結(jié)果如圖1所示。
圖1 數(shù)據(jù)集聚類(lèi)結(jié)果Fig.1 Results of data clustering
由于類(lèi)別較多,每一類(lèi)商標(biāo)擁有的樣本數(shù)并不多。因此采用數(shù)據(jù)增強(qiáng)來(lái)擴(kuò)充數(shù)據(jù)集,增強(qiáng)模型的泛化能力?,F(xiàn)在比較流行的數(shù)據(jù)增強(qiáng)方法有Mosaic(馬賽克數(shù)據(jù)增強(qiáng))和Mixup(混類(lèi)數(shù)據(jù)增強(qiáng))。Mosaic通過(guò)圖像的縮放和拼接合成新的圖像進(jìn)行訓(xùn)練,Mixup則是將圖像設(shè)置透明度后重疊成新的圖像。兩者在不同的數(shù)據(jù)集上表現(xiàn)不一,因此需要通過(guò)實(shí)驗(yàn)來(lái)決定具體如何使用以達(dá)到最好的效果。
從數(shù)據(jù)集取出10%作為測(cè)試集,再將剩余部分以9∶1的比例分為訓(xùn)練集和驗(yàn)證集。得到訓(xùn)練集共5 404張,每一類(lèi)大致有70張圖片可用作訓(xùn)練。為直觀表示不同方法對(duì)訓(xùn)練結(jié)果的影響,本文選擇每訓(xùn)練5輪在驗(yàn)證集上進(jìn)行一次驗(yàn)證,用當(dāng)前訓(xùn)練結(jié)果計(jì)算mAP,由此來(lái)觀察其收斂速度和最終效果。實(shí)驗(yàn)方法如表1所示。
表1 數(shù)據(jù)增強(qiáng)對(duì)比方法Table 1 Comparison of data augmentation methods
圖2為數(shù)據(jù)增強(qiáng)階段的實(shí)驗(yàn)結(jié)果,可以看出,Mosaic數(shù)據(jù)增強(qiáng)對(duì)訓(xùn)練的影響最大,極大地加快了收斂速度,并且最后的結(jié)果出現(xiàn)明顯提升。而Mixup則表現(xiàn)不佳,單獨(dú)使用時(shí)甚至降低了訓(xùn)練效果。初步分析是因?yàn)榫W(wǎng)購(gòu)的實(shí)物圖由于各種活動(dòng)信息導(dǎo)致元素雜亂,使用Mixup會(huì)讓雜亂加劇,導(dǎo)致關(guān)鍵信息變得模糊,降低了提取效果。但是在和Mosaic共同使用時(shí)可以達(dá)到一定的提升效果。
mAP為各類(lèi)商標(biāo)平均檢測(cè)精確度的平均值圖2 數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)結(jié)果Fig.2 Result of data augmentation experiments
根據(jù)實(shí)驗(yàn)結(jié)果,最終選擇Mosaic和Mixup共同使用以達(dá)到更快地收斂速度和更高的精度。數(shù)據(jù)增強(qiáng)可以很好地避免模型訓(xùn)練過(guò)程中過(guò)擬合現(xiàn)象的出現(xiàn),有效地提高了模型的泛化能力,也緩解了樣本數(shù)量較少的問(wèn)題。
YOLOv7由YOLOv1逐步改進(jìn)而來(lái),從開(kāi)始建立起將圖片分成S×S的網(wǎng)格(S為網(wǎng)格的數(shù)量),再由每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)的想法[8],到改進(jìn)成為anchor-based模型[9]。YOLOv3版本中,首次在網(wǎng)絡(luò)中加入Neck部分,采用特征金字塔(feature pyramid network FPN)來(lái)解決小目標(biāo)檢測(cè)問(wèn)題[10];YOLOv4版本中,加入大量的tricks以提高性能[11],其中,Mosaic數(shù)據(jù)增強(qiáng)的使用,增加了數(shù)據(jù)量,使得背景多樣化,一定程度上降低了過(guò)擬合的危害;YOLOv5版本中,在Yolox中提出anchor-free模型,并且將檢測(cè)頭解耦,但這也帶來(lái)了參數(shù)量增加模型變大的問(wèn)題;美團(tuán)發(fā)布的YOLOv6版本更多的是在硬件上的加速。YOLOv7版本更專(zhuān)注于推理速度,在精度和速度上都超過(guò)目前主流的目標(biāo)檢測(cè)器,模型總體結(jié)構(gòu)沒(méi)有發(fā)生變化,但是改進(jìn)了網(wǎng)絡(luò)中各個(gè)具體模塊,如將CSP(cross stage partial network)替換成了創(chuàng)新的多分支堆疊結(jié)構(gòu),SPP(spatial pyramid pooling)中也加入CSP結(jié)構(gòu)以擴(kuò)大感受野。因此,采用tiny版本的YOLOv7作為基礎(chǔ)模型進(jìn)行針對(duì)性改進(jìn)。
YOLOv7算法已經(jīng)在公用數(shù)據(jù)集上達(dá)到SOTA,但是具體到特定數(shù)據(jù)集中,則尚存在改進(jìn)空間,在提高其精度的同時(shí)減少模型的參數(shù)。74類(lèi)商標(biāo)中絕大部分都存在樣式多樣的情況,并且有圖案也有文字,這對(duì)模型的泛化能力提出了較高的要求。其次,商標(biāo)的大小各異,有的出現(xiàn)在衣領(lǐng)上,目標(biāo)很小,而有的則出現(xiàn)在是衣身上,目標(biāo)很大,因此需要提高模型的多尺度特征融合能力。針對(duì)以上問(wèn)題,模型做出下述改進(jìn),并且取到了較好的結(jié)果。
2.2.1 SimBiFPN
為了達(dá)到模型輕量化的目的,從Neck層入手,將PANet替換成了在主打輕量化的模型EfficientDet[12]中被提出的雙向特征金字塔網(wǎng)絡(luò)(bi-directional feature pyramid network BiFPN),并且做出了一定的改進(jìn)。
由于各個(gè)不同的輸入特征對(duì)于最后的輸出所產(chǎn)生的貢獻(xiàn)是不等的,He等[13]在普通金字塔的基礎(chǔ)上加入了簡(jiǎn)單的注意力機(jī)制,在各個(gè)特征輸入上加入權(quán)值,從而讓網(wǎng)絡(luò)自行選擇更加重要的輸入特征。隨后去除了金字塔上下邊緣的節(jié)點(diǎn),由于這些節(jié)點(diǎn)只有一個(gè)輸入邊,對(duì)特征融合的貢獻(xiàn)度相對(duì)較小,因此這對(duì)最后的結(jié)果不會(huì)產(chǎn)生太大的影響,卻能減少參數(shù)量。并且除了進(jìn)行不同特征圖之間的特征融合,該結(jié)構(gòu)還創(chuàng)新性地增加了同一特征圖上前后不同層的特征融合。由于新增的連接處于同一條路,因此并不會(huì)增加太多的計(jì)算成本。處理過(guò)后的特征圖不僅擁有更高層次的語(yǔ)義信息,同時(shí)也融合了較低層次的位置信息。原版BiFPN結(jié)構(gòu)如圖3所示。原文中還提到使用符合縮放方法來(lái)確定該結(jié)構(gòu)的重復(fù)次數(shù)??紤]到盡量節(jié)省資源,只重復(fù)一次。
P1~P7為特征提取層中不同的輸出層圖3 BiFPN結(jié)構(gòu)Fig.3 BiFPN structure
權(quán)重計(jì)算公式為
(1)
式(1)中:ωi、ωj為不同節(jié)點(diǎn)的權(quán)重大小,歸一化后與輸入特征Ii相乘;O為加權(quán)后的輸出特征;ε為一個(gè)很小的數(shù),取值為10-4,用于防止出現(xiàn)分母為0的情況導(dǎo)致權(quán)重爆炸。
為了使該結(jié)構(gòu)能夠完美融入YOLO,對(duì)其進(jìn)行一定的改動(dòng)。將其輸入輸出節(jié)點(diǎn)均減少為3個(gè),并且更改了通道設(shè)置,從原本的全過(guò)程通道保持一致變?yōu)榱擞型ǖ涝鰷p的融合機(jī)制。這樣會(huì)造成兩個(gè)邊緣節(jié)點(diǎn)權(quán)值不多,且根據(jù)K-means聚類(lèi)得到的結(jié)果可以發(fā)現(xiàn)本數(shù)據(jù)集中等大小的商標(biāo)占據(jù)了相當(dāng)一部分?jǐn)?shù)量。因此這樣做是相對(duì)科學(xué)的。將簡(jiǎn)化后的結(jié)構(gòu)命名為SimBiFPN,其結(jié)構(gòu)如圖4所示。給出加權(quán)信息最多的P4輸出計(jì)算公式[式(2)、式(3)][14]。該方法首先通過(guò)逐通道卷積,再進(jìn)行逐點(diǎn)卷積。在使用相同計(jì)算量和參數(shù)量的情況下,深度可分離卷積能讓神經(jīng)網(wǎng)絡(luò)層數(shù)做的更深。Resize操作表示使用1*1卷積進(jìn)行通道數(shù)的改變以及上下采樣。
為第n個(gè)輸入層;為第n個(gè)輸出層;Conv為卷積;Wmn為第m輪加權(quán)的第n個(gè)權(quán)重;Add為矩陣相加;SpConv為深度可分離卷積;UpSampling2D為2D維度的上采樣;DownSampling2D為2D維度的下采樣圖4 SimBiFPN結(jié)構(gòu)圖Fig.4 SimBiFPN construction
淺層特征圖的感受野比較小,包含的是位置信息,而語(yǔ)義信息不足,易受到干擾,因此只適合檢測(cè)小目標(biāo);而在深層特征圖中,其感受野逐漸變大,包含豐富的語(yǔ)義信息,但是細(xì)節(jié)信息丟失嚴(yán)重。使用了簡(jiǎn)化的雙向特征金字塔網(wǎng)絡(luò)后,很好地提升了網(wǎng)絡(luò)的特征融合能力,對(duì)于形狀大小各異的商標(biāo)具有了更好的識(shí)別能力。
(2)
(3)
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+
αw2⊙αf2⊙αc2⊙αs2⊙W2+…+
αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
(4)
2.2.2 注意力機(jī)制
在商標(biāo)識(shí)別的過(guò)程中,會(huì)遇到同一商標(biāo)出現(xiàn)多種藝術(shù)形態(tài)的情況,這時(shí)候就需要模型更多地去關(guān)注關(guān)鍵性語(yǔ)義信息,防止預(yù)測(cè)結(jié)果被無(wú)關(guān)的細(xì)節(jié)改動(dòng)影響。因此引入帶有注意力機(jī)制的動(dòng)態(tài)卷積。
近年來(lái),針對(duì)動(dòng)態(tài)卷積的研究較多,較新的是全維度動(dòng)態(tài)卷積(omni-dimensional dynamic convolution,ODConv)[16]。動(dòng)態(tài)卷積主要受益于注意力機(jī)制的使用,因此選擇在網(wǎng)絡(luò)中添加ODConv進(jìn)行嘗試。
動(dòng)態(tài)卷積有兩個(gè)基本元素:卷積核和用于計(jì)算注意力的注意力函數(shù)。它對(duì)多個(gè)卷積核進(jìn)行線性加權(quán),權(quán)值與輸入掛鉤,使得動(dòng)態(tài)卷積依賴(lài)于輸入特征。ODConv具有多維注意力機(jī)制,使用并行策略將卷積核空間的4個(gè)維度均帶上權(quán)值,分別是輸入輸出通道數(shù)、空間核尺寸和卷積核個(gè)數(shù),計(jì)算公式如式(4)所示。
采用的YOLOv7結(jié)構(gòu)中,在Neck和head之間有一個(gè)Conv連接塊對(duì)網(wǎng)絡(luò)影響不大且處于關(guān)鍵位置,因此考慮將這3個(gè)Conv改為ODConv模塊。加入動(dòng)態(tài)卷積使網(wǎng)絡(luò)具有注意力機(jī)制,強(qiáng)化有用信息,抑制無(wú)關(guān)信息,根據(jù)不同的輸入來(lái)調(diào)整參數(shù),加強(qiáng)了特征提取能力,使模型更加關(guān)注整體語(yǔ)義信息。
2.2.3 小目標(biāo)檢測(cè)
當(dāng)前市場(chǎng)上存在許多的商品將商標(biāo)打在后面的衣領(lǐng)下,該類(lèi)商標(biāo)往往十分細(xì)小,屬于小目標(biāo)。因此需要為模型提供像素級(jí)建模的能力,以提升其對(duì)小目標(biāo)的檢測(cè)能力。
Funnel激活函數(shù)FRelu[17]在近兩年被提出,與傳統(tǒng)的激活函數(shù)實(shí)現(xiàn)方式不同,它的實(shí)現(xiàn)形式如式(5)所示。
y=max[x,T(x)]
(5)
式(5)中:函數(shù)T(x)表示二維空間的條件;y為輸出特征張量;x為輸入特征張量。
該激活函數(shù)的實(shí)現(xiàn)非常簡(jiǎn)單,并且計(jì)算開(kāi)銷(xiāo)的增加幾乎可以忽略不計(jì)。在使用了空間條件后,該激活函數(shù)具備了像素級(jí)的建模能力。其具體實(shí)現(xiàn)方式如圖5所示。
圖5 Funnel激活函數(shù)Fig.5 FRelu activation function
這種激活函數(shù)是專(zhuān)門(mén)為計(jì)算機(jī)視覺(jué)任務(wù)而設(shè)計(jì)的,從圖5中可以看到,激活函數(shù)的條件值變成了一個(gè)依賴(lài)于空間上下文的二維漏斗狀條件,可以為提取精細(xì)空間信息作出貢獻(xiàn)。
深度學(xué)習(xí)的訓(xùn)練是一個(gè)相當(dāng)耗時(shí)的過(guò)程,因此使用GPU進(jìn)行加速運(yùn)算來(lái)提高迭代效率很有必要。采用的實(shí)驗(yàn)平臺(tái)是個(gè)人計(jì)算機(jī),具體配置如表2所示。
表2 實(shí)驗(yàn)環(huán)境配置Table 2 Experimental environment configuration
模型訓(xùn)練時(shí)從0開(kāi)始訓(xùn)練,batchsize設(shè)置為8,采用adam優(yōu)化器[18],動(dòng)量設(shè)置為0.937,初始學(xué)習(xí)率為10-3,并且使用余弦退火[19],無(wú)權(quán)值衰減。最終訓(xùn)練模型時(shí)的損失下降情況如圖6所示。可以看出,在150輪模型已經(jīng)區(qū)域收斂,因此決定將訓(xùn)練輪數(shù)定為150。
圖6 損失下降情況Fig.6 Loss decline
目標(biāo)檢測(cè)類(lèi)任務(wù)通常采用mAP作為評(píng)價(jià)模型性能的指標(biāo),代表著對(duì)目標(biāo)的類(lèi)別信息以及位置信息的預(yù)測(cè)準(zhǔn)確程度。位置信息通常采用各類(lèi)IoU來(lái)進(jìn)行計(jì)算。該指標(biāo)中包括了查全率R和查準(zhǔn)率P,AP的值就是由P-R曲線與坐標(biāo)軸圍成的面積計(jì)算得來(lái)的,平均各類(lèi)的AP得到mAP,計(jì)算公式為
(6)
式(6)中:c為商標(biāo)類(lèi)別數(shù);Pc(R)為第c類(lèi)查準(zhǔn)率關(guān)于查全率的曲線。
此外,還關(guān)注模型的浮點(diǎn)運(yùn)算次數(shù)(GFLOPs)和參數(shù)量,用于衡量模型的計(jì)算復(fù)雜度。
對(duì)YOLOv7網(wǎng)絡(luò)采用3種改進(jìn)策略,為此單獨(dú)及綜合考察3種策略帶來(lái)的預(yù)測(cè)效果。為區(qū)分不同模型,對(duì)其進(jìn)行命名,如表3所示。
表3 模型改進(jìn)策略Table 3 Strategies of model improvement
如圖7所示,根據(jù)消融實(shí)驗(yàn)得出這5個(gè)模型在相同條件下訓(xùn)練150輪后的mAP,并且計(jì)算其各自的浮點(diǎn)計(jì)算次數(shù)和參數(shù)量,對(duì)比數(shù)據(jù)發(fā)現(xiàn)3種策略單獨(dú)并未起到太大的效果,只是在保持結(jié)果基本不變的情況下減少了模型的浮點(diǎn)計(jì)算次數(shù)以及參數(shù)量。當(dāng)三者共同使用時(shí),mAP到達(dá)了85.84%,相較于原始模型提升了約2個(gè)百分點(diǎn),并且將參數(shù)量和浮點(diǎn)運(yùn)算次數(shù)控制在相對(duì)較低的水平。
圖7 消融實(shí)驗(yàn)對(duì)比Fig.7 Comparison of ablation experiments
為了進(jìn)一步驗(yàn)證方法的有效性,將改進(jìn)模型與其他常用模型進(jìn)行對(duì)比試驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。相較于原模型,本文算法將mAP提高了近兩個(gè)點(diǎn)的同時(shí),極大地降低了參數(shù)量和浮點(diǎn)計(jì)算次數(shù),分別降低了41%和92.9%。且經(jīng)過(guò)實(shí)驗(yàn)得到該算法的FPS在60幀以上,達(dá)到了實(shí)時(shí)檢測(cè)的水平。
表4 不同檢測(cè)算法對(duì)比Table 4 Comparison of different detection algorithms
在實(shí)際表現(xiàn)方面,挑選相對(duì)復(fù)雜的圖片讓原始模型和改進(jìn)模型進(jìn)行預(yù)測(cè),對(duì)比發(fā)現(xiàn),改進(jìn)后的模型識(shí)別出了原版未檢測(cè)到的領(lǐng)口商標(biāo),這得益于FRelu的使用,讓模型具備了像素級(jí)建模能力,提升了小目標(biāo)檢測(cè)準(zhǔn)確率。改進(jìn)后的算法識(shí)別出了更多的鏡像商標(biāo),此處得益于ODConv的使用,其中的注意力機(jī)制使模型更加注重關(guān)鍵特征,不會(huì)因?yàn)楹?jiǎn)單的變形就導(dǎo)致無(wú)法識(shí)別。
從提高線上購(gòu)物效率及打擊商標(biāo)侵權(quán)場(chǎng)景中的關(guān)鍵性技術(shù)出發(fā),提出一種基于YOLOv7的商標(biāo)檢測(cè)算法。得出如下結(jié)論。
(1)在數(shù)據(jù)方面,采用Mosaic和Mixup兩種數(shù)據(jù)增強(qiáng)方式共同使用的方法以提高模型的泛化能力。
(2)在模型本身方面,為了適應(yīng)商標(biāo)識(shí)別的特點(diǎn),增強(qiáng)算法性能,做以下改進(jìn)措施:一是通過(guò)改進(jìn)金字塔結(jié)構(gòu),將PANet更改為SimBiFPN,提升了模型的多尺度特征檢測(cè)能力;二是修改關(guān)鍵節(jié)點(diǎn)的卷積成為ODCov來(lái)給模型加入注意力機(jī)制,以便于提取關(guān)鍵語(yǔ)義信息;三是更新激活函數(shù)為FRelu,使算法具備像素級(jí)建模能力。根據(jù)實(shí)驗(yàn)結(jié)果可以看出,采用的方法在明顯提高精度的同時(shí)控制了參數(shù)量和浮點(diǎn)運(yùn)算次數(shù)。改進(jìn)模型在檢測(cè)任務(wù)中可以成功識(shí)別出大部分細(xì)小商標(biāo)和扭曲變形商標(biāo),算法的泛化能力具有一定的保障,且算法運(yùn)行的FPS在60幀以上,能夠?qū)崿F(xiàn)快速檢測(cè)的目的。
(3)該研究尚有進(jìn)一步改進(jìn)的空間,未來(lái)將在識(shí)別速度、識(shí)別精度以及泛化能力上繼續(xù)提升算法性能。