摘要:目標(biāo)檢測技術(shù)在計算機視覺領(lǐng)域中占據(jù)了重要地位,隨著深度學(xué)習(xí)的興起,該領(lǐng)域取得了顯著進展。從傳統(tǒng)手工檢測方法到現(xiàn)代目標(biāo)檢測方法,從早期的基于候選區(qū)域的"R-CNN"系列到單階段的YOLO"系列,再到加入Transformer"架構(gòu)的DETR"系列等,目標(biāo)檢測技術(shù)隨科技進步而更新,通過對主流算法的介紹,對比了不同算法在精度、速度、資源消耗等方面的優(yōu)劣,最后探討了目標(biāo)檢測面臨的挑戰(zhàn)與未來的發(fā)展方向。
關(guān)鍵詞:深度學(xué)習(xí)"目標(biāo)檢測"一階段檢測"兩階段檢測
中圖分類號:"TP391
A"Review"of"Target"Detection"Technology"Under"the"Background"of"Deep"Learning
HUANG"Tiancai""CHEN"Bo""ZHANG"Xiaochen
School"of"Mechanical"Engineering,"Xihua"University,"Chengdu,"Sichuan"Province,"610039"China
Abstract:"Target"detection"technology"occupies"an"important"position"in"the"field"of"computer"vision,"and"it"has"made"significant"progress"with"the"rise"of"deep"learning."From"traditional"manual"detection"methods"to"modern"target"detection"methods,"from"the"early"R-CNN"series"based"on"candidate"regions"to"the"single-stage"YOLO"series,"and"then"to"the"DETR"series"with"the"addition"of"the"Transformer"architecture,"target"detection"technology"has"been"updated"with"the"advancement"of"science"and"technology."Through"the"introduction"of"mainstream"algorithms,"the"advantages"and"disadvantages"of"different"algorithms"in"terms"of"accuracy,"speed,"resource"consumption"were"compared."Finally,"the"challenges"faced"by"target"detection"and"future"development"directions"are"discussed.
Key"Words:"Deep"learning;"Target"detection;"One-stage"detection;"Two-stage"detection
目標(biāo)檢測是計算機視覺中的一項重要任務(wù),目的是將輸入圖像中所需要的部分的類別和位置標(biāo)注出來。傳統(tǒng)的目標(biāo)檢測方法依賴手工特征和機器學(xué)習(xí)技術(shù)。然而,隨著深度學(xué)習(xí)技術(shù)的引入,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional"Neural"Networks,"CNN)和"Transformer"架構(gòu)也能被應(yīng)用于目標(biāo)檢測中,目標(biāo)識別的性能大大增強,目標(biāo)檢測從傳統(tǒng)方法過渡到深度學(xué)習(xí)方法,此后,基于深度學(xué)習(xí)方法的目標(biāo)檢測網(wǎng)絡(luò)成為了主流。
1"傳統(tǒng)目標(biāo)檢測算法
1.1"傳統(tǒng)目標(biāo)檢測方法流程
傳統(tǒng)目標(biāo)檢測方法的一般流程為6步,第一,圖像預(yù)處理負(fù)責(zé)圖像歸一化和去噪處理等;第二,候選區(qū)域生成即使用滑動窗口等方法得到潛在的目標(biāo)區(qū)域;第三,特征提取是使用手工特征描述子對輸入圖像進行特征的提取操作;第四,目標(biāo)分類是使用如支持向量機(Support"Vector"Machine,"SVM)等的傳統(tǒng)分類器對待定區(qū)域的內(nèi)容進行分類;第五,邊界框優(yōu)化則是使用優(yōu)化模型來調(diào)整目標(biāo)的邊界框位置,以提高檢測的精度;第六,后處理是使用非極大值抑制(Non-Maximum"Suppression,NMS),排查掉多余的檢測部分,只留下里面評分最高的邊界框。
1.2""兩種人工目標(biāo)檢測器
人工目標(biāo)檢測器不依賴于大規(guī)模的神經(jīng)網(wǎng)絡(luò),而是通過設(shè)計特征提取和分類算法來檢測目標(biāo)。典型的檢測器如方向梯度直方圖(Histogram"of"Oriented"Gradients,"HOG)、可變形組件模型(Deformable"Part"Model,"DPM)檢測器等,它們的成功得益于對圖像特征的精心設(shè)計和特定問題的精確建模。然而,局限性也很明顯,如特征表達能力弱、檢測速度慢等。
2"深度學(xué)習(xí)目標(biāo)檢測算法
深度學(xué)習(xí)的浪潮掀起,目標(biāo)檢測的精度在CNN的強大特征提取能力加持下得到了極大提升??梢詫⑵浞譃閮呻A段檢測器和單階段檢測器兩大類"[1],這二者的區(qū)別是否有候選框生成,后者直接生成邊界框和進行類別預(yù)測,流程簡單,速度更快,但通常精度稍遜于前者。
2.1"兩階段目標(biāo)檢測
2.1.1"CNN系列
R-CNN(Region"with"CNN"Feature)是現(xiàn)代目標(biāo)檢測領(lǐng)域的開創(chuàng)性工作之一,由GIRSHICK"R等人[2]在"2014"年提出,使用選擇性搜索算法得到大量的待選框,使用CNN進行特征提取后使用SVM分類,判斷其所屬的目標(biāo)類別,準(zhǔn)確性提高,但計算效率低、訓(xùn)練復(fù)雜。Fast"R-CNN是"R-CNN"的改進版本,由"GIRSHICK"R"[3]于"2015"年提出,主要通過共享卷積特征來加速訓(xùn)練和推理過程,同時引入感興趣區(qū)域池化(Region"of"interest"pooling,"RoI"Pooling)"層,使候選區(qū)域的特征提取更有效,但候選框生成方法未變,檢測速度慢。Faster"R-CNN是由"Ren"S"Q等人[4]于"2015nbsp;年提出。首先對輸入的圖像進行關(guān)鍵信息提取處理得到特征圖并生成候選區(qū)域,通過得分篩選出高質(zhì)量的候選框,由檢測頭進行類別預(yù)測和位置回歸。
2.1.2"DETR系列
DETR[5](Detection"Transformer)首次將Transformer引入目標(biāo)檢測任務(wù),能夠自然地建模圖像中的全局關(guān)系和預(yù)測目標(biāo)所在位置和物體的種類,具有較高的檢測精度。但是在小物體檢測和訓(xùn)練效率上表現(xiàn)欠優(yōu)。針對這兩方面,Deformable"DETR[6]提出了一種可變形注意力機制,能夠在局部區(qū)域內(nèi)進行自注意力計算,避免了全局注意力計算帶來的高計算成本,加快了訓(xùn)練過程,且在小物體檢測表現(xiàn)良好,成為DETR的重要改進版本。
2.2"一階段目標(biāo)檢測
2.2.1"其他一階段算法
SSD算法全稱是"Single"Shot"MultiBox"Detector,由"LIU"W等人[7]在2016年提出,通過在多個尺度下直接預(yù)測邊界框和類別,有效處理多尺度物體的檢測任務(wù)。與Faster"R-CNN相比,速度快,精度接近。但在小物體檢測上仍然存在困難。CenterNet[8]是一種基于關(guān)鍵點檢測的目標(biāo)檢測方法,直接檢測目標(biāo)的中心點位置,不依賴"anchor"和"NMS,簡化檢測流程。速度快,精度高,特別擅長檢測小目標(biāo)和密集目標(biāo)。EfficientDet[9]是由谷歌提出的一個高效且性能優(yōu)異的檢測網(wǎng)絡(luò),通過雙向連接、模塊化設(shè)計等操作提升對不同尺寸特征的提取能力,有效提升檢測性能,通過復(fù)合縮放策略平衡了精度和效率。
2.2.2"YOLOv1-v7
YOLOv1[10],主要的結(jié)構(gòu)是參考谷歌的模型,使用單一網(wǎng)絡(luò)直接對目標(biāo)圖像進行邊界框架和類別的預(yù)測,是一個完整的端到端檢測框架,實現(xiàn)了實時目標(biāo)檢測。v2算法將更新骨干網(wǎng)絡(luò),具有更強的特征提取能力,整個網(wǎng)絡(luò)均由卷積層來構(gòu)造,可以接受任意大小的輸入圖像,模型參數(shù)量減少,提高了檢測速度。v3算法使用了DarkNet53網(wǎng)絡(luò),允許輸入信息直接傳輸?shù)降讓樱胩卣鹘鹱炙鰪娫诓煌叽缦碌念A(yù)測能力。增加CSP(Cross"Stage"Partial)和PAN(Path"Aggregation"Network)結(jié)構(gòu),得到新的v4算法,并采用馬賽克數(shù)據(jù)增強,能學(xué)習(xí)到更豐富的語義信息,提高模型的性能。v5算法由3個部分組成,Backbone用來特征提取,將特征分成兩個部分,分別經(jīng)過不同的路徑處理;Neck將不同的特征進行融合;Head可以對獲取的特征進行分類和回歸處理。v6算法使用了新的骨干網(wǎng)絡(luò)Efficient"Backbone和解耦檢測頭,并采用高效的卷積操作以降低模型計算量,引入大量的訓(xùn)練策略,增強網(wǎng)絡(luò)的泛化能力。v7算法引入了E-ELAN(Extended"Efficient"Layer"Aggregation"Networks)結(jié)構(gòu),使模型能夠更好地學(xué)習(xí)不同層次的特征,引入梯度流優(yōu)化等技術(shù),平衡了復(fù)雜度和速度,使其成為輕量化目標(biāo)檢測的首選。
2.2.3"YOLOv8-v10
YOLOv8"[11]是由"Ultralytics"于"2023"年發(fā)布,集成了更高效的網(wǎng)絡(luò)結(jié)構(gòu),主要改進為模型結(jié)構(gòu)優(yōu)化、自動錨點優(yōu)化、數(shù)據(jù)增強和提供更好的部署接口。而v9算法通過引入多尺度特征融合模塊(Multi-level"Feature"Fusion"Module,"MFFM),使網(wǎng)絡(luò)能夠更好地捕捉圖像中的細(xì)節(jié),提升小物體檢測能力,優(yōu)化嵌入式設(shè)備的推理速度,減少了多余的計算,同時保持較高的檢測精度。v10算法在CNN中融合了Transformer模塊,通過自注意力機制增強了網(wǎng)絡(luò)的全局感知能力,在處理復(fù)雜場景時具有更強的捕捉能力。引入了動態(tài)推理機制,在不降低精度的前提下提高推理速度。v10算法作為"YOLO"系列的最新進化版本,代表了單階段目標(biāo)檢測算法的前沿,在精度和速度上達到了新的高度。
3"挑戰(zhàn)與展望
雖然DETR、YOLOv9、YOLOv10等最新算法在精度和速度方面取得了顯著進展,但目標(biāo)檢測任務(wù)仍面臨諸多挑戰(zhàn)。
3.1"小物體檢測
盡管多尺度特征融合技術(shù)有利于小型物體的檢測,但面對復(fù)雜背景、環(huán)境,其檢測結(jié)果仍然不盡如人意,小目標(biāo)物體的檢測需要更加精確,如何實現(xiàn)這種需求我們應(yīng)該重點考慮。
3.2"復(fù)雜場景理解
目標(biāo)檢測算法需要應(yīng)對更加復(fù)雜的現(xiàn)實場景,如嚴(yán)重遮擋、多物體重疊以及極端光照條件。未來的算法可能會更多地結(jié)合上下文信息和多模態(tài)數(shù)據(jù)來增強對復(fù)雜場景的理解。
3.3"實時檢測與低資源設(shè)備支持
隨著邊緣計算的普及,如何在低計算資源的設(shè)備上實現(xiàn)高效目標(biāo)檢測是一個重要的研究方向。像YOLOv10引入的動態(tài)推理機制就是這一領(lǐng)域的探索,但仍須進一步優(yōu)化。
3.4"多任務(wù)學(xué)習(xí)
當(dāng)前的目標(biāo)檢測算法大部分只考慮到一種需求,如檢測或分割。隨著視覺任務(wù)的融合,算法可能會朝著多任務(wù)學(xué)習(xí)的方向發(fā)展,支持同時進行目標(biāo)檢測、分割、姿態(tài)估計等任務(wù)。
4"結(jié)語
目標(biāo)檢測技術(shù)是視覺任務(wù)的關(guān)鍵技術(shù),經(jīng)歷從傳統(tǒng)的手工特征方法到深度學(xué)習(xí)方法的演變。傳統(tǒng)方法在特征表達能力和檢測速度方面存在局限,深度學(xué)習(xí)技術(shù),從一開始的R-CNN"系列到后面的YOLO"系列與DETR系列,其檢測的速度和精度均得到了顯著提升。未來,隨著技術(shù)的發(fā)展和需求的改變,目標(biāo)檢測算法將不斷更新迭代,通過持續(xù)的研究和創(chuàng)新,其有望在更多實際應(yīng)用中發(fā)揮更大的作用,為智能視覺系統(tǒng)的建設(shè)提供有力支持。
參考文獻
[1] 黃衛(wèi).基于深度學(xué)習(xí)的目標(biāo)檢測應(yīng)用研究[D].南京:南京郵電大學(xué),2022.
[2]"GIRSHICK"R"B,"DONAHUE"J,"DARRELL"T,"et"al."Rich"feature"hierarchies"for"accurate"object"detection"and"semantic"segmentation[C]//"IEEE"conference"on"computer"vision"and"pattern"recognition."Piscataway,"NJ:IEEE,"2014:"580-587.
[3] GIRSHICK"R."Fast"R-CNN[C]//"IEEE"International"Conference"on"Computer"Vision(ICCV)."Piscataway,"NJ:IEEE,"2015:"1440-"1448.
[4] REN"S"Q,"HE"K"M,"GIRSHICK"R,"et"al."Faster"r-cnn:"towards"real-time"object"detection"with"region"proposal"networks[J]."IEEE"Transactions"on"Pattern"Analysis"and"Machine"Intelligence,"2016,"39(6):"1137-1149.
[5] CARION"N,"MASSA"F,"SYNNAEVE"G,"et"al."End-to-end"object"detection"with"transformers[C]//European"Conference"on"computer"Vision."Berlin:"Springer,2020:"213-229.
[6] ZHU"X"Z","SU"W"J","LU"L"W",et"al."Deformable"DETR:"Deformable"transformers"for"End-to-End"object"detection[C]//International"Conference"on"Learning"Representations."Washington"DC:"ICLR,2021.
[7] LIU"W,ANGUELOV"D,ERHAN"D,"et"al."SSD:"Single"Shot"Multi"Box"Detector[C]//European"Conference"on"Computer"Vision."Berlin:"Springer,2016:21-37.
[8] ZHOU"X"Y,"WANG"D"Q,"KR?HENBüHL"P."Objects"as"points[J]."arXiv"preprint"arXiv:1904.07850,"2019.
[9] TAN"M"X,"PANG"R"M,"LE"Q"V."Efficientdet:"Scalable"and"efficient"object"detection[C]//IEEE/CVF"Conference"on"Computer"Vision"and"Pattern"Recognition."Piscataway,"NJ:IEEE,"2020:"10781-10790.
[10] REDMIN"J,"DIVVALA"S,"GIRSHICK"R,"et"al."You"only"look"once:"unified,"realtime"object"detection[C]//2016"IEEE"Conference"on"Computer"Vision"and"Pattern"Recognition,"Piscataway,"NJ:IEEE,"2016:"779-788.
[11] 馬原.基于卷積神經(jīng)網(wǎng)絡(luò)的道路目標(biāo)檢測研究[D].南昌:南昌大學(xué),2024.