黃 燦
(中國(guó)人民解放軍91550部隊(duì),遼寧 大連 116023)
近年來(lái),隨著無(wú)人機(jī)在軍事、農(nóng)業(yè)、勘探等多個(gè)領(lǐng)域的廣泛運(yùn)用,無(wú)人機(jī)的種類與功能呈現(xiàn)日益多樣化的趨勢(shì)。舉例而言,無(wú)人機(jī)在軍事戰(zhàn)場(chǎng)上可完成諸如偵察使命,搜集敵軍動(dòng)態(tài),實(shí)時(shí)傳輸情報(bào)等任務(wù),從而協(xié)助軍方制定決策策略。此外,無(wú)人機(jī)能夠形成編隊(duì),協(xié)同合作,執(zhí)行復(fù)雜的航空使命,如空中打擊、干擾等。在農(nóng)業(yè)領(lǐng)域,無(wú)人機(jī)可精準(zhǔn)地進(jìn)行農(nóng)田施肥和農(nóng)藥噴灑,減少化學(xué)藥劑的使用,提升作物產(chǎn)出,同時(shí)借助搭載的傳感器對(duì)農(nóng)田土壤進(jìn)行分析,協(xié)助農(nóng)戶了解土壤狀況,優(yōu)化種植方案。至于勘探領(lǐng)域,無(wú)人機(jī)能夠用于勘探礦產(chǎn)資源、油氣藏等,采集地質(zhì)信息,助力資源勘探開(kāi)發(fā)。而在地理科考領(lǐng)域,無(wú)人機(jī)足跡可抵達(dá)難以抵達(dá)之地,監(jiān)測(cè)環(huán)境污染、自然災(zāi)害等狀況,提供關(guān)鍵的環(huán)境數(shù)據(jù)。除了前述領(lǐng)域,無(wú)人機(jī)在諸多其他領(lǐng)域也得到廣泛應(yīng)用,包括環(huán)境監(jiān)測(cè)、物流派送、電力檢查等。隨著科技持續(xù)演進(jìn),無(wú)人機(jī)的應(yīng)用范圍定將延伸擴(kuò)展。
無(wú)人機(jī)為人類生活帶來(lái)便利的同時(shí),也引發(fā)了各種隱私和公共安全問(wèn)題[1]。隨著無(wú)人機(jī)的普及,防止無(wú)人機(jī)被用于惡意活動(dòng)、間諜行為、恐怖襲擊以及非法入侵等問(wèn)題變得至關(guān)重要。監(jiān)測(cè)和識(shí)別無(wú)人機(jī)能夠幫助預(yù)防危害公共安全和國(guó)家安全的事件發(fā)生。任由無(wú)人機(jī)自由活動(dòng)可能侵犯?jìng)€(gè)人和機(jī)構(gòu)的隱私,而無(wú)人機(jī)的監(jiān)測(cè)和識(shí)別技術(shù)可以幫助監(jiān)控其飛行活動(dòng),防止隱私泄露等事件的發(fā)生。
與此同時(shí),隨著無(wú)人機(jī)數(shù)量的增加,空中交通管理會(huì)變得更加復(fù)雜,無(wú)人-有人飛行器共享同一片空域可能引發(fā)碰撞風(fēng)險(xiǎn),有必要建立可靠的空中交通管理系統(tǒng)。特別地,為避免發(fā)生航空事故,機(jī)場(chǎng)周邊區(qū)域通常設(shè)為無(wú)人機(jī)禁飛區(qū);為防止軍事入侵,通常采用對(duì)抗反制技術(shù)監(jiān)測(cè)敵方無(wú)人機(jī)。因此,研發(fā)能夠快速、準(zhǔn)確識(shí)別無(wú)人機(jī)的空域監(jiān)控系統(tǒng)尤為必要,對(duì)于確保公共安全、保護(hù)隱私、維護(hù)空中交通秩序以及促進(jìn)技術(shù)創(chuàng)新都具有重要的現(xiàn)實(shí)意義。
傳統(tǒng)的無(wú)人機(jī)監(jiān)控方法依賴于雷達(dá)[2-4]、音頻信號(hào)[5-6]或紅外[7-10]技術(shù)進(jìn)行感知,但這種方法僅能判定特定空域內(nèi)是否存在無(wú)人機(jī),無(wú)法辨識(shí)其具體型號(hào)。無(wú)人機(jī)型號(hào)辨識(shí)在分析無(wú)人機(jī)功能、評(píng)估潛在危害方面具有重要基礎(chǔ)性質(zhì),因而傳統(tǒng)方法的適用范圍受限。然而,隨著計(jì)算機(jī)視覺(jué)領(lǐng)域中目標(biāo)檢測(cè)與識(shí)別技術(shù)的蓬勃發(fā)展,涌現(xiàn)出Faster R-CNN[11]、SSD[12]、YOLO[13]等卓越性能的目標(biāo)識(shí)別算法。這些目標(biāo)識(shí)別算法作為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要組成部分,旨在讓計(jì)算機(jī)能夠自動(dòng)辨識(shí)和定位圖像或視頻中的特定物體。這些物體包括但不限于人、動(dòng)物、車輛以及各類實(shí)體物體。目標(biāo)識(shí)別算法的主要使命在于通過(guò)訓(xùn)練,使計(jì)算機(jī)能夠理解與解釋圖像內(nèi)容,并在新的未曾接觸過(guò)的圖像中精確尋找和識(shí)別這些目標(biāo)?;诖?,借助計(jì)算機(jī)視覺(jué)的無(wú)人機(jī)目標(biāo)識(shí)別技術(shù)為空域監(jiān)控系統(tǒng)的研發(fā)帶來(lái)全新機(jī)遇與挑戰(zhàn)[14]。該技術(shù)不僅能夠檢測(cè)視野中無(wú)人機(jī)的位置,還具備對(duì)目標(biāo)進(jìn)行分類的能力,如圖1所示。
圖1 無(wú)人機(jī)目標(biāo)識(shí)別示意圖
不同于傳統(tǒng)方法,基于圖像的無(wú)人機(jī)目標(biāo)識(shí)別存在一些獨(dú)特的挑戰(zhàn):1)無(wú)人機(jī)通常低空飛行,圖像背景復(fù)雜;2)拍攝距離遠(yuǎn),圖像前景目標(biāo)較?。?)缺少大規(guī)模無(wú)人機(jī)數(shù)據(jù)集,且由于機(jī)型的升級(jí)更新速度快,新機(jī)型的數(shù)據(jù)集規(guī)模明顯小于常見(jiàn)機(jī)型。目前,已經(jīng)有部分研究工作圍繞前兩項(xiàng)挑戰(zhàn)做出了努力[14-18],但仍無(wú)法克服新機(jī)型的小樣本目標(biāo)識(shí)別問(wèn)題。在計(jì)算機(jī)視覺(jué)中,小樣本問(wèn)題是指在訓(xùn)練數(shù)據(jù)非常有限的情況下,如何有效地訓(xùn)練模型以實(shí)現(xiàn)準(zhǔn)確的目標(biāo)識(shí)別、分類或檢測(cè)。充足的數(shù)據(jù)是獲得一個(gè)合格模型的關(guān)鍵。在實(shí)際應(yīng)用中,獲取大量標(biāo)注的無(wú)人機(jī)圖像數(shù)據(jù)可能是困難的,這導(dǎo)致小樣本問(wèn)題的出現(xiàn)。
針對(duì)無(wú)人機(jī)數(shù)據(jù)集中新機(jī)型樣本量少以及識(shí)別圖像復(fù)雜性高的問(wèn)題,本文提出了一種基于模型微調(diào)的空中無(wú)人機(jī)小樣本目標(biāo)識(shí)別方法。通過(guò)微調(diào)Faster R-CNN算法,遷移小樣本數(shù)據(jù)集上的知識(shí)到預(yù)訓(xùn)練數(shù)據(jù)集中,以更好地適應(yīng)實(shí)際場(chǎng)景,提高無(wú)人機(jī)監(jiān)測(cè)的可行性。Faster R-CNN算法在目標(biāo)檢測(cè)領(lǐng)域表現(xiàn)出色,具有高準(zhǔn)確性和魯棒性。利用微調(diào)技術(shù),可以通過(guò)在預(yù)訓(xùn)練模型上進(jìn)一步優(yōu)化,使算法在無(wú)人機(jī)檢測(cè)任務(wù)上具備更高的識(shí)別精度和魯棒性。方法包含預(yù)訓(xùn)練和微調(diào)兩個(gè)階段:首先采用具有大量樣本的常見(jiàn)無(wú)人機(jī)數(shù)據(jù)集預(yù)訓(xùn)練Faster R-CNN模型;然后固定骨干網(wǎng)絡(luò)權(quán)重,并將分類層替換為余弦相似度,利用具有少量樣本的新機(jī)型數(shù)據(jù)集更新分類層。
無(wú)人機(jī)監(jiān)測(cè)和目標(biāo)識(shí)別的研究雖然具有顯著的重要性,但也面臨著一系列復(fù)雜而具有挑戰(zhàn)性的問(wèn)題。無(wú)人機(jī)在形態(tài)和外觀上呈現(xiàn)出多樣性,特別是在不同尺寸、形狀和顏色的情況下,這種多樣性使得使用單一的視覺(jué)特征難以實(shí)現(xiàn)準(zhǔn)確的識(shí)別。無(wú)人機(jī)可能會(huì)以各種不同的角度和方向出現(xiàn)在監(jiān)測(cè)設(shè)備的視野中,而這些視角的變化導(dǎo)致目標(biāo)被部分遮擋或者產(chǎn)生形變,從而增加了識(shí)別的難度。并且,建筑物、樹木、電線等障礙物可能會(huì)遮擋無(wú)人機(jī),或者無(wú)人機(jī)可能出現(xiàn)在復(fù)雜的背景中,這些因素都會(huì)對(duì)目標(biāo)的準(zhǔn)確檢測(cè)和識(shí)別產(chǎn)生影響。此外,無(wú)人機(jī)的監(jiān)測(cè)任務(wù)可能涉及多個(gè)類別,包括不同型號(hào)和尺寸的無(wú)人機(jī),甚至可能包括其他類似鳥類的物體。這種多類別的監(jiān)測(cè)要求算法具備更高的復(fù)雜性和區(qū)分能力。上述分析表明,監(jiān)測(cè)和識(shí)別無(wú)人機(jī)的任務(wù)是復(fù)雜而具有挑戰(zhàn)性的,必須綜合考慮算法的創(chuàng)新性、數(shù)據(jù)的可用性等多個(gè)方面的因素,才能夠有效解決。
無(wú)人機(jī)目標(biāo)檢測(cè)與識(shí)別通?;诶走_(dá)、紅外和計(jì)算機(jī)視覺(jué)方法實(shí)現(xiàn)。雷達(dá)是一種傳統(tǒng)的主動(dòng)探測(cè)方法,最早應(yīng)用于軍事領(lǐng)域[2-4]。然而,雷達(dá)對(duì)環(huán)境具有潛在的侵入性?;谝纛l的檢測(cè)方法在城市環(huán)境中存在一定的局限性[5-6]?;诩t外的檢測(cè)方法受到分辨率的限制,設(shè)備并不能有效地檢測(cè)到小型無(wú)人機(jī)[7-10]。傳統(tǒng)探測(cè)方法在實(shí)際應(yīng)用中具有不同的局限性,且都無(wú)法對(duì)無(wú)人機(jī)機(jī)型進(jìn)行判別?;谟?jì)算機(jī)視覺(jué)的方法彌補(bǔ)了上述缺點(diǎn),能夠兼顧目標(biāo)檢測(cè)與分類[14-18]。針對(duì)空中無(wú)人機(jī)圖像背景復(fù)雜、前景特征難以辨別的問(wèn)題,Liu等人提出了一種基于高分辨率相機(jī)陣列的無(wú)人機(jī)目標(biāo)識(shí)別方法,實(shí)現(xiàn)了空中無(wú)人機(jī)的細(xì)粒度分類[15]。劉孫相與等人針對(duì)空中目標(biāo)小的問(wèn)題,基于視頻中目標(biāo)二階運(yùn)動(dòng)參量以及重力方向運(yùn)動(dòng)參量提出了一種無(wú)人機(jī)目標(biāo)識(shí)別方法[18]。Dilshad等人[19]提出了一種新穎的無(wú)人機(jī)目標(biāo)位置感知框架,通過(guò)使用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)處理來(lái)自視覺(jué)傳感器的數(shù)據(jù)來(lái)檢測(cè)無(wú)人機(jī)的目標(biāo)位置。假設(shè)無(wú)人機(jī)處于物聯(lián)網(wǎng)環(huán)境中,首先應(yīng)用物體檢測(cè)技術(shù)來(lái)檢測(cè)感興趣的物體。隨后,應(yīng)用光學(xué)字符識(shí)別技術(shù)提取有用的上下文信息。最后,提取的信息被轉(zhuǎn)發(fā)到地圖應(yīng)用編程接口,以確定無(wú)人機(jī)的目標(biāo)位置。Zhou等人[13]針對(duì)無(wú)人機(jī)視角下的小物體開(kāi)發(fā)了一種特殊的檢測(cè)方法。在YOLOv3的基礎(chǔ)上,首先通過(guò)連接兩個(gè)具有相同寬度和高度的殘差網(wǎng)絡(luò)單元來(lái)優(yōu)化子模塊中的殘差塊。然后,通過(guò)增加早期層的卷積操作來(lái)豐富空間信息,從而改進(jìn)整個(gè)無(wú)人機(jī)目標(biāo)檢測(cè)結(jié)構(gòu)的感受野[20]。
然而,在實(shí)際無(wú)人機(jī)目標(biāo)檢測(cè)任務(wù)中,獲取嚴(yán)格且充足的數(shù)據(jù)集通常具有一定的困難。特別是在某些特定場(chǎng)景下,獲得大量標(biāo)注的無(wú)人機(jī)數(shù)據(jù)可能會(huì)變得復(fù)雜。這種情況可能導(dǎo)致數(shù)據(jù)不足問(wèn)題,從而影響模型的訓(xùn)練與性能。此外,對(duì)于新型無(wú)人機(jī)樣本的獲取也具有挑戰(zhàn),這些樣本可能與常見(jiàn)機(jī)型存在較大的差異。上述方法在解決無(wú)人機(jī)小樣本識(shí)別問(wèn)題方面尚存在一定局限性。
本文所提出的方法旨在解決空中無(wú)人機(jī)小樣本目標(biāo)識(shí)別的問(wèn)題,其過(guò)程涵蓋兩個(gè)關(guān)鍵階段,以實(shí)現(xiàn)有效的模型學(xué)習(xí)。這兩個(gè)主要階段為:
首先,第一階段以豐富的常見(jiàn)機(jī)型數(shù)據(jù)集為基礎(chǔ),對(duì)Faster R-CNN模型進(jìn)行訓(xùn)練。通過(guò)使用樣本數(shù)量充足的數(shù)據(jù)集構(gòu)建預(yù)訓(xùn)練模型,該模型有效地捕捉和學(xué)習(xí)目標(biāo)的特征信息。這一階段專注于提升常見(jiàn)機(jī)型目標(biāo)識(shí)別的性能,為后續(xù)的小樣本學(xué)習(xí)奠定堅(jiān)實(shí)基礎(chǔ)。
其次,第二階段轉(zhuǎn)向面對(duì)樣本量較少的新機(jī)型數(shù)據(jù)集。在保持常見(jiàn)機(jī)型目標(biāo)識(shí)別性能不受影響的前提下,進(jìn)行微調(diào)網(wǎng)絡(luò)。通過(guò)有針對(duì)性地調(diào)整模型參數(shù),能夠使其在小樣本場(chǎng)景下實(shí)現(xiàn)對(duì)新機(jī)型目標(biāo)的識(shí)別。這一階段的目標(biāo)是充分利用少量新機(jī)型數(shù)據(jù),使模型在小樣本情況下也能表現(xiàn)出良好的目標(biāo)識(shí)別能力。
通過(guò)上述雙重階段的訓(xùn)練方法,能夠有效地構(gòu)建出適用于空中無(wú)人機(jī)目標(biāo)識(shí)別的小樣本模型。此方法不僅能夠在常見(jiàn)機(jī)型上實(shí)現(xiàn)高效目標(biāo)識(shí)別,同時(shí)也能夠應(yīng)對(duì)新機(jī)型的小樣本挑戰(zhàn),為無(wú)人機(jī)目標(biāo)識(shí)別任務(wù)提供了一種可行且有效的解決方案。
Faster-RCNN是一種綜合性的目標(biāo)檢測(cè)模型,其架構(gòu)包括主干網(wǎng)絡(luò)、區(qū)域候選網(wǎng)絡(luò)(RPN,region proposal network)、興趣區(qū)域池化(ROI Pooling,region of interest pooling)模塊以及全連接層。整體模型框架如圖2所示,在這個(gè)框架中,各個(gè)組件緊密協(xié)同工作,實(shí)現(xiàn)了高效的目標(biāo)檢測(cè)過(guò)程。
圖2 Faster R-CNN模型示意圖
2.1.1 主干網(wǎng)絡(luò)
主干網(wǎng)絡(luò)負(fù)責(zé)提取輸入樣本的抽象特征,通常包含多個(gè)卷積層和池化層,用于逐層地提取圖像的低級(jí)到高級(jí)的特征。這些特征能夠捕捉圖像中的不同層次的信息,從邊緣、紋理到更高級(jí)的語(yǔ)義特征。在原始的Faster R-CNN中,主干網(wǎng)絡(luò)采用的是VGG16[21]。主干網(wǎng)絡(luò)的輸出會(huì)被送入RPN來(lái)生成候選區(qū)域,然后再傳入后續(xù)的分類和回歸網(wǎng)絡(luò)來(lái)完成目標(biāo)的定位和識(shí)別。
深層次的網(wǎng)絡(luò)結(jié)構(gòu)有助于增強(qiáng)模型的特征表達(dá)能力,考慮到深層網(wǎng)絡(luò)中容易出現(xiàn)梯度消失和梯度爆炸的問(wèn)題,本文采用ResNet-34[22]作為主干網(wǎng)絡(luò)。該模型通過(guò)殘差塊之間的跳躍連接將淺層特征與深層特征融合,進(jìn)而防止模型退化。主干網(wǎng)絡(luò)由33個(gè)卷積層和1個(gè)最大池化層構(gòu)成,輸入維度為224×224×3,輸出特征維度為7×7×512。
2.1.2 RPN網(wǎng)絡(luò)
RPN是一種深度學(xué)習(xí)網(wǎng)絡(luò),用于生成圖像中可能包含目標(biāo)的候選區(qū)域,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。它同樣也是Faster R-CNN目標(biāo)檢測(cè)算法的核心組成部分之一,能夠幫助算法在輸入圖像中識(shí)別出可能的目標(biāo)位置,從而提高檢測(cè)的效率和準(zhǔn)確性。RPN的主要概念是基于錨框(Anchor Box)的思想。錨框是預(yù)定義的一系列固定尺寸和寬高比的矩形框,它們被放置在輸入圖像上的不同位置,用來(lái)覆蓋各種可能的目標(biāo)位置。RPN在錨框上應(yīng)用卷積神經(jīng)網(wǎng)絡(luò),通過(guò)對(duì)每個(gè)錨框進(jìn)行分類和回歸,來(lái)判斷這些框中是否包含目標(biāo)以及如何調(diào)整它們以更好地匹配實(shí)際目標(biāo)位置。
圖3 RPN結(jié)構(gòu)示意圖
RPN網(wǎng)絡(luò)的輸入可以是任意大小的特征圖,其輸出是不同的建議矩形區(qū)域,每個(gè)區(qū)域都有判斷其是否為目標(biāo)前景的評(píng)分。RPN采用滑動(dòng)窗口的方式提取候選區(qū)域,并首次提出了Anchor機(jī)制。本文采用3×3的滑動(dòng)窗口,每經(jīng)過(guò)一個(gè)像素區(qū)域,就以當(dāng)前像素點(diǎn)為中心生成Anchor。Anchor的尺寸分別為128×128,256×256和512×512,每種尺寸有1∶1、1∶2、2∶1三種長(zhǎng)寬比,因此每個(gè)區(qū)域有9個(gè)Anchor。在訓(xùn)練過(guò)程中,RPN會(huì)對(duì)每個(gè)Anchor進(jìn)行二分類,判斷其包含目標(biāo)前景的概率;此外,RPN還通過(guò)1×1的卷積生成Anchor的坐標(biāo)偏移量。由于不是所有的Anchor都對(duì)網(wǎng)絡(luò)訓(xùn)練有用,因此將前景與背景交并比大于0.7的Anchor視為正樣本,其它為負(fù)樣本。通過(guò)排序后,分別篩選出128個(gè)正樣本和負(fù)樣本用于訓(xùn)練。
(1)
(2)
(3)
公式(2)中邊界框參數(shù)tx,ty,tω,th的計(jì)算方式如下:
tx=(x-xa)/ωa
(4)
ty=(y-ya)/ωa
(5)
tω=log(ω/ωa)
(6)
th=log(h/ha)
(7)
2.1.3 ROI Pooling
ROI(region of interest)是指圖像中的一個(gè)特定區(qū)域,通常是包含了感興趣目標(biāo)或信息的部分。在計(jì)算機(jī)視覺(jué)中,ROI是指那些需要特別關(guān)注和處理的圖像區(qū)域,可能是目標(biāo)、物體、區(qū)域等。ROI可以通過(guò)不同的方式定義,如矩形框、多邊形等。ROI的概念是為了在圖像處理或計(jì)算機(jī)視覺(jué)任務(wù)中,聚焦于感興趣的區(qū)域,從而減少處理的計(jì)算量、提高效率,并且能夠更好地捕捉到相關(guān)的信息。
由于RPN模塊輸出的建議區(qū)域大小不一致,因此需要ROI Pooling模塊將網(wǎng)絡(luò)得到的建議區(qū)域大小統(tǒng)一。ROI Pooling在目標(biāo)檢測(cè)中的應(yīng)用能夠有效地處理不同尺寸的目標(biāo)區(qū)域,保持重要的特征信息,并提高計(jì)算效率,從而在目標(biāo)檢測(cè)任務(wù)中發(fā)揮重要作用。其原理示意圖如圖4所示,該模塊有兩個(gè)輸入:主干網(wǎng)絡(luò)提取的特征圖和RPN輸出的建議區(qū)域。ROI Pooling根據(jù)Anchor將感興趣區(qū)域映射到特征圖的對(duì)應(yīng)位置,然后將該區(qū)域根據(jù)預(yù)設(shè)尺寸進(jìn)行劃分,在本文中設(shè)定為5×5。對(duì)每個(gè)小區(qū)域內(nèi)的像素進(jìn)行最大池化操作,即可得到統(tǒng)一大小的感興趣區(qū)域。
圖4 ROI Pooling模塊示意圖
2.1.4 全連接層
全連接層的輸入為ROI Pooling層的輸出,主要用于分類和輸出邊界框。這里的分類和RPN中的分類不同,RPN中只是二分類,區(qū)分目標(biāo)還是背景;此處的分類是識(shí)別所有正樣本 Anchor中的物體具體屬于哪一類。全連接層的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,包含兩層維度為1 024的全連接層,采用ReLU作為激活函數(shù)。輸出層中n為類別數(shù)量,該層分別輸出目標(biāo)類別和邊界框位置。在FasterR-CNN中,全連接層的輸出損失LFc與RPN層是一樣的[11]。
圖5 全連接層示意圖
2.1.5 模型預(yù)訓(xùn)練
預(yù)訓(xùn)練使用的數(shù)據(jù)為具有大量樣本的常見(jiàn)機(jī)型圖像。傳統(tǒng)的Faster R-CNN采用分階段的訓(xùn)練策略,即先訓(xùn)練RPN模塊,然后固定住RPN模塊參數(shù),用RPN生成的建議框訓(xùn)練ROI Pooling和全連接層部分。本文的預(yù)訓(xùn)練采用聯(lián)合訓(xùn)練RPN模塊和全連接層的方式,損失函數(shù)如公式(8)所示。其中,LRPN為RPN網(wǎng)絡(luò)的損失,用于衡量預(yù)測(cè)錨框是否包含目標(biāo)和背景的分類結(jié)果與真實(shí)標(biāo)簽之間的差異。LFc為Faster R-CNN中全連接層的輸出損失。
L=LRPN+LFc
(8)
損失函數(shù)L的作用是通過(guò)計(jì)算預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽之間的誤差,反饋到模型中,使模型能夠不斷調(diào)整權(quán)重和偏置,逐漸優(yōu)化目標(biāo)檢測(cè)的性能。通過(guò)最小化損失函數(shù),F(xiàn)aster R-CNN可以學(xué)習(xí)到更準(zhǔn)確的目標(biāo)定位和分類規(guī)則,從而提高目標(biāo)檢測(cè)算法的性能。
在小樣本微調(diào)階段,創(chuàng)建一個(gè)覆蓋所有無(wú)人機(jī)類別(常見(jiàn)機(jī)型和新機(jī)型)的小規(guī)模無(wú)人機(jī)訓(xùn)練集,每類僅有K個(gè)樣本。
Faster R-CNN模型用于目標(biāo)分類的全連接層計(jì)算公式為:
f(x)=w·x+b
(9)
其中:x為上一層的輸入,w為當(dāng)前層權(quán)重,b為決策偏置。全連接層的點(diǎn)積具有無(wú)界性,容易出現(xiàn)極值,因此決策是有偏的。本文采用余弦相似度代替全連接層,如公式(10)所示。
(10)
余弦相似度計(jì)算了權(quán)重向量w與輸入向量x的夾角θ,輸出值介于[-1,1]之間,有效避免了權(quán)重分布出現(xiàn)極值的問(wèn)題。
此外,在微調(diào)時(shí)固定住主干網(wǎng)絡(luò)、RPN模塊和全連接層的權(quán)重,隨機(jī)初始化模型最后的分類層和邊界框回歸層,并只更新這兩層的參數(shù)。微調(diào)過(guò)程的損失函數(shù)與公式(8)相同,學(xué)習(xí)率設(shè)定為預(yù)訓(xùn)練時(shí)的0.1倍。
本研究選用了一個(gè)涵蓋真實(shí)環(huán)境中采用圖像傳感器獲取的數(shù)據(jù)以及從網(wǎng)絡(luò)檢索獲得的無(wú)人機(jī)圖像的數(shù)據(jù)集作為研究對(duì)象。經(jīng)由專業(yè)團(tuán)隊(duì)對(duì)數(shù)據(jù)集中的無(wú)人機(jī)型號(hào)和目標(biāo)位置進(jìn)行精確標(biāo)注,確保數(shù)據(jù)的準(zhǔn)確性與可信度。整個(gè)數(shù)據(jù)集共包括來(lái)自14種不同機(jī)型的無(wú)人機(jī)圖像,總計(jì)達(dá)22 913個(gè)樣本。詳細(xì)的數(shù)據(jù)分布情況如圖6所示,顯然可見(jiàn),數(shù)據(jù)樣本的分布呈現(xiàn)出一定的不均衡性。針對(duì)AJ-TMOP-300、FUNSNAP iDOL、EVO LITE、JOUAV CW-007、WALKERA FURIOUS 215等機(jī)型這些較新的無(wú)人機(jī),由于其樣本數(shù)量有限,導(dǎo)致難以獲取足夠的數(shù)據(jù)。鑒于此,本研究在方法設(shè)計(jì)中將這5個(gè)新機(jī)型設(shè)定為小樣本類別,并將其用于微調(diào)空中無(wú)人機(jī)小樣本目標(biāo)識(shí)別模型。另外,其他九種機(jī)型則屬于常見(jiàn)機(jī)型類別,由于擁有較大數(shù)量的樣本數(shù)據(jù),將用于預(yù)訓(xùn)練空中無(wú)人機(jī)目標(biāo)識(shí)別模型。
圖6 無(wú)人機(jī)目標(biāo)檢測(cè)數(shù)據(jù)集分布
模型的訓(xùn)練與測(cè)試是在Dell T7920工作站進(jìn)行的,主要硬件配置為2塊2080TI顯卡,64 G內(nèi)存。軟件環(huán)境為Ubuntu 18.04,基于Pytorch深度學(xué)習(xí)框架進(jìn)行程序設(shè)計(jì)。
模型預(yù)訓(xùn)練的數(shù)據(jù)集按照訓(xùn)練集∶驗(yàn)證集∶測(cè)試集=60%∶15%∶25%進(jìn)行劃分。訓(xùn)練時(shí)對(duì)輸入圖像進(jìn)行隨機(jī)翻轉(zhuǎn)、隨機(jī)裁剪和色彩變換以增強(qiáng)數(shù)據(jù)集,采用隨機(jī)梯度下降進(jìn)行優(yōu)化,動(dòng)量設(shè)置為0.9,權(quán)重衰減為0.000 1,學(xué)習(xí)率為0.01,共迭代80次。圖7(a)展示了預(yù)訓(xùn)練過(guò)程中損失曲線和分類準(zhǔn)確率的變化。從圖中可以發(fā)現(xiàn),大概在60次迭代后模型達(dá)到穩(wěn)態(tài)。小樣本微調(diào)階段首先劃分一個(gè)小規(guī)模的平衡數(shù)據(jù)集,該數(shù)據(jù)集中每種機(jī)型僅包含K個(gè)樣本用于訓(xùn)練,其它用于測(cè)試。所采用優(yōu)化器與預(yù)訓(xùn)練相同,學(xué)習(xí)率設(shè)置為0.001,迭代40次。圖7(b)為K=10時(shí)訓(xùn)練集上的損失和準(zhǔn)確率變化。30次迭代后,模型即可收斂。
圖7 預(yù)訓(xùn)練和微調(diào)過(guò)程中的損失和準(zhǔn)確率曲線
本文分別采用平均準(zhǔn)確率(AP,average precision)和平均精度均值(mAP,mean average precision)評(píng)估模型性能。AP反映了每類空中目標(biāo)檢測(cè)的平均精度,mAP表示所有類別空中目標(biāo)識(shí)別AP的平均值,后者是算法對(duì)空中目標(biāo)識(shí)別的整體效果。表1展示了預(yù)訓(xùn)練和小樣本微調(diào)后的實(shí)驗(yàn)結(jié)果。預(yù)訓(xùn)練后,模型對(duì)于9種常見(jiàn)機(jī)型的mAP為93.6%。本文測(cè)試了3種小樣本情況,即新機(jī)型的訓(xùn)練集每類僅有5個(gè)、10個(gè)和50個(gè)樣本。從表1的結(jié)果可知,本文提出的基于模型微調(diào)的小樣本目標(biāo)識(shí)別方法可以通過(guò)幾個(gè)標(biāo)記樣本即可學(xué)習(xí)到該類別的識(shí)別與分類,且隨著樣本數(shù)量的增加,識(shí)別精度進(jìn)一步升高。這是因?yàn)樵诘谝浑A段的預(yù)訓(xùn)練中,特征提取器經(jīng)過(guò)大量樣本的學(xué)習(xí),已經(jīng)學(xué)到了無(wú)人機(jī)目標(biāo)圖像的泛化特征表示,即使在微調(diào)時(shí)出現(xiàn)新的機(jī)型,這些新機(jī)型的特征已經(jīng)被模型所掌握,因此只需要重新調(diào)整特征的組合權(quán)重即可從少量樣本中泛化新類。由圖8的目標(biāo)識(shí)別效果可知,模型可以準(zhǔn)確的輸出圖像中的無(wú)人機(jī)目標(biāo)位置。此外,從表1中可以發(fā)現(xiàn),在小樣本微調(diào)后,模型依然對(duì)常見(jiàn)機(jī)型有較好的識(shí)別效果,3種微調(diào)后模型對(duì)常見(jiàn)機(jī)型的目標(biāo)識(shí)別mAP分別為91.8%、92.1%和92.9%,相比于小樣本微調(diào)前,對(duì)常見(jiàn)機(jī)型的識(shí)別能力并沒(méi)有過(guò)多的損失。
表1 預(yù)訓(xùn)練和小樣本微調(diào)后無(wú)人機(jī)目標(biāo)識(shí)別精度 %
圖8 空中無(wú)人機(jī)目標(biāo)識(shí)別效果
為了驗(yàn)證提出方法的有效性,進(jìn)行了一系列消融實(shí)驗(yàn),對(duì)微調(diào)過(guò)程的主要步驟進(jìn)行了深入研究,實(shí)驗(yàn)結(jié)果詳見(jiàn)表2。本實(shí)驗(yàn)所采用的小樣本數(shù)據(jù)集包含了來(lái)自5種新機(jī)型的無(wú)人機(jī)圖像,每個(gè)類別的訓(xùn)練集僅包含50個(gè)樣本。在實(shí)驗(yàn)中,對(duì)不同訓(xùn)練方式進(jìn)行了比較。直接訓(xùn)練意味著使用小樣本數(shù)據(jù)集直接訓(xùn)練Faster R-CNN。預(yù)訓(xùn)練+微調(diào)表示先使用9種常見(jiàn)機(jī)型訓(xùn)練Faster R-CNN,再使用5種新機(jī)型的小樣本平衡數(shù)據(jù)集微調(diào)模型,但分類層依然采用全連接層。表2中的本文方法與表1中的微調(diào)方式不同,這里僅使用5種新機(jī)型的數(shù)據(jù)更新模型,因此模型不具有對(duì)其它9種常見(jiàn)機(jī)型的目標(biāo)識(shí)別能力。觀察實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),直接訓(xùn)練會(huì)導(dǎo)致模型過(guò)度擬合,無(wú)法在測(cè)試集上達(dá)到良好的泛化性能。與直接微調(diào)預(yù)訓(xùn)練模型的全連接層相比,采用余弦相似度代替全連接層并進(jìn)行微調(diào)的效果更佳。這是因?yàn)橛嘞蚁嗨贫鹊膽?yīng)用有助于消除決策偏差,減小類內(nèi)距離,同時(shí)擴(kuò)大類間差異,從而提升了目標(biāo)識(shí)別效果。這些實(shí)驗(yàn)結(jié)果有力地驗(yàn)證了本文所提方法在小樣本目標(biāo)識(shí)別問(wèn)題上的有效性與優(yōu)越性。
表2 K=50時(shí)小樣本微調(diào)的消融實(shí)驗(yàn)結(jié)果 %
為進(jìn)一步評(píng)估本文提出的無(wú)人機(jī)小樣本目標(biāo)識(shí)別方法的有效性,本文與Kang等人[23]提出的FSRW模型和Wang等人[24]提出的MetaDet模型進(jìn)行了對(duì)比。這兩種方法是基于元學(xué)習(xí)的方法,在小樣本目標(biāo)識(shí)別任務(wù)中性能顯著。在訓(xùn)練時(shí),仍然使用9種常見(jiàn)機(jī)型訓(xùn)練FSRW和MetaDet,并使用5種具有少量樣本的新機(jī)型用于小樣本測(cè)試。小樣本測(cè)試時(shí)的標(biāo)記樣本數(shù)量為K=50。表3記錄了每種方法的mAP,從表中數(shù)據(jù)可知,本文方法的小樣本目標(biāo)識(shí)別效果好于其它方法。與其它方法相比,本文基于微調(diào)的方法更容易實(shí)現(xiàn),且通過(guò)聯(lián)合常見(jiàn)機(jī)型數(shù)據(jù)集的訓(xùn)練,模型能夠在學(xué)習(xí)小樣本新機(jī)型目標(biāo)識(shí)別的同時(shí),不干擾常見(jiàn)機(jī)型的識(shí)別。由于算法因素,F(xiàn)SRW和MetaDet模型經(jīng)過(guò)訓(xùn)練后只能對(duì)小樣本新機(jī)型進(jìn)行目標(biāo)識(shí)別,而無(wú)法識(shí)別常見(jiàn)機(jī)型。
表3 小樣本目標(biāo)識(shí)別方法對(duì)比 %
本文針對(duì)空中無(wú)人機(jī)目標(biāo)識(shí)別任務(wù)中用于訓(xùn)練模型的新機(jī)型樣本少的問(wèn)題,提出了一種基于模型微調(diào)的小樣本目標(biāo)識(shí)別方法。方法以Faster R-CNN為基礎(chǔ)架構(gòu),首先采用具有充足訓(xùn)練數(shù)據(jù)的常見(jiàn)機(jī)型數(shù)據(jù)集對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后使用常見(jiàn)機(jī)型和新機(jī)型聯(lián)合構(gòu)建的小樣本平衡數(shù)據(jù)集微調(diào)Faster R-CNN最后的全連接層。實(shí)驗(yàn)結(jié)果表明,本文方法在K=5,K=10和K=50的小樣本情況下對(duì)所有機(jī)型的mAP分別為88.6%,89.2%和90.8%。
盡管本文實(shí)現(xiàn)了對(duì)空中無(wú)人機(jī)的小樣本目標(biāo)識(shí)別,但識(shí)別精度還不夠理想。這與主干網(wǎng)絡(luò)的特征提取能力有關(guān),如何提高主干網(wǎng)絡(luò)的表征能力將會(huì)是下一步研究工作的重點(diǎn)。