• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于改進(jìn)Mask R-CNN 模型的遙感圖像目標(biāo)識別方法

      2021-03-17 07:15:10余慧明周志祥崔志斌
      關(guān)鍵詞:細(xì)粒度特征圖像

      余慧明,周志祥,彭 楊,崔志斌

      (武漢興圖新科電子股份有限公司 平臺產(chǎn)品部,湖北 武漢430073)

      0 引言

      隨著人工智能的興起,深度學(xué)習(xí)[1]算法各個(gè)領(lǐng)域的優(yōu)勢被體現(xiàn)出來。 對視頻、圖像中的多目標(biāo)、細(xì)粒度的目標(biāo)識別技術(shù),可以方便人們在復(fù)雜的情景中快速定位到所需要的檢測目標(biāo)。隨著場景的復(fù)雜度加深,基于基礎(chǔ)模型的各種改進(jìn)版本層出不窮。

      在過去近10 年中,目標(biāo)識別技術(shù)又有了飛速的發(fā)展,從最開始的機(jī)器學(xué)習(xí)算法,再到目前主流的深度學(xué)習(xí)目標(biāo)識別算法,如 RCNN[2]、SSP-Net[3]、Fast R-CNN[4]、Faster R-CNN[5],目標(biāo)識別技術(shù)已經(jīng)在各個(gè)領(lǐng)域都有了很好的應(yīng)用。 但是,由于數(shù)據(jù)集的制約,針對遙感圖像的軍事目標(biāo)識別卻是一個(gè)例外。另外,軍事碼頭物體數(shù)量眾多,需要檢測的目標(biāo)與其他物體交錯(cuò)相間, 大大降低了模型的準(zhǔn)確性。對于一些密集型的目標(biāo)檢測,PAN X[6]等人提出了一個(gè)由特征選擇模塊(Feature Selection Module,F(xiàn)SM)和動態(tài)優(yōu)化頭(Dynamic Refinement Head,DRH)組成的動態(tài)優(yōu)化網(wǎng)絡(luò)。 FSM 使神經(jīng)元能夠根據(jù)目標(biāo)物體的形狀和方向調(diào)整接受野,而DRH 使模型能夠以一種對象感知的方式動態(tài)地改進(jìn)預(yù)測。 何代毅[7]等人就提出了一種基于改進(jìn) Mask-RCNN[8]的建筑物自動提取方法,在網(wǎng)絡(luò)的設(shè)計(jì)中添加了路徑聚合網(wǎng)絡(luò)和特征增強(qiáng)功能, 通過監(jiān)督和遷移學(xué)習(xí)的方式在Inria 航空影像標(biāo)簽數(shù)據(jù)集中進(jìn)行多線程迭代訓(xùn)練與模型優(yōu)化學(xué)習(xí),實(shí)現(xiàn)了建筑物的自動精確分割和提取。 對于數(shù)據(jù)集缺乏等問題,林通[9]等人通過遷移姿態(tài)生成對抗網(wǎng)絡(luò)生成姿態(tài)不同的行人圖片,對數(shù)據(jù)集進(jìn)行了擴(kuò)充。

      針對遙感圖像的軍事目標(biāo)多目標(biāo)細(xì)粒度的識別,在主流的Mask R-CNN 模型表現(xiàn)不佳的情況下,本文在Mask R-CNN 模型的基礎(chǔ)上進(jìn)行改進(jìn),經(jīng)過改進(jìn)后的模型更加高效地實(shí)現(xiàn)了對多目標(biāo)的自動精確分割和提取,也提高了對遙感圖像中軍事目標(biāo)的細(xì)粒度識別的準(zhǔn)確率。

      1 算法原理與網(wǎng)絡(luò)改進(jìn)

      1.1 Mask R-CNN 模型

      Mask R-CNN 是目標(biāo)檢測近年來最成功的算法之一,它是由何凱明于2017 年提出,在其前一代版本Faster R-CNN 的基礎(chǔ)上進(jìn)行了改進(jìn),將原有的感興趣區(qū)域(Region Of Interest,ROI)Pooling 改進(jìn)為更加精確的 ROI Align,此外,還在 Faster R-CNN 網(wǎng)絡(luò)的基礎(chǔ)上新增了一個(gè) Mask[10]分支。 其算法的結(jié)構(gòu)流程圖如圖1 所示。

      從圖 1 中可以看到,Mask R-CNN 網(wǎng)絡(luò)在Faster R-CNN 的基礎(chǔ)上,運(yùn)用特征學(xué)習(xí)效果較好的組合ResNet[11]50/101+FPN,極大程度上提高了模型對特征的學(xué)習(xí)能力,ROI Align 通過雙線性插值的辦法解決了ROI pooling 像素點(diǎn)的偏差較大的問題,增強(qiáng)了特征框檢測的精確度。 另外,對于每一個(gè)類別都有一個(gè)獨(dú)立的Mask 分支與之對應(yīng)。 經(jīng)驗(yàn)表明,通過為每個(gè)類別對應(yīng)一個(gè)Mask 可以有效避免類間競爭(其他目標(biāo)類別不貢獻(xiàn)Loss 值),這可以提高實(shí)例分割的效果[12]。 整體而言,Mask R-CNN 相較于Faster R-CNN 各方面性能指標(biāo)有了很大程度的提升。

      Mask R-CNN 算法采用多任務(wù)損失函數(shù),通過不斷地學(xué)習(xí)減小損失函數(shù)的值,最終達(dá)到全局最優(yōu)解。

      1.2 Mask R-CNN 網(wǎng)絡(luò)的改進(jìn)

      傳統(tǒng)的Mask R-CNN 網(wǎng)絡(luò)功能強(qiáng)大,但是針對遙感軍事圖像存在大量圖片尺寸不一,清晰度不足,細(xì)粒度目標(biāo)檢測效果欠佳;單向的FPN 網(wǎng)絡(luò)特征圖中的高層特征與低層特征之間的聯(lián)系不太緊密,不利于特征信息的有效結(jié)合;在Mask 網(wǎng)絡(luò)中,對有效的信息沒有特別的關(guān)注的問題。 因此,本文在繼承Mask R-CNN 網(wǎng)絡(luò)的優(yōu)點(diǎn)的前提下,對其做出了如下的改進(jìn)。

      圖 1 Mask R-CNN 結(jié)構(gòu)流程圖

      1.2.1 輸入數(shù)據(jù)集的改進(jìn)

      針對數(shù)據(jù)集,在預(yù)處理后進(jìn)行了增強(qiáng)處理,針對每張圖片運(yùn)用Random-Batch images 的思想進(jìn)行處理。對原本尺寸為 1 280×1 280 的每一個(gè)目標(biāo),根據(jù)圖片中目標(biāo)數(shù)量的多少,動態(tài)截取 640×640、320×320、160×160 的圖片,然后對截取后的同等大小圖片按照其尺寸隨機(jī)拼接還原成 1 280×1 280 的圖片。 以截取 框 640×640 為 例 ,Random-Batch images思想如圖 2 所示。

      圖2 Random-Batch images

      如圖 2 所示,采用 640×640 的截取框?qū)υ瓐D像進(jìn)行截取,然后隨機(jī)地拼接還原為原始尺寸的大小,不僅僅對原始數(shù)據(jù)集進(jìn)行擴(kuò)充,而且也增加了模型的識別能力。

      1.2.2 FPN 網(wǎng)絡(luò)的改進(jìn)

      FPN 最早是在 Faster R-CNN 模型中被提出的,F(xiàn)PN 主要是用來解決目標(biāo)檢測中的多尺度問題,通過簡單的網(wǎng)絡(luò)連接的改變,在基本不增加原有模型計(jì)算量的情況下,大幅度地提升了小尺寸目標(biāo)檢測的性能。 其結(jié)構(gòu)如圖 3 所示。

      如圖3 所示,輸入的圖片通過高層特征的上采樣和底層特征進(jìn)行自頂向下的連接,每一層都會進(jìn)行預(yù)測。

      而本文采用的是 FPN 的變體,F(xiàn)PN 的一種復(fù)雜雙向融合模型——BiFPN,其可以更加方便地融合多尺度特征,針對多尺度的目標(biāo)細(xì)粒度檢測任務(wù)有很好的效果。 BiFPN 的結(jié)構(gòu)如圖 4 所示。

      圖 4 BiFPN 結(jié)構(gòu)

      1.2.3 Mask 網(wǎng)絡(luò)的改進(jìn)

      掩碼網(wǎng)絡(luò)(Mask)是 Mask R-CNN 網(wǎng)絡(luò)的關(guān)鍵所在,它通過添加一個(gè)分支與現(xiàn)有的用于邊界框識別的分支并行來預(yù)測目標(biāo)Mask,從而擴(kuò)展了Faster R-CNN。 然而它在進(jìn)行預(yù)測時(shí),并不能關(guān)注到需要的有用的信息,增加有用信息的權(quán)重,因此在Mask分支上添加通道注意力機(jī)制,對所需要識別的模糊目標(biāo)給予更多的權(quán)重,提高了目標(biāo)檢測的準(zhǔn)確性。其結(jié)構(gòu)如圖 5 所示。

      圖 3 FPN 結(jié)構(gòu)

      圖5 帶有通道注意力的Mask

      Mask R-CNN 網(wǎng)絡(luò)在提取軍事碼頭的集裝箱、小型船只等清晰、 獨(dú)立的目標(biāo)物時(shí)效果較好。 但是,軍事碼頭各種大小型船只交錯(cuò)相間,遙感圖像較模糊, 一些模糊的小目標(biāo)無法被準(zhǔn)確地識別出來, 因此, 本文在原本的 Mask 分支基礎(chǔ)上增加了通道注意力機(jī)制, 針對模糊不易被察覺的目標(biāo),給予更多的注意力, 也在一定程度上增加了模型整體的準(zhǔn)確率。

      2 算法的總流程

      由于本文使用的是尺寸大小固定為1 280×1 280并且?guī)в袠?biāo)記的數(shù)據(jù)集,因此省去了數(shù)據(jù)標(biāo)注和數(shù)據(jù)裁剪等步驟。 具體步驟為:(1)獲取數(shù)據(jù)集;(2)運(yùn)用Random-Batch images 對數(shù)據(jù)集進(jìn)行了增強(qiáng)處理,對原始數(shù)據(jù)集進(jìn)行擴(kuò)充和增強(qiáng)處理;(3)在原始的Mask R-CNN 模型上進(jìn)行搭建自己的模型;(4)配置網(wǎng)絡(luò)參數(shù),如初始化學(xué)習(xí)率,定義Epoch 等;(5)載入預(yù)訓(xùn)練權(quán)重及標(biāo)簽數(shù)據(jù)開始訓(xùn)練, 并保存訓(xùn)練得到的權(quán)重等數(shù)據(jù);(6)載入訓(xùn)練得到的權(quán)重,讀取測試集圖片的掩模圖片;(7)對掩模圖片的各個(gè)特征進(jìn)行二值化處理;(8)對輸出的結(jié)果進(jìn)行性能評估并對比其他模型。 整體的算法流程如圖6 所示。

      3 實(shí)驗(yàn)與算法評價(jià)

      3.1 實(shí)驗(yàn)過程

      本實(shí)驗(yàn)使用開源的PyTorch 學(xué)習(xí)框架,使用 Python語言編程實(shí)現(xiàn)算法網(wǎng)絡(luò), 硬件環(huán)境為配有NVIDIA GeForce GTX TITAN 2080 顯卡 (32 GB),64 位 Ubuntu16.04 操作系統(tǒng)。

      圖6 算法的總體流程

      本文采用遷移學(xué)習(xí)方法, 運(yùn)用網(wǎng)上公開的COCO2014 數(shù)據(jù)集訓(xùn)練得到預(yù)訓(xùn)練模型,作為本文遙感軍事場景多目標(biāo)細(xì)粒度識別算法模型的預(yù)訓(xùn)練模型。 本文使用的數(shù)據(jù)集,其中的訓(xùn)練集包含3 000 張圖片,經(jīng)過 Random-Batch images 后擴(kuò)充至5 000 張圖片,測試集為 260 張,圖片尺寸均為1 280×1 280。

      3.2 評價(jià)指標(biāo)

      由于需要檢測的目標(biāo)數(shù)較多,因此使用平均準(zhǔn)確率(mAP)、平均召回率(mRecall)、平均查準(zhǔn)率(mPrecision)和 F1[13](式(1)~式(4))作為模型的評價(jià)指標(biāo)。 其中C 為所要檢測目標(biāo)的種類數(shù)。

      其中 P(R)為準(zhǔn)確率-召回率曲線(P-R 曲線),TP(True Positive)表示算法和人工標(biāo)注都識別出需要檢測的目標(biāo)物,F(xiàn)N(False Negative)表示算法沒有識別出但是人工標(biāo)注了的目標(biāo)物,F(xiàn)P(False Positive)表示算法檢測出而人工未標(biāo)注的目標(biāo)物。

      為了驗(yàn)證本文所提出的改進(jìn)模型較主流的目標(biāo)識別網(wǎng)絡(luò)有優(yōu)勢,使用支持向量機(jī)(Support Vector Machine,SVM)[14]、 全 卷 積 網(wǎng) 絡(luò) (Fully Convolutional Network,F(xiàn)CN)[15]、Mask R-CNN 模 型 在 相 同 的 數(shù) 據(jù)集上進(jìn)行對比試驗(yàn)。 由表1 可以看出,相較于其他主流目標(biāo)識別網(wǎng)絡(luò),經(jīng)過改進(jìn)后的Mask R-CNN 在總體上效果更好。

      表1 比賽官方數(shù)據(jù)集上主流算法比較 (%)

      3.3 結(jié)果分析

      本文采用的數(shù)據(jù)集為帶有標(biāo)注的遙感目標(biāo)數(shù)據(jù),如圖7 所示,目標(biāo)類型較多,目標(biāo)物較為模糊,其他物體數(shù)量較多,對需要檢測的目標(biāo)造成了較大的干擾。 另外,數(shù)據(jù)集較少,只有 3 000 張圖片,因此本文采用了Random-Batch images 策略,如圖 8所示,將圖片裁剪后進(jìn)行拼接,對數(shù)據(jù)進(jìn)行了增廣處理。

      圖7 帶標(biāo)注的圖片

      圖8 Random-Batch images生成的圖片

      由表1 可以看出,相較于主流的目標(biāo)識別模型,本文提出的模型在此數(shù)據(jù)集上的各個(gè)評價(jià)指標(biāo)均有一定的提升,說明本文提出的模型具有一定的優(yōu)越性。

      4 結(jié)論

      本文針對的是基于遙感圖片的軍事多目標(biāo)細(xì)粒度識別,提出了一種基于主流的目標(biāo)識別網(wǎng)絡(luò)Mask R-CNN 的改進(jìn)模型,通過Random-Batch images思想,對數(shù)據(jù)集進(jìn)行增廣處理;然后將Mask R-CNN模型中的FPN 改進(jìn)為BiFPN,使模型能更加方便地融合多尺度的模型;Mask 網(wǎng)絡(luò)層通道注意力機(jī)制的加入,提高了模型對小目標(biāo)的關(guān)注度,提高了模型目標(biāo)識別的準(zhǔn)確率。 整體而言,本文提出的方法在遙感圖片的軍事目標(biāo)多目標(biāo)細(xì)粒度識別取得了不錯(cuò)的效果,相較于其他主流模型有較為明顯的提升。

      猜你喜歡
      細(xì)粒度特征圖像
      融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      改進(jìn)的LapSRN遙感圖像超分辨重建
      細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
      有趣的圖像詩
      如何表達(dá)“特征”
      不忠誠的四個(gè)特征
      基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
      抓住特征巧觀察
      支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      鄄城县| 黄梅县| 泸溪县| 灌南县| 镇安县| 迁安市| 闽侯县| 大厂| 武清区| 铜梁县| 资中县| 丹凤县| 宣城市| 兴安县| 襄城县| 铜梁县| 托克逊县| 会宁县| 芦溪县| 库尔勒市| 迁安市| 南宁市| 南溪县| 黔江区| 岳西县| 都昌县| 福清市| 青神县| 益阳市| 密山市| 陕西省| 阿图什市| 岑溪市| 丰镇市| 屯留县| 甘肃省| 竹山县| 梁平县| 永仁县| 庐江县| 保康县|