• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      YOLOv3融合圖像超分辨率重建的魯棒人臉檢測

      2022-10-18 01:03:18趙軍艷降愛蓮
      計算機工程與應用 2022年19期
      關鍵詞:人臉分辨率損失

      趙軍艷,降愛蓮,強 彥

      太原理工大學 信息與計算機學院,山西 晉中 030600

      人臉檢測技術在計算機視覺領域具有重要的理論研究意義和廣泛的應用價值。從門禁識別、人臉支付到情感分析、人機交互以及視頻監(jiān)控與追蹤,不斷擴展的各種市場應用需求的推動下,人臉檢測技術取得了巨大進步。然而在動態(tài)場景和復雜背景下,由于拍攝角度不同、背景噪聲干擾、圖像模糊,人臉尺度、姿勢、表情多變以及光照條件等因素的影響,準確地檢測出人臉的存在并確定人臉位置的人臉檢測技術仍然存在許多困難和挑戰(zhàn),比如漏檢、誤檢以及檢測速度慢等問題。現(xiàn)實場景中,由于小人臉目標像素少、特征不明顯,與大目標相比,其召回率低,所以如何提高檢測的精度和模型的魯棒性成為一個至關重要的問題[1]。

      基于卷積神經網絡的目標檢測方法主要分為兩大類[2]:第一類是兩步(two-stage)目標檢測算法,其檢測過程分為候選區(qū)域和特征提取、區(qū)域分類和位置調整兩個階段,典型的算法有R-CNN[3]及其變體Fast R-CNN[4]和Faster R-CNN[5]、SPPNet[6]、R-FCN[7]以及Mask R-CNN[8];第二類是單步檢測算法,直接通過回歸得到目標的概率和位置坐標,經典的算法有YOLO(you only look once)[9]、SSD(single shot multiBox setector)[10]、YOLOv2[11]和YOLOv3[12]。前者擁有更高的檢測準確度,但其檢測速度較慢,后者在保持性能的同時大大提高了檢測速度。

      人臉是一種特殊的目標,為了獲得更好的檢測效果,研究者們對目標檢測算法進行改進和優(yōu)化,提出許多優(yōu)秀的人臉檢測算法。CMS-RCN[13]基于Faster RCNN進行改進,融入人體上下文信息來提高人臉的檢測性能。MTCNN(mutil-task convolutional neural network)[14]采用3個單獨的網絡模塊級聯(lián)的方式,網絡中加入了關鍵點位置的檢測,有利于人臉檢測。Wan等[15]將Faster R-CNN 與困難負樣本優(yōu)化結合,取得了不錯的檢測結果。Hu等[16]提出的多模板人臉檢測算法使用大尺度人臉的局部上下文信息,對檢測小尺度的人臉非常有幫助。Zhang 等[17]提出S3FD,基于SSD 的框架進行改進,對于不同尺度的人臉均具有良好的性能,尤其是小尺度人臉。以上這些方法在可控條件場景下都取得了很好的檢測效果,但是當復雜場景中人臉信息不足、尺寸較小的情況下,這些人臉檢測方法的精度相對較低。

      YOLOv3是目前較優(yōu)秀的目標檢測算法,其網絡中的多尺度融合可以很好地檢測小目標,且實時性強,被廣泛應用在各種場景。為了提高小人臉的檢測精度,本文基于YOLOv3進行改進,采用Darknet53作為主干網絡,在網絡中融合圖像超分辨率重建技術,使小目標擁有更豐富的紋理信息,提高視覺感受的真實性。文中所提算法SR-YOLOv3保證檢測速度的同時提高了檢測精度,以及小目標的檢測能力。

      1 相關技術

      1.1 YOLOv3算法

      YOLO是較新的單步目標檢測算法,可以在一次掃描中同時預測整個圖像的邊界框和類別,不需要使用RPN(region proposal network),直接通過網絡來產生目標的位置和類別信息,相比較兩步目標檢測算法,其具有更快的檢測速度。

      YOLOv3 在YOLOv2 的基礎上進行改進,并使用基于殘差神經網絡改進的Darknet-53 網絡進行特征提取,改善了YOLO 系列在檢測小目標上的缺陷。Darknet53 網絡有52 個卷積層和一個全連接層,可以輸出13×13,26×26,52×52 這3 種尺度的特征。然后YOLOv3 的檢測網絡對Darknet53 的輸出進行回歸,預測出多個預測框,并使用非極大值抑制算法,去除IOU 較大的和置信度較低的預測框,保留置信度較高的預測框為目標檢測框。YOLOv3 首先將輸入的圖像整體縮放為416×416,并將圖像劃分成大小為S×S的網格,如果某個目標的中心落在某個網格中,則該網格負責預測該目標。

      YOLOv3 的網絡結構如圖1 所示,卷積信息第一列表示卷積核的個數(shù),第二列表示卷積核的大小,“/”后面的數(shù)字表示卷積的步長,默認為1。網絡中沒有使用池化來進行下采樣,而是采用步長為2的卷積,共進行了5次下采樣,經過5 個殘差模塊后,得到的特征圖大小為416→208→104→52→26→13。up sampling 為上采樣層,使用內插值方法來放大圖像,將上采樣后的大特征圖與小特征圖進行concatenate張量拼接,使網絡能夠擁有既包含豐富的高層抽象特征又包含精確的位置信息特征的融合特征層[18]。

      圖1 YOLOv3網絡結構Fig.1 Network architecture of YOLOv3

      網絡中有5個殘差塊,每個殘差塊由多個殘差單元(res-unit)組成,通過輸入與兩個DBL(darknetconv2DbatchNorm-leak ReLU)單元的累加進行殘差操作,add層將相同維度的張量進行相加,確保網絡結構在很深的情況下也能收斂,如圖2(a)所示。其中DBL單元包含卷積、批歸一化和leaky ReLU激活函數(shù),如圖2(b)所示。

      圖2 殘差塊結構Fig.2 Residual block structure

      1.2 圖像超分辨率重建技術

      在現(xiàn)實應用場景中,由于圖像環(huán)境和拍攝技術的限制,一些圖像會出現(xiàn)模糊、低質量等問題,這種情況則為低分辨率圖像,這類圖像在感興趣區(qū)域RoI 的表現(xiàn)很差。為此,提出一種特定的算法來豐富低分辨率圖像的細節(jié)信息,提高圖像的表述能力,即圖像超分辨率重建技術。

      當前應用廣泛的是基于深度學習的超分辨率重建技術,其中基于生成對抗網絡的(GAN)[19]的SRGAN[20]網絡生成的超分辨率圖像具有較好的視覺效果,是一種應用廣泛、效果優(yōu)秀的圖像超分辨率重建技術,SRGAN本質仍是GAN,目的是為了訓練出一個生成函數(shù),輸入低分辨率圖像,便可以生成相應的超分辨率圖像。SRGAN 在SRResNet 的基礎上,采用感知損失(perceptual loss)和對抗損失(adversatial loss)使得生成的圖片與目標圖片更接近。

      SRGAN 網絡是由一個生成器和一個判別器組成,其網絡模型如圖3 所示[20]。生成網絡(generator network)的核心是多個殘差塊,每個殘差塊包含兩個3×3的卷積層,卷積層后是批歸一化層,PReLU 作為激活函數(shù)。判別網絡采用類似VGG19 的網絡結構,但沒有進行最大池化。判別網絡(discriminator network)包含8個卷積層,隨著網絡的加深,特征數(shù)量不斷增加,特征尺寸不斷減小,LeakyReLU 作為激活函數(shù),網絡最后采用兩個全卷積層和sigmoid激活函數(shù)來獲得學習到的真實樣本的概率,用來判斷該圖像是來自真實樣本的高分辨率圖像還是偽造樣本的超分辨率圖像。

      圖3 SRGAN 網絡模型Fig.3 SRGAN network model

      2 提出的方法

      本文主要研究小人臉檢測問題,YOLOv3網絡中所使用的先驗框和網絡結構不適用本文的研究對象。所以,本文中首先對所選用的樣本使用K-means++算法進行聚類分析,得到適合本文研究對象的先驗框,然后在網絡中融合圖像超分辨率技術,使修改后的網絡在小目標上有很好的檢測效果。

      2.1 數(shù)據集目標框的聚類分析

      YOLOv3 算法沿用了YOLOv2 的先驗框(anchor box)思想。anchor box是一組寬高固定的初始候選框,數(shù)量由人工設定,其設定會影響到網絡的的準確度和速度。原YOLOv3 網絡在COCO 數(shù)據集上進行訓練,有9種大小的anchor box,表示3種邊框大小和3種長寬比。網絡在訓練階段,需要計算真實框與哪個anchor box的IoU(intersection over union)最大,然后標記該box的置信度為1。在計算損失時,這個anchor box 對應的預測有回歸、置信度和分類3 種誤差,大于某個閾值但不是最優(yōu)的錨框對應的預測值則沒有置信度和分類損失,小于閾值的則有置信度。在測試階段,則根據置信度與閾值的關系判斷預測的邊框是否有效,這時anchor box的作用就是還原預測邊框在輸入圖像中的大小。所以,如果直接將原來的9 個anchor box 應用到人臉數(shù)據集上顯然是存在不足的,檢測樣本中存在很多10×10~40×40的小人臉目標,很容易出現(xiàn)小人臉漏檢的情況。

      本文使用K-means++對數(shù)據集WIDERFACE 中人臉真實框的寬高進行聚類分析,生成適合該數(shù)據集的9個寬高組合的anchor box。K-means++采用歐氏距離,候選框越大,產生的誤差越大,所以YOLOv3 采用候選框與真實框的交并比IoU 來消除候選框所帶來的誤差。這里使用平均IoU 來分析聚類結果,聚類的平均IoU目標函數(shù)f可以表示為:

      公式(1)中,O表示樣本,n表示樣本總個數(shù);C表示聚類中心,k表示簇的個數(shù);nk表示第k個簇中樣本的個數(shù),i表示樣本的序號,j表示聚類中心的序號。IIoU(O,C)表示邊界框與聚類中心框面積的交并比。

      聚類得到的anchor box 能使網絡有更快的收斂速度,保證網絡的檢測精度。具體特征圖及其先驗框尺寸的分配如表1所示。

      表1 訓練集的anchor boxes結果Table 1 Results of anchor boxes of training set

      2.2 SR-YOLOv3網絡模型

      本文為解決小尺度人臉檢測問題,設計了一個兩級人臉檢測器,在YOLOv3 網絡框架的基礎上,融合圖像超分辨重建模塊SRGAN 網絡,整體構成一個小人臉檢測模型SR-YOLOv3,網絡結構如圖4 所示。這個網絡前半部分為DarkNet53,可以檢測出大部分高清人臉樣本;對于待確定樣本,通過其坐標信息,將區(qū)域信息輸入到SRGAN 中進行超分辨率重建并再次進行人臉檢測,最后將兩級人臉檢測器的輸出整合輸出。

      Darknet53 網絡有3 個不同尺度的輸出,在圖4 中,y3 感受野小,可以檢測出圖像的小人臉,所以在y3 后增加SRGAN 網絡。文中使用Faster-RCNN 中anchor box 與真實框的匹配方法,默認pos_iou_thr 為0.7,neg_iou_thr 為0.4,min_pos_iou 為0.4。若由y3 輸出的目標滿足IoU〉pos_iou_thr,則判定其為正樣本,若IoU〈neg_iou_thr,判定其為負樣本,若min_pos_iou〈IoU〈pos_iou_thr,判定其為待確定樣本。對于待確定樣本,將其輸入二級檢測器SRGAN 中,由生成器生成高分辨率樣本,判別器用來判定是否是合格的重建樣本并判斷其中其否包含人臉,若滿足,則保留其位置信息。最后采用非極大值抑制算法(non-maximum suppression),設定閾值為0.45,計算所有預測框的交并比IoU,確定目標最終位置。

      圖4 本文算法網絡結構Fig.4 Proposed algorithm network architecture

      2.3 網絡損失函數(shù)

      網絡的損失函數(shù)包括坐標損失Lbbox、置信度損失Lobj和分類損失Lclass三部分。損失函數(shù)L為:

      使用均方差損失函數(shù)計算坐標損失,交叉熵損失函數(shù)計算置信度損失和分類損失:

      3 實驗與結果分析

      3.1 數(shù)據集及實驗環(huán)境

      實驗使用的是一個人臉檢測的基準數(shù)據集WIDERFACE[21],其中包含32 203張圖片及393 703張已標注的人臉,這些人臉在尺度、姿勢和遮擋方面都具有很大的變化,圖片中人臉數(shù)據偏多,平均每張圖片有12.2 個人臉,密集小人臉非常多。數(shù)據集包含三部分:訓練集train、驗證集val、測試集test,分別占樣本數(shù)的40%、10%、50%。本文著重對小人臉進行檢測,難度會有所加大,所以在這種檢測困難的情況下驗證集和測試集分為easy、medium、hard難度等級,其中hard子集中有許多小尺度人臉,大部分為10~50 pixel,適合驗證所提方法的有效性。

      本文的實驗環(huán)境配置如表2所示。

      表2 實驗環(huán)境配置Table 2 Experimental environment configuration

      3.2 SR-YOLOv3模型的訓練與測試

      3.2.1 訓練模型

      在模型訓練之前,先設置網絡的訓練參數(shù)。目標類別為1,anchor box 為(5,6),(8,9),(10,13),(15,19),(21,27),(30,38),(44,56),(76,100),(178,236)。訓練的batch size 為64,動量為0.9,衰減率為0.000 5。最大迭代次數(shù)為60 000 次。開始訓練時,設置學習率為0.001,用來穩(wěn)定整個網絡,迭代10 000次后調整為0.01,迭代30 000次后,調整為0.001,迭代40 000次后調整為0.000 1,使損失函數(shù)進一步收斂。

      改進后的網絡SR-YOLOv3訓練過程中準確度收斂曲線如圖5所示,平均損失函數(shù)的收斂曲線如圖6所示,大約經過50 000 次迭代后,平均損失函數(shù)值穩(wěn)定在1.3附近。

      圖5 準確率曲線Fig.5 Accuracy curve

      圖6 平均損失函數(shù)曲線Fig.6 Average loss function curve

      3.2.2 測試模型

      改進后的算法在WIDERFACE 數(shù)據集上的檢測效果如圖7所示,可以看出該方法在各種復雜場景下具有較好的魯棒性和較高的準確度。圖(a)可以檢測出那些暗光下的人臉,圖(b)即使在高密度人群中,也可以很好地檢測出大量小人臉,圖(c)本身分辨率較低,視覺效果差,但從檢測結果中可以看出,仍有許多人臉被檢測出來,圖(d)可以看出該方法在遮擋人臉上也有很好的檢測效果。

      圖7 在WIDERFACE測試集上的檢測結果Fig.7 Detection results on WIDERFACE test set

      3.3 實驗結果分析

      在人臉檢測的效果評價中,有一些相關參數(shù):TP(true positives)表示檢測到人臉,實際圖片中也存在人臉;TN(true negatives)表示沒有檢測到人臉,實際圖片也不存在人臉;FP(false positives)表示檢測到人臉,但是實際圖片中不存在人臉;FN(false negatives)表示沒有檢測到人臉,但實際圖片中存在人臉。本文的模型評價指標包括:召回率R、精確度P和F1 分數(shù)。召回率用來評價檢測出的人臉占樣本標價總人臉的比例;精確率用來評價檢測出的正確人臉占檢測出的總人臉的比例;當兩者相近時,參考F1 分數(shù),F(xiàn)1 分數(shù)越大則認為算法越好。

      各指標的具體算法如下所示。

      將所訓練的模型在驗證子集上進行驗證,由公式(3)、(4)和公式(5)得到召回率R=0.84,精確度P=0.85,F(xiàn)1=0.845。從F1 分數(shù)上看,所提出的算法性能較好。

      3.3.1 模型性能分析

      在Darknet53網絡中融合SRGAN后,首先需要驗證融合后網絡的合理性和有效性。從測試子集中挑選1 000張圖片進行網絡模型測試對比,由表3中可知,融合超分重建技術后的網絡相較于原YOLOv3,速度有所降低,這是由于融入新網絡時增加了網絡深度,但是相較于使用Resnet101作為骨干網絡的HR網絡模型,運行時間減少了許多。改進后的網絡在平均檢測精度上有了明顯的提升,比原YOLOv3提高了1.9個百分點。

      表3 不同模型的性能對比Table 3 Performance comparison using different models

      3.3.2 相關算法精確度比較

      為了說明本文算法的有效性,選取了一些優(yōu)秀的人臉檢測算法在WIDERFACE 數(shù)據集上測試并進行結果分析。如表4所示,本文算法在easy、medium、hard驗證子集上的平均精度均值(mean average precision,mAP)分別為94.3%、93.5%、86.2%。相較于MTCNN 算法分別提高了9.2、11.5、23.3 個百分點,相較于CMS-RCNN算法分別提高了4.1、6.1、21.9個百分點,相較于HR算法分別提高了1.8、2.5、4.3個百分點。相較于S3FD算法分別提高了0.6、1.0、0.3個百分點。

      表4 不同人臉檢測算法對比(mAP)Table 4 Comparison of mAP using different face detection algorithms單位:%

      本文提出的SR-YOLOv3在YOLOv3網絡上進行改進,引入圖像超分辨率重建技術對小尺度模糊人臉進行二次檢測,加深網絡來使人臉特征更容易被檢測到,捕捉小目標信息,使網絡在處理復雜的人臉和非人臉的分類檢測時,能夠能加精準。通過在WIDERFACE數(shù)據集上的對比實驗,驗證了本文所用方法具有更高的檢測精度和更好的魯棒性,尤其是在hard子集下有更為突出的性能。

      4 結束語

      針對實際應用中人臉尺度多變帶來的檢測問題,本文提出一種適用于復雜場景中的小人臉檢測算法。本文的主要思想是將SRGAN 的圖像超分辨率重建技術融入到目標檢測算法YOLOv3 的網絡結構中,YOLOv3 檢測速度快,但是相較于SSD 等其他一階檢測算法,其檢測精度有所下降,所以利用SRGAN 來彌補其檢測精度,進而提高小尺度人臉的檢測精度。與其他人臉檢測算法在相同的環(huán)境下,使用相同的數(shù)據集進行對比實驗,結果證實了所提出方法的可行性及優(yōu)越性。

      猜你喜歡
      人臉分辨率損失
      少問一句,損失千金
      有特點的人臉
      胖胖損失了多少元
      EM算法的參數(shù)分辨率
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      原生VS最大那些混淆視聽的“分辨率”概念
      三國漫——人臉解鎖
      動漫星空(2018年9期)2018-10-26 01:17:14
      基于深度特征學習的圖像超分辨率重建
      自動化學報(2017年5期)2017-05-14 06:20:52
      一種改進的基于邊緣加強超分辨率算法
      一般自由碰撞的最大動能損失
      呼图壁县| 秦安县| 肇庆市| 兴文县| 阳新县| 上林县| 桂平市| 荆州市| 道孚县| 六盘水市| 南江县| 桦川县| 喜德县| 株洲县| 富蕴县| 沅陵县| 虎林市| 利川市| 高雄市| 扎鲁特旗| 万年县| 西畴县| 济源市| 沙洋县| 晴隆县| 烟台市| 青州市| 酒泉市| 罗山县| 星座| 故城县| 鹿泉市| 定边县| 大悟县| 定襄县| 金门县| 石家庄市| 遂溪县| 霍林郭勒市| 栾川县| 左贡县|