劉 源,張榮芬,劉宇紅,程娜娜,劉昕斐,楊 雙
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng) 550025)
世界衛(wèi)生組織WHO 世界視力報(bào)告資料顯示,全球范圍內(nèi)約有22 億人患有視力損傷和盲癥,中國(guó)盲人數(shù)量位列世界第一[1-2]。出行是盲人生活的一個(gè)難題,盲人出行的輔助工具主要有盲仗、導(dǎo)盲犬以及盲道。但盲杖的探測(cè)范圍有限、速度慢;導(dǎo)盲犬訓(xùn)練周期長(zhǎng)、數(shù)量少且有些場(chǎng)合對(duì)于犬類有出入限制;現(xiàn)實(shí)中盲道更是存在不連貫、有障礙物、觸感圓點(diǎn)被磨平以及磚塊受損等諸多問題[3-4]。傳統(tǒng)的盲人輔助手段實(shí)際上都不能滿足當(dāng)前盲人的實(shí)際出行需求,但隨著深度學(xué)習(xí)的快速發(fā)展,基于計(jì)算機(jī)視覺的目標(biāo)障礙物檢測(cè)方法帶來了新的機(jī)遇和發(fā)展方向。
自2012年Alex Krizhevsky等[5]提出了AlexNet模型,卷積神經(jīng)網(wǎng)絡(luò)(CNN)開始迅猛發(fā)展并在計(jì)算機(jī)視覺領(lǐng)域廣泛應(yīng)用[6],對(duì)目標(biāo)物進(jìn)行檢測(cè)的算法逐一被提出。2014 年,Ross Girshick 等提出R-CNN,首次利用CNN 進(jìn)行目標(biāo)檢測(cè)。2015 年,Ross Girshick 等人在提出fast RCNN 之后又與Kaiming He 團(tuán)隊(duì)提出faster RCNN,之后Mask R-CNN 等一些網(wǎng)絡(luò)也相繼被提出[7-10]。這些基于區(qū)域提名的檢測(cè)網(wǎng)絡(luò)能達(dá)到很好的準(zhǔn)確度,但是計(jì)算量較大,若應(yīng)用于盲人出行時(shí),不能滿足實(shí)時(shí)監(jiān)測(cè)的要求。
2016 年YOLOv1 檢測(cè)算法被提出,同年SSD檢測(cè)算法被相繼提出以及2018 年Tsung-Yi Lin 的RetinaNet 檢測(cè)算法的發(fā)表,YOLO 系列以及SSD系列等一些單目標(biāo)實(shí)時(shí)檢測(cè)算法得以發(fā)展[11-13],并廣泛應(yīng)用于不同場(chǎng)景下的實(shí)時(shí)檢測(cè)任務(wù)中。戶外的目標(biāo)檢測(cè)任務(wù)常常伴隨著光照強(qiáng)度的變化、采集圖像的失真等問題使得目標(biāo)檢測(cè)的精度不高。2019 年,馬永杰等[14]基于原始的YOLOv2 模型和嵌入式系統(tǒng)實(shí)現(xiàn)了車輛自動(dòng)跟蹤、車流量的實(shí)時(shí)檢測(cè)任務(wù),由于未考慮光照原因?qū)敉鈾z測(cè)任務(wù)精度的影響,在車輛自動(dòng)跟蹤、車流量的實(shí)時(shí)檢測(cè)任務(wù)上所取得的檢測(cè)精度并不理想。光學(xué)重建圖像、應(yīng)用于深度學(xué)習(xí)圖像處理的光學(xué)計(jì)量等方法有效地減少了由于圖像失真曝光或噪點(diǎn)等光學(xué)因素造成的檢測(cè)精度的丟失[15-17]。隨著關(guān)注像素重要特征的注意力機(jī)制開始應(yīng)用于神經(jīng)網(wǎng)絡(luò),注意力機(jī)制為單目標(biāo)檢測(cè)算法在不同應(yīng)用背景下的障礙物檢測(cè)的準(zhǔn)確率帶來了巨大提升。2020 年,李文濤[18]改進(jìn)了YOLOv3-tiny算法,融合淺層特征并使用SE-Net[19]通道注意力機(jī)制和CBAM[20]空間注意力機(jī)制作為混合注意力模塊,實(shí)現(xiàn)了農(nóng)機(jī)田間作業(yè)時(shí)行人和農(nóng)機(jī)障礙物的改進(jìn)檢測(cè)模型,使得農(nóng)機(jī)障礙物的檢測(cè)準(zhǔn)確率得到了巨大提升。2021 年,劉力等也提出一種基于YOLOv4 的鐵道侵限障礙物檢測(cè)方法,在錨框選擇上對(duì)K-means 算法聚類中心的選取方法進(jìn)行改進(jìn)并引入了注意力機(jī)制,使得檢測(cè)速度和精度都有所提升[21]。2022 年,王海軍[22]基于YOLOv5 算法對(duì)鐵路的軌道障礙物進(jìn)行檢測(cè)。雖然引入注意力機(jī)制為算法在識(shí)別目標(biāo)的準(zhǔn)確度帶來了一定程度的提升,然而上述方法都沒有很好地利用通道信息以及網(wǎng)絡(luò)主干提取的各個(gè)尺度的語(yǔ)義信息,且預(yù)測(cè)框位置回歸沒有很貼近檢測(cè)目標(biāo),預(yù)測(cè)框的回歸精度和速度都有待提升。
針對(duì)上述問題,本文出于對(duì)盲人出行中需要實(shí)時(shí)且精確地檢測(cè)各種可能會(huì)造成阻礙的目標(biāo)類別的考慮,采用YOLOX[23]作為本文的基礎(chǔ)模型進(jìn)行算法改進(jìn),主要貢獻(xiàn)在于:
(1)將原特征融合網(wǎng)絡(luò)改進(jìn)為CE-PAFPN,以亞像素跳變?nèi)诤夏K(Sub-pixel Skip Fusion,SSF)和亞像素上下文增強(qiáng)模塊(Sub-pixel Context Enhancement,SCE)來充分利用通道信息和不同尺度的語(yǔ)義信息,通道注意力引導(dǎo)模塊(Illustration of Channel Attention Guided Module,CAG)來減少混疊效應(yīng),有效地提升了的檢測(cè)模型的精度。
(2)在預(yù)測(cè)網(wǎng)絡(luò)之前引入全局注意力機(jī)制GAM,減少信息彌散和無(wú)用信息的干擾,并放大全局交互表示來提高模型性能,使網(wǎng)絡(luò)模型更加聚焦在障礙物的檢測(cè)上。
(3)將原有的位置回歸損失函數(shù)替換為SIOU-LOSS,解決了預(yù)測(cè)框與真實(shí)框之間方向不匹配的問題,也考慮到了預(yù)測(cè)框和真實(shí)框距離、形狀和交并比(Intersection-over-Union,IOU),對(duì)目標(biāo)的定位更加精準(zhǔn),速度更快。
YOLOX 網(wǎng)絡(luò)結(jié)構(gòu)由Input、Backbone、Neck、Prediction 4 個(gè)部分組成,如圖1 所示。
圖1 YOLOX 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 YOLOX network structure
Input 輸入端采用Mocsicp 和Mixup 數(shù)據(jù)增強(qiáng),豐富了檢測(cè)圖片的背景以及目標(biāo)個(gè)數(shù),對(duì)小目標(biāo)的檢測(cè)效果有所提升。Backbon 主要采用了Focus模塊、殘差組件以及跨階段局部融合網(wǎng)絡(luò)CSPNet[24]。Focus 采用切片重組操作把高分辨率的圖片拆分成多個(gè)低分辨率的圖片,有效減少了下采樣帶來的信息損失。殘差組件由1×1卷積和3×3 卷積組成主干與不做任何處理的殘差邊構(gòu)成,使模型更易優(yōu)化,通過增加網(wǎng)絡(luò)的深度也提高了模型的準(zhǔn)確率。Neck 部分采用FPN 結(jié)構(gòu)和PAN 結(jié)構(gòu)構(gòu)成的路徑聚合網(wǎng)絡(luò)PANet[25],自上而下將高層的特征信息與不同層的CSP 模塊輸出的特征進(jìn)行融合,再通過至下而上的路徑聚合結(jié)構(gòu)聚合淺層特征,從而充分融合了不同層的圖像特征。Prediction 預(yù)測(cè)部分采用了解耦頭,由一個(gè)公共卷積、兩個(gè)分支的額外卷積和3 個(gè)單獨(dú)任務(wù)(Reg、Obj、Cls)的卷積構(gòu)成,將3 個(gè)預(yù)測(cè)結(jié)果進(jìn)行堆疊后進(jìn)行解碼操作,通過無(wú)錨點(diǎn)的方式減少預(yù)測(cè)結(jié)果,完成初步的篩選,再利用SimOTA 算法對(duì)預(yù)測(cè)結(jié)果進(jìn)行精細(xì)化的篩選,得到最終的預(yù)測(cè)結(jié)果。
基于YOLOX 算法,本文提出了融合多尺度的注意力加權(quán)檢測(cè)算法CE-YOLOX。較原模型主要改進(jìn)部分為特征融合網(wǎng)絡(luò)Neck,采用CE-FPN[26]的融合思想,以亞像素跳變?nèi)诤夏KSSF 和亞像素上下文增強(qiáng)模塊SEC 來充分利用通道信息,充分考慮各個(gè)尺度的特征進(jìn)行融合,并采取輕量的通道注意力引導(dǎo)模塊CAG 減輕多尺度融合帶來的混疊效應(yīng),引入全局注意力機(jī)制GAM 來聚焦有效信息。預(yù)測(cè)部份Prediction 采用SIOU-LOSS來加快邊框回歸的精度和速度。總體結(jié)構(gòu)如圖2所示。
圖2 CE-YOLOX 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Structure of CE-YOLOX network
傳統(tǒng)的特征融合網(wǎng)絡(luò)大多存在通道縮減的內(nèi)在缺陷,這導(dǎo)致語(yǔ)義信息的丟失,且各尺度融合的特征圖可能會(huì)導(dǎo)致嚴(yán)重的混疊效應(yīng)。2021 年,華中科技大學(xué)提出了一種通道增強(qiáng)的特征金字塔CE-FPN。CE-FPN 受亞像素卷積的啟發(fā),提出了SSF 和SCE 兩種新的通道增強(qiáng)方法,擴(kuò)展了亞像素卷積固有的上采樣功能,將豐富的通道信息集成到模塊I 中,以輕量級(jí)的通道注意引導(dǎo)模塊(CAG)減少各個(gè)尺度融合產(chǎn)生的混疊效應(yīng)混淆定位和檢測(cè)目標(biāo)。
SSF 模塊主要將低分辨率的特征采用亞像素卷積作為上采樣的方式與臨近的高分辨率特征進(jìn)行通道融合,主干提取出的后3 個(gè)特征具有豐富的通道信息,SSF 模塊將臨近的特征圖兩兩連接,有效利用了高層特征豐富的通道信息來增加特征融合網(wǎng)絡(luò)的表征能力。SSF 結(jié)構(gòu)如圖3所示。
圖3 SSF 模塊Fig.3 Sub-pixel skip fusion (SSF) module
PAFPN 雖然融合了不同尺度的特征信息,但高級(jí)語(yǔ)義特征沒有很好地作用到更大的感受野。為了更好地解決高分辨率的特征圖只具有單一的上下文信息且需要更大的感受野獲取更多語(yǔ)義信息的問題,本文采用集成的特征圖I 的框架,并且采用SCE 模塊利用feature4 豐富的通道信息。SCE 的核心思想是融合大范圍的局部信息和全局的上下文信息來生成更具有辨識(shí)力的特征,假設(shè)本文輸入的特征為2w×2h×8C,輸出集成特征圖I 為4w×4h×C,本文模型C設(shè)定為64。SCE 模塊如圖4 所示。3 條路徑的作用分別為提取局部的特征信息、為更大的感受野獲取豐富的上下文信息以及獲取全局上下文信息,最后將3個(gè)特征映射聚合為集成映射I。
圖4 SCE 模塊Fig.4 Illustration of sub-pixel context enhancement (SCE)
對(duì)于特征融合網(wǎng)絡(luò)的改進(jìn),SSF 和SCE 模塊融合了更多的跨尺度的特征映射,因此混疊效應(yīng)較原模型更為嚴(yán)重,這會(huì)影響模型的定位和識(shí)別任務(wù)。為了減輕鋸齒效應(yīng)產(chǎn)生的負(fù)面影響,加入了受CBAM 啟發(fā)的通道注意力引導(dǎo)模塊(CAG),如圖5 所示。首先采用全局平均池化和全局最大池化來聚合兩個(gè)不同空間的上下文信息,分別通過全連接層后進(jìn)行元素求和,最后通過sigmoid函數(shù)對(duì)輸出特征向量進(jìn)行合并。該過程可用公式(1)表述為:
圖5 通道注意力引導(dǎo)模塊示意圖Fig.5 Illustration of channel attention guided module(CAG)
注意力機(jī)制能更加關(guān)注特征圖中的有效信息,抑制無(wú)效信息,同時(shí)也能減輕在特征融合網(wǎng)絡(luò)中由于跨尺度特征融合產(chǎn)生的混疊效應(yīng),有效地提升網(wǎng)絡(luò)特征提取的性能。各種注意力機(jī)制在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用為計(jì)算機(jī)視覺任務(wù)的性能帶來了顯著提高。Woo等人提出的CBAM 注意力機(jī)制結(jié)合空間注意力機(jī)制和通道注意力機(jī)制相較于SE-Net 有效地解決了抑制特征圖中不重要的信息效率低的問題,但也忽略了通道與空間的相互作用,從而丟失了跨維信息。Misra 等[27]人在2021 年提出的三元注意模塊(TAM)通過對(duì)每一對(duì)三維空間(通道、空間寬度和空間高度)之間的注意力來提升效率,但每次只應(yīng)用在其中的2 個(gè)維度,并不是3 個(gè)維度。為了減少信息彌散和放大跨維度的交互作用捕捉所有3 個(gè)維度的重要特征,2021年,YIchao Liu 等人在CBAM 的基礎(chǔ)上進(jìn)行改進(jìn),提出全局注意力機(jī)制(GAM)。
GAM 采用CBAM 中的順序通道-空間注意力機(jī)制,并對(duì)子模塊進(jìn)行重新設(shè)計(jì)。GAM 的基本結(jié)構(gòu)如圖6 所示。
通道注意力子模塊如圖7 所示,使用三維排列在3 個(gè)維度上保留信息,再用雙層MLP(多層感知機(jī)MLP 是一種編碼-解碼結(jié)構(gòu),與BAM 相同,其壓縮比為r)放大跨維通道-空間的依賴性。
圖7 通道注意力子模塊Fig.7 Channel attention submodule
空間注意力子模塊如圖8 所示。為了關(guān)注空間信息,使用兩個(gè)卷積層進(jìn)行空間信息的融合,還從通道注意力子模塊中使用了與BAM 相同的縮減比r。同時(shí),由于最大池化操作會(huì)減少信息的使用,產(chǎn)生消極的影響,在該子模塊中去除了池化操作以進(jìn)一步保留特性映射。
圖8 空間注意力子模塊Fig.8 Spatial attention submodule
3.3.1 目標(biāo)框回歸損失函數(shù)
傳統(tǒng)的目標(biāo)檢測(cè)損失函數(shù)依賴于邊框回歸度量的聚合,如預(yù)測(cè)框與真實(shí)框中心點(diǎn)之間的距離、重疊面積和長(zhǎng)寬比(GIOU、CIOU、DIOU等)[28-29],卻沒有一種方法考慮到真實(shí)框與預(yù)測(cè)框之間的方向不匹配問題,這會(huì)導(dǎo)致模型在收斂過程中的速度較慢。本文選用SIOU-LOSS[30]替換原模型中的IOU-LOSS 來計(jì)算位置回歸損失函數(shù)。SIOU 具體由4 個(gè)部分組成,分別是角度損失(Angle cost)、距離損失(Distance cost)、形狀損失(Shape cost)和IoU 損失。
角度損失的公式如式(2)所示:
圖9 角度損失對(duì)損失函數(shù)的貢獻(xiàn)Fig.9 Scheme for calculation of angle cost contribution to the loss function
考慮角度損失,重新定義距離損失,公式如式(3)所示:
就全國(guó)范圍而言,較之人均轉(zhuǎn)移支付額,人均GDP對(duì)中國(guó)教育水平提高的貢獻(xiàn)率要更高,為2.7%;而人均轉(zhuǎn)移支付額對(duì)中國(guó)教育水平提高的貢獻(xiàn)率為0.96%,僅為人均GDP貢獻(xiàn)率的35.6%??梢娸^之財(cái)政轉(zhuǎn)移支付資金的支持,地方經(jīng)濟(jì)實(shí)力的提升更能有效地推動(dòng)中國(guó)地區(qū)間教育水平的趨同。
圖10 真實(shí)框與預(yù)測(cè)框之間距離的計(jì)算方案Fig.10 Scheme for calculation of the distance between the ground truth bounding box and the prediction of it
形狀損失定義為:
3.3.2 分類置信度損失函數(shù)
VarifocalLOSS[31]新型焦變損失是基于交叉熵?fù)p失函數(shù)進(jìn)行的改進(jìn),用加權(quán)方法解決類別不平衡的問題,但對(duì)于正負(fù)樣本處理策略是不對(duì)等的。定義為:
其中:α是用來平衡正負(fù)樣本的權(quán)重,pγ為調(diào)背景類的調(diào)制因子,p為預(yù)測(cè)的分類得分。對(duì)于正樣本,q是預(yù)測(cè)框與真實(shí)框之間的IOU;對(duì)于負(fù)樣本,q為0。對(duì)負(fù)樣本進(jìn)行衰減,對(duì)正樣本q進(jìn)行加權(quán),可以使訓(xùn)練更聚焦于正樣本,避免大量的負(fù)樣本對(duì)訓(xùn)練時(shí)損失函數(shù)的影響。
對(duì)于本文在盲人出行時(shí)常見的可能會(huì)對(duì)其造成阻礙的目標(biāo)數(shù)據(jù)集的制作,從路面上凸出(如fire hydrant、road-cone 等)、路面凹陷(如puddle、pothole 等)以及步行中突然出現(xiàn)的物體(如cat、dog 等)這3 種情況考慮,收集VOC、ImageNet 等公共數(shù)據(jù)集以及在不同光照、天氣及角度采集拍攝的圖片。拍攝圖片使用labeling 圖形圖像注釋工具進(jìn)行數(shù)據(jù)的標(biāo)注。本實(shí)驗(yàn)數(shù)據(jù)集將檢測(cè)障礙物分為20 類,共計(jì)15 805 張圖片。表1 所示為各類別的具體數(shù)量。訓(xùn)練集和驗(yàn)證集按9∶1 的比例隨機(jī)進(jìn)行劃分。
表1 數(shù)據(jù)集中各類別檢測(cè)物的數(shù)量Tab.1 Number of each type of test in the dataset
如表2 所示,本文實(shí)驗(yàn)均在服務(wù)器Ubuntu 16.04操作系統(tǒng)下運(yùn)行,計(jì)算機(jī)處理器型號(hào)為AMD 3900X,顯卡型號(hào)為NVIDIA GTX 3090,內(nèi)存為32G。采用Pytorch 1.6.1 框架,所使用的編程語(yǔ)言為Python 3.6,加速環(huán)境為CUDA 11.4。
表2 實(shí)驗(yàn)條件Tab.2 Experimental conditions
本文采用遷移學(xué)習(xí)的思想,前50 輪凍結(jié)模型主干,加快訓(xùn)練速度,迭代批次為64;50 輪之后解凍訓(xùn)練,迭代批次為32。共訓(xùn)練113 輪。具體訓(xùn)練參數(shù)如表3 所示。
表3 實(shí)驗(yàn)參數(shù)設(shè)置Tab.3 Experimental parameter setting
本文采用準(zhǔn)確率(Precision)和召回率(Recall)計(jì)算所有障礙物類別的平均精度mAP(mean Average Precision)來評(píng)估模型的整體性能,用平均精度AP(Average Precision)對(duì)每一類障礙物的檢測(cè)結(jié)果進(jìn)行評(píng)估。P、R、AP 和mAP 計(jì)算公式如式(7)~(10)所示:
其中:n表示為檢測(cè)目標(biāo)的類別數(shù),TP 表示預(yù)測(cè)正確的正樣本數(shù),F(xiàn)N 為預(yù)測(cè)錯(cuò)誤的正樣本數(shù),F(xiàn)P表示為預(yù)測(cè)錯(cuò)誤的正樣本數(shù),TP+FN 為全部正樣本數(shù)量,TP+FP 為全部被分為正樣本的數(shù)量。
4.3.1 不同模塊分析效果
為了檢驗(yàn)本文改進(jìn)算法的檢測(cè)性能,以YOLOX原模型為參照,通過多個(gè)模塊組合的方式進(jìn)行5 組實(shí)驗(yàn),驗(yàn)證各個(gè)模塊的有效性,如表4 所示。
表4 消融實(shí)驗(yàn)結(jié)果Tab.4 Results of ablation experiment
在第一組實(shí)驗(yàn)中,將原模型的損失函數(shù)更改為SIOU-LOSS 之后,mAP 從88.08%提升至88.22%。在第二組實(shí)驗(yàn)中,在第一組實(shí)驗(yàn)的基礎(chǔ)上將特征增強(qiáng)網(wǎng)絡(luò)PAFPN 改進(jìn)為CE-PAFPN后,特征融合網(wǎng)絡(luò)在減少丟失通道信息的同時(shí)充分利用了主干網(wǎng)絡(luò)產(chǎn)生的4 個(gè)尺度的特征進(jìn)行特征融合,增加了模型檢測(cè)的準(zhǔn)確性,降低了漏檢率,使檢測(cè)模型整體的mAP 從88.22%提升至90.02%。在第三組實(shí)驗(yàn)中,嘗試將原模型的分類置信度損失替換為VariFocalLOSS,與第一組實(shí)驗(yàn)中單獨(dú)替換為SIOU 相比,整體mAP 提高了0.13%,但VariFocalLOSS 在加入CE-PAFPN、GAM 后的第四、五組實(shí)驗(yàn)中并沒有比SIOU 加入CE-PAFPN、GAM 后的第二、六組實(shí)驗(yàn)表現(xiàn)更好。第六組實(shí)驗(yàn)在第二組實(shí)驗(yàn)的基礎(chǔ)上加入GAM注意力機(jī)制后,mAP 從90.02%提升至90.53%,增加了0.51%,構(gòu)成本文模型。原模型與本文模型的各類目標(biāo)精度如圖11 所示。比較各個(gè)類別檢測(cè)的精度,CE-YOLOX 的檢測(cè)效果都有不同程度的提升。在YOLOX 模型上表現(xiàn)不好的類別,如bench、pottedplant 的精度也分別提升了0.6%及0.7%。
圖11 YOLOX 與CE-YOLOX 測(cè)試結(jié)果對(duì)比圖Fig.11 Comparison of YOLOX and CE-YOLOX test results
注意力機(jī)制在網(wǎng)絡(luò)中添加的位置不同,模型的檢測(cè)效果也會(huì)有差異。在第二組實(shí)驗(yàn)的基礎(chǔ)上,進(jìn)行了兩組對(duì)比實(shí)驗(yàn),最終確定注意力機(jī)制在模型中的添加位置,組成本文最后的網(wǎng)絡(luò)結(jié)構(gòu)。
由此可見,由于特征增強(qiáng)網(wǎng)絡(luò)融合了多尺度信息,導(dǎo)致網(wǎng)絡(luò)產(chǎn)生了混疊效應(yīng),GAM 注意力機(jī)制添加在特征增強(qiáng)網(wǎng)絡(luò)之前并不合適,對(duì)網(wǎng)絡(luò)的整體檢測(cè)效果提升有限。GAM 注意力機(jī)制添加在特征增強(qiáng)網(wǎng)絡(luò)之后就很好地緩解了在特征增強(qiáng)網(wǎng)絡(luò)部分產(chǎn)生的混疊效應(yīng)問題。
4.3.2 不同模型效果對(duì)比
為了驗(yàn)證本文改進(jìn)算法的有效性,本文將RetineNet、Efficiented、SSD、YOLOv5 和本文基礎(chǔ)算法YOLOX 在同一數(shù)據(jù)集下進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表5 所示。
表5 不同位置GAM 注意力機(jī)制效果對(duì)比Tab.5 Comparison of the effects of different position GAM
由表6可知,對(duì)于盲人出行道路障礙物檢測(cè)的整體mAP,本文模型優(yōu)于RetineNet、Efficiented、SSD、YOLOv5、YOLOX。在單張圖片的檢測(cè)速度上,YOLOX 原型最快。雖然本文模型單張圖片的檢測(cè)速度低于原模型,但依然滿足實(shí)時(shí)目標(biāo)檢測(cè)的需求,達(dá)到了模型精度與速度的平衡。
圖12 為本文所提改進(jìn)模型及YOLOX 和YOLOv5 三種檢測(cè)模型對(duì)幾類在出行過程中會(huì)對(duì)盲人造成阻礙的障礙物的檢測(cè)效果。從圖12 可以看出,所提的改進(jìn)模型CE-YOLOX 的預(yù)測(cè)框與真實(shí)框的重合度更高,對(duì)于目標(biāo)的定位更準(zhǔn)確,對(duì)檢測(cè)目標(biāo)的準(zhǔn)確率更高。
圖12 3 種模型檢測(cè)對(duì)比圖Fig.12 Comparison of three model checks
為了驗(yàn)證改進(jìn)的檢測(cè)算法CE-YOLOX 在實(shí)際工程中的應(yīng)用,將其在服務(wù)器上訓(xùn)練完成后部署在邊緣計(jì)算平臺(tái)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)所設(shè)計(jì)的主從式的視障人群出行監(jiān)測(cè)系統(tǒng)包括高性能NVIDIA Xavier NX邊緣計(jì)算板(導(dǎo)盲系統(tǒng))、基于LD3320的語(yǔ)音交互模塊、藍(lán)牙模塊、雙目攝像頭、基于香橙派Range Pi 實(shí)現(xiàn)的定點(diǎn)導(dǎo)骯等工具、Ubuntu18.04操作系統(tǒng)、OpenCV3.4、TensorFlow1.15 等工具與框架。圖13 為導(dǎo)盲系統(tǒng)流程框圖。
圖13 導(dǎo)盲系統(tǒng)流程框圖Fig.13 Flow diagram of guide system
將CE-YOLOX 以及YOLOv5、YOLOX 移植到導(dǎo)盲系統(tǒng)實(shí)物平臺(tái)中進(jìn)行對(duì)比實(shí)驗(yàn),其檢測(cè)效果如表7 所示。在NVIDIA Xavier NX 邊緣計(jì)算板上,各算法檢測(cè)的準(zhǔn)確度與表5 相同。YO-LOv5、YOLOX 的檢測(cè)速度雖略高于本文所提出的CE-YOLOX,但CE-YOLOX 對(duì)目標(biāo)識(shí)別的準(zhǔn)確度要優(yōu)于YOLOv5、YOLOX,同時(shí)也滿足了盲人出行檢測(cè)所要求的實(shí)時(shí)性,在實(shí)際應(yīng)用中更符合對(duì)盲人出行可能造成障礙的物體目標(biāo)的檢測(cè)實(shí)時(shí)性和準(zhǔn)確度的要求。
表7 3 種算法在Nvidia Xavir NX 上的檢測(cè)效果對(duì)比Tab.7 Comparison of detection effects of the three algorithms on Nvidia Xavir NX
為了解決盲人出行難的問題,本文提出了一種基于YOLOX 的改進(jìn)模型CE-YOLOX 用來檢測(cè)對(duì)盲人出行造成阻礙的目標(biāo)。通過將特征融合網(wǎng)絡(luò)PAFPN 改進(jìn)為CE-PAFPN,以亞像素跳變?nèi)诤夏KSSF 和亞像素上下文增強(qiáng)模塊SCE 來充分利用通道信息和不同尺度的語(yǔ)義信息,通道注意力引導(dǎo)模塊CAG 來減少混疊效應(yīng),有效提升了檢測(cè)模型的精度。通過加入GAM 全局注意力機(jī)制,使模型在訓(xùn)練過程中更關(guān)注有效信息,抑制無(wú)效信息,同時(shí)也有效緩解了多尺度特征融合產(chǎn)生的混疊效應(yīng)。采用SIOU 損失函數(shù),SIOU 引入的角度損失解決了預(yù)測(cè)框與真實(shí)框之間方向不匹配的問題,也考慮到了預(yù)測(cè)框和真實(shí)框距離、形狀和IOU,使得對(duì)目標(biāo)的定位更加精準(zhǔn),也加快了訓(xùn)練過程中模型的收斂。實(shí)驗(yàn)結(jié)果表明,本文算法在速度上滿足了實(shí)時(shí)檢測(cè)的需求,檢測(cè)目標(biāo)的準(zhǔn)確率也優(yōu)于現(xiàn)有的YOLOv5、YOLOX 等其他算法,mAP 達(dá)到了90.53%,單張檢測(cè)速度達(dá)到了75.93 FPS,部署在邊緣檢測(cè)設(shè)備上的NVIDIA Xavier NX 也滿足盲人出行實(shí)時(shí)檢測(cè)的要求。后續(xù)工作需要考慮模型在檢測(cè)精度不下降太多的情況下對(duì)模型進(jìn)行輕量化的改進(jìn),從而提升模型的檢測(cè)速度,使模型部署在邊緣計(jì)算設(shè)備上擁有更好的實(shí)時(shí)性,使盲人日常出行能夠快速準(zhǔn)確識(shí)別障礙物。