摘 要:為實(shí)現(xiàn)災(zāi)難事件的無人機(jī)(Unmanned Aerial Vehicle,UAV) 自主監(jiān)測(cè)和預(yù)警,提出了結(jié)合逐通道注意力機(jī)制和高效卷積神經(jīng)網(wǎng)絡(luò)的新架構(gòu)。考慮到嵌入式平臺(tái)的資源限制條件,使用輕量級(jí)ShuffleNet-V2 作為骨干網(wǎng)絡(luò),能夠?qū)Ω嘈畔⑦M(jìn)行高效編碼并盡可能降低網(wǎng)絡(luò)復(fù)雜度。為進(jìn)一步提高災(zāi)難場(chǎng)景分類的準(zhǔn)確度,在ShuffleNet-V2 網(wǎng)絡(luò)中結(jié)合了擠壓-激發(fā)(Squeeze-Excitation,SE) 模塊以實(shí)現(xiàn)逐通道注意力機(jī)制,顯著增強(qiáng)分類網(wǎng)絡(luò)對(duì)重要特征的關(guān)注度。通過數(shù)據(jù)采集和增強(qiáng)技術(shù)獲得包括12 876 張圖像的UAV 航拍災(zāi)難事件數(shù)據(jù)集,對(duì)所提方法進(jìn)行性能評(píng)估,并比較所提方法與其他先進(jìn)模型的性能。結(jié)果表明,所提方法取得了99. 01% 的平均準(zhǔn)確度,模型大小僅為5. 6 MB,且在UAV 機(jī)載平臺(tái)上的處理速度超過10 FPS,能夠滿足UAV 平臺(tái)自主災(zāi)情監(jiān)測(cè)任務(wù)的現(xiàn)實(shí)需求。
關(guān)鍵詞:無人機(jī);圖像分類;卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;嵌入式平臺(tái)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3106(2024)05-1261-09
0 引言
當(dāng)前,無人機(jī)(Unmanned Aerial Vehicle,UAV)已得到了廣泛應(yīng)用,例如交通監(jiān)測(cè)、搜索救援、精準(zhǔn)農(nóng)業(yè)和衛(wèi)星圖像處理等[1]。UAV 尺寸小,可快速部署,是及時(shí)分析情況并消減災(zāi)難影響的有力工具,但受災(zāi)區(qū)域常存在連接性和可見性限制[2]。此外,自主UAV 依賴機(jī)載傳感器和微處理器執(zhí)行給定任務(wù)。需要考慮算力和存儲(chǔ)硬件限制,并實(shí)現(xiàn)高效視覺處理[3]。
在災(zāi)難管理應(yīng)用的航拍圖像分類中,深度學(xué)習(xí)具有分類準(zhǔn)確度高、通用性強(qiáng)的優(yōu)點(diǎn),發(fā)揮著重要作用[4]。深度學(xué)習(xí)算法,例如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),被普遍視為許多計(jì)算機(jī)視覺應(yīng)用(圖像/ 視頻識(shí)別、檢測(cè)和分類)的發(fā)展方向,并已經(jīng)在各種應(yīng)用中表現(xiàn)出優(yōu)異性能[5]。文獻(xiàn)[6]提出了結(jié)合CNN 和XGBoost 的道路交通事故分類檢測(cè)算法,基于組合模型的分類結(jié)果進(jìn)行重要程度排序和特征相關(guān)性分析。該方法取得了91. 51% 的預(yù)測(cè)準(zhǔn)確度。但該方法使用的CNN 硬件資源需求較大,不適用于UAV 嵌入式設(shè)備。文獻(xiàn)[7]提出了在雪崩場(chǎng)景中檢測(cè)感興趣目標(biāo)的方法,使用預(yù)訓(xùn)練Inception 網(wǎng)絡(luò)進(jìn)行特征提取,并利用線性支持向量機(jī)進(jìn)行分類,并基于隱藏馬爾科夫模型,應(yīng)用后處理以改善分類器的決策。文獻(xiàn)[8]提出了基于CNN 的建筑物倒塌預(yù)測(cè)模型,利用淺層局部特征改善高度和目標(biāo)形狀估計(jì),并使用漸進(jìn)式情境融合方法改善性能,并取得了最高98. 78% 的整體檢測(cè)準(zhǔn)確度。文獻(xiàn)[9]提出了基于深度學(xué)習(xí)的UAV 航拍圖像洪水檢測(cè)方案,利用Haar 級(jí)聯(lián)分類器捕捉場(chǎng)景特征以識(shí)別洪水區(qū)域。但該方法使用的訓(xùn)練數(shù)據(jù)集規(guī)模較小,因此在對(duì)洪水區(qū)域和非洪水區(qū)域的分類中僅取得了91% 的準(zhǔn)確度。文獻(xiàn)[10]提出了UAV 航拍圖像的火災(zāi)檢測(cè)算法,其中結(jié)合了CNN 和YOLOv3。該方法僅實(shí)現(xiàn)了83% 的檢測(cè)準(zhǔn)確度,且在UAV 平臺(tái)上處理速度FPS 僅為3. 2,不能滿足實(shí)時(shí)應(yīng)用需求。從過去方法的分析中可發(fā)現(xiàn),當(dāng)前方法主要采用桌面式系統(tǒng)作為主計(jì)算平臺(tái),在GPU 上對(duì)UAV 視頻片段進(jìn)行遠(yuǎn)程處理。然而,在特定場(chǎng)景中,通信延遲和連接性問題可能會(huì)影響到此類系統(tǒng)的性能,此外,過去方法大部分著眼于單一災(zāi)難事件的檢測(cè),限制了預(yù)警平臺(tái)的應(yīng)用范圍。
本文提出了使用UAV 機(jī)載平臺(tái),對(duì)災(zāi)難事件進(jìn)行自動(dòng)分類的解決方案,并針對(duì)應(yīng)急救援應(yīng)用采集了UAV 航拍圖像數(shù)據(jù)集。以往方法僅針對(duì)單一災(zāi)難事件,本文方案則訓(xùn)練網(wǎng)絡(luò)對(duì)4 種災(zāi)難事件(火災(zāi)、洪災(zāi)、建筑物坍塌和交通事故)進(jìn)行識(shí)別,極大擴(kuò)展了UAV 自主監(jiān)測(cè)的應(yīng)用范圍。所提方法使用高效ShuffleNet-V2 架構(gòu),大幅降低了硬件資源要求,從而在UAV 嵌入式平臺(tái)上實(shí)現(xiàn)實(shí)時(shí)處理。利用擠壓-激發(fā)(Squeeze-Excitation,SE)模塊,基于不同通道的重要程度調(diào)整注意力機(jī)制的關(guān)注度,顯著改善了分類準(zhǔn)確度。由此,在復(fù)雜度和準(zhǔn)確度之間實(shí)現(xiàn)平衡。
1 提出的改進(jìn)型ShuffleNet-V2
本文開發(fā)了基于自主式UAV 平臺(tái)的災(zāi)難事件分類預(yù)警方法。在UAV 嵌入式平臺(tái)上,利用深度學(xué)習(xí)模型實(shí)時(shí)分析通過UAV 傳感器撲捉到的圖像,進(jìn)行災(zāi)難事件監(jiān)控,并在發(fā)生險(xiǎn)情時(shí)及時(shí)發(fā)出警報(bào)。所提系統(tǒng)中,開發(fā)了基于逐通道注意力(Channel-wise Attention,CA)機(jī)制的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)。使用ShuffleNet-V2 作為骨干網(wǎng)絡(luò),并利用SE 模塊作為改善ShuffleNet-V2 架構(gòu)的注意力機(jī)制。
1. 1 ShuffleNet-V2 和SE 模塊
近期,基于CNN 的分類系統(tǒng)得到了大量研究,其中對(duì)一些性能領(lǐng)先的深度學(xué)習(xí)框架的簡(jiǎn)單介紹如下:
AlexNet[11]:VGG 網(wǎng)絡(luò)被廣泛用于從圖像中提?。茫危?特征。該網(wǎng)絡(luò)包含5 個(gè)卷積和3 個(gè)全連接層。該架構(gòu)準(zhǔn)確度較好,但評(píng)估成本高,參數(shù)量大,內(nèi)存占用大,不適用于移動(dòng)應(yīng)用。
MobileNet[12]:利用可分離卷積的理念,MobileNet 可以在稍微降低分類準(zhǔn)確度的前提下減少計(jì)算成本。其在每個(gè)輸入通道處應(yīng)用單個(gè)過濾器,其后進(jìn)行線性合并。由此,對(duì)于移動(dòng)應(yīng)用,該網(wǎng)絡(luò)便于參數(shù)化,且易于優(yōu)化。
為提高深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)在嵌入式設(shè)備中的效率并保持準(zhǔn)確度,文獻(xiàn)[13]提出了ShuffleNet-V1 模型,顯著降低了計(jì)算成本,并在圖像分類任務(wù)中取得較好成績(jī)。其中,將模型表示為逐點(diǎn)分組卷積和通道置亂,在特征映射通道中編碼更多信息。但由于僅利用小部分輸入通道推導(dǎo)出特定通道輸出,模型表征能力較差,為此一般采用通道置亂操作,通過將每個(gè)分組中的通道分割到不同分組,并將每個(gè)分組輸入到有著不同子分組的下一層,得到來自不同分組的數(shù)據(jù)。但瓶頸單元和逐點(diǎn)分組層增加了內(nèi)存訪問成本,過多分組降低了并行度。文獻(xiàn)[14]提出了ShuffleNet-V2,考慮到過多分組降低了并行度,利用通道分割替換分組操作,將輸入特征分為2個(gè)分支,進(jìn)一步降低了模型復(fù)雜度。
近期,注意力機(jī)制在各種自然語言處理、圖像描述和圖像理解領(lǐng)域得到了廣泛應(yīng)用,其中將可用處理資源分配至有用特征表示,同時(shí)抑制無用特征表示。文獻(xiàn)[15]提出了SE模塊,以提高當(dāng)前模型的性能并降低計(jì)算成本,基于逐通道重要性對(duì)特征圖進(jìn)行自主調(diào)整。與卷積塊注意力模塊(ConvolutionalBlockAttentionModule,CBAM)[16]、高效通道注意(EffificientChannelAttention,ECA)[17]等其他注意力模塊相比,SE模塊在準(zhǔn)確度和處理速度方面實(shí)現(xiàn)了較好的平衡,更適用于針對(duì)資源受限的嵌入式平臺(tái)設(shè)計(jì)的輕量級(jí)模型。
1.2 改進(jìn)的方法
所提基于深度學(xué)習(xí)模型的UAV災(zāi)難圖像分類框架的流程如圖1所示。首先將訓(xùn)練數(shù)據(jù)集中的圖像輸入所提圖像分類模型,改進(jìn)模型中結(jié)合了Shuf-fleNet-V2架構(gòu)和SE模塊,在Shuffle架構(gòu)前3個(gè)階段的級(jí)聯(lián)(Concat)操作后,SE模塊輸入特征圖作為輸入,通過對(duì)Shuffle模塊中不同層級(jí)特征圖進(jìn)行加權(quán),從而使網(wǎng)絡(luò)更加關(guān)注重要的特征,在降低計(jì)算成本的同時(shí),增強(qiáng)模型的學(xué)習(xí)能力和分類性能。
所提網(wǎng)絡(luò)架構(gòu)如圖2所示。ShuffleNet-V2通過4個(gè)不同階段分層逐步提取特征。其中,階段1學(xué)習(xí)如邊緣和紋理等基礎(chǔ)特征,階段2學(xué)習(xí)如形狀等抽象復(fù)雜特征,階段3學(xué)習(xí)如語義信息等高級(jí)特征,階段4將高級(jí)特征轉(zhuǎn)換為分類預(yù)測(cè)。所提改進(jìn)方法在原ShffleNet-V2的前3個(gè)階段的末尾分別添加了一個(gè)SE模塊,因此,改進(jìn)架構(gòu)同樣分為4個(gè)階段,第一個(gè)階段的每個(gè)模塊的步長(zhǎng)設(shè)為2,以實(shí)現(xiàn)下采樣。將其余階段的步長(zhǎng)設(shè)為1。在每個(gè)單元開始時(shí),通過通道分割將特征通道輸入分割為2個(gè)分支。其中一個(gè)分支保持不變,另一個(gè)分支則包括有著相同輸入和輸出通道的3個(gè)卷積層,由此替換了分組卷積,降低了內(nèi)存訪問成本。在卷積后,將2個(gè)分組串聯(lián),使得通道數(shù)保持不變。最后,使用通道置亂,確保2個(gè)分支之間的信息交換。在ShuffleNet-V2中添加SE模塊有3種可行方式。第一種方式是在ShuffleNet單元內(nèi)部嵌入SE模塊,在最后一個(gè)卷積層后直接連接SE模塊。第2種方式是將SE模塊放入與ShuffleNet單元并行的直通分支。第3種方式是將SE模塊放置在ShuffleNet架構(gòu)直通分支的concat操作后。所提方法是針對(duì)嵌入式平臺(tái)實(shí)時(shí)檢測(cè)而提出的輕量級(jí)模型,應(yīng)在確保分類準(zhǔn)確度的同時(shí),盡量降低計(jì)算成本。ShuffleNet-V2架構(gòu)共包含16個(gè)基本區(qū)塊,如果采取前2種方式,必須嵌入大量SE模塊,會(huì)使網(wǎng)絡(luò)變得冗余,大幅增加計(jì)算成本。為此,所提方法選擇了最后一種嵌入策略,在前3個(gè)階段的末端均放入SE模塊,即僅向ShuffleNet-V2架構(gòu)添加3個(gè)SE模塊。
在圖2框架的下半部分為SE模塊。在Shuf-fleNet-V2模塊后,使用SENet理念處理特征通道。首先,使用全局平均池化將通道空間特征轉(zhuǎn)換為全局特征;然后,利用全連接(FullyConnected,FC)層降低模型復(fù)雜度,提高通用性;使用ReLU作為激活層,使用FC層恢復(fù)尺寸;最后,將每個(gè)通道的加權(quán)系數(shù)與原始特征相乘。
在擠壓階段應(yīng)用全局平均池化,通過生成逐通道統(tǒng)計(jì)信息嵌入全局空間信息。具體來說,將輸入特征圖U=[u1,u2,…,uC]視為通道ui∈RH×W的組合,C為輸出通道數(shù)。采用簡(jiǎn)單聚合技術(shù),利用全局平均池化操作對(duì)整個(gè)圖像進(jìn)行收縮,得到:
式中,Fsq(.)為擠壓映射,H×W 為圖像尺寸,zc為向量z∈R1×1×C的第c個(gè)元素,uc∈U為第c個(gè)特征圖,(i,j)對(duì)應(yīng)空間位置,i∈ {1,2,…,H},j∈ {1,2,…,W}。U 可視為整個(gè)圖像的局部描述子集合,包含整個(gè)圖像的大量統(tǒng)計(jì)信息,因此利用全局平均池化降低處理成本。該操作將全局空間信息嵌入向量z。
激發(fā)階段,基于從擠壓信息中推導(dǎo)出的聚合信息,充分捕捉逐通道依賴性,學(xué)習(xí)通道之間的非線性交互以及非互斥信息,以確保允許將多條通道作為重點(diǎn)對(duì)象。將z 轉(zhuǎn)換為:
z^= Fex(z,W) = σ(W2 δ(W1 z)), (2)
式中:Fex(. )為激發(fā)映射,δ(. )為ReLU 函數(shù),σ 為Sigmoid 層。W1 ∈?。茫颉粒?和W2 ∈!C×Cr分別為2 個(gè)全連接層的權(quán)重,其中,參數(shù)r 表示壓縮比,對(duì)逐通道依賴性進(jìn)行編碼。為限制模型復(fù)雜度,提高通用性,利用2 個(gè)全連接層形成瓶頸,將門限機(jī)制參數(shù)化,該結(jié)構(gòu)首先為基于參數(shù)W1 的降維層,中間為ReLU,其后為基于參數(shù)W2 的升維層。根據(jù)經(jīng)驗(yàn),設(shè)r = 2。z^的激活動(dòng)態(tài)區(qū)間為[0,1],將其通過Sigmoid 層,即σ(z^)。得到的向量用于對(duì)轉(zhuǎn)換輸出U 進(jìn)行重新標(biāo)定或激發(fā):
U^= [σ(z^ 1 )u1 ,σ(z^2 )u2 ,…,σ(z^ C )uC ], (3)
式中:σ(z^i)表示第i 個(gè)通道的重要程度,由此決定對(duì)該通道的擴(kuò)展或收縮。σ(z^i )隨著網(wǎng)絡(luò)學(xué)習(xí)自適應(yīng)調(diào)整,以忽視不重要的通道,并強(qiáng)調(diào)重要通道。圖3 給出了修改后的SE 模塊在所提框架中的工作原理。
2 實(shí)驗(yàn)與分析
本文在Windows 7,CPU Intel i5 9600K @ 3. 7 GHz和GTX 1060 環(huán)境下進(jìn)行,使用Matlab 2016b?,F(xiàn)實(shí)世界實(shí)驗(yàn)中,考慮2 種情況:① 在嵌入式設(shè)備上處理所有計(jì)算,以驗(yàn)證在資源受限的UAV 平臺(tái)上的性能;② 使用手機(jī)作為UAV 地面基站,連接到UAV控制器以處理輸入圖像??紤]到實(shí)時(shí)流處理,即相機(jī)按順序輸出每幀圖像,重點(diǎn)分析單張圖像的處理速度。
2. 1 數(shù)據(jù)集采集與增強(qiáng)
為訓(xùn)練CNN 進(jìn)行航拍圖像分類,首先需要針對(duì)該任務(wù)采集合適的數(shù)據(jù)集。為此,本文針對(duì)應(yīng)急救援應(yīng)用創(chuàng)建了專用數(shù)據(jù)集。從多個(gè)來源采集這些災(zāi)難類別的航拍圖像,包括百度圖像、新聞網(wǎng)站、航拍圖像數(shù)據(jù)庫(kù)以及從本文的UAV 平臺(tái)上采集的圖像。在數(shù)據(jù)采集過程中,以不同分辨率、不同的照明和視角條件,捕捉各種不同的災(zāi)難事件。最后,為貼近現(xiàn)實(shí)世界場(chǎng)景,該數(shù)據(jù)中的場(chǎng)景占比是不平衡的,其中包含更多的無異常類圖像。表1 列舉了數(shù)據(jù)集詳情。
UAV 的操作條件會(huì)受到不同環(huán)境的影響,因此數(shù)據(jù)集內(nèi)不應(yīng)該僅包含清晰的圖像。此外,數(shù)據(jù)采集過程可能非常耗時(shí),成本較高。為進(jìn)一步擴(kuò)充數(shù)據(jù)集,在將圖像添加到訓(xùn)練批次之前,先對(duì)每個(gè)圖像應(yīng)用概率性的隨機(jī)增廣。
① 圖像旋轉(zhuǎn):為得到各種不同方向拍攝到的災(zāi)難圖像,將數(shù)據(jù)集中的圖像以90°、180°和270°旋轉(zhuǎn)并鏡像操作。旋轉(zhuǎn)增強(qiáng)技術(shù)能夠提高深度神經(jīng)網(wǎng)絡(luò)在不同高度執(zhí)行檢測(cè)時(shí)的分類性能。
② 圖像顏色和亮度:為提高災(zāi)難事件在不同照明條件下的可見性,以不同亮度水平對(duì)圖像進(jìn)行增強(qiáng),選擇合適的圖像亮度范圍,lmin = 0. 4,lmax = 1. 5。
③ 添加高斯和椒鹽噪聲:由于UAV 相機(jī)可能會(huì)捕捉到模糊圖像,向圖像添加0. 004 的椒鹽噪聲,以提高模型對(duì)不同照明條件下災(zāi)難時(shí)間的分類能力。
④ 隨機(jī)裁剪:最高隨機(jī)裁剪凸顯該區(qū)域的60% ,并執(zhí)行翻轉(zhuǎn)、寬度平移和高度平移,從而改善對(duì)事故僅僅存在于圖片邊緣等情況下的檢測(cè)性能。
⑤ 背景移除:移除背景,以提高模型學(xué)習(xí)災(zāi)難事件的能力。
⑥ 圖像縮放:對(duì)圖像進(jìn)行0. 8 ~ 1. 0 倍的縮放,用得出的數(shù)據(jù)集進(jìn)行訓(xùn)練,以提高模型在UAV 設(shè)備上運(yùn)行時(shí)神經(jīng)網(wǎng)絡(luò)的分類性能。
以隨機(jī)概率應(yīng)用每種變換,并確保不會(huì)對(duì)訓(xùn)練批次中的所有圖像均進(jìn)行變換,以避免網(wǎng)絡(luò)將增廣屬性捕捉為數(shù)據(jù)集特征。通過數(shù)據(jù)增強(qiáng)避免過擬合,提高訓(xùn)練集可變性,實(shí)現(xiàn)更好的泛化性能。數(shù)據(jù)集中的一些樣本如圖4 所示。通過數(shù)據(jù)集增強(qiáng)技術(shù)對(duì)初始數(shù)據(jù)集進(jìn)行顯著擴(kuò)展,增加了5 倍以上的訓(xùn)練圖像。
2. 2 性能度量
本文的最終目標(biāo)是在UAV 上運(yùn)行模型,并在線處理每個(gè)圖像。因此,每個(gè)模型取得的每秒幀數(shù)(Frame Per Second,FPS)是重要的性能度量。此外,考慮到數(shù)據(jù)集不均衡情況,在正確分類樣本數(shù)之外,還使用平均F1 得分作為學(xué)習(xí)性能指標(biāo)。
FPS 指標(biāo)分析分類器處理傳入相機(jī)幀的速率v:
式中:ti 為單張圖像處理速度,Nt 為測(cè)試樣本數(shù)量。
平均F1 得分[18]:該指標(biāo)測(cè)量通過每個(gè)類別的測(cè)試實(shí)例數(shù)加權(quán)后的所有類別上的平均準(zhǔn)確度。該指標(biāo)同時(shí)考慮了精度和召回率,數(shù)值較高意味著漏檢率和誤警率較低:
式中:Nl 為類別數(shù)量,pi = tp/tp+fp和sni = tp/tp+fn分別為精度和敏感度,tp 為真陽性檢測(cè),fp 為假陽性檢測(cè),fn 為假陰性檢測(cè)。
2. 3 網(wǎng)絡(luò)訓(xùn)練
通過相同框架對(duì)所有網(wǎng)絡(luò)(AlexNet、MobileNet、ShuffleNet-V1、ShuffleNet-V2 和本文方法)進(jìn)行訓(xùn)練和測(cè)試,以確保相同條件下的公平比較。使用Keras 深度學(xué)習(xí)框架,并將Tensorflow 作為后端[19]。除了指定較小尺寸輸入圖像的MobileNet 外,盡可能為所有網(wǎng)絡(luò)使用相同的圖像大小(240 pixel×240 pixel)。將數(shù)據(jù)集以4 ∶ 1 的比例劃分為訓(xùn)練集和測(cè)試集。如前文所述,無異常類為主要類,數(shù)量超過數(shù)據(jù)集中其他類別之和,這反映了現(xiàn)實(shí)情況,但也可能在網(wǎng)絡(luò)中產(chǎn)生過擬合問題。為避免數(shù)據(jù)集不平衡問題,在相同批次內(nèi)同時(shí)對(duì)非異常類進(jìn)行下采樣,對(duì)其他類別進(jìn)行上采樣。為此,從每個(gè)類別中選擇相同數(shù)量的圖像以形成批次,由此實(shí)現(xiàn)對(duì)各種不同情況的平等表達(dá)。
將模型的最后一層替換為輸出層,其等于總類別數(shù),本文實(shí)驗(yàn)中共5 類,包括4 類災(zāi)難場(chǎng)景和1 類無異常場(chǎng)景。對(duì)所有網(wǎng)絡(luò)的超參數(shù)進(jìn)行標(biāo)準(zhǔn)化。使用了Adam 優(yōu)化方法,初始學(xué)習(xí)率為0. 001,每5 代乘以0. 95,以實(shí)現(xiàn)平滑的學(xué)習(xí)率衰減。對(duì)每個(gè)網(wǎng)絡(luò)進(jìn)行12 000 代訓(xùn)練,每代包含200 批的迭代,由于GPU 存儲(chǔ)限制,將批大小設(shè)為16。
2. 4 仿真結(jié)果分析
圖5 給出了在所提實(shí)驗(yàn)數(shù)據(jù)集上訓(xùn)練時(shí),隨著迭代次數(shù)增加,AlexNet、MobileNet、ShuffleNet-V1、ShuffleNet-V2 和本文方法的分類準(zhǔn)確度。從中可發(fā)現(xiàn),所提方法準(zhǔn)確度與AlexNet 大致相當(dāng),優(yōu)于其他方法。這表明所提架構(gòu)在卷積神經(jīng)網(wǎng)絡(luò)中結(jié)合了逐通道注意力機(jī)制,有效提高了對(duì)重要特征的學(xué)習(xí)能力,改善了網(wǎng)絡(luò)分類性能,且所提網(wǎng)絡(luò)在少量迭代次數(shù)后就收斂至較高準(zhǔn)確度。MobileNet 準(zhǔn)確度最低,且曲線波動(dòng)較大,不適用于對(duì)準(zhǔn)確度要求較高的災(zāi)難監(jiān)測(cè)任務(wù)。
表2 給出了各模型的參數(shù)量、每秒浮點(diǎn)運(yùn)算次數(shù)(Floatingpoint Operations Per Second,FLOPS)和在測(cè)試數(shù)據(jù)集上的準(zhǔn)確度結(jié)果。FLOPS 是與平臺(tái)無關(guān)的復(fù)雜度指標(biāo)。從中可發(fā)現(xiàn),AlexNet 的準(zhǔn)確度稍優(yōu)于所提架構(gòu),但該架構(gòu)的參數(shù)量非常大,對(duì)計(jì)算和存儲(chǔ)資源的要求很高,不適用于資源受限的嵌入式設(shè)備。ShuffleNet-V2 的準(zhǔn)確度低于ShuffleNet-V1,這表明在降低資源使用量的情況下,其分類準(zhǔn)確度也受到了影響。所提方法準(zhǔn)確度僅稍低于AlexNet,證明所提架構(gòu)通過結(jié)合注意力機(jī)制,有效增強(qiáng)了對(duì)重要特征的學(xué)習(xí)和處理能力,使得準(zhǔn)確度能夠滿足UAV 災(zāi)難監(jiān)測(cè)任務(wù)的要求,且對(duì)算力的要求要小得多,能夠在低功耗設(shè)備上進(jìn)行實(shí)時(shí)處理。
表3 列舉了各模型的存儲(chǔ)空間和增強(qiáng)訓(xùn)練集上的平均F1 得分。其中,括號(hào)內(nèi)的數(shù)值為各模型使用未擴(kuò)充的訓(xùn)練集進(jìn)行模型訓(xùn)練后,在同樣的測(cè)試集上的性能表現(xiàn)。從中可以看出,盡管AlexNet 的平均F1 得分稍優(yōu)于本文方法,但硬件資源要求過高,不適用于嵌入式平臺(tái)。MobileNet 的準(zhǔn)確度過低,不能滿足災(zāi)難場(chǎng)景監(jiān)控任務(wù)的要求。所提網(wǎng)絡(luò)的硬件資源需求和ShuffleNet-V2 大致相當(dāng),能夠滿足實(shí)時(shí)控制需求,且在分類準(zhǔn)確度上獲得了較大提升。此外,各方法使用擴(kuò)充訓(xùn)練集后均取得了顯著的性能提升,證明本文使用的訓(xùn)練數(shù)據(jù)增強(qiáng)策略是有效且必要的。
為分析和比較在進(jìn)一步降低計(jì)算復(fù)雜度和模型參數(shù)量的情況下所提模型的性能,遵循文獻(xiàn)[13 -14]的結(jié)構(gòu)設(shè)定,將網(wǎng)絡(luò)寬度分別縮放至0. 25 倍和1 倍,表示為ShuffleNet(0. 25 ×)和ShuffleNet(1 ×),然后將SE 模塊分別應(yīng)用到這2 個(gè)模型中。圖6 給出了本文方法分別應(yīng)用到不同網(wǎng)絡(luò)寬度的ShuffleNet-V1 和ShuffleNet-V2 時(shí),每個(gè)類別(火災(zāi)、洪災(zāi)、建筑物坍塌、交通事故和無異常)的分類結(jié)果,并與原始模型的結(jié)果相比較。從中可發(fā)現(xiàn),所提方法在應(yīng)用到ShuffleNet-V2 后,在5 個(gè)類別的分類準(zhǔn)確度分別為99. 2% 、99. 6% 、100% 、95% 和88% 。所提方法在應(yīng)用到ShuffleNet-V1 后,性能得到了進(jìn)一步提升,但由于網(wǎng)絡(luò)復(fù)雜度過高,如后文現(xiàn)實(shí)場(chǎng)景測(cè)試結(jié)果所示,ShuffleNet-V1 不能滿足機(jī)載平臺(tái)的實(shí)時(shí)性需求。此外,從實(shí)驗(yàn)結(jié)果中可發(fā)現(xiàn),各方法在無異常場(chǎng)景中的分類準(zhǔn)確度都相對(duì)較低,這是因?yàn)樵谔貏e復(fù)雜的場(chǎng)景中,例如交通嚴(yán)重?fù)矶聢?chǎng)景,或者拍攝目標(biāo)被遮擋的情況下,模型可能會(huì)將正常場(chǎng)景誤分入某種災(zāi)難事件類別。
2. 5 現(xiàn)實(shí)場(chǎng)景測(cè)試結(jié)果
在現(xiàn)實(shí)場(chǎng)景中評(píng)估所提架構(gòu)的性能。使用計(jì)算資源和能量受限的移動(dòng)設(shè)備,測(cè)量所提網(wǎng)絡(luò)的處理速度和比較方法的幀率。測(cè)試中使用了2 種不同場(chǎng)景。場(chǎng)景1 針對(duì)機(jī)載處理平臺(tái),場(chǎng)景2 使用手機(jī)連接作為UAV 移動(dòng)地面基站,連接到UAV 控制器以處理輸入圖像。這2 種場(chǎng)景均易于部署,適合應(yīng)急場(chǎng)景中的遠(yuǎn)程監(jiān)測(cè)任務(wù)。圖7 給出了實(shí)驗(yàn)平臺(tái),其中,圖7 (a)為配置了高清相機(jī)的大疆Matrice 200無人機(jī),圖7(b)為UAV 控制平臺(tái),采用廣播式自動(dòng)相關(guān)監(jiān)視系統(tǒng)(Automatic Dependent Surveillance-Broadcast,ADS-B),參數(shù)包括位置精度指標(biāo)(PositionPrecision Indicator,PPI)和高度指標(biāo)。ADS-B PPI 是基于水平和垂直位置精度指標(biāo)計(jì)算得出的綜合指標(biāo),ADS-B 高度為UAV 相對(duì)于海平面的垂直高度。
① UAV 機(jī)載處理:記載處理平臺(tái)采用四核ARM Cortext-A53 處理器,性能和功耗方面能夠滿足UAV 需求。對(duì)于圖像分類預(yù)警等實(shí)時(shí)應(yīng)用場(chǎng)景,處理速度對(duì)于實(shí)時(shí)性至關(guān)重要。當(dāng)模型的FPS 較低時(shí),處理速度變慢,可能導(dǎo)致處理延遲,從而無法滿足實(shí)時(shí)性的要求。表4 給出了不同模型在機(jī)載平臺(tái)和移動(dòng)基站上的處理速度FPS 結(jié)果,從中可發(fā)現(xiàn),所提網(wǎng)絡(luò)在該平臺(tái)上取得了12. 5 FPS 的結(jié)果,優(yōu)于其他方法,能夠滿足實(shí)時(shí)處理需求。
② UAV 移動(dòng)基站處理:將UAV 控制器連接到作為移動(dòng)控制基站的手機(jī),接收UAV 相機(jī)圖片并進(jìn)行處理。其他方法的幀率均為8 FPS 以下,本文方法取得了約10 FPS 的結(jié)果。要指出,在現(xiàn)實(shí)場(chǎng)景中,UAV 和控制器之間存在干擾,會(huì)影響到災(zāi)難事件監(jiān)測(cè)任務(wù)的可靠性[20]。UAV 機(jī)載平臺(tái)能夠很好地克服連接性和可見性方面的約束,更適用于應(yīng)急救援任務(wù)。
3 結(jié)束語
本文提出了應(yīng)急救災(zāi)應(yīng)用的UAV 機(jī)載實(shí)時(shí)檢測(cè)預(yù)警方案。利用高效深度學(xué)習(xí)系統(tǒng),在UAV 平臺(tái)上對(duì)傳感器拍攝到的圖像進(jìn)行實(shí)時(shí)處理,自動(dòng)對(duì)災(zāi)難事件進(jìn)行識(shí)別和分類。所提架構(gòu)結(jié)合了輕量級(jí)ShuffleNet-V2 網(wǎng)絡(luò)和SE 單元,在提高分類準(zhǔn)確度和降低硬件資源消耗之間實(shí)現(xiàn)了較好平衡。實(shí)驗(yàn)結(jié)果證明所提方案適用于資源受限的嵌入式平臺(tái),且分類準(zhǔn)確度能夠滿足實(shí)時(shí)災(zāi)情監(jiān)控應(yīng)用的需求。
參考文獻(xiàn)
[1] PS R,JEYAN M L. Mini Unmanned Aerial Systems(UAV)A Review of the Parameters for Classification of aMini UAV [J]. International Journal of Aviation,Aeronautics,and Aerospace,2020,7(3):126-134.
[2] 周劍,賈金巖,張震,等. 面向應(yīng)急保障的5G 網(wǎng)聯(lián)無人機(jī)關(guān)鍵技術(shù)[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,32(4):511-518.
[3] DOBREA D M,DOBREA M C,OBREJA M E. UAV Embedded SystemA Selection Process[C]∥2021 International Symposium on Signals,Circuits and Systems(ISSCS). Iasi:IEEE,2021:1-4.
[4] 程擎,范滿,李彥冬,等. 無人機(jī)航拍圖像語義分割研究綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2021,57(19):57-69.
[5] KATTENBORN T,LEITLOFF J,SCHIEFER F,et al. Review on Convolutional Neural Networks (CNN)in Vegetation Remote Sensing[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2021,173:24-49.
[6] 石雪懷,戚盠,張偉斌,等. 基于組合模型的交通事故嚴(yán)重程度預(yù)測(cè)方法[J]. 計(jì)算機(jī)應(yīng)用研究,2019,36(8):2395-2399.
[7] BEJIGA M B,ZEGGADA A,NOUFFIDJ A,et al. A Convolutional Neural Network Approach for AssistingAvalanche Search and Rescue Operations with UAV Imagery[J]. Remote Sensing,2017,9(2):100.
[8] AMIRKOLAEE H A,AREFI H. CNNbased Estimation ofPreand Postearthquake Height Models from SingleOptical Images for Identification of Collapsed Buildings[J]. Remote Sensing Letters,2019,10(7):679-688.
[9] MUNAWAR H S,ULLAH F,QAYYUM S,et al. Applicationof Deep Learning on UAVbased Aerial Images for Flood Detection[J]. Smart Cities,2021,4(3):1220-1242.
[10] JIAO Z T,ZHANG Y M,XIN J,et al. A Deep LearningBased Forest Fire Detection Approach Using UAV andYOLOv3[C]∥2019 1st International Conference on Industrial Artificial Intelligence (IAI). Shenyang:IEEE,2019:1-5.
[11] 黨宇,張繼賢,鄧喀中,等. 基于深度學(xué)習(xí)AlexNet 的遙感影像地表覆蓋分類評(píng)價(jià)研究[J]. 地球信息科學(xué)學(xué)報(bào),2017,19(11):1530-1537.
[12] 王威,鄒婷,王新. 基于局部感受野擴(kuò)張DMobileNet模型的圖像分類方法[J]. 計(jì)算機(jī)應(yīng)用研究,2020,37(4):1261-1264.
[13] ZHANG X Y,ZHOU X Y,LIN M X,et al. Shufflenet:AnExtremely Efficient Convolutional Neural Network for Mobile Devices[C]∥ Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Salt LakeCity:IEEE,2018:6848-6856.
[14] MA N N,ZHANG X Y,ZHENG H T,et al. ShuffleNet V2:Practical Guidelines for Efficient CNN Architecture Design[C]∥Proceedings of the European Conference on ComputerVision (ECCV). Munich:Springer,2018:122-138.
[15] HU J,SHEN L,SUN G. SqueezeandExcitation Networks[C]∥Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Salt Lake City:IEEE,2018:7132-7141.
[16] WOO S,PARK J,LEE J Y,et al. CBAM:ConvolutionalBlock Attention Module [C ]∥ Proceedings of theEuropean Conference on Computer Vision (ECCV). Munich:Springer,2018:3-19.
[17] WANG Q L,WU B G,ZHU P F,et al. ECANet:EfficientChannel Attention for Deep Convolutional NeuralNetworks[C]∥Proceedings of the IEEE / CVF Conferenceon Computer Vision and Pattern Recognition. Seattle:IEEE,2020:11534-11542.
[18] HOSSIN M,SULAIMAN M N. A Review on EvaluationMetrics for Data Classification Evaluations [J ].International Journal of Data Mining & Knowledge Management Process,2015,5(2):1-11.
[19] GRATTAROLA D,ALIPPI C. Graph Neural Networks inTensorFlow and Keras with Spektral [Application Notes][J]. IEEE Computational Intelligence Magazine,2021,16(1):99-106.
[20] 張廣馳,陳嬌,崔苗,等. 無人機(jī)交替中繼通信及其軌跡優(yōu)化和功率分配研究[J]. 電子與信息學(xué)報(bào),2022,43(12):3554-3562.
作者簡(jiǎn)介
楊 珍 女,(1982—),碩士,副教授。主要研究方向:計(jì)算機(jī)圖形圖像等。
(*通信作者)吳珊丹 女,(1981—),碩士,副教授。主要研究方向:計(jì)算機(jī)圖形圖像等。
賈 如 女,(1982—),博士,講師。主要研究方向:大數(shù)據(jù)、社交網(wǎng)絡(luò)和智能推薦。
基金項(xiàng)目:國(guó)家自然科學(xué)基金(32160506);內(nèi)蒙古自治區(qū)自然科學(xué)基金(2014MS0616)