劉瑞康,劉偉銘,段夢飛,謝瑋,戴愿
(華南理工大學(xué)土木與交通學(xué)院,廣東 廣州 510640)
全自動駕駛地鐵列車具有安全風(fēng)險小、運營效率高、運營成本低等優(yōu)勢,已經(jīng)成為城市軌道交通的發(fā)展趨勢。國內(nèi)主要城市已將全自動運行系統(tǒng)納入建設(shè)規(guī)劃,經(jīng)過多年的發(fā)展,全自動運行系統(tǒng)已經(jīng)成為我國城市軌道交通建設(shè)的主流制式選擇。據(jù)中國城市軌道交通協(xié)會統(tǒng)計,截至2021年底,中國內(nèi)地共計有北京、上海、天津、重慶、廣州、深圳、武漢、成都、蘇州、寧波、南寧、濟南、太原、蕪湖14市開通了全自動運行系統(tǒng)線路,線路共計23條,已形成了554 km的全自動運行線路規(guī)模。
站臺屏蔽門與列車門是連接站臺與列車的唯一通道,是地鐵運輸系統(tǒng)的風(fēng)險點和管控核心區(qū)域,直接影響地鐵在站時間、運輸效率和安全。據(jù)統(tǒng)計,上海地鐵10號線(全自動駕駛線路)安全事故30%來自乘客、24.82%來自列車門、10.64%來自站臺屏蔽門、12.74%來自站臺門與列車門及間隙夾人與夾物,可見列車門與站臺門處是影響全自動駕駛系統(tǒng)運營安全的重要因素。因此,在無人駕駛運行環(huán)境下,乘降作業(yè)監(jiān)督是最重要的安全功能之一。
目前國內(nèi)外關(guān)于地鐵站臺異物檢測的研究較少。傳統(tǒng)的地鐵風(fēng)險空間異物檢測方式主要有4種:人工瞭望燈帶技術(shù);基于激光掃描的方法;基于紅外光幕的方法;基于激光探測的方法。人工瞭望燈帶技術(shù)[1]依靠司機觀測屏蔽門尾端立柱外明亮燈帶的完整度來判斷是否新增異物。然而,由于視力和疲勞的限制,人工方式容易產(chǎn)生漏檢,尤其是小尺寸異物?;诩す鈷呙璧姆椒╗2]和基于紅外光幕的方法[3]分別依賴點探測器和區(qū)域探測器,根據(jù)發(fā)射器和接收器間光幕的完整性進行異物辨別。這2種方式易受到灰塵、懸浮粒、昆蟲、環(huán)境內(nèi)折射/反射光等干擾,常常產(chǎn)生虛報和誤報?;诩す馓綔y的方法[4]聚光效果好且能遠距離檢測,但列車行駛產(chǎn)生的振動可能會使激光偏離對應(yīng)的接收器,造成無效檢測。
自2012年KRIZHEVSKY等[5]提出AlexNet以來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在近十年里主導(dǎo)了計算機視覺,并取得了許多成就,基于圖像的地鐵異常檢測方法逐漸被研究人員所采納??椎慢埖萚6]利用深度殘差神經(jīng)網(wǎng)絡(luò)自動檢測地鐵站臺門與列車門間的異物。ZHENG等[7]提出一種順序可更新異常檢測網(wǎng)絡(luò)來解決軌道中異物入侵的問題。近年來,視覺Transformer(ViT)完全依靠自注意力來捕獲長程的全局關(guān)系,并取得了輝煌的成功。在短時間內(nèi),涌現(xiàn)出許多基于Transformer的改進模型,并取得了比CNN更高的精度。由于CNN通過堆疊更多的卷積層來擴大感受野,因此它只能對像素的局部依賴進行建模??紤]到全局依賴在視覺任務(wù)中扮演著不可或缺的作用,Transformer能夠在任意圖像塊之間構(gòu)建長程依賴的優(yōu)勢將被引入到本文算法中。
然而,基于Transformer的異常檢測方法仍然面臨著以下挑戰(zhàn):
1)圖像塊尺度受限。受內(nèi)存資源限制,DOSOVITSKIY等[8]提出的純ViT網(wǎng)絡(luò)僅接收粗粒度圖像塊(16×16像素)作為模型輸入以縮短數(shù)據(jù)序列的長度。然而,網(wǎng)絡(luò)中生成的低分辨率特征圖對小尺度的異常目標學(xué)習(xí)能力不足,表現(xiàn)出較低的檢測性能。細粒度的圖像塊輸入能夠具備較強的局部特征提取能力,但對計算資源的要求較高。因此,即使不同尺度的圖像塊能帶來更豐富的語義特征,現(xiàn)有的Transformer模型仍難以同時兼容多尺度的圖像塊輸入。
2)注意力機制的計算量過大。Transformer中多頭自注意力(MHSA)模塊的計算量和空間復(fù)雜度與圖像塊數(shù)量(圖像塊尺寸越小,劃分的數(shù)量越多)是呈二次相關(guān)的,如何輕量化自注意力機制并維持Transformer全局信息交互的優(yōu)勢尤為重要。
為增強Transformer對圖像局部細節(jié)信息的感知能力,本文提出一種雙通道Transformer來引入不同尺度的圖像塊作為輸入并完成特征映射變換,優(yōu)化Transformer在全局和局部特征上的表征性能。同時,受SENet的啟發(fā),提出通道交叉注意力機制來實現(xiàn)Transformer網(wǎng)絡(luò)中不同尺度圖像塊輸出特征間的交互。此外,將級聯(lián)卷積模塊嵌入MHSA模塊中以縮短輸入序列長度并學(xué)習(xí)到強大的上下文信息,極大地減少了模型的計算成本并促使DualFormer模型靈活地學(xué)習(xí)多尺度和高分辨率特征。
在深度學(xué)習(xí)中,CNN已經(jīng)成為目標檢測的經(jīng)典框架,其代表性算法主要包括單階段檢測器(如SSD[9]、YOLOX[10]、RetinaNet[11]、TOOD[12])和兩階段檢測器(如Faster R-CNN[13]、Mask R-CNN[14]、Cascade R-CNN[15]、Sparse R-CNN[16])。兩階段檢測網(wǎng)絡(luò)通常包括候選區(qū)域的生成及分類2個步驟。Faster R-CNN[13]是兩階段檢測網(wǎng)絡(luò)的里程碑,其首先利用區(qū)域候選方法在輸入圖像中映射出目標候選區(qū)域,然后識別不同候選目標實現(xiàn)密集預(yù)測。Cascade R-CNN[15]基于多閾值交并比(IoU)檢測子網(wǎng)絡(luò)的級聯(lián)結(jié)構(gòu),避免了單個模塊檢測網(wǎng)絡(luò)設(shè)置閾值時的矛盾,顯著提升了模型準確率。Sparse R-CNN[16]拋棄了對密集候選框的依賴,省略了基于非極大值抑制(NMS)算法的后處理過程,通過一種純稀疏的方式提升了檢測速度。單階段檢測網(wǎng)絡(luò)則無需生成區(qū)域候選的階段,而是直接預(yù)測目標的類別和位置坐標。YOLO[17]將圖像劃分為多個網(wǎng)格,可以一次性輸出所有檢測到的目標信息。然而,YOLO對小目標的檢測性能有所不足。為了緩解該問題,SSD[9]在多個尺度的特征圖上分別檢測不同尺寸的目標,在減小計算復(fù)雜度的同時,實現(xiàn)了與Faster R-CNN相當?shù)臏蚀_性。此外,RetinaNet[11]提出了一個新的分類損失Focal Loss,解決了訓(xùn)練過程中正負樣本不均衡的問題,VarifocalNet[18]則提出了Varifocal Loss來優(yōu)化密集目標檢測任務(wù)。TOOD[12]設(shè)計了一種新穎的任務(wù)對齊頭部(T-Head),對現(xiàn)有單階段檢測器分類與定位中存在的非對齊問題進行平衡,進一步提高了算法的準確性。
相比之下,單階段網(wǎng)絡(luò)速度更快,而雙階段網(wǎng)絡(luò)精度更具優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)的共性在于需要堆疊更深的網(wǎng)絡(luò)層來獲取更大的感受野,提升全局上下文信息的提取性能。本文的關(guān)注點更傾向于具有長程特征提取優(yōu)勢的Transformer網(wǎng)絡(luò)。
隨著圖像分類網(wǎng)絡(luò)ViT[8]和目標檢測網(wǎng)絡(luò)DETR[19]的提出,研究人員對它們的變體進行了廣泛的研究。ViT先將圖像劃分為無重疊、固定大小的圖像塊,并將圖像塊拉平為一維向量進行線性投影實現(xiàn)特征提取。在骨干網(wǎng)絡(luò)設(shè)計中,針對ViT局部信息容易受損的問題,Swin Transformer[20]利用局部注意力思想和位移窗口多頭注意力機制(SW-MSA)來實現(xiàn)局部與全局特征的交互,在多個視覺任務(wù)上達到了較好的結(jié)果。DeiT[21]通過知識蒸餾的方式來減少訓(xùn)練ViT[8]所需的計算資源。此外,CvT[22]將Transformer模塊中每個自注意塊之前的線性投影替換為卷積投影,在引入CNN中固有的移動、縮放和失真不變性等優(yōu)勢的同時,保持了Transformer中動態(tài)關(guān)注和全局上下文的特性。DETR[19]模型是目標檢測領(lǐng)域的又一里程碑,它利用Transformer解碼器將目標檢測看作一個目標集的預(yù)測問題,成功消除了NMS等繁瑣的后處理過程。Deformerble DETR[23]提出了一種可變形注意機制,緩解了DETR收斂緩慢和特征分辨率有限的問題。然而,這些算法在多尺度密集預(yù)測任務(wù)上表現(xiàn)并不理想。因此,一些學(xué)者模仿了CNN的架構(gòu),為Transformer構(gòu)建類似的多尺度金字塔特征層以適應(yīng)密集預(yù)測的需求,如PVT[24]、P2T[25]等。此外,為了實現(xiàn)模型的輕量化,在MHSA模塊中引入池化操作來縮減Value和Key的長度,減少模型內(nèi)存占用。
深度學(xué)習(xí)的巨大成功使得其在地鐵異物檢測中受到青睞。劉偉銘等[26]提出了一種結(jié)合語義分割和背景參考的前景檢測方法,通過背景差分的方式檢測地鐵中存在的異物。LIU等[27]利用生成對抗網(wǎng)絡(luò)將異常圖片重新生成為正常圖片,利用輸入與輸出圖片間的差異來定位異常。然而,這些基于圖像像素差異或特征差異的方法只能判斷異物的存在,無法進一步辨識異物類別。由于不同類型異物危害等級有所區(qū)別,因此地鐵工作人員的應(yīng)對措施具有很大差異。例如:小型或柔軟異物對列車運行的安全威脅小,風(fēng)險等級低,通常不會延誤列車的正常發(fā)車;夾人事件則對應(yīng)最高的危險等級,須立即停車并實施應(yīng)急方案。DAI等[28]改進了CNN算法來檢測地鐵風(fēng)險空間中的異物,證明了基于深度學(xué)習(xí)的目標檢測算法在該任務(wù)中的潛力。然而,所提方法的檢測精度還有待提升。本文結(jié)合Transformer和CNN的優(yōu)勢來提升算法檢測精度,并進一步緩解Transformer參數(shù)量大的問題。
DualFormer整體架構(gòu)如圖1所示(彩色效果見《計算機工程》官網(wǎng)HTML版本,下同),主要包括3個部分:基于雙通道策略的Transformer(作為骨干網(wǎng)絡(luò));基于通道交叉注意力的多尺度特征聚合;基于特征金字塔網(wǎng)絡(luò)(FPN)[29]的異常目標檢測。
圖1 DualFormer網(wǎng)絡(luò)架構(gòu)Fig.1 The architecture of DualFormer network
首先將輸入圖片劃分成2種不同尺寸的圖像塊(Patch),并將這些具有不同尺寸的圖像塊分別放入2個不同的Transformer網(wǎng)絡(luò)分支中進行特征提取。骨干網(wǎng)絡(luò)包括4個階段(Stage),對每個階段中2個分支網(wǎng)絡(luò)的輸出利用通道交叉注意力機制進行交互,使得提取到的特征能夠在特征通道上深層次融合,避免局部信息的損失。然后,將聚合后的4個特征輸入FPN構(gòu)造5個不同尺度的特征圖進行目標定位和分類。
ViT將圖像劃分為多個圖像塊以使它們轉(zhuǎn)換為序列。圖像塊的大小及數(shù)量影響著算法的速度和精度:較小的圖像塊具有較高的精度,但導(dǎo)致更高的耗時;較大的圖像塊具有較低的耗時,但檢測精度欠佳。此外,自注意力機制雖然能夠有效地建立圖像塊之間的遠程依賴關(guān)系,但大圖像塊在訓(xùn)練過程中容易忽略其自身內(nèi)部的結(jié)構(gòu)特征和細節(jié)信息。因此,本文提出一種雙通道Transformer骨干網(wǎng)絡(luò),利用不同的網(wǎng)絡(luò)通道提取2種不同尺度圖像塊的上下文信息,并設(shè)計一種金字塔輕量化Transformer塊來減少模型的計算參數(shù),實現(xiàn)精度與速度的平衡。
以圖像I∈3×H×W作為輸入,雙通道Transformer首先將其分割成尺寸為的大圖像塊和尺寸為的小圖像塊。定義4×4×3或8×8×3的圖像塊為一個元素,每個元素具有48維。與PVT[24]相似,將這些平鋪的圖像塊輸入到一個Patch embedding模塊,該模塊包括一個線性投影層,然后添加一個可學(xué)習(xí)的位置編碼以保證圖像塊的相對位置信息不被丟失。Patch embedding首先將輸入特征維度從48維擴展到C1維,然后對2.2節(jié)中引入的金字塔輕量化Transformer塊進行堆疊。如圖1所示,整個骨干網(wǎng)絡(luò)可分為4個階段,其特征維度分別為{C1,C2,C3,C4}。在每2個階段之間,上一階段輸出特征中每個2×2圖像塊組合將被拼接起來,并通過深度可分離卷積[30]將特征維度從4×Ci維投影到Ci+1維(i∈{1,3})。2個Transformer分支中4個階段的尺度分別變?yōu)楹驮谶@4個不同階段中,每個分支將分別產(chǎn)生4個特征表示,包括粗粒度特征{b1,b2,b3,b4}和細粒度特征{s1,s2,s3,s4}。
ViT的計算成本和內(nèi)存消耗即使對于普通大小的輸入圖像也相對較高。本文設(shè)計的雙通道網(wǎng)絡(luò)同樣受到該問題的困擾。為此,將級聯(lián)卷積引入多頭自注意力層,提出一種金字塔輕量化Transformer塊。它能夠減少Transformer的計算與內(nèi)存消耗,促進雙通道網(wǎng)絡(luò)靈活地學(xué)習(xí)多尺度和高分辨率的特征。
傳統(tǒng)Transformer中的構(gòu)建塊通常由一個MHSA層和一個前饋網(wǎng)絡(luò)(FFN)組成。如圖2(a)所示,本文提出的金字塔輕量化Transformer塊在傳統(tǒng)的MHSA層中引入了級聯(lián)卷積。輸入首先通過基于級聯(lián)卷積的MHSA層(命名為CC-MHSA),輸出通過殘差連接方式[31]與輸入進行相加,然后再經(jīng)過一個線性歸一化層(LayerNorm)[32]進行處理。FFN的作用在于特征投影。接著,再次經(jīng)過殘差連接和一個線性歸一化層來得到輸出特征。
圖2 金字塔輕量化Transformer塊Fig.2 Pyramid lightweight Transformer block
CC-MHSA層如圖2(b)所示。首先,輸入X的形狀將被重塑為二維形式以便于卷積進行處理。然后,在重塑后的X上分別應(yīng)用不同數(shù)量的級聯(lián)小卷積層(卷積核大小為3×3,步長為2)來生成多尺度金字塔特征,例如:
(1)
(2)
與傳統(tǒng)MHSA中Q(query) 、K(key) 、V(value) 的值不同,本文對CC-MHSA中的Q、K、V進行了轉(zhuǎn)變:
(Q,K,V)={Xwq,Xwk,Xwv}→
(3)
其中:wq、wk、wv分別表示Q、K、V的權(quán)重矩陣。自注意力計算公式如下:
(4)
其中:dk為K的通道維數(shù)。由于K和V的長度遠小于X,因此CC-MHSA的計算量遠小于傳統(tǒng)的MHSA,具有更小的參數(shù)量和更低的內(nèi)存占用。此外,由于K和V包含高度抽象的多尺度語義信息,因此CC-MHSA具有更強的特征表達能力,有助于提升檢測精度。
從骨干網(wǎng)絡(luò)中獲得雙尺度輸出特征后,關(guān)鍵問題在于如何有效地聚合它們來形成多尺度特征表示。最直接的方式是對粗粒度特征和細粒度特征直接拼接,然后利用一個卷積實現(xiàn)特征融合。然而,這種簡單的方式無法充分利用不同尺度特征間的長程和短程依賴關(guān)系。因此,本文提出一種新的通道交叉注意力模塊,利用通道注意力機制實現(xiàn)多尺度特征間的有效融合。
受到SENet的啟發(fā),本文將不同尺度特征圖上的空間和通道信息聚合得到交互特征。不同的是,SENet是一種自注意力機制,它通過建模特征圖自身通道之間的相互依賴關(guān)系來提高重要特征在網(wǎng)絡(luò)中的占比,而本文提出的通道交叉注意力模塊則考慮了不同尺度特征通道之間的權(quán)重關(guān)系,通過交叉訓(xùn)練促進不同尺度全局特征間的交互。如圖3所示,所提出的通道交叉注意力模塊可以整合來自不同尺度的2個分支的特征。具體來說,對于同一階段的2個分支的輸出{si,bi},i∈(1,4),小尺度圖像塊分支的輸出Si形狀重塑為C×h1×w1,大尺度互補分支的輸出bi被重塑為C×h2×w2,其中,C代表特征通道數(shù),h和w代表各階段輸出特征圖的大小。首先,通過使用全局平均池化層分別將細粒度特征Si和粗粒度特征bi內(nèi)的全局空間信息壓縮到一個通道描述符中,這個通道描述符具有全局的感受野。隨后,依次通過全連接層、ReLU層和Sigmoid激活層來顯式地建模特征通道之間的相關(guān)性。第1個全連接層用于特征降維(降維比率為16),第2個全連接層用于特征升維(恢復(fù)為原始通道維數(shù))。處理后的全局特征分別表示為gglobal(bi)和gglobal(si)。接著,對特征圖gglobal(bi)和gglobal(si)進行縮放,使得gglobal(bi)與Si的特征圖尺寸保持一致,gglobal(si)與bi的特征圖尺寸保持一致。最后,將全局通道特征與輸入特征進行交叉融合,即gglobal(si)×bi,gglobal(bi)×si。通過交叉注意力融合方式,細粒度特征可以從大尺度圖像塊分支獲得粗粒度信息,粗粒度特征也同樣可以從小尺度圖像塊分支獲得細粒度信息。更重要的是,不同尺度的特征之間存在著間接的相互作用,可以有效地保持圖像塊周圍的局部連續(xù)性,避免Transformer網(wǎng)絡(luò)中局部細節(jié)信息的丟失。
圖3 通道交叉注意力機制Fig.3 Channel cross-attention mechanism
如圖1所示,融合后的4個特征圖輸入FPN構(gòu)造5個不同尺度的特征進行目標定位和分類。FPN[29]因在處理多尺度變化問題和小目標檢測方面的優(yōu)越性被廣泛使用在不同的檢測器中,如Faster R-CNN[13]、Mask R-CNN[14]、RetinaNet[11]等。因此,本文直接引入FPN來高效地處理這4個融合后的高級語義特征,實現(xiàn)目標檢測與定位。
簡單來說,FPN利用2×雙線性上采樣的方式將小特征圖放大到同上一個Stage的特征圖一樣的大小。同時,為了將高層語義特征和底層的精確定位能力結(jié)合,其利用類似于殘差網(wǎng)絡(luò)的側(cè)向連接結(jié)構(gòu)將上采樣后的特征圖和當前層特征圖通過相加的方式進行融合。此外,利用一個3×3卷積對最底層特征進行又一次的下采樣,增加一個尺度的特征以提升網(wǎng)絡(luò)檢測性能。
不同類別異常樣本數(shù)量不均衡,這種不平衡現(xiàn)象容易導(dǎo)致模型訓(xùn)練難度劇增。為了優(yōu)化檢測模型,本文直接采用Focal Loss[11]函數(shù)來促進網(wǎng)絡(luò)的平穩(wěn)訓(xùn)練。分類損失函數(shù)表達式如下:
FL(pt)=-αt(1-pt)γlgpt
(5)
其中:pt是不同類別的分類概率;γ與αt都是大于0的固定值。從式(5)中可以看出,pt越大,權(quán)重值(1-pt)越小。因此,容易區(qū)分的類別對整體損失貢獻小,難以區(qū)分的類別則對損失貢獻大,這有利于誘導(dǎo)模型努力分辨難以訓(xùn)練的目標類別,提升精度。αt用于調(diào)節(jié)正例(Positive)目標和反例(Negative)目標的比例,與γ的取值相互影響。因此,本文設(shè)γ=2,α=0.25,調(diào)節(jié)損失函數(shù)對難識別樣本和易識別樣本的權(quán)重。
此外,定位損失函數(shù)表達式定義為L1 loss,用以回歸預(yù)測框的準確位置:
(6)
其中:pi和ti分別代表預(yù)測框和ground-truth中左上角和右下角坐標位置信息;n代表圖片中目標的數(shù)量。
因此,檢測模型的整體損失函數(shù)為:
LLoss=FL(pt)+Lloss(x,y)
(7)
與其他風(fēng)格的Transformer模型一樣,本文的雙通道Transformer網(wǎng)絡(luò)包含幾個具有不同參數(shù)的模型,它們共享相同的架構(gòu),但網(wǎng)絡(luò)寬度和深度不同。在本文研究中,為了在精度和速度之間進行更好的權(quán)衡,設(shè)置了3種不同的檢測模型:small,base,larger,具體的參數(shù)如表1所示。其中:圖像輸入尺寸為640×640像素(H×W),C1、C2、C3、C4為不同構(gòu)建塊內(nèi)特征的通道數(shù),N為不同階段CC-MHSA設(shè)置的卷積數(shù)量。圖像首先經(jīng)過一個7×7卷積層實現(xiàn)特征采樣,并將特征通道數(shù)調(diào)整為48,然后依次經(jīng)過4個階段進行處理。在后續(xù)實驗中,將展示這些變體的性能。
表1 DualFormer網(wǎng)絡(luò)的變體Table 1 Variations of DualFormer network
由于地鐵異物檢測數(shù)據(jù)集匱乏,通過在地鐵站中放置異物來收集和構(gòu)建一個標準數(shù)據(jù)集(MAD)進行仿真測試,采集地點為廣州某地鐵站。地鐵風(fēng)險空間是指列車在站??科陂g,屏蔽門與列車之間、站臺水平面至列車車門頂水平面之間、屏蔽門垂直面與列車垂直輪廓面之間所形成的立體區(qū)域,見圖4藍色區(qū)域。
圖4 地鐵站臺列車門與屏蔽門間風(fēng)險空間結(jié)構(gòu)圖Fig.4 Risk spatial structure diagram between metro platform train door and screen door
異物是指列車離站前,風(fēng)險空間新增的影響地鐵設(shè)施、乘客安全和列車正常運營的人和物。本文收集了15種常見的不同類別物體來覆蓋大多數(shù)異物實例。構(gòu)建的MAD數(shù)據(jù)集包含5 854張圖像,它們包含的類別有粗繩、細繩、假發(fā)、書包、塑料袋、盒子、單肩包、錢包、手機、水瓶、傘、人、紙板、其他異物和正常。“粗繩”和“細繩”代表不同大小的兒童防丟失牽引繩。出于安全考慮,用假發(fā)代替真人頭發(fā)夾在門縫間。此外,“其他異物”代表了標記它們時無法識別的物體或其他罕見的異常物體,“正常”則表示沒有異物。按照COCO[33]數(shù)據(jù)集的格式進行數(shù)據(jù)標注,并隨機抽取20%的數(shù)據(jù)作為測試集,其余80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集。采集的圖片大小統(tǒng)一為640×480像素。MAD數(shù)據(jù)集中各類別異物的數(shù)量在表2中列出,MAD數(shù)據(jù)集的部分示例在圖5中展示(紅色框內(nèi)包含異物)。
表2 MAD數(shù)據(jù)集中各類物體圖片數(shù)量Table 2 Number of images of various objects in MAD dataset 單位:張
圖5 MAD數(shù)據(jù)集圖片樣例Fig.5 Sample images in MAD dataset
實驗采用目標檢測評價指標,即平均精度均值(mAP)、每秒傳輸幀率(FPS)、每秒10億次浮點運算數(shù)(GFLOPs)。平均精度(AP)計算可以定義為經(jīng)過插值的查準率-查全率曲線與x軸包絡(luò)的面積。FPS用于評價模型的檢測速度,GFLOPs用于評估模型的復(fù)雜度。查準率P和查全率R的公式表示如下:
(8)
其中:NTP、NFP和NFN分別表示正確匹配的目標數(shù)、錯誤匹配的預(yù)測目標數(shù)和錯誤匹配的真實目標數(shù)。
基于PyTorch平臺和MMDetection[34]開發(fā)工具,本文使用3個2080Ti GPU來進行模型訓(xùn)練,采用與文獻[25]相似的訓(xùn)練技巧,并將AdamW設(shè)置為具有0.9動量和0.000 1權(quán)重衰減的優(yōu)化算法。在MAD數(shù)據(jù)集上,初始學(xué)習(xí)率為0.000 1,batch size為16,模型的迭代次數(shù)為36次。
將本文提出的DualFormer與其他先進的目標檢測算法在MAD數(shù)據(jù)集上進行對比,包括基于CNN的算法和基于Transformer的算法?;贑NN的算法包括VarifocalNet[18]、RetinaNet[11]、YOLOX[10]、ConvNeXt[35]、Mask R-CNN[14]和TOOD[12],基于Transformer的算法包括PVT[24]、Swin Transformer[20]、P2T[25]和Deformable DETR[23]。
表3列出了對比實驗結(jié)果??梢钥闯?總體上,DualFormer網(wǎng)絡(luò)的性能優(yōu)于現(xiàn)有的目標檢測算法。表中展示了AP、AP50、AP75、APS、APM和APL指標的結(jié)果。APS、APM和APL分別表示文獻[33]中定義的小、中和大目標的AP得分。與其他算法相比,DualFormer 的AP、AP50、AP75達到了最高值,證明了所提模型的有效性。此外,DualFormer在APS、APM和APL上相對排名第2的算法分別取得了2.7、0.6、0.5個百分點的增長,這驗證了雙通道網(wǎng)絡(luò)在粗、細粒度特征聚合中的優(yōu)勢。
表3 MAD數(shù)據(jù)集上的對比實驗結(jié)果Table 3 Comparative experimental results on MAD dataset
表3還給出了各模型時間和空間復(fù)雜度的比較。根據(jù)表1中不同變體的參數(shù)設(shè)置,可以在參數(shù)量和速度上進行權(quán)衡。從對比結(jié)果中可以看出,DualFormer-small在具有最小參數(shù)量(1.98×107)和GFLOPs(6.29×1010)的情況下獲得了89.7%的檢測精度(AP50),在時間和空間復(fù)雜度上優(yōu)于其他對比算法。此外,隨著參數(shù)量的增加,DualFormer-base和DualFormer-lager能夠進一步提升檢測精度(AP50)。圖6中展示了部分DualFormer算法的檢測結(jié)果。
圖6 部分檢測結(jié)果Fig.6 Partial test results
在本節(jié)中,對DualFormer網(wǎng)絡(luò)中不同組件和操作策略的作用和功效進行分析。以DualFormer-small為基線進行實驗。
1)不同組件的性能分析。
如表4所示,設(shè)置5個實驗組來驗證雙通道策略、CC-MHSA和通道注意力機制的優(yōu)越性。實驗組2和3將雙通道策略分別替換為大尺度(8×8圖像塊)和小尺度(4×4圖像塊)的單通道特征提取方式,并保持其他組件不變。從表中可以看出,雙通道策略的應(yīng)用使得評價指標AP50明顯提高。與單通道模型相比,在精度上分別帶來了5.6和0.6個百分點的改進。實驗組4驗證了CC-MHSA和MHSA之間精度和速度的差異,這表明CC-MHSA可以對輸入特征進行壓縮并得到更強大的特征表示。實驗組5將通道注意力機制替換為簡單的融合機制,使得精度有0.4個百分點的下降。這驗證了通道交叉注意力融合機制對粗、細粒度特征聚合的有效性。
表4 不同組件的消融實驗結(jié)果Table 4 Ablation experimental results of different components
2)級聯(lián)卷積數(shù)量。
為了驗證級聯(lián)卷積數(shù)量的重要性,以DualFormer-small為基線進行評估,結(jié)果如表5所示??梢钥闯?可以級聯(lián)卷積的數(shù)量越多,輸入序列的壓縮比越大,模型的運算速度也越快。同時,本文提出的CC-MHSA中有3個并行卷積操作,每個卷積通路有不同大小的感受野(級聯(lián)數(shù)量不同)。因此,壓縮后的特征能具有不同強度的語義表達。從表中可以看出,當網(wǎng)絡(luò)模型中4個不同階段的CC-MHSA設(shè)置的卷積數(shù)量為{[5,4,3], [4,3,2], [3,2,1], [2,1,1]}時,算法能夠達到最佳性能。由于網(wǎng)絡(luò)4個階段的特征有不同的尺度大小,因此不同階段的卷積數(shù)量呈梯次遞減的趨勢。
表5 CC-MHSA中不同級聯(lián)卷積數(shù)量的比較Table 5 Comparison of different cascade convolution quantity in CC-MHSA
3)壓縮方式的選擇。
最大池化、平均池化和級聯(lián)卷積是3種典型的特征壓縮方式。在表6的對比實驗中,池化的步長與級聯(lián)卷積的累積步長相同,以保持相同的下降采樣率。相同的特征壓縮比率對網(wǎng)絡(luò)模型復(fù)雜度的影響較小,它們只影響模型參數(shù)量大小。相比池化操作,卷積操作將增加少量的參數(shù)計算。然而,級聯(lián)卷積帶來的精度提升明顯優(yōu)于另外2種選擇。平均池化和最大池化僅僅對特征進行簡單的抽樣,而級聯(lián)卷積可以高度概括輸入特征,得到更強的語義表示。因此,本文將級聯(lián)卷積作為最優(yōu)選。
表6 不同特征壓縮方式的比較Table 6 Comparison of different feature compression methods
本文提出了一種基于雙通道Transformer、金字塔輕量化Transformer塊和通道交叉注意力融合機制的DualFormer框架來檢測地鐵風(fēng)險空間中的異物,及時為工作人員提供預(yù)警。雙通道策略緩解了現(xiàn)有Transformer方法在輸入圖像塊尺寸上的限制,引入了多尺度全局特征。通道交叉注意力融合機制使得不同尺度特征在通道中進行深層次的交互,促進了全局與局部信息的聚合。CC-MHSA利用級聯(lián)小卷積緩解了Transformer計算和內(nèi)存成本大的問題。此外,分別給出DualFormer的3種變體,實現(xiàn)了模型速度和精度之間較好的平衡。在MAD數(shù)據(jù)集上的大量實驗證明了DualFormer的優(yōu)越性。在mAP、FPS、GFLOPs和模型參數(shù)量等評估指標上,DualFormer模型均獲得了最優(yōu)性能。下一步工作將研究權(quán)重優(yōu)化問題并探索模型量化等神經(jīng)網(wǎng)絡(luò)壓縮方法,在盡可能減少精度損失的前提下輕量化網(wǎng)絡(luò)模型,使其能夠在邊緣設(shè)備上進行部署。