彭 磊,周 春,胡 鋒,田 曉 陽(yáng),王 海 波
(1.中鐵七局集團(tuán)廣州工程有限公司,廣東 廣州 510760; 2.中山大學(xué) 航空航天學(xué)院,廣東 深圳 518107)
隧道(隧洞)作為一種隱蔽式的建筑,具有復(fù)雜的建設(shè)環(huán)境,如圍巖構(gòu)造、溫度變化以及地下水的影響,大量隧道建設(shè)面臨進(jìn)度慢、安全性低等問(wèn)題。在進(jìn)行隧道開(kāi)挖時(shí),需要按照設(shè)計(jì)要求將隧道內(nèi)的土石方挖掉,形成一個(gè)斷面,該斷面即為隧道掌子面。隧道掌子面素描是一項(xiàng)重要且復(fù)雜的任務(wù),通過(guò)掌子面素描可以判定隧道圍巖級(jí)別,為隧道開(kāi)挖支護(hù)等提供作業(yè)依據(jù)。準(zhǔn)確高效的掌子面素描工作可以有效解決隧道建設(shè)進(jìn)度慢以及安全性低等問(wèn)題。因此,實(shí)現(xiàn)隧道掌子面節(jié)理的科學(xué)檢測(cè)對(duì)隧道建設(shè)具有重要意義。
目前,傳統(tǒng)的隧道掌子面節(jié)理檢測(cè)方式以人工觀察描繪為主。該方法不僅效率低且主觀影響顯著,在實(shí)際工作過(guò)程中經(jīng)常出現(xiàn)與實(shí)際情況不相符的現(xiàn)象。隨著科學(xué)技術(shù)的快速發(fā)展,計(jì)算機(jī)圖像處理方法率先應(yīng)用在露天巖體地質(zhì)信息的識(shí)別當(dāng)中。范留明[1]、胡剛[2]等采用數(shù)字圖像處理方法(邊緣檢測(cè)、閾值分割、hough變換等)識(shí)別巖體表觀裂隙,并封裝為軟件供檢測(cè)人員使用,缺點(diǎn)是處理過(guò)程復(fù)雜,需要人工調(diào)教,智能化程度并不高。此外數(shù)字圖像處理方法在隧道掌子面節(jié)理識(shí)別方面的應(yīng)用也涌現(xiàn)出來(lái)[3],如葉英[4]、冷彪[5]、羅佳[6]等基于此處理隧道掌子面圖像,提取出節(jié)理目標(biāo),達(dá)到替換地質(zhì)素描圖的目的。李術(shù)才[7]、李鵬云[8]等直接借助結(jié)構(gòu)面處理軟件SIR6.0、OpenCV平臺(tái)對(duì)隧道掌子面圖片節(jié)理信息進(jìn)行提取??紤]到隧道環(huán)境條件比較惡劣,拍攝掌子面圖像質(zhì)量容易受到粉塵的影響,周春霖等[9]借助紅外攝影技術(shù)獲取清晰的隧道掌子面照片,接著利用數(shù)字圖像處理技術(shù)對(duì)圖片進(jìn)行去噪、均衡化以及閾值分割處理,以直線段標(biāo)識(shí)節(jié)理目標(biāo)。以上基于數(shù)字圖像處理技術(shù)的隧道掌子面節(jié)理提取方法雖然借助計(jì)算機(jī)技術(shù)實(shí)現(xiàn)了節(jié)理的識(shí)別與分割,但適用條件較為苛刻,顯著依賴應(yīng)用場(chǎng)景的簡(jiǎn)單性,即現(xiàn)場(chǎng)光照均勻充足且節(jié)理目標(biāo)較為明顯。此外,數(shù)字圖像處理技術(shù)存在多種閾值分割算法,往往需要切換調(diào)整不同算法對(duì)比挑選出最佳的分割結(jié)果,增加了該方法現(xiàn)場(chǎng)應(yīng)用的難度。同時(shí)該技術(shù)分割的節(jié)理目標(biāo)是一個(gè)整體,不能直接使用,還需進(jìn)行復(fù)雜的后處理工作。故亟需開(kāi)發(fā)一種環(huán)境適應(yīng)性更強(qiáng)、魯棒性更好的技術(shù)手段,能夠適應(yīng)隧道內(nèi)復(fù)雜的光線環(huán)境,實(shí)現(xiàn)節(jié)理目標(biāo)的像素級(jí)分割。隨著人工智能的快速發(fā)展,傳統(tǒng)的土木工程行業(yè)引入了眾多智能識(shí)別算法[10-11],實(shí)現(xiàn)了工程任務(wù)的智能化發(fā)展。
計(jì)算機(jī)視覺(jué)領(lǐng)域主要包含4種圖像處理任務(wù),即圖像分類(Image Classification)、語(yǔ)義分割(Semantic Segmentation)、目標(biāo)檢測(cè)(Object Detection)以及實(shí)例分割(Instance Segmentation)。圖像分類僅能表示圖片的類別,無(wú)法確定掌子面圖片中具體的節(jié)理信息;語(yǔ)義分割可以實(shí)現(xiàn)圖片中所有節(jié)理的分割,但是無(wú)法區(qū)分個(gè)體,被分割的節(jié)理屬于一個(gè)整體;目標(biāo)檢測(cè)能夠檢測(cè)出不同個(gè)體的節(jié)理,但無(wú)法實(shí)現(xiàn)分割;實(shí)例分割則在目標(biāo)檢測(cè)的基礎(chǔ)之上,可實(shí)現(xiàn)對(duì)不同節(jié)理目標(biāo)的分割。在隧道現(xiàn)場(chǎng)實(shí)際應(yīng)用過(guò)程中,檢測(cè)結(jié)果將用于計(jì)算節(jié)理組數(shù)以及節(jié)理間距等參數(shù),即隧道掌子面節(jié)理智能檢測(cè)任務(wù)需要將每一條節(jié)理目標(biāo)單獨(dú)檢測(cè)出來(lái)并實(shí)現(xiàn)分割,故本文將采用實(shí)例分割算法而非語(yǔ)義分割算法檢測(cè)并分割隧道掌子面節(jié)理目標(biāo)。
現(xiàn)有識(shí)別掌子面節(jié)理的數(shù)字圖像處理方法存在調(diào)教復(fù)雜的問(wèn)題,雖然避免了人工描繪的主觀影響,但是仍需人工處理調(diào)教,導(dǎo)致識(shí)別檢測(cè)過(guò)程并不智能,存在一定的局限性。本文針對(duì)傳統(tǒng)數(shù)字圖像方法存在的局限,提出一種實(shí)例分割算法——Mask R-CNN,實(shí)現(xiàn)掌子面節(jié)理的智能檢測(cè)與分割,避免了人工描繪的主觀性以及現(xiàn)有數(shù)字圖像處理方法的局限性。
本文采用實(shí)例分割算法(Mask R-CNN)對(duì)隧道掌子面節(jié)理進(jìn)行智能識(shí)別與分割,Mask R-CNN算法網(wǎng)絡(luò)框架如圖1所示[12]。包含主干網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)(RPN:Region Proposal Network)、RoIAlign調(diào)節(jié)、結(jié)果預(yù)測(cè)等部分。
圖1 Mask R-CNN算法網(wǎng)絡(luò)框架
ResNet101與FPN(特征金字塔網(wǎng)絡(luò))是主干網(wǎng)絡(luò)的主要組成部分。其中,ResNet101主要由Conv block與Identity block兩個(gè)模塊組成,分別負(fù)責(zé)卷積運(yùn)算與加深網(wǎng)絡(luò)的任務(wù),用于提取掌子面圖片的特征信息。基于圖片的像素?cái)?shù)據(jù),運(yùn)算輸出多個(gè)不同大小的特征圖,這些特征圖像素點(diǎn)可理解為用于表征原始圖片像素特征的次級(jí)像素,包含了原始圖像的特征信息,表示為C2~C5(因C1特征圖感受野較小,語(yǔ)義信息較少,無(wú)法很好地捕捉圖像中的物體結(jié)構(gòu)和特征,故將其舍棄,不進(jìn)一步處理),便于檢測(cè)不同大小的目標(biāo)物。本文結(jié)合掌子面圖像的尺寸大小,對(duì)特征圖的尺寸設(shè)計(jì)做了針對(duì)性改進(jìn),以適應(yīng)掌子面圖像節(jié)理識(shí)別任務(wù)。
FPN可以將不同層級(jí)的特征信息融合成多尺度、多語(yǔ)義級(jí)別的特征金字塔(見(jiàn)圖2)。通過(guò)“l(fā)atlayer”操作,從高分辨率的特征圖上采樣,使其與較低分辨率的特征圖具有相同的空間尺度,然后將它們相加,從而得到融合后的特征圖。在Mask R-CNN中,FPN的輸出特征圖為P2、P3、P4、P5和P6有效特征層,用于檢測(cè)不同尺度的物體。
圖2 FPN網(wǎng)絡(luò)框架
RPN是一種輕量級(jí)的神經(jīng)網(wǎng)絡(luò),它以滑動(dòng)窗口的方式掃描輸入圖像并找到含有目標(biāo)的區(qū)域,這些掃描的區(qū)域稱為anchors,為大小不同的方框[13]。本文針對(duì)隧道掌子面節(jié)理識(shí)別這一特殊任務(wù),通過(guò)掌子面標(biāo)注文件統(tǒng)計(jì)現(xiàn)有掌子面圖像中的節(jié)理尺寸信息,分析節(jié)理標(biāo)注框的大小以及長(zhǎng)寬比,對(duì)anchors的大小及長(zhǎng)寬比例設(shè)計(jì)進(jìn)行了針對(duì)性的改進(jìn),以適應(yīng)掌子面節(jié)理的形狀。
計(jì)算每個(gè)anchor與標(biāo)注框之間的交并比(兩框交集面積與并集面積之比),即IOU(Intersection Over Union)。通過(guò)IOU與設(shè)定閾值的大小關(guān)系確定該anchor的類別,當(dāng)IOU>閾值時(shí),anchor為正類,反之則為負(fù)類。在訓(xùn)練算法時(shí)RPN階段存在兩個(gè)訓(xùn)練任務(wù),即anchors的分類訓(xùn)練與框位置回歸訓(xùn)練,其訓(xùn)練誤差LR表示為
LR=LRc+LRr
(1)
式中:LRc表示anchors的分類訓(xùn)練誤差函數(shù),LRr表示anchors框回歸訓(xùn)練誤差函數(shù),用式(2)~(3)表示:
(2)
(3)
式中:i表示anchors的序號(hào);pi表示序號(hào)為i的anchor被預(yù)測(cè)為正類的概率;pi*表示序號(hào)為i的anchor真實(shí)標(biāo)簽值,anchor為正樣本時(shí),pi*=1,anchor為負(fù)樣本時(shí),pi*=0;si為一向量,含序號(hào)為i的anchor框中心坐標(biāo)、寬和高等4個(gè)元素;si*表示含有標(biāo)注框相應(yīng)元素的四維向量;NRc、NRr表示RPN階段分類與回歸訓(xùn)練的批次數(shù)據(jù)量;λ為超參數(shù);lRc為交叉熵?fù)p失函數(shù),回歸損失函數(shù)lRr的表達(dá)式為
(4)
式中,R表達(dá)式為
(5)
(6)
式中:x,y,w,h分別表示方框的中心坐標(biāo)、寬和高;x,xa,x*分別對(duì)應(yīng)于預(yù)測(cè)框、anchor框與真實(shí)框(y,w,h同理)。
訓(xùn)練完成之后,RPN可以預(yù)測(cè)anchor的類別(正類或負(fù)類)并對(duì)框的位置進(jìn)行初步調(diào)整。改進(jìn)后的區(qū)域建議網(wǎng)絡(luò)(RPN)實(shí)現(xiàn)了掌子面特征圖像中可能包含節(jié)理區(qū)域的提取,生成建議框,作為下一階段的輸入。
RoI(Region of interest),即RPN階段輸出的建議框。由于RPN階段生成的anchor框大小不一,且通過(guò)位置調(diào)整模型進(jìn)行了微調(diào),需采用RoIAlign統(tǒng)一RoI的尺寸,便于分類。相比于Faster R-CNN算法中采用的RoIPool模塊[14],本文算法所采用的RoIAlign基于雙線性插值取值解決了像素錯(cuò)位的問(wèn)題,優(yōu)化了建議框尺寸調(diào)節(jié),保留了更多原始信息(見(jiàn)圖3)。
圖3 RoIAlign與RoIPool對(duì)比
以上采用了RoIAlign模塊對(duì)RoI的尺寸調(diào)節(jié)進(jìn)行改進(jìn),有效防止了特征信息的丟失,有助于實(shí)現(xiàn)隧道掌子面節(jié)理目標(biāo)的精細(xì)化識(shí)別分割。
Mask R-CNN網(wǎng)絡(luò)最后會(huì)對(duì)調(diào)整后的RoI進(jìn)行以下處理:① 具體分類,針對(duì)掌子面數(shù)據(jù)集,就會(huì)給出RoI的具體標(biāo)簽,即“節(jié)理”,不同于RPN階段的二分類(正類、負(fù)類);② 預(yù)測(cè)框位置精調(diào),在RPN階段微調(diào)的基礎(chǔ)之上,進(jìn)一步對(duì)預(yù)測(cè)框的位置和長(zhǎng)寬進(jìn)行調(diào)整,使得預(yù)測(cè)框和目標(biāo)更加貼合;③ 生成掩碼,識(shí)別出預(yù)測(cè)框內(nèi)屬于目標(biāo)物體的像素,并標(biāo)記形成掩碼。
該階段訓(xùn)練過(guò)程設(shè)置誤差函數(shù)LRoI為
LRoI=LRoIc+LRoIr+Lmask
(7)
式中:mask掩碼損失函數(shù)為平均二元交叉熵?fù)p失函數(shù),LRoIc分類損失函數(shù)lRoIc表示為
lRoIc=-ln(pu)
(8)
式中:pu表示預(yù)測(cè)為u類別的概率。
式(7)中LRoIr分類損失函數(shù)lRoIr表示為
lRoIr=λ[μ≥1]lRr
(9)
式中:[u≥1]表示u≥1時(shí),值為1,否則為0。
綜上所述,RPN階段與結(jié)果預(yù)測(cè)階段共設(shè)置5個(gè)誤差函數(shù),合計(jì)為
L=LRc+LRr+(LRoIc+LRoIr+Lmask)
(10)
上文所述特征金字塔網(wǎng)絡(luò)(FPN)雖然實(shí)現(xiàn)了特征融合,增強(qiáng)了主干網(wǎng)絡(luò)提取特征的能力,但從下到上的計(jì)算路徑過(guò)長(zhǎng)(整體包含101層網(wǎng)絡(luò)),不利于特征信息傳導(dǎo),尤其是復(fù)雜隧道環(huán)境下多樣的節(jié)理目標(biāo)特征的傳輸。為此本文引入PANet(Path Aggregation,路徑聚合網(wǎng)絡(luò))解決特征信息路徑傳輸問(wèn)題[15]。
圖4展示了路徑聚合網(wǎng)絡(luò)結(jié)構(gòu)。紅色虛線表示原FPN的傳輸路徑,自下而上傳輸特征需要經(jīng)過(guò)多層網(wǎng)絡(luò)結(jié)構(gòu)。而改進(jìn)的聚合路徑方法(綠色虛線)則在較低的層次上使用精確的定位信號(hào)來(lái)增強(qiáng)整個(gè)特征層次結(jié)構(gòu),縮短了較低層次與最上層特征之間的信息路徑,減少了信息損失。
圖4 Path Aggregation網(wǎng)絡(luò)結(jié)構(gòu)
鑒于上述PANet的優(yōu)勢(shì),本文將其引入FPN之中設(shè)計(jì)出了PA-FPN網(wǎng)絡(luò),以此改進(jìn)Mask R-CNN網(wǎng)絡(luò),以增強(qiáng)隧道掌子面節(jié)理智能識(shí)別模型的識(shí)別分割性能。
掌子面數(shù)據(jù)集是一種包含大量隧道施工現(xiàn)場(chǎng)掌子面圖片的集合。掌子面圖片來(lái)源于國(guó)內(nèi)數(shù)座公路礦山法施工的隧道,經(jīng)過(guò)挑選剩余共計(jì)400張?jiān)紙D像,統(tǒng)一調(diào)整像素為2 048×2 048 pixel,部分圖像見(jiàn)圖5。從圖中可以見(jiàn)到本文所搜集的掌子面圖像數(shù)據(jù)具有豐富的環(huán)境條件(不同角度、不同照明、臺(tái)車干擾以及陰影等),提高了隧道掌子面智能識(shí)別算法的魯棒性。
對(duì)于一個(gè)基于深度學(xué)習(xí)的實(shí)例分割模型,400張圖像數(shù)據(jù)還不能滿足需求,因此本文采用翻轉(zhuǎn)、裁剪以及亮度調(diào)整等方式對(duì)原始圖像進(jìn)行了數(shù)據(jù)增強(qiáng)(見(jiàn)圖6),擴(kuò)大數(shù)據(jù)量至800張,按照一般數(shù)據(jù)集劃分準(zhǔn)則[13],掌子面數(shù)據(jù)集中的訓(xùn)練集、驗(yàn)證集以及測(cè)試集分別包含560,160和80張圖片。
掌子面圖像識(shí)別任務(wù)不同于傳統(tǒng)的圖像分類,實(shí)例分割算法需要在每張圖片中標(biāo)記目標(biāo)物體制作標(biāo)簽,因此完成單張圖片的標(biāo)注工作需要約10 min,保證了掌子面節(jié)理數(shù)據(jù)集的質(zhì)量。本文采用Labelme標(biāo)注軟件對(duì)掌子面節(jié)理進(jìn)行標(biāo)注。圖7(a)中的點(diǎn)線為人工標(biāo)注節(jié)理的多邊形輪廓。每張圖片標(biāo)注完成之后生成包含節(jié)理位置和名稱信息的JSON文件,這些文件經(jīng)過(guò)內(nèi)置代碼轉(zhuǎn)換為coco數(shù)據(jù)集格式,生成可訓(xùn)練的二值化標(biāo)簽圖像(見(jiàn)圖7(b))。
圖7 圖片標(biāo)注方法
本文提出的隧道掌子面節(jié)理智能識(shí)別分割方法分為兩個(gè)步驟:首先通過(guò)訓(xùn)練集、驗(yàn)證集數(shù)據(jù)訓(xùn)練掌子面節(jié)理智能識(shí)別分割模型;接著用測(cè)試集數(shù)據(jù)檢驗(yàn)評(píng)估模型的性能,并與原Mask R-CNN算法以及其他實(shí)例分割算法進(jìn)行對(duì)比。
智能識(shí)別分割算法采用python編程語(yǔ)言編寫(xiě)完成,在Windows系統(tǒng)Pytorch1.8.0平臺(tái)下實(shí)現(xiàn),運(yùn)行內(nèi)存為32G,GPU顯存24G。
機(jī)器學(xué)習(xí)任務(wù)的評(píng)估指標(biāo)多種多樣,針對(duì)實(shí)例分割任務(wù),通常采用混淆矩陣、準(zhǔn)確率等指標(biāo)評(píng)估其性能。
3.1.1混淆矩陣
在深度學(xué)習(xí)實(shí)例分割任務(wù)中,混淆矩陣針對(duì)單張測(cè)試圖片,計(jì)算智能分割模型給出的預(yù)測(cè)框與所有真實(shí)框的IOU(與1.2節(jié)RPN階段的計(jì)算相似),以列方向?yàn)轭A(yù)測(cè)框、行方向?yàn)檎鎸?shí)框形成矩陣[13]。通常情況下,設(shè)置的IOU閾值為50%,當(dāng)IOU>50%時(shí),認(rèn)為預(yù)測(cè)框檢測(cè)出了目標(biāo),若預(yù)測(cè)框給出的類別與真實(shí)框一致,表示分類正確;若預(yù)測(cè)框給出的類別與真實(shí)框不同,則分類錯(cuò)誤?;煜仃嚳梢灾庇^感受智能分割模型的檢測(cè)效果。
3.1.2準(zhǔn)確率、召回率、平均準(zhǔn)確率
準(zhǔn)確率(P)、召回率(R)以及平均準(zhǔn)確率(AP)是分類任務(wù)中經(jīng)常使用的評(píng)估指標(biāo),表達(dá)式為
(11)
(12)
(13)
式中:TP表示檢測(cè)測(cè)試集圖像的預(yù)測(cè)框?yàn)檎?、真?shí)框也為正類的預(yù)測(cè)框數(shù)量,即檢測(cè)正確的數(shù)量;FP表示檢測(cè)測(cè)試集圖像的預(yù)測(cè)框?yàn)檎惗鎸?shí)框?yàn)樨?fù)類的數(shù)量,即檢測(cè)錯(cuò)誤的數(shù)量;FN表示檢測(cè)測(cè)試集圖像的真實(shí)框未被檢測(cè)出的數(shù)量,即漏檢的數(shù)量。f(R)表示R與P之間的關(guān)系函數(shù),通過(guò)檢測(cè)數(shù)據(jù)獲得。
針對(duì)本文所建立的智能識(shí)別分割模型,首先取單張測(cè)試圖片計(jì)算IOU得出混淆矩陣,混淆矩陣的列方向預(yù)測(cè)框按其分類置信度大小從高到低排列[13],依次設(shè)置各分類置信度為分類閾值計(jì)算對(duì)應(yīng)的準(zhǔn)確率P與召回率R,繪制P-R折線圖,即可計(jì)算AP值。
此外,單張測(cè)試圖像的AP值并不能準(zhǔn)確反映智能識(shí)別分割模型的性能,故計(jì)算整個(gè)測(cè)試集圖片的AP值的均值作為整體的評(píng)估指標(biāo),即mAP。
深度學(xué)習(xí)算法的參數(shù)分為兩種:① 模型內(nèi)部的權(quán)重參數(shù),可以隨著訓(xùn)練進(jìn)度不斷改進(jìn);② 超參數(shù),它并非訓(xùn)練得出,而是預(yù)先設(shè)定好的參數(shù),用來(lái)調(diào)整訓(xùn)練效果。所以得到一套優(yōu)秀的智能識(shí)別分割模型需要反復(fù)調(diào)整超參數(shù)。
本文最終設(shè)置的學(xué)習(xí)率(指在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),用于控制權(quán)重更新步長(zhǎng)的一個(gè)超參數(shù))為0.001;圖片尺寸超參數(shù)指深度學(xué)習(xí)網(wǎng)絡(luò)中設(shè)定的訓(xùn)練尺寸,它會(huì)影響模型的性能和訓(xùn)練速度,為了保證網(wǎng)絡(luò)的質(zhì)量,訓(xùn)練尺寸設(shè)定為1 024×1 024,共訓(xùn)練100個(gè)epoch(一個(gè)epoch表示訓(xùn)練數(shù)據(jù)集中所有樣本被訓(xùn)練完一次的過(guò)程)。
智能識(shí)別分割算法的訓(xùn)練過(guò)程會(huì)生成訓(xùn)練日志文件,包含訓(xùn)練誤差與驗(yàn)證誤差數(shù)據(jù),如圖8所示。在訓(xùn)練100次之后,訓(xùn)練誤差與驗(yàn)證誤差都趨于平緩,表示訓(xùn)練模型達(dá)到了收斂。最后訓(xùn)練誤差與驗(yàn)證誤差分別為0.17%與0.21%,相差不大,表示智能識(shí)別分割模型未出現(xiàn)過(guò)擬合現(xiàn)象,具有較強(qiáng)的魯棒性。
圖8 訓(xùn)練誤差與驗(yàn)證誤差曲線
利用測(cè)試集圖片對(duì)智能識(shí)別分割模型的性能進(jìn)行評(píng)估,部分檢測(cè)圖像如圖9所示。在不同的環(huán)境條件下,掌子面節(jié)理智能識(shí)別與分割模型仍然能夠檢測(cè)出大部分節(jié)理目標(biāo),且無(wú)需人工調(diào)整干預(yù),實(shí)現(xiàn)了真正意義上的智能化,從檢測(cè)結(jié)果來(lái)看,圖片的拍攝光照越充足、環(huán)境越簡(jiǎn)單(不存在臺(tái)架等干擾)則識(shí)別效果越好。
由此可見(jiàn)基于深度學(xué)習(xí)算法Mask R-CNN的掌子面節(jié)理智能識(shí)別分割模型表現(xiàn)非常優(yōu)異,檢測(cè)圖片中的檢測(cè)框?qū)?jié)理進(jìn)行了準(zhǔn)確定位,并且用掩碼分割出屬于節(jié)理的像素區(qū)域,實(shí)現(xiàn)了高效精細(xì)化的隧道掌子面智能識(shí)別。
不可否認(rèn)的是,就圖9所展示的典型的檢測(cè)結(jié)果而言,本文算法還有很多需要改進(jìn)的地方:① 存在部分肉眼可見(jiàn)的節(jié)理目標(biāo)沒(méi)有被模型檢測(cè)出來(lái)的現(xiàn)象;② 分割節(jié)理目標(biāo)的掩碼普遍寬于節(jié)理本身;③ 對(duì)面狀節(jié)理目標(biāo)的識(shí)別準(zhǔn)確率不高,較為粗糙。對(duì)此,進(jìn)一步擴(kuò)充數(shù)據(jù)集、優(yōu)化標(biāo)注質(zhì)量將是解決以上問(wèn)題的關(guān)鍵。
此外,為準(zhǔn)確判定智能識(shí)別分割模型的性能,隨機(jī)選擇測(cè)試集中的圖片進(jìn)行精細(xì)化評(píng)估。首先通過(guò)智能識(shí)別分割模型檢測(cè)測(cè)試集中的一張圖片,接著計(jì)算預(yù)測(cè)框與真實(shí)框之間的IOU值,生成混淆矩陣(見(jiàn)圖10)。第4個(gè)預(yù)測(cè)框與所有真實(shí)框之間的IOU均小于50%,存在誤檢情況,此外第2、10個(gè)真實(shí)框與所有預(yù)測(cè)框之間的IOU均小于50%,存在漏檢情況??傮w而言,本文算法檢測(cè)出了大部分的節(jié)理目標(biāo),足以滿足工程需求。但仍需針對(duì)圖片中節(jié)理的檢測(cè)細(xì)節(jié)問(wèn)題,在進(jìn)一步的研究工作中完善隧道掌子面節(jié)理檢測(cè)與分割數(shù)據(jù)集的質(zhì)量。
圖10 檢測(cè)測(cè)試集圖片的混淆矩陣
根據(jù)3.1.2節(jié)內(nèi)容計(jì)算準(zhǔn)確率和召回率,得到P-R折線圖,如圖11所示。計(jì)算得到AP值為75.0%。接著設(shè)置迭代算法依次計(jì)算測(cè)試集內(nèi)80張圖片的測(cè)試AP值,取均值得到檢測(cè)框mAP值為58.0%。分割mAP值的計(jì)算與檢測(cè)框mAP計(jì)算規(guī)則相似,將像素IOU替換檢測(cè)框IOU即可。經(jīng)計(jì)算,分割mAP值為49.2%。
為使本文改進(jìn)算法的有效性更加有說(shuō)服力,開(kāi)展了本文算法、原Mask R-CNN算法以及其他流行的實(shí)例分割算法的對(duì)比試驗(yàn),表1展示了各算法的mAP值及其代表性識(shí)別結(jié)果。
表1 不同算法的mAP值及其代表性識(shí)別結(jié)果
由表1可知,本文算法相較于傳統(tǒng)的Mask R-CNN算法在識(shí)別結(jié)果中表現(xiàn)更優(yōu)。本文算法對(duì)節(jié)理分割精確,而Mask R-CNN算法出現(xiàn)了分割不徹底、掩碼過(guò)寬的問(wèn)題。此外,檢測(cè)框與分割mAP值(58.0%,49.2%)均較高,表明本文引入的PANet改進(jìn)了原算法的性能,能更加勝任隧道掌子面的節(jié)理檢測(cè)與分割任務(wù)。
此外,本文引入了Cascade R-CNN[16]、Yolact[17]和Mask Scoring R-CNN[18]3種較為流行的實(shí)例分割算法與本文算法進(jìn)行對(duì)比,其檢測(cè)結(jié)果見(jiàn)表1。其中Cascade R-CNN與Mask Scoring R-CNN的檢測(cè)框與分割mAP值分別為(49.5%,38.8%)與(50.2%,41.1%),較傳統(tǒng)的Mask R-CNN算法均有所提升。且兩種算法的識(shí)別分割結(jié)果更加精確,但相對(duì)于本文算法存在過(guò)度分割和分割不足的問(wèn)題。而Yolact算法檢測(cè)框與分割mAP值均最低,在隧道掌子面節(jié)理檢測(cè)中性能最差(見(jiàn)表1中的識(shí)別結(jié)果),難以勝任復(fù)雜環(huán)境下的智能檢測(cè)任務(wù)。但值得一提的是,該算法檢測(cè)速率很快,在相對(duì)簡(jiǎn)單的應(yīng)用場(chǎng)景及簡(jiǎn)單的目標(biāo)檢測(cè)任務(wù)中有廣闊的應(yīng)用前景。綜上,本文算法性能優(yōu)于傳統(tǒng)的Mask R-CNN算法與多種當(dāng)前流行的實(shí)例分割算法,驗(yàn)證了本文算法在隧道掌子面節(jié)理檢測(cè)分割任務(wù)中的有效性與優(yōu)越性。
本文以Mask R-CNN智能識(shí)別算法為基礎(chǔ),采用ResNet101作為提取特征的主干網(wǎng)絡(luò),引入路徑聚合網(wǎng)絡(luò)改進(jìn)FPN對(duì)特征信息的融合能力,提出了一種基于深度學(xué)習(xí)的隧道掌子面節(jié)理智能識(shí)別分割算法,實(shí)現(xiàn)了復(fù)雜現(xiàn)場(chǎng)環(huán)境下多類型隧道掌子面節(jié)理的智能、快速、高精度檢測(cè),主要結(jié)論如下:
(1) 在數(shù)據(jù)集方面,本文建立了基于800張隧道掌子面圖像的數(shù)據(jù)集,采用多邊形方式對(duì)節(jié)理目標(biāo)進(jìn)行標(biāo)注,包含了豐富的圖像信息、多邊形輪廓信息以及標(biāo)簽信息。
(2) 根據(jù)掌子面節(jié)理識(shí)別分割任務(wù)的特殊性對(duì)算法做出了針對(duì)性改進(jìn),引入路徑聚合網(wǎng)絡(luò)改進(jìn)了FPN對(duì)特征信息的融合能力。該算法能夠檢測(cè)出隧道掌子面照片中的節(jié)理信息,通過(guò)檢測(cè)框定位節(jié)理的位置,通過(guò)掩碼分割屬于節(jié)理的像素。同時(shí)該算法抗干擾能力強(qiáng),能夠適用于復(fù)雜隧道環(huán)境下的掌子面節(jié)理智能檢測(cè)分割。
(3) 基于測(cè)試集中80張樣本圖片,采用混淆矩陣、準(zhǔn)確率和召回率等指標(biāo)對(duì)智能識(shí)別分割模型各項(xiàng)性能進(jìn)行了評(píng)估,計(jì)算得出檢測(cè)框與分割mAP值分別為58.0%,49.2%,相較于Mask R-CNN算法與多種當(dāng)前流行的實(shí)例分割算法表現(xiàn)非常優(yōu)異,表明本文算法在隧道掌子面節(jié)理檢測(cè)分割任務(wù)中的有效性與優(yōu)越性。
(4) 數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法依賴有效、豐富的現(xiàn)場(chǎng)數(shù)據(jù)。盡管本文建立的隧道掌子面節(jié)理檢測(cè)方法對(duì)隧道掌子面節(jié)理目標(biāo)的檢測(cè)效果良好,但仍然存在部分分割掩碼較寬的現(xiàn)象,這些問(wèn)題有待通過(guò)提升數(shù)據(jù)集的質(zhì)與量來(lái)解決。
此外,本文提出的智能識(shí)別分割模型可直接用于復(fù)雜環(huán)境下的鐵路、公路隧道掌子面節(jié)理檢測(cè)任務(wù)中。結(jié)合硬件開(kāi)發(fā),可形成無(wú)人機(jī)、機(jī)器人等智能識(shí)別設(shè)備,解決傳統(tǒng)素描方法存在的主觀性、時(shí)效低等問(wèn)題,為隧道建設(shè)的智能化發(fā)展提供技術(shù)和理論支持。