楊墨逸, 趙云凡,2, 鄧雪原
(1. 上海交通大學(xué) a. 船舶海洋與建筑工程學(xué)院;b. 上海市公共建筑和基礎(chǔ)設(shè)施數(shù)字化運(yùn)維重點(diǎn)實(shí)驗(yàn)室, 上海 200240;2. 中國(guó)建筑第八工程局有限公司, 上海 200112)
據(jù)國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,自2003年起,國(guó)內(nèi)每年竣工房屋面積均在20億m2以上[1],累計(jì)竣工房屋總面積穩(wěn)定增長(zhǎng),城市化水平迅速提高。城市化高速發(fā)展的同時(shí)也帶來(lái)了既有建筑量大面廣,設(shè)備功能退化,設(shè)備運(yùn)維困難等嚴(yán)重問題[2]。為提高資源利用效率,提高建筑設(shè)備運(yùn)維管理水平將是建設(shè)領(lǐng)域適應(yīng)新時(shí)代“高質(zhì)量、綠色發(fā)展”戰(zhàn)略的重要發(fā)展方向。
建筑機(jī)電設(shè)備是建筑整體的重要組成部分,主要包括給排水、采暖、通風(fēng)、空調(diào)、電氣系統(tǒng),用于保障建筑內(nèi)部良好的環(huán)境,直接影響建筑的運(yùn)維和能源利用效率[3],而風(fēng)管設(shè)備是采暖、通風(fēng)和空調(diào)系統(tǒng)最主要的組成部分?,F(xiàn)代建筑設(shè)備多樣,管線密集,空間分布情況復(fù)雜,在信息不完善的情況下,風(fēng)管設(shè)備的運(yùn)營(yíng)維護(hù)很難開展。傳統(tǒng)的風(fēng)管設(shè)備運(yùn)維,需要工程師查看紙質(zhì)竣工備案資料[4],流程繁瑣,耗費(fèi)大量人力物力,并且過(guò)程容易出錯(cuò)。
建筑信息模型(Building Information Modeling,BIM)是集成建筑全生命周期信息的數(shù)字化表達(dá)方法,能夠提高建筑信息的交互性[5],可用于建筑設(shè)備的信息集成和管理應(yīng)用,為運(yùn)維過(guò)程中的分析和決策提供輔助[6],提高運(yùn)維效率和質(zhì)量。Pardis等提出了一套基于BIM的設(shè)備管理框架和流程,用于在全生命周期管理中收集、管理、交換設(shè)備信息,該流程在實(shí)際項(xiàng)目運(yùn)維中進(jìn)行了成功測(cè)試[7],為之后的研究提供了參考。田佩龍將建筑設(shè)備自動(dòng)化系統(tǒng)集成至BIM,實(shí)現(xiàn)了對(duì)設(shè)備狀態(tài)的動(dòng)態(tài)監(jiān)測(cè),并在停車場(chǎng)、水廠等的智能運(yùn)維中得到了應(yīng)用[6]。
BIM模型包含幾何信息、語(yǔ)義信息和拓?fù)湫畔ⅲ瑤缀涡畔⒅傅氖菍?duì)象的形狀和位置;拓?fù)湫畔⒈硎緦?duì)象間的空間聯(lián)系;語(yǔ)義信息用于描述專門屬性,比如設(shè)備的功能、材質(zhì)等。建筑設(shè)備的BIM重建方法可以從矢量圖紙、3D點(diǎn)云模型或二維光柵圖像中自動(dòng)提取設(shè)備的幾何信息、拓?fù)湫畔⒑筒糠终Z(yǔ)義信息,比如設(shè)備的類型、位置和尺寸。在實(shí)際應(yīng)用中,設(shè)備BIM可以輔助設(shè)備管理人員進(jìn)行諸如資產(chǎn)管理、設(shè)備狀態(tài)監(jiān)測(cè)和定期檢查等任務(wù),有效提高設(shè)備管理效率[7]。然而很多既有建筑僅有紙質(zhì)的圖紙資料,信息整合困難,人工重建模型費(fèi)時(shí)費(fèi)力[8]。因此,本文提出一種自動(dòng)化的圖紙識(shí)別方法:使用改進(jìn)的CascadeRCNN目標(biāo)檢測(cè)算法識(shí)別風(fēng)管平面圖紙中的設(shè)備,提取二維光柵圖像中的設(shè)備類別和位置信息,為既有建筑的設(shè)備運(yùn)維和BIM重建提供必要的數(shù)據(jù)基礎(chǔ)。
目前針對(duì)既有建筑的信息模型重建方法主要有基于二維矢量圖、基于3D點(diǎn)云和基于二維光柵圖像三種。
使用二維矢量圖重建BIM模型的方法提取經(jīng)過(guò)預(yù)處理后的CAD矢量圖信息,構(gòu)建BIM模型的精細(xì)化程度相對(duì)較高。Cho等[8]將經(jīng)過(guò)充分預(yù)處理后的機(jī)電設(shè)備CAD圖中的對(duì)象分為物理設(shè)備、文字和注釋三類,對(duì)每一類組件采用了不同信息檢索方法,實(shí)現(xiàn)了對(duì)簡(jiǎn)單風(fēng)管系統(tǒng)的信息提取和BIM模型重建。Yin等[9]開發(fā)了一套自動(dòng)識(shí)別CAD立面圖信息的方法,可獲取立面圖中對(duì)象的偏移量和高度,根據(jù)立面圖信息生成外墻 BIM 模型,填補(bǔ)了針對(duì)建筑立面圖研究的空缺?;诙S矢量圖的方法獲得的幾何信息相對(duì)準(zhǔn)確,但不適用于沒有矢量圖紙的大部分既有建筑[4]。
基于3D點(diǎn)云的技術(shù)利用激光掃描儀等設(shè)備采集并生成3D點(diǎn)云數(shù)據(jù),通過(guò)對(duì)點(diǎn)云數(shù)據(jù)的處理構(gòu)建BIM模型,該方法不需要CAD矢量圖,得到了較多的研究[10],近兩年的研究主要著眼于提高數(shù)據(jù)采集質(zhì)量以及從點(diǎn)云模型中識(shí)別對(duì)象。為提高掃描數(shù)據(jù)的質(zhì)量,Wang Qian等[10]提出了一種不需要先驗(yàn)BIM的掃描規(guī)劃方法,該方法可根據(jù)用戶對(duì)數(shù)據(jù)質(zhì)量需求確定最佳掃描位置和參數(shù),比人工制定的掃描計(jì)劃效率更高、獲取數(shù)據(jù)更加完整、數(shù)據(jù)冗余更少。Wang Chao等[11]介紹了一種從3D點(diǎn)云模型中自動(dòng)提取建筑幾何形狀的方法,但研究對(duì)象僅限于建筑外表面。Kim等[12]開發(fā)了一種基于曲率信息和卷積神經(jīng)網(wǎng)絡(luò)的分類方法,可以自動(dòng)識(shí)別工業(yè)廠房點(diǎn)云數(shù)據(jù)中管道的直管和彎頭構(gòu)件,但識(shí)別對(duì)象僅限于圓管。該類方法需要數(shù)據(jù)豐富的完整點(diǎn)云模型,但數(shù)據(jù)采集設(shè)備只能獲取表面數(shù)據(jù)[13],受遮擋影響很大,獲取建筑內(nèi)部的管道和設(shè)備數(shù)據(jù)非常困難。
基于二維光柵圖像的方法在經(jīng)濟(jì)性和適用性[13]方面更有優(yōu)勢(shì)。Lu等[14]于2017年提出了一套識(shí)別二維圖紙中結(jié)構(gòu)構(gòu)件的半自動(dòng)化方法,該方法通過(guò)識(shí)別特殊符號(hào)確定構(gòu)件的位置,使用光學(xué)字符識(shí)別(OCR)提取圖紙中的文字信息,最后將識(shí)別出的信息進(jìn)行梳理,為構(gòu)建IFC模型提供結(jié)構(gòu)化的數(shù)據(jù)基礎(chǔ)。Lu[15]在2019年改進(jìn)并完善了工作流程,使用不同的技術(shù)分別實(shí)現(xiàn)了建筑框架幾何信息提取、建筑信息完善與集成、IFC生成共三個(gè)模塊,初步完成了對(duì)實(shí)際建筑的數(shù)字孿生幾何模型構(gòu)建,但此方法僅研究建筑和結(jié)構(gòu)圖紙。Zhao等[16]提出一種融合了圖像處理、深度學(xué)習(xí)和OCR技術(shù)的新型混合方法,成功從包含軸網(wǎng)和梁柱的結(jié)構(gòu)圖像中提取對(duì)象的信息,生成了IFC格式的結(jié)構(gòu)BIM模型?;诙S光柵圖像的方法流程包括識(shí)別、匹配和生成,首先識(shí)別圖像中的目標(biāo)對(duì)象和標(biāo)注文本,提取目標(biāo)對(duì)象和文本的類別和位置信息,其次根據(jù)位置將對(duì)象和文本匹配,如將截面尺寸標(biāo)注匹配到特定的對(duì)象,最后統(tǒng)一坐標(biāo)系,根據(jù)梳理好的信息生成BIM模型。目前,該類方法的研究對(duì)象局限于建筑和結(jié)構(gòu)平面圖,僅支持識(shí)別種類有限的建筑和結(jié)構(gòu)對(duì)象,未見該方法用于風(fēng)管平面二維圖紙識(shí)別的研究。
基于以上現(xiàn)狀,本文提出使用目標(biāo)檢測(cè)算法識(shí)別風(fēng)管平面二維圖紙中的設(shè)備對(duì)象的方法,實(shí)現(xiàn)從圖紙中自動(dòng)提取設(shè)備的位置和類別信息。
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的基本任務(wù)之一,目的是識(shí)別圖片中對(duì)象的類別和位置,在人臉識(shí)別、工業(yè)制造、行人檢測(cè)等領(lǐng)域應(yīng)用廣泛。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法逐漸成為該領(lǐng)域的主流。根據(jù)檢測(cè)步驟的不同,深度學(xué)習(xí)目標(biāo)檢測(cè)算法可分為單階段和兩階段目標(biāo)檢測(cè)算法。兩階段算法先對(duì)輸入圖像進(jìn)行候選區(qū)域生成,然后對(duì)候選區(qū)域進(jìn)行目標(biāo)分類和邊界框回歸,如RCNN、Faster RCNN[17]等;單階段算法省略了生成候選區(qū)域的過(guò)程,采用一套網(wǎng)絡(luò)完成特征提取、目標(biāo)分類和位置回歸,如YOLO系列[18],RetinaNet[19]等。兩階段算法在檢測(cè)精度上占優(yōu),單階段算法檢測(cè)速度更快[20]。
從識(shí)別精度和速度方面對(duì)任務(wù)需求進(jìn)行分析。本研究的對(duì)象是二維光柵圖像,不需要用于高幀率視頻,主流檢測(cè)算法每秒檢測(cè)多張圖像的速度均滿足研究要求。相較而言,圖紙中存在多類的目標(biāo)對(duì)象,目標(biāo)的漏檢或錯(cuò)檢會(huì)直接影響后續(xù)BIM重建過(guò)程中信息匹配的準(zhǔn)確性。因此,本研究對(duì)算法的檢測(cè)精度要求較高,對(duì)檢測(cè)速度要求偏低。
Cascade RCNN算法為高精度的二階段目標(biāo)檢測(cè)算法[21],在多個(gè)通用目標(biāo)檢測(cè)任務(wù)中有更好的表現(xiàn)[22],以在COCO數(shù)據(jù)集[23]中的表現(xiàn)為例,各目標(biāo)檢測(cè)算法識(shí)別精度統(tǒng)計(jì)如表1,對(duì)比中控制算法骨干網(wǎng)絡(luò)近似,表中數(shù)據(jù)來(lái)自MMLab公開的實(shí)驗(yàn)結(jié)果[22],mAP為檢測(cè)精度衡量指標(biāo),計(jì)算方法在2.3節(jié)中詳細(xì)說(shuō)明。從表中可以看出,Cascade RCNN的檢測(cè)精度最高,更適合用于類別數(shù)量多、定位要求高的本研究,因此選取其為本研究的基礎(chǔ)算法架構(gòu)。另外,3.3.3節(jié)表7中各算法模型在本研究數(shù)據(jù)集中的實(shí)驗(yàn)對(duì)比結(jié)果顯示,基礎(chǔ)Cascade RCNN算法比Faster RCNN,YOLOv3等算法在本研究中都有更好的體現(xiàn),選用Cascade RCNN作為本文的基礎(chǔ)架構(gòu)是合適的。
表1 各目標(biāo)檢測(cè)算法在COCO數(shù)據(jù)集中的表現(xiàn)
基于此,本文通過(guò)數(shù)字圖像處理技術(shù)和Cascade RCNN算法識(shí)別風(fēng)管平面二維圖紙中的設(shè)備,并根據(jù)實(shí)際識(shí)別需求改進(jìn)算法,減少分類和定位錯(cuò)誤,提高算法的檢測(cè)精度。最后將改進(jìn)結(jié)果與其他算法對(duì)比,驗(yàn)證了算法改進(jìn)后的優(yōu)越性能。
本文研究對(duì)象為實(shí)際工程圖紙,實(shí)際風(fēng)管平面圖以建筑平面布置圖作為底圖,為突出表達(dá)本專業(yè)設(shè)計(jì),底圖通常較淺。建筑底圖會(huì)影響風(fēng)管設(shè)備的識(shí)別效果,為提高檢測(cè)精度,引入二值化方法進(jìn)行灰度過(guò)濾,在清晰保留風(fēng)管設(shè)備圖的情況下盡可能過(guò)濾掉建筑底圖。
二值化采用opencv中THRESH_BINARY函數(shù)實(shí)現(xiàn),函數(shù)根據(jù)輸入的灰度閾值進(jìn)行二值化處理,灰度大于閾值的統(tǒng)一設(shè)為255,灰度小于等于閾值的設(shè)為0。因圖像質(zhì)量存在差異,底圖灰度會(huì)有不同,為使每張圖像都能恰好過(guò)濾掉建筑底圖,各圖像所需的灰度閾值也會(huì)有差別。經(jīng)統(tǒng)計(jì)分析,本文研究的圖像中,底圖像素?cái)?shù)量?jī)H次于背景,因此取閾值為圖像灰度分布中出現(xiàn)頻數(shù)次高的灰度值的0.95倍,即閾值略小于底圖灰度值。此方法可以自動(dòng)確定每張圖片的恰當(dāng)閾值,不必逐張手動(dòng)調(diào)試,灰度過(guò)濾效果如圖1,2,既可以保留灰度值較小的風(fēng)管專業(yè)設(shè)計(jì),又可以充分去除底圖,消除了建筑底圖對(duì)風(fēng)管設(shè)備識(shí)別的干擾。
圖1 過(guò)濾底圖前的圖像
圖2 過(guò)濾底圖后的圖像
Cascade RCNN算法架構(gòu)如圖3,由骨干網(wǎng)絡(luò)、特征金字塔(FPN)[26]、區(qū)域提議網(wǎng)絡(luò)(RPN)和級(jí)聯(lián)檢測(cè)器組成,圖中Conv1~5代表骨干網(wǎng)絡(luò)中的卷積層,F(xiàn)2~F5為特征提取后輸出的特征圖,P2~P5為經(jīng)過(guò)特征融合后輸出的用于預(yù)測(cè)的特征圖,B1~B3表示邊界框回歸,C1~C3表示分類,B3和C3分別為最終輸出的邊界框和類別。骨干網(wǎng)絡(luò)對(duì)輸入的圖片進(jìn)行特征提取生成特征圖,F(xiàn)PN將特征圖進(jìn)行自深至淺的融合,生成信息更加豐富的特征圖用于預(yù)測(cè),RPN階段區(qū)分特征圖中的前景和背景,生成候選區(qū)域輸入級(jí)聯(lián)檢測(cè)器進(jìn)行分類和位置回歸。與Faster RCNN不同的是,Cascade RCNN使用多階段級(jí)聯(lián)檢測(cè)器,每階段的檢測(cè)器設(shè)置不同的交并比(IOU)閾值, 越往后IOU閾值越高,三個(gè)階段分別為0.5,0.6,0.7,每階段過(guò)濾一部分負(fù)樣本,將回歸結(jié)果輸入下一級(jí)更高精度的檢測(cè)器,最終達(dá)到提高網(wǎng)絡(luò)檢測(cè)精度的效果。
圖3 Cascade RCNN算法架構(gòu)
2.2.1 骨干網(wǎng)絡(luò)
(1)殘差網(wǎng)絡(luò)ResNet
He 等人于2015年提出殘差網(wǎng)絡(luò)ResNet[27],創(chuàng)造性地引入殘差結(jié)構(gòu)解決了傳統(tǒng)網(wǎng)絡(luò)(如VGG[28])中因?qū)訑?shù)加深引起的網(wǎng)絡(luò)退化問題,在多個(gè)目標(biāo)檢測(cè)任務(wù)中獲得第一名,是各類視覺任務(wù)中最常用的骨干網(wǎng)絡(luò)之一[20]。根據(jù)網(wǎng)絡(luò)深度不同,典型的殘差網(wǎng)絡(luò)分為ResNet50和ResNet101,其中ResNet101更深,復(fù)雜度更高,通常特征提取能力也更強(qiáng)。ResNet50和ResNet101中的殘差單元如圖4,其中x表示輸入,網(wǎng)絡(luò)學(xué)習(xí)到的殘差為F(x),最終輸出的特征為F(x)+x,即便當(dāng)殘差為0時(shí),等價(jià)于做x的恒等映射,保障了網(wǎng)絡(luò)性能不會(huì)下降。圖中act為激活函數(shù),第一步1×1卷積將256維通道降低為64維,然后通過(guò)3×3和1×1卷積在最后恢復(fù)為256維,在保持精度的情況下減少了參數(shù)量。本研究中需要識(shí)別的風(fēng)管設(shè)備類型多樣,需要特征提取能力較強(qiáng)的骨干網(wǎng)絡(luò),因此采用ResNet101作為基線模型的骨干網(wǎng)絡(luò)。
圖4 殘差單元示意
(2)多尺度特征網(wǎng)絡(luò)Res2Net
本研究中需要識(shí)別的對(duì)象的采樣粒度不同,同一目標(biāo)對(duì)象在不同圖像中有不同的尺寸,因此需要能夠有效提取多尺度特征的骨干網(wǎng)絡(luò)。Res2Net通過(guò)在單個(gè)殘差單元內(nèi)構(gòu)造分層的殘差連接結(jié)構(gòu),構(gòu)建了一種新的基礎(chǔ)單元,此種結(jié)構(gòu)可在基礎(chǔ)單元級(jí)別提取多尺度特征,增加每層網(wǎng)絡(luò)的感受野[29]。圖5為Res2Net基礎(chǔ)單元,Res2Net將ResNet基礎(chǔ)殘差單元中的3×3卷積替換為虛線框內(nèi)帶層級(jí)的殘差連接結(jié)構(gòu),圖中x1~x4為殘差連接結(jié)構(gòu)的輸入,k2~k3代表3×3卷積,y1~y4為殘差連接結(jié)構(gòu)的輸出。這樣的構(gòu)造使得單元的輸入最少可以不經(jīng)過(guò)3×3卷積,最多可以經(jīng)過(guò)3個(gè)3×3卷積,感受野更加豐富,同時(shí)輸出的包含不同大小感受野結(jié)果的組合,有利于提取全局及局部的多尺度信息。
圖5 Res2Net單元模塊示意
實(shí)際圖紙中風(fēng)管設(shè)備種類眾多,尺寸、采樣粒度差異較大,為提高骨干網(wǎng)絡(luò)的多尺度特征提取能力,本研究在ResNet的基礎(chǔ)上引入Res2Net模塊。
2.2.2 可變形卷積DCNv2
常規(guī)卷積在N×N的固定區(qū)域上進(jìn)行,無(wú)法適應(yīng)目標(biāo)物體的幾何形變,本研究中的目標(biāo)對(duì)象形態(tài)眾多且不規(guī)則,常規(guī)卷積不能很好地適應(yīng)幾何形變的特征提取要求??勺冃尉矸e(DCNv1)[30]在常規(guī)卷積中引入了偏移量,可進(jìn)行尺寸、角度和比例的變換。該方法對(duì)每個(gè)采樣點(diǎn)進(jìn)行可學(xué)習(xí)的偏移,令卷積區(qū)域變形為不規(guī)則的卷積,尋找并覆蓋有效信息的區(qū)域。DCNv2[31]在DCNv1的基礎(chǔ)上,對(duì)每個(gè)采樣點(diǎn)的偏移賦予權(quán)重系數(shù),用于評(píng)估引入的區(qū)域是否為感興趣的區(qū)域,進(jìn)一步保證了有效信息的準(zhǔn)確提取。DCNv2還將可變形卷積層從conv5擴(kuò)展到conv3~conv5,增強(qiáng)了網(wǎng)絡(luò)對(duì)各類幾何形變的特征提取能力,不僅能獲取更多的有效信息,而且獲取的信息更加準(zhǔn)確。效果示意如圖6,7,圖中圓圈代表卷積的采樣點(diǎn),可變形卷積可以覆蓋信息更有效的區(qū)域,提取更好的圖像特征。
圖6 常規(guī)卷積采樣示意
圖7 可變形卷積采樣示意
風(fēng)管平面圖中的設(shè)備形態(tài)各異,幾何形狀和比例各不相同,本研究將骨干網(wǎng)絡(luò)中的conv3~conv5改進(jìn)為采用DCNv2的可變形卷積層,在更有效的區(qū)域進(jìn)行卷積,以適應(yīng)不同形態(tài)的目標(biāo)物體。
2.2.3 Soft NMS算法
Cascade RCNN算法預(yù)測(cè)過(guò)程中會(huì)在真實(shí)目標(biāo)附近生成多個(gè)預(yù)測(cè)框,非極大值抑制算法(Non-maximum suppression,NMS)用于去除重復(fù)的預(yù)測(cè)框,使每個(gè)物體僅保留一個(gè)檢測(cè)結(jié)果。經(jīng)典NMS算法會(huì)強(qiáng)制將與置信度最高預(yù)測(cè)框重疊較多的預(yù)測(cè)框的置信度清零[17],當(dāng)兩個(gè)目標(biāo)比較靠近時(shí),其中一個(gè)目標(biāo)預(yù)測(cè)框會(huì)被清除,導(dǎo)致靠近的目標(biāo)被漏檢。風(fēng)管平面圖紙中部分區(qū)域設(shè)備密集,檢測(cè)框會(huì)產(chǎn)生重疊,為減少漏檢風(fēng)險(xiǎn),將經(jīng)典NMS算法改為Soft NMS算法。
Soft NMS基于重疊部分的大小對(duì)相鄰預(yù)測(cè)框進(jìn)行置信度衰減[32],而非強(qiáng)制將其置信度清零,從而降低目標(biāo)漏檢的風(fēng)險(xiǎn)。線性加權(quán)衰減公式如式(1)。公式表明,如果一個(gè)預(yù)測(cè)框與某置信度最高的預(yù)測(cè)框重疊過(guò)多,其置信度會(huì)降低很多,反之,如果重疊較少,其置信度也降低較少。
(1)
式中:bi為當(dāng)前預(yù)測(cè)框;si為當(dāng)前預(yù)測(cè)框的置信度分?jǐn)?shù);M為選中的最高置信度預(yù)測(cè)框;Nt為設(shè)定的IOU閾值;Nt通常為0.5或0.7。
圖紙中存在部分風(fēng)管設(shè)備平面布置密集,常有設(shè)備位置相近或檢測(cè)框部分重疊的情況,Soft NMS的引入可以有效減少漏檢鄰近目標(biāo)的情況,定位效果也比使用經(jīng)典NMS更好[32]。
本文采用的評(píng)價(jià)指標(biāo)為mAP,AP75和dAP。其中mAP用于整體評(píng)估算法識(shí)別精度,AP75用于評(píng)價(jià)算法的定位準(zhǔn)確度,dAP用于量化分析算法的錯(cuò)誤類型。本研究中評(píng)價(jià)指標(biāo)結(jié)果為模型在300張驗(yàn)證集上推理驗(yàn)證后計(jì)算而來(lái)。
從《平凡的世界》看路遙創(chuàng)作史詩(shī)性追求的得失 ………………………………………………… 張文哲(1.68)
(1)查準(zhǔn)率(Precision)和查全率(Recall)
查準(zhǔn)率為檢測(cè)到的正確目標(biāo)物體在所有檢測(cè)框中的占比,查全率為正確檢測(cè)到的物體在所有真實(shí)目標(biāo)中的占比。
(2)
(3)
式中:TP(True Positive)為正確檢測(cè)的預(yù)測(cè)框數(shù)量;FP(False Positive)為檢測(cè)錯(cuò)誤的預(yù)測(cè)框數(shù)量;FN(False Negative)為未檢測(cè)出的目標(biāo)物體數(shù)量。
(2)平均精度均值(Mean Average Precision,mAP)
精度均值(Average Precision,AP)為查準(zhǔn)率在查全率上的積分,體現(xiàn)為Precision-Recall曲線與坐標(biāo)軸圍住的面積。計(jì)算公式為:
(4)
式中:r表示查全率;p(r)為查準(zhǔn)率對(duì)查全率的函數(shù)。
平均精度均值mAP為所有類AP的均值,常用于評(píng)價(jià)目標(biāo)檢測(cè)性能。公式為:
(5)
式中:N為類別數(shù)量;AP(i)為第i類目標(biāo)的AP值。本文中mAP計(jì)算方法與COCO數(shù)據(jù)集[23]的方法一致,對(duì)定位精度的要求比VOC的指標(biāo)更加嚴(yán)格,即下文中提到的mAP均為IOU閾值從0.5~0.95,步長(zhǎng)0.05取值后計(jì)算的平均精度均值的平均值。
(3)精度均值差值dAP
目標(biāo)檢測(cè)過(guò)程會(huì)出現(xiàn)誤檢、漏檢等多類錯(cuò)誤,為準(zhǔn)確區(qū)分并衡量各種錯(cuò)誤的嚴(yán)重程度,以針對(duì)性地分析和改進(jìn)算法劣勢(shì), Daniel Bolya等[33]提出一套對(duì)算法進(jìn)行錯(cuò)誤類別分析的指標(biāo)。該評(píng)價(jià)方法將錯(cuò)誤分為六類:分類錯(cuò)誤(cls)指預(yù)測(cè)框定位準(zhǔn)確但分類錯(cuò)誤;定位錯(cuò)誤(loc)為分類準(zhǔn)確但定位偏差大;分類且定位錯(cuò)誤(cls+loc)指預(yù)測(cè)框在真實(shí)目標(biāo)附近,但分類錯(cuò)誤且定位偏差大;重復(fù)檢測(cè)(dup)指的是對(duì)單個(gè)真實(shí)目標(biāo)產(chǎn)生多個(gè)置信度較高的預(yù)測(cè)框;背景誤判(bkg)指的是將背景檢測(cè)為目標(biāo)物體,體現(xiàn)為預(yù)測(cè)框與真實(shí)目標(biāo)重疊過(guò)少;遺漏錯(cuò)誤(miss)指除了分類錯(cuò)誤和定位錯(cuò)誤外,所有沒有被檢測(cè)到的真實(shí)目標(biāo)。
精度均值差值dAP用于量化評(píng)價(jià)每類錯(cuò)誤對(duì)檢測(cè)精度的影響。通過(guò)糾正某一類的錯(cuò)誤,對(duì)比糾正前后mAP提升情況,體現(xiàn)此類錯(cuò)誤的嚴(yán)重程度。假設(shè)糾正前mAP值為mAP0,糾正某類錯(cuò)誤后,值變?yōu)閙AP1,則:
dAP=mAP1-mAP0
(6)
本文實(shí)驗(yàn)的環(huán)境如表2。
表2 實(shí)驗(yàn)環(huán)境
3.2.1 圖像處理與數(shù)據(jù)集制作
本研究使用自建的COCO格式[23]數(shù)據(jù)集進(jìn)行訓(xùn)練。數(shù)據(jù)集圖像采集自商業(yè)、辦公樓、學(xué)校等多個(gè)國(guó)內(nèi)項(xiàng)目的圖紙,圖例符合規(guī)范GB/T 50114—2010《暖通空調(diào)制圖標(biāo)準(zhǔn)》[34],管道布置合理,貼近實(shí)際工程情況。圖像為JPG格式,尺寸為1200×800像素,經(jīng)預(yù)處理后采用LabelImg標(biāo)注為VOC數(shù)據(jù)集格式,后轉(zhuǎn)換為COCO數(shù)據(jù)集格式,以便更好地使用mAP,AP75等評(píng)價(jià)指標(biāo)。數(shù)據(jù)集經(jīng)過(guò)離線增強(qiáng)后共3000張圖片,按照9∶1隨機(jī)分為訓(xùn)練集和驗(yàn)證集,即驗(yàn)證集有300張圖片僅用于計(jì)算評(píng)價(jià)指標(biāo)從而評(píng)估算法性能,不參與訓(xùn)練。
風(fēng)管設(shè)備種類眾多,為貼近實(shí)際情況,將目標(biāo)構(gòu)件共分為18類,覆蓋了圖紙中的常見風(fēng)管設(shè)備,包括直管(ZG)、立管(LG)、彎管(WG)、斜直管(XZG)、變徑(BJ)、S型彎管(SXWG)、三通(SAT)、四通(SIT)、4類不同樣式的風(fēng)口(FK1~FK4)、4類不同樣式的閥門(FM1~FM4)以及2類風(fēng)機(jī)(FJ1,F(xiàn)J2)。括號(hào)內(nèi)為針對(duì)該類別設(shè)置的標(biāo)簽。
3.2.2 訓(xùn)練及驗(yàn)證
訓(xùn)練中采用了合理的學(xué)習(xí)率策略,使模型收斂至平穩(wěn),保證最終結(jié)果能精確反應(yīng)模型性能。訓(xùn)練基準(zhǔn)學(xué)習(xí)率為0.0025,學(xué)習(xí)率在前500次迭代中線性升溫至0.0025,在第17次和第20次訓(xùn)練輪次分別調(diào)整為基準(zhǔn)學(xué)習(xí)率的1/10和1/100,在第24輪次之后停止訓(xùn)練。優(yōu)化器采用動(dòng)量隨機(jī)梯度下降法,動(dòng)量系數(shù)設(shè)為0.9,權(quán)重衰減系數(shù)為0.0001。
3.3.1 基線模型分析
本研究使用以ResNet101為骨干網(wǎng)絡(luò)的Cascade RCNN算法為基線模型,分析基線模型實(shí)驗(yàn)結(jié)果,針對(duì)性地改進(jìn)算法,通過(guò)評(píng)價(jià)指標(biāo)的提升體現(xiàn)改進(jìn)方法的效果。為判斷模型復(fù)雜度是否恰當(dāng),將基線模型與骨干網(wǎng)絡(luò)為ResNet50的網(wǎng)絡(luò)進(jìn)行對(duì)比,確認(rèn)基線模型選取是否恰當(dāng)。實(shí)驗(yàn)結(jié)果如表3,數(shù)據(jù)表明,以ResNet101為骨干網(wǎng)絡(luò)的算法比ResNet50在識(shí)別精度和定位準(zhǔn)確度上都更有優(yōu)勢(shì),網(wǎng)絡(luò)深度是適合的。
表3 基線模型骨干網(wǎng)絡(luò)結(jié)果對(duì)比
基線模型的錯(cuò)誤分析結(jié)果見表4,dAP數(shù)值越大說(shuō)明該類錯(cuò)誤越多。數(shù)據(jù)顯示,算法的主要錯(cuò)誤為分類錯(cuò)誤、定位錯(cuò)誤、背景誤判和檢測(cè)遺漏。
表4 基線模型錯(cuò)誤類別分析
3.3.2 消融實(shí)驗(yàn)
考慮到實(shí)際風(fēng)管平面圖中設(shè)備類型眾多,各類設(shè)備符號(hào)的尺度、形態(tài)差別較大,針對(duì)基線模型中分類與定位錯(cuò)誤及背景誤判偏多的情況,在基線算法中融入Res2Net模塊,加強(qiáng)網(wǎng)絡(luò)提取多尺度特征的能力;在骨干網(wǎng)絡(luò)conv3~conv5中融入可變形卷積DCNv2,以提高網(wǎng)絡(luò)對(duì)目標(biāo)物體幾何形變的適應(yīng)能力;將經(jīng)典NMS改為Soft NMS,減少相近目標(biāo)的漏檢風(fēng)險(xiǎn),同時(shí)提高定位精度。在本研究中,Soft NMS采用0.5和0.7兩個(gè)IOU閾值進(jìn)行實(shí)驗(yàn),選取最合適的閾值。
消融實(shí)驗(yàn)結(jié)果如表5,模型B已在表3中說(shuō)明,表5中Soft表示Soft NMS。對(duì)比模型A和F,說(shuō)明改進(jìn)后算法的平均精度和定位精度都得到了提高,mAP從78.7%提升至80.8%,AP75從92%提升至93.4%。改進(jìn)后錯(cuò)誤也有明顯降低,分類錯(cuò)誤從1.47%降低至1.28%,定位錯(cuò)誤從0.11%降低至0.01%,背景誤判從0.33%降低為0.17%。消融試驗(yàn)中模型A和C結(jié)果表明,Res2Net的融入給模型的平均識(shí)別精度帶來(lái)了1.6%的提升; E和F的對(duì)比說(shuō)明Soft NMS的IOU閾值取值0.5比0.7更加合適;對(duì)比C和D,發(fā)現(xiàn)合適閾值的Soft NMS引入對(duì)AP75的提升比較明顯,即整體上提升了定位精度;D和F的對(duì)比表明,可變形卷積DCNv2的融入使平均精度均值又提升了0.4%,定位錯(cuò)誤基本消除,背景誤判錯(cuò)誤也有明顯降低。綜上所述,本文改進(jìn)方法有效提升了算法的平均識(shí)別精度和定位精度。
表5 消融實(shí)驗(yàn)結(jié)果 %
使用改進(jìn)Cascade RCNN算法對(duì)風(fēng)管平面圖紙進(jìn)行識(shí)別,示例識(shí)別效果如圖8,圖像中共有21個(gè)風(fēng)管設(shè)備,均被準(zhǔn)確識(shí)別和定位。部分識(shí)別結(jié)果如表6,以圖像左上角為像素坐標(biāo)原點(diǎn),向右x軸正向,向下y軸正向,表中為識(shí)別框的左上角和右下角像素坐標(biāo)位置,類別正確且定位準(zhǔn)確,其中類別標(biāo)簽的含義在3.2.1節(jié)中有說(shuō)明。結(jié)果表明,算法可以充分、準(zhǔn)確地識(shí)別風(fēng)管平面圖中的設(shè)備,提取設(shè)備的類別和位置信息。
圖8 改進(jìn)算法識(shí)別效果
表6 部分識(shí)別提取結(jié)果
3.3.3 對(duì)比試驗(yàn)
將本文算法與多個(gè)先進(jìn)的目標(biāo)檢測(cè)算法進(jìn)行對(duì)比。其中,YOLOv3為基于錨框的單階段算法[18],借鑒了殘差網(wǎng)絡(luò)和特征金字塔的思想,采用多尺度特征圖對(duì)不同大小的目標(biāo)進(jìn)行檢測(cè),骨干網(wǎng)絡(luò)為Darknet53,包含卷積層和殘差模塊,適合與本文算法進(jìn)行對(duì)比。Faster RCNN為兩階段的代表算法,融入特征金字塔,提高算法先進(jìn)性,進(jìn)行合適的橫向?qū)Ρ?。FCOS為2019年提出的無(wú)錨框一階段算法[24],在檢測(cè)精度上優(yōu)于很多基于錨框的算法。
各算法性能數(shù)據(jù)如表7,表中R2表示Res2Net,D表示DCNv2,S表示Soft NMS,可以看出改進(jìn)后的Cascade RCNN算法比Cascade RCNN[21],F(xiàn)COS[24],F(xiàn)aster RCNN[17],RetinaNet[19],YOLOv3[18]的平均識(shí)別精度分別高出2.1%,4.2%,4.5%,6.4%、8.1%,達(dá)到了先進(jìn)水平。用FPS指標(biāo)衡量檢測(cè)速度,指每秒可以檢測(cè)的圖像數(shù)量。從表中可以看出,在對(duì)Cascade RCNN的改進(jìn)中,隨著模型復(fù)雜度的增加,檢測(cè)速度逐漸降低,但均達(dá)到每秒檢測(cè)多張的要求,滿足本研究的需求。
表7 各算法模型檢測(cè)性能對(duì)比
本研究中的改進(jìn)有效提升了模型的識(shí)別精度,但仍存在部分設(shè)備樣本數(shù)量過(guò)少、小目標(biāo)檢測(cè)精度低的問題。比如樣本數(shù)量過(guò)少的FM4類別,改進(jìn)模型檢測(cè)的AP僅為68.7%,與均值80.8%相差較大。另外,改進(jìn)模型對(duì)于32×32像素面積以下的小目標(biāo)檢測(cè)mAP僅為24.7%,相對(duì)80.8%也有很大差距。之后可考慮針對(duì)少樣本、小目標(biāo)的低檢測(cè)精度問題進(jìn)行進(jìn)一步的優(yōu)化。
本文提出了識(shí)別風(fēng)管平面圖紙的方法,使用改進(jìn)的Cascade RCNN算法識(shí)別平面圖中的風(fēng)管設(shè)備,提取設(shè)備的類別和位置信息。改進(jìn)Cascade RCNN時(shí),針對(duì)風(fēng)管平面圖設(shè)備類型多樣、形態(tài)各異的實(shí)際特點(diǎn),使用Res2Net為骨干網(wǎng)絡(luò),豐富每層網(wǎng)絡(luò)的感受野,提高網(wǎng)絡(luò)對(duì)多尺度特征的提取能力;在網(wǎng)絡(luò)中融入可變形卷積DCNv2,使卷積區(qū)域可以靈活地適應(yīng)目標(biāo)物體的幾何形變;使用Soft NMS算法替代經(jīng)典NMS,減少相近目標(biāo)漏檢的風(fēng)險(xiǎn)并提高網(wǎng)絡(luò)的定位精度,使改進(jìn)后的Cascade RCNN算法更適合識(shí)別風(fēng)管平面圖。實(shí)驗(yàn)表明,本文改進(jìn)的方法有效提高了識(shí)別和定位精度,能夠準(zhǔn)確識(shí)別風(fēng)管平面圖中的風(fēng)管設(shè)備,提取平面圖中的設(shè)備類別和位置信息,為建筑風(fēng)管設(shè)備的BIM重建和運(yùn)維提供數(shù)據(jù)基礎(chǔ)。
本文的研究仍處于探索階段,無(wú)法反應(yīng)設(shè)備在實(shí)際建筑中的位置,后續(xù)研究可考慮識(shí)別建筑軸網(wǎng)標(biāo)頭,建立建筑軸線坐標(biāo)系和圖像坐標(biāo)系的轉(zhuǎn)換方法,結(jié)合風(fēng)管設(shè)備的定位高度信息,通過(guò)坐標(biāo)轉(zhuǎn)換定位風(fēng)管設(shè)備在實(shí)際建筑中的空間位置。此外,還可考慮結(jié)合抗干擾能力強(qiáng)的OCR技術(shù),采用合適的相似度評(píng)價(jià)指標(biāo),將圖紙中的尺寸標(biāo)注信息與設(shè)備進(jìn)行匹配,最終形成完整的原樣BIM模型。