王梓耀,羅慶全,蕭文聰,王藝澎,余 濤
(1. 華南理工大學(xué)電力學(xué)院,廣東省 廣州市 510640;2. 廣東省電網(wǎng)智能量測與先進計量企業(yè)重點實驗室,廣東省 廣州市 510640)
電網(wǎng)廠站接線圖是調(diào)度控制系統(tǒng)中用于描述電氣設(shè)備及其拓撲結(jié)構(gòu)的圖形,目前需要調(diào)度運維人員參考圖紙進行人工識別和分析后,將其中的電氣元件、圖文信息以及拓撲關(guān)系進行手動錄入。隨著電網(wǎng)規(guī)模的擴大,網(wǎng)絡(luò)拓撲、電網(wǎng)設(shè)備的快速更新迭代,僅依賴人工識別極易出現(xiàn)屬性缺失、關(guān)聯(lián)錯誤、連接線虛接等問題,更難以滿足電網(wǎng)運行調(diào)度系統(tǒng)的實時更新要求。
為了滿足“電網(wǎng)一張圖”以及“數(shù)字電網(wǎng)”的建設(shè)要求,電力系統(tǒng)信息可視化和一體化成為必然趨勢,圖模一體化的發(fā)展進入了嶄新的時代[1-2]。結(jié)合近年來迅速發(fā)展的人工智能技術(shù),特別是圖像識別技術(shù)的巨大突破[3],一些研究機構(gòu)開始嘗試將其應(yīng)用于電力圖像識別領(lǐng)域[4-7]。然而,不同地區(qū)、不同時間、不同專業(yè)人員繪制的電網(wǎng)廠站接線圖有著一定的差異,如何運用人工智能方法對各類電網(wǎng)廠站接線圖進行自動識別是一項極具挑戰(zhàn)的任務(wù)[8]。總結(jié)來看,當前電網(wǎng)廠站接線圖識別存在以下難點:
1)圖元識別方面的挑戰(zhàn)。圖元識別是電網(wǎng)廠站接線圖信息自動化提取的首要任務(wù),也是計算機視覺識別領(lǐng)域典型的目標檢測任務(wù)[9-10]。得益于深度學(xué)習領(lǐng)域的蓬勃發(fā)展,多種性能優(yōu)異的目標檢測算法被提出,包括以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regional convolutional neural network,RCNN) 、Faster-RCNN、SPPNet(spatial pyramid pooling network)為代表的兩階段算法,以及以YOLO(you only look once)、SSD(single shot multibox detector)為代表的單階段算法[11-14]。然而,直接使用傳統(tǒng)的目標檢測算法解決具體的電網(wǎng)廠站接線識別時仍存在一系列的問題:不同接線圖的大小、清晰度、規(guī)范差別較大,難以用統(tǒng)一的算法進行識別;圖元種類眾多、大小不一、方向各異,且部分圖元在整張圖中所占的比例極??;不同圖元、連線、文本混疊對識別目標圖元造成的干擾較大等。
2)文字識別方面的挑戰(zhàn)。文字識別領(lǐng)域?qū)?yīng)用到OCR(optical character recognition)技術(shù),現(xiàn)今基于深度學(xué)習的端到端OCR 技術(shù)有兩大主流技術(shù):卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network,CRNN)-OCR[15]和Attention-OCR[16]。其中,CRNN-OCR 在識別中文字符時表現(xiàn)較好,更適用于包含大量中文字符的圖紙[17]。但在包含電氣領(lǐng)域的中文字符后,當前文字識別仍存在以下難題:低質(zhì)量圖像中的文字識別效率不高;不規(guī)則文字或圖元對文字識別的干擾;復(fù)雜背景下的文字識別;電氣接線圖中專業(yè)術(shù)語、簡寫的識別效率不高。
3)接線識別方面的挑戰(zhàn)。區(qū)別于計算機視覺領(lǐng)域簡單的直線檢測,電氣接線識別的關(guān)鍵難點在于需要深度融合電氣領(lǐng)域知識進行判斷和識別。文獻[18]采用“去除圖元+保護處理”進行接線識別;文獻[19]提出基于子圖匹配算法進行拓撲關(guān)系自動校核。但已有研究仍未有效解決以下問題:難以區(qū)分母線和其他常規(guī)線路;線路中關(guān)于交叉、跨接的識別效果較差;圖中其余直線部分對直線檢測存在一定的干擾。
為了解決上述問題,本文針對圖元、文字以及接線識別進行逐個突破,在圖元識別方面采用重疊滑窗機制和YOLOv4 結(jié)合解決“大圖像小圖元”的識別問題,在文字識別方面基于遷移學(xué)習方法融合電力領(lǐng)域知識提升識別準確率,在接線識別方面充分利用領(lǐng)域知識完成復(fù)雜拓撲下的接線識別,在此基礎(chǔ)上構(gòu)建一套完整的電網(wǎng)廠站接線圖全自動識別方法。最后,在算例分析部分與其他識別、處理方法進行對比,驗證了本文提出的電網(wǎng)廠站接線圖智能識別方法的有效性。
電網(wǎng)接線圖識別本質(zhì)是利用圖像識別技術(shù)、人工智能技術(shù)以及電力系統(tǒng)相關(guān)業(yè)務(wù)邏輯,對輸入的各類電網(wǎng)廠站接線圖(JPG/PNG 格式)進行自動識別,輸出符合標準的XML 文件,整體識別流程如圖1 所示。
圖1 電網(wǎng)廠站接線圖識別框架Fig.1 Framework of wiring diagram recognition for power plant and substation
實際開展電網(wǎng)接線圖識別工作主要分為4 個階段:
1)預(yù)處理階段——對訓(xùn)練集中的圖片進行標注以及相應(yīng)的預(yù)處理。對訓(xùn)練集中每一張圖片進行標注;為了提升模型的識別效果,還需要對圖片進行分級膨脹、等比例放縮等操作。
2)模型訓(xùn)練階段——輸入訓(xùn)練集對網(wǎng)絡(luò)進行訓(xùn)練。其中,圖元檢測采用YOLOv4 模型,文字識別采用CRNN 模型。
3)圖像識別階段。首先完成圖元識別、文字識別,然后結(jié)合電力系統(tǒng)業(yè)務(wù)規(guī)則與直線周邊的文字,完成母線與常規(guī)線路的識別以及圖元連接關(guān)系的識別。
4)后處理階段。在完成基本的圖元、文字、接線關(guān)系識別的基礎(chǔ)上,還需要完成一系列下游任務(wù),包括廠站基本信息提取、圖元工作電壓識別、圖元-文字關(guān)聯(lián)匹配、文字簡寫補全等。需要注意的是,后處理階段可基于上述圖像識別結(jié)果自動完成。
電網(wǎng)廠站接線圖實現(xiàn)的功能較多,且各功能間聯(lián)系緊密,關(guān)系繁雜。本文主要介紹電網(wǎng)廠站接線識別中的3 個核心任務(wù):圖元識別任務(wù)、文字識別任務(wù)以及接線識別任務(wù)。
圖元識別任務(wù)包括典型圖元的檢測與識別,其中包含斷路器、隔離刀閘、接地刀閘、兩卷變、三卷變、電容器、電抗器、線路、發(fā)電機、文字共10 種圖元的種類、方向識別以及圖元的定位。圖元識別任務(wù)將完成圖元類型、圖元坐標、旋轉(zhuǎn)角度等的輸出。
文字識別的任務(wù)是根據(jù)圖元檢測任務(wù)輸出的文字圖元檢測結(jié)果,對文本區(qū)域進行文字內(nèi)容的識別。
連線識別任務(wù)包括母線識別、線路識別、拓撲關(guān)系檢測。其中,母線識別需要根據(jù)文字識別的結(jié)果判斷是母線還是常規(guī)線路;拓撲關(guān)系檢測需要結(jié)合圖元的坐標和識別出的線路給出圖元之間的拓撲連接關(guān)系。
需要說明的是,由于母線的尺度與形態(tài)和其余圖元相差較遠,本文根據(jù)水平或垂直線檢測、粗度檢測等相關(guān)底層視覺特征完成母線圖元提取,將母線識別歸于連線檢測任務(wù)中。此外,文字識別可分解為文字圖元檢測(即文字區(qū)域的坐標)與文本內(nèi)容識別,由于文字圖元檢測與圖元檢測的實現(xiàn)原理基本相同,本文將文字檢測納入圖元檢測中。
圖元識別由圖元定位與分類兩部分組成,其得到的文字區(qū)域與各設(shè)備圖元的種類、位置、旋轉(zhuǎn)角度分別作為文字識別與連線識別的預(yù)備條件。
經(jīng)過測試和對比,本文采用基于重疊滑窗機制與YOLOv4 目標檢測算法實現(xiàn)圖元識別。關(guān)于圖元旋轉(zhuǎn)方向的識別,對識別得到的各種圖元分別構(gòu)建旋轉(zhuǎn)方向分類器,便可實現(xiàn)圖元的細分類。
2.1.1 基于YOLOv4 的目標檢測算法
本文綜合考慮電網(wǎng)廠站接線圖信息自動化提取的精度與速度,圖元識別部分采用單階段的YOLOv4 算 法[20],以CSPDarkNet53[21]作 為 特 征 提取網(wǎng)絡(luò),獲得多幅尺度不同的特征圖,后接SPP 模塊,利用多尺寸的池化核綜合擴大感受野,使用改進的PAN 模塊通過上采樣與下采樣深度融合多尺度的特征圖以提高不同尺度目標的檢測效果,訓(xùn)練和推理過程的時間與空間復(fù)雜度均較低,有利于實際部署應(yīng)用。
2.1.2 基于重疊滑窗機制與YOLOv4 的圖元識別方法
由于電網(wǎng)廠站接線圖信息密度遠大于日常圖片,其分辨率通常較高,且斷路器、隔離刀閘、電容器等多種圖元的寬高與接線圖的寬高比例均小于0.1,屬于“大圖像小目標”檢測問題。若采用傳統(tǒng)的目標檢測算法,則需要將圖像縮小至算法要求的大小,再經(jīng)過目標檢測模型中的多層卷積、池化后,圖元信息丟失問題嚴重,且密集的小目標在特征圖中更容易聚集成一點,導(dǎo)致漏檢、錯檢率較高。
為了解決這一問題,受衛(wèi)星圖中檢測船只這一類“大圖像小目標”檢測算法的啟發(fā),采用YOLT(you only look twice)算法[22]。YOLT 算法中的重疊滑窗機制具體做法是:設(shè)定重疊率為r,滑動窗口大小為wwindow×wwindow,如圖2 中紅色方框所示,從左至右、從上至下進行滑動切割,圖中灰色陰影為切割的2 幅相鄰子圖的重疊部分,重疊部分一邊長為wwindow,另一邊長為r×wwindow。使用重疊滑窗機制后無須對子圖進行縮小,相當于增大了小目標圖元在YOLOv4 模型輸入中的尺寸與密集圖元的間距,減少預(yù)處理及模型推理過程中的信息損失,能有效提高圖元識別效果。合理設(shè)置重疊率可減少切割對圖元完整性的影響,使圖元至少在一幅子圖中保持完整,且一定程度上等效于對樣本進行上采樣,對于密集的小目標圖元來說更為突出,有利于模型的訓(xùn)練。
圖2 重疊滑窗機制示意圖Fig.2 Schematic diagram of overlapping sliding window mechanism
然而,實驗發(fā)現(xiàn),對不同尺寸的接線圖直接使用重疊滑窗機制獲得的切割子圖數(shù)過多,將導(dǎo)致模型計算量較大、推理時間較長。因此,本文針對接線圖識別任務(wù)分辨率高與信息密度大的特點,在重疊滑窗機制前先按接線圖尺寸進行分級預(yù)處理,具體做法為:當輸入接線圖的高或?qū)挻笥?0 000 像素時,先使用5×5 的卷積核進行膨脹處理;當輸入接線圖的高或?qū)挻笥? 000 像素且小于10 000 像素時,則先使用3×3 的卷積核進行膨脹處理,再將輸入接線圖的最長邊縮小至3 000 像素,另一邊按原接線圖高寬比例縮小。參考附錄A 圖A1 可知,左圖為無膨脹處理、直接整圖壓縮后的局部圖,右圖為先膨脹處理再整圖壓縮后的局部圖。對比可見,膨脹處理有效減少了圖像在縮放過程中的信息損失。
基于上述圖元識別方法可以提取到接線圖中所有的文字圖片,因此,電網(wǎng)廠站接線圖中的文字識別可視為對獲取的文字圖片進行多分類。本文通過設(shè)計合適的預(yù)處理環(huán)節(jié),基于CRNN 框架和遷移學(xué)習的思想,實現(xiàn)了對文字圖片的內(nèi)容識別。
區(qū)別于傳統(tǒng)的CRNN,本文采用分層解凍的方法對CRNN 進行訓(xùn)練(分層解凍式訓(xùn)練步驟見3.2.1節(jié))。為提高訓(xùn)練效果,本文對文字圖片進行了預(yù)處理操作。除此之外,本文采用遷移學(xué)習的思想,將通用文字特征和電網(wǎng)領(lǐng)域文字特征融入模型,有效提升了電網(wǎng)廠站接線圖中文本識別的準確率。
2.2.1 CRNN 框架
本文文字識別部分所采用的CRNN 框架[15]主要包括三部分:卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積層實現(xiàn)對輸入圖像的特征提取,得到特征圖;雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)層實現(xiàn)對特征向量的預(yù)測,得到各特征向量的概率分布;時序聯(lián)結(jié)分類損失函數(shù)(CTC Loss)轉(zhuǎn)錄層則根據(jù)各特征向量的概率分布,得到相應(yīng)的標簽序列,并結(jié)合序列合并機制,輸出最終的預(yù)測文本。
2.2.2 預(yù)處理
在進行文字識別模型的訓(xùn)練之前,需要對接線圖標注所得的文字圖片進行預(yù)處理,包括填充、自適應(yīng)二值化以及分類膨脹3 個環(huán)節(jié)。
1)填充
填充環(huán)節(jié)的具體操作為:在圖片周圍添加n維背景像素(n一般取1~5 的整數(shù)),通過背景像素的填充,可以使得距離邊框很近的邊緣文字與邊框分離,提高邊緣文字的識別準確率。
2)自適應(yīng)二值化
自適應(yīng)二值化的具體操作為:首先,對文字圖片進行灰度化;然后,采用大津算法(OTSU)求取圖片二值化的分割閾值[23];最后,進行二值化處理。
自適應(yīng)二值化環(huán)節(jié)可以根據(jù)圖片的實際情況凸顯文字特征,同時具有降噪的效果,排除了一定的干擾信息,有助于文字識別模型的學(xué)習。
3)分類膨脹
分類膨脹的具體操作為:根據(jù)圖片大小,選取圖片分類閾值h1=50、h2=100,將圖片按照式(1)分為3 類:
式中:q為圖片分類的類別號;h為圖片高度。根據(jù)圖片所屬類別號q,使用3×3 的卷積核對圖片進行q?1 次 膨 脹 處 理。
由于文字圖片最終需要壓縮為統(tǒng)一高度h=32,故分類膨脹環(huán)節(jié)可以避免較大圖片在壓縮過程中信息的丟失,提升模型的學(xué)習效果。
2.2.3 遷移學(xué)習
在進行文字識別模型的訓(xùn)練時,由于電網(wǎng)接線圖文字圖片數(shù)據(jù)量有限,使用電網(wǎng)接線圖文字圖片訓(xùn)練出的模型識別準確率不高,特征提取不夠充分。目前,大型的中文識別數(shù)據(jù)集包含數(shù)據(jù)量充足的通用文字圖片。為了解決數(shù)據(jù)匱乏的情況,本文將通用文字圖片視為源域、將電網(wǎng)廠站接線圖文字圖片視為目標域進行遷移學(xué)習,提升電網(wǎng)廠站接線圖文字的識別準確率。圖3 為遷移學(xué)習示意圖。
圖3 遷移學(xué)習在電網(wǎng)廠站接線圖文字識別中的應(yīng)用示意圖Fig.3 Schematic diagram of application of transfer learning to text recognition of wiring diagram for power plant and substation
遷移學(xué)習的基本步驟如下:
1)利用中文識別數(shù)據(jù)集Synthetic Chinese String Dataset 對模型進行預(yù)訓(xùn)練,該數(shù)據(jù)集數(shù)據(jù)量十分龐大且種類豐富,得到的通用文字識別模型學(xué)習了大量的通用文字特征,可以很好地進行通用文字識別。
2)保存通用文字識別模型的卷積層和循環(huán)層網(wǎng)絡(luò)權(quán)重,通過將權(quán)重載入電網(wǎng)廠站接線圖文字識別模型,實現(xiàn)遷移過程。遷移步驟可以破除電網(wǎng)接線圖文字特定場景的知識局限,同時也使模型的初始性能更高、提升速率更快、收斂效果更好。
3)在遷移后的模型基礎(chǔ)上,利用電網(wǎng)接線圖文字圖片對模型進一步進行分層解凍式訓(xùn)練:先凍結(jié)CRNN,再從后向前依次解凍網(wǎng)絡(luò)各層,分別進行數(shù)個輪次的訓(xùn)練,最終選取對測試集識別準確率最高的模型。電網(wǎng)接線圖文字圖片對模型的進一步訓(xùn)練使得模型充分學(xué)習電網(wǎng)接線圖文字的實際特征,將通用文字特征同電網(wǎng)領(lǐng)域文字特征相結(jié)合,實現(xiàn)對電網(wǎng)接線圖應(yīng)用場景下文字的高準確率識別。
接線識別部分是建立在圖元識別和文字識別已完成的基礎(chǔ)上,實現(xiàn)母線識別、連接線檢測、拓撲關(guān)系檢測3 個功能。本文在處理接線識別中,分預(yù)處理、拓撲檢測、后處理3 個步驟進行,關(guān)鍵是模仿電網(wǎng)接線圖專家的經(jīng)驗知識進行判斷,構(gòu)建“知識庫”,經(jīng)過“推理”完成對接線關(guān)系的識別。
2.3.1 預(yù)處理
在進行接線拓撲關(guān)系識別前,為了減少干擾,提升識別準確率,需要進行以下預(yù)處理操作。
1)圖像灰度轉(zhuǎn)換處理:電網(wǎng)廠站接線圖為紅黃藍(RGB)三通道圖像,對圖像進行灰度轉(zhuǎn)換處理,能夠簡化圖像矩陣,減少圖像處理運算量,加快運算速度。
2)去除干擾項:采用直線檢測時,圖元、文字以及接線圖外圍的直線部分都會被檢測出來,為了避免干擾,本文在直線檢測前先將此類干擾項涂白,也即置零給定坐標框內(nèi)的像素。
3)直線檢測、分類和交叉直線切割:為了便于后續(xù)開展“拓撲檢測”工作,需要對檢測出的直線進行分類,對交叉直線進行切割,具體步驟如下。
步驟1:直線檢測。使用直線檢測算法(LSD)對處理后的廠站接線圖進行直線檢測[24],并把檢測出的直線存儲至直線列表中(存儲直線兩端點坐標)。
步驟2:直線分類。為了便于后續(xù)的拓撲關(guān)系檢測,根據(jù)直線兩端的坐標關(guān)系將識別出的直線分為垂直直線和水平直線。
步驟3:交叉直線切割。由于交叉直線使得電網(wǎng)廠站接線圖存在復(fù)雜的多圖元拓撲關(guān)系,因此,本文將交叉的直線切割為獨立的直線段,再根據(jù)領(lǐng)域知識進行接線關(guān)系識別。
2.3.2 拓撲關(guān)系檢測
經(jīng)過預(yù)處理階段的直線操作后,需要對直線連接的圖元或直線的拓撲關(guān)系進行挖掘。
由于一條連接線其中的一個端點只能與一個圖元匹配,或者與一條/多條連接線匹配,因此對所有直線段進行圖元或其他直線段端點的匹配,融入“知識庫”的規(guī)則為:遍歷所有直線段,先嘗試將直線段其中的一個端點與圖元匹配,匹配的規(guī)則為若直線段的端點與圖元的距離小于設(shè)定值,則匹配成功;若匹配失敗,嘗試與其他直線段的端點進行匹配,匹配規(guī)則為若一條直線段的某個端點與另一條直線段的某個端點的距離小于設(shè)定值,則匹配成功;若一條直線段的2 個端點都能與圖元或者其他直線段的端點進行匹配,則將這條直線段添加進連接線列表中。
需要說明的是,經(jīng)過推理引擎即可檢測得到拓撲關(guān)系,此時的拓撲關(guān)系仍以“直線-圖元”和“直線-直線”的形式存儲,尚未轉(zhuǎn)化為“圖元-圖元”的形式。
2.3.3 后處理
為了進一步提高接線識別的準確率,排除非典型圖元的干擾(如接地變/站線變的連接線),完成上述步驟后需要結(jié)合電網(wǎng)廠站接線圖領(lǐng)域知識/規(guī)則進行后處理,融入“知識庫”的規(guī)則如下:
1)對跨越母線直線進行重新拓撲連接
由于在預(yù)處理階段中已對所有交叉直線進行了切割處理,但跨越母線的直線在電氣連接關(guān)系上是相連的,因此,跨接線的識別和重連需要結(jié)合電力領(lǐng)域知識進行區(qū)分。
根據(jù)國家電網(wǎng)公司賽題中提供的接線關(guān)系規(guī)則,連接線與母線之間的關(guān)系可分為以下3 種(也可根據(jù)具體電網(wǎng)廠站接線導(dǎo)則歸納)。如圖4 所示,當連接線與母線成“T”字交叉關(guān)系時,連接線與母線為聯(lián)通關(guān)系;當連接線與母線成“十”字交叉關(guān)系且連接線的2 個端點均連接了圖元時,連接線與母線為聯(lián)通關(guān)系;當連接線與母線成“十”字交叉關(guān)系且連接線的2 個端點中有一個連接了圖元時,連接線與母線不為聯(lián)通關(guān)系,該連接線為跨越母線直線。
圖4 嵌入電氣領(lǐng)域知識的接線關(guān)系識別示意圖Fig.4 Schematic diagram of wiring relationshiprecognition embedded with electrical domain knowledge
2)排除非典型圖元對接線識別的干擾
非典型圖元及其接線往往對接線識別造成干擾,因此需要根據(jù)文本信息和連接線信息,找到非典型圖元及連接到非典型圖元的接線并刪去。
第1 種為與典型圖元具有較高特征相似程度,容易在圖元識別階段被誤識別的圖元(如接地變/站線變的圖元),這種圖元的連接線數(shù)量往往和它近似的典型圖元不同,因此可以根據(jù)圖元識別模型和文字識別模型分別得到該圖元的連接線數(shù)量以及文字信息,結(jié)合接線規(guī)則(專家知識)進行判斷,自動刪除該圖元以及與它相連的連接線;第2 種為無法在圖元識別階段識別出的非典型圖元(如避雷器的圖元),這類圖元由于未被涂白,其像素信息仍保留在圖中,運用直線檢測可能會得到分離的直線,產(chǎn)生冗余的連接線樹,從而影響拓撲關(guān)系的結(jié)果,因此需要進行連接線剪枝處理,刪去這部分冗余的直線。
3)去除孤島拓撲
由于圖元識別得到的框存在一部分偏小的情況,導(dǎo)致圖元并未被完整涂白,在后續(xù)直線檢測中可能會檢測出干擾直線。這類干擾直線本身是圖元的一部分,在拓撲關(guān)系檢測中往往會被檢測出只與它本身所屬圖元相連,出現(xiàn)孤島拓撲的情況。為了解決這種情況,采取遍歷所有拓撲關(guān)系的方法,最后刪除只有一個圖元的拓撲關(guān)系。
為了便于讀者理解,在附錄B 中結(jié)合具體實例給出了電網(wǎng)廠站接線圖“接線識別”的完整流程。
為了驗證所提電廠接線識別方法的有效性,本文分圖元識別、文字識別、連線識別三部分分別設(shè)置消融實驗并進行分析。
本文采用的數(shù)據(jù)集來源于國家電網(wǎng)的真實運行場景,共有101 張大小、規(guī)范不一的電網(wǎng)廠站接線圖,格式為JPG 或PNG。接線圖大小分布較廣,能有效驗證本文設(shè)計的多種算法對于接線圖大小的魯棒性。使用Labelimg 軟件對數(shù)據(jù)集進行標注,共標注約18 700 個標注框,包含的種類有斷路器、隔離刀閘、接地刀閘、兩卷變、三卷變、電容器、電抗器、母線、線路、發(fā)電機、文字等。對比接線圖大小與圖元標注框大小可知,大部分圖元標注框的寬高與接線圖的寬高比例均小于0.1,且接線圖大小為模型輸入大小的3~34 倍,符合“大圖像小圖元檢測”的任務(wù)設(shè)定。
3.1.1 實驗設(shè)計
為驗證提出的分級預(yù)處理以及結(jié)合YOLT 重疊滑窗機制的效果,實驗數(shù)據(jù)集涉及的10 種關(guān)鍵圖元對應(yīng)的大小統(tǒng)計表如附錄C 表C1 所示,訓(xùn)練集和測試集劃分如附錄C 表C2 所示。本文設(shè)置4 個對比組,在各對比組中,從訓(xùn)練集中隨機抽取10%樣本作為驗證集,先凍結(jié) YOLOv4 模型的CSPDarknet53 網(wǎng)絡(luò)部分,單獨訓(xùn)練模型的SPP、PAN 等其余模塊50 輪,再解凍特征提取部分,對整個模型訓(xùn)練50 輪,最終選取驗證集中損失值最小的模型。其中,對比組3、4 的滑窗重疊率均設(shè)為0.4。
3.1.2 評價指標
本文使用召回率、精確率、F1 值(F1-score)[18]、精確度均值(AP)評價圖元識別模型性能[25]。需要注意的是,AP 為各檢測圖元精確率-召回率曲線下面積,平均精確度均值(mAP)即為各檢測圖元AP的均值[15]。本文計算的召回率、精確率、F1 值、mAP 的各閾值均為0.5。
3.1.3 實驗結(jié)果與分析
各對比組中,模型在測試集上的mAP 如表1所示。
表1 不同對比組的mAPTable 1 mAP of different comparison groups
對比4 組性能,使用YOLT 重疊滑窗機制后性能提升明顯,可有效解決“大圖像小圖元檢測”問題。而分級預(yù)處理在不使用YOLT 重疊滑窗機制時幾乎沒有作用,無法緩解過多的信息損失;在使用YOLT 重疊滑窗機制時有較小的提升作用,原因是僅有極少的接線圖尺寸過大且線條較細,大部分接線圖在經(jīng)過縮小后剩余的信息量分辨率仍較高,故分級預(yù)處理在測試中作用不明顯。
為討論滑窗切割重疊率的選擇對模型性能的影響,對比組4 的重疊率依次取為0、0.1、0.2、0.3、0.4、0.5、0.6,對應(yīng)測試集上的性能如表2 所示。
表2 不同的滑窗切割重疊率性能對比Table 2 Performance comparison of different sliding window cutting overlap rates
重疊率由0 上升至0.5 的過程中,測試集上mAP 逐漸升高,說明切割過程中適當?shù)闹丿B可減少切割對圖元完整性的影響且訓(xùn)練樣本量的適當增加利于訓(xùn)練。重疊率大于0.3 后,增加重疊率帶來的性能增益較小,且因子圖數(shù)的增加導(dǎo)致單張接線圖的預(yù)測時間過長。
考慮到長條形文字的識別效果,重疊率設(shè)為0.4較為合適,此時對應(yīng)各種圖元的AP、F1 值、召回率、精確率如表3 所示。
表3 對比組4 各類圖元識別性能Table 3 Performance of various element recognition for comparison group 4
由于文字、接地刀閘、斷路器圖元的樣本較多且較易檢測,故綜合識別性能最為突出。其余圖元因樣本量較少或相對尺寸較小,識別性能有所下降。從整體上看,多種接線圖中的各種圖元識別性能較好,樣本量較少、相對尺寸較小的電容器與電抗器的AP 不低于0.83,且精確率均高于0.95,說明本文提出的接線圖圖元識別方法可有效應(yīng)對輸入的多種尺度的接線圖,解決了該領(lǐng)域下的“大圖像小圖元檢測”問題,在實際應(yīng)用中魯棒性強。
3.2.1 實驗設(shè)計
將標注得到的10 947 張文字圖片按照9∶1 的數(shù)量比構(gòu)建為訓(xùn)練集和測試集,訓(xùn)練集和測試集中的文字圖片大小分布如附錄C 表C3 所示。
為驗證提出的遷移學(xué)習的效果,設(shè)置了如下3 個對比組:
1)遷移了Synthetic Chinese String Dataset 預(yù)訓(xùn)練出的模型,不采用電氣廠站的文字圖片訓(xùn)練集訓(xùn)練;
2)不遷移預(yù)訓(xùn)練模型,直接采用電氣廠站的文字圖片訓(xùn)練集訓(xùn)練;
3)遷移了預(yù)訓(xùn)練模型,并在此基礎(chǔ)上進一步采用電氣廠站的文字圖片訓(xùn)練集訓(xùn)練。
在進行文字圖片訓(xùn)練集訓(xùn)練時,采用分層解凍式訓(xùn)練:先凍結(jié)CRNN,再從后向前依次解凍網(wǎng)絡(luò)各層,分別進行50 個輪次的訓(xùn)練,最終選取對測試集識別準確率最高的模型。
3.2.2 評價指標
文字識別實驗采用識別準確率(正確識別的文字圖片數(shù)量占識別文字圖片的總數(shù))作為評價指標。
3.2.3 實驗結(jié)果與分析
各對比組中,模型在測試集上的識別準確率如表4 所示。
表4 不同對比組的識別準確率Table 4 Recognition accuracy of different comparison groups
對比3 組性能可以發(fā)現(xiàn),對比組1 的模型對測試集的識別準確率不到70%,說明只遷移預(yù)訓(xùn)練的模型僅僅學(xué)習了通用文字特征,缺乏對電網(wǎng)領(lǐng)域文字實際特征的學(xué)習;對比組2 的模型充分學(xué)習了電網(wǎng)領(lǐng)域的文字特征,對測試集的識別準確率高于對比組1,但仍存在一定的提升空間;對比組3 則融合了對比組1、2 所學(xué)習的文字特征,將通用文字特征和電網(wǎng)領(lǐng)域文字特征融入模型,大大提升了模型的識別準確率。
3.3.1 實驗設(shè)計
為了驗證預(yù)處理和后處理對含干擾圖元的廠站接線圖拓撲關(guān)系檢測的有效性和準確性,本文對算例所使用的數(shù)據(jù)集分別采取4 個對比組,如表5 所示。由于本文所使用的LSD 需要以灰度圖為輸入,且預(yù)處理階段對圖像的灰度化處理更多的是為了簡化圖像矩陣、提高運算速度,對拓撲關(guān)系檢測的精確性與召回率影響不大,因此,對比組3 和4 均具有圖像灰度化處理操作。
表5 連接關(guān)系識別性能對比Table 5 Performance comparison of connection relationship recognition
3.3.2 實驗結(jié)果與分析
在接線關(guān)系的4 種處理方式下,連接關(guān)系識別對應(yīng)的精確率、召回率以及F1 值如表5 所示。
將對比組1 和3、2 和4 進行對比,可以發(fā)現(xiàn),采取預(yù)處理操作后結(jié)果的精確率與召回率都得到了大幅度的提高。深入分析可知,這是由于未采取預(yù)處理過程中的交叉直線切割操作,拓撲關(guān)系檢測只能檢測出簡單的“一對一”圖元拓撲關(guān)系,無法檢測出多個圖元相連接的復(fù)雜拓撲關(guān)系,從而導(dǎo)致檢測結(jié)果的精確率和召回率下降。上述結(jié)果表明預(yù)處理操作對廠站接線圖拓撲關(guān)系檢測有效性與準確性具有巨大的作用。
將對比組1 和2、3 和4 進行對比,可以發(fā)現(xiàn),采取后處理操作后結(jié)果的精確率得到了較大幅度的提高,而對結(jié)果的召回率影響不大。經(jīng)過分析,主要原因如下:
1)去除孤島拓撲的操作。由于圖元檢測存在有些檢測出的圖元框偏小,導(dǎo)致圖元并未被完整去除,在后續(xù)直線檢測中可能會檢測出干擾直線,這類干擾直線本身是圖元的一部分,在后續(xù)拓撲關(guān)系檢測中往往會被檢測出只與它本身所屬圖元相連,使得出現(xiàn)孤島拓撲的情況,而孤島拓撲不會對正確的拓撲關(guān)系造成影響,只會導(dǎo)致檢測出多余的拓撲關(guān)系,因此,采取去除孤島拓撲的操作將會提高接線識別結(jié)果的精確率,而對結(jié)果的召回率影響不大。
2)采取跨越母線直線重連操作。由于廠站接線圖存在一部分干擾圖元,容易導(dǎo)致拓撲關(guān)系檢測得到的初步結(jié)果出現(xiàn)錯誤的連接線樹的情況,這類情況的特征是連接線樹的末端并未連接圖元。采取跨越母線直線重連操作后,把跨越母線且直線一端不是圖元、在交叉直線切割過程中被錯誤切割并識別為兩段的直線重新連接,因此增加了正確檢測的拓撲數(shù)目,能夠提高結(jié)果的精確率與召回率。
本文提出了一套電網(wǎng)廠站接線圖人工智能識別方法,并通過真實數(shù)據(jù)驗證了方法的有效性,主要結(jié)論如下:
1)在圖元識別方面基于結(jié)合分級預(yù)處理的重疊滑窗機制和YOLOv4 算法,有效地解決了電網(wǎng)廠站接線圖中“大圖像小圖元檢測”問題,實驗表明本文方法的魯棒性較強。
2)在文字識別方面采用遷移學(xué)習,提取電網(wǎng)接線圖文字特征,使文字識別準確率大大提升。
3)在接線關(guān)系方面綜合用預(yù)處理-后處理相結(jié)合的方法,深度融合電網(wǎng)接線圖領(lǐng)域知識,彌補了圖元識別、文字識別中存在的缺陷,進一步提升電網(wǎng)廠站接線圖的識別效率。
為進一步提升接線圖識別準確率,針對圖元和文本錯檢問題,后續(xù)可以采取數(shù)據(jù)增強的方式,增加訓(xùn)練樣本豐富度,在接線識別方面歸納更多專家知識,提高識別模型的魯棒性。
本文在開展實驗過程中得到“國家電網(wǎng)調(diào)控人工智能創(chuàng)新大賽”提供的數(shù)據(jù)支持,特此感謝!
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。