趙 娜,劉文彪,王連濤,王夢如,任振興
(1.中國電力科學(xué)研究院有限公司,北京 100192; 2.南京國電南自電網(wǎng)自動化有限公司,江蘇 南京 211100;3.河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇 常州 213022)
變電站是電力系統(tǒng)的樞紐設(shè)施,主要可實(shí)現(xiàn)變換電壓、調(diào)節(jié)潮流、分配電力等功能,為居民生產(chǎn)生活提供充足電源,保障居民用電安全。當(dāng)前我國有很多針對變電站設(shè)計(jì)的監(jiān)控系統(tǒng)產(chǎn)品,在傳輸信息、監(jiān)控異常信息等方面發(fā)揮巨大作用。而監(jiān)控畫面在交付使用時可能存在顯示錯誤的問題,比如:1)監(jiān)控畫面中圖元較多,監(jiān)控廠商將畫面圖元與系統(tǒng)內(nèi)置實(shí)時庫信號采集、控制點(diǎn)錯誤關(guān)聯(lián);2)畫面圖元與系統(tǒng)信號采集、控制點(diǎn)正確關(guān)聯(lián)時,圖元組態(tài)邏輯設(shè)置錯誤。為了確保監(jiān)控畫面組態(tài)正確,需要對其進(jìn)行測試驗(yàn)證,測試方法為:通過測試指令發(fā)送狀態(tài)信息,然后人工觀察監(jiān)控畫面顯示是否符合預(yù)期。如圖1所示,由于畫面信息繁雜多變,采用人工觀察畫面的方式費(fèi)時費(fèi)力且無法保證測試的準(zhǔn)確率,因此實(shí)現(xiàn)變電站監(jiān)控畫面信息的自動識別具有重要意義。
圖1 變電站監(jiān)控畫面示例
目前還沒有關(guān)于變電站監(jiān)控畫面信息自動識別的完善研究,通過大量的調(diào)研分析,提煉出該任務(wù)要實(shí)現(xiàn)的核心功能包括:監(jiān)控畫面中的興趣圖元定位、電氣圖元狀態(tài)的識別、告警信息的定位與識別。與之相關(guān)的計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)的技術(shù)包括圖元的模板匹配、圖元特征提取與分類、字符分割與識別。
模板匹配通常利用事先制作的模板圖像采用遍歷像素的方式在待檢測圖像中尋找與模板圖像相似度足夠高的區(qū)域[1-2],近年來的研究主要集中在新的相似度度量方法以提高匹配的魯棒性[3-6]。鄒進(jìn)貴等人[7]將SAD(Sum of Absolute Differences)算法進(jìn)行改進(jìn)設(shè)計(jì)了一種可以自適應(yīng)權(quán)重的SAD-Census算法,提高了匹配準(zhǔn)確率。此外,Yang等人[8]提出了一種SPNCC (Superpixels-Based Fast Normalized Cross Correlation)算法,通過超像素對模板圖像進(jìn)行壓縮,并設(shè)計(jì)了一種自適應(yīng)的搜索策略,在惡劣的外部環(huán)境下也能實(shí)現(xiàn)快速模板匹配。
目前對電氣圖元的識別主要是判斷電氣圖元的類別[9-11]。肖豆等人[12]提出了一種可直接在電路圖中識別電氣圖元類別的方法,利用形態(tài)學(xué)操作將電路圖像中的文本及水平線和垂直線剔除得到電氣圖元圖像,基于PHOG(Pyramid Histogram of Oriented Gradients)特征及SVM (Support Vector Machines)分類器判斷提取到的圖元類別,PHOG特征在HOG特征的基礎(chǔ)上同時具備尺度不變性。王玉豪等人[13]針對手繪電氣草圖時電氣圖元形狀的隨意性和模糊性問題提出了一種更準(zhǔn)確、簡單的分類方法,該方法使用圖元筆畫的時間序列,改進(jìn)DAGSVM (Directed Acyclic Graph Support Vector Machine)分類器同時在分類過程中引入決策樹判斷圖元類別,降低了分類器訓(xùn)練和判斷的時間。
當(dāng)前深度學(xué)習(xí)被廣泛應(yīng)用在文字識別領(lǐng)域[14-15]。Yin等人[16]提出了一種lightweight CNN (Convolution Neural Network)特征提取方法,與CNN網(wǎng)絡(luò)相比其結(jié)構(gòu)更簡單但降低了準(zhǔn)確率。Shi等人[17]設(shè)計(jì)了CRNN (Convolutional Recurrent Neural Network)模型,通過卷積神經(jīng)網(wǎng)絡(luò)提取不定長文本特征,采用循環(huán)神經(jīng)網(wǎng)絡(luò)生成對應(yīng)的文本預(yù)測標(biāo)簽,該網(wǎng)絡(luò)模型具有較高的準(zhǔn)確度。Weinman等人[18]設(shè)計(jì)了一種CRNN和VGG (Visual Geometry Group)網(wǎng)絡(luò)融合的混合模型,該模型可識別地圖上的文字,但主要適用于英文識別。馮海[19]采用CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)對文字進(jìn)行檢測篩選并利用CRNN獲取識別結(jié)果實(shí)現(xiàn)了復(fù)雜場景下文字的正確檢測與識別。雖然基于CRNN及相關(guān)改進(jìn)模型的識別方法,可端到端識別不定長文本,但本文的告警信息識別面向電力公司運(yùn)行值班人員使用場景,在識別告警信息的同時需定位告警字符,而基于CRNN的識別方法難以滿足實(shí)際需求。
為了實(shí)現(xiàn)變電站監(jiān)控畫面的自動識別,本文提出一種基于最佳圖元的模板匹配方法解決畫面中不同尺寸電氣圖元的自動定位問題;設(shè)計(jì)FHOG特征用以提高監(jiān)控畫面和圖元狀態(tài)判定的效率;針對漢字左右體結(jié)構(gòu)分離和告警信息中的字符粘連等問題,提出分割識別協(xié)同的算法定位字符,并使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別;經(jīng)綜合分析設(shè)計(jì)一套在線測試系統(tǒng)。
監(jiān)控畫面信息識別中有3個關(guān)鍵問題:圖元定位、狀態(tài)識別和告警信息識別。首先分析這些問題的難點(diǎn),針對性地提出解決的算法。分別是基于最佳圖元的模板匹配、FHOG特征設(shè)計(jì)、基于分割識別協(xié)同的告警信息識別。
由于本文中識別的對象為監(jiān)控畫面截圖,不存在自然光線的噪聲干擾,且電氣圖元為剛性物體,不存在類內(nèi)的變形差異,因此采用模板匹配即可完成圖元位置的檢測。但是由于同一幅監(jiān)控畫面中同類電氣圖元尺寸完全相同,而不同類型畫面中的電氣圖元尺寸存在差異,采用單一尺寸的模板匹配將無法完成準(zhǔn)確的檢測,采用多尺度的模板匹配時又很難確定匹配的閾值,同樣很難精準(zhǔn)定位圖元。
因此本文提出一種基于最佳圖元的模板匹配方法。首先使用變尺度找到圖像中最佳的匹配位置,作為本幅畫面中的圖元尺寸;然后將此最佳圖元作為模板完成本幅畫面中所有圖元的搜索。最佳圖元的確定過程如圖2所示:將接地刀閘的模板進(jìn)行縮放,用每個尺度的模板在當(dāng)前監(jiān)控畫面進(jìn)行搜索,得到最高得分的匹配位置;然后將每個尺度的最高得分進(jìn)行比較,得分最大者為最佳圖元,即圖中第2行中間位置的定位。
圖2 最佳圖元定位
本文使用歸一化相關(guān)系數(shù)匹配方式計(jì)算圖像相似度,設(shè)模板圖像大小為M×N,計(jì)算方法如式(1)所示:
R(x,y)=
(1)
(2)
(3)
電氣圖元位置檢測基本步驟如下:
Step1多尺度縮放模板電氣圖元圖像,設(shè)置尺度縮放范圍為0.3到2.0,尺度縮放間隔為0.05。
Step2使用模板匹配得到每個尺度空間下匹配得分最佳的目標(biāo)區(qū)域。
Step3選取所有尺度空間下匹配得分最佳的區(qū)域作為當(dāng)前畫面中的最佳圖元位置。
Step4根據(jù)同一監(jiān)控畫面中圖元形狀尺寸完全相同的特點(diǎn),將最佳圖元作為當(dāng)前監(jiān)控畫面的電氣圖元模板再次利用模板匹配獲取整個監(jiān)控畫面中所有同類圖元的位置候選框。
Step5利用非極大值抑制(NMS)篩選電氣圖元位置候選框,獲取電氣圖元位置信息。
本文涉及畫面拓?fù)涞男螤顓^(qū)分以完成畫面種類和圖元狀態(tài)的識別,HOG特征是一種廣泛使用的形狀描述子。但是由于這些畫面中的圖案幾乎都可以認(rèn)為是二值圖像、灰度細(xì)節(jié)較少,并且形狀差異明顯,因此本文對HOG特征進(jìn)行了改進(jìn),在保留其二值形狀區(qū)分能力的同時,對灰度細(xì)節(jié)的刻畫進(jìn)行大大簡化,從而提高速度,這對實(shí)時的在線識別非常重要。
HOG通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖構(gòu)成特征,而FHOG通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域內(nèi)像素點(diǎn)灰度值超過閾值的個數(shù)構(gòu)成特征。
FHOG的計(jì)算步驟為:
Step1灰度化。
將原圖像轉(zhuǎn)化為灰度圖。
Step2gamma正則化。
對待檢測圖像進(jìn)行g(shù)amma正則化,可以提高圖像性能、減少噪聲的干擾。gamma正則化的公式為:
I(x,y)=I(x,y)gamma
(4)
其中I(x,y)為像素點(diǎn)(x,y)的像素值,gamma取值為0.5。
Step3統(tǒng)計(jì)局部信息。
將圖像分為若干個cell并將相鄰的cell組成一個block,block的滑動步長根據(jù)實(shí)際需求設(shè)置,如圖3所示。計(jì)算每個cell中灰度超過閾值的個數(shù),然后將block中所有cell超過灰度閾值的個數(shù)組成一組特征向量。由于監(jiān)控畫面圖像不存在角度上的形變,與直接記錄cell信息相比,將cell拼接為block可提高cell之間的聯(lián)系性。
圖3 圖像柵格劃分示例
Step4歸一化塊內(nèi)特征。
在提取了特征后需要進(jìn)行歸一化,減少對比度對當(dāng)前圖像的影響。以圖3為例,一個block組成的向量為H=(h1,h2,h3,h4),‖H‖k為H的第k范數(shù),采用1范數(shù)歸一化方法。
‖H‖1=|h|1+|h|2+|h|3+|h|4
(5)
(6)
Step5向量拼接。
將歸一化后的所有block特征進(jìn)行向量拼接,生成圖像的FHOG特征。以圖3為例,圖像共有40個cell,每4個cell組成一個block,設(shè)block的滑動步長為一個cell,則有(8-1)×(5-1)=28個block,共生成28×4=112維的FHOG特征。
如圖4所示,變電站監(jiān)控畫面中的告警信息存在著漢字符號混排、粘連等問題,使得正確分割字符比較困難。雖然有研究者提出了不需要分割步驟的端對端識別方法[17],但在變電站監(jiān)控畫面測試中需要定位字符的位置。本文基于深度學(xué)習(xí)設(shè)計(jì)一種分割識別協(xié)同的告警信息識別方法,首先對告警信息進(jìn)行初分割并送入網(wǎng)絡(luò)識別,通過識別結(jié)果指導(dǎo)字符分割,最終可正確識別告警信息并且定位告警字符。
圖4 告警信息窗口示例
1.3.1 分割識別協(xié)同算法
準(zhǔn)確分割字符是正確識別告警信息的關(guān)鍵,分割識別協(xié)同的告警信息識別方法具體流程如圖5所示。首先對告警圖像進(jìn)行水平投影,獲取單條告警信息圖像,然后對單條告警信息圖像進(jìn)行垂直投影,獲取初分割字符。由于告警信息字符之間存在粘連,此時許多字符存在誤分割問題。將字符送入不同識別模塊進(jìn)行識別,根據(jù)識別結(jié)果決定字符是否需要再次分割,最終實(shí)現(xiàn)告警信息的正確識別。
圖5 分割識別協(xié)同算法流程
1.3.1.1 初分割
在對圖像進(jìn)行灰度二值化后采用膨脹、腐蝕等形態(tài)學(xué)方法對圖片預(yù)處理,盡可能使字符輪廓清晰。之后在行方向投影得到單行告警信息,最后在垂直方向上對每條告警信息進(jìn)行投影,得到初分割字符圖像。
初分割過程中存在著諸多錯誤如圖6所示,將其總結(jié)為2種:1)過分;2)粘連。過分是指一個字符在分割過程中被劃分在不同圖像內(nèi);粘連是指不同字符在分割過程中被劃分在同一圖像中。2種錯誤不是獨(dú)立存在的,可能發(fā)生在一幅圖像內(nèi)。
圖6 初分割的各種錯誤示例
1.3.1.2 識別及重分割
根據(jù)圖像的寬高比區(qū)分初分割過程中遇到的不同情況,由實(shí)驗(yàn)總結(jié)可知漢字和字母、數(shù)字的寬高比不同:
1)漢字的寬高比范圍是(0.75,1];
2)數(shù)字、字母的寬高比范圍是[0.25,0.75];
3)過分漢字的寬高比和數(shù)字、字母相同;
4)粘連圖像的寬高比大于1。
不同類型字符寬度統(tǒng)計(jì)如表1所示。
表1 不同類型字符寬高統(tǒng)計(jì)
根據(jù)初分割后不同類型字符的寬高比設(shè)計(jì)了漢字字符圖像處理模塊、數(shù)字字母字符圖像處理模塊、粘連字符圖像處理模塊,其中漢字識別采用ResNet-18模型,數(shù)字字母識別采用LeNet-5模型,粘連字符需要根據(jù)實(shí)際情況確定識別模型。
1)漢字字符圖像處理模塊。
當(dāng)圖像寬高比為(0.75,1]時,將其送入該模塊。圖像主要存在2種情況:
①完整漢字字符。
②字母、數(shù)字或其他字符的粘連。
首先判斷是否為完整漢字字符,將圖像縮放為32×32大小后送入漢字識別網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)輸出的置信度做出判斷。如果置信度大于或等于閾值0.9,則認(rèn)為是完整的漢字字符,輸出結(jié)果;否則認(rèn)為是第2種情況,并將該圖像送入粘連字符圖像處理模塊。
2)數(shù)字字母字符圖像處理模塊。
當(dāng)圖像比例為[0.25,0.75]時,送入該模塊。圖像主要存在2種情況:
①數(shù)字、字母字符。
②因過分而產(chǎn)生的漢字偏旁或特殊字符。
為了使數(shù)字、字母識別網(wǎng)絡(luò)能更好地區(qū)分2種情況,在數(shù)字、字母的數(shù)據(jù)集中添加了部分常用的偏旁部首的數(shù)據(jù)集,用于訓(xùn)練網(wǎng)絡(luò)對偏旁部首的識別能力。其中數(shù)字、字母的類別編號范圍是0~61,而偏旁部首的類別編號是62~99。
將初分割的圖像送入數(shù)字、字母識別網(wǎng)絡(luò)。如果結(jié)果大于或等于閾值0.9且識別結(jié)果為數(shù)字、字母類時,直接輸出;當(dāng)識別結(jié)果為偏旁類別時,會在初分割的原始位置前后擴(kuò)展進(jìn)行重分割,得到寬高比為1的新圖像,并送入漢字識別網(wǎng)絡(luò)識別。
如果初分割圖像在數(shù)字、字母網(wǎng)絡(luò)中的識別結(jié)果小于閾值0.9,則認(rèn)為該圖像為數(shù)字、字母和標(biāo)點(diǎn)的粘連,并在最左和最右端重分割,得到2個寬高比為0.5的新圖像,再次送入數(shù)字、字母字符圖像處理模塊。
對偏旁部首的重分割可能會占用前面已識別的圖像的一部分,如圖7所示。這種情況下,需要刪除前一次的輸出結(jié)果,并在上一張圖像中刪去占用部分,將重分割后的2張圖像重新送入相應(yīng)的模塊識別。
圖7 偏旁重分割問題
3)粘連字符圖像處理模塊。
粘連的情況比較復(fù)雜,漢字、數(shù)字、字母甚至是標(biāo)點(diǎn)都有可能因?yàn)檎尺B在初分割時劃分在一張圖像中。為了達(dá)到更好的分割效果,根據(jù)實(shí)驗(yàn)總結(jié)和印刷體字符的特點(diǎn),定義了不同類別字符在粘連圖像中的寬高比。創(chuàng)建不同寬高比的候選框,依次在圖像中滑動,并將候選框內(nèi)的子圖像送入相應(yīng)的識別網(wǎng)絡(luò)。如果識別成功,則在初分割圖像中將子圖像刪去,剩余部分重復(fù)該過程,直到初分割圖像中沒有可識別圖像為止。
圖8展示了粘連字符圖像處理模塊的處理過程,首先創(chuàng)建寬高比為1、0.65和0.5這3種候選框,在粘連圖像上滑動,每次可得到3個子圖像,將其送入漢字識別網(wǎng)絡(luò)和數(shù)字、字母識別網(wǎng)絡(luò),取置信度最大且置信度大于或等于預(yù)設(shè)閾值0.9的一個子圖像作為結(jié)果輸出,若3個結(jié)果均不滿足條件則向右滑動一個像素繼續(xù)執(zhí)行。
圖8 粘連字符的識別過程
實(shí)現(xiàn)監(jiān)控畫面中的電氣圖元狀態(tài)識別,首先需獲取電氣圖元的位置信息,若對待識別的每一幅監(jiān)控畫面圖像均進(jìn)行電氣圖元位置檢測,正確率難以保證100%且耗時較長。根據(jù)變電站監(jiān)控畫面類別有限且相同類別監(jiān)控畫面電氣圖元的位置不會改變的特點(diǎn),可預(yù)先標(biāo)注圖元位置信息協(xié)助圖元狀態(tài)識別。
變電站監(jiān)控畫面自動識別的總體方案如圖9所示,分為線上和線下2個部分。針對畫面中圖元較多、人工標(biāo)注較為耗時的問題,線下基于模板匹配技術(shù)完成電氣圖元位置檢測,輔助完成畫面標(biāo)注。線上首先基于FHOG實(shí)現(xiàn)監(jiān)控畫面類別判定,若當(dāng)前圖像為電氣圖元類型監(jiān)控畫面,調(diào)取線下獲取的位置信息定位當(dāng)前畫面中的電氣圖元,完成電氣圖元狀態(tài)識別;若當(dāng)前圖像為告警類型監(jiān)控畫面,基于分割識別協(xié)同的方法實(shí)現(xiàn)告警信息識別。
圖9 總體方案
本文實(shí)驗(yàn)采用的計(jì)算機(jī)配置為:AMD Ryzen 5 3600處理器、16 GB內(nèi)存,告警字符識別涉及深度學(xué)習(xí)時使用的GPU為GeForce GTX 1080 Ti,操作系統(tǒng)為Ubuntu 16.04。圖元檢測和狀態(tài)識別采用C++編程實(shí)現(xiàn),告警信息中的字符識別借助PyTorch實(shí)現(xiàn)。
為了定量評估最佳圖元模板匹配算法定位圖元的有效性,首先定義正確檢測的標(biāo)準(zhǔn)。普通物體檢測的標(biāo)準(zhǔn)為IOU大于0.5,鑒于電氣圖元位置的精細(xì)程度,采用了更加嚴(yán)格的標(biāo)準(zhǔn),當(dāng)IOU大于0.9時為正確檢測。采用精確率、召回率及F1-Score指標(biāo)評估算法性能,其中精確率(Precision)為正確檢測到的圖元占所有檢測到的圖元的比重,召回率(Recall)為正確檢測到的圖元占實(shí)際圖元的比重,F(xiàn)1-Score為:
(7)
隨機(jī)選取尺寸為1920×1080的監(jiān)控圖像100張,并縮放為320×200,檢測了刀閘、接地刀閘、開關(guān)、手車4種電氣圖元。統(tǒng)計(jì)所有類型畫面中電氣圖元的尺寸值,與圖元模板進(jìn)行比較,設(shè)定變尺寸模板的縮放范圍為0.3~2.0,縮放的步長為0.05。最佳圖元的位置檢測均100%正確,保證了后續(xù)檢測的順利進(jìn)行。
首先比較了歸一化相關(guān)系數(shù)、歸一化相關(guān)匹配、歸一化誤差匹配3種匹配方式的性能,其檢測準(zhǔn)確率和平均檢測時間分別如圖10和表2所示,可見使用歸一化相關(guān)系數(shù)匹配方式進(jìn)行圖元位置檢測的效果最好,但是耗時也略長。由于在整個監(jiān)控測試系統(tǒng)中,圖元檢測用于線下標(biāo)注,對于準(zhǔn)確率的要求高于實(shí)時性,因此采用歸一化相關(guān)系數(shù)匹配方式。
同時比較了最佳圖元的模板匹配與普通的多尺度匹配方式,兩者的平均耗時分別為0.46 s和0.35 s,最佳圖元匹配耗時略長,但是準(zhǔn)確率指標(biāo)F1-Score遠(yuǎn)遠(yuǎn)高于對手,分別為97.88%和86.54%。同樣基于對于實(shí)時性要求不高的線下操作,最佳圖元的模板匹配是更好的選擇,能夠大大減少人工的標(biāo)注操作。
本節(jié)驗(yàn)證FHOG特征的提取速度和分類準(zhǔn)確率,準(zhǔn)確率的驗(yàn)證分別針對畫面的種類識別和圖元的狀態(tài)識別。
1)特征提取速度。
在系統(tǒng)線上運(yùn)行中,算法的執(zhí)行時間影響著測試系統(tǒng)的流暢性,F(xiàn)HOG的提出目的也是加快速度。因此首先對比HOG與FHOG的特征提取速度。對隨機(jī)選取的100張監(jiān)控畫面圖像進(jìn)行特征提取,將圖像大小縮放為320×200,cell為10×10,block為20×20,滑動步長為10×10,特征提取平均耗時如表3所示。與HOG相比,F(xiàn)HOG的特征提取速度大大提高。
表3 特征提取時間 單位:ms
2)畫面分類準(zhǔn)確率。
當(dāng)前變電站監(jiān)控畫面共9種類型,從變電站監(jiān)控系統(tǒng)中截取1800張尺寸為1920×1080的監(jiān)控畫面圖像,其中每類畫面各200張。每類隨機(jī)選取140張組成1260張的訓(xùn)練集,剩余的540張圖像作為測試集。
通過實(shí)驗(yàn)驗(yàn)證,使用KNN判斷監(jiān)控畫面類別,K取值為5時,準(zhǔn)確率最高。從表4中可以得到,基于FHOG與KNN的監(jiān)控畫面類別判定方法準(zhǔn)確率為97.67%,相較于基于HOG與KNN的監(jiān)控畫面類別判定方法準(zhǔn)確率降低了0.5個百分點(diǎn),這是因?yàn)镕HOG是根據(jù)監(jiān)控畫面特點(diǎn)對HOG進(jìn)行簡化獲取的,但使用FHOG仍可以有效描述變電站監(jiān)控畫面的拓?fù)涮卣?,滿足實(shí)際需求。為保證測試系統(tǒng)運(yùn)行流暢,在準(zhǔn)確率相差不大的情況下,速度成為更重要的因素。
表4 分類平均準(zhǔn)確率比較
由于同一類型畫面的不同實(shí)例之間,只有微小的個別圖元狀態(tài)發(fā)生變化,整體拓?fù)浣Y(jié)構(gòu)近似,因此采用KNN分類器進(jìn)行識別。同時也試驗(yàn)了深度卷積神經(jīng)網(wǎng)絡(luò),采用ResNet-18[20],準(zhǔn)確率可達(dá)100%,但是由于測試系統(tǒng)未配備GPU,考慮識別的實(shí)時性要求,深度學(xué)習(xí)的方法并沒有在線使用。
3)圖元狀態(tài)分類準(zhǔn)確率。
針對刀閘、接地刀閘、壓板、開關(guān)、手車共5種類型電氣圖元構(gòu)建數(shù)據(jù)集,從變電站監(jiān)控畫面中截取包含所有狀態(tài)的電氣圖元圖像,以接地刀閘類型電氣圖元為例,其共有分、合、雙分、雙合、跳閃5種狀態(tài),分別如圖11所示。
圖11 接地刀閘的5種狀態(tài)
電氣圖元狀態(tài)圖像只能從監(jiān)控畫面中手動截取,使得獲取的數(shù)據(jù)集樣本圖像較少,因此需要對樣本進(jìn)行數(shù)據(jù)增廣并添加到數(shù)據(jù)集中擴(kuò)充樣本個數(shù)。采用的數(shù)據(jù)增廣方式包括圖像翻轉(zhuǎn)、圖像旋轉(zhuǎn)、圖像裁剪、光學(xué)畸變以及光學(xué)畸變加裁剪,其變換效果如圖12所示。通過數(shù)據(jù)增廣將每一類電氣圖元的狀態(tài)數(shù)據(jù)集均擴(kuò)增至1000張,其中隨機(jī)選取700張圖像作為訓(xùn)練集,剩余300張作為測試集。
圖12 數(shù)據(jù)增廣效果圖
對于圖元狀態(tài)識別,依然采用速度較快的FHOG特征,并對比了KNN、SVM和隨機(jī)森林3種傳統(tǒng)分類器,然后選擇準(zhǔn)確率最高的SVM分類器,對比了FHOG與HOG特征的差距。超參數(shù)全部用交叉驗(yàn)證設(shè)定,SVM選用高斯核函數(shù),C設(shè)置為1.0,δ設(shè)置為0.088;KNN的K取值為7;隨機(jī)森林的參數(shù)深度為15。
識別結(jié)果如表5所示,在傳統(tǒng)的分類器比較中,SVM準(zhǔn)確率最高。相同狀態(tài)的不同圖元實(shí)例,由于尺寸本身較小,定位上微小的差異將對整體特征造成較大影響,即相同狀態(tài)的圖元具有較大的類內(nèi)差異。因此KNN表現(xiàn)較差不再適用。取表現(xiàn)最好的SVM比較FHOG和HOG,采用FHOG特征的準(zhǔn)確率略低于HOG,但是由于其速度快,在線測試時依然是比較好的選擇。同時本文也測試了深度卷積神經(jīng)網(wǎng)絡(luò)的效果,采用ResNet-18[20]進(jìn)行分類,準(zhǔn)確率可達(dá)到100%,但是在不采用GPU的情況下運(yùn)行時間大大增加,不符合在線測試的需求(測試系統(tǒng)目前僅配備CPU)。
表5 不同識別方法比較
1)數(shù)據(jù)集構(gòu)建與模型測試。
告警字符識別范圍包含3875個不同字符,其中阿拉伯?dāng)?shù)字10個,英文字母52個,常用符號20個,我國GB2312-80標(biāo)準(zhǔn)規(guī)定的常用漢字3755個,漢字偏旁38個。由于監(jiān)控畫面中告警字符的字體會根據(jù)實(shí)際需求發(fā)生變化,選取10種常用字體構(gòu)建字符數(shù)據(jù)集。使用Python中的PIL庫生成字符圖像。采用腐蝕、膨脹、隨機(jī)噪聲、旋轉(zhuǎn)等方式擴(kuò)充字符數(shù)據(jù)集圖像。圖像增強(qiáng)后的部分字符圖像如圖13所示。最終每個字符生成300張圖像,即制作的字符數(shù)據(jù)集共有圖像1162500張,其中漢字圖像尺寸為32×32,數(shù)字等類型圖像尺寸為20×28。將數(shù)據(jù)集圖像的80%作為訓(xùn)練集,20%作為測試集。
圖13 圖像增強(qiáng)后的部分字符圖像
使用訓(xùn)練集分別訓(xùn)練LeNet-5[21]及ResNet-18[20]網(wǎng)絡(luò)模型,其中batch_size設(shè)置為128,學(xué)習(xí)率為0.001,設(shè)置epoch為45。最后在測試集上評估,LeNet-5模型識別數(shù)字、字母的準(zhǔn)確率可達(dá)到99.54%,ResNet-18模型識別漢字的準(zhǔn)確率可達(dá)到99.71%。
2)單個告警字符識別實(shí)驗(yàn)。
從告警畫面中隨機(jī)選取800張告警漢字圖像作為測試樣本并設(shè)置圖像尺寸為32×32。將ResNet-18[20]與LeNet-5[21]、AlexNet[22]以及谷歌公司開源的OCR引擎Tesseract[23]工具進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表6所示。使用ResNet-18識別單個告警漢字的效果最好,這是因?yàn)镽esNet-18中的殘差模塊可避免深度神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸的問題,達(dá)到更好的收斂效果。
表6 不同模型識別單個漢字準(zhǔn)確率
3)告警字符定位與識別實(shí)驗(yàn)。
截取50張變電站監(jiān)控告警畫面圖像,共獲取1317條告警信息。對比了3種方法的效果:傳統(tǒng)的投影分割、分割識別協(xié)同和CRNN[17]。其中CRNN是一種不能完成單字符的定位,此處僅對比其整行文字的識別準(zhǔn)確率。3種識別方法在1317條告警信息中的識別準(zhǔn)確率如表7所示,準(zhǔn)確率定義為:
(8)
其中m為所有待識別告警信息的條數(shù),n為正確識別的告警信息條數(shù),當(dāng)一條告警信息所有字符均識別正確時視為該條信息正確識別。
表7 識別結(jié)果對比
從表7中可以看出使用傳統(tǒng)投影分割識別方法識別告警信息效果最差,其主要原因?yàn)楦婢畔⒆址g存在粘連,投影法難以正確分割字符。使用CRNN和分割識別協(xié)同2種方法識別告警信息的準(zhǔn)確率較高,其中后者較前者的識別準(zhǔn)確率提高了1.59個百分點(diǎn),這是因?yàn)榉指钭R別協(xié)同的識別方法可準(zhǔn)確分割告警信息,獲取單個告警字符,同時訓(xùn)練了高準(zhǔn)確率的網(wǎng)絡(luò)模型用于告警字符識別。該實(shí)驗(yàn)驗(yàn)證了分割識別協(xié)同的告警信息識別方法是行之有效的。由于本文采用的告警信息識別方法在識別過程中可準(zhǔn)確分割告警字符,因此可正確定位畫面中的告警字符,滿足實(shí)際測試需求。
除了以上線下搜集數(shù)據(jù)集,對各個單元算法進(jìn)行定量的評估測試之外,也對整個系統(tǒng)進(jìn)行了測試。搭建變電站監(jiān)控畫面自動識別系統(tǒng)的總體架構(gòu)如圖14所示,系統(tǒng)采用C/S分布式結(jié)構(gòu),客戶端與服務(wù)端之間通過局域網(wǎng)方式連接,并采用Socket完成兩者之間的通信。在識別系統(tǒng)客戶端,使用圖像采集器采集變電站監(jiān)控畫面圖像,并利用TCP協(xié)議將待識別圖像傳輸?shù)椒?wù)端,用戶根據(jù)實(shí)際使用需求在客戶端控制服務(wù)端圖像識別程序的執(zhí)行。在服務(wù)器端,按照圖9所示的方案流程完成電氣圖元的狀態(tài)識別。
圖14 測試系統(tǒng)總體架構(gòu)圖
運(yùn)行測試系統(tǒng),通過指令變換監(jiān)控畫面種類和每個監(jiān)控畫面上圖元的狀態(tài),并且對比指令與圖像自動識別的結(jié)果統(tǒng)計(jì)識別準(zhǔn)確率。經(jīng)測試,圖元狀態(tài)的總體識別準(zhǔn)確率在0.9604。在沒能正確識別的圖元狀態(tài)中,有49.5%是圖元狀態(tài)識別錯誤,原因有鼠標(biāo)遮擋的影響等;有50.5%是由于其所在監(jiān)控畫面種類未能正確判斷導(dǎo)致后續(xù)識別無法正確完成。可見在如圖9所示的串行系統(tǒng)方案中,前序步驟的可靠度影響了整個系統(tǒng)的性能。但是這個準(zhǔn)確率依然能夠有效地替代人工完成監(jiān)控系統(tǒng)的測試,僅需要對極少量的識別與指令不一致的地方進(jìn)行人工判別,以澄清是監(jiān)控系統(tǒng)問題還是識別錯誤即可。
識別變電站監(jiān)控畫面信息是測試監(jiān)控畫面是否正常顯示的關(guān)鍵步驟,針對人眼觀察畫面信息存在局限性的問題,本文提出了一種利用計(jì)算機(jī)自動識別變電站監(jiān)控畫面信息的方法,可協(xié)助運(yùn)行維護(hù)人員有效驗(yàn)證測試監(jiān)控系統(tǒng)正確性,提高效率。
本文基于最佳圖元的模板匹配方法線下完成電氣圖元位置檢測。線上首先根據(jù)畫面特點(diǎn)改進(jìn)HOG算子,提出了一種基于FHOG算子的監(jiān)控畫面類別判定方法,該算子在有效描述監(jiān)控畫面拓?fù)涮卣鞯耐瑫r,計(jì)算時間比HOG縮短約37%。最后針對測試過程中的文字定位需求,和告警信息中的漢字符號混排、粘連等問題,本文設(shè)計(jì)了分割與識別相互協(xié)同的告警信息識別方法。與CRNN相比,該方法識別告警信息的準(zhǔn)確率更高并可定位單個告警字符。
本文提出的變電站監(jiān)控畫面自動識別算法已經(jīng)上線測試,圖元狀態(tài)識別總體準(zhǔn)確率達(dá)0.9604,可有效協(xié)助工作人員進(jìn)行監(jiān)控畫面測試。未來進(jìn)一步的研究可以嘗試監(jiān)控畫面圖元的在線定位,不再依賴線下的模板標(biāo)注。