謝民,邵慶祝,汪偉,俞斌,于洋,徐曉冰
(1. 國網(wǎng)安徽省電力有限公司,安徽 合肥 230022; 2. 合肥工業(yè)大學(xué) 電氣與自動化工程學(xué)院, 安徽 合肥 230009)
隨著特高壓同步電網(wǎng)的發(fā)展,電網(wǎng)互聯(lián)區(qū)域越來越廣,而大電網(wǎng)輸送功率巨大,為受端電網(wǎng)提供大量電能的同時,也影響整個系統(tǒng)的平穩(wěn)運行,因此在特高壓日常的運維過程中需要人工巡檢排查設(shè)備故障,以保證系統(tǒng)的安全穩(wěn)定性。然而人工巡檢模式的工作強度大,巡檢性能易受人員的經(jīng)驗和巡檢強度等主觀因素影響,例如因不同巡檢人員的經(jīng)驗和技術(shù)不一導(dǎo)致人為判斷錯誤。為了提升對特高壓換流站運維管理的效率,站內(nèi)廣泛部署了全景監(jiān)視系統(tǒng)。監(jiān)視設(shè)備在長期使用中不可避免會受到震動而抖動,以及鏡頭出現(xiàn)積灰等干擾,使得視頻圖像模糊,全景監(jiān)視數(shù)據(jù)采集不準確,因此迫切需要一種特高壓換流站保護系統(tǒng)全景監(jiān)視圖像超分辨率重建方法,使得重建后的高分辨率圖像滿足巡檢人員全景監(jiān)視的需求。
傳統(tǒng)的圖像增強重建方法通常利用提高圖像對比度以突出目標(biāo)景物,主要包括直方圖均衡[1]、對數(shù)變換[2-3]、銳化、小波變換[4]以及不同尺度的Retinex等方法[5-6]。上述方法計算資源低、可移植性強,但是作為通用算法的增強效果有限,處理后的圖像難以滿足特定場景下全景監(jiān)視的需求。圖像增強重建是計算機視覺中經(jīng)典的研究課題,圖像超分辨率重建(single image super resolution,SISR)是其中重要的組成部分。SISR利用一組低分辨率、低質(zhì)量圖像來產(chǎn)生單幅高分辨率、高質(zhì)量圖像,獲取更高空間分辨率的感興趣區(qū)域,實現(xiàn)目標(biāo)物的專注分析,使圖像實現(xiàn)從檢出水平向識別水平的轉(zhuǎn)化,或更進一步實現(xiàn)向圖像細粒度分類識別的轉(zhuǎn)化,以提高換流站全景監(jiān)視圖像的識別能力和識別精度。
目前SISR算法大致可分為基于插值[7-8]、基于重建[9-11]和基于深度學(xué)習(xí)[12-14]3種。插值算法計算量低且實時性高,但是缺乏外部信息的特征,使得圖像退化后丟失高頻特征,所生成的圖像存在明顯的模糊和振鈴效應(yīng);相比于插值算法,基于重建算法的效果更加明顯,但是隨著重建倍數(shù)的增大,圖像高頻特征出現(xiàn)平滑模糊的問題;深度學(xué)習(xí)方法近年來成為主流,利用觀測的低分辨率(low resolution,LR)圖像和原始高分辨率(high resolution,HR)圖像之間的映射關(guān)系以及大量訓(xùn)練樣本,學(xué)習(xí)更多高頻細節(jié)的HR圖像,然而重建的圖像依然存在細節(jié)特征失真和計算復(fù)雜度較高的缺陷。
針對基于深度學(xué)習(xí)的SISR算法存在的缺陷,本文提出一種基于多尺度卷積塊和殘差網(wǎng)絡(luò)的圖像超分辨率重建方法,通過增加具有較小內(nèi)核的深度卷積層來獲取圖像的魯棒細節(jié)特征,并在訓(xùn)練過程中加入殘差網(wǎng)絡(luò),加快網(wǎng)絡(luò)收斂速度,解決消失梯度的問題,改善圖像重建質(zhì)量。對標(biāo)準數(shù)據(jù)集和特高壓換流站全景監(jiān)視圖像數(shù)據(jù)集進行重建和目標(biāo)識別實驗研究,以驗證本文方法的有效性。
CNN因其強大的圖像特征學(xué)習(xí)能力而被廣泛應(yīng)用于視覺分析。近年來,基于CNN的SISR算法被提出,并取得了顯著的性能提升效果。文獻[15]提出一種超分辨率CNN(super-resolution CNN, SRCNN),將字典建模[16]替換為隱層參數(shù)的自動調(diào)整,學(xué)習(xí)低分辨率輸入至高分辨率輸出的非線性映射關(guān)系,提高重建精度,減少計算時間。然而SRCNN也存在一些不足,例如雙三次插值會導(dǎo)致圖像產(chǎn)生邊緣模糊和鋸齒狀邊緣,并且在模型參數(shù)量不變的情況下,超分倍數(shù)越大表明輸入的分辨率越大,模型的計算量越高。文獻[17]針對SRCNN訓(xùn)練慢的缺陷提出改進算法的快速SRCNN(fast SRCNN, FSRCNN),采用反卷積進行上采樣,同時使用1×1的卷積核進行降維,減少模型的計算量以加快訓(xùn)練的速度。
深層網(wǎng)絡(luò)中經(jīng)常出現(xiàn)退化現(xiàn)象,即隨著網(wǎng)絡(luò)層數(shù)的增多,訓(xùn)練集損失值逐漸下降,然后趨于飽和,若再增加網(wǎng)絡(luò)深度,訓(xùn)練集損失值反而會增大。為解決該問題,K. He等人提出一種殘差結(jié)構(gòu)來建立非常深的卷積網(wǎng)絡(luò),命名為ResNet[18]。ResNet的核心是在卷積層輸出與其之前的卷積層輸入之間添加一個跳躍連接以解決梯度消失的問題。殘差學(xué)習(xí)比原始特征直接學(xué)習(xí)更容易,如圖1所示,圖1中:A(x)為由幾個疊加的卷積層擬合的底層映射,第一個卷積層的輸入是x,x連接到最后一個卷積層的輸出,B(x)為該層網(wǎng)絡(luò)學(xué)習(xí)的映射。堆疊的層只需要學(xué)習(xí)映射B(x)=A(x)-x,如果B(x)為0,則殘差單元可擬合恒等映射,至少網(wǎng)絡(luò)性能不會下降,實際上殘差不會為0,這也會使得堆積層在輸入特征基礎(chǔ)上學(xué)習(xí)到新的特征,從而擁有更好的性能。
圖1 殘差結(jié)構(gòu) Fig.1 Residual structure
本文提出一種圖像超分辨率重建方法——深度多尺度殘差網(wǎng)絡(luò)(deep multi-scale residual network, DMRN),面對特高壓換流站采集的全景監(jiān)視圖像,使用單一的卷積層提取原始的底層特征,然后對多尺度卷積塊進行疊加以獲取細節(jié)信息,通過最后一層卷積層重建全景監(jiān)視HR圖像,網(wǎng)絡(luò)采用全局殘差和局部殘差相結(jié)合的方式進行訓(xùn)練。
DMRN網(wǎng)絡(luò)架構(gòu)如圖2所示,該網(wǎng)絡(luò)由卷積層、k個多尺度卷積塊(multi-scale convolution block, MC block)和跳躍連接組成。網(wǎng)絡(luò)引入了一種新的多尺度卷積塊來建立一個深層CNN。多尺度卷積塊的堆疊以獲得更大的深度,同時對卷積塊采用不同尺度小內(nèi)核的卷積操作進行改進,以提取圖像不同尺度上的細節(jié)特征進行融合,提高了網(wǎng)絡(luò)對輸入全景監(jiān)視圖像微觀紋理和宏觀幾何特征的重建能力,從而生成細節(jié)信息更逼真的HR圖像。網(wǎng)絡(luò)的訓(xùn)練過程中加入殘差結(jié)構(gòu),實現(xiàn)特征復(fù)用,減少網(wǎng)絡(luò)冗余,加快網(wǎng)絡(luò)收斂速度,解決消失梯度問題。
圖2 深度多尺度殘差網(wǎng)絡(luò)架構(gòu)Fig.2 Structure of deep multi-scale residual network
DMRN使用多尺度卷積塊架構(gòu)來執(zhí)行超分辨率任務(wù)。具有不同尺度的卷積層組成一個多尺度卷積塊,可以生成和組合不同層次的細節(jié)特征。
單個多尺度卷積塊的結(jié)構(gòu)圖如圖3所示,圖中:x為多尺度卷積塊的輸入,y為卷積塊的輸出。Relu為卷積核的激活函數(shù),不同尺度的卷積塊可以提取不同頻率的細節(jié),在每個多尺度卷積塊中,對輸入圖像分別使用3×3、3×2、2×3和2×2這4種尺度的卷積核,提取多層次細節(jié)特征后將4種尺度的特征圖通過交錯機制,在指定維度上進行兩兩拼接,再送入尺度為3×3的卷積層中進行特征映射,生成與輸入大小相同的新特征圖,送入下一層多尺度卷積塊。多尺度卷積塊更好地保留了圖像的邊緣信息,增加重建后的高分辨率圖像的細節(jié)信息。
圖3 多尺度卷積塊結(jié)構(gòu)Fig.3 Multi-scale convolution block structure
本文所提出的DMRN網(wǎng)絡(luò)架構(gòu),引入全局殘差學(xué)習(xí)和局部殘差學(xué)習(xí)機制進行網(wǎng)絡(luò)訓(xùn)練。由于LR圖像與HR圖像的相似性,DMRN通過輸入輸出之間的跳躍連接建立了一個從LR到HR的恒等映射,以進行全局殘差學(xué)習(xí)[19-20]。
使用局部殘差學(xué)習(xí)的原因有:①高分辨率重建中所需要的細節(jié)是高頻特征和低階特征的總和,圖2中的第一個卷積層作為編碼器提取了LR圖像的原始低階特征,局部殘差學(xué)習(xí)可以保留低階特征;②低階特征與多尺度卷積塊之間存在多條路徑,通過局部殘差學(xué)習(xí),能夠增強網(wǎng)絡(luò)學(xué)習(xí)更復(fù)雜特征的能力。局部殘差學(xué)習(xí)定義如下:
Hi=Gi(Hi-1)+F.
(1)
式中:Gi為第i個多尺度卷積塊學(xué)習(xí)得到的特征映射;Hi為第i個多尺度卷積塊的輸出;F為第一個卷積層提取的原始低階特征。
設(shè)F0為第一個卷積層(帶ReLU)需要學(xué)習(xí)的映射,F(xiàn)-1為最后一個卷積層(不帶ReLU)需要學(xué)習(xí)的映射,則基于全局殘差和局部殘差學(xué)習(xí)得到的k個多尺度卷積塊映射可以表示為
IHR=R(ILR)=F-1(Gk(Gk-1(…(G1(F)+
F)…)+F)+F)+ILR.
(2)
式中:F=F0(ILR)是原始的低級特征;ILR為輸入低分辨率圖像塊;IHR為重建后高分辨率圖像塊。
圖2給出了DMRN的主體結(jié)構(gòu)。與ResNet不同,DMRN去除了池化層和批量歸一化層。這是由于SISR的目標(biāo)是實現(xiàn)精確的像素預(yù)測,去除池化層有利于保留更多的圖像細節(jié);批量歸一化層對特征進行了歸一化[21],會消除網(wǎng)絡(luò)的范圍靈活性,不利于圖像重建,因此也將其去除。DMRN使用步長為1的卷積核并使用ReLU激活,因此可以接受任意大小的圖像作為輸入。此外,DMRN在第一層和最后一層使用了2個大小為5×5的卷積層來提取粗糙的特征,并融合多尺度細節(jié)特征重建HR圖像。
本文選取某特高壓換流站全景監(jiān)視系統(tǒng)采集的800幅監(jiān)視圖像,圖像的分辨率為1 600×1 200(單位像素,下同)。在Windows 10系統(tǒng)環(huán)境下實驗,使用Pytorch深度學(xué)習(xí)框架進行訓(xùn)練,編程語言版本為Python 3.7,內(nèi)存大小為32 GB,CPU 型號為Intel Core i7-9700f,顯卡型號為NVIDIA TITAN V。
(3)
式中θ為DMRN的參數(shù),采用Adam優(yōu)化器[22]最小化損失函數(shù)。
訓(xùn)練完成DMRN網(wǎng)絡(luò)后,首先使用Set5、Set14和Urban100這3個基準數(shù)據(jù)集進行測試。由于人類視覺對亮度變化更為敏感,因此將圖像轉(zhuǎn)換至YCbCr空間,如圖4所示,采用Y通道上的峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似指數(shù)(structural similarity index,SSIM)來評價超分辨率重建的性能。
圖4 YCbCr轉(zhuǎn)換圖Fig.4 YCbCr conversion diagram
DPSNR定義為信號的最大功率與噪聲功率之比,單位為分貝(dB),常被用來評價圖像壓縮的質(zhì)量,數(shù)值越大表示生成圖像的真實性越高,計算公式為
(4)
式中:eMSE為原始圖像與處理后圖像的均方誤差;DMAXI為圖像像素顏色的最大值。
SSIM可評價原始圖像與處理后圖像之間的相似性,取值范圍為[0,1],數(shù)值越大表示圖像失真越小。圖像X、Y的SSIM值
DSSIM=lX,YcX,YsX,Y,
(5)
(6)
(7)
(8)
式中:uX、uY、σX和σY分別為圖像X、Y的均值、標(biāo)準差;σXY為圖像X和Y的協(xié)方差;C1、C2和C3為常數(shù),通常取C1=(K1L)2,C2=(K2L)2,C3=C2/2,K1=0.01,K2=0.03,L為像素值的范圍[23]。
多尺度卷積塊的數(shù)量決定了DMRN的深度,選取具有不同數(shù)量多尺度卷積塊的模型(k∈{8,10,12,14}),圖5給出了在Set5、 Set14和Urban100測試數(shù)據(jù)集中隨機選取的50幅圖像的平均PSNR和SSIM。
圖5 不同模型深度下的PSNRFig.5 PSNR performance under different model depths
如圖5所示,隨著多尺度卷積塊的數(shù)量增加,DMRN在Set5、Set14和Urban100上的PSNR性能隨之穩(wěn)步提高,這表明本文方法實現(xiàn)了“越深越好”的預(yù)期目標(biāo)。適當(dāng)增加網(wǎng)絡(luò)深度對于圖像恢復(fù)具有一定的提高效果,然而,網(wǎng)絡(luò)太深也會帶來計算復(fù)雜度提升的問題,k=14較k=12性能提升有限,因此后續(xù)特高壓換流站監(jiān)視圖像識別實驗采用k=12的參數(shù)設(shè)置。
本文所提出的網(wǎng)絡(luò)架構(gòu)對基準數(shù)據(jù)集Set5、Set14和Urban100進行測試的SSIM和PSNR值分別見表1、表2。表中還與其他方法進行了對比,包括雙三次插值、SRCNN和FSRCNN。
從表1和表2中可以看出:k=12的DMRN模型比其他層數(shù)DMRN模型的SSIM和PSNR效果更好,因此選取k=12的DMRN作為比較模型;與其他算法進行對比可以看到,DMRN模型生成的圖像真實性更高,失真更小,這一結(jié)果表明本文算法可以通過融合低階和高階特征,采用全局殘差和局部殘差相結(jié)合的方式建立LR到HR的非線性映射關(guān)系,提高網(wǎng)絡(luò)對輸入全景監(jiān)視圖像微觀紋理和宏觀幾何特征的重建能力,從而生成細節(jié)信息更逼真的HR圖像。
表1 數(shù)據(jù)集Set5、Set14和Urban100的SSIM Tab.1 SSIM of Set5, Set14 and Urban100 dataset
表2 數(shù)據(jù)集Set5、Set14和Urban100的PSNRTab.2 PSNRs of Set5, Set14 and Urban100 dataset
圖6、圖7分別給出了k=12的DMRN模型和多種超分辨率算法在基準數(shù)據(jù)集Set5上的重建效果比較圖,雖然圖7沒有能夠重建出人物臉上的雀斑細節(jié),但也可以看出k=12的DMRN模型的重建效果較其他方法是最好的,能夠更好地重建圖像的細節(jié)信息。
圖6 兒童1重建圖Fig.6 Reconstruction images of child 1
圖7 兒童2重建圖Fig.7 Reconstruction images of child 2
圖8—10分別給出了特高壓換流站全景監(jiān)視圖像的超分辨率重建效果圖,包括二次設(shè)備、硬壓板和端子銹蝕圖像。同樣將本文方法與雙三次插值、SRCNN和FSRNN等方法進行了比較,實驗結(jié)果見表3和表4;將重建前后圖像分別輸入特高壓換流站站內(nèi)所使用的Yolov3、Yolov4、Yolov5、Faster R-CNN、Cascade RCNN識別模型,所得到的識別結(jié)果見表5。實驗結(jié)果表明:與其他方法相比,DMRN具有更佳的SSIM和PSNR性能,恢復(fù)了更清晰的邊緣和更多的細節(jié),例如第1幅圖像中的指示燈以及對應(yīng)的模糊文字信息,第2幅圖
圖8 二次設(shè)備監(jiān)視圖像重建狀態(tài)Fig.8 Reconstruction status of secondary equipment monitors images
表3 特高壓換流站監(jiān)視圖像SSIMTab.3 SSIM of extra-high voltage converter station monitoring images
表4 特高壓換流站監(jiān)視圖像PSNRTab.4 PSNRs of extra-high voltage converter station monitoring images
圖9 硬壓板圖像重建狀態(tài)Fig.9 Reconstruction status of hard plate images
圖10 端子銹蝕圖像重建狀態(tài)Fig.10 Reconstruction status of terminal corrosion images
表5 特高壓換流站監(jiān)視圖像識別結(jié)果Tab.5 Extra-high voltage converter station monitoring image detection results
像中的硬壓板開關(guān)狀態(tài)以及文字顯示,第3幅圖像中的端子銹蝕狀態(tài),可以更好地幫助巡檢人員進行全景監(jiān)視。
本文提出了一種DMRN以實現(xiàn)特高壓換流站保護系統(tǒng)全景監(jiān)視圖像的超分辨率快速重建,以滿足巡檢人員全景監(jiān)視的需求。在DMRN中,堆疊多尺度卷積塊,采用不同尺度小內(nèi)核的卷積操作進行改進,可以縮減參數(shù)加快速度,提取圖像不同尺度上的細節(jié)特征進行融合,以解決圖像細節(jié)提取不完備的問題。同時在DMRN網(wǎng)絡(luò)的訓(xùn)練過程中加入殘差結(jié)構(gòu),可以保留低階粗糙特征,實現(xiàn)特征復(fù)用,減少網(wǎng)絡(luò)冗余,解決消失梯度問題。實驗結(jié)果表明,與其他方法相比,DMRN具有更佳的SSIM和PSNR性能,重建的圖像真實性更高,失真更小,堆疊多尺度卷積塊提高了網(wǎng)絡(luò)對輸入全景監(jiān)視圖像微觀紋理和宏觀幾何特征的重建能力,從而生成細節(jié)信息更逼真的HR圖像。重建后的特高壓全景監(jiān)視圖像集有更清晰的邊緣和更多的細節(jié),提升了站內(nèi)所使用的深度學(xué)習(xí)模型的檢測精度,滿足換流站對特高壓換流站保護系統(tǒng)全景監(jiān)視的需求。
本文方法也存在一定不足,例如:采用的k=12的多尺度卷積塊數(shù)是在某換流站數(shù)據(jù)集上經(jīng)過不斷實驗得到的重建效果最好的超參數(shù),對于不同的換流站實地采集的數(shù)據(jù)集,這個值并不固定,因此不具備普適性;更換數(shù)據(jù)集后,為了得到最好的模型,需要不斷訓(xùn)練調(diào)參,這會花費大量時間,在后續(xù)研究中,希望網(wǎng)絡(luò)可以自適應(yīng)調(diào)整多尺度卷積塊數(shù),即對于不同數(shù)據(jù)集,都可以自動找出模型效果最好的多尺度卷積塊的層數(shù)。