收稿日期:2022-08-01
基金項(xiàng)目:國家重點(diǎn)研發(fā)計(jì)劃(2022YFB4201004);國家自然科學(xué)基金面上項(xiàng)目(51676063)
通信作者:徐孝彬(1990—),男,博士、教授、碩士生導(dǎo)師,主要從事光伏地圖設(shè)計(jì)方面的研究。xxbtc@hhu.edu.cn
DOI:10.19912/j.0254-0096.tynxb.2022-1155 文章編號(hào):0254-0096(2023)11-0082-09
摘 要:針對(duì)屋頂光伏資源評(píng)估中難以準(zhǔn)確高效地獲取建筑物屋頂區(qū)域的問題,該文提出一種基于Unet的FPN_AttentionUnet語義分割網(wǎng)絡(luò),用于實(shí)現(xiàn)建筑物屋頂?shù)母呔茸詣?dòng)提取。該網(wǎng)絡(luò)融合Soft-Attention注意力機(jī)制和雙層特征金字塔FPN以提取準(zhǔn)確的語義信息,精細(xì)化分割結(jié)果。Soft-Attention注意力機(jī)制用于處理和連接編碼部分與解碼部分的特征圖;雙層特征金字塔FPN融合解碼部分不同尺度的特征圖來獲取不同尺度的特征信息。采用無人機(jī)獲取蘇州某區(qū)域上空的建筑物數(shù)據(jù)集和武漢大學(xué)WHU公開數(shù)據(jù)集分別進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果表明:與Unet、AttentionUnet、FPNUnet網(wǎng)絡(luò)相比,該文提出的FPN_AttentionUnet在建筑物外輪廓提取中具有更高的精度,有效提高邊緣提取效果。在自制數(shù)據(jù)集中類別像素準(zhǔn)確率[CPA]達(dá)95.56%,平均交并比[MIoU]達(dá)91.10%,在WHU公開數(shù)據(jù)集中分割效果同樣優(yōu)于其他對(duì)比網(wǎng)絡(luò),所提算法能夠有效提升建筑物外輪廓邊緣的分割精度。最后以河海大學(xué)常州校區(qū)為例,利用提出的算法從無人機(jī)圖像中分割建筑物,評(píng)估指定區(qū)域的光伏發(fā)電量與光伏組件安裝潛力。
關(guān)鍵詞:分布式光伏;深度學(xué)習(xí);語義分割;整縣推進(jìn);改進(jìn)Unet;建筑物提取
中圖分類號(hào):TK513.5"""""""""""""""""""""" 文獻(xiàn)標(biāo)志碼:A
0 引 言
隨著中國碳達(dá)峰、碳中和與“3060目標(biāo)”的提出,加快推進(jìn)綠色能源的開發(fā),實(shí)現(xiàn)能源的轉(zhuǎn)型與變革迫在眉睫[1-2]。光伏行業(yè)的發(fā)展,不僅是構(gòu)建以新能源為主體的新型電力系統(tǒng)的關(guān)鍵路徑,同時(shí)也是實(shí)現(xiàn)“雙碳”目標(biāo)的重要支撐[3]。根據(jù)建設(shè)規(guī)模,可將光伏電站分為集中式與分布式。集中式光伏電站需占用大量的土地資源,一般分布在荒漠、山區(qū)等區(qū)域;分布式光伏電站是利用分散式資源的發(fā)電系統(tǒng),其裝機(jī)規(guī)模小,一般布置在用戶附近。隨著集中式光伏電站建設(shè)的逐漸飽和,分布式光伏電站逐漸成為光伏發(fā)電商業(yè)化的首選方式。近年來,分布式光伏發(fā)電已成為發(fā)達(dá)國家極力推動(dòng)的重要發(fā)展技術(shù),中國也積極推進(jìn)發(fā)展分布式光伏建設(shè)。國家能源局于2021年6月起在全國組織開展整縣推進(jìn)屋頂分布式光伏開發(fā)試點(diǎn)工作,分布式光伏整縣推進(jìn)能夠有效將太陽能轉(zhuǎn)換為電能,從而解決農(nóng)村地區(qū)與工業(yè)地區(qū)的用電問題。建筑物屋頂是分布式光伏的重要載體,準(zhǔn)確高效地評(píng)估屋頂資源是推進(jìn)屋頂分布式光伏建設(shè)的關(guān)鍵。
獲取建筑物屋頂面積是屋頂光伏資源評(píng)估首要解決的問題。獲取建筑物屋頂面積的方式直接影響屋頂光伏資源評(píng)估的精度。國內(nèi)外學(xué)者通過多種方式解算建筑物屋頂面積并用于評(píng)估。周新平等[4]將所有的建筑物假設(shè)為5層,并根據(jù)建筑物總面積推算屋頂面積,對(duì)中國屋頂光伏的發(fā)電潛力進(jìn)行評(píng)估;劉光旭等[5]在地理信息系統(tǒng)(geographic information system,GIS)軟件的基礎(chǔ)上獲取江蘇省居住用地面積,并通過經(jīng)驗(yàn)數(shù)據(jù)計(jì)算出屋頂總面積,進(jìn)而對(duì)建筑物屋頂光伏資源進(jìn)行評(píng)估;孫艷偉等[6]使用遙感圖像以及經(jīng)驗(yàn)值的方式獲取福建地區(qū)的建筑物屋頂可用于布置光伏區(qū)域的總面積,對(duì)該區(qū)域的建筑物屋頂光伏資源進(jìn)行評(píng)估;邱喜蘭等[7]在周新平等[4]研究的基礎(chǔ)上進(jìn)一步改進(jìn),通過分析建筑物的類型來推算屋頂面積,對(duì)上海市的屋頂光伏資源進(jìn)行評(píng)估;郭曉琳[8]采用遙感圖像與GIS相結(jié)合的方式,對(duì)徐州市屋頂光伏資源進(jìn)行評(píng)估??偟膩碚f,屋頂面積的獲取主要依靠如下兩種方法:第一種是根據(jù)建筑物建造時(shí)的面積進(jìn)行推算;第二種是通過遙感圖像以及GIS軟件來進(jìn)行推算。這兩種方法并不適用于中國建筑物變遷較快的情況[9]。近年來,隨著無人機(jī)的普及與深度學(xué)習(xí)在圖像分割領(lǐng)域的研究逐步深入,圖像分割技術(shù)在遙感圖像領(lǐng)域中取得突飛猛進(jìn)的發(fā)展[10]。無人機(jī)能夠在低空飛行,通過搭載的相機(jī)快速采集特定區(qū)域建筑物圖像,適用于中國快速發(fā)展的城市建設(shè)模式。語義分割是深度學(xué)習(xí)在圖像分割領(lǐng)域的重要應(yīng)用之一,能夠達(dá)到像素級(jí)的分割精度[11],可從遙感圖像中準(zhǔn)確地分割出目標(biāo)區(qū)域。無人機(jī)的普及以及語義分割技術(shù)的發(fā)展,也為建筑物屋頂區(qū)域的自動(dòng)獲取提供了新思路。
采用無人機(jī)與語義分割技術(shù)提取建筑物屋頂?shù)碾y點(diǎn)在于高精度圖像分割算法。針對(duì)該問題,國內(nèi)外學(xué)者提出多種語義分割模型。Shelhamer等[12]首次提出基于深度學(xué)習(xí)的語義分割模型FCN,采用端到端的卷積網(wǎng)絡(luò),并引入跳躍連接來提升上采樣的精度;隨后,Ronneberger等[13]提出一種U型的基于編碼-解碼結(jié)構(gòu)的網(wǎng)絡(luò)Unet,該網(wǎng)絡(luò)具有完全對(duì)稱的編碼-解碼結(jié)構(gòu),被廣泛應(yīng)用于建筑領(lǐng)域。國內(nèi)外學(xué)者改進(jìn)Unet網(wǎng)絡(luò),提升網(wǎng)絡(luò)的分割性能。主要的改進(jìn)方式有兩種,一種是通過改進(jìn)網(wǎng)絡(luò)的結(jié)構(gòu)提升其性能,主要包括在網(wǎng)絡(luò)中增加注意力機(jī)制、引入新的卷積方式以及替換特征提取網(wǎng)絡(luò)等方式[14-22];另一種是通過多尺度特征融合的方式來融合不同尺度的建筑物特征,進(jìn)而提高建筑物分割精度[23-26]。盡管上述的語義分割網(wǎng)絡(luò)已具有較好的分割效果,但仍存在目標(biāo)區(qū)域分割不完整、區(qū)域邊界識(shí)別不準(zhǔn)確等情況。因此,如何進(jìn)一步提升建筑物的分割精度是需要研究的關(guān)鍵問題。
本文提出一種用于建筑物提取的FPN_AttentionUnet語義分割網(wǎng)絡(luò)。該網(wǎng)絡(luò)以Unet網(wǎng)絡(luò)為原型,在此基礎(chǔ)上進(jìn)行改進(jìn)和優(yōu)化,用于實(shí)現(xiàn)建筑物屋頂?shù)母呔茸詣?dòng)提取,縮短分布式光伏整縣推進(jìn)實(shí)施時(shí)間。網(wǎng)絡(luò)改進(jìn)主要包括以下兩方面:1)在原有Unet模型中引入Soft-Attention注意力機(jī)制,將解碼部分的特征圖與其上一層編碼部分的特征圖一同輸入注意力機(jī)制,再將輸出結(jié)果與解碼部分的特征圖上采樣后進(jìn)行連接;2)將Unet中解碼部分每個(gè)尺度的特征圖提出兩層,融合不同尺度的特征圖用于獲取不同尺度的特征信息,并使用融合后的特征圖進(jìn)行預(yù)測。
1 網(wǎng)絡(luò)模型構(gòu)建
1.1 FPN_AttentionUnet網(wǎng)絡(luò)模型
為實(shí)現(xiàn)大區(qū)域內(nèi)分布式光伏布置,需對(duì)大區(qū)域內(nèi)建筑物屋頂進(jìn)行高精度分割,本文提出一種高精度語義分割網(wǎng)絡(luò)FPN_AttentionUnet,F(xiàn)PN_AttentionUnet網(wǎng)絡(luò)是基于Unet的注意力網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示。Unet是一種深度卷積神經(jīng)網(wǎng)絡(luò),具有獨(dú)特的“U型”編碼-解碼結(jié)構(gòu),并采用跳躍連接來融合編碼與解碼部分的特征,以實(shí)現(xiàn)較為精確的分割。但Unet網(wǎng)絡(luò)中跳躍連接采用的是直接連接方式,拼接后產(chǎn)生較多噪點(diǎn),無法有效減小無關(guān)區(qū)域的影響。同時(shí)在跳躍連接中僅融合了相鄰尺度間的特征信息,無法獲取全部尺度的特征,具有一定的局限性[27]。針對(duì)上述Unet網(wǎng)絡(luò)的兩點(diǎn)不足,提出FPN_AttentionUnet網(wǎng)絡(luò),具體改進(jìn)如下:
1)在網(wǎng)絡(luò)的跳躍連接階段引入Soft-Attention注意力機(jī)制模塊,將解碼部分的特征圖與其上一層編碼部分的特征圖同時(shí)輸入注意力機(jī)制,再將注意力機(jī)制輸出結(jié)果與解碼部分特征圖上采樣結(jié)果連接,代替原有的直接連接方式,能夠?qū)ttention集中在ROI區(qū)域,并有效減小圖像中無關(guān)區(qū)域的影響。
2)在網(wǎng)絡(luò)右側(cè)解碼部分中,每個(gè)尺度提取兩層特征圖得到雙層特征金字塔FPN,將不同尺度的特征進(jìn)行融合,并使用融合結(jié)果預(yù)測建筑物,有效保留建筑物邊緣的細(xì)節(jié)信息,提升建筑物外輪廓分割的整體精度。
1.2 Soft-Attention注意力機(jī)制模塊
注意力機(jī)制能夠自動(dòng)學(xué)習(xí)和計(jì)算輸入數(shù)據(jù)對(duì)輸出數(shù)據(jù)的貢獻(xiàn)大小,被廣泛應(yīng)用于圖像識(shí)別等機(jī)器學(xué)習(xí)任務(wù)中[28]。Soft-Attention是一種可微的注意力機(jī)制,能夠通過前向傳播和后向反饋來獲取注意力的權(quán)重。因此,Soft-Attention被廣泛應(yīng)用于圖像分類、目標(biāo)檢測、圖像分割等領(lǐng)域,其中典型代表是SENet和SKNet網(wǎng)絡(luò)[29-30]。Soft-Attention具有即插即用的特點(diǎn),被廣泛應(yīng)用于網(wǎng)絡(luò)的改進(jìn)[21]。本文將其引入到Unet的階躍連接部分,將解碼部分的特征圖與其上一層編碼部分的特征圖作為Soft-Attention的輸入,并將輸出結(jié)果與解碼部分的特征圖上采樣后的結(jié)果進(jìn)行連接,從而有效抑制非建筑物像素對(duì)每層特征提取結(jié)果的干擾。Soft-Attention的具體結(jié)構(gòu)如圖2所示。
1.3 雙層特征金字塔模塊
特征金字塔能夠融合不同尺度的特征信息,減少小目標(biāo)的丟失[31-32]。在圖像分割領(lǐng)域中,特征金字塔常被用于獲取多尺度的細(xì)節(jié)特征,以保留待分割物體的邊緣信息,進(jìn)而提升分割的精度[33-35]。常用的融合多尺度圖片信息的方式有兩種,即圖像金字塔和特征金字塔。圖像金字塔直接融合多尺度圖像,圖像中包含大量的無關(guān)特征信息,會(huì)帶來極大的計(jì)算量[36],而特征金字塔將圖像經(jīng)過特征提取后的特征圖進(jìn)行融合,僅需融合特征信息,這會(huì)有效減少相應(yīng)的計(jì)算量。
本文參照特征金字塔的思想,將原始Unet中解碼部分不同尺度的特征圖進(jìn)行提取,并上采樣至同一尺寸,實(shí)現(xiàn)后續(xù)的特征融合。但將所有的特征圖直接進(jìn)行拼接融合,會(huì)導(dǎo)致計(jì)算量增加。針對(duì)該問題,本文提出一種雙層特征金字塔(feature pyramid network,F(xiàn)PN)結(jié)構(gòu),如圖3所示。僅提取每一尺度的兩層特征圖,然后將提出的特征圖分別進(jìn)行3、2、1次上采樣,在得到相同尺度后拼接融合。該結(jié)構(gòu)有效降低了網(wǎng)絡(luò)的計(jì)算量。
2 實(shí)驗(yàn)分析
2.1 實(shí)驗(yàn)環(huán)境
在64位Windows10環(huán)境下訓(xùn)練,選擇Pytorch1.7深度學(xué)習(xí)框架,編程語言為Python 3.8。硬件方面,CPU采用AMD R7 3700X,內(nèi)存大小為16 GB;GPU采用英偉達(dá)GeFore GTX 1080Ti(11 GB顯存),磁盤容量大小為2 TB。
2.2 實(shí)驗(yàn)數(shù)據(jù)源
本次實(shí)驗(yàn)采取的數(shù)據(jù)集來自于蘇州某區(qū)域,該區(qū)域建筑物集中,屋頂較為平坦,本次實(shí)驗(yàn)將無人機(jī)置于區(qū)域上空進(jìn)行圖像采集,采用大疆經(jīng)緯M300 RTK無人機(jī)和賽爾五鏡頭相機(jī),拍攝6000×4000尺寸的三通道RGB圖片,為充分利用數(shù)據(jù)集中的源圖像,首先采用雙線性插值將尺寸為6000×4000源圖像resize成6144×4096的尺寸,然后將其剪裁成48張512×512的圖像,并剔除不含建筑物的圖片,最后保留995張圖片作為數(shù)據(jù)集。
2.3 精度評(píng)價(jià)指標(biāo)
在實(shí)際的建筑物外輪廓分割中,需采用合適的指標(biāo)評(píng)估建筑物外輪廓分割的效果。本文采用的評(píng)價(jià)指標(biāo)均是基于混淆矩陣進(jìn)行計(jì)算?;煜仃嚾绫?所示。在以下的表述中將建筑物表示為正例,背景表示為反例,來解釋表1中的參數(shù)。
在實(shí)際的建筑物提取中,分別選取像素準(zhǔn)確率[PA](pixel accuracy)、類別像素準(zhǔn)確率[CPA](class pixel accuracy)、平均交并比[MIoU](mean intersection over union)、頻率加權(quán)交并比[FWIoU](frequency weighted intersection over union)作為檢測精度的評(píng)判標(biāo)準(zhǔn)。
1)[PA]指所有類別中預(yù)測正確的像素?cái)?shù)量占總像素?cái)?shù)量的比例,其中預(yù)測正確的像素包括兩類:①實(shí)際為建筑物預(yù)測也為建筑物的像素;②實(shí)際為背景預(yù)測也為背景的像素,其計(jì)算方法如式(1)所示。
[PA=TP+TNTP+FP+TN+FN×100%]" (1)
2)[CPA]指在所有類別為[i]的像素中,真正屬于類別[i]的像素?cái)?shù)量占總像素?cái)?shù)量的比例,在混淆矩陣中代表第[i]個(gè)對(duì)角線元素比上矩陣該列元素之和的值,其計(jì)算方法如式(2)所示。
[CPA=TPTP+FP×100%]"""" (2)
3)[MIoU]指所有類別的交并比[IoU]的平均值,其計(jì)算方法如式(3)所示。
[MIoU=mean(IoU)]"""""" (3)
[IoU]指類別為[i]的像素集合[A]和真實(shí)類別為[i]的像素集合[B]的交集與并集之比,計(jì)算方法如式(4)所示。
[IoU=A?BA?B=A?BA+B-A?B×100%]"""""" (4)
在混淆矩陣中第[i]個(gè)類別的[IoU]計(jì)算為混淆矩陣第[i]個(gè)對(duì)角線元素比矩陣該列元素與該行元素的并集。以二分類(0/1分類)為例,第0個(gè)類別的[IoU]計(jì)算方法如式(5)所示。
[IoU=TPTP+FP+FN×100%]"""""" (5)
4)頻率加權(quán)交并比[FWIoU]是指按照真實(shí)類別為[i]對(duì)應(yīng)像素?cái)?shù)量占所有像素的比例對(duì)類別[i]的[IoU]進(jìn)行加權(quán)。第[i]個(gè)類別的[FWIoU]首先計(jì)算混淆矩陣第[i]行元素求和比矩陣所有元素求和,再乘以第[i]個(gè)類別的[IoU]。以二分類(0/1分類)為例,第0個(gè)類別的[FWIoU]計(jì)算方法如式(6)所示。
[FWIoU=TP+FNTP+FN+FN+TN?TPTP+FP+FN×100%]"" (6)
式中:[TP]——圖像中實(shí)際為正且預(yù)測為正的數(shù)量;[FP]——圖像中實(shí)際為負(fù)而預(yù)測為正的數(shù)量;[TN]——實(shí)際為負(fù)樣本并被預(yù)測為負(fù)的數(shù)量;[FN]——實(shí)際為陽性樣本而被預(yù)測為陰性樣本的數(shù)量。
2.4 數(shù)據(jù)增強(qiáng)
剪裁后的數(shù)據(jù)集中僅包含995張圖片,數(shù)據(jù)量較少會(huì)導(dǎo)致網(wǎng)絡(luò)模型的近似值不佳和欠擬合問題,影響訓(xùn)練效果。因此對(duì)數(shù)據(jù)集圖像進(jìn)行數(shù)據(jù)增強(qiáng),數(shù)據(jù)增強(qiáng)方式為旋轉(zhuǎn)90°、180°、270°和豎直鏡像,共計(jì)得到4975張圖像。然后將其按照8∶1∶1分別劃分為訓(xùn)練集、測試集和驗(yàn)證集。圖像增強(qiáng)前后的效果如表2所示。
2.5 網(wǎng)絡(luò)訓(xùn)練
FPN_AttentionUnet的訓(xùn)練超參數(shù)訓(xùn)練如表3所示。采用文獻(xiàn)[13]中的Unet、文獻(xiàn)[21]中的AttentionUnet和文獻(xiàn)[25]中的FPNUnet3種網(wǎng)絡(luò)進(jìn)對(duì)比,在所有網(wǎng)絡(luò)中采用同樣的超參數(shù)進(jìn)行訓(xùn)練,在訓(xùn)練過程中將訓(xùn)練輪數(shù)設(shè)置為100,Batch-size設(shè)置為2,學(xué)習(xí)率設(shè)為0.005,優(yōu)化器選擇SGD,采用Poly策略動(dòng)態(tài)調(diào)整學(xué)習(xí)率,以免陷入局部最優(yōu)解。
2.6 實(shí)驗(yàn)結(jié)果分析
按照表3中的超參數(shù)訓(xùn)練,得到4種網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果如圖4和圖5所示。本節(jié)采用兩張不同的測試圖片。圖4的環(huán)境較為惡劣,建筑物輪廓明暗交錯(cuò),與周圍環(huán)境區(qū)分度較低,具有較大的挑戰(zhàn)性。圖4c中Unet分割圖右上角的建筑物未被完整識(shí)別,右側(cè)的建筑物缺口錯(cuò)誤識(shí)別成建筑物,存在一定的過擬合現(xiàn)象;圖4d中AttentionUnet的分割圖左下角的建筑物輪廓分割完整,說明Unet+Soft-Attention的組合能夠有效提升建筑物輪廓分割的完整性;圖4e中FPNUnet的右上角區(qū)域有識(shí)別到,但左下角區(qū)域僅識(shí)別到部分建筑物的輪廓,甚至有所丟失,說明FPN+Unet的組合專注于獲取圖片中的全局特征和邊緣信息,難以像AttentionUnet一樣將注意力集中在建筑物區(qū)域;圖4f中FPN_AttentionUnet分割圖右上角和左下角的建筑物外輪廓以及右側(cè)的建筑物缺口處均被準(zhǔn)確地分割出來。高精度的建筑物屋頂分割結(jié)果能夠
準(zhǔn)確識(shí)別出建筑物的缺口,真實(shí)提取出建筑物的實(shí)際輪廓,為分布式光伏的布置提供真實(shí)而準(zhǔn)確的依據(jù)。
圖5的環(huán)境較為規(guī)則化,用于對(duì)比不同網(wǎng)絡(luò)建筑物外輪廓的分割細(xì)節(jié)。圖5c中Unet錯(cuò)誤地將建筑物缺口處識(shí)別成建筑物,且存在零散的像素點(diǎn),圖5d中AttentionUnet同樣存在著錯(cuò)誤識(shí)別現(xiàn)象,但整體的精度優(yōu)于Unet,周圍的零散像素點(diǎn)明顯減少,圖5e中FPNUnet能夠較好地提取到邊緣信息,并識(shí)別到大部分的建筑物缺口,圖5f中FPN_AttentionUnet的分割結(jié)果基本與圖5b中的標(biāo)簽圖保持一致,能夠準(zhǔn)確識(shí)別到建筑物的缺口,且不存在零散的錯(cuò)誤識(shí)別的噪點(diǎn),可見FPN_AttentionUnet中Soft-Attention和雙層FPN的組合方式能夠有效地抑制非建筑物像素的干擾,更好地保留邊緣信息。
表4是在相同的實(shí)驗(yàn)條件下4種網(wǎng)絡(luò)定量的精度指標(biāo),得益于數(shù)據(jù)增強(qiáng)后龐大的數(shù)據(jù)量,4種網(wǎng)絡(luò)的精度指標(biāo)除[MIoU]外均達(dá)到90%以上,而[MIoU]也逼近90%。相比于原始的Unet,AttentionUnet的建筑物外輪廓的分割精度與交并比均有所提升,[CPA]提升0.68個(gè)百分點(diǎn),[MIoU]提升0.35個(gè)百分點(diǎn),在較大的準(zhǔn)確度和交并比基數(shù)下是較為理想的;FPNUnet的[CPA]提升0.77個(gè)百分點(diǎn),[MIoU]提升0.75個(gè)百分點(diǎn),雙層特征金字塔的引入使得網(wǎng)絡(luò)能夠保留更多的全局特征和邊緣信息;而FPN_AttentionUnet的[CPA]提升2.02個(gè)百分點(diǎn),[MIoU]提升1.99個(gè)百分點(diǎn),融合了AttentionUnet與FPNUnet兩者的優(yōu)點(diǎn),分割出的建筑物外輪廓更加完整,建筑物的邊緣信息得到了更好的保留,預(yù)測精度與交并比相對(duì)于局部改進(jìn)的AttentionUnet與FPNUnet進(jìn)一步提升。
3 公開數(shù)據(jù)集驗(yàn)證
3.1 公開數(shù)據(jù)集的選擇
本次實(shí)驗(yàn)采用武漢大學(xué)季順平教授團(tuán)隊(duì)公開的數(shù)據(jù)集:WHU Building Dataset,該數(shù)據(jù)集來自世界各地的城市,以及QuickBird、Worldview系列、IKONOS、ZY-3等多種遙感資源,其中包含204幅圖像(分辨率從0.3 m到2.5 m不等的512×512尺寸的圖片),由于數(shù)據(jù)集中存在衛(wèi)星傳感器的差異以及大氣條件的變化,使得該數(shù)據(jù)集非常適合測試建筑提取算法的魯棒性。
3.2 公開數(shù)據(jù)集結(jié)果驗(yàn)證
WHU數(shù)據(jù)集僅包含204張圖片,數(shù)據(jù)量較小,在輸入網(wǎng)絡(luò)前采用2.4節(jié)所述的數(shù)據(jù)增強(qiáng)處理,以確保充足的數(shù)據(jù)量。將數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集分別輸入到上述的Unet、AttentionUnet、FPNUnet和FPN_AttentionUnet這4種網(wǎng)絡(luò)中訓(xùn)練,訓(xùn)練的超參數(shù)與表3保持一致,仍選取[PA、CPA、MIoU]和[FWIoU]這4個(gè)參數(shù)作為精度指標(biāo)來評(píng)判算法的性能。4種網(wǎng)絡(luò)的分割結(jié)果如圖6所示,具體精度指標(biāo)如表5所示。從分割結(jié)果中可看出,在使用WHU數(shù)據(jù)集時(shí),相對(duì)于Unet來說,AttentionUnet與FPNUnet的預(yù)測精度和交并比均有一定提升;同時(shí)引入Soft-Attention注意力機(jī)制和雙層特征金字塔后的FPN_AttentionUnet的[PA]提升0.84個(gè)百分點(diǎn)、[CPA]提升0.98個(gè)百分點(diǎn)、[MIoU]提升1.04個(gè)百分點(diǎn)、[FWIoU]提升1.06個(gè)百分點(diǎn)。從圖6中框選處可看出,F(xiàn)PN_AttentionUnet的建筑物外輪廓的分割精度更高,較好地保留了輪廓邊緣的細(xì)節(jié)信息,驗(yàn)證了FPN_AttentionUnet的有效性。
4 案例分析
為驗(yàn)證本文提出的建筑物分割網(wǎng)絡(luò)FPN_AttentionUnet的性能,在本節(jié)以河海大學(xué)常州校區(qū)為例分析分割性能。選取某一棟學(xué)生宿舍樓進(jìn)行分析,如圖7所示,左側(cè)圖像框選處為本次案例選擇的區(qū)域,右上角為該區(qū)域的局部放大圖,圖中框選處為本次案例選取的學(xué)生宿舍樓。
在確定好本次案例所選取的區(qū)域后,利用本文提出的網(wǎng)絡(luò)分割所選區(qū)域圖像提取建筑物屋頂,其次利用OpenCV獲取圖像中學(xué)生宿舍樓屋頂?shù)南袼孛娣e,然后根據(jù)無人機(jī)的飛行高度、樓高、相機(jī)參數(shù)將像素面積換算為實(shí)際面積。圖8給出了所選區(qū)域無人機(jī)航拍圖像的分割結(jié)果以及宿舍樓的圖像
素面積結(jié)果,可見,F(xiàn)PN_AttentionUnet能夠較為完整地分割出宿舍樓屋頂區(qū)域,該棟宿舍樓的像素面積為1417415個(gè)像素,根據(jù)傳感器等參數(shù)最終解算得到實(shí)際面積為767.52 m2。
在獲取宿舍樓的面積后,針對(duì)該宿舍樓的光伏發(fā)電量與光伏組件安裝潛力進(jìn)行評(píng)估。將無人機(jī)拍攝圖像時(shí)的經(jīng)緯度與該宿舍樓的面積一同導(dǎo)入到河海安能SOLARPV-Plus軟件中對(duì)該區(qū)域的光伏發(fā)電量與光伏組件安裝潛力評(píng)估,最終預(yù)估的年發(fā)電量為86.25 MWh,光伏組件選擇JKM315M-60-V的情況下,裝機(jī)容量可達(dá)80.01 kW,具體的年產(chǎn)能分析報(bào)告與光伏陣列布置情況如表6和表7所示。
5 結(jié)論與展望
針對(duì)屋頂光伏資源評(píng)估中難以準(zhǔn)確高效地獲取建筑物屋頂區(qū)域的問題,本文提出一種基于FPN_AttentionUnet的建筑物外輪廓提取方法。該網(wǎng)絡(luò)以Unet為基礎(chǔ),在Unet的跳躍連接階段引入Soft-Attention注意力模塊,代替原有直接連接的方式,將注意力集中在建筑物區(qū)域,抑制無關(guān)區(qū)域;并在解碼部分引入雙層特征金字塔來融合多尺度的特征信息,有效保留了建筑物外輪廓的全局特征和邊緣信息。實(shí)驗(yàn)表明在自制的數(shù)據(jù)集中,相比于Unet、AttentionUnet、FPNUnet這3種對(duì)比網(wǎng)絡(luò),建筑物外輪廓的分割精度明顯提升。同時(shí)采用WHU公開數(shù)據(jù)集進(jìn)行驗(yàn)證,結(jié)果表明FPN_AttentionUnet的分割精度與交并比等評(píng)價(jià)指標(biāo)同樣高于其他3種對(duì)比網(wǎng)絡(luò),驗(yàn)證了網(wǎng)絡(luò)的普適性。本文的主要結(jié)論如下:
1)在Unet跳躍連接階段引入Soft-Attention注意力機(jī)制,將Attention集中在ROI區(qū)域,減小無關(guān)區(qū)域的影響,有效提升建筑物外輪廓的整體分割精度。
2)將Unet解碼部分每個(gè)尺度的特征圖提出兩層得到雙層特征金字塔FPN,在降低網(wǎng)絡(luò)計(jì)算量的同時(shí)有效融合了不同尺度的特征信息,充分保留了建筑物外輪廓邊緣信息,能夠較好地還原建筑物屋頂?shù)恼鎸?shí)輪廓,為分布式光伏布置提供準(zhǔn)確面積。
3)FPN_AttentionUnet具有更高的分割精度和較好的普適性。在自制的數(shù)據(jù)集中,平均精度達(dá)到95.56%,相較于Unet提升2.02個(gè)百分點(diǎn),相較于局部改進(jìn)的AttentionUnet和FPNUnet,分別提升1.34和1.25個(gè)百分點(diǎn)。在WHU公開數(shù)據(jù)集的驗(yàn)證下,分割精度與交并比均優(yōu)于其他3種對(duì)比網(wǎng)絡(luò),驗(yàn)證了FPN_AttentionUnet的普適性。并以河海大學(xué)常州校區(qū)為例,通過分割指定區(qū)域的無人機(jī)航拍圖像,獲取建筑物屋頂解算其實(shí)際面積,進(jìn)而對(duì)該區(qū)域的光伏發(fā)電量與光伏組件安裝潛力進(jìn)行評(píng)估。通過該種方式,可有效提升分布式光伏布置效率,為分布式光伏布置提供準(zhǔn)確的參考依據(jù)。
本文提出改進(jìn)Unet方法分割建筑物圖像,再根據(jù)相機(jī)的內(nèi)外參數(shù)獲得建筑物屋頂實(shí)際面積,評(píng)估建筑物光伏發(fā)電量與光伏組件安裝潛力,能夠有效減少人工投入,提升工程效率,但仍存在以下不足:
1)圖像的分辨率不高,可能導(dǎo)致圖像的分割精度不高,無法準(zhǔn)確地對(duì)建筑物屋頂?shù)拿娣e進(jìn)行估計(jì)。
2)屋頂面積的計(jì)算較為粗糙,沒有將屋脊、屋檐等難以布置光伏板的區(qū)域進(jìn)行剔除,未實(shí)現(xiàn)屋頂內(nèi)部的精細(xì)分割。
針對(duì)上述兩點(diǎn)不足,一方面可通過提升傳感器的成像質(zhì)量或改進(jìn)圖像的采集方式來提升圖像分辨率;另一方面,可通過算法的改進(jìn),在分割出屋頂?shù)恼w輪廓后,進(jìn)一步分割出屋頂內(nèi)部輪廓,剔除難以布置光伏板的區(qū)域,獲取更加精確的屋頂實(shí)際可用面積,對(duì)屋頂光伏資源進(jìn)行評(píng)估。
[參考文獻(xiàn)]
[1]"""" 黃震, 謝曉敏. 碳中和愿景下的能源變革[J]. 中國科學(xué)院院刊, 2021, 36(9): 1010-1018.
HUANG Z, XIE X M. Energy revolution under vision of carbon neutrality[J]. Bulletin of Chinese Academy of Sciences, 2021, 36(9): 1010-1018.
[2]"""" 李十中. 推動(dòng)新能源革命促進(jìn)實(shí)現(xiàn)碳中和目標(biāo)[J]. 人民論壇·學(xué)術(shù)前沿, 2021(14): 42-51.
LI S Z. Promoting the new energy revolution and achieving the goal of carbon neutrality[J]. Frontiers, 2021(14): 42-51.
[3]"""" 金秋實(shí), 王曉, 倪依琳, 等. “雙碳”背景下光伏行業(yè)發(fā)展研究與展望[J]. 環(huán)境保護(hù), 2022, 50(S1): 44-50.
JIN Q S, WANG X, NI Y L, et al. Development research and outlook on photovoltaic industry under carbon peaking and carbon neutrality goals[J]. Environmental protection, 2022, 50(S1): 44-50.
[4]"""" ZHOU X P, YANG J K, YUAN X D, et al. Solar potential for the solar photovoltaic roof integration system in China explored by the geographic information system[J]. International journal of global energy issues, 2009, 31(1): 50.
[5]"""" 劉光旭, 吳文祥, 張緒教, 等. 屋頂可用太陽能資源評(píng)估研究: 以2000年江蘇省數(shù)據(jù)為例[J]. 長江流域資源與環(huán)境, 2010, 19(11): 1242-1248.
LIU G X, WU W X, ZHANG X J, et al. Study for evaluating roof-mounted available solar energy resource: case in Jiangsu Province according to its 2000 data[J]. Resources and environment in the Yangtze Basin, 2010, 19(11): 1242-1248.
[6]"""" SUN Y W, HOF A, WANG R, et al. GIS-based approach for potential analysis of solar PV generation at the regional scale: a case study of Fujian Province[J]. Energy policy, 2013, 58: 248-259.
[7]"""" 邱喜蘭, 范宏武, 徐強(qiáng), 等. 上海市分布式光伏發(fā)電發(fā)展規(guī)劃研究[J]. 上海節(jié)能, 2014(10): 11-15.
QIU X L, FAN H W, XU Q, et al. Study on the development planning of distributed photovoltaic power generation in Shanghai[J]. Shanghai energy conservation, 2014(10): 11-15.
[8]"""" 郭曉琳. 基于屋頂面積的徐州市屋頂太陽能光伏潛力評(píng)估[D]. 徐州: 中國礦業(yè)大學(xué), 2015.
GUO X L. Rooftop solar PV potential assessment of Xuzhou based on roof area[D]. Xuzhou: China University of Mining and Technology, 2015.
[9]"""" 張華. 城市建筑屋頂光伏利用潛力評(píng)估研究[D]. 天津: 天津大學(xué), 2017.
ZHANG H. Research on PV energy potential of rooftop in urban area[D]. Tianjin: Tianjin University, 2017.
[10]""" 徐輝, 祝玉華, 甄彤, 等. 深度神經(jīng)網(wǎng)絡(luò)圖像語義分割方法綜述[J]. 計(jì)算機(jī)科學(xué)與探索, 2021, 15(1): 47-59.
XU H, ZHU Y H, ZHEN T, et al. Survey of image semantic segmentation methods based on deep neural network[J]. Journal of frontiers of computer science and technology, 2021, 15(1): 47-59.
[11]""" 張鑫, 姚慶安, 趙健, 等. 全卷積神經(jīng)網(wǎng)絡(luò)圖像語義分割方法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(8): 45-57.
ZHANG X, YAO Q A, ZHAO J, et al. Image semantic segmentation based on fully convolutional neural network[J]. Computer engineering and applications, 2022, 58(8): 45-57.
[12]""" SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. 2016: 640-651.
[13]""" RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[14]""" 何直蒙, 丁海勇, 安炳琪. 高分辨率遙感影像建筑物提取的空洞卷積E-Unet算法[J]. 測繪學(xué)報(bào), 2022, 51(3): 457-467.
HE Z M, DING H Y, AN B Q. E-Unet: a atrous convolution-based neural network for building extraction from high-resolution remote sensing images[J]. Acta geodaetica et cartographica sinica, 2022, 51(3): 457-467.
[15]""" CHEN Z Y, LI D L, FAN W T, et al. Self-attention in reconstruction bias U-net for semantic segmentation of building rooftops in optical remote sensing images[J]. Remote sensing, 2021, 13(13): 2524.
[16]""" 秦夢宇, 劉勇, 張寅丹, 等. 基于改進(jìn)U-Net模型的高分辨率遙感影像中城市建筑物的提?。跩]. 蘭州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 58(2): 254-261, 269.
QIN M Y, LIU Y, ZHANG Y D, et al. Extraction of urban buildings from high-resolution remote sensing images based on improved U-Net model[J]. Journal of Lanzhou University (natural sciences), 2022, 58(2): 254-261, 269.
[17]""" DENG W J, SHI Q, LI J. Attention-gate-based encoder-decoder network for automatical building extraction[J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2021, 14: 2611-2620.
[18]""" ALSABHAN W, ALOTAIBY T. Automatic building extraction on satellite images using unet and ResNet50[J]. Computational intelligence and neuroscience, 2022, 2022: 5008854.
[19]""" DELIBA?O?LU ?. INCSA-UNET: spatial attention inception UNET for aerial images segmentation[J]. Computing and informatics, 2021, 40(6): 1244-1262.
[20]""" YE H R, LIU S, JIN K, et al. CT-UNet: an improved neural network based on U-net for building segmentation in remote sensing images[C]//2020 25th International Conference on Pattern Recognition (ICPR). Milan, Italy, 2021: 166-172.
[21]""" SCHLEMPER J, OKTAY O, SCHAAP M, et al. Attention gated networks: learning to leverage salient regions in medical images[J]. Medical image analysis, 2019, 53: 197-207.
[22]""" YU M Y, CHEN X X, ZHANG W Z, et al. AGs-unet: building extraction model for high resolution remote sensing images based on attention gates U network[J]. Sensors, 2022, 22(8): 2932.
[23]""" SUN X Y, XIAO Y, JI Y F, et al. Multi scale UNet encoder-decoder network for building extraction[C]//2021 3rd International Conference on Information Technology and Computer Communications. Guangzhou, China, 2021.
[24]""" FENG D J, XIE Y K, XIONG S F, et al. Regularized building boundary extraction from remote sensing imagery based on augment feature pyramid network and morphological constraint[J]. IEEE journal of selected topics in applied earth observations and remote sensing, 2021, 14: 12212-12223.
[25]""" 季順平, 魏世清. 遙感影像建筑物提取的卷積神經(jīng)元網(wǎng)絡(luò)與開源數(shù)據(jù)集方法[J]. 測繪學(xué)報(bào), 2019, 48(4): 448-459.
JI S P, WEI S Q. Building extraction via convolutional neural networks from an open remote sensing building dataset[J]. Acta geodaetica et cartographica sinica, 2019, 48(4): 448-459.
[26]""" 于文玲, 劉波, 劉華, 等. 基于Attention Gates和R2U-Net的遙感影像建筑物提取方法[J]. 地理與地理信息科學(xué), 2022, 38(3): 31-36, 42.
YU W L, LIU B, LIU H, et al. Building extraction from remote sensing images based on the R2U-Net model and attention"" gates[J]."" Geography"" and"" geo-information science, 2022, 38(3): 31-36, 42.
[27]""" 李傳林, 黃風(fēng)華, 胡威, 等. 基于Res_AttentionUnet的高分辨率遙感影像建筑物提取方法[J]. 地球信息科學(xué)學(xué)報(bào), 2021, 23(12): 2232-2243.
LI C L, HUANG F H, HU W, et al. Building extraction from high-resolution remote sensing image based on Res_AttentionUnet[J].""""""" Journal""""""" of geo-information science, 2021, 23(12): 2232-2243.
[28]""" NIU Z Y, ZHONG G Q, YU H. A review on the attention mechanism of deep learning[J]. Neurocomputing, 2021, 452: 48-62.
[29]""" HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA, 2018: 7132-7141.
[30]""" LI X, WANG W H, HU X L, et al. Selective kernel networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA, 2020: 510-519.
[31]""" LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA, 2017: 936-944.
[32]""" ZHAO B J, ZHAO B Y, TANG L B, et al. Multi-scale object detection by top-down and bottom-up feature pyramid network[J]. Journal of systems engineering and electronics, 2019, 30(1): 1-12.
[33]""" 趙斐, 張文凱, 閆志遠(yuǎn), 等. 基于多特征圖金字塔融合深度網(wǎng)絡(luò)的遙感圖像語義分割[J]. 電子與信息學(xué)報(bào), 2019, 41(10): 2525-2531.
ZHAO F, ZHANG W K, YAN Z Y, et al. Multi-feature map pyramid fusion deep network for semantic segmentation on remote sensing data[J]. Journal of electronics amp; information technology, 2019, 41(10): 2525-2531.
[34]""" 崔衛(wèi)紅, 熊寶玉, 張麗瑤. 多尺度全卷積神經(jīng)網(wǎng)絡(luò)建筑物提?。跩]. 測繪學(xué)報(bào), 2019, 48(5): 597-608.
CUI W H, XIONG B Y, ZHANG L Y. Multi-scale fully convolutional neural network for building extraction[J]. Acta geodaetica et cartographica sinica, 2019, 48(5): 597-608.
[35]""" TIAN Q L, ZHAO Y J, LI Y, et al. Multiscale building extraction" with" refined" attention" pyramid" networks[J]. IEEE geoscience and remote sensing letters, 2022, 19: 1-5.
[36]""" DONG X, LI F, BAI H, et al. Dual attention based image pyramid network for object detection[J]. KSII transactions on internet and information systems, 2021, 15(12): 4439-4455.
HIGH-PRECISION SEGMENTATION METHOD OF DISTRIBUTED PHOTOVOLTAIC BUILDINGS BASED ON IMPROVED UNET
Xu Xiaobin1,Zhang Haojie1,Bai Jianbo1,Pei Ronghao2,Hu Jiayu1,Tan Zhiying1
(1. College of Mechanical and Electrical Engineering, Hohai University, Changzhou 213022, China;
2. School of Biomedical Engineering (Suzhou), Division of Life Science and Medicine, University of Science and Technology of China,
Hefei 230026, China)
Abstract:Aiming at the problem that it is difficult to obtain the roof area of buildings accurately and efficiently in the evaluation of roof photovoltaic resources, the FPN_AttentionUnet semantic segmentation network is proposed to realize high-precision automatic extraction of building roofs. The network integrates soft attention mechanism and double-layer feature pyramid FPN to extract accurate semantic information and refine segmentation results. The Soft-Attention mechanism is used to process and connect the feature map of the encoding part and the decoding part. Double-layer feature pyramid FPN fuses feature maps of different scales to obtain feature information of different scales. The unmanned aerial vehicle is used to obtain the building data set over a certain area of Suzhou and the WHU public data set of Wuhan University for training, respectively. The training results show that compared with Unet, AttentionUnet and FPNUnet networks, the proposed FPN_AttentionUnet has higher accuracy in building outer contour extraction, which effectively improves the effect of edge extraction. In the self-made dataset, the category pixel accuracy CPA reaches 95.56%, and the average intersection and union ratio MIoU reaches 91.10%. In the WHU public dataset, the segmentation effect is also better than other comparison networks. Finally, taking Changzhou Campus of Hohai University as an example, the proposed algorithm was used to segment buildings from UAV images to evaluate the photovoltaic power generation and photovoltaic module installation potential of the area.
Keywords:distributed photovoltaic; deep learning; semantic segmentation; promote the whole county; improved Unet; building extraction