摘" 要: 在地震勘探工區(qū)內(nèi)自動分割建筑物目標對野外物理點布設(shè)和避障等工作具有重要意義。針對已有建筑物分割算法存在目標邊界分割不完整和小目標分割不準確的問題,提出基于改進Unet的地震勘探工區(qū)建筑物分割方法。該方法在原始Unet網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,首先增加特征批標準化網(wǎng)絡(luò)層,避免網(wǎng)絡(luò)訓(xùn)練過程中的梯度消失問題;然后增加多尺度卷積特征融合技術(shù),增強網(wǎng)絡(luò)特征表達能力;最后使用Diceloss損失函數(shù)優(yōu)化網(wǎng)絡(luò)參數(shù)。實驗結(jié)果表明,相比于原始Unet,分割I(lǐng)oU提高了約7%,目標邊界分割更加完整準確,對小目標也有較好的分割效果,同時對背景環(huán)境變化具有更強的適應(yīng)性。
關(guān)鍵詞: 地震勘探工區(qū); 建筑物分割; Unet; 多尺度卷積特征融合; 批標準化; Diceloss
中圖分類號: TN911?34" " " " " " " " " " " " "文獻標識碼: A" " " " " " " " " " " " " 文章編號: 1004?373X(2025)03?0135?06
Improved Unet based building segmentation in seismic exploration area
WANG Yaru, WANG Yun, JIANG Yongyong
(SINOPEC Geophysical Research Institute Co., Ltd., Nanjing 211103, China)
Abstract: The automatic segmentation of buildings (the objects) in seismic exploration area is of great significance for field physical point layout and obstacle avoidance. In view of the incomplete object boundary segmentation and inaccurate small object segmentation in the existing building segmentation algorithms, an improved Unet based building segmentation algorithm in seismic exploration area is proposed. On the basis of the original network structure of Unet, the feature batch normalization network layer is added to avoid gradient disappearance in the process of network training, and then the technique of multi?scale convolution feature fusion is added to enhance the network′ ability of feature expression. Finally, the Diceloss function is used to optimize the network parameters. The experimental results show that, in comparison with those of the original Unet, the segmentation IoU of the proposed method is improved by about 7%, its object boundary segmentation is more complete and accurate, and its effect for small object segmentation is better. In addition, it has stronger adaptability to the changes of environment.
Keywords: seismic exploration area; building segmentation; Unet; multi?scale convolution feature fusion; batch normalization; Diceloss
0" 引" 言
三維地震勘探對地震資料采集精度要求較高,以建筑物為代表的障礙物分布復(fù)雜,直接影響地震資料采集結(jié)果的好壞,因此在施工前需要進行觀測系統(tǒng)變觀設(shè)計。觀測系統(tǒng)變觀設(shè)計需要準確標出工區(qū)衛(wèi)星圖像內(nèi)建筑物等障礙物目標邊界信息,精確圈定所有可以布設(shè)激發(fā)點和接收點位置,從而對炮點位置、檢波點位置、測線重新分布,盡量減少由于建筑物等障礙物造成的勘探地震資料采集的空白[1]。傳統(tǒng)的手工標注障礙物的方式不僅人工成本高而且效率低下,無法滿足大范圍的施工需求。因此,開展勘探工區(qū)建筑物自動識別方法研究具有重要意義[2?3]。
近年來,基于深度學習的遙感圖像建筑物分割技術(shù)在圖像分割領(lǐng)域取得了一定應(yīng)用[4?5]。如文獻[6]提出的改進的FCN多光譜圖像建筑物識別,使用FCN網(wǎng)絡(luò)提取圖像不同角度和尺度的特征,然后將特征歸一化進行上采樣操作。該方法提取不同尺度和不同角度的目標特征,增強了網(wǎng)絡(luò)魯棒性,提高了識別精度。但是,此方法需進行較多的預(yù)處理工作,且計算量較大,特征融合復(fù)雜。
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割算法包括FCN[7]和Unet[8]等。相對于FCN,Unet可以融合網(wǎng)絡(luò)淺層和深層的圖像特征,目標分割結(jié)果更加準確,分割精度更高。因此,本文選擇Unet作為地震勘探工區(qū)建筑物分割的基礎(chǔ)網(wǎng)絡(luò)框架。地震勘探工區(qū)場景變化較大,且對建筑物分割精度要求較高,如果直接將原始的Unet網(wǎng)絡(luò)應(yīng)用于勘探工區(qū)中的建筑物分割中,可能存在以下三個問題。
1) 勘探工區(qū)場景中建筑物目標尺寸差距較大,無法準確分割出目標邊界且對小目標分割效果不佳。
2) 由于建筑物目標在圖像中較背景區(qū)域可能所占比例較小,從而造成樣本數(shù)據(jù)像素點類別失衡問題,使得網(wǎng)絡(luò)陷入損失函數(shù)的局部最優(yōu)。
3) 網(wǎng)絡(luò)模型在訓(xùn)練過程中可能會產(chǎn)生梯度消失問題,導(dǎo)致網(wǎng)絡(luò)模型收斂速度慢。
因此,本文提出一種改進的Unet網(wǎng)絡(luò)算法,算法以Unet為基礎(chǔ)網(wǎng)絡(luò),引入多尺度卷積特征融合、網(wǎng)絡(luò)層特征批標準化[9]和Diceloss損失函數(shù)[10],提取目標多種尺度卷積特征,剔除了光照和遮擋等環(huán)境因素的影響,解決了網(wǎng)絡(luò)訓(xùn)練過程中的樣本失衡和梯度消失問題,進一步提高了建筑物分割精度。
1" 建筑物分割方法
本文提出的改進Unet的地震勘探工區(qū)建筑物分割方法流程圖如圖1所示,流程主要包含網(wǎng)絡(luò)模型的訓(xùn)練階段和測試階段。訓(xùn)練階段:首先對訓(xùn)練集和驗證集圖像數(shù)據(jù)進行圖像增強等預(yù)處理工作;然后將訓(xùn)練集和驗證集對應(yīng)的預(yù)處理后的原始圖像和標簽圖像輸入到改進的Unet網(wǎng)絡(luò)結(jié)構(gòu)中進行網(wǎng)絡(luò)模型的訓(xùn)練;最后參照優(yōu)化策略調(diào)節(jié)網(wǎng)絡(luò)模型超參數(shù)最小化損失函數(shù),保留損失最小的網(wǎng)絡(luò)模型。測試階段:首先對測試集圖像進行裁剪等預(yù)處理操作;然后加載訓(xùn)練好的最優(yōu)網(wǎng)絡(luò)模型進行圖像測試;最后將測試的結(jié)果圖像進行拼接后處理,使得拼接后的圖像對應(yīng)于原始圖像的測試結(jié)果,并進行評價指標計算,完成網(wǎng)絡(luò)模型評價。
1.1" Unet簡介
Unet是文獻[11]提出的用于醫(yī)學圖像分割的網(wǎng)絡(luò)結(jié)構(gòu)。Unet是一種U型網(wǎng)絡(luò)結(jié)構(gòu),包含編碼、解碼過程。編碼過程Unet進行了4次下采樣操作,輸出特征圖的寬和高是原始圖像尺寸的[116]。解碼部分相應(yīng)地進行4次上采樣操作,將編碼部分提取的圖像高級語義特征進行解碼,最終輸出特征圖的寬和高與原始圖像大小一致。
深層網(wǎng)絡(luò)層輸出的特征圖包含抽象語義特征且擁有更大的感受野,淺層網(wǎng)絡(luò)層輸出的特征圖包含紋理位置等細節(jié)特征。因此,Unet網(wǎng)絡(luò)結(jié)構(gòu)加入了skip?connection,將包含圖像細節(jié)的高層特征和上下文信息的低層特征進行拼接融合,最終實現(xiàn)更加精確的目標分割結(jié)果。
1.2" 改進的Unet
為了使Unet網(wǎng)絡(luò)模型能夠更好地應(yīng)用于地震勘探工區(qū)遙感圖像的建筑物目標分割,本文提出一種改進的Unet網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
在編碼階段,將訓(xùn)練數(shù)據(jù)同時輸入到下采樣模塊和多尺度卷積特征融合模塊,網(wǎng)絡(luò)在下采樣的同時進行多尺度卷積特征融合操作。
在解碼階段,每次上采樣后,將對稱的編碼結(jié)果、該層的上采樣結(jié)果和多尺度卷積特征融合結(jié)果進行Concatenation操作,然后將輸出結(jié)果進行下一個上采樣操作。改進后的Unet可以提取目標多種卷積尺度的特征,使得網(wǎng)絡(luò)可以提取更多局部細節(jié)信息和全局信息。
1.2.1" 多尺度卷積特征融合
原始Unet網(wǎng)絡(luò)常用于醫(yī)學圖像的目標分割任務(wù)且能取得較好的目標分割結(jié)果,醫(yī)學圖像通常背景簡單且特征復(fù)雜度低。與醫(yī)學圖像不同,本文采用的是遙感圖像數(shù)據(jù)集,遙感圖像數(shù)據(jù)背景復(fù)雜多變且包含不同尺寸的建筑物目標,目標特征較為復(fù)雜。原始Unet網(wǎng)絡(luò)采用固定的卷積尺寸,無法有效分割衛(wèi)星圖像中的建筑物目標,分割邊界不準確。
因此,為了提取圖像不同尺寸特征,本文在原始Unet網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上增加類似inception模塊結(jié)構(gòu)多尺度卷積特征融合結(jié)構(gòu),即在編碼階段選擇1×1、3×3和5×5三種卷積核尺寸組合進行卷積操作,選取4個下采樣分支并行操作,然后將并行結(jié)果進行Concatenation操作,將下采樣提取的特征和多尺度卷積特征融合結(jié)果以及上采樣結(jié)果進行特征融合,這種方式擴張了網(wǎng)絡(luò)寬度,使得網(wǎng)絡(luò)提取目標的不同尺寸特征,從而增強了網(wǎng)絡(luò)的特征提取能力。
多尺度卷積特征融合結(jié)構(gòu)如圖3所示。
引入多尺度卷積特征融合技術(shù)后使得網(wǎng)絡(luò)可以提取目標不同尺度的特征信息,包含更多目標邊界細節(jié)特征和全局信息,能夠剔除遮擋光照等因素對分割結(jié)果的影響,增強網(wǎng)絡(luò)的抗干擾能力,進一步提高了建筑物分割精度。
1.2.2" Diceloss損失函數(shù)
Unet在網(wǎng)絡(luò)模型訓(xùn)練階段,由于建筑物目標相對于背景目標在圖像中所占比例較小,產(chǎn)生樣本數(shù)據(jù)類別不均衡問題,使網(wǎng)絡(luò)容易陷入損失函數(shù)的局部最小值,無法達到全局最優(yōu)。解決樣本數(shù)據(jù)類別失衡的常用方法是對訓(xùn)練數(shù)據(jù)進行剪裁,剪裁之后的每張圖像都包含一定比例的各類目標,使得數(shù)據(jù)集中每個類別比例保持相對平衡的狀態(tài),但是這種方式大大增加了數(shù)據(jù)處理工作且并沒有從根本上解決問題。
為了解決在網(wǎng)絡(luò)訓(xùn)練過程中數(shù)據(jù)集類別失衡問題,本文引入Diceloss函數(shù)作為建筑物分割時的網(wǎng)絡(luò)損失函數(shù),Diceloss目標是最大化預(yù)測類別和真實類別之間的重疊部分。Diceloss函數(shù)在不需要過多人工處理和不降低網(wǎng)絡(luò)實時性能的前提下解決數(shù)據(jù)樣本類別失衡問題。
Diceloss計算公式[12]如式(1)所示:
[LDice=1-k=1K2ωkn=1Npkngknn=1Npkn+n=1Ngkn] (1)
式中:[K]表示圖像中總類別數(shù),需要分類建筑物像素點和非建筑物像素點兩類目標,取值為2;[N]表示像素點的總數(shù);[pkn]和[gkn]都是概率值,取值范圍為[0,1],前者為softmax層輸出,后者為像素點[n]預(yù)測屬于種類[k]的標簽值。
從式(1)可以看出,Diceloss函數(shù)把每個類別的所有像素作為一個整體來計算損失,計算結(jié)果相當于預(yù)測結(jié)果和標簽區(qū)域的交并比值。引入Diceloss作為損失函數(shù)進行誤差反向傳播,將分割效果評估指標作為網(wǎng)絡(luò)損失監(jiān)督網(wǎng)絡(luò)訓(xùn)練,解決了數(shù)據(jù)集類別不均衡問題,加快了網(wǎng)絡(luò)訓(xùn)練收斂速度,進一步提高了網(wǎng)絡(luò)分割精度。
1.2.3" 批標準化
在網(wǎng)絡(luò)模型訓(xùn)練過程中,網(wǎng)絡(luò)層的輸入分布會發(fā)生偏移、變動,且隨著網(wǎng)絡(luò)層加深這種現(xiàn)象就會越明顯。在網(wǎng)絡(luò)反向傳播過程中,當整體分布接近于激活函數(shù)的飽和區(qū)域時,會產(chǎn)生梯度消失問題,導(dǎo)致網(wǎng)絡(luò)模型收斂速度慢。因此,本文在每個卷積塊之后都引入批標準化(Batch Normalization, BN)層來解決此問題。
本文在進行下采樣前,將特征圖進行批標準化,重新調(diào)整了特征數(shù)據(jù)分布,本質(zhì)是將卷積層的輸出歸一化到均值為0、方差為1的標準正態(tài)分布。標準化后的數(shù)據(jù)分布于激活函數(shù)較為敏感的區(qū)域,使得梯度變大,保證了梯度的有效性,加快網(wǎng)絡(luò)模型的收斂。同時,BN層對隱藏層加入了一定的噪音,使得網(wǎng)絡(luò)有正則化的作用,防止網(wǎng)絡(luò)產(chǎn)生過擬合現(xiàn)象。
BN層具體計算方式[13]如式(2)所示:
[μB←1mi=1mxiσ2B←1mi=1m(xi-μB)2xi←xi-μBσ2B+εyi←γxi+β=BNγ, β(xi)] (2)
式中:[m]是數(shù)據(jù)批量大??;[μB]是均值;[σ2B]是方差;[ε]是平滑因子;[xi]是歸一化后的數(shù)據(jù);[yi]是轉(zhuǎn)換重構(gòu)后的結(jié)果。
輸入:批次[B={x1,x2,…,xm}]中的值
需要學習的參數(shù):[γ]、[β]
輸出:[{yi=BNγ, β(xi)}]
2" 實驗及結(jié)果分析
本文實驗采用基于Keras深度學習框架并結(jié)合Python編程語言進行相關(guān)代碼的編寫和網(wǎng)絡(luò)模型參數(shù)的訓(xùn)練(后端為TensorFlow 1.12.0)。實驗設(shè)備配置:64位Ubuntu 18.04 LTS,GPU:NVIDIA Tesla K80×3,CUDA 9.0,CUDNN 7.6.1,顯存12 GB。
2.1" 數(shù)據(jù)集
本文實驗數(shù)據(jù)使用開源公共數(shù)據(jù)集Inria[12]。Inria遙感圖像數(shù)據(jù)集來自法國國家信息與自動化研究所,是一個用于城市建筑物檢測的遙感圖像數(shù)據(jù)集,圖像數(shù)據(jù)示例如圖4所示。實驗數(shù)據(jù)集包含各種背景環(huán)境下的建筑物目標,旨在提高網(wǎng)絡(luò)模型的泛化能力。
2.2" 實驗結(jié)果和分析
為了評估本文提出方法在該數(shù)據(jù)集上建筑物分割的有效性,實驗使用像素精度(Acc)和交并比[13](IoU)兩種指標進行模型評價,公式如式(3)、式(4)所示:
[Acc=i=0kPiii=0kj=0kPij] (3)
[IoU=1k+1i=0kPiij=0kPij+j=0kPji-Pii]" (4)
式中:[k]+1代表像素點類別(包含一個背景類別);[Pij]代表類別為[i]的像素點被模型預(yù)測為類別[j]的像素點總數(shù);[Pji]代表類別為[j]的像素點被模型預(yù)測為類別[i]的像素點總數(shù);[Pii]表示類別為[i]的像素點被模型預(yù)測為類別[i]的像素點總數(shù)。
本文在實驗數(shù)據(jù)上驗證了提出的建筑物分割方法的有效性,為了加快訓(xùn)練進程,實驗采用三塊GPU并行計算。網(wǎng)絡(luò)訓(xùn)練50個epoch,使用Adam優(yōu)化器使得網(wǎng)絡(luò)模型訓(xùn)練更加穩(wěn)定。
實驗主要分為以下三個部分。
1) 不同建筑物分割方法的效果
為了驗證本文提出方法的有效性,利用實驗數(shù)據(jù)集對原始Unet網(wǎng)絡(luò)和改進后的Unet網(wǎng)絡(luò)模型進行訓(xùn)練和測試,兩種算法的在測試集上的分割結(jié)果如表1所示。
從表1可以看出,改進后的Unet網(wǎng)絡(luò)的Acc提高了2.17%,IoU提高了7.55%,達到了75.69%??梢钥闯?,改進后的Unet網(wǎng)絡(luò)分割結(jié)果明顯優(yōu)于原始Unet網(wǎng)絡(luò)。圖5為測試圖像,對比兩種算法的測試結(jié)果,為了更加清晰對比分割效果,隨機挑選左下角圖像進行局部放大。圖6是對應(yīng)原始圖像的標簽圖像,其中白色區(qū)域代表建筑物目標區(qū)域,黑色區(qū)域為非建筑物目標區(qū)域。測試結(jié)果如圖7、圖8所示。圖7是原始Unet的建筑物分割結(jié)果,圖8是改進Unet的建筑物分割結(jié)果。對比標簽圖像,原始Unet測試結(jié)果中有較多的錯誤目標且目標邊界不準確。對比原始Unet測試結(jié)果,改進Unet的分割建筑物目標更加完整,邊界更加準確,分割結(jié)果更接近標簽圖像。
2) 采用不同策略訓(xùn)練網(wǎng)絡(luò)的分割效果
為了進一步說明本文提出的多尺度卷積特征融合、特征批標準化和Diceloss損失函數(shù)改進方法的有效性,本節(jié)實驗使用數(shù)據(jù)對提出不同改進方法的網(wǎng)絡(luò)模型進行訓(xùn)練和測試,模型測試結(jié)果如表2所示。
從表2可以看出不同改進策略對原始Unet網(wǎng)絡(luò)分割效果的影響。策略1和策略2對比,Acc提高了0.85%,IoU提高了3.2%。改進策略2與策略3對比,Acc提高了0.67%,IoU提高了2.42%。改進策略4與策略2對比,Acc提高了0.34%,IoU提高了1.29%。實驗證明,本文提出的三種改進方法均能提高模型的建筑物目標分割精度。
3) 不同環(huán)境下建筑物分割效果
我國幅員遼闊,不同地區(qū)之間地質(zhì)環(huán)境差異較大,需要在不同場景下進行地震勘探采集。選擇兩種典型的不同場景下的圖像進行模型測試,一種是建筑物較為分散的郊區(qū),另一種是建筑物密集的城區(qū),如圖9a)所示。對本文提出的改進Unet網(wǎng)絡(luò)結(jié)構(gòu)進行模型測試,其中圖9b)是對應(yīng)原始圖像的標簽圖像,模型測試結(jié)果如圖9c)所示,圖9d)是分割效果圖與原圖的疊加效果。
由圖9可以看出,測試結(jié)果非常接近標簽圖像,分割的建筑物目標較為完整,邊界較為清晰,分割的小目標也較為準確。實驗結(jié)果證明,本文提出的算法適用于不同背景條件下的建筑物分割目標,對不同場景下的勘探工區(qū)具有通用性,為觀測系統(tǒng)變觀設(shè)計提供了基礎(chǔ)保障。
3" 結(jié)" 語
本文針對地震勘探工區(qū)建筑物提取問題提出一種改進Unet的地震勘探工區(qū)建筑物自動分割方法,來提取工區(qū)遙感圖像中的建筑物目標,為后續(xù)觀測系統(tǒng)變觀設(shè)計等工作提供基礎(chǔ)。相對于原始Unet網(wǎng)絡(luò)結(jié)構(gòu),改進后的Unet的網(wǎng)絡(luò)結(jié)構(gòu)增加了多尺度卷積特征融合技術(shù)、特征批標準化和Diceloss損失函數(shù)。實驗結(jié)果證明,本文提出的改進方法對建筑物分割精度有顯著提高,分割目標更加準確,邊界更加清晰完整,且對小目標有較好的分割效果,并對不同場景下的建筑物目標均有較好的分割結(jié)果,魯棒性更強。
注:本文通訊作者為王雅如。
參考文獻
[1] 吳蔚,門哲,馬蘭,等.基于深度學習的高清影像地物矢量化技術(shù)及應(yīng)用[J].物探裝備,2023,33(6):366?369.
[2] 潘曉兵,李隱,金守峰.自然保護區(qū)大型障礙物變觀三維觀測系統(tǒng)設(shè)計及應(yīng)用:以隆盛老瀛山自然保護區(qū)為例[J].內(nèi)蒙古石油化工,2022,48(3):35?37.
[3] 杜妍開,龔麗霞,李強,等.基于最優(yōu)分割的高分辨率遙感影像震害建筑物識別技術(shù)[J].地震學報,2020,42(6):760?768.
[4] 鄧博文,徐勝軍,孟月波,等.一種交叉區(qū)域注意力的高分辨率遙感建筑物提取算法[J].小型微型計算機系統(tǒng),2024,45(1):207?215.
[5] 孫顯,孟瑜,刁文輝,等.智能遙感:AI賦能遙感技術(shù)[J].中國圖象圖形學報,2022,27(6):1799?1822.
[6] 張永梅,付昊天,孫海燕,等.一種基于改進FCN的多光譜圖像建筑物識別方法[J].計算機工程,2019,45(1):239?245.
[7] ZHANG M, HUANG C L. A spectral element method to compute Earth′s free core nutation [J]. Research in astronomy and astrophysics, 2023, 23(9): 173?181.
[8] WANG Z T, SHI F, YANG X H, et al. (DarkAI) Mapping the large?scale density field of dark matter using artificial intelligence [J]. Science China (Physics, mechanics amp; astronomy), 2023, 67(1): 147?163.
[9] MAGGIORI E, TARABALKA Y, CHARPIAT G, et al. Can semantic labeling methods generalize to any city? the inria aerial image labeling benchmark [C]// IGARSS IEEE International Geoscience amp; Remote Sensing Symposium. New York: IEEE, 2017: 3226?3229.
[10] 王宏樂,葉全洲,王興林,等.基于YOLOv7的無人機影像稻穗計數(shù)方法研究[J].廣東農(nóng)業(yè)科學,2023,50(7):74?82.
[11] RONNEBERGER O, FISCHER P, BROX T. U?Net: Convolutional networks for biomedical image segmentation [C]// International Conference on Medical Image Computing and Computer?Assisted Intervention. Heidelberg, Germany: Springer, 2015: 234?241.
[12] WANG L, WANG C, SUN Z, et al. An improved dice loss for pneumothorax segmentation by mining the information of negative areas [J]. IEEE access, 2020, 8: 167939?167949.
[13] QIN L K, GONG Y F, TANG T Q, et al. Training deep nets with progressive batch normalization on multi?GPUs [J]. International journal of parallel programming, 2019, 47(3): 373?387.