黃 堅(jiān),李 鑫,陳 芳,崔 茹,李慧敏,杜博文
(1.北京航空航天大學(xué)軟件學(xué)院,北京 100191;2.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京 100191)
高位遠(yuǎn)程滑坡因其隱蔽性強(qiáng),致災(zāi)效應(yīng)嚴(yán)重等特點(diǎn),對(duì)人民生命財(cái)產(chǎn)安全產(chǎn)生巨大威脅,對(duì)潛在滑坡隱患進(jìn)行識(shí)別監(jiān)測(cè)成為關(guān)系人民生活的重大需求。傳統(tǒng)滑坡監(jiān)測(cè)方法依賴(lài)地質(zhì)領(lǐng)域?qū)<疫M(jìn)行人工識(shí)別判定,準(zhǔn)確性高,但工作效率較低,難以支持對(duì)我國(guó)廣袤國(guó)土上的地質(zhì)災(zāi)害隱患點(diǎn)做系統(tǒng)性排查的工作[1]。
近年來(lái),隨著衛(wèi)星遙感、InSAR[2]、GNSS[3]等先進(jìn)觀測(cè)手段的充分應(yīng)用,地質(zhì)調(diào)查領(lǐng)域構(gòu)成了天-空-地聯(lián)合的立體動(dòng)態(tài)對(duì)地觀測(cè)網(wǎng)絡(luò),積累了全面綜合的地質(zhì)觀測(cè)大數(shù)據(jù)。以深度學(xué)習(xí)為代表的人工智能技術(shù)日漸發(fā)展成熟,可以在大規(guī)模樣本數(shù)據(jù)的幫助下提取領(lǐng)域?qū)ο蟮奶卣鳎M(jìn)行自動(dòng)化識(shí)別判定。因此應(yīng)用數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)建模分析思想對(duì)地質(zhì)觀測(cè)大數(shù)據(jù)進(jìn)行自動(dòng)化的解譯,成為滑坡隱患快速篩查識(shí)別的有效途徑。
目前,許多研究基于滑坡在視覺(jué)特征上與周邊區(qū)域的差異性,以遙感影像為數(shù)據(jù)源,應(yīng)用計(jì)算機(jī)視覺(jué)分析技術(shù)進(jìn)行滑坡地形的定位和分割,獲得較好識(shí)別效果[4?6]。然而滑坡的影像特征具有形態(tài)不定、局部模糊、陰影云層遮擋等缺點(diǎn),僅使用光學(xué)遙感影像對(duì)滑坡災(zāi)害進(jìn)行識(shí)別與定位具有一定的局限性,識(shí)別準(zhǔn)確性所能達(dá)到的上限較低。
滑坡識(shí)別的影響因素眾多,視覺(jué)特征僅是其中一種,因此,采集分析滑坡區(qū)域的地形地貌、地質(zhì)水文等多角度觀測(cè)數(shù)據(jù),可以提取更加全面立體的滑坡特征,降低數(shù)據(jù)模糊性,提升整體的檢測(cè)能力[7]?;诙嗑S數(shù)據(jù)進(jìn)行多源數(shù)據(jù)融合分析來(lái)實(shí)現(xiàn)滑坡識(shí)別,已成為當(dāng)前的研究熱點(diǎn)。
多源融合分析方法早期針對(duì)數(shù)據(jù)特點(diǎn)相似的數(shù)據(jù)進(jìn)行融合,如Pradhan 等[8]以機(jī)載激光雷達(dá)(LiDAR)提取的DEM 數(shù)據(jù)和QuickBird 衛(wèi)星圖像為基礎(chǔ),通過(guò)小波變換對(duì)2類(lèi)數(shù)據(jù)進(jìn)行融合;Ma 等[9]提出了一種使用Wordview2 圖像自動(dòng)檢測(cè)淺層滑坡的方法,選擇土壤亮度和植被指數(shù)作為滑坡遙感的指標(biāo)。這些方法融合的數(shù)據(jù)類(lèi)型少,大多只融合2、3 種數(shù)據(jù),而近年來(lái)滑坡觀測(cè)數(shù)據(jù)集內(nèi)容日益豐富,包含了低層傳感數(shù)據(jù)、高層語(yǔ)義信息乃至先驗(yàn)知識(shí),其融合已經(jīng)不能滿足需求,融合效果不夠完善。同時(shí)在融合方法上,早期的融合分析多采用基于概率、基于證據(jù)理論、基于知識(shí)等的融合方法[10?11],也存在著難以處理高維復(fù)雜數(shù)據(jù),數(shù)據(jù)噪聲和缺失敏感等問(wèn)題,工程實(shí)施難度大,融合效率低。
針對(duì)上述問(wèn)題,本文提出了一種基于多源數(shù)據(jù)融合的滑坡地形深度學(xué)習(xí)識(shí)別模型,該模型具有以下特點(diǎn):(1)提出了基于深度學(xué)習(xí)的端到端多源數(shù)據(jù)融合識(shí)別框架,實(shí)現(xiàn)了不同領(lǐng)域、不同形式的數(shù)據(jù)的自動(dòng)化融合分析,尤其是地貌、水系、斷裂帶等地質(zhì)信息的加入,豐富了模型所能處理的信息類(lèi)型;(2)加入分組機(jī)制和和注意力機(jī)制,在縮短模型計(jì)算時(shí)間,提高融合效率的同時(shí)保證了識(shí)別的準(zhǔn)確率;(3)實(shí)現(xiàn)了特征分支網(wǎng)絡(luò),提高了數(shù)據(jù)的利用率,改善了模型的識(shí)別效果。最終得到的結(jié)果具有像素級(jí)別精確度,可以劃分滑坡具體發(fā)生范圍,為地質(zhì)研究人員的進(jìn)一步研究提供更高的參考價(jià)值。
文章所使用的數(shù)據(jù)包括金沙江流域的87 處滑坡和其它區(qū)域(延安、北川、黑方臺(tái)、映秀、黃茨和舟曲等地)的40 處滑坡。金沙江位于揚(yáng)子江上游,流經(jīng)中國(guó)西部的青海省、四川省和云南省。金沙江流域滑坡作為主要滑坡樣本,其它區(qū)域的滑坡作為補(bǔ)充樣本,以提高模型泛化能力。同時(shí)為了增加樣本數(shù)量,降低過(guò)擬合帶來(lái)的風(fēng)險(xiǎn),根據(jù)數(shù)據(jù)的質(zhì)量,每處滑坡選取5~10 張遙感圖像作為訓(xùn)練樣本,在完成了對(duì)所選樣本的標(biāo)注之后,最終得到的遙感圖像與標(biāo)注信息如圖1所示。
圖1 光學(xué)遙感影像的標(biāo)注與疊加Fig.1 Annotation and superimpose of optical remote sensing image
除了光學(xué)遙感圖像,我們還采集到了地質(zhì)、地貌水系、斷裂等諸多對(duì)滑坡的形成有重要作用的數(shù)據(jù)。由于所采集、保存的數(shù)據(jù)都遵循著不同的協(xié)議,無(wú)法直接作為模型的輸入。對(duì)于多源異構(gòu)數(shù)據(jù),首先要建立數(shù)據(jù)一致性關(guān)系,將不同來(lái)源的數(shù)據(jù)通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化、幾何糾正、投影變換、影像裁剪與位圖生成等方法,得到范圍與分辨率相等的png 格式的圖像,如圖2所示。
圖2 數(shù)據(jù)一致性構(gòu)建成果圖Fig.2 Data consistency construction result map
在收集到的所有數(shù)據(jù)中,光學(xué)遙感圖像包含了滑坡識(shí)別中最重要的紋理、形狀、顏色等特征,對(duì)滑坡的識(shí)別起著主要作用。但同時(shí)影響滑坡形成的原因是多方面的,地質(zhì)構(gòu)造、氣候水文、生物活動(dòng)等內(nèi)容都會(huì)不可避免的對(duì)地質(zhì)環(huán)境的變化造成影響。為了充分利用各種數(shù)據(jù),建立多源數(shù)據(jù)融合識(shí)別模型,實(shí)現(xiàn)了端到端的訓(xùn)練模式,從數(shù)據(jù)到特征再到?jīng)Q策,分階段逐次融合,模型框架如圖3所示。該模型不需要像傳統(tǒng)數(shù)據(jù)融合方法那樣手工設(shè)計(jì)融合規(guī)則,既降低了工作量,又保證了識(shí)別的精度。
圖3 基于數(shù)據(jù)融合思想的滑坡識(shí)別系統(tǒng)框架Fig.3 The framework of landslide recognition system based on data fusion idea
該框架中的重點(diǎn)在于光學(xué)遙感圖像特征的提取,以及其他專(zhuān)題數(shù)據(jù)特征的提取與融合
光學(xué)遙感圖像特征的提取,可以作為多源數(shù)據(jù)融合識(shí)別模型的一部分。在無(wú)法獲取除遙感圖像外的其他數(shù)據(jù)的情況下,也可以加入上采樣模塊單獨(dú)構(gòu)成光學(xué)遙感圖像識(shí)別模型。作為語(yǔ)義分割技術(shù)在地質(zhì)監(jiān)測(cè)領(lǐng)域的實(shí)際應(yīng)用,利用圖像數(shù)據(jù),在其中找出滑坡區(qū)域的范圍要求模型具有高召回率,避免出現(xiàn)漏報(bào)的情況;同時(shí)大面積國(guó)土排查又需要識(shí)別模型具有極高的計(jì)算效率。識(shí)別精度與計(jì)算效率這二者是矛盾的,精度的提升往往伴隨著模型復(fù)雜程度的提高,更多的層數(shù),更復(fù)雜的連接方式,模型具有更大的參數(shù)量,模型在運(yùn)算時(shí)要花費(fèi)更多的時(shí)間。為了能找到二者之間的平衡點(diǎn),文章基于U 型結(jié)構(gòu)[12]與全卷積網(wǎng)絡(luò),結(jié)合金字塔池化與自注意力機(jī)制,提升模型識(shí)別效果;利用局部連接、權(quán)重共享以及分組機(jī)制,降低模型的參數(shù)量,從而同時(shí)滿足模型的高召回率與高時(shí)效性需求(圖4)。
圖4 基于機(jī)器視覺(jué)的滑坡識(shí)別模型結(jié)構(gòu)框架Fig.4 Structural framework of landslide recognition model based on machine vision
文章采用ResNet 作為特征提取網(wǎng)絡(luò)[13],用于原始圖像的特征提取;ASPP 作為圖像信息恢復(fù)網(wǎng)絡(luò),來(lái)完成上采樣還原圖像。其中,ResNet 比傳統(tǒng)的CNN 網(wǎng)絡(luò)具有更深的學(xué)習(xí)層次、更優(yōu)的學(xué)習(xí)效率、更快的收斂速度。網(wǎng)絡(luò)的基本殘差塊在普通卷積層的基礎(chǔ)上,加入了額外的支路——跨層連接,將網(wǎng)絡(luò)的映射關(guān)系變?yōu)榱巳鐖D5所示的結(jié)構(gòu)。
圖5 殘差學(xué)習(xí)單元Fig.5 Residual learning unit
該結(jié)構(gòu)可以學(xué)習(xí)更加簡(jiǎn)單的F(x)特征映射函數(shù),緩解了退化問(wèn)題,提升了網(wǎng)絡(luò)性能。本文還引入空間金字塔池化模塊(ASPP)[14]來(lái)進(jìn)一步提取多尺度信息,控制感受野的大小。ASPP 模塊總共一個(gè)卷積核尺寸為1×1 的卷積層,以及三個(gè)3×3 的空洞卷積,卷積層后都跟有Batchnorm 層,輸出通道為256 維。經(jīng)過(guò)這一部分之后再經(jīng)過(guò)一個(gè)1×1 的卷積層,然后采用雙線性插值的方法擴(kuò)充到原始輸入大小。ASPP 中的空洞卷積是在離散卷積的基礎(chǔ)上改進(jìn)得到的,傳統(tǒng)離散卷積的公式為:
空洞卷積在此基礎(chǔ)上加入了空洞系數(shù)l,將公式轉(zhuǎn)變?yōu)椋?/p>
式中:kl——空洞系數(shù)為λ 的空洞卷積核。
地質(zhì)專(zhuān)家在識(shí)別滑坡時(shí)通常先觀察整體,忽略不可能存在滑坡的區(qū)域,尋找疑似滑坡的地點(diǎn),然后集中注意力,精細(xì)地判別滑坡是否存在并勾勒滑坡的邊緣。本文參考這一模式,對(duì)ResNet 網(wǎng)絡(luò)進(jìn)行了優(yōu)化,修改了網(wǎng)絡(luò)中的Bottleneck 結(jié)構(gòu)。首先進(jìn)行一次1×1 的卷積,然后加入注意力模塊(Attention Block),最后再以一次1×1 的卷積結(jié)尾。其結(jié)構(gòu)如圖6所示。
圖6 引入注意力機(jī)制的Bottleneck 結(jié)構(gòu)Fig.6 The Bottleneck structure introducing the attention mechanism
對(duì)于分組機(jī)制,Krizhevsky 等[15]證明了用分組方式可以在不增加模型復(fù)雜度的前提下提高模型準(zhǔn)確率,它將網(wǎng)絡(luò)分為兩組,一組主要學(xué)習(xí)黑白信息,另一組主要學(xué)習(xí)彩色信息,這在當(dāng)時(shí)GPU 計(jì)算能力還不強(qiáng)的情況下有效兼顧了模型的深度與訓(xùn)練的速度。因此本項(xiàng)目在ResNet 的基礎(chǔ)上,引入Cardinality 結(jié)構(gòu),將網(wǎng)絡(luò)分為若干分支,作為不同的子空間來(lái)增加網(wǎng)絡(luò)寬度,由此得到的ResNeXt 網(wǎng)絡(luò)將作為ResNet 的優(yōu)化版本完成對(duì)遙感圖像的特征提取。
綜合注意力機(jī)制與分組機(jī)制,可以得到本項(xiàng)目?jī)?yōu)化后的ResNet50-SA 網(wǎng)絡(luò)的完整結(jié)構(gòu),如圖7所示,其中S 代表分組機(jī)制(Split),A 代表注意力機(jī)制(Attention)。
圖7 基于改良ResNet50-SA 的語(yǔ)義分割網(wǎng)絡(luò)架構(gòu)圖Fig.7 Semantic segmentation network architecture diagram based on improved ResNet50-SA
光學(xué)圖像的特征提取之后,要完成的就是其他專(zhuān)題數(shù)據(jù)的特征提取與融合工作。
根據(jù)對(duì)現(xiàn)有數(shù)據(jù)的調(diào)查,可以確定除了光學(xué)遙感影像必定存在外,其他專(zhuān)題數(shù)據(jù)都存在一定缺失,為了避免根據(jù)輸入變化頻繁調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)數(shù)據(jù)融合的思想,在輸入前將除光學(xué)遙感影像外的專(zhuān)題數(shù)據(jù)進(jìn)行拼接,得到一張維度更大的灰度圖,同時(shí)利用全卷積網(wǎng)絡(luò)處理輸入,可以實(shí)現(xiàn)單個(gè)模型處理不同輸入。
地質(zhì)大數(shù)據(jù)集中的數(shù)據(jù)包含的信息量各不相同,如果輸入到同一網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行處理,會(huì)產(chǎn)生嚴(yán)重的過(guò)擬合和欠擬合的問(wèn)題,導(dǎo)致融合結(jié)果出現(xiàn)偏差。為了解決這一問(wèn)題,本課題研究實(shí)現(xiàn)了具有分支的特征提取網(wǎng)絡(luò),對(duì)不同的數(shù)據(jù)采用不同深度、廣度的殘差網(wǎng)絡(luò),來(lái)適應(yīng)提取特征向量過(guò)程中的不同需求。對(duì)于光學(xué)遙感影像,采用上文提到的ResNet50-SA 網(wǎng)絡(luò)架構(gòu),對(duì)于其他專(zhuān)題數(shù)據(jù),采用ResNet34 網(wǎng)絡(luò)架構(gòu),分別提取特征向量,然后再進(jìn)行融合。為了使根據(jù)特征得到?jīng)Q策具有可比較性,將專(zhuān)題數(shù)據(jù)得到的特征向量進(jìn)行特征融合:
式中:T(Xt)—融合后的特征向量;
H(Xt)——海拔特征;
D(Xt)——地貌特征;
Z(Xt)——地質(zhì)特征;
R(Xt)——河流分布特征;
L(Xt)——活動(dòng)斷裂分布特征。
將融合后的專(zhuān)題特征向量與光學(xué)特征進(jìn)行融合,這一過(guò)程分為三步,流程如圖8所示:
圖8 模型融合過(guò)程圖Fig.8 Model fusion process diagram
第一步,F(xiàn)eature Map 融合。將光學(xué)特征C(Xi) 和專(zhuān)題特征S(Xi) 通過(guò) element-wise product 的方法初步融合得到I(Xi)。
第二步,通道關(guān)系構(gòu)建。對(duì)I(Xi) 進(jìn)行特征重標(biāo)定,分別進(jìn)行通道抽取FAvg(IC)、通道關(guān)系計(jì)算FFc(u)和結(jié)合FMul()操作。對(duì)于通道抽取,特征向量I的維度為H×W×C,經(jīng)過(guò)通道抽取得到uC為1×1×C。
對(duì)于通道關(guān)系計(jì)算,W1、W2、δ分別表示兩個(gè)全連接層的卷積核和一個(gè)ReLU 激活層。
FMul()由前兩步的結(jié)果元素對(duì)位相乘得出。
第三步,殘差連接,將初始特征向量和第二步得到的重構(gòu)特征向量相加,可以在增強(qiáng)特征信息重要性時(shí)盡量減少背景信息的丟失。
綜上所述,可以得到基于MFNet(MF 代表Model Fusion)的多源數(shù)據(jù)融合模型整體框架如圖9所示。
圖9 基于數(shù)據(jù)融合思想的特征提取和識(shí)別模型結(jié)構(gòu)圖Fig.9 Structure diagram of feature extraction and recognition model based on data fusion idea
在模型的結(jié)果的評(píng)估上,由于在滑坡識(shí)別這一應(yīng)用場(chǎng)景中,模型對(duì)圖像各像素給出的判別結(jié)果只包含兩個(gè)類(lèi)別,滑坡與背景,可以作為一個(gè)二分類(lèi)問(wèn)題來(lái)考慮,因此本文選取了二分類(lèi)問(wèn)題中常用的IOU、ACC、F1-Score作為評(píng)價(jià)指標(biāo)。對(duì)于二分類(lèi)問(wèn)題,模型預(yù)測(cè)的結(jié)果和真實(shí)標(biāo)簽存在4 種不同的組合:TP、FP、FN、TN,如表1所示。而本文選擇的3 種評(píng)價(jià)指標(biāo),則正是依賴(lài)于這些不同的標(biāo)簽組合來(lái)完成計(jì)算的,其中前2 者的計(jì)算公式如下:
表1 二分類(lèi)問(wèn)題中預(yù)測(cè)結(jié)果與真實(shí)標(biāo)簽的組合關(guān)系Table 1 The combination between predicted results and real labels in dichotomous problems
F1-Score的計(jì)算則依賴(lài)于另兩個(gè)基礎(chǔ)指標(biāo),Recall與Precision,是一個(gè)更能反映模型綜合水平的指標(biāo),計(jì)算公式如下:
不同的指標(biāo)具有不同的傾向,IOU傾向給出一個(gè)直觀性的評(píng)價(jià),即預(yù)測(cè)結(jié)果與真實(shí)結(jié)果間的重合程度;ACC會(huì)將背景也納入計(jì)算;F1-Score則可以視為綜合查準(zhǔn)率與查全率給出的評(píng)價(jià)。
模型的訓(xùn)練和測(cè)試均在4 張Nvidia Titan(Pascal)GPU 上進(jìn)行,操作系統(tǒng)為Ubuntu16.04,64 GB 內(nèi)存,算法采用Pytorch 深度學(xué)習(xí)框架,內(nèi)置Python 3.6 開(kāi)發(fā)環(huán)境。模型使用SGD 梯度下降算法,Batchsize 大小設(shè)為128,初始學(xué)習(xí)率為0.01,動(dòng)量值0.9,采用Poly 衰減策略對(duì)學(xué)習(xí)率進(jìn)行調(diào)整,公式為:
實(shí)驗(yàn)時(shí),除了訓(xùn)練了本文設(shè)計(jì)出的光學(xué)遙感圖像識(shí)別模型和多源數(shù)據(jù)融合識(shí)別模型外,還對(duì)幾種常見(jiàn)的語(yǔ)義分割模型進(jìn)行了訓(xùn)練與測(cè)試,包括U-Net,PSPNet[16],DeepLab v3[17],DeepLab v3+[18];同時(shí),在對(duì)多源數(shù)據(jù)融合識(shí)別模型進(jìn)行測(cè)試時(shí),不僅實(shí)現(xiàn)了融合所有專(zhuān)題數(shù)據(jù)的版本,包括高程、地質(zhì)、地貌、水系、活動(dòng)斷裂,我們還測(cè)試了僅融合光學(xué)圖像與高程數(shù)據(jù)的模型,實(shí)驗(yàn)的結(jié)果如表2、表3所示。
表2 基于光學(xué)遙感圖像的識(shí)別結(jié)果Table 2 Recognition result based on optical remote sensing image
實(shí)驗(yàn)結(jié)果的效果對(duì)比如圖10、圖11所示。
圖11 多源數(shù)據(jù)融合模型與單視角模型效果對(duì)比圖Fig.11 Comparison of effects between multi-source data fusion model and single-view model
通過(guò)上述結(jié)果可以看出,對(duì)于光學(xué)圖像識(shí)別,本文提出的ResNet50-SA 網(wǎng)絡(luò)能有效提高光學(xué)圖像特征提取的效果,進(jìn)而提升滑坡識(shí)別的精度;而對(duì)于多源數(shù)據(jù)融合識(shí)別模型,其效果要優(yōu)于光學(xué)模型,參與融合的數(shù)據(jù)越全面,效果就越好,同時(shí)地形數(shù)據(jù)在各類(lèi)多源數(shù)據(jù)中占有較大的比重。
針對(duì)目前地質(zhì)災(zāi)害識(shí)別領(lǐng)域的困境,基于當(dāng)前深度學(xué)習(xí)領(lǐng)域的優(yōu)秀算法,對(duì)語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行一定的改進(jìn),設(shè)計(jì)針對(duì)性的滑坡災(zāi)害特征提取和識(shí)別模型,提出了基于多源數(shù)據(jù)的高位遠(yuǎn)程滑坡災(zāi)害識(shí)別方法,對(duì)實(shí)際工作中匯總的滑坡災(zāi)害數(shù)據(jù)達(dá)到良好的定位與識(shí)別效果,具有優(yōu)異的語(yǔ)義分割能力。
在模型構(gòu)建的實(shí)驗(yàn)中,對(duì)輸入的數(shù)據(jù)特征采用了多樣的融合方式和卷積方法,根據(jù)驗(yàn)證結(jié)果表明具有一定的提升效果。但由于實(shí)際操作中關(guān)于注意力模塊的位置和設(shè)置需要大量嘗試與驗(yàn)證,并且融合方式選擇多樣,導(dǎo)致找到一種合適的融合方式會(huì)花費(fèi)較多的時(shí)間。因此,可以更加深入的探索與研究,尋找表現(xiàn)更加優(yōu)異的模型結(jié)構(gòu),減少模型構(gòu)建階段的時(shí)間成本,可以作為之后研究的目標(biāo)。
此外,盡管為了防止模型過(guò)擬合而針對(duì)同一滑坡選取了多張不同條件下的遙感影像,但專(zhuān)用數(shù)據(jù)集依舊存在數(shù)據(jù)尺寸大、數(shù)量少的情況,在如何更有效地提取大尺寸數(shù)據(jù)特征和解決數(shù)據(jù)數(shù)量少、學(xué)習(xí)難度大的方面,也有其他可以借鑒的方法。除了根據(jù)深度網(wǎng)絡(luò)對(duì)圖片的預(yù)測(cè)信息入手外,也可以學(xué)習(xí)現(xiàn)在流行的生成對(duì)抗網(wǎng)絡(luò)方法,數(shù)據(jù)特征提取不充分和數(shù)據(jù)集匱乏的問(wèn)題將得到極大的解決,這也將成為以后研究的一個(gè)方向。
中國(guó)地質(zhì)災(zāi)害與防治學(xué)報(bào)2022年2期