王 維,陶青川,沈建軍
(四川大學(xué) 電子信息學(xué)院,四川 成都 610065)
河流、湖泊等場(chǎng)景下的智能視頻監(jiān)控在水質(zhì)分析監(jiān)測(cè)、水文預(yù)報(bào)以及捕獲異常行為等方面發(fā)揮著重要作用。因此,對(duì)水陸分割線快速準(zhǔn)確的提取,在水質(zhì)預(yù)測(cè)、洪澇災(zāi)害預(yù)警以及水面目標(biāo)識(shí)別等方面具有重要意義[1,2]。
文獻(xiàn)[3]提出利用模糊C均值聚類迭代提取水陸交界線,但對(duì)于較復(fù)雜的水陸場(chǎng)景,實(shí)用性不強(qiáng)。文獻(xiàn)[4]對(duì)水陸交界線的提取受陸地背景干擾影響大,同時(shí)對(duì)光照較敏感。文獻(xiàn)[5]對(duì)于規(guī)則的水陸分割線提取較準(zhǔn)確,但對(duì)于較曲折的水陸分割線提取效果欠佳。目前的大多研究是基于傳統(tǒng)機(jī)器視覺(jué)進(jìn)行水陸分割線的提取,即根據(jù)獲取水域與陸地之間的特征差異進(jìn)行圖像的分割,對(duì)于不同場(chǎng)景需要更新相關(guān)的參數(shù)設(shè)置,適用性較差。
基于圖像領(lǐng)域的深度學(xué)習(xí)方法在水陸分割方面研究較少,主要原因可能是采集樣本制作數(shù)據(jù)集需要耗費(fèi)大量的人力和成本。融合了傳統(tǒng)的圖像分割和目標(biāo)識(shí)別任務(wù)的圖像語(yǔ)義分割是對(duì)圖像中的每一個(gè)像素進(jìn)行類別的預(yù)測(cè),目前已廣泛應(yīng)用于自動(dòng)駕駛等領(lǐng)域。Long等[6]提出基于像素級(jí)分類的全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)圖像語(yǔ)義分割算法,能夠解決傳統(tǒng)圖像分割精度低、抗干擾能力較弱等問(wèn)題,但原有的FCN網(wǎng)絡(luò)對(duì)圖像進(jìn)行多次縮放導(dǎo)致許多有用信息的缺失。
文中提出一種改進(jìn)的FCN網(wǎng)絡(luò)模型對(duì)水域圖像進(jìn)行分割,通過(guò)融合池化層帶來(lái)的信息缺失,實(shí)現(xiàn)對(duì)水域的準(zhǔn)確提取,通過(guò)分割的結(jié)果確定水陸分割線。將所提方法應(yīng)用于實(shí)時(shí)在線分割,驗(yàn)證了算法的可行性,為水利智能監(jiān)控提供新的方法。
由于文中選用的FCN-8s是一種監(jiān)督學(xué)習(xí)的經(jīng)典語(yǔ)義分割網(wǎng)絡(luò)[7],需要利用標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,生成分類模型,實(shí)現(xiàn)對(duì)水域的分割。目前針對(duì)水域的公開(kāi)數(shù)據(jù)較少,因此文中的數(shù)據(jù)集主要來(lái)源于成都河長(zhǎng)制辦公室、人工拍攝以及采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取不同自然條件下的水域圖像。為降低訓(xùn)練所需時(shí)間以及硬件資源成本,將采集的所有圖片尺寸調(diào)整為512×512范圍內(nèi)。采用LabelMe開(kāi)源工具包進(jìn)行水域圖片的標(biāo)注,其中“0”代表陸地區(qū)域且對(duì)應(yīng)可視化RGB值為(0,0,0),“1”代表水域區(qū)域且對(duì)應(yīng)可視化RGB值為(255,255,255)。為保證最終分割效果的準(zhǔn)確性,提升網(wǎng)絡(luò)泛化性能,防止因數(shù)據(jù)樣本過(guò)少導(dǎo)致的欠擬合問(wèn)題,對(duì)原圖以及標(biāo)簽圖進(jìn)行翻轉(zhuǎn)、拉伸等處理,最終數(shù)據(jù)集擴(kuò)充為原來(lái)的5倍,其中,隨機(jī)選取6020張圖像作為訓(xùn)練集,1980張圖像作為驗(yàn)證集,668張圖像作為測(cè)試集。樣本擴(kuò)增圖如圖1所示。
圖1 樣本擴(kuò)展
文中水陸分割線提取方法主要基于改進(jìn)的FCN網(wǎng)絡(luò)對(duì)圖像中的水域進(jìn)行分割,根據(jù)分割后的結(jié)果進(jìn)行水陸分割線的提取,算法的具體流程如圖2所示。
圖2 算法流程
文中所提算法分兩部分組成,即網(wǎng)絡(luò)訓(xùn)練階段和水陸分割線提取階段。訓(xùn)練階段將數(shù)據(jù)集輸入到改進(jìn)后的網(wǎng)絡(luò)中,采用隨機(jī)梯度下降法進(jìn)行網(wǎng)絡(luò)學(xué)習(xí),并通過(guò)微調(diào)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,當(dāng)網(wǎng)絡(luò)loss收斂到一定程度時(shí),停止網(wǎng)絡(luò)訓(xùn)練。水域分割階段,首先,由部署的攝像頭進(jìn)行含水域圖像的采集,通過(guò)FFMpeg進(jìn)行視頻流的解碼獲取RGB圖像;其次,利用訓(xùn)練好的網(wǎng)絡(luò)模型計(jì)算得到水域分割結(jié)果;最后,對(duì)水域分割結(jié)果進(jìn)行邊緣提取,通過(guò)分割圖與原圖的映射關(guān)系確定最終的水陸分割線。
2.2.1 全卷積網(wǎng)絡(luò)
由Long等提出的FCN網(wǎng)絡(luò),以VGG網(wǎng)絡(luò)作為目標(biāo)特征提取的基礎(chǔ),主要由卷積層、反卷積層、池化層以及softmax層組成[8]。其中卷積層通過(guò)與輸入的水陸圖像進(jìn)行卷積操作,獲取不同目標(biāo)的特征圖;池化層是對(duì)卷積層所獲取的特征圖進(jìn)行降維操作,目的是增大網(wǎng)絡(luò)學(xué)習(xí)的感受野、減少模型參數(shù),同時(shí)還可以加快訓(xùn)練。通過(guò)卷積層和池化層處理后,獲取的特征圖大小按2的倍數(shù)遞減。網(wǎng)絡(luò)底層卷積有利于目標(biāo)的局部和細(xì)節(jié)特征的獲取,而高層卷積更偏向于語(yǔ)義信息的獲取,若直接對(duì)第5層特征圖進(jìn)行上采樣恢復(fù)原圖大小,會(huì)導(dǎo)致圖像中許多有用信息的丟失,因此分割目標(biāo)精度不高。FCN-8s通過(guò)融合底層特征,跨層連接操作來(lái)彌補(bǔ)多層池化導(dǎo)致的細(xì)節(jié)信息的丟失,使最終的預(yù)測(cè)結(jié)果精度更高,同時(shí)采用反卷積使預(yù)測(cè)圖與輸入圖具有相同的分辨率。跨層連接結(jié)構(gòu)如圖3所示。
圖3 FCN跳躍結(jié)構(gòu)
2.2.2 空洞卷積特征提取
圖4 空洞卷積
由FCN-8s網(wǎng)絡(luò)中采用多個(gè)池化層操作來(lái)減少模型參數(shù),加快訓(xùn)練的速度,增大感受野,但同時(shí)它也導(dǎo)致輸入圖像信息的丟失且丟失信息無(wú)法被還原,因此會(huì)制約水域分割精度的提高。若網(wǎng)絡(luò)中采用空洞卷積進(jìn)行替代部分池化層,可以降低池化層對(duì)圖像信息丟失的影響[11]。除此之外,還可維持與原網(wǎng)絡(luò)相同的感受野大小??斩淳矸e如圖4所示,其中圖4(a)是感受野為3×3的常規(guī)卷積,圖4(b)是感受野為7×7的空洞卷積,空洞率為2。在卷積核不變的情況下,相比于常規(guī)卷積,空洞卷積保留的特征圖周?chē)袼匦畔⒏S富,更有利于圖像語(yǔ)義分割像素點(diǎn)分類的準(zhǔn)確性。
2.2.3 改進(jìn)的FCN網(wǎng)絡(luò)
對(duì)跨層連接的FCN-8s網(wǎng)絡(luò)進(jìn)行微調(diào),采用自己建立的數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)訓(xùn)練,并將最終的網(wǎng)絡(luò)模型用于對(duì)復(fù)雜水陸場(chǎng)景圖像進(jìn)行語(yǔ)義分割,經(jīng)測(cè)試集發(fā)現(xiàn)邊緣分割效果有所欠缺。原因是FCN的過(guò)多的下采樣操作導(dǎo)致圖像細(xì)節(jié)有用信息的丟失,而反卷積操作并不能彌補(bǔ)丟失的有用信息,為進(jìn)一步提升網(wǎng)絡(luò)的分割精度和效率,改善網(wǎng)絡(luò)因逐層卷積及池化操作造成的圖像有用信息的丟失,分割效果不佳等問(wèn)題[7],提出一種全卷積網(wǎng)絡(luò)改進(jìn)方法,旨在減少網(wǎng)絡(luò)池化引起的圖像縮放次數(shù),使更多細(xì)節(jié)信息得到有效保留,以實(shí)現(xiàn)對(duì)水陸圖像準(zhǔn)確的分割。
與FCN-8s模型相比,文中對(duì)原網(wǎng)絡(luò)的主要改進(jìn)方案如下:
(1)去除原網(wǎng)絡(luò)中的pool5,同時(shí)將第5階段卷積層采用空洞卷積進(jìn)行替代,彌補(bǔ)因刪除pool5導(dǎo)致的感受野變小的問(wèn)題;
(2)將pool1以及pool2的輸出特征信息進(jìn)行融合,通過(guò)實(shí)驗(yàn)比較發(fā)現(xiàn),只對(duì)pool2的輸出特征信息進(jìn)行融合的網(wǎng)絡(luò)模型分割性能優(yōu)于同時(shí)對(duì)前兩個(gè)池化層進(jìn)行融入的網(wǎng)絡(luò)模型。改進(jìn)的全卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 改進(jìn)FCN結(jié)構(gòu)
通過(guò)改進(jìn)的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5所示,為了便于后續(xù)的實(shí)驗(yàn)對(duì)比區(qū)分,文中將WaterFCN+1作為最終用于水域分隔的網(wǎng)絡(luò),即只進(jìn)行pool2輸出信息的融入;將同時(shí)融入前兩池化層的網(wǎng)絡(luò)稱為WaterFCN+2。去除原網(wǎng)絡(luò)中的pool5后,在設(shè)計(jì)的網(wǎng)絡(luò)模型中輸入圖像縮小的倍數(shù)降為16,該模型在特征學(xué)習(xí)過(guò)程中為后續(xù)的預(yù)測(cè)分類保留了更多的有用圖像信息。為使最終的預(yù)測(cè)結(jié)果圖與輸入圖像具有相同的分辨率,對(duì)最后融合的特征圖進(jìn)行4倍上采樣操作,從而實(shí)現(xiàn)對(duì)圖像中的每個(gè)像素點(diǎn)的預(yù)測(cè)分類。
文中軟件實(shí)驗(yàn)環(huán)境為T(mén)ensorFlow1.8, cuda9.0, python3.6, Win10, VS2015;硬件實(shí)驗(yàn)環(huán)境采用GPU顯卡為NVIDIA GTX 1080TI,內(nèi)存8 G,i5-6500處理器,該配置是目前深度學(xué)習(xí)的主流配置。
3.1.1 評(píng)價(jià)指標(biāo)
為了比較網(wǎng)絡(luò)的性能,采取了圖像分割領(lǐng)域中一個(gè)衡量圖像分割精度的重要指標(biāo)——平均交并比(MIOU)以及像素準(zhǔn)確率(PA)對(duì)結(jié)果進(jìn)行網(wǎng)絡(luò)評(píng)估比較[12]。平均交并比計(jì)算方法如下
(1)
(2)
其中,Pii表示正確預(yù)測(cè)的點(diǎn),Pij表示本身被標(biāo)記為i類的像素,在經(jīng)過(guò)語(yǔ)義分割網(wǎng)絡(luò)后,被預(yù)測(cè)為j類像素,Pji表示本身被標(biāo)記為j類的像素,在經(jīng)過(guò)語(yǔ)義分割網(wǎng)絡(luò)后,被預(yù)測(cè)為i類像素。
3.1.2 數(shù)據(jù)集對(duì)網(wǎng)絡(luò)性能影響
由于原始圖像數(shù)據(jù)量較小,為提高文中所提網(wǎng)絡(luò)分割性能,將原圖進(jìn)行翻轉(zhuǎn)、拉伸等操作進(jìn)行數(shù)據(jù)集的擴(kuò)充,并利用擴(kuò)充后的數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)的訓(xùn)練、驗(yàn)證以及測(cè)試。為了驗(yàn)證擴(kuò)充數(shù)據(jù)集對(duì)文中所提網(wǎng)絡(luò)分割性能的影響,文中比較了數(shù)據(jù)擴(kuò)充前后的網(wǎng)絡(luò)分割結(jié)果,見(jiàn)表1。
表1 數(shù)據(jù)擴(kuò)充前后對(duì)比
由表1可知,使用未擴(kuò)充的數(shù)據(jù)集進(jìn)行訓(xùn)練的網(wǎng)絡(luò),水域的平均交并比為87.58,像素準(zhǔn)確率僅為89.673;而采用圖像的拉伸和旋轉(zhuǎn)進(jìn)行擴(kuò)充的數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)模型,圖像的水域的平均交并和像素精度分別提高了0.05和0.067,水域分割性能得到一定的提升。因此,較豐富的數(shù)據(jù)樣本對(duì)網(wǎng)絡(luò)的性能有重要的影響。
3.1.3 分割性能對(duì)比實(shí)驗(yàn)
采用擴(kuò)充后的數(shù)據(jù)集分別對(duì)原FCN網(wǎng)絡(luò)、更改后的WFCN+1以及WFCN+2進(jìn)行訓(xùn)練,通過(guò)訓(xùn)練后的網(wǎng)絡(luò)模型進(jìn)行水域圖像的語(yǔ)義分割,其中圖6(a)是池塘水域測(cè)試圖像。水域語(yǔ)義分割實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 水域分割結(jié)果
由圖6可知,原FCN網(wǎng)絡(luò)分割的結(jié)果不僅邊界分割較粗糙,而且還具有空洞現(xiàn)象。但是WFCN+1不僅邊緣信息分割更準(zhǔn)確,而且還減少了空洞現(xiàn)象、邊緣更加的平滑。WFCN+2分割效果相對(duì)于WFCN+1出現(xiàn)了一定程度的過(guò)分割現(xiàn)象并且邊緣不夠平滑,但是較原FCN網(wǎng)絡(luò)效果更好。實(shí)驗(yàn)結(jié)果表明去除第五池化層并將第5階段卷積層采用空洞卷積替代的WFCN+1在水域分割方面的效果更佳。
為了驗(yàn)證文中所提網(wǎng)絡(luò)的分割性能優(yōu)越性,采用擴(kuò)充后的驗(yàn)證集對(duì)網(wǎng)絡(luò)性能進(jìn)行測(cè)試對(duì)比,通過(guò)計(jì)算各方法的平均交并比(MIOU)、水域的像素精度(PA)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)的評(píng)估,結(jié)果見(jiàn)表2。
表2 網(wǎng)絡(luò)對(duì)比值
由表2可以發(fā)現(xiàn),WaterFCN+1得到的平均交并比以及水域像素識(shí)別精度均優(yōu)于WaterFCN+2和原FCN,充分表明了文中改進(jìn)的WaterFCN+1綜合性能更高,更適合于水利智能監(jiān)控平臺(tái)。
為了驗(yàn)證文中所提算法在水陸分割線提取方面的優(yōu)越性,選用了傳統(tǒng)水陸分割線提取算法與文中算法進(jìn)行對(duì)比。首先選取具有代表性的4幅圖像且每幅圖像都包含水域和陸地,如圖7所示。傳統(tǒng)的水陸分割線提取方法選用文獻(xiàn)[5]中提出的邊界分段處理方法、文獻(xiàn)[4]中經(jīng)形態(tài)學(xué)處理后的邊緣提取方法。為了方便后文的描述分別將文獻(xiàn)[5]選用的算法設(shè)為算法1、文獻(xiàn)[4]選用的算法設(shè)為算法2以及文中所提算法進(jìn)行實(shí)驗(yàn)對(duì)比,水陸分割線提取結(jié)果如圖7所示。
圖7 水陸分割線提取結(jié)果
由以上實(shí)驗(yàn)效果可知,在背景較簡(jiǎn)單且規(guī)則水陸情況下,3個(gè)算法都能實(shí)現(xiàn)對(duì)水陸分割線的準(zhǔn)確提??;但對(duì)于水陸交接線曲折變化且水域與陸地顏色相近、水面具有倒影以及光照不均勻等復(fù)雜水陸圖像,傳統(tǒng)的分割方法水域識(shí)別率較差,而文中所提的方法能有效實(shí)現(xiàn)水陸分割線的提取,相比于傳統(tǒng)的方法,能夠克服光照、倒影、水陸交接不規(guī)則等因素的干擾,穩(wěn)定性較強(qiáng),準(zhǔn)確率較高,具備一定的工程實(shí)用價(jià)值。
采集20個(gè)不同場(chǎng)景下的200幅水陸圖像進(jìn)行算法的準(zhǔn)確性檢驗(yàn),若誤差在5個(gè)像素以內(nèi),則認(rèn)為算法準(zhǔn)確[5]。實(shí)驗(yàn)檢測(cè)統(tǒng)計(jì)結(jié)果如圖8所示,誤差在3個(gè)像素內(nèi)的達(dá)到90%,誤差在5個(gè)像素內(nèi)達(dá)到95%,誤差在10內(nèi)達(dá)到99%左右。通過(guò)統(tǒng)計(jì)的結(jié)果圖表明,文中提出的算法對(duì)水陸分割線的提取準(zhǔn)確率達(dá)到95%以上。
圖8 水陸分割線檢測(cè)結(jié)果統(tǒng)計(jì)
在實(shí)時(shí)性測(cè)試中,采用文中算法對(duì)視頻中的水陸分割線進(jìn)行檢測(cè),選取圖片大小為512×512,平均處理時(shí)間為160 ms,相比于以往的算法,文中的算法實(shí)時(shí)性更高。
文中提出一種改進(jìn)FCN的水陸分割線提取算法,利用了構(gòu)建的河岸場(chǎng)景數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)模型,克服了光照等不可控因素的干擾,實(shí)現(xiàn)了對(duì)水陸分割線的快速、準(zhǔn)確提取。文中方法不僅能實(shí)現(xiàn)對(duì)智能視頻監(jiān)控中水位的監(jiān)測(cè),同時(shí)還能輔助實(shí)現(xiàn)對(duì)河流中水色的提取以及無(wú)人艦艇的導(dǎo)航,具有一定的工程應(yīng)用價(jià)值。但文中算法目前因樣本量少,對(duì)于水域占比小的圖像分割精度還待于進(jìn)一步提高。