王文慶,龐 穎,劉 洋,馬曉華
(1.西安郵電大學(xué) 自動化學(xué)院,陜西 西安 710121; 2.火箭軍裝備部駐南京地區(qū)第二軍事代表室, 江蘇 南京 210023)
邊緣提取技術(shù)是圖像區(qū)域分割、目標(biāo)區(qū)域識別和區(qū)域形狀提取等領(lǐng)域的圖像處理分析技術(shù)[1-2],是機器視覺系統(tǒng)中不可或缺的重要環(huán)節(jié)[3-4]。提取圖像的區(qū)域和邊緣是從自然圖像中提取對象的范圍和視覺感知上突出的區(qū)域信息,從而很好地保留圖像的特征和重點區(qū)域信息。
早期的邊緣分析和檢測算法主要是建立在手工提取圖像紋理和梯度聯(lián)合概率運算的理論基礎(chǔ)上,代表方法有Sobel算子[5]和Canny算子[6]等。如利用圖像特征的聯(lián)合概率分布實現(xiàn)邊緣的提取[7];將圖像的紋理、光照和亮度等局部特征輸入到邏輯回歸分類器中進(jìn)行邊緣判定,從而提高邊緣提取能力[8]。然而,這類方法網(wǎng)絡(luò)性能雖然得到了提升,但是其成本較高,步驟較為復(fù)雜,實時性不佳。近年來,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為核心技術(shù)的深度學(xué)習(xí)已廣泛應(yīng)用于諸多領(lǐng)域,其強調(diào)自動分層特征學(xué)習(xí)的重要性,有效地提高了邊緣檢測的性能。比起傳統(tǒng)神經(jīng)網(wǎng)絡(luò)只利用最終輸出層特征,多尺度融合網(wǎng)絡(luò)采用多尺度和多層級的特征學(xué)習(xí)方式,在視覺幾何組16[9](Visual Geometry Group,VGG16)網(wǎng)絡(luò)的基礎(chǔ)上,顯著提高了邊緣檢測效果,通過使用更豐富的卷積特征和魯棒性更高的損失函數(shù),提升了邊緣檢測性能。但是,多尺度融合網(wǎng)絡(luò)中仍采用CNN模塊,感受采樣區(qū)域是固定的幾何結(jié)構(gòu),導(dǎo)致幾何變換和建模的特征提取能力有限。
可變形卷積網(wǎng)絡(luò)[10]的提出,得到了計算機學(xué)界和視覺業(yè)界的廣泛認(rèn)可和關(guān)注[11]。第二代新型可變形卷積[12](Deformable ConvNets v2,DCNv2)網(wǎng)絡(luò)中的卷積層,不僅學(xué)習(xí)空間偏移控制采樣方式,而且引入幅度調(diào)制機制,學(xué)習(xí)每個采樣點權(quán)重,通過應(yīng)用更多可變形網(wǎng)絡(luò)模塊,進(jìn)一步增強了整個網(wǎng)絡(luò)的形變特征提取能力。因此,針對卷積神經(jīng)網(wǎng)絡(luò)邊緣提取局限性的問題,提出一種基于可變形卷積的圖像邊緣智能提取方法。通過引入DCNv2網(wǎng)絡(luò),對空間采樣的位置信息進(jìn)行位移調(diào)整,該偏移不需要額外的監(jiān)督信號,可在目標(biāo)任務(wù)中學(xué)習(xí)得到。通過學(xué)習(xí)每個采樣點所在區(qū)域權(quán)重,使得網(wǎng)絡(luò)重點關(guān)注目標(biāo)邊緣區(qū)域信息,以期提高CNN對采樣點變換學(xué)習(xí)能力和計算能力,從而提升邊緣提取效果。
圖像中邊緣提取任務(wù)受圖像特征采集區(qū)域形狀的影響非常明顯,常規(guī)卷積固定采樣位置造成卷積圖像邊緣層提取的圖像特征能力較弱。相比而言,可變形卷積能夠很好地學(xué)習(xí)到發(fā)生形變的物體,比普通卷積網(wǎng)絡(luò)能夠更適應(yīng)物體形變,通過更有效的形變特征提取能力和訓(xùn)練使網(wǎng)絡(luò)關(guān)注更恰當(dāng)?shù)膱D像區(qū)域[13]。
可變形卷積不局限于規(guī)則格點,在常規(guī)的采樣坐標(biāo)上加上各采樣點的偏移量(黑色箭頭),偏移后的采樣點通過對采樣點區(qū)域是否為重點邊緣區(qū)域?qū)W習(xí),更新各采樣權(quán)重[14]。偏移后的采樣點顏色由淺至深代表權(quán)重由小到大。事實上,可變形卷積單元中增加的偏移量是網(wǎng)絡(luò)結(jié)構(gòu)的一部分,通過另外一個平行的標(biāo)準(zhǔn)卷積單元計算得到,進(jìn)而也可以通過梯度反向傳播進(jìn)行端到端的學(xué)習(xí)。加上該偏移量的學(xué)習(xí)之后,可變形卷積核的大小和位置可根據(jù)當(dāng)前需要識別的圖像內(nèi)容進(jìn)行動態(tài)調(diào)整,其直觀效果就是不同位置的卷積核采樣點位置會根據(jù)圖像內(nèi)容發(fā)生自適應(yīng)變化,從而適應(yīng)不同物體的形狀和大小等幾何形變。
可變形卷積網(wǎng)絡(luò)引入了空間幾何形變的學(xué)習(xí)能力,以3×3卷積核為例,常規(guī)卷積與可變形卷積采樣方式如圖1所示。圖1(a)中,常規(guī)卷積規(guī)律的固定形狀為9個采樣點。圖1(b)中,給每個采樣點增加一個偏移量,排列變得不規(guī)則。繼續(xù)增加偏移量,可達(dá)到尺度變換的效果,形成空洞卷積,如圖1(c)所示;增加偏移量也可達(dá)到旋轉(zhuǎn)變換的效果,卷積核在當(dāng)前位置附近可以隨意采樣,而不再局限于之前的規(guī)則格點,如圖1(d)所示。
圖1 常規(guī)卷積與可變形卷積采樣
假設(shè)卷積核有K個采樣點,wk和pk分別表示第k個點的權(quán)重和預(yù)先存在的偏移。當(dāng)K=9且pk∈{(-1,-1),(-1,0),…,(1,1)}時,表示一個空洞率為1的3×3的卷積核。若x(p)表示輸入特征圖x中位置p的特征,y(p)表示輸出特征圖y中位置p的特征,則可變形卷積可定義為
y(p)=∑wkx(p+pk+Δpk)Δmk
(1)
式中,Δpk和Δmk分別表示第k個位置上可學(xué)習(xí)的偏移和調(diào)節(jié)參數(shù),調(diào)節(jié)參數(shù)Δmk∈[0,1],Δpk是任意值。
3×3可變形卷積網(wǎng)絡(luò)框架如圖2所示。對于輸入的特征圖,同時用一個卷積生成與輸入特征圖相同尺寸通道為2N的偏移域和通道為N的調(diào)節(jié)標(biāo)量。N根據(jù)卷積核的大小進(jìn)行取值,比如,卷積核大小為3×3,N=9。圖2中,上側(cè)2N的2表示卷積核的每個點對應(yīng)的偏移量(offset)有x、y兩個方向,下側(cè)N對應(yīng)調(diào)節(jié)機制(weight),用于學(xué)習(xí)每個偏移后采樣點的權(quán)重。
圖2 3×3可變形卷積網(wǎng)絡(luò)框架
可變形卷積不僅更新學(xué)習(xí)采樣點的位置偏移,還學(xué)習(xí)了各采樣點的權(quán)重。雖然可形變卷積學(xué)習(xí)到偏移量后,會按照學(xué)習(xí)的目標(biāo)形狀產(chǎn)生形變,可是依然有會采樣點覆蓋到非圖像邊緣內(nèi)容的情況,影響網(wǎng)絡(luò)的表現(xiàn)。為了減小背景噪聲等非重點邊緣區(qū)域?qū)吘壧卣鬏敵龅挠绊?,可變形卷積通過學(xué)習(xí)各個采樣點所在區(qū)域是否為目標(biāo)邊緣重要區(qū)域,重新賦予采樣點權(quán)重值,重點關(guān)注圖像邊緣區(qū)域,從而減少非邊緣區(qū)域的影響。
有效的特征感受區(qū)域[15]實際只占理論感受野中的小部分,如何能更準(zhǔn)確獲得圖像特征感受區(qū)域并且可自適應(yīng)性感受野學(xué)習(xí),是重點的研究內(nèi)容。
標(biāo)準(zhǔn)卷積與可變形卷積特征感受區(qū)域?qū)Ρ热鐖D3所示。圖3中左側(cè)圖為標(biāo)準(zhǔn)卷積中固定的感受野和卷積核采樣點,右側(cè)圖為可變性卷積中自適應(yīng)的感受野和卷積核采樣點。左側(cè)箭頭指向為標(biāo)準(zhǔn)卷積感受區(qū)域,傳統(tǒng)卷積濾波器中的感受野和采樣點位置在特征結(jié)構(gòu)圖中為固定形狀;右側(cè)箭頭指向為可形變卷積感受區(qū)域,可變形卷積濾波器中的感受野和采樣位置可以隨著物體的大小和形狀進(jìn)行自適應(yīng)調(diào)整。
圖3 標(biāo)準(zhǔn)卷積與可變形卷積特征感受區(qū)域?qū)Ρ?/p>
由圖3可以看出,左側(cè)的標(biāo)準(zhǔn)卷積因為固定形狀采樣區(qū)域,導(dǎo)致較多采樣點覆蓋到非邊緣重點區(qū)域內(nèi)容,影響網(wǎng)絡(luò),尤其是在圖像邊緣特征提取技術(shù)方面,標(biāo)準(zhǔn)卷積采樣區(qū)域形狀與圖像邊緣呈現(xiàn)的數(shù)據(jù)分布形狀差異較大,導(dǎo)致采樣點沒有盡可能的覆蓋邊緣特征區(qū)域。相比之下,右側(cè)的可變形卷積由于其自身對物體形狀學(xué)習(xí),學(xué)習(xí)偏移量后的采樣感受區(qū)域更適應(yīng)于物體形狀,對于個別偏移后的采樣點依然覆蓋到非邊緣特征內(nèi)容的情況,可變形卷積網(wǎng)絡(luò)模塊通過學(xué)習(xí)各個采樣點的位置,判斷所采樣區(qū)域是否為圖像中目標(biāo)邊緣區(qū)域,從而賦予每個采樣點權(quán)重值并進(jìn)行篩選,重點關(guān)注圖像邊緣區(qū)域。
CNN架構(gòu)僅在神經(jīng)網(wǎng)絡(luò)的池化層之前使用最終的輸出層,忽略了中間層特征,因此,基于可變形卷積的圖像邊緣智能提取方法利用多尺度融合邊緣提取特征[16](Richer Convolutional Features,RCF)網(wǎng)絡(luò)進(jìn)行多尺度邊緣特征提取,并引入具有幾何變化自適應(yīng)能力的可變形卷積網(wǎng)絡(luò)模塊,增強卷積網(wǎng)絡(luò)對圖像形狀的適應(yīng)能力和邊緣特征提取效果。
多尺度融合網(wǎng)絡(luò)利用豐富的不同層次結(jié)構(gòu)的特征,以及對象的多尺度和多層次信息對圖像進(jìn)行整體預(yù)測,通過所有卷積層(conv)的CNN特征,以圖像到圖像的方式進(jìn)行像素預(yù)測。多尺度融合網(wǎng)絡(luò)利用機器學(xué)習(xí)方式將來自不同階段的信息結(jié)合起來,淺層特征可以為深層特征補充充分的細(xì)節(jié)信息,從而獲得不同尺度的特征信息。
將一個VGG16卷積層模塊作為邊緣尺度骨干特征采集網(wǎng)絡(luò),分為5個層的階段(stage)。stage1和stage2通過池化層得到不同邊緣尺度的特征,主干特征采集網(wǎng)絡(luò)利用全卷積結(jié)構(gòu)進(jìn)一步實現(xiàn)主干層的邊緣尺度特征的自動采集和提取。多尺度融合網(wǎng)絡(luò)通過stage1-stage5的卷積和下采樣模塊對每個stage進(jìn)行學(xué)習(xí),對VGG16中的每層分別使用1×1×21卷積壓縮處理,將每個stage為單位相加,使每個stage輸出一張不同尺寸的邊緣特征圖,再使用1×1的卷積進(jìn)一步采集和壓縮特征;利用反卷積(deconv)實現(xiàn)上采樣,使每個stage都輸出1張相同大小的邊緣特征圖;最后,對各層的多尺度特征使用1×1卷積層融合,并監(jiān)督學(xué)習(xí)。多尺度融合網(wǎng)絡(luò)邊緣檢測模型如圖4所示。
圖4 多尺度融合網(wǎng)絡(luò)邊緣檢測模型
每個stage生成的邊緣圖都包含了不同層次的語義特征,對每個stage的邊緣圖融合處理,可以更充分體現(xiàn)出所使用模型的不同層次特征。將RCF網(wǎng)絡(luò)與基于holistically方法的邊緣提取網(wǎng)絡(luò)(Holistically-nested Edge Detection,HED)網(wǎng)絡(luò)相比,HED只考慮了VGG16每個階段的最后一個conv層,遺漏了許多有用的邊緣檢測信息。而RCF網(wǎng)絡(luò)使用了來自所有conv層的特征,使其更可能捕獲跨越更大范圍的對象或?qū)ο蟛糠诌吔纾敵龅倪吘増D融合了主干網(wǎng)絡(luò)每一層的特征。
將RCF多尺度的融合主干網(wǎng)絡(luò)模塊作為邊緣提取方法,對邊緣特征進(jìn)行自動采集和提取。在多尺度融合網(wǎng)絡(luò)的基礎(chǔ)上,采用跨層融合特征圖[17]的方式引入可變形卷積網(wǎng)絡(luò)模塊,增強主干網(wǎng)絡(luò)對圖像目標(biāo)邊緣特征形狀的自動適應(yīng)能力和邊緣特征提取能力。
在RCF邊緣提取網(wǎng)絡(luò)的stage1-stage5中,stage4和stage5的邊緣圖與真值圖(ground truth)最為接近,意味著stage4和stage5輸出的邊緣圖與標(biāo)簽圖之間的殘差最小[18]。例如,stage1生成的邊緣圖使用了大量的低級特征和很少的語義特征,stage4和stage5生成的邊緣圖則使用了大量的語義特征和很少的細(xì)節(jié)特征。較高階段位置由于網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)性能較好,而較低階段的邊緣特征圖包含了過多無關(guān)重點信息的噪聲紋理,雖然含有更多位置、細(xì)節(jié)信息,圖像分辨率更高,但由于經(jīng)過的卷積更少,其語義性更低,噪聲更多。深層特征具有更強的語義信息,但是分辨率很低,對細(xì)節(jié)的感知能力較差。
通過引入DCNv2可變形卷積網(wǎng)絡(luò)模塊,將主干網(wǎng)絡(luò)分為兩部分。第一部分,stage1、stage2和stage3與多尺度融合網(wǎng)絡(luò)一樣,采用傳統(tǒng)的卷積和下采樣組合的結(jié)構(gòu),充分提取邊緣的低級特征。第二部分,stage4和stage5采用多尺度融合方式引入DCNv2,每層利用DCNv2進(jìn)行特征邊緣提取,更充分提取深層邊緣特征,重點關(guān)注圖像邊緣區(qū)域,減少不相關(guān)內(nèi)容對邊緣特征提取的影響。
在圖像邊緣檢測[19]中,通常將邊緣檢測圖片的每個像素邊緣點的損失分類問題僅看作是邊緣點與非邊緣點的二分類損失代價問題。因此,將標(biāo)簽圖的交叉熵分類問題作為每個圖片的像素點分類的損失代價函數(shù)。為了提高邊緣檢測模型魯棒性,利用閾值法[20]對標(biāo)簽圖中的像素值進(jìn)行歸一化處理,將標(biāo)簽圖變?yōu)檫吘壭畔⒌母怕蕡D,并將概率值大于閾值的像素點作為邊緣點,排除有爭議的像素點。每個像素點的損失函數(shù)表示為
(2)
式中,
其中:Xi表示神經(jīng)網(wǎng)絡(luò)的激活值;W表示神經(jīng)網(wǎng)絡(luò)中可學(xué)習(xí)的參數(shù);yi表示標(biāo)簽圖中像素點是邊緣點的概率值;超參數(shù)λ用來平衡正負(fù)樣本的數(shù)量差;|Y+|和|Y-|分別表示正樣本和負(fù)樣本的數(shù)量。
網(wǎng)絡(luò)中每個stage輸出的邊緣圖像之間差異較大,各階段損失的量級可能不一致,且融合階段的損失應(yīng)該占主要地位。為了平衡各階段損失和融合損失之間的關(guān)系,采取降低網(wǎng)絡(luò)中5個stage的損失比重,提高融合階段損失比重。總損失函數(shù)可表示為
(3)
為了防止模型出現(xiàn)過擬合現(xiàn)象,對BSDS500數(shù)據(jù)集[21]的圖片進(jìn)行剪裁、擴大、旋轉(zhuǎn)等操作,使數(shù)據(jù)集增強。將BSDS500的增強數(shù)據(jù)集與PASCAL VOC Context數(shù)據(jù)集[22]進(jìn)行混合,選取混合后的5 264張圖像及其標(biāo)注作為訓(xùn)練數(shù)據(jù)集,選取BSDS500數(shù)據(jù)集中200張圖像作為測試集進(jìn)行訓(xùn)練。
根據(jù)精確率、召回率和F1-score等3個評價指標(biāo),分別對比RCF方法和所提方法的性能。兩種方法的評價指標(biāo)對比如表1所示。
表1 兩種方法的評價指標(biāo)對比
由表1可以看出,相比于RCF方法,所提方法檢測精確率提高了2.66%,召回率提高了0.05%,F(xiàn)1-score提高了1.91%。這是因為通過引入可變形卷積網(wǎng)絡(luò)模塊,重點關(guān)注了圖像邊緣特征信息,提高了邊緣提取精度。
所提方法與RCF方法訓(xùn)練曲線對比如圖5所示。當(dāng)兩種方法達(dá)到同一F1-score值時,所提方法所需訓(xùn)練代數(shù)最少,說明其訓(xùn)練速度相比下更快;當(dāng)曲線趨于穩(wěn)定時,所提方法訓(xùn)練結(jié)果分?jǐn)?shù)值最高。
圖5 所提方法與RCF方法訓(xùn)練曲線對比
綜上,所提方法相比RCF方法,邊緣提取速度相對更快的,各指標(biāo)精度值更高。
所提方法與RCF方法輸出邊緣圖像可視化對比如圖6所示。
圖6 兩種方法可視化對比
由圖6可以看出,RCF方法產(chǎn)生的邊緣圖像中有一些線條較為模糊,且特征圖中存在大量的背景噪聲,而所提方法能夠清晰地將圖像中的邊緣提取出來,且對一些細(xì)節(jié)邊緣模糊問題處理較好,能夠有效關(guān)注圖像重點邊緣信息,減少了不相關(guān)信息對圖像邊緣提取的影響。
為進(jìn)一步展示可變形卷積模塊對圖像邊緣重點特征提取的效果,所提方法與RCF方法在各個階段輸出的邊緣圖像對比如圖7所示。圖7中每行從左到右分別為真值圖和stage1-stage5生成的邊緣圖像。
圖7 兩種方法各個stage輸出邊緣圖對比
由圖7可以看出,RCF方法與所提方法相比,每個階段中都包含了非重點邊緣信息的背景噪聲,并且邊緣線條較模糊。所提方法通過可變形卷積網(wǎng)絡(luò)跨層融合不同層次的特征,利用其自適應(yīng)形變能力使圖像邊緣更清晰,并使得整體網(wǎng)絡(luò)能夠關(guān)注全局中重點區(qū)域邊緣信息,幫助多尺度特征充分融合。所提方法輸出階段的邊緣圖也比RCF方法減少了一些無關(guān)邊緣信息的輸入,尤其是在stage4和stage5,沒有過多的背景雜亂紋理,進(jìn)一步驗證了所提方法提升了圖像邊緣信息的提取效果。
基于可變形卷積的圖像邊緣智能提取方法在VGG16為主干的RCF邊緣特征提取網(wǎng)絡(luò)基礎(chǔ)下,以多尺度方式引入可變性卷積網(wǎng)絡(luò)模塊DNCv2,在更大范圍的特征級別上控制采樣,能夠有效針對目標(biāo)幾何形狀而變化采樣位置。通過可變形卷積模塊中的調(diào)制機制,使得每個采樣點除過學(xué)習(xí)偏移量,還要經(jīng)過網(wǎng)絡(luò)學(xué)習(xí)采樣點位置的權(quán)重,即學(xué)習(xí)每個采樣位置的重要性,減少了不相關(guān)區(qū)域信息的影響,重點關(guān)注了有效感受區(qū)域,通過改變空間分布及其樣本的相對影響,提升了網(wǎng)絡(luò)性能。實驗結(jié)果表明,所提方法比傳統(tǒng)RCF方法,精確率提高了2.66%,召回率提高了0.05%,F(xiàn)1-score提高了1.91%,而且邊緣圖結(jié)果效果更好,網(wǎng)絡(luò)訓(xùn)練速度更快,提升了邊緣提取效果和精度值,生成了更高質(zhì)量的邊緣圖像。