尹 曠,王紅斌,胡 帆,莫文雄,方 健,楊 鵬
(1.中國南方電網(wǎng)有限責(zé)任公司 中低壓電氣設(shè)備質(zhì)量檢驗(yàn)測(cè)試重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510410;2.武漢大學(xué) 圖像傳播與印刷包裝研究中心,湖北 武漢 430072)
陰影是日常生活中常見的現(xiàn)象,包含眾多場(chǎng)景信息,如光源信息、空間位置信息等。陰影在物體識(shí)別和場(chǎng)景判讀中具有重要作用,例如陰影可以用來推斷導(dǎo)致陰影的物體的幾何形狀、獲得物體的三維分析[1]或找到場(chǎng)景光源的方向[2],在航空?qǐng)D像中還可用于識(shí)別建筑物[3]以獲得場(chǎng)景的三維重建,或用于檢測(cè)云及其陰影[4]。因此,陰影檢測(cè)任務(wù)具有重要的研究意義。
陰影檢測(cè)方法主要分為基于場(chǎng)景物理模型的傳統(tǒng)陰影檢測(cè)方法和基于深度學(xué)習(xí)的陰影檢測(cè)方法。傳統(tǒng)陰影檢測(cè)方法通常是利用場(chǎng)景物理模型建模,對(duì)物理模型特定的屬性進(jìn)行分析,這些屬性包括光照角度、亮度、光譜屬性等,但是傳統(tǒng)方法對(duì)陰影的特征描述能力有限,不能理解更深層和抽象的特性。
隨著深度學(xué)習(xí)的興起,卷積神經(jīng)網(wǎng)絡(luò)(CNN)被眾多研究者證明了其強(qiáng)大的特征學(xué)習(xí)能力,F(xiàn)ang等人[5]提出了一個(gè)名為ECA(Efficient Context Discovery)的模塊用于陰影檢測(cè),可以獲得更有效的目標(biāo)上下文特征。王思凡[6]提出了一種新型雙流空洞卷積網(wǎng)絡(luò)在一定程度上解決陰影漏檢問題。但是,目前的模型存在小陰影區(qū)域漏檢、無法區(qū)分深色區(qū)域和陰影區(qū)域、陰影和非陰影邊緣分割不準(zhǔn)確等問題,因此本文采取了多任務(wù)學(xué)習(xí)思想,引入注意力機(jī)制和反饋學(xué)習(xí)機(jī)制,提出多任務(wù)注意力特征反饋網(wǎng)絡(luò)來解決目前陰影檢測(cè)存在的問題。
許多研究人員應(yīng)用基于深度神經(jīng)網(wǎng)絡(luò)的方法來開展陰影檢測(cè)任務(wù),這類方法的原理是將陰影區(qū)域的信息通過堆疊卷積層進(jìn)行深度編碼并學(xué)習(xí)其深層特征,最后通過分類器將每個(gè)像素分類為陰影或非陰影。陰影檢測(cè)問題可以解釋為輸入原始彩色圖像,使用基于深度神經(jīng)網(wǎng)絡(luò)的生成模型生成二進(jìn)制陰影圖像的問題,許多具有特征結(jié)構(gòu)的模型網(wǎng)絡(luò)被提出,例如基于CNN的patched-CNN[7]和DSDNet[8]。此外,對(duì)抗性訓(xùn)練策略也被許多研究者采用,例如ST-CGAN[9]。這些模型訓(xùn)練單一的任務(wù)進(jìn)行陰影檢測(cè)區(qū)域的生成,如圖1所示,容易存在漏檢小陰影區(qū)域、無法區(qū)分深色區(qū)域和陰影區(qū)域、陰影和非陰影邊緣分割不準(zhǔn)確等問題。
(a) 輸入圖像
專注于單個(gè)任務(wù)的模型訓(xùn)練會(huì)導(dǎo)致模型忽略一些相關(guān)任務(wù)中可能提升目標(biāo)任務(wù)的潛在信息,而通過多任務(wù)進(jìn)行一定程度的參數(shù)共享會(huì)提升模型的泛化能力,從而得到更好的結(jié)果。本次研究引入多任務(wù)學(xué)習(xí)思想,對(duì)陰影檢測(cè)進(jìn)行陰影區(qū)域檢測(cè)、陰影邊緣檢測(cè)和陰影計(jì)數(shù)檢測(cè)的相互學(xué)習(xí)。
此外,注意力機(jī)制(Attention Mechanism)逐漸成為神經(jīng)網(wǎng)絡(luò)中的一個(gè)重要概念,本文也引入注意力機(jī)制來進(jìn)一步提高模型的特征挖掘能力??臻g注意力有利于突出陰影的外觀特征,而通道注意力更適合用于高度編碼的深層特征。
陰影檢測(cè)任務(wù)屬于原始彩色圖像和二值陰影圖之間的映射關(guān)系學(xué)習(xí)任務(wù),漸進(jìn)細(xì)化、層級(jí)迭代的反饋學(xué)習(xí)方式更有利于整合輸入和高級(jí)語義信息,因此,在任務(wù)中引入反饋機(jī)制,逐級(jí)細(xì)化學(xué)習(xí)陰影區(qū)域特征,從而使得網(wǎng)絡(luò)可以更好地學(xué)習(xí)陰影特征。
多任務(wù)注意力特征反饋網(wǎng)絡(luò)是由多任務(wù)驅(qū)動(dòng)學(xué)習(xí)的多模塊網(wǎng)絡(luò),主要由編碼和反饋解碼兩部分組成。圖2為本文提出的多任務(wù)注意力特征反饋網(wǎng)絡(luò)結(jié)構(gòu)圖,相關(guān)的部分網(wǎng)絡(luò)結(jié)構(gòu)注釋已在圖中標(biāo)出。輸入圖像首先經(jīng)過ResNeXt[10]卷積子模塊獲得5個(gè)不同尺度的特征塊(L1、L2、L3、L4、L5),將L1特征塊與上采樣后的L5特征塊相加作為陰影的邊緣特征EF,隨后L2~L5特征塊通過注意力機(jī)制進(jìn)行特征融合,并由下至上依次經(jīng)過上采樣、反饋模塊循環(huán)處理、與上層特征塊嵌合,最后一個(gè)反饋模塊的輸出結(jié)果經(jīng)過進(jìn)一步的反卷積解碼得到最終的模型輸出,即二值化的陰影檢測(cè)結(jié)果。
圖2 多任務(wù)注意力特征反饋網(wǎng)絡(luò)整體結(jié)構(gòu)圖Fig.2 Overall structure of multitask attention feature feedback network
1.2.1 注意力特征融合子模塊
本文分別采用通道注意力和空間注意力對(duì)不同尺度的特征塊進(jìn)行特征激活。對(duì)于通道注意力,首先對(duì)于高級(jí)特征Fh∈W×H×C,將其拆解為其中是第i個(gè)通道對(duì)應(yīng)的特征,C為總通道數(shù)。處理公式可以歸納為:
CA=F(vh,W)=σ1(fc2(δ(fc1(vh,W1)),W2)),
(1)
式中,W表示經(jīng)過通道注意力激活后的特征塊的中的參量值,σ1表示的是sigmoid激活操作,fc表示全連接層,δ表示ReLU激活運(yùn)算。
空間注意力的處理可以歸納為:
(2)
(3)
(4)
式中,W為經(jīng)過空間注意力激活后的特征塊的中的參量值,σ2表示sigmoid激活操作,conv1和conv2分別表示卷積參數(shù)為1×k×C和k×1×1的兩個(gè)卷積層。經(jīng)過空間注意力和通道注意力加權(quán)后的特征塊依次標(biāo)記為L2′、 L3′、 L4′ 、L5′,經(jīng)過特征學(xué)習(xí)反饋?zhàn)幽K處理后得到最終輸出。
1.2.2 特征學(xué)習(xí)反饋?zhàn)幽K
為了提高陰影檢測(cè)效果,本研究中引入陰影邊緣特征對(duì)特征學(xué)習(xí)的約束,設(shè)計(jì)了特征反饋學(xué)習(xí)子模塊,模塊結(jié)構(gòu)如圖3所示。
本研究中,特征反饋?zhàn)幽K擁有兩個(gè)輸入Fin和EF,其中Fin為兩個(gè)特征塊拼接后的特征塊;EF為L1特征塊與上采樣后的L5特征塊相加所得到的邊緣特征。整個(gè)網(wǎng)絡(luò)共有三個(gè)特征學(xué)習(xí)反饋?zhàn)幽K,圖3中從下至上,第一個(gè)反饋?zhàn)幽K的Fin由上采樣后的L5′和L4′拼接所得,第二個(gè)反饋?zhàn)幽K的Fin由第一個(gè)反饋?zhàn)幽K的Fout經(jīng)上采樣后和L3′拼接所得,第三個(gè)反饋?zhàn)幽K的Fin由第二個(gè)反饋?zhàn)幽K的Fout經(jīng)上采樣后和L2′拼接所得,三個(gè)反饋?zhàn)幽K的EF輸入相同。
每個(gè)特征反饋?zhàn)幽K共進(jìn)行了三次迭代反饋學(xué)習(xí),每次迭代學(xué)習(xí)中均使用了三次空洞卷積(Dilated Convolution)進(jìn)行陰影檢測(cè)上下文信息的提取,空洞卷積具有更大的感受野,可以更好地捕捉全局信息和上下文信息,反饋?zhàn)幽K的具體參數(shù)設(shè)置如表1所示。
圖3 特征反饋學(xué)習(xí)子模塊Fig.3 Feature feedback learning module
表1 特征反饋學(xué)習(xí)子模塊網(wǎng)絡(luò)參數(shù)Tab.1 Feature feedback learning module network parameters
1.2.3 損失函數(shù)設(shè)計(jì)
在本次研究中,由于存在陰影區(qū)域、陰影邊緣和陰影數(shù)量三種特征任務(wù)的學(xué)習(xí)過程,因此與之對(duì)應(yīng)存在三種特征的損失函數(shù)進(jìn)行模型訓(xùn)練的監(jiān)督學(xué)習(xí),最終將三者按照不同權(quán)重進(jìn)行相加得到最終的總損失函數(shù)。將標(biāo)記了陰影區(qū)域的掩膜圖像作為陰影區(qū)域檢測(cè)的真實(shí)值,記為Gregion;由于掩膜圖像為二值圖像,因此可以通過Canny邊緣檢測(cè)算子對(duì)掩膜圖像進(jìn)行運(yùn)算得到陰影區(qū)域的邊緣,即得到了本次訓(xùn)練任務(wù)中的陰影區(qū)域邊緣檢測(cè)的真實(shí)值,記為Gedge;進(jìn)一步對(duì)掩膜圖像進(jìn)行連通區(qū)域標(biāo)記即可得到陰影區(qū)域的數(shù)量,并且通過式(5)計(jì)算所得陰影區(qū)域數(shù)量對(duì)應(yīng)的陰影數(shù)量特征值SC,以此作為陰影區(qū)域數(shù)量檢測(cè)的真實(shí)值,記為Gcount。
(5)
(6)
(7)
(8)
(9)
不同任務(wù)的損失項(xiàng)相加權(quán)重不同,在本次研究中,權(quán)重依次設(shè)置為:α=5,β=1。
為驗(yàn)證本文所提算法的有效性,在SBU和ISTD數(shù)據(jù)集上與其他多種經(jīng)典方法開展對(duì)比實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)運(yùn)行環(huán)境為Intel(R) Core(TM) i9-10980XE CPU @ 3.00 GHz和Nvidia TITAN RTX 24G GPU。
陰影檢測(cè)任務(wù)在SBU數(shù)據(jù)集[11]和ISTD數(shù)據(jù)集[9]的測(cè)試集上計(jì)算模型結(jié)果的平衡錯(cuò)誤率(Balanced Error Rate,BER)、陰影區(qū)域錯(cuò)誤率(Shadow Error,SE)非陰影區(qū)域錯(cuò)誤率(Non-Shadow Error,NSE)三個(gè)指標(biāo),數(shù)值越低代表模型的預(yù)測(cè)效果越好,各指標(biāo)結(jié)果和目前陰影檢測(cè)的其他經(jīng)典方法對(duì)比結(jié)果如表2所示,其中黑色加粗的數(shù)值表示同列指標(biāo)中的最優(yōu)值。從表中的指標(biāo)對(duì)比可以發(fā)現(xiàn),對(duì)整幅圖像的陰影去除做評(píng)價(jià),本次研究中的模型取得了最優(yōu)的結(jié)果,證明了本次研究的有效性。在陰影區(qū)域和非陰影區(qū)域的錯(cuò)誤率指標(biāo)上雖未全部取得最優(yōu),但對(duì)于ISTD數(shù)據(jù)集的非陰影區(qū)域錯(cuò)誤率取得最優(yōu),對(duì)于未取得最優(yōu)的指標(biāo),也與最優(yōu)值差距較小。
表2 陰影檢測(cè)模型指標(biāo)統(tǒng)計(jì)結(jié)果Tab.2 Statistical results of shadow detection model indicators
陰影檢測(cè)任務(wù)的主觀評(píng)價(jià)是通過本次研究模型和其他經(jīng)典模型的陰影檢測(cè)結(jié)果圖之間的對(duì)比來直觀展現(xiàn)的,結(jié)果對(duì)比如圖4所示,其中第一列為從SBU數(shù)據(jù)集和ISTD數(shù)據(jù)集中選取的部分帶陰影區(qū)域的場(chǎng)景圖像。由圖4可見,本文的陰影檢測(cè)模型的檢測(cè)結(jié)果與真實(shí)值圖像(Ground Truth)最為接近,表現(xiàn)出了最優(yōu)的陰影檢測(cè)結(jié)果。本文陰影檢測(cè)模型更好地區(qū)分了陰影區(qū)域和深色非陰影區(qū)域、準(zhǔn)確地檢測(cè)出了陰影,未多檢測(cè)出其他陰影區(qū)域,模型對(duì)陰影的檢測(cè)結(jié)果更讓人滿意。
圖4 本文陰影檢測(cè)模型與其他方法陰影檢測(cè)結(jié)果對(duì)比Fig.4 Comparison of shadow detection results between the shadow detection model in this paper and other methods
本文針對(duì)目前陰影檢測(cè)存在的漏檢、誤檢等問題提出了基于多任務(wù)注意力特征反饋網(wǎng)絡(luò)的陰影檢測(cè)模型,該模型融合多任務(wù)特征學(xué)習(xí)和注意力反饋機(jī)制,通過對(duì)全局特征和局部細(xì)節(jié)的約束學(xué)習(xí)以及多次注意力特征迭代反饋學(xué)習(xí)來準(zhǔn)確地檢測(cè)單幅圖像中存在的陰影區(qū)域,并與其他方法在兩個(gè)經(jīng)典數(shù)據(jù)集上進(jìn)行對(duì)比分析,證實(shí)本文方法有效地解決了目前陰影檢測(cè)存在的漏檢小陰影區(qū)域、誤檢非陰影區(qū)域問題。
但本文算法使用的數(shù)據(jù)集中的陰影區(qū)域是人工標(biāo)注所得,其準(zhǔn)確性受到了一定的限制,這對(duì)模型訓(xùn)練產(chǎn)生了不利影響,此外,陰影圖像的拍攝和無陰影圖像的拍攝存在時(shí)間差,這就導(dǎo)致場(chǎng)景中的其他信息會(huì)存在一定的差異變化,影響了數(shù)據(jù)集的準(zhǔn)確性。因此,獲取更準(zhǔn)確和高質(zhì)量的數(shù)據(jù)集可以進(jìn)一步提高方法的準(zhǔn)確性和有效性。