章秀華 程 鑒 洪漢玉 張?zhí)煨?/p>
①(武漢工程大學光學信息與模式識別湖北省重點實驗室 武漢 430205)
②(華中科技大學圖像識別與人工智能研究所 武漢 430074)
低景深圖像(low Depth-Of-Field, DOF)一般表現(xiàn)為目標聚焦清晰且顯著突出,背景虛化模糊,可有效增強目標與背景的視覺對比,廣泛應用于工業(yè)自動檢測、電子消費和互聯(lián)網等各個領域。低景深圖像中的聚焦區(qū)域包含著重要的信息,是最能引人視覺注意的顯著性目標區(qū)域(Region-Of-Interest,ROI),因此低景深目標的提取也可以表述為顯著性目標或聚焦區(qū)域的提取。低景深圖像中顯著性目標提取方法的研究一直是人們關注的熱點問題,也是目標自動檢測識別、圖像描述、視頻自動檢索及醫(yī)學圖像處理等領域[1–8]需要深入探索的問題。
如何有效提取顯著性目標并去除干擾背景,是低景深圖像顯著性目標提取過程中的關鍵問題。許多學者針對這一關鍵問題開展了深入研究,取得了大量研究成果。如Zhai等人[9]通過計算圖像中某個像素點和其他所有像素的歐氏距離的總和,得到像素特征顯著圖,達到有效提取目標的目的。Achanta等人[10]利用局部特征提取方法,將多個尺度的顯著性相加得到最終的目標顯著圖。Cheng等人[11,12]提出了基于全局和局部相結合的方法,充分考慮顯著性目標像素的色彩特性和鄰域像素之間的空間關系,生成像素級別的顯著性圖。上述這些方法依據(jù)紋理、灰度或色彩信息等提取圖像顯著性特征,對于目標與背景顏色差異明顯的普通圖像,都能較好地將顯著性目標與背景分離開來,達到顯著性目標檢測的目的。而對于低景深圖像,其聚焦信息往往起著更為重要的作用,利用色彩或灰度分布信息難以將顯著性特征與背景區(qū)分開來,可能將相同顏色的背景當作目標提取而出現(xiàn)偽目標現(xiàn)象[7]。
部分研究者依靠獲取圖像的高頻成分,從而實現(xiàn)顯著性目標和背景的分割。如Hou等人[13]提出一種基于譜殘差的視覺顯著性計算模型,通過在頻率中去除低頻背景,保留高頻目標得到顯著性圖,后續(xù)有學者在其基礎上提出了改進算法[14]。 Achanta等人[15]利用帶通濾波得到顯著性結果圖,還有通過高階統(tǒng)計量或其與紋理等特征融合的方法來獲取低景深圖像的高頻成分[16–19]。這些方法僅考慮了圖像的高頻部分,在聚焦對象的細節(jié)或邊緣處能獲得較高的強度值,由于沒有充分利用圖像的空間特性和頻率特性,無法覆蓋整個聚焦對象,不能保證顯著性目標提取的完整性[7]。
近幾年來,隨著深度學習技術在計算機視覺領域的廣泛應用,部分學者對基于深度學習的低景深目標提取方法進行了深入研究,建立了基于單流網絡、多流網絡、側融合網絡、自下而上/自上而下網絡、分支網絡及多種網絡融合等深度學習模型的低景深目標提取方法[20–22],針對特定的應用對象取得了較好的效果。但這些模型的訓練建立在大量應用領域的特定數(shù)據(jù)集基礎上,因此數(shù)據(jù)集的質量對模型訓練的結果造成了嚴重挑戰(zhàn)。
上述現(xiàn)有方法在低景深圖像目標提取過程中會出現(xiàn)目標不完整或偽目標,以及深度學習方法易受制于訓練樣本和模型優(yōu)化設計等問題,因此本文提出一種局部奇異值差異特征度量方法(SVD Domain difference Measure, SVD-DM)。針對小樣本低景深圖像中不同區(qū)域的特征強度各有不同,聚焦目標區(qū)域差異特征強度值大,模糊背景區(qū)域特征強度值小的特點。先通過奇異值分解(Singular Value Decomposition, SVD),構造原圖像和模糊后圖像局部圖像塊的奇異值差異特征向量,再利用SVD域內特征向量低、中、高頻段信息加權來計算像素顯著性強度值,形成目標顯著、背景微弱的特征強度圖。保證了目標提取的準確性,減少平均絕對誤差,同時也避免了大量訓練樣本需求及復雜的模型優(yōu)化設計問題。
在光學成像中,只有位于對焦平面的物體會出現(xiàn)清晰的成像。因此低景深(DOF)圖像一般分為聚焦目標區(qū)域和離焦背景區(qū)域兩個部分。從頻域來說,低景深圖像中離焦模糊背景區(qū)域主要位于低頻部分,聚焦目標區(qū)域則分布在頻率域的低中高多個頻段。如圖1所示,低景深圖像方框中A為背景離焦模糊區(qū)域,聚焦的清晰區(qū)域B為圖像的顯著目標區(qū)域。
圖1 低景深圖像中離焦模糊區(qū)域A和清晰目標區(qū)域B
將低景深圖像或其上的某一圖像塊S看成一個2維矩陣,對矩陣進行SVD分解,寫成如式(1)的形式[23–26]
其中,U和V都是單位正交矩陣。Σ是一個主對角線為奇異值,其余值為0的矩陣
其中,矩陣內奇異值由大到小排列:λ1>λ2>...>λN,且奇異值減小得特別快。前面幾個較大的奇異值,代表圖像的大部分信息,即圖像的低頻部分。后面較小的奇異值,對應圖像細節(jié)信息,代表圖像的高頻分量。
低景深圖像中顯著性目標的提取,關鍵在于提取離焦模糊區(qū)域和聚焦清晰區(qū)域之間的高區(qū)分度特征,從而實現(xiàn)目標與背景的有效分割。本文通過分析離焦和聚焦區(qū)域與各自模糊后的SVD奇異值差異特征,并定義全頻段特征的差異特征度量算子,達到有效分割離焦模糊背景和聚焦目標區(qū)域的目的。
對圖1中模糊的背景圖像塊A(圖2(a))和清晰目標圖像塊B(圖2(b))進行SVD分解,分解后的奇異值分布曲線如圖2(c)所示。模糊背景圖像塊A的SVD奇異值主要分布在前面幾個較大的值上,后面的值幾乎全部為0,如圖2(c)藍色實線所示。清晰圖像塊B的SVD奇異值除了分布在前面幾個較大的值上,也會分布在后面較小的值上,如圖2(c)中紅色實線所示。圖中橫坐標為SVD奇異特征值個數(shù),縱坐標為奇異特征值大小。全文中SVD曲線圖橫縱坐標參數(shù)相同。
為了區(qū)分兩種不同區(qū)域SVD奇異值分布的差異特性,本文將奇異值對應到不同的低、中、高3個頻率段進行分析??梢钥闯?,A,B區(qū)域均包含不同的頻率信息,只是各頻率數(shù)值不同。模糊區(qū)域A的奇異值下降很快,在P點處及以后趨于0,只在低頻部分有值;而清晰區(qū)域B的奇異值下降到M點處后緩慢減少,在中、高頻段部分也有分布值,對應的局部放大如圖2(d)所示。
對圖2中A,B區(qū)域分別進行相同的高斯模糊處理,得到模糊后的區(qū)域Ablur, Bblur,再對Ablur和Bblur進行SVD分解,得到結果如圖3所示。圖3(c)、圖3(d)中,藍色虛線為Ablur的奇異值分布曲線,紅色虛線為Bblur的奇異值分布曲線。
圖2 不同圖像塊的SVD奇異值分布
圖3 模糊后不同圖像塊的SVD奇異值分布曲線
為了更加明顯地看出模糊區(qū)域A和清晰區(qū)域B進行模糊前后SVD奇異值分布的變化特征,將A,B, Ablur和Bblur4個區(qū)域的SVD奇異值分布曲線進行對比,如圖4所示。
可以看出,背景圖像塊A與其高斯模糊后圖像塊Ablur的SVD奇異值分布相比,變化很小,如圖4(a)和圖4(b)中藍色曲線。目標圖像塊B與其高斯模糊后圖像塊Bblur的SVD奇異值在分布特征上變化較大。由此說明,低景深圖像中的模糊圖像塊進行高斯模糊后,奇異值分布改變很小,說明模糊過程對低頻圖像影響不大;反之對清晰圖像塊進行模糊后,SVD奇異值曲線下降更加迅速,高頻成分減少,模糊前后奇異值分布曲線差異較大,表明模糊過程對清晰圖像影響較大。
圖4 奇異值分布曲線及其虛線框內局部放大圖
從上述分析可知,背景圖像塊A, Ablur之間的奇異值分布差異遠遠小于目標圖像塊B, Bblur之間的差異。由此本文提出一種定義在兩者之間的具有高區(qū)分度的差異特征度量方法,來區(qū)分低景深圖像中的模糊背景和清晰目標區(qū)域,達到提取顯著性目標的目的。若圖像塊模糊前后的奇異值分布差異較小,可定義為模糊背景區(qū)域,反之,若差異較大,則可定義為顯著性目標區(qū)域。
令要進行顯著性目標提取的低景深圖像為f(x,y),對其進行高斯模糊處理后圖像為fblur(x,y),高斯模糊用如式(3)的卷積過程表示
其中,h(x,y)為高斯模糊核,表示為
其中,(x,y)為坐標變量,σ為模糊因子。設定兩個大小相同的滑動窗口,大小為W1×W2,分別在f(x,y)和fblur(x,y)上從左到右,從上至下,每滑動一個像素,以該像素為中心的窗口內的圖像塊定義為fk(x,y)和(x,y)。 分別對fk(x,y)和(x,y)進行SVD分解,得到兩個奇異值向量
利用差比型算子構造兩個奇異值之間的差異特征向量δλ,如
其中,η為加權調節(jié)因子,值位于0~1。
利用上述算法,分別對圖1中A, B兩圖像塊進行處理,得到的差異特征向量δAλ和δBλ分布曲線如圖5所示。
從圖5曲線看出,對背景圖像塊A進行處理,其對應的差異特征向量分布最高點為MA處,在PA處下降到0后一直保持不變。而目標圖像塊B的差異特征向量分布達到最高點MB處后,緩慢下降,中頻和高頻部分的值都大于0,且最高點位置MB遠高于MA。
圖5 不同圖像塊的差異特征分布曲線
從頻率域上分析,將圖像塊的差異特征分布曲線定義為低、中、高頻3個部分,A對應分布曲線只占低頻和中頻前面的一小部分,其余都為0;而B對應曲線分布從低頻段開始逐漸上升,到中頻后達到極大值,然后緩慢下降,一直到高頻段也保持較高的值。針對現(xiàn)有方法中只考慮高頻信息而導致目標信息提取不完整的問題,本文定義一個包含低中高3個頻段范圍的差異性度量算子,來描述不同圖像塊的特征強度,用式(8)表示為
其中,α,β和γ分別為低中高3個頻段的加權因子,滿足α+β+γ=1,a, b, c分別為3個頻段位置坐標。如圖5所示,若令橫向坐標軸長度為L,在0~0.15L區(qū)間內,兩條曲線的值幾乎都為0;0.15L~0.8L段內,兩條曲線的值達到頂峰后逐漸下降,且清晰圖像塊的曲線值遠遠大于對應模糊圖像塊曲線值;0.8L~L區(qū)間,清晰圖像塊的曲線值逐漸下降,模糊圖像塊曲線值為0。因此本文定義a, b, c的值為:a=0.15L, b=0.8L, c=L。為了最大限度將兩條曲線的特征區(qū)分出來,本文確定3個分段的加權值分別為α=0.1,β=0.6,γ=0.3。避免因只選取部分頻段信息而導致特征丟失,同時也能較好地去除背景干擾。
根據(jù)上述步驟,對低景深圖像中的每一個像素進行處理,得到一個對應的特征強度值。遍歷整幅圖像進行處理,則可得到特征顯著性結果圖。結果圖中目標最為突出的,表現(xiàn)為高強度值,模糊背景部分則表現(xiàn)為較低的強度值,得到了較好的抑制。因此可以采用一個簡單的閾值化運算提取目標,本文定義閾值公式為
其中,κ為一個0~1的系數(shù),N為奇異值向量的長度。在本文中,經過大量實驗表明,當κ取0.3~0.5的值時,能取得較好的閾值化效果??紤]到不同圖像中目標的顯著性程度存在一定的差別,κ值大小可適當調整。
對一幅分辨率為M×N的低景深圖像,定義大小為W1×W2的滑動窗口,計算該圖像每一個像素對應圖像塊模糊前后在SVD域上的差異特征強度值,最后得到特征顯著性結果圖,本文計算像素的特征度量值算法步驟如表1所示。
表1 像素特征度量值計算
計算單個像素特征強度值的算法流程示意如圖6所示。對每一個像素計算得到一個特征強度值,圖像中顯著性目標像素的特征強度值高,模糊背景像素點的特征強度值低,這樣就在特征顯著性圖中將目標區(qū)域顯著地表現(xiàn)出來,經過閾值化處理,最后得到顯著性目標。
圖6 單個像素特征強度計算流程示意圖
由于算法中對原圖像及其高斯模糊后的圖像進行SVD分解,由于圖像模糊程度會直接影響SVD奇異值分布及像素差異度值結果,在本文中,將影響模糊程度的偏差系數(shù)σ定義為模糊因子。從理論上來看,模糊因子越大,圖像的模糊程度越強。本文針對不同模糊因子條件下處理得到的特征顯著性圖進行計算實驗,并使用Pratt的優(yōu)點圖(Pratt’s Figure Of Merit, PFOM)度量[6]來評估不同高斯模糊條件下計算得到的結果,進而確定最合適的高斯模糊因子。PFOM度量公式為
其中,IN=Max (II,IA),II為理想結果圖,IA為處理的結果圖,a為縮放系數(shù),d為處理的結果圖中目標邊緣像素的分離距離。使用PFOM度量進行計算,得到的PFOM度量值越大,表示結果圖質量越好。
本文算法實驗中,所用實驗圖像的分辨率為256×256,滑動窗口大小為5×5,高斯模糊半徑取為2,分別取不同高斯模糊因子σ,計算圖像差異特征強度結果如圖7所示。從圖7的特征顯著性結果圖可以看出,σ值較小時,由于模糊程度不夠,導致圖像模糊前后的奇異值差異很小,得到結果圖中目標和背景像素強度值都較低,提取的目標信息微弱。σ取較大的值時,目標區(qū)域奇異值差異特征增強的同時,背景區(qū)域的奇異值差異特征也得到增強,隨著σ增大,背景噪聲也越來越強。因此,本文根據(jù)圖像評價度量PM來選擇合適的模糊因子。
圖7 模糊因子取不同值時的特征顯著性強度圖
圖8為高斯模糊因子σ與PM的分布曲線。從圖8的PM值曲線分布可以看出,當模糊因子逐漸變大時,PM值也逐步增大,當模糊因子達到一定值時,PM達到最大值,然后隨著模糊因子的增大而減小。根據(jù)上述結果,本文取PM達最大值時的參數(shù)為最佳模糊因子σ=0.5。
圖8 不同模糊因子σ 對應的PM值曲線
本文提出方法主要面向只有極少樣本條件下的低景深圖像目標提取,為驗證本文算法(SVD-DM)處理結果的優(yōu)越性,對大量不同場景、不同目標和背景的低景深圖像進行了處理,實驗所用圖像為Zhao等人[20]提供的大連理工大學離焦模糊檢測(Dalian University of Technology-Defocus Blur Detection, DUT-DBD)數(shù)據(jù)集,圖像分辨率為256×256。Zhao等人[20]采用深度學習來提取圖像的顯著性目標,在深度學習模型訓練過程中,利用大量的圖像作為訓練樣本,耗費較多的人力和時間進行大量的圖像真值標記(Ground Truth, GT),并利用專業(yè)的硬件設備執(zhí)行算法,因此取得了較好的結果。本文針對較少樣本圖像,以Zhao等人[20]的提取結果作為參考的評判標準,對本文及現(xiàn)有的5種主流算法如亮度對比度法 (Luminance Contrast,LC)[9], Achanta的對比度法(Achanta’s Contrast,AC)[10],直方圖對比度法(Histogram-based Contrast, HC)[11],譜殘差法 (Spectral Residual,SR)[13]和頻率調諧法 (Frequency-Tuned, FT)[15]進行了對比評價,并針對不同類型圖像的處理結果進行比較分析。在此基礎上,利用精確度-召回率(Precision and Recall, PR)曲線、F度量(F-measure)和平均絕對誤差(Mean Absolute Error,MAE)3種評價方法對上述所有方法的處理結果進行了評價計算。圖9所示為簡單背景下本文方法與現(xiàn)有方法的處理結果。圖10為復雜背景條件下本文方法與現(xiàn)有方法的處理結果比較。
圖9中,從左至右,第1列為簡單背景低景深圖像,第2列為真值圖(GT),其余各列分別為LC[9],AC[10], HC[11], SR[13], FT[15], Zhao等人[20]及本文方法的處理結果。在圖9的第1~4行中,原圖像中目標區(qū)域與背景區(qū)域顏色差異較大,且背景色彩單一,LC, AC, HC, FT方法的目標提取結果較好,背景也比較干凈,SR方法提取結果中雖然背景干凈,但目標區(qū)域欠完整。圖9第5行結果中,對于原圖中背景與目標中顏色相近區(qū)域,LC, AC, HC, FT方法將背景誤檢測為目標。SR方法的提取結果中背景較干凈,但目標完整性不夠。從結果圖可以看出,本文所提方法能準確地將目標區(qū)域與背景區(qū)域區(qū)分開,且提取的目標區(qū)域信息完整,背景干凈,最接近文獻[20]方法的處理效果。
圖9 簡單背景圖像的不同方法處理結果
圖10中,從左至右,第1列為復雜背景低景深圖像,第2列為真值圖(GT),其余各列分別為LC[9],AC[10], HC[11], SR[13], FT[15], Zhao等人[20]及本文方法的處理結果。當圖像中的背景較為復雜時,LC,AC, HC, FT方法在提取目標的同時,誤將很大一部分背景作為目標提取出來,特別是圖10中第2~3行的結果中,提取的目標甚至湮沒在背景中。由于SR僅保留原圖像的高頻部分,提取的結果圖中背景去除得很干凈,但目標信息微弱,甚至存在部分目標缺失現(xiàn)象(見圖10第3行SR方法結果)。與上述幾種方法相比,本文方法處理結果中,目標都提取得比較完整,結果圖像中的背景都被去除干凈,接近文獻[20]方法的處理結果。
圖10 復雜背景圖像的不同方法處理結果
從上述結果及分析可以看出,本文方法在SVD域中處理圖像,在提取圖像目標信息過程中,不僅考慮圖像的高頻信息,還將中頻和低頻信息作為目標信息提取重要因素,因此較好地避開了色彩因素等對目標提取的影響,提取的目標也比僅保留高頻成分的SR方法要完整。
4.3.1 PR曲線
PR曲線是用來評估顯著性目標提取性能的重要指標之一,PR曲線中的P(Precision)和R(Recall)分別表示“精確度”和“召回率”。以“精確度”為縱坐標,“召回率”為橫坐標所做的曲線即為PR曲線。首先將所提取的顯著性結果圖進行二值化,然后通過下面公式逐像素對比實際提取目標與人工標注目標(Ground-Truth,GT)來計算Precision值與Recall值
其中,TP(True Positive)為準確分類的目標,TN(True Negative)為背景,F(xiàn)P(False Positive)為誤分為目標的背景區(qū)域,F(xiàn)N(False Negative)為誤分為背景的目標區(qū)域,如圖11所示,GT表示Ground-Truth目標區(qū)域(紅色區(qū)域),Ge表示實際提取的目標區(qū)域(綠色區(qū)域)。
圖11 區(qū)域分類示意圖
通常根據(jù)PR曲線的平衡點來評價該PR曲線對應的性能。平衡點(Break-Even Point, BEP)是P=R時的取值,如果該值較大,則說明算法性能較好。圖12為對數(shù)據(jù)集DUT-DBD中的圖像,利用本文方法與現(xiàn)有方法PR曲線結果比較。
圖12 不同方法的PR曲線結果圖
可以看出,F(xiàn)T, LC, HC, AC方法的PR曲線相近,從平衡點直線來看,LC方法的平衡點的值最小,即LC方法的目標提取性能較差,F(xiàn)T, HC, AC 3種方法的平衡點相近,大于LC方法,但遠遠小于SR方法。本文方法PR曲線最接近Zhao等人的方法,說明本文方法的性能優(yōu)于其他5種方法。
4.3.2 F度量方法
由于很多情況下,精確度Precision和召回率Recall均不能全面地對顯著性結果進行評估。本文還采用F-measure方法來對處理結果進行評價,F(xiàn)度量(F-measure)方法是P和R加權調和平均,F(xiàn)-measure值越大表示目標提取結果越好,其表達式為
其中,β2為非負權重值,本文取0.3。表2為對數(shù)據(jù)集DUT-DBD中的圖像,用不同方法處理結果的Fmeasure值,粗體數(shù)字為本文方法(SVD-DM)結果。
從表2結果可以看出,LC方法的F-measure值最小,性能最差。FT, HC, AC 3種方法的F-measure值相近,SR方法結果稍大于前面4種方法,Zhao等人方法的F-measure值最大。本文方法的F-measure值大于LC, FT, HC, AC, SR 5種方法,低于Zhao等人的方法。與F-measure最低的LC方法相比,本文方法F-measure值提高54%。上述所有結果中,本文方法與Zhao等人方法的F-measure值最接近,表明了本文方法進行低景深圖像目標提取的優(yōu)勢。
表2 不同方法的F-measure值
4.3.3 平均絕對誤差
平均絕對誤差(Mean Absolute Error, MAE)是直接計算各種方法處理結果與人工標注的真值圖(GT)之間的平均絕對誤差,其值越小,表明處理結果S與真值圖GT之間的差距越小,目標提取結果越好。計算公式為
其中,M和N分別表示原圖像和結果圖的高與寬。對數(shù)據(jù)集DUT-DBD中的圖像,用不同方法得到的結果進行測試,得到的MAE結果如表3所示,粗體數(shù)字為本文方法結果。
從表3所示結果來看,MAE值最高的是AC方法,最低的是Zhao等人方法,本文方法MAE值大于Zhao等人方法,但與Zhao等人方法MAE值接近,且遠小于其他5種方法。從圖9和圖10的結果可以看出,HC, LC, FT, AC方法結果中有部分大面積的背景區(qū)域被誤作為目標提取出來,因而造成較高的誤差率。SR方法對應的平均絕對誤差小于HC,LC, FT, AC方法,說明對背景的去除效果較好,但是MAE值遠大于本文方法,表明SR提取目標的完整性欠佳。本文方法與AC方法相比,MAE減少87%;與SR方法相比,MAE減少76%。表3所示結果中,只有本文方法和Zhao等人[20]方法的MAE值相近,且都小于0.1。由此證明,本文提出方法與現(xiàn)有的這幾種方法相比,目標提取完整性最好,背景去除能力最強。
表3 不同方法對應的平均絕對誤差值
對大量不同背景的低景深圖像進行了顯著性目標提取,對不同區(qū)域圖像塊分別進行模糊,并進行奇異值分解后,發(fā)現(xiàn)目標所在區(qū)域圖像塊模糊前后的奇異值分布差異遠遠大于背景所在區(qū)域圖像塊。根據(jù)這一特征,本文針對圖像塊模糊前后奇異值差異特征定義了一個包含低中高3個頻段范圍的差異性度量算子,計算不同區(qū)域像素對應的特征強度值。最后進行閾值化將高強度值像素確定為目標,低強度值像素確定為背景,將目標和背景分割出來。實驗結果表明,本文方法能較好地保持目標完整性和有效去除背景。