孟慶巖,陰旭強,宋懷波
(1 煙臺黃金職業(yè)學院 信息工程系,山東 煙臺 265400;2 西北農林科技大學 機械與電子工程學院,陜西 楊凌 712100)
顯著性區(qū)域檢測在圖像分割[1-3]、圖像匹配[4-5]、物體識別[6]和視覺跟蹤[7]等領域具有重要的研究意義。農業(yè)生產往往處于非結構化的復雜背景之中,作物、畜禽等目標圖像顯著性區(qū)域的快速準確預測可為其識別和監(jiān)測奠定基礎,對于提升農業(yè)生產的智能化水平具有重要的促進作用[8-9]。
在農業(yè)圖像顯著性檢測領域,國內外學者已有了一定的研究成果。馬翠花等[10]通過自動識別獲取自然環(huán)境下果實圖像中的未成熟果實,以實現自動化果實估產的目的,提出了基于密集和稀疏重構(dense and sparse reconstruction,DSR)的顯著性檢測方法,對圖像中的未成熟番茄果實的正確識別率達77.6%,為估產機器人的多種果實自動化識別提供了參考。錢蓉等[11]提出一種基于顯著性檢測的害蟲圖像自動分割算法,對5種鱗翅目幼蟲圖像的平均分割精確度為88.22%。任守綱等[12]提出了一種基于超像素分割聯合顯著性檢測的黃瓜葉部病害圖像分割算法,對常見的黃瓜病害(白粉病、褐斑病、霜霉病、炭疽病)圖像進行測試,有效解決了冗余分割問題,錯分率在5%以內,算法平均執(zhí)行時間均小于4 000 ms,分割效果更加精確,為后續(xù)構建黃瓜病害自動識別系統(tǒng)奠定了基礎。目前農業(yè)領域顯著性區(qū)域預測研究多基于傳統(tǒng)分割算法開展,但其模型參數易受非結構化農業(yè)環(huán)境的影響,分割精度也有待提高。在非結構化的農業(yè)環(huán)境下,復雜背景會對傳統(tǒng)顯著性區(qū)域預測算法造成干擾,導致無法實現顯著性區(qū)域的準確提取[13-14]。
深度學習技術的發(fā)展為實現農業(yè)圖像顯著性區(qū)域的快速、準確預測提供了技術支撐。王書志等[15]提出了一種融合圖像局部和全局信息顯著性目標檢測的病斑分割方法,所建立的方法對病斑分割性能指標馬修斯相關系數為0.625,略低于對照算法全卷積神經網絡(FCN)(0.689),但在衡量泛化性能的測試集上,所建立方法的馬修斯相關系數為0.338,遠高于FCN(0.072),說明所建立方法在分割精度和泛化性方面具有較好的平衡性?;谏疃葘W習的農業(yè)圖像顯著性檢測算法具有更好的環(huán)境魯棒性,可以有效地避免人工設計特征,全面有效地對圖像信息進行挖掘。但是現有基于深度學習的顯著性區(qū)域預測網絡主要集中在底層顯著性特征的設計上,缺乏對高層視覺特征的學習,導致信息缺失,不利于顯著性區(qū)域的精確提取。因此,為實現自然場景下農業(yè)目標的準確快速提取,應將顯著性區(qū)域檢測視為高級與低級視覺特征融合的語義認知任務[16]。本研究擬提出一種基于高級與低級視覺特征融合的顯著性區(qū)域預測深度學習框架,以期為實現農業(yè)圖像顯著性區(qū)域的快速準確提取提供參考。
本研究提出了一種用于顯著性區(qū)域預測的高級視覺特征與低級視覺特征融合的深度學習框架,如圖1所示,該框架共由5部分組成:第1部分由ResNet網絡中的第1個卷積層構成,用于抽取輸入圖像的64個卷積特征圖(ResNet中的Conv1卷積核數量為64);第2部分由ResNet剩余網絡層構成,用于抽取輸入圖像卷積特征圖的高級視覺特征;第3部分由3個卷積層和1個全連接層構成,用于抽取輸入圖像卷積特征圖的低級視覺特征;第4部分是特征融合模塊,用于高級視覺特征與低級視覺特征的融合;第5部分是由10個SVM二值分類器組成的集成分類器,用于預測顯著性區(qū)域圖。
圖1 顯著性區(qū)域圖像視覺特征融合框架Fig.1 Visual feature fusion frame diagram of salient area image
該框架使用ResNet101作為基線模型實現高級視覺特征的提取,ResNet101中共有101層(激活層與池化層不被計算在內),其中包含100個卷積層和1個全連接層。在基線模型的基礎上引入了低級視覺特征提取網絡,共有4層(激活層與池化層不被計算在內),其中包含3個卷積層和1個全連接層,詳細參數如表1所示,例如超參數64(7×7)表示64個通道7×7的卷積,其他同理。除了ResNet101模型外,在計算機視覺任務中,還有一些優(yōu)秀的特征提取網絡模型,如AlexNet[17]、GoogleNet[18]和ResNet50[19]。在試驗部分,本研究將這些模型融入到所建算法框架之中,并進行顯著性區(qū)域預測性能的對比。
表1 高級與低級視覺特征提取網絡框架的網絡參數(Conv為卷積層)Table 1 Parameters used in the high- and low-level visual feature extraction network (Conv is convolution layer)
圖1中的高級視覺特征提取網絡通過深層網絡來提取特征,目的是檢測圖像中包含的語義區(qū)域信息;而低級視覺特征提取網絡則利用淺層網絡抽取特征,更側重于顏色、形狀、亮度等低級信息的檢測。在本研究中,高級視覺特征提取網絡采用與低級視覺特征提取網絡中相同形式的輸入。LFENet與HFENet由于采用不同的深層網絡結構,故兩者具有獨立的參數。其他深層網絡結構(如AlexNet)也可以靈活地與LFENet結合在顯著性區(qū)域預測算法中??偠灾ㄟ^高級視覺特征與低級視覺特征整合來估計顯著性區(qū)域概率,從而實現對顯著性區(qū)域的預測。其計算公式為:
score(xIf)=p(xlabel=1|xIf;θ1)。
(1)
式中:score為顯著性區(qū)域預測概率;xIf為高級視覺特征與低級視覺特征的整合特征;p為概率分布;xlabel表示根據整合特征對顯著性區(qū)域的預測,label為圖像像素,xlabel=1表示當前整合特征是顯著性區(qū)域的特征,xlabel=0表示當前整合特征是非顯著性區(qū)域的特征;θ1為當前網絡結構權重參數。
在高級視覺特征與低級視覺特征整合中,本研究將高級視覺特征視為語義視覺中心,低級視覺特征視為圖像的底層視覺描述。為了在一定程度上刻畫圖像底層視覺描述圍繞語義視覺中心的緊密程度,本研究按照下式的形式進行整合與描述。有:
(2)
式中:xLf和xHf分別為低級視覺特征提取網絡和高級視覺特征提取網絡中最后一層網絡的輸出;i、j表示視覺描述的個體;N為圖像底層視覺描述的數量;M為語義視覺中心的數量。
10個二值分類器(SVM分類器)組成了一個分類器集,每個二值分類器通過隨機抽取90%的整合特征進行訓練,目的是提高顯著性區(qū)域預測的置信度,可用下式表示:
(3)
(4)
式中:T是轉置符號。
本研究根據文獻[22]定義顯著性區(qū)域預測分數fu(t),其表達式為:
(5)
1.3.1 數據集 本研究使用MSRA10k數據集[20]來訓練顯著性區(qū)域預測算法,數據集包含不同領域的10 000幅圖像,包括準確像素級的顯著目標標注圖,將其按照6∶2∶2的比例劃分為訓練集、驗證集和測試集。在算法的對比分析模塊,采用6個顯著性檢測領域常用公共測試集(SOD、ASD、SED2、ECSSD、HKU-IS和THUR)進行評價分析。為進一步驗證所提框架在農業(yè)場景應用的可行性,本研究利用源于網絡的100幅典型農業(yè)場景圖像數據集作為測試集進行算法評估,人工篩選典型果實、農作物及畜禽目標。不同于普遍的顯著性公共評估數據集,人工篩選時保留多目標及重疊目標以保證測試數據集的復雜性,利用Labelme軟件進行人工顯著性區(qū)域標注,以對算法的預測結果進行客觀評價。
1.3.2 訓練流程 卷積神經網絡產生的若干特征圖中會存在顯著性區(qū)域圖像。本研究提出的基于整合特征的顯著性區(qū)域預測算法,是通過高級視覺特征與低級視覺特征的融合,使得抽取的語義圖像特征更加豐富,最終將整合特征通過集成分類器,在本研究設定的損失函數下,利用自適應梯度下降尋優(yōu)得到最接近于基準標注圖的特征圖集合,并最終得到顯著性區(qū)域預測圖。其具體訓練流程如下:
1) 對深度CNN模型進行預訓練,以顯著提高目標任務的檢測性能[21]。首先使用大規(guī)模圖像分類數據集ImageNet[22]上預訓練的ResNet101權重進行遷移,以更好地進行圖像特征的挖掘,節(jié)省訓練時間,提高效率。為進行預訓練模型的自我評價,與其他3種深度學習領域常用深層網絡結構模型(AlexNet、GoogleNet、ResNet50)進行對比評估。
2) 采用隨機采樣技術提升分類器的穩(wěn)定性。卷積操作會產生較多的冗余特征,即不同數量級的顯著性區(qū)域特征和非顯著性區(qū)域特征,因此,這是一個典型的類別不平衡問題。本研究采取Tao等[23]的方式進行采樣,其流程如圖2所示。通過圖2的隨機采樣技術既解決了分類器的不穩(wěn)定問題,又有效提升了基線分類器的差異度。
圖2 隨機降采樣技術處理流程圖Fig.2 Processing chart of random down sampling technology
3) 基于PyTorch庫實現融合高級視覺特征與低級視覺特征的顯著性區(qū)域預測深度學習框架。采用Adam優(yōu)化器對損失函數式(3)進行優(yōu)化,以獲得與基準標注圖更接近的顯著性區(qū)域預測結果。初始學習率為5×10-4,共進行100 000次迭代。預處理僅使用簡單的隨機水平翻轉來擴充數據,且在訓練和測試中保持輸入圖像的大小不變。
4) 預訓練模型評估。為進行預訓練模型對顯著性區(qū)域預測結果的評估,在保證試驗條件相同的前提下,僅將模型中的ResNet101模型結構替換為其他3種深層網絡結構模型(AlexNet、GoogleNet、ResNet50)以進行評估,進行100 000次迭代,進行F-Measure指標對比。
5) 有效性驗證。為進一步驗證本研究所提框架的有效性,在6個顯著性檢測領域常用公共測試集(SOD、ASD、SED2、ECSSD、HKU-IS和THUR)對4種最新的顯著性檢測框架(MWS[24]、IMS[25]、FSN[26]、P-Net[27])進行F-Measure及MAE指標的對比分析,以驗證與顯著性檢測領域常見算法相比,融合高級視覺特征與低級視覺特征的顯著性區(qū)域預測深度學習框架的有效性。
本試驗在具有Intel I5 3.4 GHz GPU,16 GB RAM和GTX 1050Ti GPU的PC上進行100 000次迭代訓練,需時14.4 h。
在顯著性評價指標中,本研究采用F-Measure分數作為評價指標之一。F-Measure分數常被用來評價算法是否有效,其為準確率與召回率的加權調和平均值。F-Measure越高,代表顯著性區(qū)域預測結果越接近基準標注標簽圖像。具體操作步驟為:先將顯著性區(qū)域圖像進行二值化(每一個分割閾值均屬于[0,255]),然后進行F-Measure分數的評估。計算公式為:
(6)
式中:Fβ為F-Measure分數,其中β為固定參數,用于調節(jié)F-Measure中P和R的占比,本研究中β2設置為0.3;P為算法精度;R為算法召回率。
第2個評價指標為平均絕對誤差(MAE),計算公式為:
(7)
式中:W和H分別為圖像的寬度和高度,S為預測的顯著性矩陣,GT為真實二進制掩模矩陣。
本研究將擬采用的預測框架中的整個顯著性區(qū)域預測算法拆分為兩個獨立的部分:(1)基于高級視覺特征提取網絡預測顯著性區(qū)域算法;(2)基于低級視覺特征提取網絡預測顯著性區(qū)域算法。在MSRA10k數據集下,分別利用基于整合特征、低級視覺特征、高級視覺特征的顯著性區(qū)域算法進行100 000次迭代訓練,在保證相同預處理和超參數的試驗前提下,利用所有6個數據集(SOD、ASD、SED2、ECSSD、HKU-IS和THUR)作為測試集進行F-Measure指標對比,以驗證特征融合的重要性,結果見圖3。
a.F-Measure;b.原始圖像;c.人工標注的基準標注圖;d-f.使用整合視覺特征、低級視覺特征和高級視覺特征的顯著性區(qū)域預測結果a.F-Measure;b.The original image;c.The benchmark annotation map of manual annotation;d-f.The significant region prediction results using integrated visual features,low-level visual features and high-level visual features respectively圖3 6種數據集基于整合特征、低級視覺特征和高級視覺特征的顯著性區(qū)域預測性能比較Fig.3 Performance comparison of salient regions predicted by integration features,low- and high-level visual features based on 6 data sets
如圖3-a所示,基于整合特征的顯著性區(qū)域檢測算法,在所有6個數據集(SOD、ASD、SED2、ECSSD、HKU-IS和THUR)上的F-Measure分數均高于單獨基于低級視覺特征或高級視覺特征的顯著性區(qū)域預測算法。特別是在THUR數據集上,基于整合特征的顯著性區(qū)域檢測算法的F-Measure得分較基于高級視覺特征算法提高了0.170,較基于低級視覺特征算法提高了0.150。
此外,部分顯著性區(qū)域預測結果如圖3-b-f所示,其中圖3-b是原始圖像,圖3-c是人工標注的基準標注圖,圖3-d-f分別為使用整合視覺特征、低級視覺特征及高級視覺特征的顯著性區(qū)域預測結果。從圖3-b-f可以看出,由于整合了高級視覺特征與低級視覺特征,整合特征算法的預測結果較基于高級視覺特征或低級視覺特征的算法更加完整,更接近于基準標簽,進一步驗證了特征融合對顯著性區(qū)域預測的有效性。
本研究提出的基于整合特征的顯著性區(qū)域預測算法框架可以與常見的深層網絡結構進行靈活結合。為進行預訓練模型對顯著性預測結果的評估,在保證試驗條件相同的前提下,僅將算法中的ResNet101模型結構替換為其他3種深層網絡結構模型(AlexNet、GoogleNet、ResNet50)進行評估。在進行100 000次迭代后,其F-Measure結果如表2所示。
由表2可見,在6種數據集上,ResNet101的預測結果均優(yōu)于其他3種深層網絡結構模型,進一步表明,利用ResNet101作為Backbone進行低級和高級視覺特征提取是有效的。
本研究使用基于整合特征的顯著性區(qū)域預測框架與4種顯著性檢測框架(MWS、IMS、FSN、P-Net)進行了性能對比分析,結果見表3和表4。由表3和表4可見,本研究所用算法的F-Measure在2/3數據集(SOD、ASD、SED2和THUR)的F-Measure分數均高于其他4種算法,平均F-Measure分數為0.823,且MAE指標均較低,表明低級視覺特征和高級視覺特征整合顯著性區(qū)域預測算法有效。
表3 6個公共數據集上5種算法的F-Measure分數Table 3 F-Measure scores of 5 algorithms based on 6 public datasets
表4 6個公共數據集上5種算法的MAE分數Table 4 MAE scores of 5 algorithms based on 6 public datasets
本研究顯著性區(qū)域預測可視化結果如圖4所示。圖4第2列為基準圖像,第3列為本研究算法預測結果,第4~7列分別為4種顯著性檢測框架(P-Net、MWS、IMS、FSN)預測結果。由圖4可以發(fā)現,本研究所構建算法能夠更加連貫且相對準確地突出圖像中的顯著性區(qū)域,與人工標記的基準圖像更相似,表明其具有更好的預測性能。此外,如圖4第3行和第4行所示,在背景較為復雜的場景中,相比于其他4種顯著性檢測框架,本研究提出的算法有效地減少了誤分割,其邊界區(qū)域更加清晰,更加契合基準圖像。上述研究結果表明,在存在復雜背景的場景中,本研究所用算法的預測效果更好。
圖4 在6種數據集上示例圖像及其顯著性區(qū)域預測結果的比較Fig.4 Comparison of example images and salient region prediction results based on 6 data sets
在非結構化的農業(yè)領域,本研究算法利用高低級特征的有效融合,豐富地完善了顯著性區(qū)域信息。本研究利用源于網絡的100幅典型農業(yè)場景的圖像數據集作為測試集進行算法評估,其顯著性區(qū)域預測結果如圖5所示。
圖5 典型農業(yè)場景圖像中顯著性區(qū)域的預測Fig.5 Prediction results of salient regions in images of typical agricultural scenes
圖5表明,本研究所用算法可以有效地應對不同農業(yè)場景下復雜背景(近景色、遮擋、光照)的干擾,可以有效忽略復雜背景而提取出目標圖像的完整輪廓信息,為后續(xù)果實目標及畜禽目標的分割提供無監(jiān)督參照信息,對農作物生長信息的監(jiān)測和動物體況的自動評估研究具有一定的意義。
表5顯示,本研究所用算法在典型農業(yè)場景圖像數據集上的平均F-Measure分數為0.826,高于其他4種算法,表明該算法可以應用于典型的農業(yè)領域,以期可以有效捕捉農業(yè)場景的目標信息,為現代化農業(yè)果實采摘、畜牧業(yè)精準養(yǎng)殖的發(fā)展奠定良好基礎。
表5 典型農業(yè)場景圖像上5種算法F-Measure分數的比較Table 5 F-Measure scores of 5 algorithms based on typical agricultural images
本研究采用新算法是為了解決顯著性檢測的精度和魯棒性問題。一般而言,運行時間隨著算法的復雜性而增加。在測試算法的精度和魯棒性時,本研究在相同的軟件和硬件環(huán)境下,比較了該算法與其他算法在時間復雜度上的差異,結果表明,在不同的數據集中,檢測圖像所需時間并不相同。其中MWS、P-Net框架用時較短,顯著性區(qū)域預測時長分別為2.125和1.528 s,而本研究所用算法的顯著性區(qū)域檢測時長約為2.526 s。這主要是由于該網絡結構更為復雜,且本研究更加注重于低級視覺和高級視覺特征的提取質量。因此網絡的復雜度進一步加大,導致需時稍長。按圖像需求改變網絡結構的復雜性,以有效縮短檢測時長,是以后研究的方向。
本研究提出了一種基于高級與低級視覺特征整合的顯著性區(qū)域預測深度學習框架,并與其他的深度網絡結構框架進行了測試與比較。結果表明,本研究提出的顯著性區(qū)域預測算法優(yōu)于其他4種顯著性預測算法,在6種公共數據集上的平均F-Measure分數最高,為0.823,平均MAE分數最低,為0.099,顯著性可視化結果邊界完整,與人工標記的基準圖像更相似;在典型農業(yè)場景圖像數據集上的平均F-Measure分數為0.826,可以有效地應對農業(yè)場景下復雜背景的干擾,提取出目標的完整輪廓信息,證明所提出的算法可靠,可以應用于農業(yè)場景下的顯著性區(qū)域預測。