黃昕晰,夏凱,馮海林,楊垠暉,杜曉晨
(浙江農(nóng)林大學(xué)信息工程學(xué)院,浙江省林業(yè)智能監(jiān)測與信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,林業(yè)感知技術(shù)與智能裝備國家林業(yè)局重點(diǎn)實(shí)驗(yàn)室,杭州 311300)
對樹木的檢測、分類、定位以及參數(shù)獲取一直是林業(yè)資源調(diào)查的中心任務(wù)。傳統(tǒng)的林業(yè)資源調(diào)查方式主要為人工實(shí)地考察測量和基于遙感影像進(jìn)行影像目視解譯這兩種:前者需要耗費(fèi)大量的人力物力、且精度由于人為因素難以得到保證[1-2];后者受分辨率以及云層影響,通常難以滿足中小尺度區(qū)域的林業(yè)調(diào)查,且目視解譯過程中往往需要比較大的時間成本[3-4]。雖然近年來激光雷達(dá)LiDAR在獲取各項(xiàng)樹木參數(shù)方面取得了不錯的效果,但LiDAR傳感器價格昂貴且數(shù)據(jù)處理過程復(fù)雜,與遙感影像相比成本較高[5]。
相比較于衛(wèi)星遙感,無人機(jī)遙感因具有高分辨率、高時效性以及影像獲取便捷等優(yōu)勢而作為一種新遙感影像獲取途徑被逐漸應(yīng)用于林業(yè)資源調(diào)查中[6-8]。例如:劉文萍等[9]以銀杏和梧桐為例,提出了基于無人機(jī)正射圖像分析的胸徑預(yù)測方法,為中小尺度林地調(diào)查提供了技術(shù)支撐;于東海等[10]對目標(biāo)樹木進(jìn)行無人機(jī)傾斜攝影獲取多角度航空影像從而測算樹冠體積,為單木樹冠幾何參數(shù)的提取提供了參考;陳崇成等[11]使用無人機(jī)影像匹配點(diǎn)云數(shù)據(jù)對羅漢樹和桂花樹進(jìn)行了單木冠層三維分割,得到了精度可靠的分割結(jié)果。以上研究均表明,無人機(jī)遙感技術(shù)在單木樹冠的參數(shù)提取方面已得到應(yīng)用,但從時間成本考慮仍缺乏快速提取相關(guān)樹冠參數(shù)的手段。因此如何從遙感影像中快速準(zhǔn)確地對城市中的樹冠進(jìn)行檢測以及獲取參數(shù)信息仍是目前城市林業(yè)資源調(diào)查領(lǐng)域研究的重點(diǎn)。
近年來,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)為代表的深度學(xué)習(xí)技術(shù)高速發(fā)展,通過大量的數(shù)據(jù)訓(xùn)練以學(xué)習(xí)圖像深層次的特征,其在圖像識別、分類以及分割等各個領(lǐng)域都取得了良好的效果,同時在遙感領(lǐng)域的應(yīng)用也逐漸展開。李梁等[12]使用改進(jìn)特征金字塔以及在線困難樣本挖掘策略優(yōu)化Mask R-CNN算法后應(yīng)用于航拍災(zāi)害的檢測中,實(shí)現(xiàn)了對不同場景下各種災(zāi)害類型快速準(zhǔn)確檢測,為檢測圖像中存在目標(biāo)尺寸大小不一和網(wǎng)絡(luò)模型精度較低的問題提供了解決思路。李森森等[13]針對高分辨率圖像在目標(biāo)檢測與分割中存在的特征提取困難和檢測率較低的問題,利用分層跳連融合方式和設(shè)計(jì)自適應(yīng)感興趣區(qū)域改善圖像特征提取,提高了遙感圖像中多目標(biāo)檢測和分割的準(zhǔn)確率。Weinstein等[14]使用半監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對遙感圖像中的單個樹冠進(jìn)行檢測,即利用一些標(biāo)注數(shù)據(jù)和一部分未標(biāo)注樣本進(jìn)行訓(xùn)練,以克服深度學(xué)習(xí)中訓(xùn)練數(shù)據(jù)缺乏的問題。以上研究均在不同程度上將深度學(xué)習(xí)算法與不同領(lǐng)域內(nèi)容相結(jié)合,且通過不同途徑使相關(guān)深度學(xué)習(xí)算法更適用于其領(lǐng)域,但將無人機(jī)遙感影像與深度學(xué)習(xí)算法結(jié)合應(yīng)用于樹冠檢測與分割研究的嘗試還比較少,因此如何將相關(guān)深度學(xué)習(xí)算法應(yīng)用于樹冠檢測與分割領(lǐng)域仍然值得探究。
本研究使用無人機(jī)遙感技術(shù)獲取銀杏(Ginkgobiloba)遙感樹木影像,將無人機(jī)影像數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,并使用Mask R-CNN算法結(jié)合正射影像圖對城市中不同場景下的銀杏樹木進(jìn)行檢測與分割并獲取相關(guān)樹冠參數(shù),探究一種基于無人機(jī)影像與 Mask R-CNN算法相結(jié)合而快速準(zhǔn)確地對銀杏樹木進(jìn)行檢測和獲取相關(guān)參數(shù)的方法。
研究區(qū)域位于杭州臨安浙江農(nóng)林大學(xué)東湖校區(qū)內(nèi),地理坐標(biāo)位于30°15′10″~30°15′30″N,119°43′10″~119°43′40″E。校園內(nèi)銀杏大道兩側(cè)分布了大量的銀杏樹木為研究提供了良好的數(shù)據(jù)來源。將銀杏大道分為6個實(shí)驗(yàn)區(qū)域,選?、冖邰堍尢枌?shí)驗(yàn)區(qū)以及①與⑤號實(shí)驗(yàn)區(qū)的一部分作為訓(xùn)練數(shù)據(jù),①與⑤號實(shí)驗(yàn)區(qū)的剩余部分作為檢驗(yàn)數(shù)據(jù)檢測網(wǎng)絡(luò)模型適用性,研究區(qū)域和實(shí)驗(yàn)區(qū)分布見圖1。
圖1 研究區(qū)域和實(shí)驗(yàn)區(qū)分布Fig.1 Distribution of the study area and experiment area
本研究的影像數(shù)據(jù)獲取時間為2019年6—7月,在天氣晴朗、風(fēng)力較小的環(huán)境下使用大疆Inspire 2四旋翼無人機(jī)搭載大疆Zenmuse X5S云臺相機(jī)進(jìn)行數(shù)據(jù)采集。其中,云臺所搭載的相機(jī)鏡頭規(guī)格為DJI MFT 15 mm,有效像素可達(dá)到2 080萬,所獲取的原始圖片像素為5 280×3 956。采集時間一般設(shè)定在正午,以減少樹冠陰影對后續(xù)預(yù)處理過程中正射影像圖制作的影響;并在DJI GO 4軟件中設(shè)置程序自動曝光模式與曝光補(bǔ)償,結(jié)合過曝提示功能可以有效防止影像產(chǎn)生過曝現(xiàn)象。本實(shí)驗(yàn)設(shè)置航高30 m,航速約2 m/s,拍照間隔2 s,旁向重疊率與航向重疊率均為90%以獲取具有一定重疊度的銀杏樹木無人機(jī)影像。
1.3.1 正射影像圖
為了準(zhǔn)確測量銀杏樹的冠幅與樹冠面積,本研究使用俄羅斯Agisoft LLC公司生產(chǎn)的Agisoft Metashape 1.5.1軟件對無人機(jī)影像進(jìn)行預(yù)處理,輸入帶有地理位置坐標(biāo)的無人機(jī)影像圖生成數(shù)字正射影像圖(DOM)。圖2展示了本實(shí)驗(yàn)中用于驗(yàn)證模型適用性與預(yù)測精度所使用的4張正射影像圖:a圖由研究區(qū)域⑤號實(shí)驗(yàn)區(qū)的358張無人機(jī)影像圖生成的行道樹場景,與訓(xùn)練數(shù)據(jù)場景相似,除了擁有兩側(cè)行道樹外,內(nèi)側(cè)擁有更復(fù)雜的樹冠排列結(jié)構(gòu);b圖由研究區(qū)域①號實(shí)驗(yàn)區(qū)218張無人機(jī)影像圖生成的林地場景,其樹冠間距較短,但排列整齊有序,適用于林業(yè)資源調(diào)查;c圖由94張無人機(jī)影像圖生成的小區(qū)場景,擁有包括建筑物等其他比較復(fù)雜的背景;d圖為416張無人機(jī)影像圖生成的城市街道場景,其含有其他不同種類的植物以及車輛和其他街道在內(nèi)更為復(fù)雜的背景,但兩側(cè)排列間距較大,比較容易區(qū)分。同時,這4種場景也包含了城市中幾種典型的環(huán)境背景,作為用于模型驗(yàn)證的檢驗(yàn)數(shù)據(jù)具有一定的代表性。
圖2 測試區(qū)域正射影像圖Fig.2 Orthographic images of test area
1.3.2 數(shù)據(jù)標(biāo)注
為制作銀杏樹冠檢測與分割的網(wǎng)絡(luò)訓(xùn)練模型,本實(shí)驗(yàn)選?、冖邰堍尢枌?shí)驗(yàn)區(qū)以及①與⑤號實(shí)驗(yàn)區(qū)的一部分作為訓(xùn)練區(qū)域。在上述飛行參數(shù)旁向與航向重疊率均設(shè)置為90%而產(chǎn)生一些具有不同角度銀杏樹冠影像的情況下,使用圖像標(biāo)注程序Labelme3.3.6對89張無人機(jī)銀杏影像里的350余棵銀杏樹目標(biāo)進(jìn)行多角度樹冠輪廓標(biāo)注,并將標(biāo)注生成的json文件整合后加入網(wǎng)絡(luò)模型訓(xùn)練數(shù)據(jù)集,以使網(wǎng)絡(luò)模型更好地學(xué)習(xí)銀杏樹冠的圖像特征。
本實(shí)驗(yàn)使用由美國環(huán)境系統(tǒng)研究所開發(fā)的ArcMap10.2軟件對測試區(qū)域遙感影像進(jìn)行目視解譯以測量銀杏冠幅與樹冠面積的實(shí)測值。這種測量實(shí)際值的方式避免了實(shí)地測量中人為因素造成的誤差影響,且在已有遙感影像圖的情況下更為便捷。4個測試區(qū)域在ArcMap10.2軟件中手繪出的邊框與輪廓見圖3所示。
圖3 目視解譯Fig.3 Visual interpretation
根據(jù)冠幅(樹木南北和東西方向?qū)挾鹊钠骄?與樹冠面積(樹冠垂直投射在地平面上的面積)的定義,其中紅色方框周長的1/4倍為冠幅值,黑色輪廓的面積為樹冠面積值(圖3)。測試區(qū)域?qū)崪y樹冠參數(shù)統(tǒng)計(jì)結(jié)果見表1。
表1 實(shí)測樹冠參數(shù)統(tǒng)計(jì)Table 1 Statistics of measured crown parameters
Mask R-CNN是何凱明博士于2017年基于Faster R-CNN提出的目標(biāo)檢測和分割網(wǎng)絡(luò)[15],其在Faster R-CNN基礎(chǔ)上添加了一個mask預(yù)測分支,在進(jìn)行矩形框目標(biāo)檢測的同時可以實(shí)現(xiàn)像素級的實(shí)例分割;并使用感興趣區(qū)域匹配層RoI Align(region of interest align)代替感興趣區(qū)域池化層RoI Pooling(region of interset pooling)以解決RoI Pooling兩次量化過程中造成的候選框不匹配問題,提升候選框的精度;同時使用殘差網(wǎng)絡(luò)ResNet與特征金字塔網(wǎng)絡(luò)FPN(feature pyramid network)結(jié)合更準(zhǔn)確快速地進(jìn)行特征提取,大大提升了檢測性能[16-18]。
Mask R-CNN可以分為兩部分:第一部分由Faster R-CNN組成,其執(zhí)行從輸入圖像中提取特征圖交付給區(qū)域生成網(wǎng)絡(luò)RPN,由RPN掃描特征圖并查找包含檢測目標(biāo)可能性較高的區(qū)域作為感興趣區(qū)域(RoI),再通過RoI Align層統(tǒng)一候選框的尺度,最終使用全連接層對目標(biāo)進(jìn)行檢測獲得類別、位置和大小信息;第二部分則為Mask分支,由全卷積網(wǎng)絡(luò)FCN組成,相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)CNN,其在網(wǎng)絡(luò)的末端卷積層進(jìn)行反卷積將因通過多次卷積和池化后而變小的圖像恢復(fù)到原始圖像的大小,使得圖像中每個像素都產(chǎn)生了一個預(yù)測達(dá)到了像素級別的分類來實(shí)現(xiàn)目標(biāo)分割[19-20]。圖4為研究使用的Mask R-CNN網(wǎng)絡(luò)模型示意圖。
圖4 Mask R-CNN網(wǎng)絡(luò)模型Fig.4 Mask R-CNN network model
良好的網(wǎng)絡(luò)模型通常需要大量的訓(xùn)練數(shù)據(jù)集以及長時間的迭代學(xué)習(xí)。本研究通過遷移學(xué)習(xí)的方式借助Microsoft coco數(shù)據(jù)集的預(yù)訓(xùn)練網(wǎng)絡(luò)模型[21],將制作的帶有標(biāo)注文件的無人機(jī)影像加入數(shù)據(jù)集,從而使網(wǎng)絡(luò)模型適用于無人機(jī)影像中銀杏樹木的目標(biāo)檢測與分割。在開展訓(xùn)練的過程中,設(shè)置epoch為12,每個epoch訓(xùn)練1 000步,總計(jì)12 000 步,在表2所列出的實(shí)驗(yàn)環(huán)境下訓(xùn)練時間約16 h。
表2 實(shí)驗(yàn)環(huán)境配置Table 2 Experimental environment configuration
在訓(xùn)練過程中分別記錄損失與平均精度均值(mAP),統(tǒng)計(jì)結(jié)果如圖5所示。從圖中可以看到,隨著模型訓(xùn)練的不斷深入,平均精度均值(平均精度均值計(jì)算方法見2.2節(jié))與損失值逐步趨于穩(wěn)定,說明模型已接近收斂。而相較于損失值為類別損失與坐標(biāo)損失之和的目標(biāo)檢測,擁有Mask分支進(jìn)行實(shí)例分割的Mask R-CNN的損失值還需加上掩膜損失[22]。計(jì)算公式如下:
L=Lclass+Lbox+Lmask
(1)
式中:L為總體損失值;Lclass為類別損失值;Lbox為坐標(biāo)損失值;Lmask為掩膜損失值。
圖5 模型訓(xùn)練損失與精度圖Fig.5 Model training loss and accuracy diagram
根據(jù)前面所述冠幅和樹冠面積的定義,為了更好地體現(xiàn)研究對于林業(yè)資源調(diào)查的實(shí)際意義,本研究選用正射影像圖作為測試數(shù)據(jù),以對樹冠進(jìn)行檢測與分割后提取冠幅與樹冠面積值。同時,為了驗(yàn)證網(wǎng)絡(luò)模型的普適性,本實(shí)驗(yàn)選取了4片不同場景類型的測試區(qū)域,分別為研究區(qū)域行道樹場景、林地場景、小區(qū)場景以及城市街道場景。圖6展示了不同場景下的網(wǎng)絡(luò)模型測試結(jié)果。從圖6可以看到,在大部分情況下對于銀杏樹冠位置能得到良好的檢測結(jié)果,對于銀杏樹冠輪廓的勾繪也能獲得較好的分割效果。
圖6 檢測與分割結(jié)果Fig.6 Detection and segmentation results
圖7 檢測與分割結(jié)果說明Fig.7 Description of detection and segmentation results
為了驗(yàn)證檢測與分割結(jié)果的準(zhǔn)確性,本研究使用交并比IoU(intersection over union)作為樹冠檢測與分割是否正確的依據(jù),設(shè)置IoU閾值為0.5,即當(dāng)IoU≥0.5時標(biāo)記為正確檢測的結(jié)果,當(dāng)IoU<0.5時標(biāo)記為錯誤檢測的結(jié)果,IoU的計(jì)算公式如下:
(2)
式中:G(groundtrue)表示真實(shí)樹冠像素區(qū)域;P(prediction)表示預(yù)測樹冠像素區(qū)域。
此外,本研究采用查準(zhǔn)率Pc(precision)、查全率R(recall)、F1-score、平均精度Pa(average precision)以及平均精度均值mAP(mean average precision)對網(wǎng)絡(luò)模型的檢測與分割結(jié)果進(jìn)行評估[23],Pc、R、F1-score與mAP的值越高,代表檢測與分割結(jié)果越準(zhǔn)確。相關(guān)公式如下:
(3)
(4)
(5)
(6)
(7)
式中:Pt表示檢測正確的正例,即樹冠檢測結(jié)果與真實(shí)情況相符;Nf表示檢測錯誤的正例,即樹冠真實(shí)情況未被正確檢測;Pf表示檢測錯誤的反例,即樹冠檢測結(jié)果與真實(shí)情況不符;C表示類別數(shù),由于本研究針對單一銀杏樹種進(jìn)行檢測分割,所以類別數(shù)C為1,即平均精度與平均精度均值相當(dāng)。
雖然4個不同場景的整體檢測效果較好,但仍有一些錯檢和漏檢情況出現(xiàn)。統(tǒng)計(jì)結(jié)果表明,在共計(jì)86個銀杏樹冠檢測目標(biāo)中,正確檢測78個,出現(xiàn)漏檢8個(樹冠之間產(chǎn)生重疊現(xiàn)象、樹冠顏色與其他樹冠偏差過大、路燈等物體遮擋或是樹冠面積過小等),錯檢4個(背景物體或植物與銀杏樹冠形狀顏色非常相似)。以此結(jié)果進(jìn)行各項(xiàng)評價指標(biāo)的計(jì)算。圖7展示了一個檢測正確的結(jié)果以及一些錯檢漏檢情況。從圖7中可以看到,檢測與分割結(jié)果包含了類別(gb代表銀杏樹)、定位坐標(biāo)(中間數(shù)字段代表通過坐標(biāo)計(jì)算出的樹冠冠幅值)以及分割輪廓(最后數(shù)字段代表通過統(tǒng)計(jì)像素個數(shù)計(jì)算出的樹冠面積值)信息。
圖8展示了4個不同場景的測試區(qū)域的查準(zhǔn)率-查全率曲線,表3為對應(yīng)的檢測結(jié)果。從表3可以看出,總體的交并比為78.99%,查準(zhǔn)率達(dá)到了93.9%,召回率達(dá)到89.53%,F(xiàn)1-score與平均精度均值mAP值分別為91.66%與90.86%。說明整體的預(yù)測準(zhǔn)確率較高,訓(xùn)練所得網(wǎng)絡(luò)模型可以對城市中不同場景下的銀杏單木樹冠進(jìn)行良好的檢測。
圖8 查準(zhǔn)率-查全率曲線圖Fig.8 Precision-recall curve
表3 檢測結(jié)果Table 3 Test results
根據(jù)相關(guān)文獻(xiàn)資料對近期樹木檢測研究結(jié)果進(jìn)行對比,結(jié)果見表4。從表4可以看到,本研究查準(zhǔn)率較高,而查全率雖然略微低于個別研究,但總體檢測精度F1-score較高,說明本研究的方法可以較好地適用于樹木檢測。
表4 相關(guān)研究方法結(jié)果對比Table 4 Comparison of related research methods
為了驗(yàn)證預(yù)測結(jié)果的可靠性,將所得實(shí)測值與預(yù)測銀杏冠幅與樹冠面積做比較,使用平均相對誤差(ARE,式中記為EAR)與均方根誤差(RMSE,式中記為ERMS)評價預(yù)測精度,ARE與RMSE越小,代表預(yù)測偏差越小,預(yù)測精度更高。相關(guān)公式如下:
(7)
(8)
根據(jù)圖8統(tǒng)計(jì)得預(yù)測冠幅值與樹冠面積,將之與目視解譯所得實(shí)測冠幅值與樹冠面積值作比較,計(jì)算各項(xiàng)精度指標(biāo)如表5所示??梢园l(fā)現(xiàn)冠幅(CW)的總體平均相對誤差為7.5%,均方根誤差為0.55,說明預(yù)測精度較好。樹冠面積(CA)的總體平均相對誤差為11.15%,均方根誤差為2.48,雖然不如冠幅的預(yù)測精度,但考慮到樹冠樹梢的復(fù)雜性與多樣性,這也達(dá)到了不錯的預(yù)測效果。
表5 預(yù)測精度對比Table 5 Comparison of prediction accuracy
根據(jù)實(shí)測與預(yù)測的銀杏冠幅與樹冠面積,制作實(shí)測值與預(yù)測值分布關(guān)系圖如圖9。由圖9可見,實(shí)測冠幅與預(yù)測冠幅的擬合決定系數(shù)R2達(dá)到0.856,實(shí)測樹冠面積與預(yù)測樹冠面積的擬合決定系數(shù)R2達(dá)到0.898。除極個別檢測有誤的異常點(diǎn)外,大部分散點(diǎn)均勻分布在1∶1線段兩側(cè),且兩根紅色擬合線段均與1∶1線段接近,代表預(yù)測值接近實(shí)測值。
圖9 實(shí)測值與預(yù)測值對比Fig.9 Comparison of measured values and predicted values
1)本研究將深度學(xué)習(xí)中的Mask R-CNN算法應(yīng)用于無人機(jī)高分辨率影像的銀杏單木樹冠檢測與輪廓描繪,總體F1-score與平均精度均值達(dá)到了91.66%與90.86%,取得了不錯的檢測與分割效果,且快速準(zhǔn)確地獲取了城市中不同場景下銀杏樹冠的冠幅與樹冠面積,冠幅與樹冠面積的預(yù)測決定系數(shù)R2分別達(dá)到了0.856與0.898,得到了較為精準(zhǔn)的樹冠參數(shù)結(jié)果,為樹木資源評估提供了一種快速高效的解決方案。
2)使用無人機(jī)影像與Mask R-CNN算法結(jié)合獲取樹冠參數(shù),不僅適用于銀杏樹冠,同樣適用于城市中其他種類的樹冠,特別是對于排列整齊的行道樹檢測效果較好。
3)無人機(jī)遙感與深度學(xué)習(xí)技術(shù)對于樹冠的檢測與分割目前仍處于探索階段,實(shí)際研究中也同樣存在一些問題與困難。因受時間和實(shí)驗(yàn)地點(diǎn)等條件的限制,本實(shí)驗(yàn)還存在一些錯檢和漏檢現(xiàn)象。而且目前僅針對單一銀杏樹種進(jìn)行檢測,在今后研究中將著重考慮針對無人機(jī)樹冠影像進(jìn)行網(wǎng)絡(luò)模型改進(jìn)以及多樹種的情況,更加有效地提取城市中樹冠冠幅與樹冠面積。