戴建國,蔣 楠,薛金利,張國順,何相良
(1. 石河子大學信息科學與技術學院,石河子 832003;2. 兵團空間信息工程技術研究中心,石河子 832003)
棉花產量是影響區(qū)域經濟發(fā)展的重要因素,在國民經濟中占有重要地位。及時、動態(tài)、準確的產量預測,在棉田經營管理、農業(yè)決策制定等方面具有極其重要的價值和意義[1-2]。目前,傳統(tǒng)衛(wèi)星遙感技術主要應用于大尺度地表信息采集,在宏觀決策方面具有獨特優(yōu)勢[3];但其受空間分辨率、衛(wèi)星運行周期、氣象條件等因素影響,在農田尺度農情監(jiān)測的實際作業(yè)管理中難以滿足實時性、高精度等需求。無人機遙感平臺作為一種新興的遙感信息獲取手段,具有高時效、高分辨率、作業(yè)成本低、靈活性高和復用性強等優(yōu)點[4-5],可實時獲取農田尺度的遙感影像,有效地協(xié)助管理人員進行作業(yè)管理與調控。
目前,國內外相關學者已經開展了一些無人機遙感估產研究,且現有方法中多采用線性回歸、經驗模型等傳統(tǒng)算法[6-8]。如張美娜等[9]從圖像中提取了顏色特征、植被覆蓋率和植被指數3個特征與棉花產量分別建立回歸模型,結果表明,由多個變量建立的模型效果最佳,平均絕對百分比誤差為4%,然而模型所用特征比較依賴人工設計與提取,泛化能力較差,難以拓展應用。朱婉雪等[8]基于冬小麥不同生育期影像數據以及植被指數,構建了多個估產模型,最終確定最佳估產時期和植被指數為抽穗灌漿期和增強型植被指數(Enhanced Vegetation Index,EVI),決定系數達到0.70,但作物產量是一個有機物不斷積累的結果,單生育期產量預測忽略了作物在時間維度的隱藏特征。韓文霆等[10]將各生育期植被指數進行牛頓-梯形積分,再基于其積分值構建了夏玉米產量估算模型,決定系數為0.87,然而模型所用特征相對比較單一,在復雜背景下可靠性較低。
近年來,深度學習方法憑借其自動學習并提取特征的能力,在機器視覺、自然語言處理等[11-13]領域取得了巨大突破,在遙感影像處理方面也得到廣泛應用[14-15]。在時間特征提取方面,雙向長短期記憶(Bidirectional Long Short Term Memory,BiLSTM)網絡[16]通過雙向重疊計算,彌補了長短期記憶(Long Short-Term Memory,LSTM)網絡[17]無法同時提取從后向前的信息的不足,可以更好的捕捉雙向的時序特征,在時序數據分析中取得了更為顯著的效果[18-20]。但BiLSTM網絡在表達數據的空間維度特征方面適用性較差,難以充分挖掘數據的空間特性。為此,本研究提出了一種基于卷積神經網絡(Convolutional Neural Network,CNN)和BiLSTM網絡串行結構的棉花估產模型,以棉花苗期、蕾期和花期的影像為輸入,將CNN網絡在空間特征提取的優(yōu)勢與LSTM網絡在時序特征提取的優(yōu)勢相結合,充分利用其空間和時間兩個方面的聯系,增強模型的數據挖掘能力,以實現農田尺度的棉花產量預測。
研究區(qū)位于新疆塔城地區(qū)沙灣縣蘑菇湖村(85°52′02″E~85°52′31″E, 44°20′14″N~44°20′25″N),如圖1所示,地處古爾班通古特大沙漠南緣,屬于典型溫帶大陸性氣候,冬季長而嚴寒,夏季短而炎熱,一年中降水較多的月份主要出現在4—7月,年均降水量125.0~207.7 mm[21],非常適宜棉花生長。研究區(qū)為沙性土壤,棉花種植品種為天云0769號,采用機采棉播種方式(1膜6行、每米15穴、1穴1粒),并于2019年4月20日滴出苗水。根據五點采樣法要求在研究區(qū)劃分5個采樣區(qū)域,每個區(qū)域設置5個樣方,共25個樣方,樣方大小為2.3 m×2.3 m。待棉花成熟后,人工獲取每個樣方的產量數據。
1.2.1 無人機遙感影像獲取與預處理
研究區(qū)范圍如圖1所示,該區(qū)域大小(長×寬)為46 m×40 m,共占20個地膜。于2019年6月5日、6月29日、7月12日通過無人機平臺分別采集棉花苗期、現蕾期、開花期的遙感影像。無人機(悟1 Pro,大疆創(chuàng)新科技有限公司,中國)最大起飛質量3.5 kg,最大水平飛行速度18 m/s,軸距559 mm,起重限額3.5 kg,最大飛行時間15 min??梢姽庀鄼C(禪思X5,大疆創(chuàng)新科技有限公司,中國)有效分辨率為1 600萬像素,支持自動對焦、曝光鎖定等功能。影像采集時間為12:00,相機焦距15 mm,鏡頭垂直于主航線,飛行航線任務高度40 m,速度4 m/s,航向重疊率70%,旁向重疊率70%,地面分辨率1 cm,拍攝模式為懸停拍照。采用Pix4D mapper 攝影測量軟件對無人機遙感影像進行拼接。首先導入原始圖像數據,讀取全球定位系統(tǒng)(Global Positioning System,GPS)信息和無人機姿態(tài)數據,設定相機飛行時的配置信息,將拼接校準特征點數量設置為10 000,輸出影像類型設置為三維地圖,經自動化處理輸出數字正射影像。為進行后續(xù)深度學習數據集制作,需對拼接完成的正射影像進行裁剪,以去除非研究區(qū)影像以及邊緣異常值。影像裁剪軟件為ArcGIS map 10.6,裁剪流程分為3個步驟,1)根據地面控制點確定研究區(qū)范圍,劃分研究區(qū)掩模;2)采用提取工具進行掩模裁剪,生成研究區(qū)柵格數據;3)將柵格數據轉換矢量數據,輸出研究區(qū)遙感影像。
1.2.2 數據集制作
根據地面采樣點對無人機遙感影像進行切片分割,獲取棉花苗期、蕾期和花期共225張遙感影像樣本。為擴大數據集增強模型學習能力,再對影像樣本分別添加如下變化:1)旋轉與對稱。將原始圖像分別進行90°、180°、270°旋轉以及水平和垂直翻轉;2)對比度與亮度。將紅綠藍(Red Green Bule,RGB)顏色空間轉換為色調飽和度亮度(Hue Saturation Value,HSV)顏色空間,調整亮度、對比度、色度和飽和度,模擬光照以及氣候的變化;3)噪聲與模糊。考慮棉田復雜環(huán)境,對圖像添加適當噪聲。通過以上擴展,共得到2 700條樣本數據,其調整效果如圖2所示。將數據集按照7:2:1劃分為訓練集(1 890張)、驗證集(540張)、測試集(270張)。
1.3.1 卷積神經網絡和雙向長短期記憶(CNN-BiLSTM)模型構建
本研究提出的CNN-BiLSTM模型結構主要由CNN模塊、BiLSTM模塊和輸出模塊3部分(圖3)。其中CNN模塊包含3個獨立分支的卷積神經網絡結構,且3個卷積神經網絡的參數相同,分別進行3個棉花生育期的影像空間特征提取,以避免不同生育期影像混合,從而確保輸入數據時序信息的完整性。CNN結構的第一部分是卷積層,進行卷積運算提取局部空間特征。本研究通過堆疊卷積層數量改變CNN結構的深度,進而調整空間特征的提取程度。卷積層中,卷積核大小為3×3,數量為16,卷積步長為1,邊緣填充方式為SAME,激活函數為ReLU。CNN結構第二部分是池化層,進行特征降維,剔除冗余特征,提高CNN結構的容錯性。池化層中,采樣模式為最大池化,卷積核大小為2×2,數量為16,卷積步長為2。空間特征提取完成后將3個CNN模塊得到的特征向量輸入到BiLSTM網絡中。
BiLSTM網絡的主體隱藏層結構是在LSTM網絡的基礎上由正向輸入運算的LSTM網絡和反向輸入運算的LSTM網絡上下疊加構成,在保留了LSTM單元結構特點的同時,更加關注時序數據的前后關聯性,確保時序特征的提取。同樣,通過不斷調整BiLSTM隱藏層數量以探索最佳的時序特征提取模式。隱藏層包括3個輸出節(jié)點,對應棉花苗期、蕾期和花期3個生育期的特征輸出。CNN-BiLSTM模型的輸出模塊由全連接神經網絡組成,網絡輸入向量包含CNN提取的空間特征和BiLSTM網絡提取的時序特征,其隱藏層數量為1,神經元個數為500,激活函數為ReLU,最終輸出為估產結果。
1.3.2 評價指標
將模型估算結果與地面采集數據進行線性回歸分析,使用決定系數(coefficient of determination,R2)、均方根誤差(Root Mean Square Error,RMSE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE,%)作為評價指標[9,22],定量評價模型的準確率。其中,MAPE的計算數學表達式如式(1)所示:
式中n為樣本總數量,i表示樣本集中第i個樣本,yi為真實值,y?i為預測值。
1.3.3 訓練環(huán)境與要求
試驗運算環(huán)境如下:操作系統(tǒng)為Windows 10,處理器為Intel(R)Core i7 7800X CPU@3.5GHz,運行內存32 GB,顯卡為NVIDIA GeForce GTX1080Ti,22 GB顯存,程序編寫語言為Python3,開發(fā)框架為TensorFlow 1.9。模型優(yōu)化采用自適應梯度下降算法,以均方誤差作為模型損失函數,學習率設為0.001,最大迭代次數為 15 000,模型穩(wěn)定后停止迭代。為防止模型過擬合,每迭代10次進行1次驗證。
為比較BiLSTM與LSTM在棉花估產方面的性能差異,本研究先將二者進行對比分析。方法是在數據集完全相同的情況下,通過調整隱藏層數量改變網絡深度,然后對預測結果進行比較。在試驗中分別設置了隱藏層數為1、2、4的LSTM模型和BiLSTM模型,其對應名稱為LSTM1、LSTM2、LSTM4和BiLSTM1、BiLSTM2、BiLSTM4。為保證時序信息完整性,將棉花苗期、蕾期和花期的圖像通過維度重塑轉換為時間窗長度為3的輸入張量。
LSTM模型和BiLSTM模型的性能對比如表1所示。由表1可知,2種模型的預測結果決定系數都在0.8以上。在LSTM模型中LSTM2最優(yōu),R2為0.844,RMSE為163.322 g,MAPE為7.482%。在BiLSTM模型中,BiLSTM1的預測效果最好,其R2為0.851,RMSE為161.911 g,MAPE為7.304%。以上數據還表明,對于LSTM和BiLSTM模型,網絡深度分別在2和1的情況下,隨著隱藏層數量的增加,模型的性能均不斷降低,說明增加網絡深度并不能提高模型的準確率。
表1 長短期記憶模型和雙向長短期記憶模型的預測結果Table 1 Prediction results of Long Short-Term Memory (LSTM)model and Bidirectional Long Short-Term Memory (BiLSTM)model
綜合分析表1的數據還可以發(fā)現,BiLSTM1模型的性能在以上6個模型中最佳,LSTM2模型預測效果次之,LSTM1、LSTM4、BiLSTM2和BiLSTM4模型預測精度依次下降。通過分析LSTM網絡與BiLSTM網絡的結構可以得出,由于BiLSTM網絡是由正向傳輸的LSTM網絡與反向傳輸的LSTM網絡上下疊加構成,1個隱藏層的BiLSTM模型在網絡深度上與隱藏層數量為2的LSTM模型相同,并且BiLSTM網絡提取的時序特征包含時序數據的前后信息,因此優(yōu)于LSTM網絡的單向特征提取。同時,由于棉花的生長是有機物積累的過程,各生育期間生長信息相互關聯,無論是從苗期到花期還是從花期到苗期均存在時序特性方面的聯系。因此,雙向運算的BiLSTM網絡提取的時序特征更加豐富、完整,模型性能更優(yōu)?;谝陨显囼灲Y果,本研究將接下來要構建的CNN-BiLSTM模型中BiLSTM網絡隱藏層數量固定為1。
由于CNN網絡卷積層數對特征提取具有很大影響,因此本研究同樣設定了不同卷積層數量的CNN結構。以CNNm-BiLSTM表示m個卷積層的CNN-BiLSTM模型,本研究設計了卷積層數量為1、10、14、16、18和20共6種CNN-BiLSTM模型進行訓練。模型訓練過程中損失曲線如圖4所示,其中圖4a與圖4b相同分別為整體損失曲線和最后200次迭代的損失曲線。由圖4a可知,隨著迭代次數增加,模型的損失值均不斷減少,且在迭代1 200次左右所有模型都達到收斂。由圖4b可知,隨著網絡深度的增加,模型收斂的能力不斷提高,損失值分布在20 000~70 000范圍左右,除CNN1-BiLSTM模型波動幅度較大外,其他5個模型的波動幅度較小,其中CNN14-BiLSTM模型的損失值小,且波動幅度較小。
將訓練完成的CNN-BiLSTM模型應用于測試集進行測試,預測產量與實測產量的線性回歸分析如圖5所示。由圖5可知,CNN-BiLSTM模型的估算結果與地面實測產量間具有較好的線性關系。對比6個模型的網絡結構和各項指標可知,CNN1-BiLSTM模型效果最差,其決定系數R2為0.812,RMSE為207.350 g,MAPE為7.980%,這說明當CNN網絡的卷積層較少時,其提取的淺層特征無助于模型精度的提升,甚至會造成干擾。但隨著卷積層數量的增加,預測精度逐漸提高,當卷積層增加到10層時,CNN10-BiLSTM模型的R2達到0.857,MAPE降低至7.256%。到卷積層數量為14時,性能指標到達頂峰,其R2為0.885,RMSE為147.167 g,MAPE為6.711%。但當卷積層數量超過14時,CNN卷積層數的增加對模型性能提升不但沒有幫助,反而出現下降趨勢,如CNN20-BiLSTM模型的R2為0.870,RMSE為155.583 g,MAPE為7.067%。
綜合將LSTM、BiLSTM和CNN-BiLSTM模型性能指標進行對比分析發(fā)現,當CNN卷積層數在10以上時,CNN-BiLSTM模型的性能指標明顯優(yōu)于LSTM模型和BiLSTM模型。由此可知,使用CNN提取空間特征后的確可以有效改善BiLSTM網絡的性能,進而提高棉花估產精度。
由圖5可知,對于棉花產量高于 3 200 g的采樣點,CNN-BiLSTM模型預測效果均優(yōu)于產量低于3 200 g的采樣點,尤其是3 400 g以上樣本,其預測結果波動幅度小,聚攏于擬合曲線附近,與 3 200 g以下的樣本相比預測效果明顯更好。為分析原因,將不同產量的花期影像進行對比可知(圖6),產量較低的樣方長勢不勻,棉花冠層沒有達到完全封壟,圖像中仍存在部分裸土區(qū)域,導致低產區(qū)影像比高產區(qū)影像更加復雜,噪聲更多。同時,在本研究所選的3個生育期中,花期作為最接近成熟期的生育期,在估產模型訓練中占有更加重要的地位,所以不同產量水平反映在遙感影像上的不同可能導致模型預測結果出現較大差異。因此,本研究將在后續(xù)試驗中嘗試在CNN卷積層中使用多個不同大小的卷積核進行特征提取,以使模型能夠提取不同感受野下的影像特征,提高特征提取的豐富性,降低圖像背景的影響,提升在產量較低水平下的預測精度。
此外,與Sumesh等[23]使用株高等生長參數為特征建立的估產模型相比,CNN-BiLSTM模型通過采用CNN模塊實現了抽象隱藏特征的自動提??;與Zhou等[24-25]單獨使用CNN進行估產相比,CNN-BiLSTM模型提取了影像數據的時序特征。但與張美娜等[9,26]的研究結果相比,CNN-BiLSTM模型的預測精度仍有一定提升空間,分析原因主要包括以下兩方面:1)現有模型賦予各生育期影像相同的權重,忽視了不同生育期棉花長勢對棉花產量具有不同程度的影響;2)模型結構方面,CNN-BiLSTM模型是依據串行結構組成,CNN提取的空間特征沒有直接應用于產量預測,實際作用受到限制。針對以上問題,在后續(xù)試驗中可以進行如下兩方面的改進;1)在模型中引入注意力(Attention)機制,給各生育期影像分配不同注意力,調整模型對棉花不同生育期影像的關注度,以提高估產精度;2)以并行結構混合CNN和BiLSTM網絡,使其各自獨立的提取空間特征和時序特征,提高空間特征的使用率,從而提升估產精度。
本研究基于卷積神經網絡(Convolutional Neural Network,CNN)和雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網絡構建CNN-BiLSTM混合模型,使用棉花苗期、蕾期和花期的無人機可見光遙感影像進行棉花產量預測。研究結果表明,通過將空間特征和時序特征兩者結合,可以更深入地挖掘棉花不同關鍵生育期長勢情況及其關聯關系,從棉花產量形成過程的角度來看,該方法可靠性良好。主要結論如下:
1)長短期記憶網絡(Long Short-Term Memory,LSTM)的確能夠有效提取數據的時序特征,而BiLSTM效果更好,其中網絡深度為1的BiLSTM模型在棉花估產方面性能最優(yōu)。
2)在提取時序特征之前增加CNN提取影像數據的空間特征,能夠有效地減少影像中冗余信息對BiLSTM網絡的干擾,進而提高模型性能。其中CNN卷積層數為14的CNN14-BiLSTM模型性能最佳,實測產量與預測產量的擬合決定系數為0.885,均方根誤差(Root Mean Square Error,RMSE)為147.167 g,平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)為6.711%。
3)相較于單獨使用BiLSTM網絡,卷積神經網絡和雙向長短期記憶網絡混合模型(CNN-BiLSTM)可同時提取空間和時間2個維度的特征,在針對具有一定時間跨度的問題研究方面具備優(yōu)勢,該方法可對類似的農作物監(jiān)測預測問題研究提供參考。