施 洋,高 進(jìn),陳建平,楊 華,陸鎮(zhèn)威,王永慧,施慶華,孫艷茹
(江蘇沿海地區(qū)農(nóng)業(yè)科學(xué)研究所,江蘇鹽城 224002)
土壤鹽漬化是全球性的環(huán)境問(wèn)題,是限制農(nóng)業(yè)生產(chǎn)的因素之一[1-2]。我國(guó)海岸線綿長(zhǎng),擁有豐富的鹽堿地資源,在主要產(chǎn)棉區(qū)皆分布著較大規(guī)模的鹽堿地,應(yīng)用棉花耐鹽的生物學(xué)特性發(fā)展鹽堿地植棉是緩解糧棉爭(zhēng)地矛盾、發(fā)展棉花生產(chǎn)、提升棉花產(chǎn)量的有效途徑[3-5]。棉花在不同生育階段耐鹽能力不同,一般認(rèn)為,幼苗階段時(shí)期對(duì)鹽分較為敏感,隨著生育期的延長(zhǎng),棉花耐鹽性逐步提高。因此,幼苗期是鑒定棉花耐鹽性的重要階段[6-8]。常規(guī)的棉花苗期鹽脅迫試驗(yàn)是通過(guò)表型、光合作用、氧化應(yīng)激、滲透調(diào)節(jié)、離子平衡等方面來(lái)判斷棉花耐鹽性,從而篩選出耐鹽材料并挖掘耐鹽基因[9-10]。
隨著進(jìn)入機(jī)器學(xué)習(xí)的新技術(shù)時(shí)代,深度學(xué)習(xí)被應(yīng)用到植物上,卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)可見(jiàn)光和近紅外光譜數(shù)字圖像進(jìn)行植物分類和病蟲害診斷[11-16]。遷移學(xué)習(xí)可提高識(shí)別的準(zhǔn)確率,解決小樣本訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)的問(wèn)題[17-21]。李博等[22]使用 3種識(shí)別模型對(duì)蘋果等14類園藝作物26種葉部病害進(jìn)行識(shí)別,準(zhǔn)確率達(dá)95%。許景輝等[23]提出基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)玉米健康葉、大斑病葉、銹病葉圖像識(shí)別方法。張建華等[24]提出基于改進(jìn)VGG16卷積神經(jīng)網(wǎng)絡(luò)的病害識(shí)別模型。前人主要研究人工智能對(duì)植物分類和病蟲害圖像的識(shí)別,但棉花受鹽脅迫圖像的研究尚鮮見(jiàn)報(bào)道。鑒于此,筆者以海水模擬沿海土地鹽堿地成分對(duì)苗期棉花進(jìn)行脅迫,對(duì)不同濃度海水脅迫下棉花的頂視圖和側(cè)視圖進(jìn)行分類研究,探索利用卷積神經(jīng)網(wǎng)絡(luò)快速準(zhǔn)確地檢測(cè)苗期棉花受海水脅迫程度,對(duì)于耐鹽棉花育種和改良鹽堿地等方面具有現(xiàn)實(shí)意義。
1.1 試驗(yàn)設(shè)計(jì)棉花種質(zhì)資源共30份,包括蘇棉22 、蘇棉25、蘇棉30、泗抗1號(hào)、GK39、蘇研608、魯棉28、中棉所10、中棉所41、中棉所50、冀豐4號(hào)、邯棉646、泗陽(yáng)518、泗棉3號(hào)、鹽1046、冀優(yōu)851、肖縣133長(zhǎng)絨、長(zhǎng)絨67-12、川169-6、冀省病檢7、冀省病檢5、海興耐鹽6、海興耐鹽9、海興耐鹽10、中植棉2號(hào)、鹽豐39、K236、NT1號(hào)、1138、H602。
試驗(yàn)于2019 年9月在江蘇沿海地區(qū)農(nóng)業(yè)科學(xué)研究所試驗(yàn)場(chǎng)遮雨大棚中進(jìn)行。試驗(yàn)用種經(jīng)濃硫酸脫絨后,選取發(fā)育正常、飽滿、成熟度均一的健康種子,用 3% H2O2浸泡 30 s進(jìn)行消毒。選取備好的試驗(yàn)材料,用蒸餾水浸種 20 h 后,進(jìn)行穴盤育苗,每個(gè)材料播50穴,每穴1~2粒種子,待供試品種長(zhǎng)至2葉1心時(shí),挑選長(zhǎng)勢(shì)一致的5株棉花移入盛有基質(zhì)的底部具孔(直徑 10 cm,高 15 cm)的塑料杯中,每杯1株。將塑料杯置于60 cm × 45 cm × 20 cm(長(zhǎng)×寬×高)的周轉(zhuǎn)箱中,進(jìn)行不同濃度的海水脅迫處理。以蒸餾水和海水調(diào)配不同濃度海水,試驗(yàn)海水濃度設(shè)0(蒸餾水)、25%、50%和100%共4個(gè)處理。試驗(yàn)期間,每隔3 d更換1次海水,每天補(bǔ)充去離子水至標(biāo)記液面刻度。海水取自鹽城市射陽(yáng)港港口(33°49′ N,120°30′ E),用DDS-307型電導(dǎo)率儀測(cè)定值為19.21 μS/cm。
1.2 圖片采集于海水處理的第20天時(shí)選取棉株進(jìn)行圖片采樣。該研究采用可見(jiàn)光收集不同濃度海水處理下的棉花頂視圖和側(cè)視圖。拍攝所用相機(jī)型號(hào)為佳能EOS 800D,固定光圈F4,IOS 400。取出塑料杯用紙巾擦干,平放在方桌上,以白布作為拍攝背景,控制鏡頭與拍攝對(duì)象之間距離為20 ~ 30 cm時(shí)拍攝頂視圖,30 ~ 40 cm時(shí)拍攝側(cè)視圖。共采集0、25%、50%和100%濃度海水處理的4種類型樣本圖像1 056幅,其中側(cè)視圖和頂視圖各528幅。將采集的圖像設(shè)置為jpg格式(分辨率為3 984像素×2 656像素),建立試驗(yàn)樣本圖像。圖1為采集到的棉花側(cè)視和頂視圖像。
圖1 可見(jiàn)光收集的棉花圖像
1.3 模型建立針對(duì)卷積神經(jīng)網(wǎng)絡(luò)識(shí)別需大量的樣本對(duì)網(wǎng)絡(luò)長(zhǎng)時(shí)間訓(xùn)練,該研究結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的思想,提出了一種基于模型遷移的方法對(duì)棉花受海水脅迫情況進(jìn)行分類。選用VGG16卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行模型參數(shù)遷移,該網(wǎng)絡(luò)已經(jīng)接受了約100萬(wàn)種圖像的訓(xùn)練,可以對(duì)不同濃度海水脅迫下棉株的頂視圖和側(cè)視圖進(jìn)行分類研究。使用528張棉花頂視圖和側(cè)視圖,以4∶1比例隨機(jī)劃分訓(xùn)練集和測(cè)試集,模型使用在ImageNet數(shù)據(jù)集上訓(xùn)練過(guò)的VGG16進(jìn)行遷移學(xué)習(xí),將后面的全連接層和SoftMax去掉,換成1個(gè)1 024的全連接層,1個(gè)為4的全連接層和1個(gè)SoftMax層,訓(xùn)練時(shí)只訓(xùn)練所加結(jié)構(gòu)的網(wǎng)絡(luò)參數(shù)。遷移學(xué)習(xí)的Epoch為100,Learning Rate為5e-5(圖2)。編程語(yǔ)言使用python 3.6.9,模型訓(xùn)練使用keras 2.3.1。
圖2 遷移學(xué)習(xí)后的網(wǎng)絡(luò)結(jié)構(gòu)
2.1 側(cè)視圖的模型訓(xùn)練與測(cè)試網(wǎng)絡(luò)對(duì)棉花受海水脅迫的側(cè)視圖集訓(xùn)練100個(gè)輪次,得到如圖3所示的結(jié)果。可以看出,模型在80~100輪次時(shí)預(yù)測(cè)的準(zhǔn)確率趨于穩(wěn)定,訓(xùn)練集準(zhǔn)確率接近100%,這是因?yàn)閂GG16卷積神經(jīng)網(wǎng)絡(luò)模型可以很好地提取棉花受海水脅迫的特征,并在分類空間上有良好的表現(xiàn)。隨著訓(xùn)練周期數(shù)的不斷增加,訓(xùn)練集和測(cè)試集的損失值呈降低趨勢(shì)。
圖3 棉花側(cè)視圖像集的網(wǎng)絡(luò)訓(xùn)練與測(cè)試過(guò)程
表1 棉花側(cè)視圖像集的網(wǎng)絡(luò)測(cè)試結(jié)果
棉花側(cè)視圖像集網(wǎng)絡(luò)測(cè)試結(jié)果的混淆矩陣如圖4所示?;煜仃嚨牧袠?biāo)簽表示模型預(yù)測(cè)的類別,其對(duì)應(yīng)的行數(shù)值總和為網(wǎng)絡(luò)預(yù)測(cè)該類別的樣本總數(shù)。混淆矩陣的行標(biāo)簽表示實(shí)際類別,其對(duì)應(yīng)的列數(shù)值總和為該類別的真實(shí)樣本總數(shù)。行列交叉處的數(shù)值表示該類別被預(yù)測(cè)為對(duì)應(yīng)列標(biāo)簽的數(shù)量,對(duì)角線處的數(shù)值表示正確預(yù)測(cè)的標(biāo)簽樣本數(shù)量。可以看出,測(cè)試樣本有105個(gè),共計(jì)21個(gè)樣本被識(shí)別錯(cuò)誤,網(wǎng)絡(luò)測(cè)試的準(zhǔn)確率為80.00%。測(cè)試的錯(cuò)誤識(shí)別集中在25%和50%濃度海水處理,其中25%濃度海水處理中有15個(gè)樣本被錯(cuò)誤識(shí)別,當(dāng)中有11次被識(shí)別為50%濃度海水處理,50%濃度海水處理中有4個(gè)樣本被錯(cuò)誤識(shí)別為100%濃度海水處理。
圖4 棉花側(cè)視圖像集網(wǎng)絡(luò)測(cè)試結(jié)果的混淆矩陣
2.2 頂視圖的模型訓(xùn)練與測(cè)試網(wǎng)絡(luò)對(duì)棉花受海水脅迫的頂視圖集的訓(xùn)練和測(cè)試過(guò)程如圖5所示??梢钥闯鼍W(wǎng)絡(luò)訓(xùn)練和測(cè)試的準(zhǔn)確率逐步上升,到第60輪后趨于穩(wěn)定。
圖5 棉花頂視圖像集的網(wǎng)絡(luò)訓(xùn)練與測(cè)試過(guò)程
由表2可知,100%濃度海水處理的精確率和召回率最高,分別為92.86%和83.87%。0、25%、50%和100%濃度海水處理下,模型的F1值分別為86.79%、65.31%、65.30%和88.14%,整體上低于側(cè)視圖的測(cè)試結(jié)果。頂視圖的測(cè)試結(jié)果表明,網(wǎng)絡(luò)對(duì)0和100%濃度海水處理的預(yù)測(cè)能力較好。
表2 棉花頂視圖像集的網(wǎng)絡(luò)測(cè)試結(jié)果
從棉花頂視圖的網(wǎng)絡(luò)測(cè)試結(jié)果的混淆矩陣(圖6)可知,測(cè)試樣本有105個(gè),共計(jì)24個(gè)樣本被識(shí)別錯(cuò)誤,網(wǎng)絡(luò)測(cè)試的準(zhǔn)確率為77.14%。25%濃度海水處理有9個(gè)樣本識(shí)別錯(cuò)誤,其中2個(gè)樣本被識(shí)別為0濃度海水處理,7個(gè)樣本被識(shí)別為50%濃度海水處理。網(wǎng)絡(luò)對(duì)50%濃度海水處理有5個(gè)樣本識(shí)別錯(cuò)誤,其中3個(gè)樣本被識(shí)別為25%濃度海水處理,2個(gè)樣本識(shí)別為100%濃度海水處理。網(wǎng)絡(luò)對(duì)不同濃度海水脅迫下棉花頂視圖的識(shí)別具有可行性,對(duì)0和100%濃度海水處理識(shí)別能力較高。
圖6 棉花頂視圖像集的網(wǎng)絡(luò)測(cè)試結(jié)果的混淆矩陣
該研究將遷移學(xué)習(xí)應(yīng)用于VGG16卷積神經(jīng)網(wǎng)絡(luò),通過(guò)對(duì)不同濃度海水脅迫下30個(gè)棉花種質(zhì)資源側(cè)視圖和頂視圖的圖像集測(cè)試,得到以下結(jié)論:
(1)該研究驗(yàn)證了遷移學(xué)習(xí)技術(shù)對(duì)棉花受海水脅迫程度判斷進(jìn)行端到端識(shí)別具有可行性。網(wǎng)絡(luò)對(duì)棉花側(cè)視圖的測(cè)試準(zhǔn)確率達(dá)到80.00%,對(duì)頂視圖的測(cè)試準(zhǔn)確率達(dá)到77.14%,側(cè)視圖更有利于模型的判斷。
(2)2種視圖下,模型對(duì)0和100%濃度海水處理的測(cè)試中F1均達(dá)到85%以上,預(yù)測(cè)能力更強(qiáng)。
該研究的模型測(cè)試結(jié)果能夠較客觀地判斷棉花苗期受海水脅迫情況,但還是存在一些問(wèn)題需要探討。在0濃度海水處理下,模型測(cè)試結(jié)果中綜合評(píng)價(jià)指標(biāo)F1高,這是由于棉花在無(wú)海水脅迫下長(zhǎng)勢(shì)良好,圖片特征明顯,易于模型識(shí)別。雖然棉花的耐鹽性比較強(qiáng),但是不同基因型棉花之間耐鹽性存在差異[25-29],部分棉花材料的耐鹽性較高,這導(dǎo)致了模型對(duì)25%和50%濃度海水處理的識(shí)別能力低,且模型多次把25%濃度海水處理的圖片樣本錯(cuò)誤識(shí)別為50%濃度海水處理。100%濃度海水處理下模型預(yù)測(cè)準(zhǔn)確度高,這是由于棉花是中度耐鹽作物,當(dāng)處于高鹽分的環(huán)境條件下,株高、葉面積和莖粗等表型指標(biāo)均受影響[30-31],部分出現(xiàn)死苗情況,受害特征較明顯。
在該模型的基礎(chǔ)上,后續(xù)可以構(gòu)建篩選耐鹽性好的棉花材料模型,為育種家提供便利。同時(shí),該研究豐富了人工智能育種的內(nèi)容,為沿海灘涂的改良和使用提供了理論參考。今后還可以深入到對(duì)多種作物在鹽脅迫下的分類研究,充分利用鹽害的多尺度特征,提高模型的識(shí)別準(zhǔn)確率,為開(kāi)發(fā)基于智能手機(jī)等移動(dòng)終端的耐鹽材料篩選系統(tǒng)提供模型支持,在現(xiàn)有的基礎(chǔ)上進(jìn)一步提升應(yīng)用價(jià)值。