孫海霞,張淑娟,劉蔣龍,陳彩虹,李成吉,邢書(shū)海
(山西農(nóng)業(yè)大學(xué) 工學(xué)院,山西 太谷 030801)
黑斑病是一種由真菌浸染而引發(fā)的鮮棗常見(jiàn)病,黑斑病果表面出現(xiàn)褐色至黑色的大小不一的不規(guī)則病斑,病變組織為淺黃色或褐色,果肉變苦變硬[1,2]。目前,消費(fèi)者對(duì)水果的營(yíng)養(yǎng)性、安全性的要求逐漸提高。黑斑病棗果的質(zhì)量下降,經(jīng)濟(jì)價(jià)值降低,嚴(yán)重影響棗果的定質(zhì)定價(jià)。
病害檢測(cè)是水果安全檢測(cè)的一項(xiàng)重要內(nèi)容。目前,黑斑病果的分選主要采用人工識(shí)別的方式,效率低且難以精確分選。高光譜成像技術(shù)具有快速、無(wú)損、實(shí)時(shí)等優(yōu)點(diǎn),已成功應(yīng)用于柑橘[3]、蘋(píng)果[4]等水果病害檢測(cè)中。在鮮棗外部品質(zhì)檢測(cè)中,主要針對(duì)鮮棗外部損傷[5]、蟲(chóng)害[6]、裂紋[7]進(jìn)行了相關(guān)研究,以實(shí)現(xiàn)各類缺陷和完好樣本的分類。在光譜建模方面,由于不同年份下,果樹(shù)的生長(zhǎng)環(huán)境等存在一定差異,會(huì)影響果實(shí)的質(zhì)量,致使果實(shí)的光譜響應(yīng)存在一定差異,但對(duì)鮮棗外部缺陷特征識(shí)別的影響還不確定。在建模方法中,卷積神經(jīng)網(wǎng)絡(luò)作為一種典型的深度學(xué)習(xí)技術(shù),可抽取更多的抽象特征,在圖像處理等方面已很好的被應(yīng)用[8,9]。高光譜成像中光譜通道數(shù)量多、空間變異性大,Chen等[10]將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)用于高光譜分類中,從而使水果CNN高光譜檢測(cè)有了可行性依據(jù)。
為實(shí)現(xiàn)鮮棗黑斑特征的高效穩(wěn)定識(shí)別,本研究利用高光譜成像技術(shù),采集不同年份的完好和黑斑鮮棗的光譜信息,通過(guò)全部波段和特征波段,采用偏最小二乘判別分析(Partial Least Squares-Discriminant Analysis,PLS-DA)和誤差反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Networks,BP-NN)進(jìn)行單一年份和聯(lián)合年份的病害判別,尋找穩(wěn)健的識(shí)別模型。然后,采用連續(xù)投影算法(Successive Projections Algorithm,SPA)提取特征波長(zhǎng)并建立判別模型。最后,進(jìn)行主成分分析,針對(duì)主成分圖像采用BP-NN和CNN建立病害判別模型。
2016年和2017年的鮮棗收獲期,在山西省太谷縣小白村果園采集黑斑和完好壺瓶棗樣本,采后當(dāng)天運(yùn)達(dá)實(shí)驗(yàn)室。然后篩選樣本,每年試驗(yàn)中分別選定240個(gè)試驗(yàn)樣本,其中120個(gè)完好樣本、60個(gè)輕度黑斑樣本、60個(gè)重度黑斑樣本。將黑斑區(qū)域顏色淺,黑斑分布分散,黑斑面積小于50%的樣本定義為輕度黑斑棗。黑斑區(qū)域顏色深,黑斑分布集中,黑斑面積大于等于50%的樣本定義為重度黑斑棗。每年試驗(yàn)中,按照3∶1的比例,采用Kennard-Stone算法[11]劃分校正集和預(yù)測(cè)集。因此,本研究中校正集樣本為360個(gè),預(yù)測(cè)集樣本為120個(gè)(60個(gè)完好樣本,30個(gè)輕度黑斑樣本,30個(gè)重度黑斑樣本)。
試驗(yàn)中采用北京卓立漢光公司開(kāi)發(fā)的“蓋亞”高光譜分選儀,波段范圍為900~1 700 nm,主要有Image-λ-N17E光譜相機(jī)、4個(gè)35 W的溴鎢燈、計(jì)算機(jī)、電移動(dòng)平臺(tái)、暗箱組成。為避免信息過(guò)度飽和與成像失真現(xiàn)象,設(shè)置曝光時(shí)間t=0.13 s,樣本與鏡頭的距離h=200 mm,傳送帶移動(dòng)速度v=7.2 mm·s-1。為了消除光強(qiáng)變化和暗流對(duì)成像的影響,光譜采集前進(jìn)行黑白板校正[12]。
本研究采用SPA提取特征波長(zhǎng),采用PLS-DA、BP-NN、CNN進(jìn)行數(shù)據(jù)建模。SPA[13]是一種以較小信息量表達(dá)大量數(shù)據(jù)的降維方法,能有效消除數(shù)據(jù)間存在的共線性問(wèn)題并避免重疊信息的重復(fù)提取。
PLS-DA[14]是將偏最小二乘法和線性判別分析法相結(jié)合的多變量統(tǒng)計(jì)分析方法,采用交叉驗(yàn)證得到最優(yōu)主成分個(gè)數(shù),然后進(jìn)行線性判別分析,解決回歸分析中自變量多重共線性的問(wèn)題。本研究中,根據(jù)交互檢驗(yàn)選取主成分,設(shè)定最多主成分?jǐn)?shù)為10,做10折交互檢驗(yàn)。
BP-NN[15]是按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),具有任意復(fù)雜的模式分類能力和優(yōu)良的多維函數(shù)映射能力,解決了簡(jiǎn)單感知器不能解決的異或等問(wèn)題。本研究中,設(shè)定網(wǎng)絡(luò)隱層和輸出層激勵(lì)函數(shù)分別為tansig和purelin函數(shù),網(wǎng)絡(luò)訓(xùn)練函數(shù)為trainlm函數(shù),隱層神經(jīng)元數(shù)設(shè)為6。網(wǎng)絡(luò)迭代次數(shù)為1 000次,期望誤差為0.0001,學(xué)習(xí)速率為0.1。
CNN[16,17]的基本結(jié)構(gòu)包括特征提取層和特征映射層,是在BP神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的改進(jìn)。在CNN中,某個(gè)神經(jīng)單元的感知區(qū)域來(lái)自于上層的部分神經(jīng)單元,同一特征平面實(shí)現(xiàn)權(quán)重共享,權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,降低了過(guò)擬合的風(fēng)險(xiǎn)。本研究中,CNN的結(jié)構(gòu)包括輸入層,2層卷積層和降采樣層,全連接層,輸出層,基本結(jié)構(gòu)見(jiàn)圖1。輸入圖像大小為28×28,特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),1層卷積的特征圖數(shù)量為6,2層卷積的特征圖數(shù)量為12,卷積核大小為5×5,降采樣層采用2×2的臨域相連接,學(xué)習(xí)效率為1,批訓(xùn)練樣本數(shù)量為10,每批訓(xùn)練中迭代次數(shù)為720。
圖1 CNN結(jié)構(gòu)Fig.1 CNN Structure
提取樣本感興趣區(qū)域內(nèi)的光譜信息,并計(jì)算其平均值,作為每個(gè)樣本的光譜信息。2016年和2017年,所采集到的完好棗、輕度和重度黑斑棗的平均光譜曲線見(jiàn)圖2。由于900~940 nm、1 660~1 700 nm含有大量的噪聲,因此選擇940~1 660 nm范圍內(nèi)的光譜進(jìn)行分析。同一類別中,2016年和2017年的光譜曲線變化趨勢(shì)一致,但是反射率存在一定的差異,特征吸收峰出現(xiàn)輕微偏移。完好棗在980 nm左右處和1 224 nm左右處有明顯的水分子吸收峰。黑斑病果,果肉變硬,味道變苦,內(nèi)部成分變化。在960~1 380 nm范圍內(nèi),完好棗、和黑斑棗的光譜曲線有較大差異,與病害發(fā)生中的果實(shí)內(nèi)部水分含量和碳水化合物的變化有關(guān)。
圖2 樣本的平均光譜曲線Fig.2 Average spectral curves of samples
為研究不同年份下的樣本所建校正模型的預(yù)測(cè)性能,針對(duì)全波段光譜,分別用2016年、2017年的校正集樣本建立PLS-DA、BP-NN模型(表1)。單一年份所建的BP-NN校正模型在預(yù)測(cè)相同年份的樣本時(shí),判別正確率為100%。2016年BP-NN模型預(yù)測(cè)2017年樣本時(shí),正確率為95.0%(3個(gè)輕度黑斑病的樣本被判別為完好棗)。2017年BP-NN模型預(yù)測(cè)2016年樣本時(shí),正確率為96.7%(2個(gè)完好棗被判別為黑斑棗)。2016年P(guān)LS-DA模型預(yù)測(cè)2016年樣本時(shí),正確率達(dá)到98.3%(1個(gè)輕度黑斑樣本被判別為完好樣本);預(yù)測(cè)2017年樣本時(shí),正確率為95.0%(3個(gè)輕度黑斑樣本被判別為完好樣本)。2017年P(guān)LS-DA校正模型,預(yù)測(cè)2017年樣本時(shí),判別正確率為100%;但預(yù)測(cè)2016年樣本時(shí),判別正確率僅為66.7%(20個(gè)完好棗被判別為黑斑棗)。單一年份校正模型預(yù)測(cè)時(shí),主要出現(xiàn)輕度黑斑棗和完好棗的錯(cuò)誤判別。由于黑斑程度低時(shí),樣本內(nèi)部組分的改變少,所引起光譜響應(yīng)的差異性小,且不同年份下完好樣本的光譜響應(yīng)也存在一定差異性,導(dǎo)致完好棗和輕度黑斑棗易判別錯(cuò)誤。不同年份所建模型對(duì)當(dāng)年樣本判別時(shí)取得好的預(yù)測(cè)結(jié)果,但對(duì)其它年份樣本的預(yù)測(cè)結(jié)果較本年份低。兩年聯(lián)合建立的BP-NN和PLS-DA校正模型得到相同結(jié)果,綜合判別正確率均為99.2%;預(yù)測(cè)2017年樣本時(shí),均有1個(gè)輕度黑斑樣本被判別為完好樣本。但是單一年份建模時(shí),BP-NN模型的預(yù)測(cè)性能均好于PLS-DA模型。因此,在鮮棗黑斑特征識(shí)別中,BP-NN較PLS-DA有更好的預(yù)測(cè)效果。聯(lián)合年份的預(yù)測(cè)效果較單一年份好,表明年份是校正模型穩(wěn)定性的一個(gè)影響因素,主要由于不同年份下的生長(zhǎng)條件(如光照、溫度等)差異導(dǎo)致同類樣本的光譜信息存在差異,單一年份所建校正模型預(yù)測(cè)其它年份同類樣本時(shí)易出現(xiàn)錯(cuò)誤識(shí)別;同時(shí)聯(lián)合年份所建校正模型,樣本的增多也適度提高了模型的性能。
表1 基于全波段的PLS-DA和BP-NN模型的判別結(jié)果Table 1 The results of PLS-DA, BP-NN models based on full wavelengths
針對(duì)兩年聯(lián)合光譜數(shù)據(jù),采用SPA提取特征波長(zhǎng),當(dāng)RMSE為0.11818時(shí),提取到8個(gè)特征波長(zhǎng),分別為1 291、1 094、1 367、947、1 469、1 422、969、1 520 nm,其重要程度依次遞減。然后采用BP-NN建立檢測(cè)模型,當(dāng)均方誤差為0.0016013,迭代次數(shù)為18時(shí),SPA-BP-NN模型的判別正確率為100%。表明特征波長(zhǎng)較全波長(zhǎng)建模效果好,該研究的全波段中存在一定噪聲。因此,有效變量信息選擇、運(yùn)算速度提高、算法穩(wěn)定性與可靠性,也是模型穩(wěn)定性的一個(gè)重要影響因素。
對(duì)SPA提取到的8個(gè)特征波長(zhǎng)所對(duì)應(yīng)的圖像進(jìn)行主成分分析,累計(jì)貢獻(xiàn)率見(jiàn)表2。典型樣本的主成分圖像見(jiàn)圖3,噪聲從第4個(gè)主成分圖像開(kāi)始嚴(yán)重。而前3個(gè)主成分的累積貢獻(xiàn)率已達(dá)到99.1%,可以很好的解釋樣本信息變量。因此,選擇前3個(gè)主成分進(jìn)行分析。PC1的圖像中樣本和背景的對(duì)比明顯,PC3圖像中病害區(qū)域和完好區(qū)域?qū)Ρ让黠@。因此,選擇兩年所提取到的28×28感興趣區(qū)域的PC3的圖像進(jìn)行分析。提取每個(gè)樣本PC3圖像的灰度值并將數(shù)據(jù)歸一化,采用BP-NN和CNN建立分類模型。
基于主成分圖像所建立BP-NN和CNN模型的判別結(jié)果見(jiàn)表3。BP-NN模型在均方誤差為0.99343,迭代次數(shù)為3時(shí),判別正確率達(dá)到78.3%,13個(gè)完好棗(2016年3個(gè),2017年10個(gè))被判別為黑斑棗,13個(gè)黑斑棗(2016年7個(gè),2017年6個(gè))被判別為完好棗。CNN判別中,隨著學(xué)習(xí)次數(shù)的增加,均方誤差整體上呈下降趨勢(shì),當(dāng)?shù)螖?shù)為15 393時(shí)基本收斂到穩(wěn)定值。當(dāng)?shù)螖?shù)為25 920,均方誤差為0.0059時(shí),有8個(gè)完好棗(2016年6個(gè),2017年2個(gè))被判別為黑斑棗,有4個(gè)黑斑棗(2017年4個(gè))被判別為完好棗,判別正確率為90.0%。CNN模型的判別正確率明顯好于BP-NN,在基于高光譜成像技術(shù)的農(nóng)產(chǎn)品質(zhì)量檢測(cè)中有較好的應(yīng)用前景?;诠庾V信息的SPA-BP-NN黑斑鮮棗識(shí)別和基于圖像信息的CNN識(shí)別均取得好的結(jié)果,未來(lái)的研究將在此基礎(chǔ)上,建立適用于工業(yè)生產(chǎn)中在線分選的穩(wěn)定模型。
表2前8個(gè)主成分的累積貢獻(xiàn)率
Table2 Accumulative contribution rate of the first eight principal component
主成分Principal component特征值Eigenvalues累積貢獻(xiàn)率/%Accumulative contribution rate10.006 91591.620.000 48898.130.000 07499.140.000 02999.550.000 01599.760.000 0199.870.000 00999.980.000 007100.0
圖3 黑斑樣本的主成分圖像Fig.3 Principal components grayscale of diseased samples
表3 BP-NN和CNN模型的判別結(jié)果Table 3 The results of BP-NN, CNN models
本研究基于高光譜成像技術(shù)進(jìn)行黑斑鮮棗識(shí)別,采用PLS-DA和BP-NN建立全波段的識(shí)別模型。單一年份所建校正模型,對(duì)其他年份的樣本進(jìn)行判別時(shí),均比對(duì)相同年份樣本的判別準(zhǔn)確率低;聯(lián)合年份所建的校正模型均比單一年份所建校正模型的整體判別準(zhǔn)確率高,且PLS-DA和BP-NN模型的判別準(zhǔn)確率都達(dá)到了99.2%。但單一年份所建模型中BP-NN較PLS-DA的判別精度高。表明收獲年份是一個(gè)影響光譜校正模型的重要因素?;诼?lián)合年份的光譜信息,采用SPA提取特征波長(zhǎng),建立SPA-BP-NN模型,識(shí)別準(zhǔn)確率為100%,明顯好于全部波段所建模型?;赟PA提取的特征波長(zhǎng)獲得主成分圖像,采用BP-NN和CNN建立識(shí)別模型,判別準(zhǔn)確率分別為78.3%和90.0%。基于光譜信息的SPA-BP-NN和基于圖像信息的CNN黑斑鮮棗識(shí)別均取得好的結(jié)果。因此,高光譜成像技術(shù)和CNN在農(nóng)產(chǎn)品的分類中具有很好的應(yīng)用前景,為進(jìn)一步設(shè)計(jì)分類裝置并實(shí)現(xiàn)工業(yè)生產(chǎn)中實(shí)時(shí)在線分選提供了理論基礎(chǔ)。