李鴻強(qiáng),孫 紅,李民贊*
(1.河北建筑工程學(xué)院 數(shù)理系,河北 張家口 075000;2.中國(guó)農(nóng)業(yè)大學(xué) 現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室,北京 100083)
馬鈴薯是繼小麥、稻谷和玉米之后全球第四大重要的糧食作物。目前,利用光譜技術(shù)對(duì)馬鈴薯塊莖品質(zhì)檢測(cè)主要集中于馬鈴薯的缺陷[1-5]及內(nèi)部品質(zhì)[6-7],鮮見應(yīng)用于馬鈴薯微型種薯品種檢測(cè)的報(bào)道。馬鈴薯微型種薯(又稱原原種)是用脫毒的試管苗移栽或扦插最初產(chǎn)生的種薯,質(zhì)量約1~20 g,其經(jīng)濟(jì)價(jià)值高,經(jīng)過(guò)多年發(fā)展已有較多品種,為保證品種的純度,開展馬鈴薯微型種薯種類無(wú)損鑒別研究,有助于馬鈴薯生產(chǎn)的良性發(fā)展。
模式識(shí)別是最常用的一種借助于數(shù)學(xué)方法進(jìn)行光譜模式區(qū)分和識(shí)別的綜合方法。光譜定性分析的模式識(shí)別方法有判別分析(DA)[8]、BP神經(jīng)網(wǎng)絡(luò)[9]、支持向量機(jī)(SVM)[10-13]。DA是一種線性分類器,其原理是將帶上標(biāo)簽的數(shù)據(jù)點(diǎn)通過(guò)投影方法,投影到維度更低的空間中,使得投影后的點(diǎn)會(huì)形成按類別區(qū)分為一簇一簇的情況,相同類別的點(diǎn)將會(huì)在投影后的空間中更接近。對(duì)于K個(gè)類別的分類問(wèn)題,每個(gè)類別對(duì)應(yīng)一個(gè)分類公式,將待識(shí)別對(duì)象代入分類公式,得到K個(gè)分類值,其最大值決定待識(shí)別對(duì)象的類別。BP神經(jīng)網(wǎng)絡(luò)是一種多層的前向型神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)中信號(hào)為前向傳播,誤差的調(diào)整過(guò)程從最后的輸出層依次向之前各層逐漸進(jìn)行,標(biāo)準(zhǔn)的BP網(wǎng)絡(luò)采用梯度下降算法,網(wǎng)絡(luò)權(quán)值沿著性能函數(shù)的梯度反向調(diào)整,該網(wǎng)絡(luò)模式識(shí)別是一種有監(jiān)督的模式識(shí)別方法,通常具有一個(gè)或多個(gè)Sigmoid隱含層和線性輸出層。SVM是Vapnik等[14]于1992年首先提出的機(jī)器學(xué)習(xí)方法,可用作模式識(shí)別,其理論基礎(chǔ)是結(jié)構(gòu)風(fēng)險(xiǎn)最小化的近似實(shí)現(xiàn),能較好地解決小樣本、非線性、高維數(shù)和局部極小點(diǎn)等實(shí)際問(wèn)題?;诖?,本研究采用高光譜分析技術(shù)和模式識(shí)別方法,對(duì)大西洋等8種馬鈴薯微型種薯的分類檢測(cè)方法進(jìn)行研究。
“蓋亞(Gaia Sorter)”高光譜分選儀,配卓立漢光公司Image-λ“譜像”系列高光譜相機(jī)[15-16];Gaia Sorter高光譜成像系統(tǒng)由鏡頭(OL23)、面陣CCD偵測(cè)器(LT365)、光譜儀(V17E)、均勻光源(2套溴鎢燈)、電控移動(dòng)平臺(tái)、計(jì)算機(jī)及控制軟件等部件組成;攝像頭分辨率為320×256 pix,光譜范圍為860~1 745 nm,光譜分辨率為5 nm,光譜采樣點(diǎn)為6.3 nm,光譜通道數(shù)為256。
實(shí)驗(yàn)所用馬鈴薯微型種薯為大西洋(24個(gè))、荷蘭-14(28個(gè))、荷蘭十五041(50個(gè))、荷蘭十五Q8(60個(gè))、冀張薯12號(hào)(24個(gè))、冀張薯8號(hào)(31個(gè))、興佳2號(hào)(24個(gè))和Y2(36個(gè)) 8個(gè)品種總計(jì)276個(gè)樣本。其中大西洋馬鈴薯還原糖含量低,主要用作油炸馬鈴薯片,中熟品種;荷蘭-14為紅皮黃肉,鮮食中熟品種;荷蘭十五041為黃皮黃肉,鮮食早熟品種;荷蘭十五Q8為黃皮黃肉,鮮食中熟品種;冀張薯12號(hào)為白皮白肉,鮮食高產(chǎn)中熟品種;冀張薯8號(hào)為白皮白肉,鮮食晚熟品種;興佳2號(hào)為黃皮黃肉,鮮食中熟品種;Y2為黃皮黃肉,晚熟品種。8種種薯,生長(zhǎng)周期和內(nèi)在品質(zhì)各有特點(diǎn)。
高光譜圖像數(shù)據(jù)采集前,先預(yù)熱系統(tǒng),以消除基線漂移的影響。對(duì)高光譜成像儀進(jìn)行調(diào)焦,設(shè)定曝光時(shí)間,調(diào)整輸送裝置速度,調(diào)整鏡頭高度,保證得到清晰的圖像。供試樣品去除表面雜質(zhì),常溫靜置24 h,采集光譜數(shù)據(jù),調(diào)試后的采集參量為:鏡頭高度26.5 cm,前進(jìn)速度0.75 cm/s,回退速度3 cm/s,曝光時(shí)間25 ms。利用系統(tǒng)自帶Spec View軟件進(jìn)行采集控制,每個(gè)樣本對(duì)應(yīng)一個(gè)包含影像信息和光譜信息的三維數(shù)據(jù)立方體,由于1 700~1 745 nm波長(zhǎng)范圍的光譜重疊嚴(yán)重,因此選擇860~1 700 nm的數(shù)據(jù)進(jìn)行分析,共256個(gè)波長(zhǎng)。
利用光譜采集系統(tǒng)自帶的Spec View軟件進(jìn)行黑白校正,使用ENVI 5.1軟件從校正后的圖像中獲取5~6個(gè)10像素×10像素的感興趣區(qū)域(Region of interest,ROI),獲得原始光譜數(shù)據(jù)。數(shù)據(jù)處理均在MATLAB R2013b環(huán)境中進(jìn)行。
1.4.1 光譜預(yù)處理光譜預(yù)處理[17]采用Z-Score標(biāo)準(zhǔn)化、Savitzky-Golay卷積平滑、一階導(dǎo)數(shù)。Z-Score標(biāo)準(zhǔn)化是基于原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化方法,其計(jì)算采用原始數(shù)據(jù)減去原始數(shù)據(jù)的均值,得到的差再除以原始數(shù)據(jù)的標(biāo)準(zhǔn)差。Savitzky-Golay卷積平滑通過(guò)移動(dòng)窗口,利用最小二乘法進(jìn)行最佳擬合,以最小二乘擬合系數(shù)為數(shù)字濾波響應(yīng)函數(shù)進(jìn)行原光譜的卷積平滑處理。本研究采用11點(diǎn)Savitzky-Golay卷積平滑,將Savitzky-Golay系數(shù)W=[-36,9,44,69,84,89,84,69,44,9,-36]代入公式(1)求解:
(1)
一階導(dǎo)數(shù)可消除基線漂移或平緩背景干擾的影響,本研究使用4點(diǎn)差分公式計(jì)算一階微分光譜:
(2)
式中,xi表示波長(zhǎng)i處的原始光譜反射率數(shù)據(jù);f′(xi)表示波長(zhǎng)i處的微分光譜反射率;h表示差分時(shí)的步長(zhǎng)(本研究取h=2)。
1.4.2 分類模型性能評(píng)價(jià)方法模型鑒定效果的評(píng)價(jià)指標(biāo)為正確識(shí)別率和錯(cuò)誤識(shí)別率。
正確識(shí)別率=(正確接收的樣品個(gè)數(shù)/測(cè)試樣品個(gè)數(shù))×100%
錯(cuò)誤識(shí)別率=(錯(cuò)誤接收的樣品個(gè)數(shù)/測(cè)試樣品個(gè)數(shù))×100%
圖1 8個(gè)品種種薯的原始光譜圖Fig.1 Raw spectra of eight seed potatos
8個(gè)品種種薯的平均原始光譜見圖1,其光譜反射率總體變化趨勢(shì)一致,均在960~1 100、1 160~1 200、1 410~1 510 nm之間表現(xiàn)出不同程度的深吸收;在880~920、1 060~1 100、1 260~1 300 nm范圍內(nèi)表現(xiàn)為不同程度的局部強(qiáng)反射,在915 nm處的光譜反射率出現(xiàn)尖峰,在915~956 nm和1 122~1 149 nm范圍內(nèi)的光譜反射率出現(xiàn)急速下降。大西洋品種在885~1 130 nm之間的反射率在8個(gè)品種種薯樣品中最低,而在1 370~1 660 nm之間的反射率最高。荷蘭-14在920~1 400 nm之間的反射率最高。荷蘭十五041和荷蘭十五Q8在整個(gè)波段反射率處于中等水平,荷蘭十五Q8在1 100~1 370 nm時(shí)的反射率整體高于荷蘭十五041,而在1 370~1 635 nm的反射率又整體低于荷蘭十五041。冀張薯12號(hào)在860~930 nm的反射率在8個(gè)品種種薯中最高。冀張薯8號(hào)與冀張薯12號(hào)的反射率變化規(guī)律相似,但在整個(gè)波段中的反射率低于冀張薯12號(hào)。Y2品種在1 400~1 510 nm的反射率在8個(gè)品種種薯中最低,之后反射率平穩(wěn)上升。興佳2號(hào)與Y2品種的反射率變化規(guī)律較相似,但在1 510 nm之前各點(diǎn)反射率比Y2高,而在1 510 nm后反射率回升速度低于Y2。
由此可見,8個(gè)品種種薯樣本的光譜反射率總體變化趨勢(shì)一致,但彼此間存在一定差異,為后續(xù)依據(jù)光譜反射率建立微型種薯分類模型奠定了基礎(chǔ)。
對(duì)原始光譜進(jìn)行標(biāo)準(zhǔn)化、Savitzky-Golay平滑和一階導(dǎo)數(shù)光譜預(yù)處理,以預(yù)處理后的數(shù)據(jù)所建SVM模型的測(cè)試性能作為預(yù)處理方法的選擇依據(jù),最終確定標(biāo)準(zhǔn)化、11點(diǎn)Savitzky-Golay平滑和步長(zhǎng)為2的一階差分導(dǎo)數(shù)的組合光譜預(yù)處理為本實(shí)驗(yàn)的最佳預(yù)處理方法。對(duì)處理后的光譜數(shù)據(jù)進(jìn)行主成分分析,得前3個(gè)主成分的累積貢獻(xiàn)率為95.12%,表明前3個(gè)主成分基本包含了原始光譜的大部分信息。
以前3個(gè)主成分為分類參數(shù),研究8種馬鈴薯微型種薯的分類方法[18]??紤]到種類較多,首先,選用泛化能力強(qiáng)的支持向量機(jī)進(jìn)行探索分類。所建支持向量機(jī)分類模型的測(cè)試結(jié)果如下:大西洋測(cè)試正確率50.00%,荷蘭-14測(cè)試正確率75.00%,荷蘭十五041測(cè)試正確率96.67%,荷蘭十五Q8測(cè)試正確率51.28%,冀張薯8號(hào)測(cè)試正確率100%,冀張薯12號(hào)測(cè)試正確率25.00%,興佳2號(hào)測(cè)試正確率50.00%,Y2測(cè)試正確率為31.25%??倻y(cè)試正確率為49.14%,測(cè)試錯(cuò)誤率為50.86%,由此可見,8個(gè)品種用一個(gè)模型分類判別的效果較差,需分組、分步驟建立檢測(cè)模型。
圖2 樣本得分圖Fig.2 Sample score chart
圖2為樣本1,3主成分得分圖。由圖可見,3類樣本類間重疊較少,存在明顯的界限,類內(nèi)又具有聚集性。其它5個(gè)品種分布在大西洋、荷蘭-14、荷蘭十五041之間。因此,首先將大西洋、荷蘭-14、荷蘭十五041和其它5個(gè)品種看成4個(gè)類別建立模型。再對(duì)其它5個(gè)品種分組探索分類模型。以此類推,分組、分步驟建立8個(gè)品種的分類檢測(cè)模型。
2.4.1 大西洋、荷蘭-14、荷蘭十五041和其它品種的線性判別分類模型將大西洋、荷蘭-14、荷蘭十五041和其它品種分為4組,設(shè)置類別標(biāo)簽依次為“1,2,3,4”,以1,3主成分得分作為分類變量,建立以上4個(gè)類別種薯的線性判別分類模型。訓(xùn)練集160個(gè)樣本,測(cè)試集116個(gè)樣本。
測(cè)試集測(cè)試混淆結(jié)果如表1所示。大西洋(4個(gè))測(cè)試正確率75.00%,荷蘭-14(8個(gè))測(cè)試正確率87.50%,荷蘭十五041(30個(gè)),測(cè)試正確率92.86%,其它品種(74個(gè))測(cè)試正確率87.84%。大西洋、荷蘭-14、荷蘭十五041測(cè)試錯(cuò)誤樣本均被測(cè)試為其它品種,其它品種樣本被錯(cuò)誤測(cè)試為大西洋和荷蘭-14樣本有8個(gè),占錯(cuò)誤測(cè)試樣本的87.50%。由此可見,大西洋、荷蘭-14、荷蘭十五041三者之間線性分類界限分明。線性判別模型的平均正確識(shí)別率為88.79%,可作為大西洋、荷蘭-14、荷蘭十五041和其它品種的分類模型。
表1 大西洋、荷蘭-14、荷蘭十五041和其它品種的線性分類測(cè)試結(jié)果Table 1 Classification test results of Daxiyang,Holland-14,Holland fifteen 041 and other
2.4.2 荷蘭十五Q8、冀張薯8號(hào)、冀張薯12號(hào)、興佳2號(hào)與Y2的分類模型對(duì)“2.4.1”中其它品種種薯應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類建模,測(cè)試集測(cè)試混淆結(jié)果見表2。由表2數(shù)據(jù)計(jì)算得:荷蘭十五Q8測(cè)試正確率41.03%,冀張薯8號(hào)測(cè)試正確率54.55%,冀張薯12號(hào)測(cè)試正確率50.00%,興佳2號(hào)測(cè)試正確率50.00%,Y2測(cè)試正確率93.75%。Y2樣本的測(cè)試準(zhǔn)確率較高,冀張薯8號(hào)的測(cè)試準(zhǔn)確率也高于其它品種,Y2樣本被錯(cuò)誤識(shí)別的1個(gè)樣本被測(cè)試為興佳2號(hào),冀張薯8號(hào)的5個(gè)樣本被錯(cuò)誤識(shí)別為Y2。冀張薯8號(hào)和Y2對(duì)其它品種非線性判別分析界限較明顯,但此二者間的分類界限模糊。
表2 荷蘭十五Q8、冀張薯8號(hào)、冀張薯12號(hào)、興佳2號(hào)和Y2的BP網(wǎng)絡(luò)分類測(cè)試結(jié)果Table 2 Classification test results of BP neural network for Holland fifteen Q8,Jizhangshu 8,Jizhangshu 12,Xingjia 2 and Y2
2.4.3 荷蘭十五Q8、冀張薯12號(hào)、興佳2號(hào)與冀張薯8號(hào)、Y2分類模型由“2.4.2”分類模型的測(cè)試結(jié)果可知,冀張薯8號(hào)和Y2分類特性較相似,兩者不易區(qū)分,荷蘭十五Q8、冀張薯12號(hào)和興佳2號(hào)相互之間均有誤判。因此,將冀張薯8號(hào)和Y2合并作為一類,荷蘭十五Q8、冀張薯12號(hào)和興佳2號(hào)合并作為另一類,分別進(jìn)行2分類建模。
應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類建模,測(cè)試集測(cè)試混淆結(jié)果顯示第一類(荷蘭十五Q8、冀張薯12號(hào)、興佳2號(hào))47個(gè)測(cè)試樣本的測(cè)試正確率為91.49%,4個(gè)測(cè)試為第二類(冀張薯8號(hào)和Y2),測(cè)試錯(cuò)誤率8.51%。第二類(冀張薯8號(hào)和Y2)27個(gè)測(cè)試樣本的測(cè)試正確率為96.30%,測(cè)試錯(cuò)誤率為3.70%。由此可見,兩類分類模型均有很高的分類精度,測(cè)試集正確識(shí)別率均在90%以上,平均正確識(shí)別率為93.24%。
2.4.4 荷蘭十五Q8、冀張薯12號(hào)、興佳2號(hào)分類模型應(yīng)用支持向量機(jī)對(duì)荷蘭十五Q8、冀張薯12號(hào)、興佳2號(hào)進(jìn)行分類建模。結(jié)果顯示:荷蘭十五Q8的測(cè)試正確率為89.74%,4個(gè)錯(cuò)誤測(cè)試為興佳2號(hào),測(cè)試錯(cuò)誤率10.26%。冀張薯12號(hào)的測(cè)試正確率75.00%,1個(gè)錯(cuò)誤測(cè)試為荷蘭十五Q8,測(cè)試錯(cuò)誤率25.00%。興佳2號(hào)的測(cè)試正確率為75.00%,1個(gè)錯(cuò)誤測(cè)試為荷蘭十五Q8,測(cè)試錯(cuò)誤率25.00%。平均正確識(shí)別率為87.23%。
2.4.5 冀張薯8號(hào)、Y2分類模型應(yīng)用BP神經(jīng)網(wǎng)絡(luò)對(duì)冀張薯8號(hào)、Y2建立分類模型,結(jié)果顯示:冀張薯8號(hào)的測(cè)試正確率為72.73%,3個(gè)測(cè)試為Y2品種,測(cè)試錯(cuò)誤率27.27%。Y2的測(cè)試正確率為81.25%,3個(gè)測(cè)試為冀張薯8號(hào),測(cè)試錯(cuò)誤率18.75%。平均正確識(shí)別率為77.78%。
以第1和第3主成分作為分類變量,應(yīng)用判別分析、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)對(duì)大西洋、荷蘭-14、荷蘭十五041、荷蘭十五Q8、冀張薯12號(hào)、冀張薯8號(hào)、興佳2號(hào)和Y2高光譜分類檢測(cè)方法進(jìn)行了研究。由于類別較多,且類間特征差別較小,難以建立8個(gè)馬鈴薯微型種薯的統(tǒng)一分類模型,即使是泛化能力最好的SVM模型,平均測(cè)試正確率也僅49.14%,因此需分步驟、分組建模。最終建立了3層的分組、分層檢測(cè)策略:第1層采用線性判別分析模型將待測(cè)樣本判別為大西洋、荷蘭-14、荷蘭十五041或其它品種,平均正確識(shí)別率達(dá)88.79%。第2層采用BP神經(jīng)網(wǎng)絡(luò)模型將其它品種樣本判別為2類,一類冀張薯8號(hào)和Y2,另一類為荷蘭十五Q8、冀張薯12號(hào)和興佳2號(hào),平均正確識(shí)別率達(dá)93.24%。第3層利用支持向量機(jī)分類模型荷蘭十五Q8、冀張薯12號(hào)和興佳2號(hào)3個(gè)品種,平均正確識(shí)別率達(dá)87.23%,利用BP神經(jīng)網(wǎng)絡(luò)分類模型區(qū)分冀張薯8號(hào)和Y2品種,平均正確識(shí)別率達(dá)77.78%。表明高光譜分析技術(shù)可用于馬鈴薯微型種薯的類別檢測(cè)。