趙冰,王愛文,趙華
(1廣州國(guó)家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)科技創(chuàng)新中心/農(nóng)業(yè)農(nóng)村部華南現(xiàn)代生物種業(yè)重點(diǎn)實(shí)驗(yàn)室,廣東廣州 510520;2山東大學(xué)藥學(xué)院,山東濟(jì)南 250012;3張掖市農(nóng)業(yè)科學(xué)研究院,甘肅張掖 734000)
【研究意義】甜玉米是普通玉米種子的淀粉合成基因突變形成的玉米變異類型,其種子活力普遍較低,但資源間存在明顯的遺傳變異,實(shí)現(xiàn)對(duì)育種材料種子活力進(jìn)行快速、準(zhǔn)確、簡(jiǎn)便、有效地檢測(cè),篩選高活力種質(zhì)育種,可有效提高甜玉米育種效率(李武等,2018)。一般采用種子標(biāo)準(zhǔn)發(fā)芽試驗(yàn)方法測(cè)定甜玉米種子活力,但該方法通常需要7 d才能完成數(shù)據(jù)采集,傳統(tǒng)方法無(wú)法滿足實(shí)時(shí)發(fā)布需求(Zhao et al.,2009)。四唑試驗(yàn)是一種快速測(cè)定種子活力的方法,但具有一定破壞性。因此,有必要對(duì)甜玉米種子活力的快速、無(wú)損檢測(cè)方法進(jìn)行升級(jí)研究。利用近紅外光譜技術(shù)(Near infrared spectroscopy,NIRS)進(jìn)行種子活力測(cè)定,可達(dá)到快速、無(wú)損、準(zhǔn)確的效果。這種高效率的種子活力檢測(cè)方法可顯著縮短檢測(cè)時(shí)間,減少檢測(cè)工作量,高效率地篩選高活力甜玉米種子,推動(dòng)甜玉米種子活力篩選走向批量化和產(chǎn)業(yè)化?!厩叭搜芯窟M(jìn)展】玉米種子的品質(zhì)是其活力的體現(xiàn),已有文獻(xiàn)報(bào)道NIRS在玉米品質(zhì)檢測(cè)中的應(yīng)用,Armstrong等(2011)利用NIRS檢測(cè)了單粒玉米種子的成分,包括蛋白質(zhì)、油、淀粉和密度。種子活力是評(píng)價(jià)種子質(zhì)量的重要參數(shù),近年來受到越來越多的關(guān)注。Chen等(2014)利用傅里葉變換近紅外光譜(FTNIR)實(shí)現(xiàn)了玉米蛋白和脂肪的定量測(cè)定。Lee等(2017)利用NIRS對(duì)番茄種子活力進(jìn)行快速無(wú)損分析,建立了預(yù)測(cè)模型并進(jìn)行驗(yàn)證,發(fā)現(xiàn)該模型對(duì)番茄具有較好的預(yù)測(cè)精度。Al-Amery等(2018)收集81個(gè)批次大豆種子的NIRS,為大豆種子批次的標(biāo)準(zhǔn)發(fā)芽和活力開發(fā)了基于NIRS的預(yù)測(cè)模型。Kusumaningrum等(2018)采用組合偏最小二乘判別分析(PLSDA)收集并分析大豆種子的FT-NIR光譜,對(duì)有活力和無(wú)活力的種子進(jìn)行區(qū)分,同時(shí)進(jìn)行變量選擇,結(jié)果發(fā)現(xiàn)PLS-DA算法利用所有變量或選定變量分析FTNIR光譜,預(yù)測(cè)的準(zhǔn)確度較高。Qiu等(2018)利用PLS-DA區(qū)分有活力和無(wú)活力的超甜玉米種子,證明了作為活力測(cè)定非破壞性方法的可行性。金文玲等(2020)利用透射吸收光譜檢測(cè)系統(tǒng)結(jié)合PLS-DA鑒別模型對(duì)不同活力的水稻種子進(jìn)行了分級(jí)。Fan等(2020)使用NIRS檢測(cè)單個(gè)小麥種子的活力,利用主成分分析(Principle component analysis,PCA)和連續(xù)投影算法(Successive projections algorithm,SPA)進(jìn)行降維處理,并結(jié)合4種機(jī)器學(xué)習(xí)方法構(gòu)建了8種預(yù)測(cè)模型,結(jié)果發(fā)現(xiàn)8種模型的準(zhǔn)確率均超84.0%。Wang等(2020)基于自建種子單粒制粒裝置,利用NIRS探討了基于顆粒的種子活力檢測(cè)和分級(jí)的可行性。此外,還有研究者利用NIRS評(píng)估了辣椒種子(Mo et al.,2014)和西瓜種子(Yasmin et al.,2019)的活力?!颈狙芯壳腥朦c(diǎn)】在種子活力檢測(cè)領(lǐng)域,因種子活力的基礎(chǔ)是種子成熟過程中貯藏物質(zhì)的積累(Min and Kang,2008),而近紅外光譜區(qū)域與有機(jī)分子中含氫基團(tuán)(OH、NH和CH)的振動(dòng)組合頻率及各級(jí)倍頻吸收區(qū)域一致,故光譜信息可反映種子的組成信息,進(jìn)而分析種子的活力狀態(tài)(Li et al.,2009)。通過前人研究(Jia et al.,2016;Pang et al.,2020)發(fā)現(xiàn),NIRS具有評(píng)估玉米種子活力的潛力,然而大部分研究者采用的光譜采集模式并不相同,光譜采集模式對(duì)建模的影響也未見相關(guān)分析研究。本研究從光譜采集模式切入,比較2種采集模式下的預(yù)測(cè)模型,分析光譜采集模式對(duì)于建模效果的影響?!緮M解決的關(guān)鍵問題】分別在反射和透射模式下采集甜玉米種子的NIRS,通過選取最佳預(yù)處理方法及變量選擇方法建立預(yù)測(cè)模型,從而比較2種采集模式下的預(yù)測(cè)模型差別,以確定哪種采集模式更適合甜玉米種子活力預(yù)測(cè),為種子批量無(wú)損篩選提供一種新方法。
Hai7和11F是廣東省農(nóng)業(yè)科學(xué)院作物研究所育成的黃色超甜玉米(sh2)自交系,分別是高種子活力和低種子活力甜玉米的典型代表。以Hai7號(hào)為母本,與11F雜交,獲得雜種F1;F1與親本11F和Hai7連續(xù)回交3次,獲得2套BC3F1;經(jīng)4代自交至穩(wěn)定,最終獲得184個(gè)11F背景高代回交導(dǎo)入系(11F-ILs)和460個(gè)Hai7背景高代回交導(dǎo)入系(Hai7-ILs)。以11F-ILs和Hai7-ILs 2個(gè)群體的644份超甜玉米穩(wěn)定自交系種子為試驗(yàn)材料,成熟后收獲,曬干至含水量為13%,冷藏(溫度8℃,濕度50%)3個(gè)月,分別用于發(fā)芽試驗(yàn)和種子活力指數(shù)的近紅外光譜無(wú)損檢測(cè)。主要儀器設(shè)備:Antaris II傅里葉變換近紅外光譜儀(美國(guó)Thermo Fisher Scientific公司)、Matlab(美國(guó)Mathworks公司)和PLS toolbox811(美國(guó)Eigen-vector Research公司)。
1.2.1 發(fā)芽率、發(fā)芽指數(shù)和活力指數(shù)測(cè)定按照GB/T 3543.4—1995《農(nóng)作物種子檢驗(yàn)規(guī)程 發(fā)芽試驗(yàn)》,采用紙培法進(jìn)行種子發(fā)芽試驗(yàn)。第3 d測(cè)定發(fā)芽勢(shì),3 d后將根取出,烘干,稱量干重,按照公式計(jì)算發(fā)芽勢(shì)、發(fā)芽指數(shù)和活力指數(shù):
1.2.2 光譜采集所有樣品的光譜通過2種采樣模式得到:模塊A是積分球模塊,選取3粒甜玉米種子,記錄其在4000~10000 cm范圍內(nèi)的積分譜;每個(gè)樣本掃描32次,分辨率為8 cm,平均光譜作為最終光譜。模塊B是透射模塊,取3粒甜玉米種子進(jìn)行光譜采集,光譜范圍為6000~10000 cm,收集3個(gè)光譜,以平均光譜作為最終光譜。
1.2.3 模型建立與評(píng)價(jià)所有光譜數(shù)據(jù)均使用MATLAB 2016a進(jìn)行處理。采用PCA和蒙特卡羅交叉驗(yàn)證(Monte Carlo cross validation,MCCV)(Cao et al.,2010)方法剔除收集光譜中的異常點(diǎn),然后用Kennard-Stone(K-S)方法(李華等,2011)將所有光譜按3∶2的比例分成校準(zhǔn)組和驗(yàn)證組。
采用偏最小二乘法(Partial least squared,PLS)建立預(yù)測(cè)模型。采用去趨勢(shì)(Detrend)、多元散射校正(Multiplicative scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變換(Standard normal variate,SNV)和多項(xiàng)式平滑導(dǎo) 數(shù)(Savitzky-Golay derivative,SG)(Xia et al.,2020)選擇最佳預(yù)處理方法。為進(jìn)一步提高模型的準(zhǔn)確性,采用競(jìng)爭(zhēng)自適應(yīng)重加權(quán)抽樣(Competitive adaptive reweighted sampling,CARS)(Li et al.,2009)、非信息性變量剔除(Uninformative variables elimination,UVE)、隨機(jī)蛙跳法(Random frog,RF)和相關(guān)系數(shù)法(Correlation coefficients,CC)等不同的變量選擇方法(Song et al.,2017),從而篩選出最佳建模波段,建立用于種子活力預(yù)測(cè)的PLS定量模型(Li et al.,2018)。
在整個(gè)過程中,通過校正相關(guān)系數(shù)()、交互驗(yàn)證相關(guān)系數(shù)()、預(yù)測(cè)相關(guān)系數(shù)()、校正均方根誤差(RMSEC)、交互驗(yàn)證均方根誤差(RMSECV)和預(yù)測(cè)均方根誤差(RMSEP)來評(píng)價(jià)所建立的模型性能。
2.1.1 光譜離群點(diǎn)檢測(cè)部分光譜異常值的存在會(huì)影響預(yù)測(cè)模型的性能,降低其可信度,因此在光譜分析建模過程中,通常首先要剔除異常值,使得模型的性能更貼近實(shí)際,預(yù)測(cè)效果更佳。將PCA與MCCV相結(jié)合,識(shí)別潛在的異常值,結(jié)果如圖1所示。圖1-A中綠色虛線為95%的置信限,95%置信水平外的樣本被識(shí)別為離群值,綠色點(diǎn)為異常點(diǎn),紅色點(diǎn)為正常樣品。利用MCCV進(jìn)一步去除圖1-B所示的異常值。圖1-B中樣品分布較分散,平均值的分布范圍較大,因此將大于2倍的均值和標(biāo)準(zhǔn)偏差的樣品剔除。最后,共保存532份甜玉米種子樣品用于PLS建模研究。
2.1.2 漫反射光譜預(yù)處理方法的選擇圖2顯示532份甜玉米種子樣品的原始光譜,從原始近紅外光譜難以找到具體的波段,所有光譜均存在光散射引起的基線漂移。6897 cm附近的譜波數(shù)是高可溶性糖引起的主要吸收段,4283~4307 cm的譜波數(shù)表明可溶性糖和淀粉(Jiang et al.,2007)對(duì)C-H的拉伸和CH的結(jié)合吸收。據(jù)報(bào)道,這些成分與種子活力之間有很高的相關(guān)性(Cheng et al.,2018),然而更多的信息不明顯,表明預(yù)處理是必要的。
常用的光譜預(yù)處理方法包括均值中心化(Mean center,MC)、MSC、SNV、Detrend及SG。MC可增加樣品光譜之間的差異,提高模型的穩(wěn)健性和預(yù)測(cè)能力;MSC可消除由于顆粒大小和分布不均勻造成的影響;SNV可消除固體顆粒大小與光程差異帶來的誤差影響;Detrend方法則可消除漫反射中的基線漂移;SG可有效去除背景基線等帶來的影響,提高光譜分辨率。不同預(yù)處理方法結(jié)合使用,一方面可彌補(bǔ)各自的不足之處,使得處理效果更佳,另一方面也可能存在過度平滑,導(dǎo)致光譜差異減弱,信號(hào)隱藏的問題。因此,選擇合適的預(yù)處理方法十分重要。
表1為對(duì)比不同預(yù)處理方法后建立的發(fā)芽勢(shì)偏最小二乘回歸(Partial least square regression,PLSR)模型結(jié)果,選出最佳的光譜預(yù)處理方法。從表中可看出,當(dāng)光譜經(jīng)MSC+MC預(yù)處理方法后得到的模型效果最佳,模型的性能參數(shù)、、RMSEC和RMSECV分別為0.722、0.578、11.711和13.818。
圖1 基于PCA(A)和MCCV方法(B)的樣本離群點(diǎn)檢測(cè)結(jié)果Fig.1 Sample outlier point detection based on PCA(A)and MCCV method(B)
圖2 通過漫反射模塊獲得532份種子樣品的原始近紅外光譜Fig.2 Raw NIR spectra of 532 seed samples by diffuse reflective module
表2為對(duì)比不同預(yù)處理方法后建立的發(fā)芽指數(shù)PLSR模型結(jié)果,選出最佳的光譜預(yù)處理方法,從表中可看出,當(dāng)光譜經(jīng)Detrend+MC預(yù)處理方法后得到的模型效果最佳,模型的性能參數(shù)、、RMSEC和RMSECV分別為0.810、0.668、2.225和2.825。
表3為對(duì)比不同預(yù)處理方法后建立的活力指數(shù)PLSR模型結(jié)果,選出最佳的光譜預(yù)處理方法,從表中可看出,當(dāng)光譜經(jīng)SG+MC預(yù)處理方法后得到的模型效果最佳,模型的性能參數(shù)、、RMSEC和RMSECV分別為0.791、0.693、0.148和0.175。
2.1.3 變量選擇方法的選擇為消除無(wú)關(guān)的變量信息、提高分析速度和減少模型的復(fù)雜程度,本研究對(duì)比不同的變量選擇方法,以RMSEC和RMSECV為主要評(píng)價(jià)指標(biāo),選出RMSEC和RMSECV最小的定量分析模型,從而確定最佳的變量組合。在最佳預(yù)處理基礎(chǔ)上,對(duì)比不同變量選擇方法對(duì)建模結(jié)果的影響,篩選出最佳的變量選擇方法。對(duì)于漫反射模塊發(fā)芽勢(shì)定量分析模型,最佳變量選擇方法為CARS,模型的性能參數(shù)、、RMSEC和RMSECV分別為0.836、0.763、9.293和10.941(表4);對(duì)于漫反射模塊發(fā)芽指數(shù)定量分析模型,最佳變量選擇方法為CARS,模型的性能參數(shù)、、RMSEC和RMSECV分別為0.880、0.833、1.802和2.098(表5);對(duì)于漫反射模塊活力指數(shù)定量分析模型,最佳變量選擇方法為CARS,模型的性能參數(shù)、、RMSEC和RMSECV分別為0.826、0.783、0.137和0.151(表6)。
表1 發(fā)芽勢(shì)PLSR模型不同預(yù)處理方法的結(jié)果Table 1 Results of different pretreatment methods under PLSR model of germination potential
表2 發(fā)芽指數(shù)PLSR模型不同預(yù)處理方法的結(jié)果Table 2 Results of different pretreatment methods under PLSR model of germination index
2.1.4 模型的建立與預(yù)測(cè)通過采用不同的預(yù)處理方法進(jìn)行優(yōu)化及采用波段選擇方法選出最佳的建模波段,然后建立PLS模型,用于對(duì)模型的預(yù)測(cè)能力進(jìn)行檢驗(yàn)。將驗(yàn)證集的樣品帶入模型中,以和RMSEP為指標(biāo)考察模型的預(yù)測(cè)能力。結(jié)果(圖3~圖5)表明,該模型存在一定程度的過擬合,因種子活力是一個(gè)復(fù)雜的指數(shù),基于多種成分。因此,這個(gè)預(yù)測(cè)誤差(RMSEP=0.199)可以接受。反射率模型也會(huì)對(duì)預(yù)測(cè)能力產(chǎn)生一定的影響,因?yàn)橹荒艿玫椒N子的表面信息,可能是造成過擬合現(xiàn)象的原因。
2.2.1 光譜離群點(diǎn)檢測(cè)光譜離群點(diǎn)檢測(cè)結(jié)果如圖6所示。圖6-A中藍(lán)色虛線為95%置信限,置信限里面為正常樣本,外面為異常樣本。圖6-B中樣品的分布較分散,平均值的分布范圍較大,因此將大于1.5倍的均值和標(biāo)準(zhǔn)偏差的樣品剔除,將剩余樣品用于下一步建模,最后選取415份樣品進(jìn)行PLS建模研究。
2.2.2 透射光譜預(yù)處理方法的選擇圖7為415份甜玉米種子樣品的近紅外原始光譜。從圖中可看出,不同樣品光譜差異不明顯,光譜間相似性很高,所以需采取一些光譜預(yù)處理方法來提取光譜的有效信息,減少或除去物理因素、化學(xué)因素及儀器噪聲等對(duì)光譜的影響。
對(duì)不同預(yù)處理方法進(jìn)行研究,結(jié)果如表7所示,SG一階導(dǎo)數(shù)平滑的預(yù)測(cè)能力最佳,RMSECV和分別為0.142和0.685,主成分?jǐn)?shù)為9。
表3 活力指數(shù)PLSR模型不同預(yù)處理方法的結(jié)果Table 3 Results of different pretreatment methods under PLSR model of vigor index
表4 發(fā)芽勢(shì)PLSR模型不同變量選擇方法的結(jié)果Table 4 Results of different variable selection methods under PLSR model of germination potential
表5 發(fā)芽指數(shù)PLSR模型不同變量選擇方法的結(jié)果Table 5 Results of different variable selection methods under PLSR model of germination index
表6 活力指數(shù)PLSR模型不同變量選擇方法的結(jié)果Table 6 Results of different variable selection methods under PLSR model of vitality index
圖3 基于漫反射模型的發(fā)芽勢(shì)預(yù)測(cè)PLS模型Fig.3 Germination potential prediction based on diffuse reflective module under PLS model
圖4 基于漫反射模型的發(fā)芽指數(shù)預(yù)測(cè)PLS模型Fig.4 Germination index prediction based on diffuse reflective module under PLS model
圖5 基于漫反射模型的活力指數(shù)預(yù)測(cè)PLS模型Fig.5 Vigor index prediction based on diffuse reflective module under PLS model
圖6 基于PCA(A)和MCCV方法(B)的樣本離群點(diǎn)檢測(cè)果Fig.6 Sample outlier point detection based on PCA(A)and MCCV method(B)
2.2.3 變量選擇方法的選擇為消除無(wú)關(guān)的變量信息、提高分析速度和減少模型的復(fù)雜程度,本研究對(duì)比不同的變量選擇方法,以RMSEC和RMSECV為主要評(píng)價(jià)指標(biāo),結(jié)合主成分?jǐn)?shù),選出最佳的變量組合。對(duì)比不同變量選擇方法對(duì)建模結(jié)果的影響,發(fā)現(xiàn)對(duì)于透射活力指數(shù)定量分析模型,最佳變量選擇方法為CC,其性能參數(shù)、、RMSEC和RMSEP分別為0.783、0.680、0.121和0.133(表8)。
2.2.4 模型的建立與預(yù)測(cè)通過采用不同預(yù)處理方法進(jìn)行優(yōu)化及采用波段選擇方法選出最佳的建模波段,然后建立PLS模型,用于檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力。將驗(yàn)證集的樣品帶入模型中,以和RMSEP為指標(biāo)考察模型的預(yù)測(cè)能力。模型的性能參數(shù)、、、RMSEC、RMSECV和RMSEP分別為0.783、0.680、0.728、0.121、0.142和0.133(圖8)。
圖7 通過透射模塊獲得415份種子樣品的原始近紅外光譜Fig.7 Raw NIR spectra of 415 seed samples by transmission module
探究甜玉米種子活力快速、準(zhǔn)確、簡(jiǎn)便、有效的檢測(cè)工具,可顯著提升高活力甜玉米新種質(zhì)的能力和效率,NIRS分析技術(shù)作為一種快速分析技術(shù)在玉米質(zhì)量快速分析方面有一定的研究。NIRS的采集模式主要有透射模式和漫反射模式2種。透射模式是光束透過樣品,通過分析透過光的差異來評(píng)價(jià)樣品信息的一種光譜采集模式;漫反射光譜則是通過分析樣品顆粒所反射的光或散射光的信息,從而評(píng)價(jià)樣品的一種光譜采集模式。李晉華等(2013)采用漫透射模式對(duì)玉米種子進(jìn)行了成分預(yù)測(cè);李武等(2018)采用漫反射模式對(duì)玉米種子活力進(jìn)行了快速測(cè)定,并建立預(yù)測(cè)模型。本研究則從光譜采集模式入手,比較2種光譜采集模式下預(yù)測(cè)模型的差異,結(jié)果表明,透射模式相對(duì)于漫反射模式而言,甜玉米種子活力定量模型的性能參數(shù)更接近實(shí)際,不存在過擬合現(xiàn)象。分析原因可能是,采用透射模式采集光譜,由于光束穿過樣品,使得關(guān)于甜玉米種子的更多信息被捕獲到,反映在光譜上呈現(xiàn)出更復(fù)雜的現(xiàn)象,因此所建立的模型信息更全面,從而避免了過擬合現(xiàn)象。李晉華等(2013)采用漫透射方式成功地對(duì)玉米4種成分進(jìn)行了預(yù)測(cè),但其采用的樣品裝樣方式較復(fù)雜,且未對(duì)比漫反射模式的預(yù)測(cè)效果。李武等(2018)研究表明,NIR漫反射光譜可作為一種快速測(cè)定甜玉米種子活力形態(tài)指標(biāo)實(shí)現(xiàn)種子篩選的快速方法,該研究利用FiPLS、CARS和UVE等變量篩選方法對(duì)甜玉米的NIRS進(jìn)行特征波數(shù)區(qū)域選擇,篩選出甜玉米活性的特征區(qū)域,同時(shí)將便攜式微型光譜儀引入甜玉米活性的測(cè)定中,提出了一種新的甜玉米活性篩選方法,但研究中的樣品數(shù)量來源有限,隨著校正集樣品數(shù)量的增加,模型的精度和穩(wěn)定性也會(huì)增加。本研究所采用的樣品數(shù)量也受到限制,因此模型的精度和穩(wěn)定性仍不足。
表7 基于透射模塊的不同預(yù)處理方法的結(jié)果Table 7 Results of different pretreatment methods based on transmission module
表8 基于透射模塊的不同變量選擇方法的結(jié)果Table 8 Results of different variable selection methods based on transmission module
圖8 基于透射模塊的活力指數(shù)預(yù)測(cè)PLS模型Fig.8 Vigor index prediction based on transmission module under PLS model
NIRS技術(shù)可快速、準(zhǔn)確、無(wú)損地檢測(cè)種子活力指數(shù),顯示出種子篩選的巨大潛力,尤其在種子營(yíng)銷和種子種植方面,對(duì)資源的安全保存,以及種子優(yōu)化過程的快速篩選具有重要意義。然而,由于樣品的活力指數(shù)是用一批種子樣品的平均值來衡量,針對(duì)單個(gè)種子的研究尚不充分,因此今后需研究更多針對(duì)單個(gè)種子核的具體工作,且限于樣品種類,模型的應(yīng)用性有待更深入的研究與優(yōu)化。此外,為保證在實(shí)際生產(chǎn)中建立模型的準(zhǔn)確性和適用性,在今后的研究中應(yīng)盡可能地?cái)U(kuò)大玉米種子的來源、范圍和數(shù)量。
本研究中,2種采集模式下的光譜經(jīng)預(yù)處理和變量選擇后,建立得到最佳的甜玉米種子活力重要參數(shù)測(cè)定的定量分析模型。通過比較2種模式下的模型性能參數(shù),結(jié)果發(fā)現(xiàn)透射模式下采集的光譜具有更多關(guān)于甜玉米種子活力的信息,更適用于甜玉米種子活力預(yù)測(cè);同時(shí)提示NIRS技術(shù)在種子活力方面的研究中應(yīng)考慮不同采集模式下光譜信息的差異,從而針對(duì)不同的研究對(duì)象,確定最佳采集模式。