呂曉菡,蔣錦琳,楊靜,陳建瑛,岑海燕,傅鴻妃,周毅飛
(1.杭州市農(nóng)業(yè)科學(xué)研究院,杭州310024;2.浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,杭州310058;3.浙江農(nóng)林大學(xué)農(nóng)業(yè)與食品科學(xué)學(xué)院,杭州311300)
辣椒(Capsicum annuumL.)是一種茄科(Solanaceae)辣椒屬(Capsicum)的常異花授粉作物,起源于南美洲,如今已成為世界范圍內(nèi)非常重要的農(nóng)業(yè)經(jīng)濟(jì)作物之一,尤其是在中國(guó)和韓國(guó)[1-5]。隨著生活水平的不斷提高,人們對(duì)辣椒的要求不再停留在抗病性和產(chǎn)量上,辣椒的口感,尤其是其辣度的細(xì)化,已成為辣椒育種工作的新熱點(diǎn)。評(píng)價(jià)辣椒的辣味主要是指其辛辣程度,辣度越高,辣椒素類物質(zhì)含量越高,辣椒越辛辣。辣椒中的辣椒素類物質(zhì)主要有5 種,分別為辣椒素(capsaicin)、二氫辣椒素(dihydrocapsaicin)、降二氫辣椒素、高辣椒素和高二氫辣椒素[6]。其中辣椒素和二氫辣椒素約占總量的90%,也提供了約90%的辣感和熱感,并且起主要作用的是辣椒素[7-8]。目前,檢測(cè)辣椒中辣椒素的方法除了傳統(tǒng)的化學(xué)方法外,還有高效液相色譜法、酶聯(lián)免疫法、熒光光譜法、核磁共振法等[9-14],然而這些方法基本上是費(fèi)時(shí)費(fèi)力的破壞性檢測(cè)技術(shù),迄今為止,快速、精準(zhǔn)又便捷的檢測(cè)方法還很少。
隨著光譜技術(shù)的快速發(fā)展,近紅外光譜檢測(cè)技術(shù)已經(jīng)廣泛應(yīng)用于農(nóng)產(chǎn)品品質(zhì)與安全的快速無(wú)損檢測(cè)中[15-18]。把近紅外光譜技術(shù)引入到辣椒素含量的檢測(cè)中,對(duì)辣椒中辣度的快速精準(zhǔn)評(píng)價(jià)有重要意義,對(duì)縮短辣椒育種進(jìn)程有較大的促進(jìn)作用。杭椒類辣椒是江浙滬地區(qū)的傳統(tǒng)優(yōu)勢(shì)品種,除了具有入口綿軟無(wú)渣的特點(diǎn)外,嫩果微辣或不辣,老熟果辣味濃也是其另一大特色。根據(jù)不同人群的辣味需求,可以在不同時(shí)期進(jìn)行辣椒果實(shí)的采收。本文以杭椒類辣椒新鮮果實(shí)為研究對(duì)象,通過(guò)采集新鮮辣椒果實(shí)的近紅外光譜信息,建立辣椒素含量的近紅外光譜預(yù)測(cè)模型,同時(shí)結(jié)合特征波長(zhǎng)變量?jī)?yōu)選算法簡(jiǎn)化模型,為后續(xù)開(kāi)發(fā)便攜式辣椒品質(zhì)快速分析儀器提供理論基礎(chǔ)和技術(shù)支撐。
選取6份杭椒類辣椒種質(zhì)材料的果實(shí)為研究對(duì)象,并將其編號(hào)為HJ01~HJ06。在相同時(shí)期內(nèi),對(duì)“門(mén)椒”“對(duì)椒”“四門(mén)斗”“八面風(fēng)”“滿天星”等果位上完全開(kāi)放的花朵進(jìn)行標(biāo)記,每個(gè)品種標(biāo)記30 朵。當(dāng)植株進(jìn)入盛果期時(shí),每份材料采集60 個(gè)果實(shí),共獲得360個(gè)果實(shí)樣品,備用。
光譜采集系統(tǒng)主要由光譜儀、光源、環(huán)形光纖探頭、計(jì)算機(jī)等組成。其中:光譜儀為便攜式USB2000+微型光纖光譜儀(Ocean Optics 公司,美國(guó)),采用CCD 陣列可見(jiàn)近紅外光譜(visible-near infrared spectroscopy, VIS/NIRS)檢測(cè)器,采樣范圍為874~1 734 nm,數(shù)據(jù)點(diǎn)為2 048。光源為50 W的外置鹵素?zé)?。自主設(shè)計(jì)的環(huán)形光纖探頭通過(guò)2條光纖(環(huán)形光纖和探測(cè)光纖)分別與外置光源和光譜儀連接,其中環(huán)形光纖將光源發(fā)出的光傳輸并照射到檢測(cè)部位,探測(cè)光纖將檢測(cè)器采集到的光返回給光譜儀從而獲得樣本的光譜信息。本實(shí)驗(yàn)采用線掃描的方式,將新鮮辣椒果實(shí)放置在鋪有不反光黑布的樣品臺(tái)上,距離光譜儀鏡頭距離為30 cm,掃描完整的辣椒果實(shí)3 次,取平均值。在采集完360 個(gè)新鮮辣椒果實(shí)的光譜信息后,利用高效液相色譜法[《辣椒素的測(cè)定 高效液相色譜法》(NY/T 1381—2007)][19]依次檢測(cè)辣椒素含量。
在近紅外光譜技術(shù)中,偏最小二乘法(partial least squares,PLS)是比較常見(jiàn)的建模方法。由于全波段光譜數(shù)據(jù)具有較強(qiáng)的共線性,存在大量冗余信息。因此,特征波長(zhǎng)的篩選一方面可以簡(jiǎn)化預(yù)測(cè)模型,另一方面可以消除不相關(guān)和非線性的光譜變量,從而提高模型的穩(wěn)定性和準(zhǔn)確性。本文分別基于全譜和特征波長(zhǎng)建立預(yù)測(cè)模型,并對(duì)預(yù)測(cè)效果進(jìn)行比較。
1.3.1 全譜建模
PLS 是一種有效的多元統(tǒng)計(jì)方法,本質(zhì)上是一種基于特征變量的回歸方法,廣泛應(yīng)用于近紅外光譜數(shù)據(jù)的處理。PLS模型在對(duì)量測(cè)矩陣進(jìn)行分解的同時(shí),對(duì)響應(yīng)矩陣也進(jìn)行正交分解,并在這2個(gè)矩陣間建立定量關(guān)系,從而使得對(duì)多個(gè)量測(cè)響應(yīng)的預(yù)測(cè)成為可能[20-21]。本文中量測(cè)矩陣為光譜數(shù)據(jù)矩陣,量測(cè)響應(yīng)矩陣為辣椒素含量矩陣。
1.3.2 特征波長(zhǎng)建模
近紅外光譜主要反映有機(jī)物質(zhì)的倍頻和合頻吸收,不同物質(zhì)譜帶信息重疊嚴(yán)重,使全波段光譜中含有大量冗余信息及噪聲,從而影響了模型的預(yù)測(cè)性能。因此,為了簡(jiǎn)化模型,提高建模效率,實(shí)現(xiàn)儀器開(kāi)發(fā),需要一種有效的手段來(lái)提取全波段中的特征波長(zhǎng),舍去無(wú)效的波段信息,提高建模的速度,減少計(jì)算量。本文分別采用連續(xù)投影算法(successive projection algorithm, SPA)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣法(competitive adaptive reweighted sampling,CARS)、無(wú)信息變量消除法(uninformation variable elimination,UVE)提取特征波長(zhǎng),其他步驟與全譜建模相同。
SPA能夠從光譜信息中充分尋找含有最低限度冗余信息的變量組,使得變量之間的共線性達(dá)到最小,同時(shí)能大大減少建模所用變量的個(gè)數(shù),提高建模的速度和效率[22-23]。CARS 是模擬達(dá)爾文進(jìn)化論中“適者生存”原則,將每個(gè)波長(zhǎng)變量看成一個(gè)個(gè)體,通過(guò)自適應(yīng)重加權(quán)采樣(adaptive reweighted sampling,ARS)技術(shù)篩選出PLS 模型中回歸系數(shù)絕對(duì)值較大的波長(zhǎng)變量,去掉權(quán)重較小的變量,從而獲得一系列波長(zhǎng)變量子集,然后對(duì)每個(gè)波長(zhǎng)變量子集采用交叉驗(yàn)證建模,根據(jù)交互驗(yàn)證均方根誤差(cross validation of root mean square error, RMSECV)最小原則,選擇最優(yōu)的波長(zhǎng)變量子集[24-25]。UVE 是一種基于PLS 模型回歸系數(shù)的特征波長(zhǎng)選擇方法[26-27],通過(guò)消除不含信息的變量,最終剩下對(duì)化學(xué)組分預(yù)測(cè)的有用變量。
利用高效液相色譜法檢測(cè)360個(gè)新鮮辣椒果實(shí)中的辣椒素含量時(shí),由于小部分樣品中辣椒素含量極其微量而未被檢出,最終獲得341 個(gè)樣本數(shù)據(jù)。通過(guò)對(duì)獲得的341 個(gè)數(shù)據(jù)進(jìn)行分析可知,大部分?jǐn)?shù)據(jù)均集中于0.01~0.13 mg/g之間(圖1)。為了減少誤差,對(duì)不在該區(qū)域內(nèi)的數(shù)據(jù)進(jìn)行剔除,最終獲得275個(gè)樣本數(shù)據(jù)(圖2)。按照Kennard-Stone算法以2∶1 的比例劃分建模集與預(yù)測(cè)集,二者辣椒樣本的辣椒素含量分析見(jiàn)表1。
對(duì)原始光譜進(jìn)行預(yù)處理后,采用Savitsky-Golay(SG)卷積平滑法,對(duì)濾波進(jìn)行平滑處理,降低噪聲對(duì)信號(hào)的干擾。然而,由于存在系統(tǒng)誤差,光譜曲線在首尾端有較大的噪聲,會(huì)直接影響試驗(yàn)的準(zhǔn)確性,因此,對(duì)數(shù)據(jù)處理時(shí)只研究波長(zhǎng)在975~1 645 nm 波段的光譜數(shù)據(jù)。新鮮辣椒的近紅外光譜曲線如圖3所示。
圖1 全部樣本的辣椒素含量頻率直方圖Fig.1 Frequency histogram of the capsaicin content of all the chili pepper samples
圖2 剔除異常樣本后的辣椒素含量頻率直方圖Fig.2 Frequency histogram of the capsaicin content of chili pepper samples after removing abnormal samples
表1 建模集和預(yù)測(cè)集辣椒樣本中辣椒素的含量Table 1 Capsaicin content of chili peppers for the modeling and prediction sets mg/g
圖3 新鮮辣椒果實(shí)的平均光譜Fig.3 Average spectra of fresh chili peppers
2.3.1 基于全譜建模
PLS 建立的模型的各項(xiàng)參數(shù)如圖4 所示:無(wú)論是建模集還是預(yù)測(cè)集,模型中辣椒素含量的真實(shí)值與預(yù)測(cè)值之間的相關(guān)系數(shù)均在0.8 以上,這說(shuō)明模型的預(yù)測(cè)值和真實(shí)值之間具有很好的相關(guān)性,也說(shuō)明所建立的PLS 模型可以很好地預(yù)測(cè)辣椒樣品的辣椒素含量。
圖4 PLS模型建模集(A)和預(yù)測(cè)集(B)的預(yù)測(cè)結(jié)果Fig.4 Predicted results of modeling set (A) and prediction set(B)of PLS model
2.3.2 特征波長(zhǎng)的選擇
表2 總結(jié)了基于SPA、CARS、UVE 3 種方法選擇的特征波長(zhǎng)。從中可以看出,SPA 選擇的特征波長(zhǎng)數(shù)比其他2 種方法少。與全譜建模的輸入變量200 相比,特征波長(zhǎng)模型(SPA-PLS、CARS-PLS、UVE-PLS)的輸入變量分別減少了97%、96%、96%,這大大簡(jiǎn)化了模型,提高了運(yùn)算效率。因此,所選擇的特征波長(zhǎng)具有良好的應(yīng)用前景,可代替全光譜進(jìn)行辣椒素含量預(yù)測(cè)模型的建立。從表2中還可以看出,所選擇的特征波長(zhǎng)大部分在1 110~1 500 nm范圍內(nèi),這主要由C—H鍵和O—H鍵的伸縮振動(dòng)引起[28-29],而這些基團(tuán)主要與辣椒果實(shí)中的辣椒素有關(guān)。
表2 基于3種方法選擇的特征波長(zhǎng)Table 2 Optimal wavelengths selected by three methods
2.3.3 基于特征波長(zhǎng)建模
為了簡(jiǎn)化模型,提高建模效果,實(shí)現(xiàn)儀器開(kāi)發(fā),利用SPA、CARS、UVE 提取特征波長(zhǎng),所建立的模型的各項(xiàng)參數(shù)如圖5~7所示。從中可以看出,基于特征波長(zhǎng)建立的模型預(yù)測(cè)結(jié)果與基于全譜建立的模型預(yù)測(cè)結(jié)果相當(dāng)。無(wú)論是建模集,還是預(yù)測(cè)集,所有模型中辣椒素含量的真實(shí)值與預(yù)測(cè)值之間的相關(guān)系數(shù)均在0.8 以上,這說(shuō)明模型的預(yù)測(cè)值和真實(shí)值之間具有很好的相關(guān)性,也說(shuō)明用SPA、CARS、UVE 提取特征波長(zhǎng)建立的模型也可以很好地預(yù)測(cè)辣椒果實(shí)中的辣椒素含量。其中,CARSPLS 模型的預(yù)測(cè)效果最好,預(yù)測(cè)集相關(guān)系數(shù)和均方根誤差分別為0.838 6和0.014 8 mg/g。
圖5 SPA-PLS模型建模集(A)和預(yù)測(cè)集(B)的預(yù)測(cè)結(jié)果Fig.5 Predicted results of modeling set (A) and prediction set(B)of SPA-PLS model
圖6 CARS-PLS模型建模集(A)和預(yù)測(cè)集(B)的預(yù)測(cè)結(jié)果Fig.6 Predicted results of modeling set (A) and prediction set(B)of CARS-PLS model
圖7 UVE-PLS模型建模集(A)和預(yù)測(cè)集(B)的預(yù)測(cè)結(jié)果Fig.7 Predicted results of modeling set (A) and prediction set(B)of UVE-PLS model
本文主要研究了近紅外光譜技術(shù)與高效液相色譜法相結(jié)合對(duì)杭椒類辣椒新鮮果實(shí)中辣椒素含量進(jìn)行快速檢測(cè)的可行性。試驗(yàn)共獲得了275個(gè)新鮮辣椒果實(shí)的近紅外光譜和辣椒素含量信息,按照Kennard-Stone 算法以2∶1 的比例劃分建模集與預(yù)測(cè)集,分別采用全譜建模和提取特征波長(zhǎng)建模(SPA、CARS、UVE)2 種方式建立預(yù)測(cè)模型。結(jié)果發(fā)現(xiàn):無(wú)論是基于全譜建模,還是基于特征波長(zhǎng)建模,其建模集和預(yù)測(cè)集的相關(guān)系數(shù)均達(dá)到0.8以上,這不僅說(shuō)明所有模型的預(yù)測(cè)值和真實(shí)值之間具有很好的相關(guān)性,而且說(shuō)明基于特征波長(zhǎng)建立的模型也能取得較好的預(yù)測(cè)效果。此外,SPA、CARS、UVE 3 種算法選擇的波長(zhǎng)數(shù)分別為6、8、8,與全譜波段200 相比,大大減少了變量數(shù),簡(jiǎn)化了模型,提高了模型的運(yùn)算速率。本研究表明,基于特征波長(zhǎng)建模的近紅外光譜技術(shù)對(duì)于辣椒果實(shí)中辣椒素含量的檢測(cè)是可行的,實(shí)現(xiàn)了對(duì)新鮮辣椒果實(shí)的無(wú)損準(zhǔn)確預(yù)測(cè)。這不僅為開(kāi)發(fā)便攜式新鮮辣椒果實(shí)無(wú)損檢測(cè)設(shè)備做好了前期準(zhǔn)備工作,也為辣椒精準(zhǔn)育種中辣度的進(jìn)一步細(xì)化提供了參考。