周宏平 胡逸磊 姜洪喆 許林云 王 影
(南京林業(yè)大學(xué)機(jī)械電子工程學(xué)院,南京 210037)
油茶屬山茶科山茶屬植物,為常綠小喬木或灌木[1],是原產(chǎn)于我國南方的鄉(xiāng)土樹種,具有栽培歷史悠久、分布區(qū)域廣、栽培面積大、用途多等特點(diǎn),與油橄欖、油棕、椰子并稱為世界四大木本油料樹種[2]。目前,我國油茶種植面積已達(dá)437萬hm2,年產(chǎn)茶油60萬t,產(chǎn)值近千億元[3]。油茶的主要產(chǎn)物是茶油,茶油含有豐富的營養(yǎng)成分,油酸質(zhì)量分?jǐn)?shù)超過80%,不飽和脂肪酸質(zhì)量分?jǐn)?shù)達(dá)90%,比橄欖油高6個(gè)百分點(diǎn)[4]。
油茶籽含油率是影響茶油產(chǎn)量的重要因素,也是油茶采摘時(shí)間的重要參考指標(biāo)[5]。目前茶籽油常用的提取方法包括壓榨法、溶劑法和水酶法[6],這些方法存在提取率低、含有機(jī)溶劑殘留、成本較高等缺點(diǎn),不適合用于實(shí)驗(yàn)室內(nèi)對(duì)單個(gè)或少許茶籽進(jìn)行的含油率檢測(cè)。因此,迫切需要一種能夠快速、準(zhǔn)確地檢測(cè)油茶籽含油率的方法,以便于茶籽品種的鑒別和篩選。
高光譜成像是一種集光譜和圖像于一體的技術(shù),圖像中的每個(gè)像素點(diǎn)都包含特定位置的光譜信息,與傳統(tǒng)近紅外光譜相比,其優(yōu)勢(shì)之一是可實(shí)現(xiàn)被測(cè)物各組分分布情況的可視化[7]。文獻(xiàn)[8]利用近紅外光譜建立了橄欖果肉中油含量的偏最小二乘回歸模型(Partial least squares regression,PLSR),模型的校正集相關(guān)系數(shù)Rc為0.848,交叉驗(yàn)證均方根誤差(Root mean square error of cross validation,RMSECV)為0.901。文獻(xiàn)[9]采集了不同成熟度油棕的高光譜信息,發(fā)現(xiàn)750 nm是適用于棕油含量定量檢測(cè)的最佳波長。文獻(xiàn)[10]利用兩組光譜集(光譜集Ⅰ:400~1 000 nm;光譜集Ⅱ:1 000~2 500 nm),結(jié)合化學(xué)計(jì)量方法檢測(cè)不同品種花生的含油量,建立的PLSR模型的預(yù)測(cè)集決定系數(shù)分別為0.696和0.923。文獻(xiàn)[11]研究發(fā)現(xiàn),使用高光譜數(shù)據(jù)建立的徑向基神經(jīng)網(wǎng)絡(luò)模型能較好地預(yù)測(cè)油茶籽脂肪酸的成分含量。文獻(xiàn)[12]利用30份油茶籽的近紅外光譜數(shù)據(jù)建立了含油率的PLSR模型,其校正集相關(guān)系數(shù)為0.93。這些研究結(jié)果為使用光譜分析技術(shù)進(jìn)行油料作物含油率檢測(cè)奠定了良好的理論基礎(chǔ)。
目前,國內(nèi)外有關(guān)采用高光譜成像技術(shù)檢測(cè)油茶籽含油率的研究尚未見報(bào)道。本文旨在探討波長在400~1 000 nm和900~1 700 nm范圍內(nèi)的高光譜相機(jī)檢測(cè)油茶籽含油率的可行性,并對(duì)比兩個(gè)波段的檢測(cè)效果,以期開發(fā)一種快速檢測(cè)油茶籽含油率的方法,為油茶籽優(yōu)質(zhì)育種與品質(zhì)快檢分選提供理論依據(jù)與技術(shù)基礎(chǔ)。
油茶籽樣品來自安徽省蕪湖市無為縣聯(lián)合行政村聯(lián)合農(nóng)業(yè)發(fā)展有限公司的油茶林,于2019年10月10日和10月14日采摘油茶鮮果共109個(gè),當(dāng)天帶回實(shí)驗(yàn)室進(jìn)行果高、果徑、質(zhì)量等形態(tài)參數(shù)的測(cè)量,并置于冰箱4℃環(huán)境下保存,于第二天取出、去殼,采集油茶鮮籽的高光譜圖像,干燥后采集含油率數(shù)據(jù)。
高光譜成像系統(tǒng)采用南京林業(yè)大學(xué)生物質(zhì)包裝無損檢測(cè)實(shí)驗(yàn)室搭建的高光譜成像無損檢測(cè)平臺(tái),主要包括兩臺(tái)光譜儀(GaiaField-V10E-AZ4型,400~1 000 nm(光譜集Ⅰ);GaiaField-N17E型,900~1 700 nm(光譜集Ⅱ))、兩臺(tái)探測(cè)器(sCMOS相機(jī)、InGaAs相機(jī))、一條白色食品級(jí)傳送帶(HSIA-CSD800型)、一套由12只50 W的鹵素?zé)艉吐瓷漶讽斀M成的照明系統(tǒng)以及一臺(tái)計(jì)算機(jī)。其中成像光譜儀的光譜分辨率分別為2.8 nm和5 nm,被測(cè)物品置于傳送帶上的載物臺(tái),步進(jìn)電機(jī)驅(qū)動(dòng)傳送帶使被測(cè)物品運(yùn)動(dòng),暗箱用于屏蔽外界雜散光對(duì)數(shù)據(jù)采集的干擾。
高光譜圖像數(shù)據(jù)獲取基于計(jì)算機(jī)上的SpecView軟件,將高光譜儀器預(yù)熱30 min后進(jìn)行油茶籽圖像采集。為了避免獲取的圖像失真,經(jīng)過多次預(yù)實(shí)驗(yàn)確定最佳的數(shù)據(jù)采集參數(shù)如下:光譜儀Ⅰ的曝光物距為300 mm,曝光時(shí)間為1.2 ms,電控位移臺(tái)掃描速度是0.601 4 nm/s,掃描線實(shí)際長度是200 mm,圖像分辨率是800像素×664像素;光譜儀Ⅱ的曝光物距為300 mm,曝光時(shí)間為7.5 ms,電控位移臺(tái)掃描速度是2.256 8 nm/s,掃描線實(shí)際長度是200 mm,圖像分辨率是640像素×542像素;每次采集同一個(gè)油茶果中3粒油茶籽的高光譜圖像,并取其平均值作為樣本的最終光譜數(shù)據(jù)。
由于高光譜圖像采集過程中存在暗電流的影響,而且不同波段下成像系統(tǒng)光源的強(qiáng)度分布也不均勻,從而導(dǎo)致獲取的高光譜圖像中含有較大的噪聲。因此要對(duì)其進(jìn)行黑白校正以消除暗電流的影響,校正方法為[13-14]
(1)
式中Re——校正后的漫反射光譜圖像數(shù)據(jù)
R0——樣本原始的漫反射光譜圖像數(shù)據(jù)
D——暗圖像數(shù)據(jù)
W——白板的漫反射圖像數(shù)據(jù)
油茶籽含油率采用NAI-ZFCDY-6Z型脂肪測(cè)定儀(上海那艾精密儀器有限公司)按照GB 5009.6—2016規(guī)定的方法測(cè)定。首先采用BSM-220.4型分析天平(上海卓精電子科技有限公司)稱取油茶仁2.000 g,磨碎后移入濾紙筒內(nèi),并將濾紙筒放入索氏抽提器的抽提筒內(nèi),連接已干燥至質(zhì)量恒定的接收瓶,由抽提器冷凝管上端加入60 mL無水乙醚至瓶?jī)?nèi)容積的2/3處,于水浴上加熱,使無水乙醚不斷回流抽提6 h。然后取下接收瓶,回收無水乙醚,待接收瓶?jī)?nèi)溶劑剩余1~2 mL時(shí)在水浴上蒸干,再于100℃干燥箱內(nèi)干燥1 h,放干燥器內(nèi)冷卻0.5 h后稱量。最后按照文獻(xiàn)[15]的方法計(jì)算油茶籽含油率,公式為
(2)
式中Moil——出油質(zhì)量
Mseed——茶仁質(zhì)量
高光譜數(shù)據(jù)量大且數(shù)據(jù)之間的共線性嚴(yán)重,影響模型的運(yùn)算速度[16]。因此采用以下7種方法提取有效信息變量并進(jìn)行對(duì)比,從而得到最優(yōu)的變量選擇方法:
(1)連續(xù)投影算法(Succesive projections algorithm,SPA)是一種前向選擇算法,通過在光譜中尋找最低限度冗余光譜信息變量集,使得變量之間的共線性最小化[17]。該方法要預(yù)先設(shè)置選擇的變量數(shù)范圍,最終選擇的變量數(shù)在該范圍內(nèi)對(duì)應(yīng)最低的均方根誤差(Root mean square error,RMSE)。本研究中選擇的最佳變量數(shù)范圍為5~30,光譜集Ⅰ篩選了8個(gè)特征波長,光譜集Ⅱ篩選了11個(gè)特征波長。
(2)競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(Competitive adaptive reweighted sampling, CARS)是一種以回歸系數(shù)作為變量重要性指標(biāo)的變量選擇方法。該方法利用自適應(yīng)重加權(quán)采樣技術(shù)和指數(shù)衰減函數(shù)優(yōu)選出每次循環(huán)所構(gòu)建的PLSR模型中回歸系數(shù)絕對(duì)值大的變量點(diǎn),并將交互驗(yàn)證選出N個(gè)PLSR子集模型中RMSECV最小的子集定義為最優(yōu)變量子集[18]。本研究中將蒙特卡洛采樣次數(shù)設(shè)置為2 000,每次運(yùn)行程序選擇的校正集和預(yù)測(cè)集樣本數(shù)比例為2∶1。光譜集Ⅰ篩選出14個(gè)特征波長,光譜集Ⅱ篩選出16個(gè)特征波長。
(3)粒子群優(yōu)化算法(Particle swarm optimization,PSO)是一種源于對(duì)鳥群捕食行為研究的進(jìn)化計(jì)算技術(shù)。在PSO中, 每個(gè)優(yōu)化問題的潛在解可看作高維空間上的一個(gè)粒子,所有粒子都擁有速度以及由目標(biāo)函數(shù)決定的適應(yīng)值,粒子們通過追隨當(dāng)前的最優(yōu)粒子在解空間中搜索[19]。本研究中粒子種群大小設(shè)置為20,迭代次數(shù)為1 000,以F=R2作為適應(yīng)度函數(shù)(其中R2表示決定系數(shù))。光譜集Ⅰ篩選出18個(gè)特征波長,光譜集Ⅱ篩選出18個(gè)特征波長。
(4)蟻群優(yōu)化(Ant colony optimization,ACO)算法是模擬螞蟻的合作和適應(yīng)機(jī)制等自然行為的一種正反饋式算法。每個(gè)螞蟻在其所經(jīng)過的路徑上會(huì)遺留一種叫做信息素的揮發(fā)性物質(zhì),螞蟻通過信息素及其強(qiáng)度的反饋機(jī)制選擇路徑,所有螞蟻找到的特定路徑便是解決目標(biāo)問題的最優(yōu)方案[20]。本研究中設(shè)置蟻群大小為30,光譜窗口為1,迭代次數(shù)為100,適應(yīng)度函數(shù)F=(1+QRMSECV)/R2(其中QRMSECV表示交叉驗(yàn)證均方根誤差)。光譜集Ⅰ篩選出18個(gè)特征波長,光譜集Ⅱ篩選出18個(gè)特征波長。
(5)模擬退火(Simulated annealing,SA)算法是一種基于固體物理退火原理而研發(fā)的隨機(jī)全局優(yōu)化算法,SA在解決組合優(yōu)化問題時(shí)先從某一模擬較高初溫開始,隨著溫度參數(shù)的不斷下降,結(jié)合Metropolis標(biāo)準(zhǔn)在解空間中隨機(jī)尋找目標(biāo)函數(shù)的全局最優(yōu)解[21]。本研究設(shè)置初始溫度T0=50℃,第k個(gè)溫度控制參數(shù)值Tk=0.96T0,終止溫度Tf=0℃,第k個(gè)馬爾可夫鏈的長度Lk=50,迭代次數(shù)為100。光譜集Ⅰ篩選出30個(gè)特征波長,光譜集Ⅱ篩選出26個(gè)特征波長。
(6)區(qū)間隨機(jī)蛙跳(Interval random frog,iRF)算法是基于隨機(jī)蛙跳算法提出的一種波長間隔選擇方法?;舅枷胧菍⒄麄€(gè)光譜按照特定寬度劃分成若干子區(qū)間,通過每個(gè)區(qū)間光譜點(diǎn)的絕對(duì)回歸系數(shù)總和來評(píng)估區(qū)間,找到最佳區(qū)間組合[22-23]。本研究參數(shù)設(shè)置如下:移動(dòng)窗口大小ω=3,初始化子集變量個(gè)數(shù)為5,最大主成分?jǐn)?shù)為10,迭代次數(shù)為500。光譜集Ⅰ篩選出10個(gè)特征波長,光譜集Ⅱ篩選出10個(gè)特征波長。
(7)遺傳算法(Genetic algorithm, GA)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計(jì)算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法[24]。本研究設(shè)置進(jìn)化代數(shù)為150,算法運(yùn)行次數(shù)30,種群大小為64,初始時(shí)平均5個(gè)波長構(gòu)成一個(gè)染色體,染色體個(gè)數(shù)為20,變異概率為1%。光譜集Ⅰ篩選出26個(gè)特征波長,光譜集Ⅱ篩選出28個(gè)特征波長。
本文應(yīng)用PLSR建立油茶籽含油率的檢測(cè)模型。PLSR是光譜分析中應(yīng)用最廣泛的化學(xué)計(jì)量方法,該方法同時(shí)將自變量和因變量數(shù)據(jù)矩陣進(jìn)行分解,把因變量信息引入到自變量數(shù)據(jù)的分解過程中,使得自變量主成分直接與樣品被測(cè)組分含量相關(guān)聯(lián)[25]。在PLSR中,確定潛變量數(shù)是保證模型性能的關(guān)鍵,本研究采用交叉驗(yàn)證法(Cross validation,CV)通過最小RMSECV確定最優(yōu)的潛變量數(shù)。
本文采用決定系數(shù)R2和RMSE作為評(píng)價(jià)PLSR模型的指標(biāo),R2越高、RMSE越低說明PLSR模型的預(yù)測(cè)性能越好。數(shù)據(jù)處理軟件包括ENVI 5.1、Matlab 2014a。
使用單一的化學(xué)計(jì)量方法很難測(cè)量樣品每個(gè)部分的化學(xué)成分,而高光譜成像的優(yōu)勢(shì)在于可以通過校準(zhǔn)模型對(duì)高光譜圖像中樣品的每個(gè)像素點(diǎn)的化學(xué)成分進(jìn)行預(yù)測(cè),從而得到整個(gè)樣品的理化成分含量分布圖[26-27]。預(yù)測(cè)值的準(zhǔn)確性主要依賴于校準(zhǔn)模型的性能,也可通過選擇特征波長減少數(shù)據(jù)冗余,獲得更好的模型結(jié)果。
由于使用3顆完整的油茶籽作為1個(gè)樣品進(jìn)行含油率測(cè)定,所以選取3顆油茶籽的表面作為每個(gè)樣品的感興趣區(qū)域(Region of interest,ROI)。光譜集Ⅰ和光譜集Ⅱ分別在936.2 nm和1 133.9 nm處設(shè)置反射率閾值為0.3,可有效提取油茶籽的高光譜信息[28]。此外光譜集Ⅰ在336.2~416.6 nm和994.9~1 092.5 nm范圍內(nèi)存在較大的噪聲,光譜集Ⅱ在874.0~1 038.3 nm和1 564.9~1 731.0 nm范圍內(nèi)存在明顯的噪聲,所以分別取416.6~994.9 nm和1 038.3~1 564.9 nm作為兩組光譜集的有效波段,原始光譜如圖1所示。
可見和近紅外波段最主要的吸收帶是由于強(qiáng)泛音和含氫鍵O—H(來自水)、C—H(來自脂肪和油)、N—H(來自蛋白質(zhì))的組合吸收而產(chǎn)生,油茶籽的光譜反射率曲線在光譜集Ⅰ和光譜集Ⅱ上存在一定的差異(圖1),這些差異可能與油茶籽的質(zhì)量屬性、表面結(jié)構(gòu)不均勻性以及表面無規(guī)律散射有關(guān)[29]。圖1a中,930 nm附近的吸收峰與C—H伸展的第三泛音有關(guān)[25]。圖1b中,在1 400 nm附近有較強(qiáng)的水吸收峰,在1 220 nm處的吸收峰與油含量相關(guān),是由脂肪組分中甲基或亞甲基基團(tuán)的C—H伸展的第一和第二泛音所致[30]。
本研究采用蒙特卡羅交叉驗(yàn)證(Monte Carlo cross-validation,MCCV)識(shí)別并剔除了7個(gè)奇異樣本。首先通過對(duì)所有油茶籽數(shù)據(jù)作交互檢驗(yàn),確定最優(yōu)主成分?jǐn)?shù),然后利用MCCV每次隨機(jī)選取67%的樣本建立PLSR模型,剩余33%的樣本用于預(yù)測(cè)。經(jīng)過5 000次蒙特卡羅采樣后,計(jì)算每個(gè)樣本預(yù)測(cè)殘差的均值和標(biāo)準(zhǔn)偏差,將具有較高的均值和標(biāo)準(zhǔn)偏差的樣本定義為奇異樣本并從總樣本中剔除[31-32]。表1是剩余的102份油茶籽樣品含油率的統(tǒng)計(jì),使用SPXY算法[33]將總樣本按照2∶1劃分為校正集和預(yù)測(cè)集。油茶籽含油率在19.17%~45.12%之間,說明樣本之間的差異性較大,有利于建立穩(wěn)定的校準(zhǔn)模型。
表1 102份油茶籽樣品含油率
原始光譜數(shù)據(jù)中,存在多種因素對(duì)數(shù)據(jù)的準(zhǔn)確性造成影響,如采集過程中光源強(qiáng)度分布不均勻、攝像頭暗電流的存在以及油茶籽自身形狀的不規(guī)則性等,因此在建模前通過預(yù)處理方法消除目標(biāo)信息和噪聲干擾。分別使用MSC(多元散射校正)、SNV(標(biāo)準(zhǔn)正態(tài)變換)、SG(Savitzky-Golay卷積平滑)、Normalize(歸一化)、Detrend(去趨勢(shì))共5種方法對(duì)原始光譜進(jìn)行預(yù)處理,并建立油茶籽含油率的PLSR預(yù)測(cè)模型,建模結(jié)果如表2、3所示。
表2 光譜集ⅠPLSR模型預(yù)測(cè)結(jié)果
表3 光譜集ⅡPLSR模型預(yù)測(cè)結(jié)果
比較各種預(yù)處理數(shù)據(jù)建立的PLSR模型,發(fā)現(xiàn)光譜集Ⅰ和光譜集Ⅱ均使用全波長原始數(shù)據(jù)建立的PLSR模型精度較高,并且光譜集Ⅱ的PLSR模型性能明顯優(yōu)于光譜集Ⅰ的模型性能。
圖2所示為7種方法對(duì)兩組光譜集篩選出的特征波長的分布情況。對(duì)于光譜集Ⅰ,使用SPA選擇的波長數(shù)量最少,使用SA選擇的波長數(shù)量最多。使用SPA和iRF選擇的波長分布在特定的區(qū)域,使用其他方法選擇的波長相對(duì)分散不連續(xù)。進(jìn)行變量篩選后,光譜集Ⅰ變量數(shù)量減少了83.5%~93.0%。對(duì)于光譜集Ⅱ,使用iRF選擇的波長數(shù)量最少,使用GA選擇的波長數(shù)量最多。使用7種方法選擇的波長均相對(duì)分散不連續(xù)。進(jìn)行變量篩選后,光譜集Ⅱ變量數(shù)量減少了91.1%~96.5%??梢园l(fā)現(xiàn)不同方法選擇的特征波長數(shù)量不同,因此確定最優(yōu)變量選擇方法顯得非常必要。
表4 光譜集Ⅰ特征波長PLSR模型預(yù)測(cè)結(jié)果
表5 光譜集Ⅱ特征波長PLSR模型預(yù)測(cè)結(jié)果
對(duì)比光譜集Ⅰ和光譜集Ⅱ經(jīng)變量選擇后建立的PLSR模型對(duì)油茶籽含油率的預(yù)測(cè)能力發(fā)現(xiàn),使用光譜集Ⅱ建立的模型性能更好,因?yàn)橛筒枳言?00~1 700 nm范圍內(nèi)呈現(xiàn)的光譜特征峰多于400~1 000 nm內(nèi)的特征峰。
由于光譜集Ⅱ的PLSR模型效果明顯優(yōu)于光譜集Ⅰ,因此使用光譜集Ⅱ的最優(yōu)校正模型(GA-PLSR)計(jì)算高光譜圖像中油茶籽每個(gè)像素點(diǎn)的含油率,再使用偽彩色圖像處理方法生成含油率的分布圖,如圖4所示。圖中可以明顯地觀察到油茶籽含油率由小到大變化,并且具有相似光譜特征的像素點(diǎn)對(duì)應(yīng)的含油率預(yù)測(cè)值近似,在圖像中以相似的顏色顯示,但該圖中最小預(yù)測(cè)值和最大預(yù)測(cè)值都超出了校正集的參考值范圍,說明存在預(yù)測(cè)誤差。此外,每個(gè)油茶籽四周邊緣處顏色鮮艷,對(duì)應(yīng)較高的含油率,推測(cè)是因?yàn)檫吘壧幹挥杏筒枳褮ざ鴽]有茶仁,從而導(dǎo)致較高的預(yù)測(cè)誤差。
該結(jié)果證明了利用高光譜成像技術(shù)實(shí)現(xiàn)油茶籽含油率含量分布可視化的可行性,對(duì)不同油茶籽含油率的快速無損評(píng)估具有重要意義。
(3)通過對(duì)比光譜集Ⅰ和光譜集Ⅱ的建模效果發(fā)現(xiàn),使用光譜集Ⅱ的原始數(shù)據(jù)或降維后的數(shù)據(jù)建立的回歸模型的精度均比光譜集Ⅰ高,因此900~1 700 nm波段更適用于油茶籽含油率的快速無損檢測(cè)。