王 杰
(吉林建筑科技學(xué)院,吉林 長(zhǎng)春 130000)
中國(guó)是油桃生產(chǎn)出口大國(guó)。油桃的種植、采摘與運(yùn)輸對(duì)產(chǎn)品質(zhì)量的影響明顯,而油桃的價(jià)格與其品質(zhì)和口味密不可分[1]。甜度、口感等的量化分析是優(yōu)選油桃的重要依據(jù)。通過(guò)光譜分析對(duì)油桃的糖含量、酸度值等的無(wú)損檢測(cè)成為研究熱點(diǎn)。
為了提高系統(tǒng)工作的實(shí)用性,常常采用可見(jiàn)光或近紅外光譜對(duì)果肉化學(xué)成分進(jìn)行無(wú)損檢測(cè)[2]。Li等[3]對(duì)梨的果肉進(jìn)行了光譜分析,完成了梨果肉的固形物含量、pH值和硬度的定量分析。Li等[4]將模式識(shí)別技術(shù)應(yīng)用于柚子種類(lèi)分析,相比傳統(tǒng)的圖像識(shí)別而言,采用光譜分析的種類(lèi)識(shí)別概率提高了近1倍。Lee等[5]將近紅外光譜測(cè)試用于獼猴桃,完成了對(duì)磕碰獼猴挑的快速分揀。苗榮慧等[6]利用光譜與可視化圖像相結(jié)合,對(duì)3種不同類(lèi)型油桃進(jìn)行鑒別,識(shí)別率可達(dá)到94.7%,具有很好的分類(lèi)效果。武錦龍等[7]利用人工神經(jīng)網(wǎng)絡(luò)算法對(duì)油桃表面的輕微損傷進(jìn)行定量分析,提高了油桃品質(zhì),其算法主要針對(duì)可見(jiàn)光二維圖像進(jìn)行分類(lèi)計(jì)算。由此可見(jiàn),通過(guò)光譜、圖像分析等方法對(duì)水果分類(lèi)、狀態(tài)檢測(cè)的研究很多,但大部分文獻(xiàn)研究重點(diǎn)集中在分類(lèi)、磕碰損傷等方面,對(duì)于不同品種的甜度及口感分析較少。
研究擬解決相似品種油桃的無(wú)損檢測(cè),以期在大量樣本快速檢測(cè)與識(shí)別過(guò)程中降低分類(lèi)誤差,從而實(shí)現(xiàn)不同品質(zhì)油桃快速自動(dòng)化分揀的目的。
設(shè)置光譜振幅峰值、強(qiáng)度對(duì)比值、特征光譜譜段寬度等幾個(gè)特征參數(shù)用于描述油桃的反射光譜的分布數(shù)據(jù)。為準(zhǔn)確獲取目標(biāo)的光譜強(qiáng)度分布,對(duì)測(cè)試光信號(hào)進(jìn)行標(biāo)定,并測(cè)量對(duì)比用的白光光源。設(shè)任意樣品i的光譜反射均值為Si;有白光光源無(wú)測(cè)試目標(biāo)時(shí),獲取的光譜分布為Swhite;設(shè)當(dāng)關(guān)閉光源并遮蔽光譜測(cè)試探頭時(shí)獲取的光譜分布為Sdark。則相對(duì)反射率為R有
(1)
模型中測(cè)試目標(biāo)油桃的溫度需要在測(cè)試環(huán)境中靜置至與室溫相同。其中樣品上每個(gè)測(cè)試點(diǎn)為n,共計(jì)取N個(gè)點(diǎn),然后計(jì)算平均光譜得到的。
采用CIELAB色彩空間[8]對(duì)獲取的光譜數(shù)據(jù)進(jìn)行計(jì)算,通過(guò)光譜儀可以測(cè)量得到目標(biāo)明度值為L(zhǎng)*,則其色度值C*和色調(diào)值h*可以表示為
(2)
式中:
C*——目標(biāo)色度值;
h*——目標(biāo)色調(diào)值;
a*——測(cè)試光譜中紅/綠的強(qiáng)度值;
b*——測(cè)試光譜中黃/藍(lán)的強(qiáng)度值。
不同樣品間的總色差[9]可以表示為
(3)
根據(jù)式(3)可以看出,對(duì)于不同的兩種類(lèi)型,可以通過(guò)獲取其光譜分布完成對(duì)色差及光譜譜形的對(duì)比分析。當(dāng)特征波長(zhǎng)選擇可見(jiàn)光和紅外光中的幾個(gè)特征位置時(shí),不僅可以得到對(duì)油桃樣品種類(lèi)的區(qū)分信息,還可以利用特征譜線(xiàn)位置分析其品質(zhì)。
為了同時(shí)獲取可見(jiàn)光與近紅外的光譜分布,一方面保證光譜檢測(cè)精度,采集特征波長(zhǎng)位置上更精細(xì)的強(qiáng)度信號(hào),另一方面,提高系統(tǒng)處理速度。系統(tǒng)采用了多通道數(shù)據(jù)采集的方式,并且在不同的光譜段采用不同的光譜分辨率。分辨率的選定由樣品在對(duì)應(yīng)區(qū)域上特征譜線(xiàn)的間距、峰谷值及比例值決定。在可見(jiàn)光380~650 nm波段,雖然吸光度值較高,但相近品種之間的比例值較低,而占比范圍相對(duì)寬,故適合采用分辨率低但覆蓋范圍寬的光譜采集形式,故設(shè)置光譜分辨率為10.0 nm,而在近紅外650~1 600 nm波段的比例值較高,有幾個(gè)明顯的特征吸收峰,所以采用窄光譜更合適,故采用1.0 nm,從而在樣品特征光譜位置上獲得更好的細(xì)分效果。系統(tǒng)結(jié)構(gòu)如圖1所示。
由圖1可知,系統(tǒng)除了數(shù)據(jù)處理模塊之外主要分三大部分,分別是光譜分區(qū)采集模塊、對(duì)比單元以及特征參數(shù)模塊。光譜分區(qū)采集模塊主要包括可見(jiàn)光通道及近紅外光通道,可見(jiàn)光通道由數(shù)據(jù)采集卡、CM-25D分光儀、準(zhǔn)直透鏡組以及可見(jiàn)光濾光片組成,近紅外光通道由數(shù)據(jù)采集卡、FT-NIR分光儀、準(zhǔn)直透鏡組以及近紅外光濾光片組成。用于實(shí)現(xiàn)光譜分區(qū)采集,其特點(diǎn)是可以根據(jù)光譜特征位置而調(diào)節(jié)系統(tǒng)采樣精度與分區(qū)位置;對(duì)比單元由參考白光與探測(cè)器構(gòu)成,用于為照射樣品的光源進(jìn)行定標(biāo),測(cè)試得到背景光譜的輻射強(qiáng)度與光譜分布特征;特征參數(shù)模塊包括特征數(shù)據(jù)庫(kù)和分析算法,特征數(shù)據(jù)庫(kù)中包含了所有類(lèi)型油桃的光譜分布及其特征波長(zhǎng)位置與吸光值,分析算法是用于完成分類(lèi)、品質(zhì)分析的數(shù)據(jù)模型。檢測(cè)平臺(tái)采用旋轉(zhuǎn)結(jié)構(gòu),目的是采集目標(biāo)多個(gè)位置的光譜數(shù)據(jù)進(jìn)行平均,得到樣品的平均光譜分布,提高品質(zhì)分析的準(zhǔn)確性。
圖1 油桃種類(lèi)及品質(zhì)檢測(cè)系統(tǒng)示意圖Figure 1 Schematic diagram of nectarine types and quality inspection system
為了同時(shí)獲取可見(jiàn)光與近紅外的光譜分布,提高光譜分辨精度及降低特征光譜之間的干擾,采用多通道分區(qū)獲取的方式。由CM-25D型分光儀完成可見(jiàn)光光譜采集,由FT-NIR光譜儀完成近紅外光譜采集,將分區(qū)光譜數(shù)據(jù)導(dǎo)入數(shù)據(jù)處理模塊后利用光譜歸一化[10-11](用其每一個(gè)變量除以其相應(yīng)的標(biāo)準(zhǔn)差),從而統(tǒng)一至同一范圍區(qū)間。在此基礎(chǔ)上,對(duì)光譜數(shù)據(jù)進(jìn)行平滑處理,用以消除雜散噪聲。
將每種樣品的平均光譜曲線(xiàn)構(gòu)建成矩陣,則形成4個(gè)表征對(duì)應(yīng)油桃種類(lèi)的矩陣,通過(guò)主成分分析提取光譜數(shù)據(jù)中的主要特征信息,再采用偏最小二乘[12](PLS)完成4個(gè)光譜數(shù)據(jù)的回歸模型。與此同時(shí),定義樣品的品質(zhì)參數(shù)[13](QP)為
(4)
式中:
PQ——樣品的品質(zhì)參數(shù);
fmax——油桃撕裂強(qiáng)度,N;
CSS——可溶性固體含量,oBx;
L*——目標(biāo)明度值;
h*——目標(biāo)色調(diào)值;
C*——目標(biāo)色度值。
試驗(yàn)測(cè)試中,以樣本集測(cè)試均值代入式(4),fmax為0.487 kN,SSC為3.19oBx,系數(shù)L*為27.2,系數(shù)h*為42.1,系數(shù)C*為0.45。代入后,QP的均值為12.4,范圍為11.2~13.6。
測(cè)試樣品為瑞光5號(hào)(A)、金山早紅(B)、世紀(jì)之星2號(hào)(C)和中油桃4號(hào)(D)4種油桃。每個(gè)品種選20個(gè)大小相近的樣品,每5個(gè)樣品通過(guò)平均計(jì)算獲得一條光譜曲線(xiàn)。最終,通過(guò)在Unscrambler軟件中將光譜以吸光度值進(jìn)行表達(dá),結(jié)果如圖2所示。
由圖2可知,4種樣品的譜形趨勢(shì)是相近的,但不同種類(lèi)之間仍存在一些明顯差異。對(duì)于A(yíng)類(lèi)而言,在400~500 nm的吸光度均值相比其他3種高,而在750~1 100 nm 的低吸光度平滑段,其吸光度均值要明顯低于其他類(lèi)型;對(duì)于B類(lèi)而言,在543 nm附近的第1個(gè)弱吸收峰谷位置上,吸光度均值達(dá)0.413,具有較好的特征性,而同時(shí),在1 432 nm的強(qiáng)吸收峰峰位置上也存在吸光度均值偏弱的現(xiàn)象,而在750~1 100 nm的低吸光度平滑段中其吸光度均值較高;對(duì)于C類(lèi)而言,在400~483 nm的吸光度均值較其他3種類(lèi)型最低,而在665 nm附近的第2個(gè)弱吸收峰峰位置上,吸光度均值達(dá)0.238,具有較好的識(shí)別性;對(duì)于D類(lèi)而言,其第3個(gè)弱吸收峰谷位置的中心波長(zhǎng)與其他3個(gè)存在明顯差異,其均值中心波長(zhǎng)為1 268 nm,而其他3個(gè)的中心波長(zhǎng)均介于1 282~1 296 nm,同時(shí),在1 412 nm的強(qiáng)吸收峰峰位置上,其吸光度均值達(dá)0.795,明顯高于其他3種。分析完光譜數(shù)據(jù)中吸光度的特性后,還需要對(duì)比例值進(jìn)行分析,因?yàn)閱渭円揽课舛冉^對(duì)值的分析是不準(zhǔn)確的,例如測(cè)試樣本中存在雜質(zhì)、濃度不均勻等問(wèn)題。所以試驗(yàn)還引入了比例值的對(duì)比,將不同品種的相應(yīng)特征位置或譜段的吸光度比值作為第2特征參量可以有效抑制單純通過(guò)吸光度解算的干擾,系統(tǒng)中兩種權(quán)重的比例采用1∶1。由此可見(jiàn),特征波長(zhǎng)位置的選取只要能夠覆蓋對(duì)應(yīng)種類(lèi)的特征位置就能夠有效地將其識(shí)別。對(duì)應(yīng)區(qū)分度差或者單組數(shù)據(jù)混疊程度較高時(shí),可以采用多個(gè)特征位置并設(shè)置合適的權(quán)重系數(shù)完成分析,該方法同樣適用于樣品品質(zhì)、糖度等參數(shù)的分析。
圖2 4種油桃的可見(jiàn)光與近紅外光的原始光譜分布Figure 2 The original spectral distribution of visible and near-infrared light of four nectarines
綜上所述,不同類(lèi)型油桃樣本的光譜數(shù)據(jù)具有各自的特性,而對(duì)其特性分布的分析也是選定特征光譜位置及參考權(quán)重的重要依據(jù),也是樣品種類(lèi)、品質(zhì)區(qū)分程度的重要標(biāo)準(zhǔn)?;跍y(cè)試結(jié)果中不同樣品光譜分布的特性,特征譜段分別設(shè)置為400~430,530~560,670~700,1 030~1 060,1 260~1 290,1 410~1 440 nm。
將3.2中的特征譜段區(qū)域作為數(shù)據(jù)分類(lèi)計(jì)算譜段,在保證種類(lèi)與品質(zhì)可求解的前提下,選取貢獻(xiàn)程度高的特征波長(zhǎng)位置,并在相應(yīng)波長(zhǎng)位置上以均值之差最大的兩組樣本進(jìn)行比例計(jì)算,從而得到兩個(gè)主成分的參數(shù)比。數(shù)據(jù)分析過(guò)程中,算法的預(yù)測(cè)樣本與驗(yàn)證樣本比例為2∶1,即建模樣本數(shù)為200個(gè)(4品種,每個(gè)品種50個(gè)樣果),由此完成種類(lèi)與品質(zhì)的分類(lèi)。每個(gè)樣品存在兩個(gè)特征區(qū)域,它們的對(duì)應(yīng)關(guān)系有:① A和B的主成分分離采用450 nm 和950 nm位置的比例系數(shù);② B和C的主成分分離采用536 nm和671 nm位置的比例系數(shù);③ C和D的主成分分離采用671 nm和1 411 nm位置的比例系數(shù);④ D和A的主成分分離采用450 nm和1 411 nm位置的比例系數(shù)。當(dāng)采用吸光度值與比例值作為主成分的兩個(gè)衡量參數(shù)(PC1和PC2,各50%),則4種分類(lèi)時(shí)的主成分樣本映射如圖3所示。吸光度值(PC1)是對(duì)光譜曲線(xiàn)中振幅量絕對(duì)值的描述,體現(xiàn)了獲得的能量,但由于在整個(gè)光譜段上,4種樣品的光譜均存在混疊的問(wèn)題,故采用了比例值(PC2)作為對(duì)比參數(shù),即在滿(mǎn)足吸光度振幅范圍的同時(shí)符合兩個(gè)樣品振幅比值范圍的才能夠判定其類(lèi)型與品質(zhì)屬性。為了提高識(shí)別概率每個(gè)樣品分別選取了對(duì)應(yīng)兩種主成分的特征波長(zhǎng),所以在主成分分布圖中均呈現(xiàn)兩個(gè)區(qū)域。
由圖3可以看出,AB分類(lèi)時(shí),雖然在450 nm位置具有較強(qiáng)吸光度值,但是其比例值并不高,與CD、DA相近,而在950 nm位置上,雖然吸光度較弱,但比例值明顯高于其他的組合方式,故增大PC2權(quán)重占比有利于區(qū)分AB的類(lèi)別與品質(zhì)參數(shù);BC分類(lèi)時(shí),在536 nm位置的振幅值具有較為明顯的可分性,而671 nm處與CD的計(jì)算效果相近,容易造成干擾,并且其分布重合度高,將PC1權(quán)重提高有利于區(qū)分BC的類(lèi)別與品質(zhì)參數(shù);CD分類(lèi)時(shí),相比AB和BC更為復(fù)雜,由于400~430 nm和1 030~1 060 nm 兩個(gè)波段位置均存在與另一種樣品組混疊的可能,故需要同時(shí)符合兩個(gè)特征的數(shù)據(jù)才能滿(mǎn)足要求,即PC1和PC2的權(quán)重相近更合適;DA分類(lèi)時(shí),由于其比例值均較低,僅1 411 nm波段的振幅值較高,故采用PC1權(quán)重大于PC2更合適,同時(shí),采用PC2并不是求解DA的PC2值,而是用于對(duì)比AB的PC2,從而在滿(mǎn)足PC1符合條件且PC2很小時(shí),判定為DA組合。至此,將所有的情況分析完后就能夠?qū)崿F(xiàn)基于特征波長(zhǎng)位置主成分分析的方法對(duì)樣品種類(lèi)及品質(zhì)參數(shù)的定量分離。
圖3 4種油桃的測(cè)試點(diǎn)主成分分布圖Figure 3 Principal component distribution diagram of test points for four nectarines
根據(jù)主成分分析方法,結(jié)合樣品測(cè)試獲得的光譜數(shù)據(jù),將權(quán)值分配引入偏最小二乘算法中,即偏最小二乘權(quán)值分析法[14](PLSWA),并與常用的線(xiàn)性比例分析算法[15](LRA)進(jìn)行了比較,結(jié)果如表1所示。
由表1可知,譜段選擇對(duì)分類(lèi)識(shí)別概率具有明顯的影響,當(dāng)不區(qū)分特征譜段時(shí),全譜段的均值效果會(huì)造成樣品特征信噪比降低,從而導(dǎo)致樣品種類(lèi)識(shí)別概率降低。采用特征譜段或特征波長(zhǎng)的PLSWA計(jì)算結(jié)果,4種樣品的種類(lèi)識(shí)別率均值為96.7%,歸一化品質(zhì)系數(shù)為0.892,而LRA的僅為79.1%,歸一化品質(zhì)系數(shù)為0.803。由此可見(jiàn),采用該算法對(duì)分類(lèi)識(shí)別效果和品質(zhì)系數(shù)測(cè)定都具有更高的準(zhǔn)確性,即可以通過(guò)運(yùn)算結(jié)果完成油桃類(lèi)型和品質(zhì)的分類(lèi)。同時(shí),采用特征分區(qū)的方式不但降低了光譜數(shù)據(jù)處理總量,減少了處理時(shí)間,還變相提高了信號(hào)權(quán)重,從而使其識(shí)別概率與歸一化品質(zhì)系數(shù)都得到了一定的提升。
表1 不同譜段選擇及不同算法條件下的識(shí)別概率與品質(zhì)分析?Table 1 Recognition probability and quality analysis by different spectrum and algorithms
針對(duì)相近品種之間光譜圖像識(shí)別率低的問(wèn)題,搭建了可見(jiàn)光與近紅外光獨(dú)立通道光譜圖像采集系統(tǒng),并設(shè)計(jì)了基于吸光度值與吸光度比值作為判別因子的最小二乘權(quán)值分析法。試驗(yàn)針對(duì)4種油桃進(jìn)行種類(lèi)及品質(zhì)因子分類(lèi)測(cè)試,結(jié)果表明采用兩個(gè)特征主成分調(diào)控的分類(lèi)算法比僅依據(jù)原始光譜數(shù)據(jù)的線(xiàn)性數(shù)據(jù)分類(lèi)的效果要好,分類(lèi)識(shí)別概率與品質(zhì)系數(shù)都更高??梢?jiàn),該系統(tǒng)及其對(duì)應(yīng)算法在諸如水果等相近樣品的種類(lèi)識(shí)別與品質(zhì)分析方面具有更好的應(yīng)用前景。