李鋒霞,黃 勇,李 強(qiáng)
(新疆工程學(xué)院機(jī)電工程學(xué)院 烏魯木齊 830023)
新疆是瓜果之鄉(xiāng),哈密瓜因其獨(dú)特的風(fēng)味和口感,在市場上備受消費(fèi)者喜愛,幫助農(nóng)民實(shí)現(xiàn)了增收。但目前市場上對(duì)其品質(zhì)的檢測方法多為有損檢測,且檢測效率低下,造成品質(zhì)等級(jí)良莠不齊。因此,哈密瓜的品質(zhì)無損檢測尤為重要。近年來,隨著分子光譜結(jié)合化學(xué)計(jì)量學(xué)方法分析技術(shù)的飛速發(fā)展,光譜技術(shù)以非侵入式、無破壞性、速度快、可在線、結(jié)果可再現(xiàn)和重復(fù)等優(yōu)點(diǎn),被研究者用來對(duì)水果品質(zhì)進(jìn)行無損檢測技術(shù)研究[1-3]。但是,有的光譜數(shù)據(jù)在檢測過程中存在測量值和真實(shí)值差異顯著,在整體分布態(tài)勢中異常突出,嚴(yán)重影響了建模精度[4]。造成光譜數(shù)據(jù)異常的原因有很多,如在采集的過程中光譜受到環(huán)境的干擾,采集到的光譜還包含噪聲、樣品背景和散光等其他無關(guān)的信息[5]。光譜儀本身有誤差,還受誤操作、儀器異常、樣品前處理不當(dāng)、環(huán)境溫度和濕度等的影響[6]。因此,有必要在光譜建模過程中剔除上述異常樣本。目前,有學(xué)者提出了在農(nóng)產(chǎn)品品質(zhì)檢測中應(yīng)用光譜數(shù)據(jù)中異常樣本剔除方法[7-12],為建立準(zhǔn)確的檢測模型提供了切實(shí)可行的方法。但是這些方法大多數(shù)是基于單一類型指標(biāo)或者是單個(gè)異常樣本具有可靠的識(shí)別能力,而且受經(jīng)驗(yàn)閾值或建模偏差的影響,容易在建模前的剔除過程中出現(xiàn)誤判,從而影響模型的穩(wěn)定性和預(yù)測能力。這會(huì)導(dǎo)致水果部分理化指標(biāo)無損檢測和識(shí)別精度不高,嚴(yán)重阻礙了光譜技術(shù)在水果快速、無損檢測中的應(yīng)用。
筆者對(duì)高光譜檢測哈密瓜堅(jiān)實(shí)度品質(zhì)中異常光譜樣本進(jìn)行綜合分析與判別,有效地剔除異常樣本,以此建立準(zhǔn)確和穩(wěn)定的哈密瓜堅(jiān)實(shí)度預(yù)測模型,提高檢測結(jié)果精度,為哈密瓜品質(zhì)快速檢測、精準(zhǔn)分級(jí)提供有效方法,為相關(guān)領(lǐng)域研究工作提供科學(xué)依據(jù)和技術(shù)參考。
光譜圖像采用北京卓立漢光提供的高光譜成像儀(Inspector V10E-QE,芬蘭)采集,通過參數(shù)調(diào)整優(yōu)化,最終選擇光譜成像儀的波長范圍:400~1000 nm,光譜分辨率:2.8 nm,平均光照度:2870 lx,物距:60 cm,曝光時(shí)間:28 ms,采集速度:1.27 mm·s-1。
哈密瓜堅(jiān)實(shí)度指標(biāo)采用杭州托普儀器有限公司生產(chǎn)的GY-4 型手持式硬度計(jì)測量,探頭直徑選取11 mm,插入速度為5 mm·s-1,壓頭壓入深度為10 mm。
2022 年8 月在新疆農(nóng)八師121 團(tuán)場采摘哈密瓜。主要選取的品種為金密16 號(hào),屬于中早熟雜交品種,果實(shí)成熟期在42~45 d。果實(shí)長卵形,果皮黃色,果肉淺橘黃色,網(wǎng)紋密。采摘時(shí),選取成熟度一致、瓜形大小均勻的樣本,共60 個(gè)。采摘后,將樣本放置于相同的濕度和溫度條件下,24 h 之后進(jìn)行光譜采集和堅(jiān)實(shí)度測量。
試驗(yàn)時(shí)去除機(jī)械損傷、病蟲害樣本,隨機(jī)選取42 個(gè)哈密瓜樣本,并對(duì)哈密瓜樣本的3 個(gè)檢測部位[赤道(陰、陽)面、果臍(坐果結(jié))]進(jìn)行標(biāo)記,具體位置如圖1 所示,分別記為編號(hào)1-1,1-2,1-3...,樣品編號(hào)橫線前面的數(shù)字為樣品號(hào),橫線后的1、2、3為每個(gè)樣品對(duì)應(yīng)的檢測位置編號(hào)。然后,利用高光譜成像儀采集光譜,把哈密瓜放到高光譜實(shí)驗(yàn)臺(tái)上,線陣的探測器在哈密瓜表面的垂直方向作橫向掃描,掃出整個(gè)平面,獲取各個(gè)波長處的圖像信息,通過Spectral-Cube 軟件進(jìn)行光譜信息采集和保存,共采集126 個(gè)樣品光譜。光譜采集后,對(duì)哈密瓜堅(jiān)實(shí)度進(jìn)行測量,在赤道(陰、陽)面、果臍3 個(gè)光譜采集區(qū)域測定其堅(jiān)實(shí)度,每個(gè)檢測點(diǎn)測量3 次,取平均值作為該樣品的堅(jiān)實(shí)度值。表1 是哈密瓜3 個(gè)采集部位堅(jiān)實(shí)度統(tǒng)計(jì)值。
表1 哈密瓜樣本3 個(gè)采集部位堅(jiān)實(shí)度統(tǒng)計(jì)值
圖1 哈密瓜的檢測部位示意圖
為了建立穩(wěn)定和準(zhǔn)確的哈密瓜堅(jiān)實(shí)度預(yù)測模型,提高檢測結(jié)果精度,對(duì)采集的哈密瓜光譜樣本采用偏最小二乘法(PLS)建立定量分析模型,對(duì)建模過程中造成模型精度降低的異常樣本進(jìn)行研究,結(jié)合異常光譜剔除、馬氏距離法、學(xué)生化殘差T 與杠桿值法以及主成分得分法等多種方法進(jìn)行綜合分析和判別[13]。為了防止對(duì)異常樣本點(diǎn)的誤判,需要對(duì)疑似異常樣品進(jìn)行逐一回收分析后再鑒定,并根據(jù)預(yù)測模型性能的變化,最終確定需要剔除的異常樣本。
采用ENVI 4.7 軟件針對(duì)采集后的高光譜圖像數(shù)據(jù)進(jìn)行圖像數(shù)據(jù)降維、預(yù)處理。TQ Analyst 6.1 軟件對(duì)采集的試驗(yàn)數(shù)據(jù)進(jìn)行分析與建模定量、定性分析,選用偏最小二乘法(practical least squares,PLS)、主成分回歸(principal component regession,PCR)、距離匹配(distance match)、判別分析(discriminant analysis)等方法。在選定算法之后,根據(jù)軟件窗口顯示選擇相關(guān)的預(yù)處理方法進(jìn)行建模以及診斷。為了評(píng)價(jià)模型的穩(wěn)健性和準(zhǔn)確性,采用的評(píng)價(jià)指標(biāo)有相關(guān)系數(shù)(R)或決定系數(shù)(R2)、預(yù)測均方根誤差(RMSEP)和校正均方根誤差(RMSEC)。通常,在一個(gè)模型中R值越大,RMSEC、RMSEP 值越小,模型越穩(wěn)定,結(jié)果越準(zhǔn)確[14]。
偏最小二乘法(PLS)是一種多元線性分析方法,它可以實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)簡化、回歸建模以及分析多個(gè)變量之間的相關(guān)性。目前,PLS 在光譜數(shù)據(jù)建模分析中應(yīng)用最為廣泛[15-16],PLS 的建模步驟:先計(jì)算多個(gè)自變量光譜數(shù)據(jù)X及目標(biāo)分析物性質(zhì)Y之間的最大方差,在對(duì)光譜參數(shù)和數(shù)據(jù)濃度矩陣解析的過程中,剖析光譜數(shù)據(jù)和目標(biāo)分析物性質(zhì)之間的內(nèi)外部關(guān)系。
在本次分析異常樣本時(shí),對(duì)采集的哈密瓜的126 個(gè)光譜樣本采用PLS 方法建立與堅(jiān)實(shí)度的相關(guān)定量分析模型,126 個(gè)樣本都用作校正集,用相關(guān)系數(shù)R和RMSEC 作為模型性能的判別依據(jù)。結(jié)果如圖2 所示,模型相關(guān)系數(shù)為0.82、RMSEC 為3.14 N。從圖中可以看出個(gè)別樣本明顯偏離45°線,導(dǎo)致模型相關(guān)系數(shù)較低,不能很好地體現(xiàn)實(shí)際檢測的需求,因此需要對(duì)校正集樣本中混入的異常樣本進(jìn)行剔除。
圖2 哈密瓜樣本校正集結(jié)果
采集的哈密瓜赤道陽面、陰面,果臍的126 個(gè)原始光譜樣本如圖3 所示。從圖3 可以看出,采集的光譜樣本的大致走向基本一致,僅有33-3 號(hào)樣本光譜偏離了光譜走向,故將該樣本暫定為異常光譜。
圖3 哈密瓜光譜圖像
馬氏距離(Mahalanobis distance)是一種有效計(jì)算兩個(gè)未知樣本集相似度的方法,通過這種方法可以衡量一個(gè)樣本對(duì)整個(gè)校正集的影響。這種方法首先需要計(jì)算出所有參與建模的樣本平均光譜值,再計(jì)算平均光譜與各個(gè)樣本光譜之間的距離,最后設(shè)置閾值,根據(jù)閾值來檢驗(yàn)異常樣本的存在[17]。閾值的選擇可根據(jù)具體光譜數(shù)據(jù)來確定,一般情況下,閾值設(shè)定為各個(gè)樣本馬氏距離平均值的2 ~3倍,如果參與建模中的某個(gè)樣本的馬氏距離超過設(shè)定的閾值,則可判定該樣本的光譜屬于異常樣本,應(yīng)該將其從中剔除[18-19]。
對(duì)所有參與建模樣本中的光譜結(jié)果進(jìn)行分析。光譜樣本數(shù)據(jù)導(dǎo)入TQ 軟件中,系統(tǒng)自動(dòng)計(jì)算出樣本光譜的平均光譜與各個(gè)光譜間的馬氏距離,并將計(jì)算出來的馬氏距離值按照從低到高的順序依次排序,系統(tǒng)會(huì)自動(dòng)顯示一條分界線區(qū)分正常樣本與異常樣本。設(shè)置平均光譜偏差在95%閾值置信區(qū)間,圖4 為采用馬氏距離法對(duì)126 個(gè)哈密瓜樣本進(jìn)行檢驗(yàn)的結(jié)果,依據(jù)判別原則可觀察出樣本19-1 超出了閾值范圍,故暫將19-1 號(hào)樣本定為疑似異常樣本。
圖4 馬氏距離法檢驗(yàn)結(jié)果
杠桿值與學(xué)生化殘差T檢驗(yàn)法是常用判定異常樣本的方法之一,杠桿值的大小可以判斷樣本對(duì)模型精度的影響程度,學(xué)生化殘差可以判定樣本杠桿值對(duì)應(yīng)的樣本濃度預(yù)測能力大小。
對(duì)采集的哈密瓜樣本采用杠桿值與學(xué)生化殘差T 檢驗(yàn)方法進(jìn)行檢測,如果一個(gè)樣本只是杠桿值比其他樣本高,并不能斷定該樣本異常,只有杠桿值與學(xué)生化殘差均比其他樣本高時(shí),才可判定該樣本的光譜屬于異常樣本,應(yīng)予以剔除。通常,依據(jù)杠桿值和學(xué)生濃度殘差分布圖進(jìn)行分析,處于被測組分濃度和性質(zhì)均值左右的樣本應(yīng)具有較小的杠桿值,處于被測組分濃度和性質(zhì)均值兩端(高低端)的樣本應(yīng)具有較大的杠桿值[20]。圖5 是哈密瓜樣本杠桿值與學(xué)生化殘差分布圖,根據(jù)分布圖可以發(fā)現(xiàn),光譜樣本中有3 個(gè)樣本的杠桿值比其他樣本的值大,分別是35-2、35-3 和37-3,但是學(xué)生濃度殘差杠桿值并沒有顯示明顯較大的樣本,因此,暫定這3個(gè)樣本為疑似異常樣本。
圖5 哈密瓜樣本杠桿值與學(xué)生化殘差結(jié)果分布
主成分得分法是一種用來解釋多變量的方差、協(xié)方差結(jié)構(gòu)的多元統(tǒng)計(jì)分析方法,是通過對(duì)原有的多項(xiàng)指標(biāo)經(jīng)過線性組合成為少數(shù)幾項(xiàng)綜合指標(biāo)。這些綜合指標(biāo)即為主成分,通過計(jì)算綜合主成分函數(shù)得分,對(duì)檢測模型進(jìn)行科學(xué)評(píng)價(jià)。
主成分得分法直觀地反映了各個(gè)樣本在數(shù)學(xué)模型空間中的聚集、離散程度。觀察樣本的分布散點(diǎn)情況,分布點(diǎn)越聚集,則說明這些樣本中所含有成分的組成和濃度越接近;反之,樣本分布點(diǎn)越離散,說明差異越大[21]。在主成分計(jì)算中,會(huì)存在多個(gè)主成分,通常,第一主成分最為重要,之后隨之增加的主成分在樣本空間中所占權(quán)重依次降低,最后增加的主成分多是反應(yīng)噪聲信息。通常情況下,在建立模型時(shí)前面的主成分比后面的主成分更具有樣本表明性,同類樣本的主成分分布相對(duì)集中,遠(yuǎn)離集中區(qū)域的則認(rèn)為是異常樣本。本試驗(yàn)中哈密瓜樣本主成分分析中的第一、第二主成分的二維平面分布,如圖6 所示,從圖中可以看出主成分中的PC-1 的貢獻(xiàn)率為86%,PC-2 的貢獻(xiàn)率為13%,這兩個(gè)主成分的累計(jì)貢獻(xiàn)率高達(dá)99%,達(dá)到了定性分析的要求。樣本中19-1 號(hào)遠(yuǎn)離集中區(qū)域,故將該樣本暫定為疑似異常樣本。
圖6 哈密瓜樣本主成分分析中第一、第二主成分的分布
從上述4 種方法的判別結(jié)果可知,異常光譜判定33-3 號(hào)樣本異常;馬氏距離法判別19-1 號(hào)樣本異常;杠桿值與學(xué)生化殘差判別35-2、35-3 和37-3號(hào)樣本異常;主成分得分法判別19-1 號(hào)樣本異常,共5 個(gè)疑似異常樣本。通過分析4 種方法的判別原理和性質(zhì)會(huì)發(fā)現(xiàn),由于各種方法之間還存在相互影響,致使參與建模的樣本中某個(gè)或某幾個(gè)樣本會(huì)被其中一種判別方法判定為異常樣本,某些樣本會(huì)被其中多種判別方法判定為異常樣本。因此,要充分考慮到建模樣本的數(shù)量,保證模型的準(zhǔn)確性和穩(wěn)定性,應(yīng)該對(duì)疑似異常樣本進(jìn)行再鑒定,避免單一方法判別發(fā)生誤判。故對(duì)上述4 種方法判定的疑似異常樣本需要進(jìn)行逐一剔除、回收后再鑒定。
通過上述4 種異常樣本判定方法共發(fā)現(xiàn)有5 個(gè)疑似異常樣本,樣本編號(hào)分別是19-1、33-3、35-2、35-3和37-3?,F(xiàn)對(duì)這5 個(gè)疑似異常樣本進(jìn)行逐一剔除、回收分析再鑒定,結(jié)果對(duì)比分析如表2 所示。
表2 疑似異常樣品的再鑒定
由表2 可以看出,未剔除疑似5 個(gè)樣本與全部剔除相比,相關(guān)系數(shù)R由0.824 降低至0.800,模型性能并沒有隨著全部剔除5 個(gè)疑似樣本而提高,說明5 個(gè)樣本中存在誤判的可能性,因此,逐個(gè)剔除5個(gè)異常樣本與未剔除進(jìn)行對(duì)比。從結(jié)果對(duì)比分析可得,5 個(gè)疑似異常樣本不做處理時(shí)原模型的相關(guān)系數(shù)(R)=0.824,校正均方根誤差(RMSEC)=3.14 N,預(yù)測均方根誤差(RMSEP)=4.15 N,剔除35-2 號(hào)樣品時(shí)模型的R=0.817,RMSEC=3.17 N,RMSEP=4.18 N。兩者相比較:R降低了0.007,RMSEC 增加了0.03 N,模型性能下降;再逐個(gè)剔除其余4 個(gè)異常樣本模型相關(guān)系數(shù)均有穩(wěn)定提高,故可以初步判定誤判的異常樣本為35-2 號(hào)。隨后將其回收,剔除其他4 個(gè)疑似異常樣本,從結(jié)果對(duì)比發(fā)現(xiàn)模型相關(guān)系數(shù)R提高至0.850,RMSEC 降低至2.72 N,RMSEP 降低至3.30 N,模型的穩(wěn)定性提高。綜上所述,可以判定5 個(gè)疑似異常樣本中35-2 號(hào)為誤判樣本,應(yīng)將其回收,其余19-1 號(hào)、33-3 號(hào)、35-3 號(hào)和37-3號(hào)4 個(gè)樣本作為確定的異常樣本剔除。
在高光譜對(duì)哈密瓜光譜采集過程中,主觀或客觀因素導(dǎo)致參與建模樣本中可能會(huì)出現(xiàn)異常數(shù)據(jù),使模型預(yù)測結(jié)果可靠性降低,因此有必要在高光譜建模過程中剔除異常樣本。目前關(guān)于異常樣本的識(shí)別和剔除的相關(guān)研究并不多。張靈帥等[6]利用主成分分析-馬氏距離聚類判別近紅外光譜中卷煙的真?zhèn)?;林海軍等[22]使用馬氏距離法識(shí)別荒漠樹種;吳兆娜等[23]利用馬氏距離、杠桿值-光譜殘差法與基于強(qiáng)影響度算法分別對(duì)煙堿中的異常樣本進(jìn)行剔除;石魯珍等[24]利用馬氏距離與濃度殘差剔除近紅外檢測灰棗中的異常樣本。以上幾種方法對(duì)剔除異常樣本都具有一定的作用。但是,馬氏距離法對(duì)光譜數(shù)據(jù)進(jìn)行計(jì)算而不需要樣本的化學(xué)值,剔除的可能是人為誤差造成光譜存在異常的樣本[25];濃度殘差和杠桿值計(jì)算單個(gè)樣本預(yù)測不確定性;主成分分析中,判定異常樣本的操作往往需借助經(jīng)驗(yàn)。而且上述方法對(duì)復(fù)雜樣本或是樣本集中存在多個(gè)異常樣本時(shí)剔除不夠全面,甚至?xí)斐赡P偷氖д?,從而降低了模型的泛化能力及?zhǔn)確度。因此,在異常建模樣本判別中,應(yīng)結(jié)合光譜數(shù)據(jù)的規(guī)律特點(diǎn),采用多種方法準(zhǔn)確識(shí)別和剔除異常樣本。
基于此,筆者通過對(duì)采集的哈密瓜光譜樣本采用偏最小二乘法(PLS)建立模型,結(jié)合異常光譜剔除、馬氏距離法、杠桿值與學(xué)生化殘差T 檢驗(yàn)法及主成分得分法等多種方法進(jìn)行綜合分析判別,初步判定參與建模的樣本中有5 個(gè)疑似異常樣本,從異常樣本判別結(jié)果看,各方法對(duì)異常建模樣品的判別均有效果,單一方法未能可靠判別出全部異常樣本。因此需要對(duì)這5 個(gè)疑似異常樣本進(jìn)行逐一的剔除與回收對(duì)比分析,觀察模型性能參數(shù)的變化,最終確定異常樣本并剔除。結(jié)果表明,綜合分析方法對(duì)高光譜PLS 模型中異常樣本具有較強(qiáng)的識(shí)別能力,提高了哈密瓜堅(jiān)實(shí)度檢測模型的穩(wěn)定性和準(zhǔn)確性。該方法不僅有助于哈密瓜的科學(xué)管理、精準(zhǔn)采收和實(shí)現(xiàn)精準(zhǔn)快速分級(jí),也可提高哈密瓜的經(jīng)濟(jì)效益,為新疆哈密瓜產(chǎn)業(yè)發(fā)展提供了技術(shù)支撐。