殷 勇 王光輝
(河南科技大學(xué)食品與生物工程學(xué)院,河南 洛陽(yáng) 471023)
玉米(Zea maysL.)作為我國(guó)重要的糧食作物,其安全問題關(guān)系國(guó)計(jì)民生。新鮮玉米由于含水量高、所帶菌量較多,極易在高溫高濕條件下霉變,其中黃曲霉毒素B1是玉米霉變過程中產(chǎn)生的代表性毒素,被誤食則會(huì)在機(jī)體內(nèi)過氧化酶的代謝作用下導(dǎo)致肝臟細(xì)胞病變、膽囊增生以及出血性壞死等癥狀,更嚴(yán)重的可能會(huì)導(dǎo)致肝癌甚至死亡[1]。因此,霉變玉米的快速檢測(cè)十分必要,而目前常規(guī)的霉變玉米檢測(cè)方法操作復(fù)雜且需要破壞玉米樣本,難以達(dá)到快速、無(wú)損檢測(cè)的目的。
高光譜技術(shù)融合了圖像信息與光譜信息,使之成為了無(wú)損檢測(cè)技術(shù)領(lǐng)域的研究熱點(diǎn)之一[1-3]。由于光譜信息能檢測(cè)農(nóng)產(chǎn)品物理結(jié)構(gòu)、化學(xué)組成,而圖像信息能反映農(nóng)產(chǎn)品的物理特征及表面缺陷、污染情況,所以高光譜技術(shù)在農(nóng)副產(chǎn)品品質(zhì)檢測(cè)中的應(yīng)用研究倍受關(guān)注。但高光譜數(shù)據(jù)中波段數(shù)多,信息量大,信息冗余度高,使之在農(nóng)副產(chǎn)品的分類、識(shí)別應(yīng)用中存在較大的困難[4-7]。因此,減少數(shù)據(jù)量,提取待檢對(duì)象的特征波長(zhǎng)尤為必要。目前,特征波長(zhǎng)提取方法有相關(guān)系數(shù)法、載荷值法、回歸系數(shù)法等[8],但這些方法通常根據(jù)主觀經(jīng)驗(yàn)選取閾值,缺乏有效的閾值選擇標(biāo)準(zhǔn)[9-10]。此外,特征波長(zhǎng)主要利用光譜信息進(jìn)行選擇,這樣可能使所獲得的特征波長(zhǎng)不能真正表征待測(cè)對(duì)象,所構(gòu)建的鑒別模型穩(wěn)健性也不高。農(nóng)產(chǎn)品檢測(cè)中針對(duì)高光譜有關(guān)特征波長(zhǎng)的選擇方法主要為統(tǒng)計(jì)分析法。褚璇等[11]利用高光譜技術(shù)檢測(cè)玉米顆粒表面黃曲霉毒素,引入Fisher 判別最小誤判率的方法從原始波段中選取4 個(gè)波段,構(gòu)建的判別模型訓(xùn)練集和驗(yàn)證集準(zhǔn)確率分別為87.4%和80.9%,模型準(zhǔn)確率并不理想;袁瑩等[12]利用高光譜成像技術(shù)中的光譜信息檢測(cè)玉米籽粒表面的黃曲霉毒素,用主成分分析法(principal component analysis,PCA)對(duì)玉米籽粒進(jìn)行光譜數(shù)據(jù)降維,從原始波段中提取14 個(gè)波段作為玉米籽粒的光譜特征波段,借助Fisher 因子判別分析(fisher discriminant analysis,FDA)對(duì)樣品進(jìn)行分類,但準(zhǔn)確率不高;Huang 等[13]運(yùn)用高光譜成像技術(shù)采用回歸系數(shù)法從扇貝的平均光譜值中選取8 個(gè)波長(zhǎng),將全波段和選定波長(zhǎng)的光譜作為獨(dú)立變量進(jìn)行建模,結(jié)果顯示,基于8 個(gè)特征波長(zhǎng)下構(gòu)建的偏最小二乘回歸模型效果最佳。Rajkumar 等[14]采用偏最小二乘法提取高光譜特征波長(zhǎng),實(shí)現(xiàn)了對(duì)香蕉品種和成熟期較好的預(yù)測(cè)。綜合國(guó)內(nèi)外研究,高光譜在農(nóng)產(chǎn)品檢測(cè)中有關(guān)特征波長(zhǎng)的選擇方法較多,但結(jié)果均不理想,且融合圖像和光譜信息來(lái)選擇特征波長(zhǎng)的研究尚鮮見報(bào)道。因此,針對(duì)6 種不同霉變等級(jí)的玉米,為獲取有利于霉變等級(jí)鑒別的高光譜特征波長(zhǎng),基于光譜信息和圖像信息,本研究提出了一種連續(xù)投影算法(successive projections algorithm,SPA)融合信息熵理論的特征波長(zhǎng)選擇方法,以期為霉變玉米快速無(wú)損分級(jí)提供一種新方法。
新鮮玉米(中單909)購(gòu)自洛陽(yáng)市中原農(nóng)貿(mào)城,不同霉變等級(jí)的玉米樣品由農(nóng)產(chǎn)品加工實(shí)驗(yàn)室培育得到。新鮮玉米含水量較高,在自然條件下玉米本身會(huì)攜帶多種真菌和細(xì)菌,當(dāng)濕度大于85%、溫度高于25℃時(shí),霉菌就會(huì)迅速生長(zhǎng)并產(chǎn)生有毒代謝產(chǎn)物。因此,可創(chuàng)造溫、濕度條件用培養(yǎng)箱制備出霉變玉米。參考文獻(xiàn)[15]制備霉變玉米樣本,設(shè)定培養(yǎng)箱溫度30℃、相對(duì)濕度85%作為制備霉變玉米樣本的培養(yǎng)條件,并選取經(jīng)過培養(yǎng)0、2、4、6、8、10 d 的樣本作為6 個(gè)霉變等級(jí)樣本,分別標(biāo)記為A1、A2、A3、A4、A5 和A6。為了驗(yàn)證霉變玉米等級(jí)劃分的合理性,按照GB 5009.22-2016[16]的方法檢測(cè)新鮮玉米和霉變玉米樣本中黃曲霉毒素B1含量。每個(gè)等級(jí)的樣品作3 次平行,取平均值。由表1 可知,隨著培養(yǎng)時(shí)間的延長(zhǎng),黃曲霉毒素B1含量逐漸增多,充分說明用培養(yǎng)時(shí)間來(lái)表征玉米霉變等級(jí)是合適的。每個(gè)霉變等級(jí)玉米制備50 個(gè)樣本,共制備試驗(yàn)樣本50×6=300 個(gè),每個(gè)樣本含量50±0.5 g。
表1 不同等級(jí)霉變玉米黃曲霉毒素B1 含量Table 1 Aflatoxin B1 concent in different grades of moldy maize
高光譜數(shù)據(jù)采集系統(tǒng)主要由IST50-3810 高光譜成像儀(Inno-Spec,德國(guó))、計(jì)算機(jī)、4 個(gè)500 W 的光纖鹵素?zé)?ESYLUX 90000420108,德國(guó))和傳送裝置組成。圖1 為高光譜采集系統(tǒng)示意圖:高光譜成像儀通過USB 2.0 接口數(shù)據(jù)線連接計(jì)算機(jī),由SICap-STVR V1.0.x 軟件平臺(tái)驅(qū)動(dòng)控制成像儀,并及時(shí)記錄和存貯高光譜數(shù)據(jù)。高光譜儀的光譜范圍為371.05 ~1 023.82 nm,光譜分辨率為2.8 nm。
圖1 高光譜數(shù)據(jù)采集系統(tǒng)Fig.1 Hyperspectral image acquisition system
霉變玉米高光譜信息采集時(shí),取1 個(gè)待測(cè)霉變玉米樣本均勻平鋪在規(guī)格為?10 cm×1 cm 的培養(yǎng)皿中,然后將培養(yǎng)皿放置在傳送帶上,傳送帶速度為2 mm·s-1,采樣波長(zhǎng)間隔設(shè)為0.51 nm,高光譜攝像頭的圖像分辨率定為760×1 032,共采集1 288 個(gè)波段下的光譜反射值和對(duì)應(yīng)的圖像信息。圖2 為6 個(gè)等級(jí)的霉變玉米在720 nm 波長(zhǎng)下的高光譜圖像。數(shù)據(jù)處理在ENVI4.7 和MatlabR2014a 平臺(tái)上完成。由圖2 可知,A1、A2、A3、A4 等級(jí)玉米樣品霉變程度不明顯,A5 和A6 等級(jí)玉米樣品霉變程度變化明顯。
高光譜圖像采集過程中,采樣背景和相機(jī)暗電流的存在會(huì)影響高光譜圖像的質(zhì)量,進(jìn)而影響高光譜圖像定性或定量分析模型的精度和穩(wěn)定性[17],因此,需要對(duì)所獲得的高光譜圖像進(jìn)行黑白標(biāo)定。在與樣品相同的采集條件下,掃描標(biāo)準(zhǔn)白色矯正板得到全白的標(biāo)定圖像,關(guān)閉高光譜相機(jī)光圈進(jìn)行圖像采集得到全黑標(biāo)定圖像,將采集得到的樣本圖像進(jìn)行標(biāo)定,得到標(biāo)定后的高光譜圖像和光譜信息。標(biāo)定公式如下:
式中,W 表示全白標(biāo)定圖像;K 表示全黑標(biāo)定圖像;L 表示采集得到的樣本圖像。
圖像采集時(shí),樣品表面凹凸不平,以及采集時(shí)的雜散光等無(wú)用信息產(chǎn)生的散射會(huì)干擾原始光譜數(shù)據(jù),因此,需要對(duì)原始光譜進(jìn)行預(yù)處理,以盡可能減少這些無(wú)用信息對(duì)光譜數(shù)據(jù)的影響,提高圖譜信息與樣品內(nèi)部化學(xué)成分之間的相關(guān)性,進(jìn)而提高模型準(zhǔn)確度[18]。本研究采用多元散射校正(multiplicative scatter correction,MSC)[19]對(duì)原始光譜進(jìn)行預(yù)處理。
圖2 720 nm 波長(zhǎng)下不同等級(jí)霉變玉米的高光譜圖像Fig.2 Hyperspectral image of different grades of moldy maize at 720 nm wavelength
SPA 不僅能夠?qū)⒉ㄩL(zhǎng)變量間的共線性消除,還能夠有效地避免信息重疊,用較少的信息量代表多數(shù)樣本的光譜信息,已被廣泛應(yīng)用于提取特征波長(zhǎng)[20-23]。SPA 的具體運(yùn)算步驟參考文獻(xiàn)[24],最小交互驗(yàn)證均方根誤差(root mean square error,RMSE)對(duì)應(yīng)的波長(zhǎng)變量個(gè)數(shù)即為最終的選擇結(jié)果。
信息熵是一個(gè)信源所包含信息量多少的度量,包括自信息熵和互信息熵。樣本在某一波長(zhǎng)下的自信息熵越大,說明該波長(zhǎng)越能刻畫樣本[25];而某2 個(gè)波長(zhǎng)下的互信息熵越小,說明它們之間的關(guān)聯(lián)性小,越有利于區(qū)分它們所表征的樣本?;谶@一思想,將自信息熵和互信息熵概念引入到不同等級(jí)霉變玉米高光譜的判別中。對(duì)灰度圖像來(lái)說,具有不同灰度值的像素在圖像中隨機(jī)出現(xiàn)的概率是相互獨(dú)立的,因此,可將圖像灰度看作是一個(gè)隨機(jī)變量,進(jìn)而計(jì)算出樣本圖像中每級(jí)灰度的概率分布密度:
式中,hi為一個(gè)圖像中灰度值為i的像素點(diǎn)的總數(shù);n為一個(gè)圖像中的像素總和。
在式(2)基礎(chǔ)上,圖像M的自信息熵H(M)可表示為:
式中,灰度值i從0~255 共256 個(gè)等級(jí)。
對(duì)任意兩幅圖像M和N,其聯(lián)合熵H(M,N)可表示為:
式中,PMN(i,j)為圖像M和N灰度的聯(lián)合概率分布。
圖像M和圖像N的互信息熵I(M,N)為:
進(jìn)而可提出任意2 個(gè)霉變等級(jí)下玉米樣本間的可分性判據(jù)A,其計(jì)算公式為:
當(dāng)2 個(gè)等級(jí)霉變玉米樣本高光譜圖像之間的互信息熵越小、自信息熵越大時(shí),則A值越小,越有利于樣本的分級(jí);反之則不利于分級(jí)。由此,在式(6)計(jì)算的基礎(chǔ)上,可進(jìn)行最佳特征波長(zhǎng)的選擇:
第1 步:運(yùn)用SPA 進(jìn)行特征波長(zhǎng)初選,獲得若干個(gè)初選波長(zhǎng);
第2 步:根據(jù)公式(3)計(jì)算所有初選波長(zhǎng)下每個(gè)霉變等級(jí)玉米樣本(50 個(gè)樣本)高光譜圖像的平均自信息熵;
第3 步:任選2 個(gè)霉變等級(jí)組合(6 個(gè)等級(jí)共15個(gè)組合),根據(jù)公式(4)和(5)分別計(jì)算每個(gè)組合在初選波長(zhǎng)下對(duì)應(yīng)2 個(gè)等級(jí)樣本之間的互信息熵,并計(jì)算其平均值;
第4 步:根據(jù)公式(6)計(jì)算所有初選波長(zhǎng)下所有組合(15 個(gè)組合)霉變玉米高光譜圖像的A值及其均值;
第5 步:選擇最小A值所對(duì)應(yīng)的波長(zhǎng)即為最佳波長(zhǎng)。
將經(jīng)黑白標(biāo)定后的光譜進(jìn)行MSC 預(yù)處理,由圖3、圖4 可知,經(jīng)MSC 校正后得到的光譜數(shù)據(jù),可有效消除散射影響所導(dǎo)致的基線偏移現(xiàn)象,使樣本之間的反射比差異減小,提高信噪比。
圖3 原始光譜數(shù)據(jù)Fig.3 The original spectral data
2.2.1 特征波長(zhǎng)初選 由于在成像光譜區(qū)間的兩端噪聲較多[26-28],因此,在數(shù)據(jù)分析中只采用第300 ~第1 000 波段(524~880 nm)間的數(shù)據(jù)。將預(yù)處理過的光譜數(shù)據(jù)運(yùn)用SPA 初選特征波長(zhǎng),按照交互驗(yàn)證均方根誤差最小時(shí)對(duì)應(yīng)的波長(zhǎng)變量個(gè)數(shù)即為選擇結(jié)果這一思想,采用SPA 篩選霉變玉米特征波長(zhǎng)及特征波長(zhǎng)的個(gè)數(shù)。由圖5、圖6 可知,當(dāng)選擇出的特征變量為8 個(gè)時(shí),交互驗(yàn)證的均方根誤差最小且逐漸趨于穩(wěn)定,此時(shí)所選出的8 個(gè)特征變量對(duì)應(yīng)的特征波長(zhǎng)即為初選的特征波長(zhǎng)。
圖4 經(jīng)多元散射校正處理后的光譜數(shù)據(jù)Fig.4 The spectral data after multiple scatter correction
2.2.2 特征波長(zhǎng)細(xì)選 在初選的8 個(gè)特征波長(zhǎng)的基礎(chǔ)上,根據(jù)特征波長(zhǎng)細(xì)選步驟,可得在8 個(gè)初選特征波長(zhǎng)下15 個(gè)組合霉變玉米樣本間的高光譜圖像的A值及其均值。由表2 可知,不同等級(jí)霉變玉米樣本在8個(gè)波長(zhǎng)下的A值的平均值大小按降序排列為A622nm>A598nm>A650nm>A688nm>A699nm>A824nm>A709nm>A819nm。因A值越小,越有利于不同樣本之間的分級(jí),從而確定霉變玉米最佳特征波長(zhǎng)為819 nm。
表2 不同波長(zhǎng)下霉變玉米15 個(gè)組別高光譜圖像的A 值及其均值Table 2 A values of hyperspectral images of 15 groups of moldy maize under different wavelengths and its mean values
圖5 連續(xù)投影算法提取特征波長(zhǎng)Fig.5 Continuous projection algorithm for feature wavelength extraction
圖6 選擇特征波長(zhǎng)個(gè)數(shù)Fig.6 Number of characteristic wavelengths selected
為檢驗(yàn)上述特征波長(zhǎng)選擇方法的有效性,采用FDA 方法進(jìn)行驗(yàn)證。提取初選特征波長(zhǎng)下圖像的7個(gè)不變矩紋理特征和6 個(gè)小波紋理特征[29-31],將13個(gè)特征參量作為FDA 輸入?yún)⒘?得到8 個(gè)初選波段下霉變玉米的分級(jí)正確率。由表3 可知,819 nm 波長(zhǎng)下FDA 的判別正確率達(dá)到最高,證明了基于SPA 和信息熵相結(jié)合的高光譜特征波長(zhǎng)選擇方法的有效性。圖7為622 nm 和819 nm 波長(zhǎng)下的FDA 直觀圖,對(duì)比可知,622 nm 波長(zhǎng)下霉變玉米分級(jí)正確率達(dá)到93.2%,但A1、A2 和A3 三個(gè)等級(jí)的樣本仍有部分未分開,而在819 nm 波長(zhǎng)下基本上實(shí)現(xiàn)了不同等級(jí)霉變玉米間的分級(jí)。
表3 不同波長(zhǎng)下FDA 判別正確率Table 3 FDA discrimination accuracy at different wavelengths
玉米中毒素的產(chǎn)生主要是由于其自身帶有孢子和芽孢,芽孢是細(xì)菌的休眠體,孢子由霉菌產(chǎn)生,它們?cè)谶m宜的生長(zhǎng)環(huán)境下可使玉米產(chǎn)生霉變[32]。而有關(guān)玉米霉變的分析,前人主要是通過理化試驗(yàn)對(duì)其進(jìn)行分類鑒別,其過程比較繁瑣。高光譜圖像技術(shù)具有諸多優(yōu)點(diǎn),但由于它是將多信息融合的技術(shù),獲得的數(shù)據(jù)量大、相關(guān)性高,導(dǎo)致數(shù)據(jù)不易保存,且信息處理的效率相對(duì)較低,影響計(jì)算速度。所以用最少、最恰當(dāng)?shù)奶卣鱽?lái)表征最大、最有效的信息量是目前高光譜圖像技術(shù)的研究重點(diǎn)。本研究提出一種高光譜特征選擇方法,以不同霉變等級(jí)的玉米為研究對(duì)象,利用霉變玉米高光譜圖像和光譜信息,達(dá)到了霉變玉米無(wú)損快速分類鑒別。
本試驗(yàn)中高光譜鑒別不同等級(jí)霉變玉米結(jié)果影響因素主要為特征波長(zhǎng)的選取。研究表明,基于SPA 和信息熵相結(jié)合的方法篩選特征波長(zhǎng),并利用該波長(zhǎng)下的圖像信息進(jìn)行FDA 驗(yàn)證,結(jié)果顯示該波長(zhǎng)下的鑒別正確率最高(圖7),說明該方法選擇出的特征波長(zhǎng)是有效的,將特征波長(zhǎng)作為不同霉變等級(jí)的分類依據(jù),發(fā)現(xiàn)分類正確率明顯提高,這與薛建新等[33]采用高光譜技術(shù)并結(jié)合特征波長(zhǎng)的提取判斷沙金杏成熟度的結(jié)論一致。借鑒李金夢(mèng)等[34]特征選擇方法和文獻(xiàn)[35-37]中特征波長(zhǎng)選擇思路,基于目前特征選擇單純利用光譜信息的特點(diǎn),本研究在SPA 選擇特征波長(zhǎng)的基礎(chǔ)上,引入信息熵的概念,綜合光譜信息和圖像信息進(jìn)行特征波長(zhǎng)的選擇,最終的分類結(jié)果比單純利用光譜信息正確率有所提高。本研究提取特征波長(zhǎng)時(shí)雖然去除了冗余信息,但特征波長(zhǎng)的選擇方法可能并非最佳,所以針對(duì)高光譜特征波長(zhǎng)的選擇仍需進(jìn)一步研究,此外,該特征選擇方法是否能夠提高霉變玉米黃曲霉毒素B1預(yù)測(cè)模型的正確率也有待研究。
圖7 622、819 nm 波長(zhǎng)下霉變玉米高光譜分級(jí)圖Fig.7 Hyperspectral image classification of moldy maize under 622 nm and 819 nm
高光譜成像技術(shù)在霉變玉米無(wú)損檢測(cè)中仍存在一定的局限性,還需要進(jìn)一步完善,同時(shí)本研究所用的實(shí)驗(yàn)樣本的數(shù)量及種類可能還不夠多,地域、品種覆蓋范圍還不夠廣,霉變天數(shù)的選擇也可能不是鑒別霉變玉米中黃曲霉毒素B1的最佳等級(jí),且霉變玉米的鑒別方法比較單一,因此,后續(xù)工作還有待進(jìn)一步研究。
本研究根據(jù)和信息熵原理提出了一種霉變玉米高光譜鑒別中特征波長(zhǎng)的選擇方法,即利用SPA 處理光譜信息初選出8 個(gè)特征波長(zhǎng)(598、622、650、688、699、709、819、824 nm),再通過信息熵原理處理圖像信息對(duì)初選的8 個(gè)特征波長(zhǎng)細(xì)選,最終確定了適于霉變玉米等級(jí)鑒別的最佳分級(jí)波長(zhǎng)為819 nm。在提取特征波長(zhǎng)下霉變玉米圖像的紋理特征基礎(chǔ)上,借助FDA 方法,基本實(shí)現(xiàn)了霉變玉米等級(jí)的鑒別,819 nm 波長(zhǎng)下霉變玉米分級(jí)正確率為98.6%。FDA 結(jié)果證明了所提出的高光譜特征波長(zhǎng)選擇方法的有效性。本研究結(jié)果為構(gòu)建霉變玉米的高光譜檢測(cè)模型奠定了基礎(chǔ),也為高光譜技術(shù)應(yīng)用于其他物品檢測(cè)提供了一種特征波長(zhǎng)選擇的新思路。