沈宇,房勝,王風(fēng)云,李哲,張琛,鄭紀(jì)業(yè)*
(1.山東省農(nóng)業(yè)科學(xué)院科技信息研究所,濟(jì)南 250100;2.山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,山東 青島 266000)
蘋果輕微碰傷是在蘋果采摘、運(yùn)輸、存儲(chǔ)過(guò)程中最為常見的現(xiàn)象,而且這種輕微碰傷在早期是難以被發(fā)現(xiàn)的,尤其是發(fā)生在蘋果表皮紅色或其他顏色較深的區(qū)域碰傷[1]。但是,碰傷時(shí)間一旦過(guò)長(zhǎng),該區(qū)域就會(huì)演變成大面積的腐爛,降低蘋果的營(yíng)養(yǎng)價(jià)值以及銷售價(jià)格,同時(shí)還會(huì)對(duì)其他優(yōu)質(zhì)蘋果造成嚴(yán)重影響[2]。因此,進(jìn)行早期輕微損傷蘋果的快速篩選對(duì)提高蘋果的價(jià)值具有重要意義。傳統(tǒng)的人工感官和化學(xué)試劑檢測(cè)方法不僅準(zhǔn)確率低,而且對(duì)樣品具有破壞性,不能滿足實(shí)際生產(chǎn)生活的需要[2],而基于高光譜圖像技術(shù)的檢測(cè)則是一種高效、快速、無(wú)損的檢測(cè)方法,彌補(bǔ)了傳統(tǒng)方法的缺點(diǎn),對(duì)研究蘋果初期輕微損傷的在線監(jiān)測(cè)技術(shù)具有極其重要的作用[3]。近年來(lái),為了開發(fā)基于高光譜成像技術(shù)的水果品質(zhì)實(shí)時(shí)在線監(jiān)測(cè)系統(tǒng),在利用高光譜成像技術(shù)檢測(cè)水果內(nèi)外部品質(zhì)(糖度、硬度、表面缺陷或損傷等)的特征波段選擇上已經(jīng)有了初步的研究。Rajkumar等[4]在三個(gè)不同溫度下(20、25和30 ℃)對(duì)不同成熟階段的香蕉及其品質(zhì)進(jìn)行針對(duì)性的研究,根據(jù)偏最小二乘回歸系數(shù)法(PLSR)對(duì)香蕉的品質(zhì)參數(shù)和光譜數(shù)據(jù)建立預(yù)測(cè)模型,優(yōu)選出了7個(gè)特征波長(zhǎng)(440、525、633、672、709、925 和984 nm),對(duì)香蕉可硬度、水分和可溶性固形物的預(yù)測(cè)相關(guān)系數(shù)分別是0.91、0.87和0.85。馮迪等[5]提出了一種雙項(xiàng)指標(biāo)檢測(cè)的新方法,在雙面多點(diǎn)取樣的前提下,通過(guò)平滑波形數(shù)據(jù)與兩次SPA運(yùn)算,提取蘋果糖度與硬度共同的特征波長(zhǎng)從而確定最佳波長(zhǎng)(543 和674 nm),利用少量的波長(zhǎng)信息實(shí)現(xiàn)蘋果雙指標(biāo)的高效檢測(cè)。Huang等[6]以阿克蘇蘋果為研究對(duì)象,對(duì)損傷發(fā)生半小時(shí)以內(nèi)的蘋果利用高光譜成像技術(shù)結(jié)合主成分權(quán)重系數(shù)獲取了2個(gè)有效波長(zhǎng)(820 和970 nm),并利用這2個(gè)波長(zhǎng)和全局閾值理論開發(fā)了多光譜輕微損傷提取算法。本研究以輕微損傷發(fā)生1 h內(nèi)的富士蘋果為研究對(duì)象,基于高光譜成像技術(shù),利用載荷系數(shù)、連續(xù)投影和二階導(dǎo)數(shù)方法提取特征波段并建立機(jī)器學(xué)習(xí)模型,對(duì)輕微損傷早期不同時(shí)間段的富士蘋果進(jìn)行識(shí)別,確定最佳識(shí)別模型。最后基于不同方法獲取的單一特征波長(zhǎng)建模,分析每個(gè)波長(zhǎng)的識(shí)別效果,確定適用于快速鑒別蘋果表面輕微損傷的特征波長(zhǎng),為后續(xù)的儀器開發(fā)提供理論依據(jù)。
本研究以煙富3號(hào)蘋果作為試驗(yàn)材料,由山東通達(dá)現(xiàn)代農(nóng)業(yè)集團(tuán)有限公司提供。選擇顏色、形狀均勻,果徑大小在86~95 mm范圍內(nèi)的富士蘋果200個(gè),蘋果表面完整光滑、無(wú)任何缺陷。首先用濕布擦拭蘋果表面,然后將蘋果放置在室溫條件下24 h后再進(jìn)行高光譜圖像獲取。以未損傷的完好蘋果為對(duì)照,其他蘋果人工造成輕微損傷,將蘋果從30 cm高度處跌落至平滑地面上,為了防止蘋果在地面反彈造成二次損傷,蘋果第一次落至地面后立即將其拖住,在赤道附近形成肉眼難以辨別的輕微損傷。圖1為完好與輕微損傷后蘋果的RGB圖像,直觀上很難判別出損傷部位。但蘋果損傷后,由于果皮組織遭到破壞,損傷部位的質(zhì)地會(huì)變得松軟,通過(guò)人工觸摸獲知損傷部位,并沿邊緣進(jìn)行標(biāo)記。
圖1 完好與損傷蘋果的RGB圖像Fig.1 RGB image of intact and bruised apple
高光譜圖像采集系統(tǒng)如圖2所示,主要由高光譜成像光譜儀(SOC710VP,USA)、2個(gè)75 W的室內(nèi)高光譜照明燈(CrawImiacle, China)、樣品載物臺(tái)、計(jì)算機(jī)(小新潮7000-14,LENOVO)組成。其中,SOC710VP光譜儀的成像范圍是400~1 000 nm(128個(gè)波段),分辨率約為4.69 nm,掃描速度為32 s·cube-1,內(nèi)置12 bit動(dòng)態(tài)范圍的C-Mount CCD相機(jī)。SOC710VP 優(yōu)勢(shì)在于其內(nèi)置推掃設(shè)備,無(wú)需系統(tǒng)配備掃描云臺(tái)就能完成高光譜圖像的采集。為了避免周圍環(huán)境光照的影響,保證目標(biāo)樣本光照的均勻性,將整個(gè)圖像采集系統(tǒng)(除計(jì)算機(jī)外)放置暗箱中運(yùn)行。
注:1—暗箱;2—USB線;3—計(jì)算機(jī);4—CCD相機(jī);5—光譜儀;6—鏡頭;7—光源控制器;8—光源;9—載物臺(tái);10—樣品;11—載物臺(tái)控制器。Note: 1—Obscura; 2—USB line; 3—Computer; 4—CCD camera; 5—spectrometer; 6—Lens; 7—Light source controller; 8—Light source; 9—Stage; 10—Samples; 11—Stage controller.圖2 高光譜圖像采集系統(tǒng)結(jié)構(gòu)Fig.2 Structure of hyperspectral imaging system
為了獲取完整清晰且不失真的高光譜圖像,經(jīng)過(guò)反復(fù)微調(diào)后,確定高光譜圖像采集系統(tǒng)的參數(shù),樣本表面至鏡頭的垂直距離為195 mm,CCD相機(jī)的曝光時(shí)間為20 ms。在保證采集系統(tǒng)參數(shù)不變的情況下,首先采集完好蘋果的高光譜圖像,將蘋果逐個(gè)放置于升降平臺(tái),保證其位置與相機(jī)的鏡頭在一條直線上,等待光譜儀內(nèi)置設(shè)備的推掃,獲取(每個(gè)僅獲取一次)樣本完整的光譜信息。然后對(duì)蘋果進(jìn)行人工損傷,以同樣的方式獲取損傷部位在室溫下放置0、0.5、1 h后的圖像,共獲取800幅分辨率大小為520×696 pixel的高光譜圖像。
本研究主要使用光譜儀自帶的SOC710軟件獲取高光譜圖像,SRAnal710軟件進(jìn)行高光譜圖像的反射率標(biāo)準(zhǔn)化,使用Excel、Origin Pro 9.1、ENVI和MATLAB R2014a實(shí)現(xiàn)光譜數(shù)據(jù)處理和建模分析。
1.4.1光譜曲線構(gòu)建 為了分析完好與損傷蘋果的反射光譜曲線特性以及損傷蘋果的光譜在不同損傷時(shí)間段(0、0.5、1 h)的變化情況。使用ENVI軟件分別從完好與損傷不同時(shí)間段的樣本中提取相同大小(20×20)的感興趣區(qū)域(region of interest,ROI),并計(jì)算該區(qū)域內(nèi)所有像素點(diǎn)在全波長(zhǎng)范圍400~1 000 nm的平均光譜反射數(shù)據(jù),構(gòu)建光譜曲線。
1.4.2光譜黑白校正 為避免高光譜成像儀中CCD相機(jī)的傳感器(電子元件)對(duì)圖像產(chǎn)生噪聲干擾,增強(qiáng)光譜數(shù)據(jù)的可靠性和穩(wěn)定性,有必要對(duì)獲取的高光譜圖像進(jìn)行黑白校正。在與樣品采集條件一致的前提下,先掃描反射率為99%的白色參考板獲取全白標(biāo)定圖像,再關(guān)閉光源,蓋住鏡頭獲取黑場(chǎng)標(biāo)定圖像,最后利用公式(1)對(duì)原始高光譜圖像進(jìn)行校正。
(1)
式中,R為校正后的高光譜圖像,Rori為原始高光譜圖像,Rdark為黑場(chǎng)標(biāo)定的高光譜圖像,Rwhite為全白標(biāo)定的高光譜圖像。
在高光譜數(shù)據(jù)采集過(guò)程中,除了光譜儀中電子元件的影響,蘋果表面顏色和內(nèi)部堅(jiān)實(shí)度的差異也會(huì)對(duì)光譜數(shù)據(jù)產(chǎn)生影響,會(huì)產(chǎn)生附加散射變動(dòng)。因此,為了去除光譜散射,對(duì)經(jīng)過(guò)黑白校正后的光譜數(shù)據(jù)再進(jìn)行附加散射校正(multiplicative scatter correction,MSC)[7]。
1.4.3特征波長(zhǎng)提取算法 原始高光譜圖像包含128個(gè)波段,提供了利于蘋果輕微損傷識(shí)別的大量信息,但將其全部都用于建模,計(jì)算量非常大,嚴(yán)重影響建模分析的速度和效率[8-9]。特征波段提取算法既能保留圖像的有效信息,又能達(dá)到減少原始波段數(shù)量、簡(jiǎn)化分析模型復(fù)雜度的目的[10]。因此,本文使用載荷系數(shù)、連續(xù)投影和二階導(dǎo)數(shù)方法來(lái)去除冗余波段,實(shí)現(xiàn)特征波長(zhǎng)提取。
載荷系數(shù)法(x-loading weights, x-LW)提取的特征波長(zhǎng)通過(guò)建立偏最小二乘回歸模型得到[11]。模型的分類性能受隱含變量所對(duì)應(yīng)的載荷系數(shù)的絕對(duì)值大小影響[12]。因此,在隱含變量的載荷系數(shù)曲線中,選取絕對(duì)值最大處所對(duì)應(yīng)的波長(zhǎng)作為有效波長(zhǎng)。一般情況下,選取的有效波長(zhǎng)數(shù)目與隱含變量個(gè)數(shù)相同[12]。
連續(xù)投影算法(successive projections algorithm,SPA)能夠消除波段之間的共線性冗余,尋找共線性信息最小的波長(zhǎng)以代表樣品最大的信息量[12-14]。在初始階段,該方法首先選擇一個(gè)特定波長(zhǎng)和設(shè)定最大最小選定波長(zhǎng)數(shù)目,然后循環(huán)迭代,計(jì)算該波長(zhǎng)在未選入波長(zhǎng)上的投影,選擇投影向量最大的波長(zhǎng),并列入特征波長(zhǎng)組合中[15-18],再利用線性回歸來(lái)計(jì)算不同特征波長(zhǎng)組合所得到的均方根誤差(root mean squared error,RMSE)的值,直至特征波長(zhǎng)的數(shù)目達(dá)到最小均方根誤差所對(duì)應(yīng)的數(shù)值,循環(huán)結(jié)束[19]。
二階導(dǎo)數(shù)(second derivative)法就是通過(guò)數(shù)學(xué)模擬,計(jì)算不同波段下反射率的二階導(dǎo)數(shù)值[20]。二階導(dǎo)數(shù)法能夠辨別完全重疊或波長(zhǎng)距離很小的相重疊反射峰,大幅度去除相關(guān)性較強(qiáng)的波長(zhǎng)數(shù)據(jù),迅速確定光譜變化明顯的波長(zhǎng)位置[21]。
1.4.4完好與損傷樣本的識(shí)別方法 本文主要使用BP(back propagation)神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(support vector machine,SVM)來(lái)對(duì)光譜數(shù)據(jù)建模,實(shí)現(xiàn)損傷識(shí)別。BP神經(jīng)網(wǎng)絡(luò)算法的基本原理是將輸出誤差以某種形式逐層傳遞到輸出層,并計(jì)算每一隱含層的每一單元的誤差,以此來(lái)修正各單元權(quán)值,設(shè)置閾值與迭代次數(shù),直至網(wǎng)絡(luò)輸出誤差小于所設(shè)定閾值,迭代完成[22]。針對(duì)BP神經(jīng)網(wǎng)絡(luò)中初始權(quán)值和閾值隨機(jī)性問題,本文通過(guò)遺傳算法(genetic algorithm,GA)來(lái)對(duì)其進(jìn)行優(yōu)化,并通過(guò)多次實(shí)驗(yàn)確定隱含層神經(jīng)元個(gè)數(shù)。SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)化風(fēng)險(xiǎn)最小原理建立的,它在解決小樣本、非線性和高維模式下的分類判別問題中表現(xiàn)出特有的優(yōu)勢(shì)[23-24]。SVM模型的關(guān)鍵在于核函數(shù)的選擇,核函數(shù)主要用來(lái)解決數(shù)據(jù)從低維映射到高維空間的計(jì)算復(fù)雜問題,采用不同的核函數(shù),模型的性能和效果不同。
將全部(800個(gè))樣本數(shù)據(jù)按4∶1的比例隨機(jī)劃分為建模集和測(cè)試集,其中建模集包含640個(gè)樣本(損傷0、0.5、1 h和未損傷各160個(gè)),測(cè)試集包含160個(gè)樣本(損傷0、0.5、1 h和未損傷各40個(gè))。分別使用以上三種方法提取的特征波長(zhǎng)作為輸入變量,以標(biāo)簽(0,1)作為輸出變量建立GA-BP和SVM蘋果表面輕微損傷識(shí)別模型。在SVM模型中使用徑向基函數(shù)作為核函數(shù),利用3折交叉驗(yàn)證確定最佳參數(shù)C和g,二者取值范圍都設(shè)置為[2-4,24],步長(zhǎng)都設(shè)置為0.5。在GA-BP神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過(guò)多次實(shí)驗(yàn)分別將隱含層神經(jīng)元的個(gè)數(shù)設(shè)置為3,種群個(gè)體數(shù)設(shè)置為40,遺傳代數(shù)設(shè)置為100。
完好與損傷不同時(shí)間段樣本的平均光譜曲線如圖3所示??梢钥闯觯旰门c損傷樣本的光譜都表現(xiàn)出共同的變化趨勢(shì),在680 和980 nm左右各存在一個(gè)吸收峰,分別是由于表面葉綠素和水分的吸收引起的。隨著損傷時(shí)間的增加,樣本的反射率會(huì)逐漸減小,且與完好樣本的差別越來(lái)越明顯。同時(shí),所有樣本在波段503 nm以下和989 nm以上均存在大量噪聲,為了去除噪聲,對(duì)每一樣本數(shù)據(jù)去除首尾波段,保留差異比較明顯且易于區(qū)分的503~989 nm波段進(jìn)行后續(xù)研究。
圖3 完好與損傷樣本的平均光譜曲線Fig.3 Average spectral curve of intact and bruised samples
為了去除相鄰波段間的強(qiáng)相關(guān)性,獲取包含大量有效信息的關(guān)鍵波段,分別采用載荷系數(shù)法、連續(xù)投影法和二階導(dǎo)數(shù)法提取特征波段。
2.2.1載荷系數(shù)法 以503~989 nm范圍內(nèi)的93個(gè)波段作為X變量,以代表完好與損傷樣本的標(biāo)簽(0,1)作為Y變量,基于全部樣本的光譜數(shù)據(jù)建立偏最小二乘回歸(partial least squares regression,PLSR)模型,確定影響模型性能的隱含變量的載荷系數(shù)。建模過(guò)程中,采用交互校驗(yàn)預(yù)測(cè)殘差平方和(predicted residual sum of squares,PRESS)確定隱含變量數(shù),最佳隱含變量數(shù)為3,3個(gè)隱含變量的載荷系數(shù)曲線如圖4所示,分別選擇各隱含變量載荷系數(shù)絕對(duì)值最大處所對(duì)應(yīng)的波長(zhǎng)(570、805、811 nm)作為有效波長(zhǎng)。
圖4 隱含變量的載荷系數(shù)曲線Fig.4 Loding weights curve of implied variable
A:SPA 選取不同變量數(shù)目得到的RMSE圖;B:選取的波長(zhǎng)變量索引序號(hào)分布圖A: RMSE graph obtained by using SPA to select different numbers of variables; B: Index number distribution map of selected wavelength variables圖5 連續(xù)投影法選擇特征波長(zhǎng)Fig.5 Effective wavelengths selected by SPA
圖6 完好與損傷樣本的二階導(dǎo)數(shù)光譜曲線Fig.6 Second derivative spectral of intact and bruised samples
2.2.2連續(xù)投影法 在連續(xù)投影方法中,任意選擇一個(gè)初始波段,設(shè)定的波長(zhǎng)數(shù)目為5~30,圖5A 顯示了利用線性回歸法計(jì)算所得的RMSE值隨所選波長(zhǎng)數(shù)量的增加而變化的曲線,可以看出,當(dāng)選擇的波長(zhǎng)數(shù)為9時(shí),預(yù)測(cè)蘋果輕微損傷的RMSE值(用方框標(biāo)記)達(dá)到最小,為0.266 65。圖5B為選定的9個(gè)波長(zhǎng)變量的索引序號(hào)(用方框標(biāo)記)分布圖,其序號(hào)分別為9、35、41、44、60、64、83、87、93,對(duì)應(yīng)實(shí)際值分別為544、679、710、726、811、832、934、956、989 nm。
2.2.3二階導(dǎo)數(shù)法 本文使用Origin Pro 9.1對(duì)完好與損傷的所有樣本數(shù)據(jù)求二階導(dǎo)數(shù),圖6為完好與損傷樣本的二階導(dǎo)數(shù)光譜曲線,選取曲線的局部峰值處所對(duì)應(yīng)的波長(zhǎng)作為特征波長(zhǎng),分別是585、611、621、658、684、705、720、726、736、747、768、784、795、805、821、832、848、864、907、961 nm,其中585和684 nm與蘋果表皮葉綠素與胡蘿卜素的吸收有關(guān);747和961 nm與蘋果內(nèi)部細(xì)胞中所含的O-H鍵的伸縮有關(guān)。
基于不同特征提取方法建立的SVM和GA-BP模型的損傷識(shí)別結(jié)果如表1所示,從特征波長(zhǎng)提取方法來(lái)看,載荷系數(shù)、連續(xù)投影和二階導(dǎo)數(shù)法提取的特征變量在識(shí)別損傷樣本方面都具有效性,其中以二階導(dǎo)數(shù)法提取的20個(gè)特征波長(zhǎng)作為輸入變量建立的GA-BP和SVM 模型識(shí)別效果最佳,對(duì)測(cè)試集的識(shí)別率分別為93.75%和96.88%;從模型來(lái)看,基于SVM建立的三種模型對(duì)測(cè)試集的識(shí)別精度(分別為77.50%、91.88%、96.88%)均高于GA-BP模型(分別為75.63%、90.63%、93.75%),被確定為最優(yōu)損傷識(shí)別模型。
表1 基于特征波長(zhǎng)的模型對(duì)損傷樣本的判別結(jié)果Table 1 Results of classification models using the slected wavelengths for classifying bruised samples
分別利用以上三種方法提取的每一特征波長(zhǎng)作為變量,結(jié)合最優(yōu)損傷識(shí)別模型SVM再次建模,每一波段的損傷識(shí)別結(jié)果如圖7所示??梢钥闯?,不同特征波段的識(shí)別效果各有不同,即其攜帶的有效信息各有不同,波段570 nm處的模型識(shí)別結(jié)果最差,僅達(dá)到62.50%,波段811 nm處的模型識(shí)別結(jié)果最好,對(duì)測(cè)試集的識(shí)別率達(dá)到90.63%,優(yōu)于其他波段。因此,將波段811 nm作為識(shí)別蘋果早期輕微損傷的最佳波段。該研究為開發(fā)蘋果早期輕微損傷實(shí)時(shí)在線檢測(cè)系統(tǒng)提供理論支持和依據(jù)。
圖7 基于單一特征波段的損傷識(shí)別率Fig.7 Identification rates based on the single characteristic wavelength
蘋果表面的損傷有明顯與不明顯之分,對(duì)于明顯的損傷用肉眼很容易識(shí)別,但是不明顯的輕微損傷往往發(fā)生在表皮之下,和正常區(qū)域的顏色相差不大,用肉眼很難識(shí)別,且隨著時(shí)間的推移,損傷區(qū)域還會(huì)不斷擴(kuò)大至腐爛。傳統(tǒng)的計(jì)算機(jī)視覺技術(shù)很難對(duì)水果的輕微損傷進(jìn)行檢測(cè),而高光譜成像技術(shù)應(yīng)用于水果表面輕微損傷已體現(xiàn)出其“圖譜合一”的優(yōu)越性,但獲得的數(shù)據(jù)量大、冗余度高,且信息處理速度相對(duì)緩慢,不利于在線檢測(cè)的實(shí)際應(yīng)用,因此,降低光譜數(shù)據(jù)的維度,提取區(qū)分蘋果輕微損傷的有效波段是目前一項(xiàng)值得研究的內(nèi)容。
本研究將高光譜圖像技術(shù)應(yīng)用于蘋果表面輕微損傷的檢測(cè)研究,尋找可以有效區(qū)分損傷部位的特征波段。結(jié)果表明,x-LW、SPA和二階導(dǎo)數(shù)法是非常有效的特征波長(zhǎng)提取方法,但由于不同方法的原理不同,選擇的特征波段也存在差異。這與程術(shù)希等[12]利用x-LW:SPA提取有效檢測(cè)番茄早疫病的特征波段和陳欣欣等[25]利用二階導(dǎo)數(shù)法提取有效區(qū)分庫(kù)爾勒梨早期損傷的特征波段的結(jié)論一致。增加信息量的同時(shí)也會(huì)引入冗余信息,從而影響模型對(duì)測(cè)試集預(yù)測(cè)的精度。參考湯哲君等[26]利用SVM識(shí)別馬鈴薯輕微損傷的方法和劉思伽等[27]利用二次連續(xù)投影法和BP神經(jīng)網(wǎng)絡(luò)檢測(cè)寒富蘋果的方法,本研究在利用x-LW、SPA、二階導(dǎo)數(shù)法分別篩選出特征波段,并在SVM和GA-BP識(shí)別模型的基礎(chǔ)上建立了具有較高穩(wěn)定性的模型,利用該模型分別以單一特征波段作為輸入變量再次建模,確定損傷識(shí)別效果最佳的波段。但本研究結(jié)果表明,基于單一特征波段建立模型的識(shí)別準(zhǔn)確率有所下降,這主要原因是提取的光譜特征對(duì)于識(shí)別蘋果輕微損傷來(lái)說(shuō)可能還不夠全面,且所用的建模方法也需要進(jìn)一步改進(jìn)。因此,在后續(xù)研究中可以考慮更適合的建模特征及建模方法,以進(jìn)一步提高模型的性能。