翁士狀, 唐佩佩, 張雪艷, 徐 超, 鄭 玲, 黃林生, 趙晉陵
安徽大學(xué), 國家農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用工程研究中心, 安徽 合肥 230601
中國是世界上最大的大米生產(chǎn)國, 年產(chǎn)量連續(xù)多年名列前茅[1]。 2018到2019年度, 中國大米產(chǎn)量預(yù)計(jì)占全球產(chǎn)量的28.90%。 中國地大物博, 土壤氣候差異較大, 孕育出多種優(yōu)質(zhì)大米。 不同品種的大米所含水分, 蛋白質(zhì), 脂肪等成分不盡相同, 優(yōu)質(zhì)大米中所含的營養(yǎng)成分較多[2]。 一些商家為賺取更多利益, 開始在優(yōu)質(zhì)大米中摻劣質(zhì)大米, 甚至以次充好。 為保護(hù)消費(fèi)者的消費(fèi)權(quán)益, 生產(chǎn)者的積極性, 實(shí)現(xiàn)對大米的品種鑒定是非常必要的。
大米的外觀微小且相近, 很難通過人為觀察去準(zhǔn)確的辨認(rèn)出種類, 需結(jié)合圖像、 光譜等方法實(shí)現(xiàn)大米的準(zhǔn)確鑒別。 機(jī)器視覺和紅外光譜已被廣泛應(yīng)用在食品檢測中。 機(jī)器視覺可獲得形態(tài)、 紋理、 顏色等圖像信息而被廣泛應(yīng)用于損傷檢測、 實(shí)時(shí)分級以及質(zhì)量評估[3]等。 但機(jī)器視覺的方法只能獲取大米的外觀信息, 缺少對食品內(nèi)在成分的分析。 近紅外光譜可獲取物質(zhì)的內(nèi)部成分的光譜信息, 利用物質(zhì)的內(nèi)在成分實(shí)現(xiàn)無損檢測、 摻雜分析和食品分類[4]等。 但近紅外光譜缺少可見光波段光譜信息且無法提供樣本的外在特征。
高光譜成像則整合了機(jī)器視覺和紅外光譜可同時(shí)獲取樣本的光譜和空間圖像信息[5], 具有快速、 高效、 準(zhǔn)確和無損的特點(diǎn), 廣泛應(yīng)用于農(nóng)藥殘留檢測、 食品內(nèi)在成分含量分析和食品種類的鑒別等。 楊小玲等采用400~1 000 nm波段范圍的高光譜成像技術(shù)研究成熟和未成熟玉米種子, 選用主成分分析法提取特征波長, 采用偏最小二乘法和波段比運(yùn)算結(jié)合KW檢驗(yàn)分析平均光譜[6]。 吳靜珠等通過偏最小二乘算法選取特征變量建立多個(gè)籽粒的小麥粗蛋白平均模型, 再提取其高光譜圖像應(yīng)用于平均模型預(yù)測單個(gè)籽粒小麥每個(gè)像素點(diǎn)的粗蛋白, 取其平均值作為小麥的最終粗蛋白含量[7]。 王璐等通過高光譜圖像獲取大米的光譜和圖像信息, 圖像信息選取了堊白度和形狀特征(“長軸長”、 “短軸長”“長寬比”、 “周長”和“偏心度”), 數(shù)據(jù)融合結(jié)合BPNN模型實(shí)現(xiàn)對大米的品種和品質(zhì)的鑒別[8]。 在前人的研究基礎(chǔ)上, 本研究探究一種融合圖像和光譜特征的名優(yōu)大米無損鑒別方法, 大米的圖像信息不僅選取多種形態(tài)特征, 還嘗試了大米的其他圖像信息的融合, 實(shí)現(xiàn)對多種名優(yōu)大米的精準(zhǔn)鑒別。
近年來, 深度學(xué)習(xí)網(wǎng)絡(luò)如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)、 循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network)和深度置信網(wǎng)絡(luò)(deep belief networks)在語音識別、 圖像識別和信息檢索等方面的表現(xiàn)優(yōu)越[9]。 最近, 深度學(xué)習(xí)開始應(yīng)用在高光譜對物質(zhì)的分析。 謝忠紅等利用菠菜的高光譜圖像建立光譜和圖像的樣本庫, 再基于CNN建立識別模型, 發(fā)現(xiàn)基于圖像識別的效果最佳, 對菠菜新鮮度的識別正確率達(dá)到了80.99%[10]。 桂江生等提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的大豆花葉病害的診斷識別方法, 最終模型訓(xùn)練集識別率達(dá)到94.79%, 預(yù)測集識別率達(dá)到92.08%[11]。 在深度學(xué)習(xí)網(wǎng)絡(luò)中, CNN是具有多層感知機(jī)的分類模型, 以局部鏈接方式, 實(shí)現(xiàn)權(quán)值共享, 減少權(quán)值數(shù)量, 提高數(shù)據(jù)處理速度, 而且可以減小模型的過擬合問題。 與傳統(tǒng)的方法相比, CNN的容錯(cuò)性更高, 提取數(shù)據(jù)特征信息更準(zhǔn)確, 從而極大地提升了模型性能。 因此, 本研究選用CNN融合圖譜特征對大米進(jìn)行分類。
選用七種名優(yōu)大米為對象, 利用高光譜成像和CNN結(jié)合圖譜特征實(shí)現(xiàn)大米種類的鑒別。 首先, 測量了七種名優(yōu)大米的400~1 000 nm高光譜圖像, 并從圖像中提取了每種大米的光譜、 紋理與形態(tài)特征。 同時(shí), 使用連續(xù)投影算法(successive projections algorithm, SPA)、 競爭自適應(yīng)重加權(quán)算法(competitive adaptive reweighting algorithm, CARS)以及兩者級聯(lián)方法(CARS-SPA)選取多元散射校正(multiplicative scatter correction, MSC)處理后光譜特征的重要波長。 SPA用于確定形狀與紋理特征中的重要變量。 最后, CNN融合不同特征構(gòu)建分類模型對大米種類進(jìn)行識別。 此外, K-近鄰(K nearest neighbor, KNN)和隨機(jī)森林(random forest, RF)被用來進(jìn)行對比分析。
選擇來自全國各地的七種名優(yōu)大米作為研究對象, 包括: 京和橋米(湖北京山)、 梅河大米(吉林梅河口)、 寧夏珍珠米(寧夏青銅峽)、 盤錦大米(遼寧盤錦)、 上林大米(廣西上林)、 絲苗米(廣東增城)、 五常大米(黑龍江五常)。 不同種類大米均從其生產(chǎn)地購買, 為保證樣本的普遍性, 每種大米購買三批, 每批采集96粒大米。 七種大米共2016個(gè)樣本被采集。
大米樣本的高光譜圖像使用可見-近紅外反射高光譜成像系統(tǒng)采集。 該高光譜成像系統(tǒng)(圖1)由實(shí)驗(yàn)暗箱、 成像光譜儀以及數(shù)據(jù)收集處理單元組成。 實(shí)驗(yàn)暗箱包含可放置樣本的移動升降臺和兩個(gè)150瓦的鹵素?zé)簦?高光譜成像儀為(SOC710VP, USA); 數(shù)據(jù)收集處理單元包括: 帶有光譜數(shù)據(jù)采集軟件的計(jì)算機(jī)(用于設(shè)置曝光時(shí)間, 修改圖像分辨率以及對樣本光譜的分析)。
圖1 高光譜成像系統(tǒng)裝置原理圖
測量之前, 打開儀器30 min使光照穩(wěn)定。 在黑板上每次放置48粒大米, 將大米按照6行8列排列放置在置物臺上。 調(diào)節(jié)樣本與鏡頭距離為35 cm并使鏡頭焦距對焦, 保證高光譜圖像中只有大米矩陣, 以便更好采集大米的實(shí)際形態(tài)。 本實(shí)驗(yàn)設(shè)置的圖像分辨率相對較高為1 392×1 392, 曝光時(shí)間設(shè)置也相對增加為200 ms。 使用線性掃描的方式獲取大米的三維(x,y,λ,x和y為空間維度,λ為光譜維度)高光譜圖像。 每種大米的每個(gè)批次采集兩張高光譜圖像, 7種大米共采集42張高光譜圖像。
為減少CCD相機(jī)長期使用而產(chǎn)生的暗電流, 噪聲以及光照不穩(wěn)定等因素影響, 需要對高光譜圖像進(jìn)行黑白板校正。 如式(1)所示
(1)
式(1)中,I為校正后大米圖像;I0為原始圖像;B為黑板圖像;W為白板圖像。
1.3.1 光譜特征
光譜特征是對高光譜圖像中的每粒大米進(jìn)行感興趣區(qū)域的提取與計(jì)算所得。 感興趣區(qū)域提取與計(jì)算的流程為: 對高光譜圖像去除噪聲和背景, 再進(jìn)行閾值化分割轉(zhuǎn)變?yōu)槎祱D像, 對大米矩陣中的每粒大米提取感興趣區(qū)域, 再計(jì)算每粒大米像素的平均反射率, 以此作為光譜特征。 為提高大米種類鑒別的準(zhǔn)確性, 使用了MSC對光譜進(jìn)行預(yù)處理。 MSC是常用于修正光譜間的相對基線平移和偏移校正的一種數(shù)據(jù)處理方法, 經(jīng)過散射校正后的光譜可以有效的地消除散射影響, 增強(qiáng)有用的光譜吸收信息。
1.3.2 圖像特征
針對大米的特點(diǎn), 圖像特征選用紋理和形態(tài)兩種特征。 使用灰度梯度共生矩陣(GLGCM)來提取大米的紋理特征。 GLGCM是綜合了灰度和梯度信息來提取紋理特征。 在灰度共生矩陣中加入圖像的梯度信息, 使共生矩陣更能包含圖像的紋理基元和排列信息。 主要有15個(gè)特征值: 小梯度優(yōu)勢(2), 大梯度優(yōu)勢(3), 灰度分布的不均勻性(4), 梯度分布的不均勻性(5), 能量(6), 灰度平均(7), 梯度平均(8), 灰度均方差(9), 梯度均方差(10), 相關(guān)性(11), 灰度熵(12), 梯度熵(13), 混合熵(14), 慣性(15), 逆差矩(16)。
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
對只有大米區(qū)域的二值圖像使用輪廓追蹤方法獲取每粒大米的外邊界, 再進(jìn)行8聯(lián)通處理后標(biāo)注, 最后提取大米的形態(tài)特征。 基于前人的研究選取了以下11種大米的形態(tài)參數(shù): 長度(大米最小外接矩形的長); 寬度(大米最小外接矩形的寬); 周長(大米邊緣上所有像素?cái)?shù)之和); 面積(大米區(qū)域內(nèi)所有像素和); 長軸長(與大米區(qū)域具有相同標(biāo)準(zhǔn)二階中心矩的橢圓的長軸長度(像素意義下)); 短軸長(與大米區(qū)域具有相同標(biāo)準(zhǔn)二階中心矩的橢圓的短軸長度(像素意義下)); 離心率(與區(qū)域具有相同標(biāo)準(zhǔn)二階中心矩的橢圓的離心率); 緊密度(大米面積與大米最小外接矩形面積的比值); 長短軸比(大米長軸長與短軸長的比值); 外觀比(大米最小外接矩形的長寬比值); 最小外接矩形面積(大米最小外接矩形的面積=長度×寬度)。 由于紋理和形態(tài)的特征參數(shù)的數(shù)值差異性較大, 采用歸一化處理將所有圖像特征的數(shù)值換算到同一個(gè)量級內(nèi), 從而達(dá)到消除各特征值之間的差異。
選用SPA和CARS以及CARS-SPA三種高效的變量選擇方法選取大米的重要波長。 同時(shí), 選擇了最簡便的SPA選取紋理和形態(tài)特征的重要變量。 SPA是一種前向變量選擇算法, 可使矢量空間共線性最小化, 對于光譜特征可提取最優(yōu)的特征波長, 對于圖像特征可挑選出重要的特征參數(shù), 消除原始特征矩陣中冗余的信息, 被廣泛用于特征的篩選。 CARS是建立在模仿達(dá)爾文進(jìn)化理論中“適者生存”的原則基礎(chǔ)上提出的變量選擇方法, 該算法在消除無信息變量的同時(shí)可以對共線性信息進(jìn)行去除。 還使用了CARS和SPA的級聯(lián)方法, 先利用CARS篩出部分無信息和冗余特征, 再用SPA對特征變量進(jìn)行選擇。
CNN, KNN和RF被用于構(gòu)建分類模型, 實(shí)現(xiàn)對大米種類的鑒別。 CNN是一種常用的神經(jīng)網(wǎng)絡(luò)模型, 它的神經(jīng)元間的連接是非全連接的, 并且同一層中某些神經(jīng)元之間的連接的權(quán)重是共享的(即相同的)。
CNN的結(jié)構(gòu)包括卷積層、 池化層、 規(guī)范層(batch normalization, BN)以及全連接層。 卷積層主要是用來提取輸入的不同特征, BN層的作用是防止過擬合。 池化層將卷積層得到的高維度特征切分成幾個(gè)區(qū)域, 取其最大值或平均值, 得到新的并且維度較小的特征。 全連接層則是將所有局部特征結(jié)合變成全局特征, 用來計(jì)算最后每一類的得分。 本工作所用的CNN算法結(jié)構(gòu)為: 三層卷積層, 兩層規(guī)范層, 兩層池化層以及兩層全連接層, 兩層的規(guī)范層與前兩層卷積層融合(圖2)。 同時(shí)在全連接層添加了起加速運(yùn)算和防止過擬合作用的Dropout(Dropout是指神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中將神經(jīng)網(wǎng)絡(luò)單元按照一定的概率從網(wǎng)絡(luò)中暫時(shí)丟棄)。 其中, CNN的輸入是將一維特征數(shù)據(jù)轉(zhuǎn)化為3x1的二維向量。 CNN的參數(shù)包括learning_rate, batch_size, n_epochs, nkerns和poolsize。
KNN是一種簡單的分類算法, 核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別, 則該樣本也屬于這個(gè)類別, 并具有這個(gè)類別上樣本的特性。 這種方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。 其模型參數(shù)包括: n_neighbors(KNN中的K值)、 weights(確定每個(gè)樣本的最近鄰樣本的權(quán)重, 默認(rèn)為“uniform”即所有最近鄰樣本有相同的權(quán)值)。
RF是一種基于Bagging算法的重要的集成學(xué)習(xí)方法, 可以用來做分類、 回歸等問題。 隨機(jī)森林算法具有很多優(yōu)點(diǎn): 能夠處理很高維度的數(shù)據(jù), 不需要做特征選擇, 對數(shù)據(jù)集的適應(yīng)能力強(qiáng): 能處理多種類型的數(shù)據(jù), 數(shù)據(jù)集無需規(guī)范化; 訓(xùn)練速度快, 可以得到變量重要性排序; 不容易陷入過擬合。 其模型參數(shù)包括: n_estimators(隨機(jī)森林中決策樹的數(shù)目)、 max_features(隨機(jī)森林分區(qū)的最大特征數(shù))、 max_depth(決策樹的最大深度)。
圖2 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖
每類大米數(shù)據(jù)按照3∶2被劃分成訓(xùn)練集與預(yù)測集。 每種大米288個(gè)樣本, 173個(gè)樣本數(shù)據(jù)被選為訓(xùn)練集, 115個(gè)樣本數(shù)據(jù)作為預(yù)測集, 七種大米共2 016個(gè)樣本。 分類模型的優(yōu)劣是基于分類準(zhǔn)確度(accuracy, ACC)進(jìn)行評估[12]。 ACCT和ACCP分別表征訓(xùn)練集和預(yù)測集的分類準(zhǔn)確度。 圖譜特征的提取, 光譜的預(yù)處理以及特征的變量選擇均是基于MATLAB(R2017b)實(shí)現(xiàn)。 三種分類算法則是基于Python語言的Scikit-learn框架實(shí)現(xiàn)。
為提高大米種類鑒別的準(zhǔn)確度, 選用MSC對400~1 000 nm范圍內(nèi)的大米光譜進(jìn)行預(yù)處理。 圖3(a)和(b)可明顯看出預(yù)處理后的一種大米的光譜相較于原始光譜更加集中, 消除了光譜的散射, 增大七種大米光譜反射率的區(qū)別。 因?yàn)镸SC是用于修正光譜間的相對基線平移和偏移校正的一種數(shù)據(jù)處理方法, 經(jīng)過散射校正后的光譜可以有效的地消除散射影響, 增強(qiáng)有用的光譜吸收信息。 圖3(c)可見七種大米的光譜曲線整體趨勢相同, 在可見光波段(400~680 nm)大米的反射率較低, 曲線平滑。 隨后光譜曲線突增, 在近紅外波段(720~1 000 nm)大米的反射率維持在0.35~0.5之間, 在883, 889和896 nm有三個(gè)窄帶吸收峰, 其出現(xiàn)的原因是大米中與水分有關(guān)的O—H官能團(tuán)的第三次泛音拉伸[13]。 大米的光譜提供了大米主要成分的化學(xué)信息, 如蛋白質(zhì)、 淀粉和水分, 這些成分與C—H (910 nm), O—H (750~900 nm)和N—H (962~1 000 nm)泛音的拉伸有關(guān)[14]。 同時(shí), 在近紅外波段可明顯觀察到七種大米具有不同的反射率曲線, 光譜特征大體可實(shí)現(xiàn)大米種類的區(qū)分, 但有些大米曲線相近, 可能無法準(zhǔn)確鑒別, 如五常大米和絲苗米, 上林大米和盤錦大米, 需補(bǔ)充大米其他特征信息來提升大米的鑒別度。
圖3 一種大米的原始反射率光譜(a)、 MSC預(yù)處理光譜(b)以及七種大米的平均反射率光譜(c)
利用SPA, CARS以及CARS-SPA對大米的光譜特征進(jìn)行重要波長的選擇, 減少光譜特征的冗余信息, 為后期數(shù)據(jù)分析提高計(jì)算速率。 SPA通過設(shè)置最小波長點(diǎn)個(gè)數(shù)來確定特征波長數(shù), 最終獲取15個(gè)光譜重要波長。 CARS是通過自適應(yīng)重加權(quán)采樣技術(shù)選擇出模型中回歸系數(shù)絕對值大的波長點(diǎn), 去掉權(quán)重小的波長點(diǎn), 再利用交互驗(yàn)證選出RMSECV值最低的子集, 可有效的找到最優(yōu)波長組合。 經(jīng)過多次試驗(yàn)得出均方根誤差RMSECV的最小值為1.69, 從而得到12個(gè)光譜重要波長。 對于CARS-SPA級聯(lián)方法, 先使用CARS對大米光譜特征進(jìn)行降維后再使用SPA選取最終特征, 經(jīng)過多次嘗試挑選出14個(gè)光譜重要波長(表1)。 SPA和CARS-SPA選取的波長大多數(shù)在近紅外端, 而CARS選取的波長在可見端和近紅外端分布均勻。
表1 不同特征選擇算法選取的光譜重要波長
表2 使用光譜特征的大米種類鑒別結(jié)果(%)
對260維的全光譜特征和光譜重要波長使用KNN, RF和CNN構(gòu)建模型, 結(jié)果在表2中顯示。 對于全光譜特征, KNN建模效果最差, RF的效果較好, CNN網(wǎng)絡(luò)的模型性能最優(yōu), ACCT和ACCP分別為92.96%和89.71%。 對SPA和CARS-SPA選擇的重要波長構(gòu)建分類模型, RF模型的效果較好, KNN次之, CNN模型則相差較多, 對大米種類鑒別準(zhǔn)確度都低于70%。 對CARS方法選擇的重要波長建模分析, CNN網(wǎng)絡(luò)較差A(yù)CCT為62.37%, ACCP為60.22%; KNN模型的預(yù)測集準(zhǔn)確度為69%; RF分類結(jié)果最佳, ACCT和ACCP分別為99.99%和74.97%。 優(yōu)于其他兩種變量選擇方法。 但光譜的重要波長相較于全光譜特征的分類準(zhǔn)確度相差較多, 原因可能是光譜整體差異不大, 選擇出來的光譜變量不能表達(dá)出全光譜信息。 此外, 為了更準(zhǔn)確區(qū)分多種大米的種類, 全光譜的分類準(zhǔn)確度有待提高, 需要融入更多信息。
為了融入更多大米的特征信息, 取了大米的紋理和形態(tài)特征。 選用GLGCM方法選取了15個(gè)紋理特征, 形態(tài)特征則選取了11個(gè)常用的大米形態(tài)特征。 為減少紋理和形態(tài)特征的信息冗余, 挑選出與大米種類相關(guān)性較高的重要變量。 考慮到簡便、 快速等特點(diǎn), SPA被用于對形態(tài)、 紋理特征的篩選。 對紋理特征選取了8個(gè)紋理特征變量, 分別為小梯度優(yōu)勢、 能量、 梯度平均、 灰度均方差、 相關(guān)性、 灰度熵、 梯度熵和慣性。 對形態(tài)特征選取面積, 長軸長, 長短軸比三個(gè)特征變量。 為了更直觀地了解選擇后的紋理、 形態(tài)特征重要變量的整體情況, 我們計(jì)算它們的均值和標(biāo)準(zhǔn)差(表3、 圖4)。
表3 經(jīng)過SPA挑選的八個(gè)紋理特征的均值與標(biāo)準(zhǔn)差(Mean為參數(shù)的均值, Std為參數(shù)的標(biāo)準(zhǔn)差)(像素)
圖4 經(jīng)過SPA挑選的三個(gè)形態(tài)特征(面積, 長軸長, 長短軸比)的均值(a)和標(biāo)準(zhǔn)差(b)
表3可以看出七種大米的紋理特征參數(shù)的均值都有所不同, 但均值差異較小且各個(gè)紋理變量的標(biāo)準(zhǔn)差大都相近, 可用于大米種類區(qū)分但分類效果有待繼續(xù)探究。 圖4中不同種類大米的形態(tài)特征重要變量的均值和標(biāo)準(zhǔn)差的數(shù)值相差不同, 有些差異較大, 有些則相近。 同時(shí), 相較于所選的紋理參數(shù), 形態(tài)參數(shù)的差異較大, 對大米鑒別的貢獻(xiàn)能力可能更大。 綜上, 不同種類大米的紋理、 形態(tài)特征存在一定的區(qū)別, 可作為大米種類鑒別的輔助信息。
為準(zhǔn)確識別七種名優(yōu)大米, 對光譜與紋理、 形態(tài)融合特征構(gòu)建模型(表4)。 KNN模型的分類精度非常差, 光譜與紋理融合的預(yù)測集精度只有45%左右, 光譜與形態(tài)結(jié)合的預(yù)測集準(zhǔn)確度67%左右。 說明KNN模型不適用于多元信息結(jié)合的數(shù)據(jù)。 RF模型的ACCP都在80%以上, 光譜與紋理融合的準(zhǔn)確度在81%左右, 而光譜與形態(tài)融合的準(zhǔn)確度在89%左右。 最優(yōu)結(jié)果來自光譜與形態(tài)特征重要變量的融合, ACCT和ACCP為 99.98%和89.10%。 RF分類準(zhǔn)確度較高的原因是RF里的每一個(gè)決策樹都需要預(yù)測出一個(gè)結(jié)果, 然后綜合考慮所有結(jié)果給出最終的預(yù)測, 對于數(shù)據(jù)集表現(xiàn)良好, 因此精確度比較高。
表4 融合光譜、 紋理與形態(tài)的大米種類鑒別結(jié)果(%)
對于CNN模型, 光譜與紋理結(jié)合的ACCP為82%以上, 而光譜與形態(tài)結(jié)合的ACCP達(dá)到93%以上, 優(yōu)于RF模型。 光譜與形態(tài)特征重要變量融合的分類效果最佳(ACCT=97.19%, ACCP=94.55%), 具體分類結(jié)果顯示在圖5, 可直觀的看出每類樣本的具體錯(cuò)分情況。 其中, 第一類錯(cuò)分成第七類的樣本較多, 第五類錯(cuò)分成第一類和第七類的樣本較多, 第七類錯(cuò)分成第一類的較多。 說明第一類(京和橋米)、 第五類(上林大米)和第七類大米(五常大米)的相似度較高, 是影響大米種類鑒別準(zhǔn)確度的主要因素。
圖5 光譜與形態(tài)重要變量融合的分類散點(diǎn)圖
綜上所述, 對于圖譜特征的融合, 光譜與形態(tài)特征重要變量融合的特征最優(yōu)。 光譜與紋理融合的建模差于僅用光譜建模, 說明紋理特征弱化了分類結(jié)果, 因?yàn)椴煌N類大米的差異較小, 紋理信息作用不明顯, 因此建模效果差。 對于模型性能來說, CNN模型的性能明顯優(yōu)于其他兩種機(jī)器學(xué)習(xí)方法, 可以提供更好的分類效果。
發(fā)展一種高光譜成像的圖譜特征與深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合的名優(yōu)大米無損鑒別方法。 對高光譜圖像提取每種大米的光譜、 紋理與形態(tài)特征, 并選取各類特征中的重要變量。 緊接著, KNN, RF和CNN融合上述特征構(gòu)建大米種類識別模型。 結(jié)果表明, 使用CNN模型對全光譜特征建模分析, 其ACCT和ACCP分別為92.96%和89.71%。 光譜特征重要波長的最優(yōu)結(jié)果ACCP僅為74.97%, 明顯差于使用全光譜的分類準(zhǔn)確度。 對于圖譜特征的融合, 紋理特征的融入弱化了分類性能, 而光譜與形態(tài)特征的融合則提升了分類準(zhǔn)確度。 其中, 光譜與形態(tài)特征變量的融合的效果較好, 且CNN對大米識別的準(zhǔn)確度最高, ACCT和ACCP分別為97.19%和94.55%。 綜上, 基于CNN融合光譜、 形態(tài)特征重要變量可實(shí)現(xiàn)對大米種類的準(zhǔn)確鑒別, 當(dāng)然也可應(yīng)用于其他農(nóng)產(chǎn)品的鑒別和品質(zhì)分析。 然而, 成像光譜儀時(shí)間與經(jīng)濟(jì)成本較高, 構(gòu)建簡易、 低成本的大米種類分析將具有更高的應(yīng)用價(jià)值。 本研究結(jié)果還為基于非成像光譜儀、 數(shù)字圖像設(shè)備搭建大米種類鑒別的便攜式裝置積累相關(guān)經(jīng)驗(yàn), 為大米種類的在線分析提供了技術(shù)參考。