呂 都
唐健波1
姜太玲2
陳中愛(ài)1
潘 牧1
(1. 貴州省農(nóng)業(yè)科學(xué)院生物技術(shù)研究所,貴州 貴陽(yáng) 550006;2. 云南省農(nóng)業(yè)科學(xué)院熱帶亞熱帶經(jīng)濟(jì)作物研究所,云南 保山 678000)
稻谷是水稻的籽實(shí),是中國(guó)三大糧食作物之一,在中國(guó)有超過(guò)60%的人口以稻谷脫殼加工獲得的大米為主食[1-3]。中國(guó)是目前已知的栽培稻起源地,種植歷史悠久,可以追溯到1.4萬(wàn)年之前。2020年,國(guó)家統(tǒng)計(jì)局發(fā)布的《中國(guó)統(tǒng)計(jì)年鑒》顯示,中國(guó)稻谷總產(chǎn)量約為2.1億t[4],占全球稻谷產(chǎn)量的32.5%左右[5]。稻谷具有完整的稻殼可以保護(hù)穎果,使其在貯藏過(guò)程中保持品質(zhì)穩(wěn)定,稻殼對(duì)防止蟲霉危害與緩解稻米吸濕有一定的作用,因此,大米多以稻谷的形式來(lái)進(jìn)行貯藏。
目前,稻谷水分含量的測(cè)定方法主要有GB 5009.3—2016《食品安全國(guó)家標(biāo)準(zhǔn) 食品中水分的測(cè)定》中的第一法105 ℃直接干燥法和GB/T 20264—2006《糧食、油料水分兩次烘干測(cè)定法》中推薦的方法。這兩種方法檢測(cè)精度高,但是存在對(duì)樣品破壞度大、試驗(yàn)操作繁瑣、試驗(yàn)條件要求高、檢測(cè)結(jié)果時(shí)間長(zhǎng)等問(wèn)題。
近紅外光譜快速檢測(cè)技術(shù)因具有不用破壞樣品、樣品無(wú)需前處理、操作簡(jiǎn)單、檢測(cè)時(shí)間短、檢測(cè)速度快等優(yōu)點(diǎn)[6]9-10,近年來(lái)被廣泛應(yīng)用于農(nóng)業(yè)領(lǐng)域,如谷物(稻谷、小麥和大豆等)營(yíng)養(yǎng)成分分析[7]、水果品質(zhì)分析[8]和產(chǎn)地鑒別[9]、肉制品摻假鑒別[10-11]等。鞠興榮等[12]采用近紅外光譜技術(shù)建立稻谷水分預(yù)測(cè)模型,但效果不佳,模型決定系數(shù)為0.968 9,模型的標(biāo)準(zhǔn)偏差為0.343 4%,可能是其收集的樣品主要集中在1個(gè)地區(qū),時(shí)間跨度僅有2年。楊學(xué)文[13]采用近紅外光譜技術(shù)建立稻谷水分含量預(yù)測(cè)模型,模型決定系數(shù)為0.990 3,模型的標(biāo)準(zhǔn)偏差為0.372 8%,較鞠興榮等[12]的研究結(jié)果,其預(yù)測(cè)模型的能力有所提升,可能是其收集的樣品來(lái)自南方4個(gè)不同地區(qū),但是其并未關(guān)注樣品收集的時(shí)間跨度。稻谷水分預(yù)測(cè)模型的預(yù)測(cè)精準(zhǔn)度與參與建立預(yù)測(cè)模型的樣品地域數(shù)量和時(shí)間跨度相關(guān),即收集的樣品地區(qū)越多越好,時(shí)間跨度越久越好。研究收集了2019—2021年中國(guó)北方和南方5個(gè)不同省份的稻谷樣品,擬采用近紅外光譜結(jié)合化學(xué)計(jì)量學(xué)方法,建立稻谷水分含量快速預(yù)測(cè)模型,以期進(jìn)一步提高稻谷水分預(yù)測(cè)模型的預(yù)測(cè)精準(zhǔn)度,并為稻谷收儲(chǔ)提供一種快速準(zhǔn)確的檢測(cè)方法。
稻谷(2019年,貴州省21份、遼寧省6份、黑龍江省11份、云南省15份和四川省19份;2020年,貴州省17份、遼寧省8份、黑龍江省6份、云南省12份和四川省21份,2021年,貴州省9份、遼寧省4份、黑龍江省5份、云南省3份和四川省4份):貴州省湄潭縣茅壩御膳米業(yè)有限公司;
傅里葉變換近紅外光譜儀:MPA型,德國(guó)Bruker公司;
高速萬(wàn)能粉碎機(jī):FW-100型,天津市泰斯特儀器有限公司;
電熱鼓風(fēng)干燥箱:WGL-125B型,天津市泰斯特儀器有限公司。
1.2.1 稻谷樣品水分含量測(cè)定和近紅外光譜的采集 按照GB/T 20264—2006推薦方法測(cè)定稻谷樣品中的水分含量。使用傅里葉變換近紅外光譜儀,調(diào)用積分球旋轉(zhuǎn)程序,在室溫條件下對(duì)稻谷樣品進(jìn)行近紅外光譜的采集。將鍍金漫反射體作為參比,每隔1 h掃描一次背景光譜。同一人操作,稻谷樣品裝入樣品杯中,以保證裝樣的緊密程度基本一致。光譜掃描范圍12 790.3~3 594.9 cm-1,分辨率16 cm-1,掃描次數(shù)64次,每個(gè)樣品重復(fù)3次,并求每個(gè)樣品的平均光譜。
1.2.2 稻谷異常近紅外光譜的剔除和訓(xùn)練集與驗(yàn)證集的劃分 采用主成分分析結(jié)合馬氏距離的方法[14](PCA-MD),來(lái)識(shí)別稻谷樣品中的異常樣品光譜。使用基于聯(lián)合x-y距離的樣本集劃分方法[15](SPXY),按照訓(xùn)練集與驗(yàn)證集樣品數(shù)量之比3∶1,將剔除異常樣品后的全部樣品光譜劃分為訓(xùn)練集和驗(yàn)證集。
(1)
式中:
yi,actual——訓(xùn)練集中樣品的水分含量實(shí)測(cè)值,%;
yi,predicted——訓(xùn)練集中樣品的水分含量預(yù)測(cè)值,%;
(2)
式中:
RMSEC——模型標(biāo)準(zhǔn)偏差,%;
yi,actual——訓(xùn)練集中樣品的水分含量實(shí)測(cè)值,%;
yi,predicted——訓(xùn)練集中樣品的水分含量預(yù)測(cè)值,%;
n——訓(xùn)練集中樣品數(shù)量。
(3)
式中:
yi,actual——訓(xùn)練集中交叉驗(yàn)證樣品的水分含量實(shí)測(cè)值,%;
yi,predicted——訓(xùn)練集中交叉驗(yàn)證樣品的水分含量預(yù)測(cè)值,%;
(4)
式中:
RMSECV——模型交叉驗(yàn)證標(biāo)準(zhǔn)偏差,%;
yi,actual——訓(xùn)練集中交叉驗(yàn)證樣品的水分含量實(shí)測(cè)值,%;
yi,predicted——訓(xùn)練集中交叉驗(yàn)證樣品的水分含量預(yù)測(cè)值,%;
n——訓(xùn)練集中樣品數(shù)量。
(5)
式中:
yi,actual——驗(yàn)證集中樣品的水分含量實(shí)測(cè)值,%;
yi,predicted——驗(yàn)證集中樣品的水分含量預(yù)測(cè)值,%;
(6)
式中:
RMSEP——模型驗(yàn)證集驗(yàn)證標(biāo)準(zhǔn)偏差,%;
yi,actual——驗(yàn)證集中樣品的水分含量實(shí)測(cè)值,%;
yi,predicted——驗(yàn)證集中樣品的水分含量預(yù)測(cè)值,%;
m——驗(yàn)證集中樣品數(shù)量。
(7)
式中:
RPD——相對(duì)分析誤差;
SD,VAL——驗(yàn)證集樣品水分含量標(biāo)準(zhǔn)差,%;
RMSEP——模型驗(yàn)證集驗(yàn)證標(biāo)準(zhǔn)偏差,%。
161份稻谷樣品的水分含量結(jié)果見表1,水分含量頻率分布直方圖和正態(tài)分布曲線圖見圖1。由表1和圖1可知,稻谷樣品中水分含量在8.95%~25.01%,稻谷樣品的水分含量主要分布于12%~15%,水分含量在9%以上和18%以上的樣品量較少,表明收集的稻谷樣品能夠很好地代表實(shí)際生產(chǎn)中稻谷水分含量的情況。
表1 161份稻谷樣品水分含量的測(cè)定結(jié)果Table 1 The determination results of 161 samples of rice moisture content
圖1 161份樣品水分含量頻率分布直方圖和正態(tài)分布曲線圖
近紅外光譜吸收譜帶重疊嚴(yán)重,譜圖解析只能判斷樣品中存在的化學(xué)基團(tuán),并不能直接獲取更多的有效信息。161份稻谷樣品的近紅外光譜圖見圖2。由圖2可知,不同水分含量稻谷樣品的近紅外光譜圖,在12 000~4 000 cm-1內(nèi)譜圖趨勢(shì)相似,但是樣品譜圖不重合,表明不同含水量稻谷的近紅外光譜圖重現(xiàn)性好,且樣品存在差異。樣品間的差異可能來(lái)源于樣品本身,也有可能來(lái)自于操作者和圖像噪聲,因此,需要對(duì)161個(gè)樣品的近紅外光譜進(jìn)行剔除異常光譜和光譜預(yù)處理。
圖2 161份稻谷樣品的近紅外光譜圖Figure 2 The near infrared spectra of the 161 sample
異常樣本會(huì)對(duì)近紅外模型產(chǎn)生很大的影響,不僅會(huì)誤導(dǎo)近紅外光譜變量的選擇,而且還會(huì)對(duì)近紅外模型的參數(shù)估計(jì)產(chǎn)生偏離影響,嚴(yán)重影響了近紅外模型的預(yù)測(cè)準(zhǔn)確性和穩(wěn)健性[6]120。采用馬氏距離剔除異常光譜,從161份樣品光譜中剔除了15個(gè)樣品光譜,結(jié)果見圖3。采用SPXY樣品劃分方法,將剩余的146個(gè)樣品,按照3∶1的比例劃分獲得訓(xùn)練集111個(gè)樣品,驗(yàn)證集35個(gè)樣品。訓(xùn)練集和驗(yàn)證集樣品水分含量結(jié)果見表2,訓(xùn)練集和驗(yàn)證集樣品水分含量頻率分布直方圖和正態(tài)分布曲線圖見圖4。
圖3 樣品中異常光譜的剔除結(jié)果Figure 3 The elimination results of abnormalspectra in samples
由表2可知,參與建立預(yù)測(cè)模型的訓(xùn)練集樣品水分含量范圍為8.95%~25.01%,驗(yàn)證集樣品水分含量范圍為8.98%~22.01%。訓(xùn)練集模型可預(yù)測(cè)的水分范圍包含驗(yàn)證集樣品水分含量范圍,表明訓(xùn)練集和驗(yàn)證集的劃分合理。由圖4可知,訓(xùn)練集和驗(yàn)證集樣品的水分含量主要分布于12%~15%,9%以下和18%以上的樣品較少,表明訓(xùn)練集樣品和驗(yàn)證集樣品都具有很好的代表性。
表2 訓(xùn)練集和驗(yàn)證集樣品水分含量結(jié)果Table 2 The moisture content results of training set and validation set sample
圖4 訓(xùn)練集和驗(yàn)證集樣品水分含量頻率分布直方圖和正態(tài)分布曲線圖Figure 4 The frequency sample moisture content distribution histogram and the normal distributioncurve of training set and validation set
表3 訓(xùn)練集預(yù)測(cè)模型的建立與優(yōu)化結(jié)果對(duì)比Table 3 The results of forecast model on the training set and optimization
圖5 訓(xùn)練集樣品實(shí)測(cè)值與預(yù)測(cè)值結(jié)果對(duì)比
驗(yàn)證集樣品不參與預(yù)測(cè)模型的建立,即相對(duì)于預(yù)測(cè)模型來(lái)說(shuō),驗(yàn)證集樣品屬于未知水分含量樣品。驗(yàn)證集樣品用于訓(xùn)練集建立預(yù)測(cè)模型的檢驗(yàn),以考察預(yù)測(cè)模型的泛化預(yù)測(cè)能力。驗(yàn)證集樣品實(shí)測(cè)值與預(yù)測(cè)值結(jié)果的線性關(guān)系,以及樣品預(yù)測(cè)值與實(shí)測(cè)值誤差結(jié)果見圖6。對(duì)驗(yàn)證集樣品實(shí)測(cè)值與預(yù)測(cè)值結(jié)果進(jìn)行T檢驗(yàn),結(jié)果見表4。
表4 驗(yàn)證集樣品實(shí)測(cè)值與預(yù)測(cè)值結(jié)果進(jìn)行T檢驗(yàn)結(jié)果Table 4 The T test results of validation set between measured and predicted
圖6 驗(yàn)證集樣品實(shí)測(cè)值與預(yù)測(cè)值結(jié)果對(duì)比
研究收集了2019—2021年5個(gè)不同地區(qū)(貴州省、遼寧省、黑龍江省、云南省和四川省)的稻谷樣品,合計(jì)161份,通過(guò)采集樣品的近紅外光譜圖,建立并優(yōu)化稻谷水分含量預(yù)測(cè)模型。稻谷水分預(yù)測(cè)模型對(duì)驗(yàn)證集樣品,預(yù)測(cè)能力強(qiáng),90%以上的驗(yàn)證集樣品其預(yù)測(cè)值與實(shí)測(cè)值的誤差都在±0.5%以內(nèi),相對(duì)分析誤差為7.14,且驗(yàn)證集樣品實(shí)測(cè)值與預(yù)測(cè)值之間差異不顯著,表明稻谷水分含量預(yù)測(cè)模型能夠很好地快速預(yù)測(cè)稻谷樣品的水分含量。水分含量是稻谷收儲(chǔ)期間的一個(gè)重要指標(biāo),近紅外無(wú)損檢測(cè)技術(shù),操作簡(jiǎn)單、檢測(cè)時(shí)間短、檢測(cè)效率高,可以為稻谷收儲(chǔ)期間水分測(cè)定進(jìn)行快速準(zhǔn)確的檢測(cè)。近紅外預(yù)測(cè)模型的應(yīng)用具有一定的局限性,預(yù)測(cè)模型應(yīng)用共享程度不高,未來(lái)可以建立“互聯(lián)網(wǎng)+近紅外預(yù)測(cè)模型”,實(shí)現(xiàn)近紅外預(yù)測(cè)模型的應(yīng)用共享,提高近紅外預(yù)測(cè)模型的應(yīng)用程度。