楊志曉,范艷峰,鄭喬丹
1.河南牧業(yè)經(jīng)濟(jì)學(xué)院 能源與智能工程學(xué)院,河南 鄭州 450011 2.河南工業(yè)大學(xué) 糧食信息處理與控制教育部重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001 3.河南省糧食光電探測(cè)與控制重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001
小麥的幾何、顏色、紋理等外觀特征是區(qū)分不同品種、不同品質(zhì)小麥的重要屬性[1-3]。其中小麥顏色是最直觀的外觀特征,主要有黃色、白色、藍(lán)色、紫色、紅色等[4]?;ㄇ嗨厥怯绊懶←滎伾闹匾蛩兀ㄇ嗨氐姆N類(lèi)不同,小麥呈現(xiàn)不同的顏色。小麥在儲(chǔ)藏過(guò)程中,由于性狀的改變、霉變[5-6],以及病蟲(chóng)害的發(fā)生,其顏色也會(huì)發(fā)生變化。小麥籽粒顏色是影響面粉顏色的重要因素之一,而面粉顏色直接決定面制品的品質(zhì)性狀[7]。目前,對(duì)小麥顏色的研究,多從基因和遺傳學(xué)的角度進(jìn)行[8-12]。張藍(lán)月[12]對(duì)小麥粉L*、a*、b*值隨儲(chǔ)藏條件的變化進(jìn)行了研究。總的來(lái)看,對(duì)儲(chǔ)藏小麥顏色的變化與其性狀的關(guān)系研究還相對(duì)較少。小麥顏色能夠在以機(jī)器視覺(jué)為代表的小麥品種和品質(zhì)檢測(cè)中發(fā)揮重要作用。如使用小麥顏色、幾何、紋理特征的稀疏表示方法進(jìn)行小麥品種識(shí)別[13];利用小麥的顏色、幾何特征訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)對(duì)小麥的品種進(jìn)行分類(lèi)[14];從麥粒的圖像訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)識(shí)別不同品種的小麥[15]。同一品種的小麥,經(jīng)過(guò)一段時(shí)間儲(chǔ)藏后,如果顏色發(fā)生較明顯的改變,那么可以認(rèn)為小麥的性狀、品質(zhì)發(fā)生了變化。因此小麥顏色是反映其儲(chǔ)藏品質(zhì)的重要特征。此外,如果能夠知道小麥顏色隨儲(chǔ)藏條件、儲(chǔ)藏時(shí)間的變化規(guī)律,還可以根據(jù)其顏色值推斷小麥大致的儲(chǔ)藏時(shí)間。因此,作者選擇顏色作為麥粒的典型外觀特征,開(kāi)展儲(chǔ)藏小麥顏色時(shí)變特性的研究,得到小麥顏色隨儲(chǔ)藏條件、儲(chǔ)藏時(shí)間的變化規(guī)律,對(duì)小麥品質(zhì)檢測(cè)具有重要意義。
稱取約500 g小麥粒樣本。隨機(jī)選擇一定數(shù)量的小麥粒,將其散開(kāi),方位、朝向隨機(jī)地放置于黑色平整平面上。小麥粒之間互不接觸。使用相機(jī)拍攝放置好的小麥粒圖像,保存為jpg格式。將被拍攝的小麥粒與其他樣本一起,暴露于空氣中,常溫儲(chǔ)藏。每隔3月重復(fù)上述操作,拍攝獲取小麥粒圖像。對(duì)拍攝獲得的小麥粒圖像,基于Python編程語(yǔ)言和scikit-image圖像處理模塊,編寫(xiě)麥粒圖像特征提取和分析程序。將jpg格式的彩色圖像轉(zhuǎn)換為灰度圖像,獲取灰度圖像上每個(gè)麥粒的閉合圖像區(qū)域,計(jì)算并獲取每個(gè)麥粒圖像的中心位置、方位、長(zhǎng)軸、短軸。在每個(gè)麥粒圖像的長(zhǎng)軸、短軸上共選取25個(gè)點(diǎn),如圖1a所示。在彩色圖像上,用矩形框?qū)?duì)應(yīng)位置的麥粒圖像進(jìn)行標(biāo)定,并標(biāo)出其長(zhǎng)軸、短軸的正半軸,如圖1b所示。
圖1 小麥圖像特征提取示意圖Fig.1 Schematic diagram of wheat image feature extraction
在麥粒彩色圖像和灰度圖像上,對(duì)所選擇的長(zhǎng)、短軸上的25個(gè)點(diǎn),分別提取每個(gè)點(diǎn)的紅、綠、藍(lán)、灰度4個(gè)顏色特征。將第1次拍攝的麥粒圖像以類(lèi)標(biāo)簽0標(biāo)記,將距第1次拍攝后小麥樣本放置3月再次拍攝的麥粒圖像以類(lèi)標(biāo)簽1標(biāo)記,將距第1次拍攝后小麥樣本放置6月拍攝的麥粒圖像以類(lèi)標(biāo)簽2標(biāo)記,由此共得到3個(gè)批次、儲(chǔ)藏期間隔為3月的小麥圖像。統(tǒng)計(jì)小麥顏色數(shù)據(jù)集的麥粒數(shù)量,紅(R)、綠(G)、藍(lán)(B)、灰度(Gray)樣本數(shù)量。類(lèi)標(biāo)簽為0時(shí),麥粒為165個(gè),R、G、B、Gray數(shù)量均為4 125個(gè);類(lèi)標(biāo)簽為1時(shí),麥粒為119個(gè),R、G、B、Gray數(shù)量均為2 975個(gè);類(lèi)標(biāo)簽為2時(shí),麥粒為134個(gè),R、G、B、Gray數(shù)量均為3 350個(gè)。
為了消除不同次拍攝照片時(shí)距離、光線等因素對(duì)顏色特征的影響,將每個(gè)儲(chǔ)藏期提取到的麥粒圖像顏色進(jìn)行極差標(biāo)準(zhǔn)化處理,計(jì)算公式為:
式中:x為某個(gè)顏色通道的顏色值;xmax為該顏色通道的最大顏色值;xmin為該顏色通道的最小顏色值;x′為標(biāo)準(zhǔn)化后的顏色值。標(biāo)準(zhǔn)化后,每個(gè)顏色通道的顏色值介于[0,1]。將標(biāo)準(zhǔn)化后的小麥顏色數(shù)據(jù)集保存為csv文本格式的數(shù)據(jù)文件。
從各通道顏色的分布、平均值角度,對(duì)小麥經(jīng)過(guò)不同儲(chǔ)藏期的顏色變化特性進(jìn)行分析,并考察不同儲(chǔ)藏期小麥顏色的可區(qū)分性。
顏色值能反映小麥顏色的整體情況。分別計(jì)算不同儲(chǔ)藏期各個(gè)通道的顏色值,它們隨儲(chǔ)藏時(shí)間的變化曲線如圖2所示。
圖2 小麥顏色值隨儲(chǔ)藏時(shí)間的變化Fig.2 Variation of wheat color values during storage
從圖2可以看出,小麥紅、綠、藍(lán)、灰度等顏色的特征值都隨儲(chǔ)藏時(shí)間的延長(zhǎng)而變大,且在測(cè)試時(shí)間段內(nèi)基本呈線性變化。這說(shuō)明小麥顏色的各個(gè)維度有隨儲(chǔ)藏期延長(zhǎng)而變大的趨勢(shì)。在各個(gè)時(shí)間節(jié)點(diǎn),小麥的紅色維平均值最大,藍(lán)色維平均值最小,綠色維平均值介于中間。
將測(cè)試期內(nèi)麥粒各顏色進(jìn)行線性回歸擬合,得到的顏色值隨儲(chǔ)藏時(shí)間變化的方程為:
R=0.02t+0.80,
G=0.03t+0.55,
B=0.02t+0.51,
Gray=0.03t+0.58,
式中:t為時(shí)間,月;R,G,B,Gray分別為介于[0,1]的顏色值。4個(gè)顏色通道的回歸線如圖3所示。
圖3 小麥顏色值隨儲(chǔ)藏時(shí)間的變化的回歸線Fig.3 Regression lines of wheat color valueschange during storage
顏色值只能反映小麥顏色的整體情況,要更詳細(xì)考察小麥顏色的狀況,可從分布的角度進(jìn)行分析。將[0,1]顏色區(qū)間劃分為20個(gè)等寬、相連的區(qū)間,統(tǒng)計(jì)每個(gè)顏色維的顏色值落在各個(gè)區(qū)間的頻率,作為顏色分布的概率密度估計(jì),可得各個(gè)儲(chǔ)藏期的小麥顏色分布,結(jié)果如圖4所示。從圖4a可以看出,小麥的綠、藍(lán)、灰度3個(gè)特征基本呈正態(tài)分布。紅色的概率密度峰值出現(xiàn)在顏色值域的最右側(cè)區(qū)間,也基本呈現(xiàn)左側(cè)半幅的正態(tài)分布。圖4b和圖4c表明,隨著儲(chǔ)藏時(shí)間的延長(zhǎng),綠、藍(lán)、灰度3個(gè)特征的概率密度峰值向右移動(dòng),說(shuō)明顏色值大的樣本數(shù)量隨儲(chǔ)藏期的延長(zhǎng)而增多。紅色概率密度峰值隨儲(chǔ)藏期的延長(zhǎng)而變大。
圖4 各儲(chǔ)藏期小麥顏色的分布Fig.4 Color distribution of wheat in different storage periods
表1給出了各個(gè)顏色維概率密度峰值在3個(gè)儲(chǔ)藏期的定量值及所處的顏色區(qū)間。可以看出,紅色峰值顏色值始終位于(0.95, 1.00],且隨儲(chǔ)藏時(shí)間的延長(zhǎng)紅色峰值迅速變大。這說(shuō)明隨儲(chǔ)藏時(shí)間的延長(zhǎng),紅色值落入該區(qū)間的樣本數(shù)量變多。綠色、藍(lán)色、灰度值的概率密度峰值基本保持不變,但峰值顏色區(qū)間隨儲(chǔ)藏時(shí)間的延長(zhǎng)而向右側(cè)顏色值大的方向移動(dòng)。說(shuō)明概率密度峰值雖然變化不大,但峰值在隨儲(chǔ)藏時(shí)間的延長(zhǎng)而發(fā)生右移。
表1 不同儲(chǔ)藏期麥粒顏色的概率密度峰值及對(duì)應(yīng)顏色值區(qū)間Table 1 Peak probability density of wheat color and corresponding color value interval in different storage periods
小麥紅色概率密度峰值隨儲(chǔ)藏時(shí)間的變化曲線如圖5所示??梢钥闯?,分布在(0.95,1.00]的小麥紅色樣本數(shù)量隨儲(chǔ)藏時(shí)間的延長(zhǎng)而迅速變大,在測(cè)試期內(nèi)基本呈線性關(guān)系,其擬合曲線為:
Prmax=0.06t+0.20,
式中:Prmax為紅色概率密度峰值;t為儲(chǔ)藏時(shí)間,月。
圖5 小麥紅色概率密度峰值隨儲(chǔ)藏時(shí)間的變化曲線Fig.5 Curve of peak probability density of red in wheat during storage
小麥顏色隨儲(chǔ)藏時(shí)間的變化情況能否成為依照顏色評(píng)價(jià)小麥品質(zhì)的判斷依據(jù)。這需要對(duì)不同儲(chǔ)藏期小麥顏色的可區(qū)分性進(jìn)行評(píng)價(jià)。從小麥顏色數(shù)據(jù)集的可聚類(lèi)性和分類(lèi)性能兩個(gè)方面評(píng)價(jià)其可區(qū)分性。
將不同儲(chǔ)藏期的小麥顏色樣本視為無(wú)標(biāo)簽樣本,即不考慮顏色數(shù)據(jù)集的類(lèi)標(biāo)簽,評(píng)價(jià)小麥樣本的聚類(lèi)性能。K均值聚類(lèi)是常用的無(wú)監(jiān)督學(xué)習(xí)方法。它根據(jù)樣本的相似性將其劃分為K個(gè)不同的簇,使得同一簇內(nèi)的樣本盡可能相似,不同簇間的樣本盡可能不相似。每個(gè)樣本只能歸屬于其中的一個(gè)簇。
肘部法則是確定將樣本劃分為最佳蔟數(shù)(最佳K值)的方法,其基本思想:在K小于樣本實(shí)際類(lèi)別數(shù)時(shí),樣本的平均畸變程度隨K的增加而迅速降低;當(dāng)K大于樣本實(shí)際類(lèi)別數(shù)時(shí),樣本的平均畸變程度隨K的增加變化緩慢。則平均畸變程度從迅速降低到變化緩慢的拐點(diǎn)即是樣本可聚集的最佳蔟數(shù)。令K為1~10,分別對(duì)小麥顏色樣本進(jìn)行K均值聚類(lèi),計(jì)算每個(gè)K下的樣本平均畸變程度,所得曲線如圖6所示。
圖6 小麥顏色樣本的平均畸變程度隨K均值聚類(lèi)的K的變化曲線Fig.6 Curve of average distortion degree of wheat color samples with K-means clustering
從圖6可以看出,曲線的拐點(diǎn)位于K=3處,這與小麥顏色數(shù)據(jù)集收集儲(chǔ)藏期為0、3、6月的3個(gè)時(shí)間點(diǎn)的樣本相吻合。
分別使用蘭德系數(shù)、互信息、V-measure評(píng)分、輪廓系數(shù)評(píng)價(jià)小麥顏色數(shù)據(jù)集在不同K的K均值聚類(lèi)性能,4個(gè)指標(biāo)隨K變化的曲線如圖7所示??梢钥闯?,蘭德系數(shù)和互信息的峰值位于K=3處,V-measure評(píng)分和輪廓系數(shù)的最大值位于K=2處,綜合來(lái)看,可以確定K=3為較優(yōu)的可聚類(lèi)蔟數(shù),與小麥顏色數(shù)據(jù)集來(lái)源于3個(gè)不同儲(chǔ)藏期相吻合。
圖7 小麥顏色數(shù)據(jù)集K均值聚類(lèi)性能指標(biāo)隨K變化的曲線Fig.7 K-Means clustering performance index curve of wheat color dataset with K
按照儲(chǔ)藏期0、3、6月,將小麥顏色數(shù)據(jù)集視為3個(gè)類(lèi)別的樣本,類(lèi)標(biāo)簽分別為0、1、2, 訓(xùn)練有監(jiān)督的分類(lèi)器,對(duì)小麥顏色數(shù)據(jù)集進(jìn)行分類(lèi),評(píng)價(jià)數(shù)據(jù)集的可分類(lèi)性。
隨機(jī)抽取樣本,將小麥顏色數(shù)據(jù)集按照8∶2拆分為互斥的訓(xùn)練集和測(cè)試集。使用機(jī)器學(xué)習(xí)API scikit-learn的svm模塊,以訓(xùn)練集訓(xùn)練多項(xiàng)式核的支持向量機(jī)分類(lèi)器。使用訓(xùn)練的分類(lèi)器預(yù)測(cè)測(cè)試集的樣本類(lèi)別。使用5折交叉檢驗(yàn)方法評(píng)價(jià)分類(lèi)器的性能,其分?jǐn)?shù)分別為0.97、 0.97、 0.98、 0.97、 0.96分。 這說(shuō)明分類(lèi)器的預(yù)測(cè)準(zhǔn)確率高,各個(gè)儲(chǔ)藏期小麥顏色特征區(qū)分明顯。
將小麥常溫暴露于空氣中儲(chǔ)藏,以3月為時(shí)間間隔,隨機(jī)選擇小麥粒,采集紅、綠、藍(lán)、灰度顏色特征。試驗(yàn)結(jié)果表明:小麥的紅、綠、藍(lán)、灰度顏色平均值隨儲(chǔ)藏時(shí)間的延長(zhǎng)有變大趨勢(shì),且在測(cè)試期內(nèi)呈線性變化;4個(gè)顏色特征基本呈正態(tài)分布,概率密度峰值隨儲(chǔ)藏時(shí)間的延長(zhǎng)有右移(顏色值變大)趨勢(shì);紅色的概率密度峰值始終位于顏色值上限區(qū)間,且隨儲(chǔ)藏時(shí)間的延長(zhǎng)而迅速線性變大;以3月為間隔,在3個(gè)時(shí)間點(diǎn)取得的小麥顏色樣本具有較好的聚類(lèi)性和可分類(lèi)性,間接說(shuō)明在3個(gè)儲(chǔ)藏時(shí)間點(diǎn),小麥的性狀發(fā)生了較明顯的變化。
由于小麥樣本并非取自剛成熟時(shí)期,首次顏色特征提取時(shí)間距小麥成熟曬干已過(guò)去久遠(yuǎn)。此外由于時(shí)間原因,僅提取了6個(gè)月儲(chǔ)藏期的小麥顏色特征,因此本文結(jié)論僅反映小麥某段儲(chǔ)藏期的顏色變化規(guī)律。要了解小麥全儲(chǔ)藏期的顏色變化規(guī)律,以及顏色變化與小麥內(nèi)在性狀的關(guān)系,需要進(jìn)一步深入研究。