陳浩然,范方輝,牟天
(1.深圳大學(xué) 化學(xué)與環(huán)境工程學(xué)院食品科學(xué)與工程系,廣東 深圳 518060;2.深圳市食品大分子科學(xué)與加工重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518060;3.深圳大學(xué) 醫(yī)學(xué)部 生物醫(yī)學(xué)工程學(xué)院,廣東 深圳 518060)
我國(guó)是當(dāng)今世界上大米產(chǎn)量和消耗量最高的國(guó)家[1],隨著我國(guó)居民生活質(zhì)量的提高,人們對(duì)大米的品質(zhì)要求也逐漸提高。大米中碎米的含量是評(píng)估大米質(zhì)量的重要指標(biāo),由于碎米與水的接觸面積更大,碎米含量高的大米吸水率更高且碎米斷面的淀粉更易溶于水中,因此米飯中的碎米含量增加會(huì)導(dǎo)致米飯的食味變差,米飯的咀嚼性和彈性也會(huì)隨之下降[2]。摻雜較多碎米的大米口感與味道難以達(dá)到消費(fèi)者的要求,因此大米的生產(chǎn)廠家會(huì)進(jìn)一步追求有更高碎米篩分效率的方法以提高大米品質(zhì)與銷(xiāo)量。而且,篩分出來(lái)的碎米還能制成米粉、果葡糖漿、蛋白粉等副產(chǎn)物[3],可以提高大米資源的利用率與廠家的經(jīng)濟(jì)效益。因此,將大米中的碎米篩分出來(lái)變得尤為重要。在傳統(tǒng)的碎米檢測(cè)中,機(jī)械篩分是將碎米分離的主要方法,主要使用的機(jī)械篩分設(shè)備有分級(jí)平轉(zhuǎn)篩和滾筒機(jī)[4]。傳統(tǒng)的機(jī)械篩分技術(shù)需要大量的人力和物力資源,并且效率較低,篩分準(zhǔn)確性也不高。大米的機(jī)械篩分效率最高能達(dá)到70%左右[5],而對(duì)于大米生產(chǎn)廠家,更高的篩分效率以及碎米的快速分離具有重要意義,因?yàn)檫@可以減少生產(chǎn)成本,提高產(chǎn)品質(zhì)量。
近年來(lái),基于圖像分析算法構(gòu)建的計(jì)算機(jī)視覺(jué)技術(shù)(computer vision technology,CV)在食品和農(nóng)產(chǎn)品檢測(cè)領(lǐng)域得到廣泛應(yīng)用。Zhang 等[6]提出了一種基于亮度自動(dòng)校正和加權(quán)相關(guān)向量機(jī)(relevance vector machine,RVM)分類(lèi)器的蘋(píng)果缺陷檢測(cè)算法。Patel 等[7]開(kāi)發(fā)了一種算法,能夠采用單色CV 系統(tǒng)檢測(cè)芒果果實(shí)表面的各類(lèi)缺陷。隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,基于圖像處理的碎米檢測(cè)技術(shù)逐漸受到關(guān)注。這些技術(shù)通常使用數(shù)字圖像處理算法和機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)快速、自動(dòng)化的碎米檢測(cè)。例如,Van Dalen[8]將平板濾波與圖像分析相結(jié)合,檢測(cè)了大米的面積、分布以及碎米的數(shù)量。Sharma 等[9]以色度學(xué)理論為基礎(chǔ),提取了碾米圖像的顏色特征,并將碾米分為了微黃色、淺黃色、黃色和極黃色4 類(lèi)。Zapotoczny 等[10]提出了利用圖像算法與大麥籽粒的形態(tài)特征實(shí)現(xiàn)對(duì)大麥籽粒品種進(jìn)行區(qū)分的方法。周顯青等[11]提取了圖像中大米的長(zhǎng)軸、短軸、周長(zhǎng)和面積4 個(gè)特征,并研究了4 個(gè)特征各自與碎米篩分效果的相關(guān)性。林萍等[12]將可見(jiàn)光譜與人工神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,實(shí)現(xiàn)了對(duì)大米中堊白米粒的識(shí)別。盡管計(jì)算機(jī)視覺(jué)技術(shù)在碎米篩分中已經(jīng)有了一定應(yīng)用,有關(guān)核心算法的研究仍處于初級(jí)階段。
圖像分割(image segmentation)是圖像處理和建立篩分算法的重要環(huán)節(jié),目前有很多種圖像分割算法,在大米圖像及其他領(lǐng)域的圖像上均有應(yīng)用?;趨^(qū)域的圖像分割方法可以將圖像分成具有相似特征的區(qū)域,特征可以是灰度值、顏色、形態(tài)等,孫金風(fēng)等[13]通過(guò)區(qū)域分割算法提取出了圖像中的網(wǎng)球輪廓。還有基于邊緣的圖像分割方法,該方法通過(guò)檢測(cè)圖像中的邊緣來(lái)實(shí)現(xiàn)圖像分割,于建寧[14]使用邊緣分割的方法將圖像中粘連的大米分割出來(lái)。此外,還有基于聚類(lèi)的圖像分割方法,該方法將圖像中的像素分成不同的群組,使得每個(gè)群組內(nèi)的像素具有相似的特征,Wu 等[15]使用K 均值(K-means)聚類(lèi)算法實(shí)現(xiàn)了對(duì)麥芽糖晶體圖像的分割。大津法(maximal variance between clusters,OTSU)又被稱(chēng)為最大類(lèi)間方差法,是日本科學(xué)家大津展之提出的利用圖像直方圖選取全局閾值的一種算法[16-17]。OTSU 算法是一種常見(jiàn)的基于閾值的圖像分割方法,該算法通過(guò)尋找最佳閾值,將圖像分為背景和前景兩部分,其優(yōu)點(diǎn)是簡(jiǎn)單易懂、計(jì)算速度快,適用于大多數(shù)圖像分割問(wèn)題。因此,OTSU 算法在圖像分割中得到了廣泛的應(yīng)用。呂婧等[18]將優(yōu)化的OTSU 算法用于大米圖像的分割,并且比較了優(yōu)化的算法與原OTSU 算法的分割效率。戴天虹等[19]使用OTSU 算法得到清晰、連貫的木材缺陷圖像,而金立軍等[20]使用OTSU算法分割圖像的背景用于后續(xù)輸電線路異物識(shí)別。
本文針對(duì)碎米、整米篩分不夠高效、準(zhǔn)確的問(wèn)題,借助OTSU 算法與邏輯回歸模型,建立碎米檢測(cè)算法,對(duì)3 種大米的碎米、整米進(jìn)行篩分并與國(guó)標(biāo)方法進(jìn)行對(duì)比研究。本文所建立的方法具有廣闊應(yīng)用前景,以期為解決高效篩分大米中碎米、整米的問(wèn)題提供理論依據(jù)。
吉林小町香米(5 kg):沃爾瑪(中國(guó))投資有限公司;泰國(guó)香米(500 g):深圳盛寶聯(lián)合谷物股份有限公司;五常大米(500 g):五常市旺達(dá)米業(yè)有限公司。
HONOR 60 手機(jī)(14.0.1.430 版本):深圳市智信新信息技術(shù)有限公司;支架(帶有環(huán)形燈、固定夾):徠茲光電科技(寧波)有限公司。
將3 種米分別按全碎米、全整米以及整米與碎米的粒數(shù)比為1∶4、2∶3、3∶2、4∶1 4 個(gè)不同比例組進(jìn)行圖像采集,每組共50 粒米,總共采集900 粒米的圖像。手機(jī)距離樣品36 cm,以30 cm×30 cm 的黑色反光亞克力板為圖像背景,拍攝圖像時(shí)手機(jī)相機(jī)放大倍數(shù)1.8,拍攝條件:感光度(international organization for standardization,ISO)為160,快門(mén)速度為1/160 s。示意圖見(jiàn)圖1。
圖1 大米圖像采集的計(jì)算機(jī)視覺(jué)設(shè)備示意圖Fig.1 Computer vision equipment used for rice image acquisition
設(shè)定好拍攝條件,保持手機(jī)與背景板的距離不變,對(duì)3 種大米進(jìn)行拍攝,將大米按粒數(shù)比置于背景板上,點(diǎn)擊上方被支架固定手機(jī)的拍攝鍵采集圖像。得到圖像后要對(duì)原始圖像進(jìn)行處理,使用Win 11 的畫(huà)圖軟件將原始圖像中大米部分的圖像統(tǒng)一裁成分辨率為1 935 pixel×1 935 pixel 的圖像,方便后續(xù)統(tǒng)一處理。圖2 為輸入算法中運(yùn)算的大米樣本圖像之一,環(huán)形的亮圈是燈在背景板上的映射,后續(xù)要通過(guò)算法當(dāng)作背景一同去除,其余圖像與此類(lèi)似,均在后續(xù)流程中做樣本圖像輸入算法中運(yùn)行。
圖2 整米圖像Fig.2 Images of head rice
試驗(yàn)將幾種米得到的特征參數(shù)以及對(duì)應(yīng)的標(biāo)簽數(shù)據(jù)混合起來(lái),利用邏輯回歸的方法進(jìn)行分析,達(dá)到將每種米各自的碎米與整米區(qū)分開(kāi)來(lái)的目的,并將其與國(guó)家標(biāo)準(zhǔn)僅通過(guò)長(zhǎng)度區(qū)分碎米、整米的方法進(jìn)行比較,試驗(yàn)的流程如圖3 所示。
圖3 基于OTSU 算法的碎米篩分過(guò)程示意圖Fig.3 Broken rice screening process based on OTSU algorithm
圖4a~c 為讀入樣本圖像的灰度圖,目的是簡(jiǎn)化圖像信息,減小代碼處理的難度。然后,通過(guò)十字形卷積核提取出圖像中的背景部分,得到如圖4d~f。再用灰度圖減去提取得到的背景圖就可以得到如圖4g~i 的大米前景圖,光照的差異會(huì)影響后續(xù)的分割過(guò)程,這一步可以減小不均勻光照以及光斑的影響[21]。
圖4 灰度圖像、背景灰度圖、前景米?;叶葓D以及二值化圖像Fig.4 Grayscale image,background grayscale image,foreground rice grain grayscale image,and binary image
前景灰度圖需要進(jìn)一步進(jìn)行二值化處理,得到二值化圖像。二值化可以將圖像轉(zhuǎn)變?yōu)橹挥? 與1 表示的二進(jìn)制形式[22],而OTSU 二值化可以通過(guò)圖像整體的直方圖選擇出閾值。將某一灰度值作為閾值,圖像中小于閾值的點(diǎn)就是提取對(duì)象,而大于閾值的點(diǎn)則是需要去除的背景,而對(duì)象與背景會(huì)呈現(xiàn)雙峰圖像,OTSU 算法可以根據(jù)圖像直方圖計(jì)算出雙峰圖像的閾值[16-17,21],經(jīng)過(guò)OTSU 算法處理后就能輸出如圖4j~l 的僅有0 值(黑色)和1 值(白色)的二值化圖像。
利用大米的二值化圖像對(duì)輸入的大米圖像中的米粒進(jìn)行標(biāo)記。二值化圖像上每一粒米就是一個(gè)獨(dú)立的連通域,通過(guò)函數(shù)提取二值化圖像上的連通域,可以返回連通域的數(shù)量、中心等信息,同時(shí)對(duì)每一個(gè)連通域附上標(biāo)記,輸出一個(gè)米粒帶有標(biāo)記的灰度圖,標(biāo)記圖如圖5a、c、e 所示。由于每粒大米都帶有一個(gè)標(biāo)記,因此可以根據(jù)標(biāo)記對(duì)圖像進(jìn)行分割,提取出圖像中的每一粒米,這一步對(duì)于計(jì)算每一粒米的特征十分重要。然后,利用循環(huán)語(yǔ)句將每粒米提取出來(lái),計(jì)算每粒米的面積、長(zhǎng)軸、短軸以及長(zhǎng)短軸比4 個(gè)特征參數(shù)。米粒的長(zhǎng)軸與短軸是通過(guò)擬合橢圓的方法得到的,先通過(guò)函數(shù)獲得每粒米的邊緣點(diǎn)集,再通過(guò)邊緣點(diǎn)集進(jìn)行橢圓擬合,橢圓的長(zhǎng)軸作為米粒的長(zhǎng)軸,而橢圓的短軸則作為米粒的短軸,圖5b、d 和f 為擬合橢圓后得到的大米圖像。擬合的橢圓還能夠用于在圖像上直觀區(qū)分碎米與整米,通過(guò)改變橢圓的顏色,使碎米與整米擬合橢圓的顏色不同即可實(shí)現(xiàn)這一目的。將900 粒米的特征參數(shù)結(jié)合在一起,以.text 文本的格式輸出,文本包括面積、長(zhǎng)軸、短軸、長(zhǎng)短軸比以及標(biāo)簽,此處的標(biāo)簽為0、1 標(biāo)簽,0 代表碎米,1 代表整米,標(biāo)簽對(duì)應(yīng)米粒的真實(shí)情況。
圖5 標(biāo)記圖與擬合橢圓后的圖像Fig.5 Marking diagram and image after fitting an ellipse
所有模型和算法均基于Python(3.10.7)與R 編程語(yǔ)言(4.2.0)在Win 11 環(huán)境下編寫(xiě)并測(cè)試。分別采用國(guó)標(biāo)法和邏輯回歸模型定性判別整米與碎米。
邏輯回歸模型是概率回歸,是一種特殊的線性模型,可以用于預(yù)測(cè)概率與數(shù)據(jù)分類(lèi)[23-24]。本文利用邏輯回歸模型,以4 個(gè)特征變量來(lái)判斷圖像中的米粒是否為整米,屬于二分類(lèi)問(wèn)題。
一般的線性模型假設(shè)因變量可由變量以線性函數(shù)的形式進(jìn)行表達(dá):z=θTx=θ0+θ1x1+θ2x2+…+θixi。(式中:T為對(duì)θ 向量的轉(zhuǎn)置;θ 為權(quán)重系數(shù),是模型經(jīng)過(guò)訓(xùn)練后估計(jì)得到的參數(shù);x 為變量,即大米的長(zhǎng)軸、短軸、面積以及長(zhǎng)短軸比4 個(gè)特征數(shù)值,每個(gè)變量都有對(duì)應(yīng)的權(quán)重系數(shù);i 為變量x 的第i 個(gè)變量。)
在邏輯回歸模型中,線性函數(shù)采用的是sigmoid函數(shù):hθ(x)=g(θTx)=1/[1+exp(-θTx)]=1/[1+exp(z)],式中:h(x)是概率,處在0~1 之間,每粒米都有其對(duì)應(yīng)的概率,選取閾值進(jìn)行判斷,h(x)小于閾值的判斷為0,即碎米;而h(x)大于閾值的則判斷為1,即整米;z 為線性公式求得的函數(shù)值。
GB/T 1354—2018《大米》[25]中規(guī)定長(zhǎng)度小于同批試樣整米平均長(zhǎng)度3/4 的米粒為碎米,可見(jiàn)國(guó)標(biāo)主要通過(guò)長(zhǎng)度來(lái)區(qū)別碎米與整米。將米粒長(zhǎng)軸的像素單位轉(zhuǎn)為毫米單位,統(tǒng)計(jì)得到3 種米(共900 粒)的長(zhǎng)度為11~46 mm,判斷閾值的區(qū)間為11~46,步長(zhǎng)為2,通過(guò)國(guó)標(biāo)法得到了19 組數(shù)據(jù),以19 組數(shù)據(jù)作出柯?tīng)柲陕宸?斯米洛夫(Kolmogorov-Smirnov,KS)曲線與受試者工作特征(receiver operator characteristic,ROC)曲線,同時(shí)得到KS 值與曲線線下面積(area under the curve,AUC)值,將其與邏輯回歸結(jié)果進(jìn)行對(duì)比。
利用混淆矩陣得到分類(lèi)預(yù)測(cè)效能的各項(xiàng)定量指標(biāo)(精確率、準(zhǔn)確率、召回率、F1 分?jǐn)?shù)等)。其中,真正類(lèi)(true positive,TP)是米粒在真實(shí)中為整米,而在模型中被預(yù)測(cè)也是整米的數(shù)量;假正類(lèi)(false positive,F(xiàn)P)是米粒在真實(shí)中為碎米,而在模型中被預(yù)測(cè)為整米的數(shù)量;假負(fù)類(lèi)(false negative,F(xiàn)N)是米粒在真實(shí)中為整米,而在模型中被預(yù)測(cè)為碎米的數(shù)量;真負(fù)類(lèi)(true negative,TN)則是米粒在真實(shí)中為碎米,而在模型中被預(yù)測(cè)也是碎米的數(shù)量。
使用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)以及F1 分?jǐn)?shù)(F1-score)4 個(gè)指標(biāo)可以對(duì)模型進(jìn)行標(biāo)準(zhǔn)化的衡量[26],其中F1 分?jǐn)?shù)越接近1 代表輸出的結(jié)果越好,可用于進(jìn)行國(guó)標(biāo)法與邏輯回歸模型所得結(jié)果的對(duì)比。式(1)~(4)分別為準(zhǔn)確率(A)、精確率(P)、召回率(R)以及F1-score(F)4 個(gè)指標(biāo)的定義式。
式中:Z 為真正類(lèi)數(shù)值;J 為假正類(lèi)數(shù)值;N 為假負(fù)類(lèi)數(shù)值;T 為真負(fù)類(lèi)數(shù)值。
真正類(lèi)率(true positive rate,TPR)與假正類(lèi)率(false positive rate,F(xiàn)PR)的計(jì)算公式如式(5)、(6)所示。
式中:B 為真正類(lèi)率;C 為假正類(lèi)率。
每選擇一個(gè)閾值就可以得到一組TPR 與FPR,不斷的改變閾值可以得到多組的數(shù)據(jù),本文將閾值從0取到1,步長(zhǎng)為0.1,得到11 組數(shù)據(jù)。用閾值分別與TPR、FPR 作圖,得到KS 曲線圖,TPR 與FPR 兩條曲線在同一閾值條件下相差最大的值為KS 值,KS 值處于0~1 之間,其越大表明區(qū)分程度越大;以TPR 與FPR作圖,得到ROC 曲線圖,計(jì)算x 軸與ROC 曲線間的面積則得到AUC 值,AUC 值越接近1 則表示模型越好。
泰國(guó)香米、吉林小町香米與五常大米各有300 粒米,表1 是3 種米4 個(gè)特征參數(shù)的分布情況。
表1 3 種大米的面積、長(zhǎng)軸、短軸以及長(zhǎng)短軸比的分布情況Table 1 Distribution of area,long axis,short axis,and long-toshort axis ratio of three types of rice
由表1 可知,泰國(guó)香米最長(zhǎng),吉林小町香米最寬,五常大米的面積最大;按長(zhǎng)短軸比數(shù)據(jù)來(lái)看,吉林小町香米的長(zhǎng)軸與短軸最接近,說(shuō)明吉林小町香米較短圓,而泰國(guó)香米的長(zhǎng)短軸比數(shù)值較大,說(shuō)明泰國(guó)香米是瘦長(zhǎng)型的,五常大米處于二者之間,與圖2 結(jié)果相一致。結(jié)果表明,特征參數(shù)與實(shí)際相符合,因此可以通過(guò)選取的4 個(gè)特征參數(shù)代表大米的實(shí)際形態(tài)用于邏輯回歸分析以及碎米、整米的區(qū)分。
將泰國(guó)香米、吉林小町香米以及五常大米得到的特征參數(shù)結(jié)合在一起,使用建立的邏輯回歸模型處理大米的整體數(shù)據(jù),考察邏輯回歸方法對(duì)大米碎米、整米總體的區(qū)分效果。圖6 為大米的長(zhǎng)軸、面積、短軸、長(zhǎng)短軸比的箱線圖以及邏輯回歸結(jié)果箱線圖。
圖6 3 種大米數(shù)據(jù)混合后得到的特征參數(shù)箱線圖與邏輯回歸結(jié)果箱線圖Fig.6 Box plots of characteristic parameters and logistic regression results obtained from mixing three types of rice data
由圖6a~d 可知,大米的碎米與整米在4 個(gè)特征參數(shù)上均有較大的重合部分,難以憑借單一的特征參數(shù)將碎米和整米很好地區(qū)分開(kāi);圖6e 是大米特征參數(shù)經(jīng)過(guò)步進(jìn)法篩選出顯著的影響變量,再經(jīng)邏輯回歸模型處理后得到的結(jié)果箱線圖,通過(guò)篩選結(jié)果可以看出面積、長(zhǎng)軸、短軸以及長(zhǎng)短軸比均是顯著的影響變量,在邏輯回歸處理數(shù)據(jù)的過(guò)程中都顯著影響到碎米、整米的區(qū)分結(jié)果,因此4 個(gè)特征參數(shù)的數(shù)據(jù)都要保留并在邏輯回歸中使用。
大米數(shù)據(jù)經(jīng)過(guò)邏輯回歸處理后,得到了4 個(gè)特征參數(shù)對(duì)應(yīng)的權(quán)重系數(shù),長(zhǎng)軸、面積、短軸以及長(zhǎng)短軸比對(duì)應(yīng)的權(quán)重系數(shù)分別是-5.35(θ1)、10.93(θ2)、2.86(θ3)和34.59(θ4),θ0的值為-139.97。同時(shí),算法輸出了一個(gè).text 文本,其中是900 粒大米各自對(duì)應(yīng)的概率值,由于經(jīng)過(guò)了sigmoid 函數(shù)的處理,概率值均處于0~1 之間。
將邏輯回歸模型輸出得到的概率數(shù)值與閾值相比,得到大米的0、1 分布結(jié)果。邏輯回歸模型輸出的結(jié)果在不同閾值條件下,通過(guò)混淆矩陣計(jì)算得到的TPR與FPR 數(shù)值,總共有11 組TPR 與FPR 值,繪制出邏輯回歸方法的KS 曲線和ROC 曲線。繪制得到的KS曲線與ROC 曲線如圖7 所示。
圖7 邏輯回歸模型的KS 曲線和ROC 曲線Fig.7 KS curve and ROC curve of logistic regression model
由圖7 可知,KS 曲線圖是以閾值為橫坐標(biāo),TPR或FPR 值為縱坐標(biāo)繪制的曲線圖,TPR 曲線與FPR 曲線在閾值為0.5 時(shí)相差最大,因此KS=max(TPR-FPR)=0.909,即閾值為0.5 時(shí),建立的邏輯回歸方法對(duì)碎米與整米的區(qū)分效果最好。ROC 曲線是以FPR 值為橫坐標(biāo),TPR 值為縱坐標(biāo)繪制的曲線圖,計(jì)算ROC 曲線的線下面積,得到邏輯回歸方法的AUC 值為0.986 9,與1 非常接近,說(shuō)明邏輯回歸方法預(yù)測(cè)效果較好,對(duì)大米的碎米、整米區(qū)分有效果。
通過(guò)國(guó)標(biāo)法運(yùn)算處理大米數(shù)據(jù)同樣能得到19 組FPR 與TPR 數(shù)據(jù),繪制的KS 曲線與ROC 曲線如圖8所示。
圖8 國(guó)標(biāo)法的KS 曲線和ROC 曲線Fig.8 KS curve and ROC curve of national standard method
由圖8 可知,在閾值為21 時(shí),TPR 曲線與FPR 曲線相差最大,KS=0.669;計(jì)算ROC 曲線的線下面積,得到國(guó)標(biāo)法的AUC 值為0.921 9。
表2 為在最優(yōu)閾值時(shí),國(guó)標(biāo)法和邏輯回歸模型所得結(jié)果的4 個(gè)指標(biāo)(準(zhǔn)確率、精確率、召回率以及F1分?jǐn)?shù))。
表2 國(guó)標(biāo)法與邏輯回歸法的對(duì)比Table 2 Comparison between national standard method and logistic regression method
由表2 可知,邏輯回歸模型的準(zhǔn)確率、精確率和召回率都高于國(guó)標(biāo)法,且邏輯回歸模型的F1 分?jǐn)?shù)更接近1,證明邏輯回歸模型輸出的結(jié)果更好,對(duì)碎米、整米區(qū)分效果優(yōu)于國(guó)標(biāo)法。將國(guó)標(biāo)法與邏輯回歸法得到的AUC 值以及在最佳閾值下的KS 值進(jìn)行比較,邏輯回歸法得到的KS 值比國(guó)標(biāo)法的KS 值大,且邏輯回歸法的AUC 值更接近于1,說(shuō)明邏輯回歸方法對(duì)碎米與整米的區(qū)分效果更好,得到的結(jié)果要優(yōu)于國(guó)標(biāo)法,因此采用邏輯回歸方法對(duì)碎米、整米進(jìn)行區(qū)分。
邏輯回歸法最終篩分結(jié)果可以通過(guò)圖像得到更直觀的體現(xiàn)。邏輯回歸法得到的全部大米的概率結(jié)果以最優(yōu)閾值0.5 進(jìn)行判斷,得到一個(gè)0、1 分布的最優(yōu)碎米、整米區(qū)分結(jié)果,再將整體的區(qū)分結(jié)果按原順序分開(kāi)成為3 種大米各比例的區(qū)分結(jié)果,以.text 文本形式輸出。以3 種大米4∶1 比例這一組的圖像為例,將得到的區(qū)分結(jié)果輸入橢圓擬合的算法,將結(jié)果為0 的米粒的擬合橢圓改為綠色,結(jié)果為1 的米粒的擬合橢圓保持原來(lái)的顏色不變,輸出區(qū)分圖像,將區(qū)分結(jié)果通過(guò)圖像進(jìn)行直觀體現(xiàn),如圖9 所示。
圖9 原始圖像、邏輯回歸模型得到的碎米、整米區(qū)分圖像以及國(guó)標(biāo)法得到的碎米、整米區(qū)分圖像Fig.9 Original image,broken rice and head rice images obtained from logistic regression model,and broken rice and head rice images obtained from national standard method
由圖9 可知,綠色橢圓圈出的是碎米,紅色橢圓圈出的是整米,區(qū)分圖像可以體現(xiàn)出邏輯回歸方法的效果較好。圖9b 與原圖像(圖9a)進(jìn)行對(duì)比可以看出,區(qū)分圖中比例為4∶1 的50 粒泰國(guó)香米中10 粒碎米與40粒整米完全區(qū)分開(kāi)。圖9d、e 對(duì)比可知,4∶1 的50 粒五常大米中的10 粒碎米與40 粒整米也完全區(qū)分開(kāi)。圖9g、h 對(duì)比可知,50 粒吉林小町香米區(qū)分得到碎米有13 粒,整米37 粒,有3 粒整米被劃分為了碎米,這表明建立的邏輯回歸模型不能完全區(qū)分開(kāi)碎米與整米,存在一定的誤差。圖9c、f、i 是由國(guó)標(biāo)法得到的碎米與整米區(qū)分圖像,50 粒泰國(guó)香米中的10 粒碎米只有5粒被識(shí)別出來(lái),50 粒五常大米中的10 粒碎米只有8 粒被識(shí)別出來(lái),還有1 粒整米被識(shí)別成了碎米;而50粒吉林小町香米中10 粒碎米都識(shí)別了出來(lái),但是有7 粒整米被識(shí)別為了碎米。通過(guò)圖像可以清晰地對(duì)比2 種方法的篩分效率,邏輯回歸模型得到的篩分效果明顯優(yōu)于國(guó)標(biāo)法的篩分效果。
本文使用了邏輯回歸模型對(duì)大米數(shù)據(jù)進(jìn)行分析,通過(guò)對(duì)3 種大米各6 組圖像進(jìn)行碎米與整米篩分,發(fā)現(xiàn)使用邏輯回歸法可以比國(guó)標(biāo)法更好地區(qū)分碎米與整米。通過(guò)繪制KS 曲線與ROC 曲線,得到邏輯回歸模型的AUC 值為0.987、KS 值為0.909,KS 值對(duì)應(yīng)的閾值0.5 為最佳閾值。在閾值為0.5 時(shí),長(zhǎng)軸(x1)、面積(x2)、短軸(x3)與長(zhǎng)短軸比(x4)四個(gè)特征參數(shù)都作為變量時(shí)邏輯回歸方法的效果達(dá)到最優(yōu),對(duì)應(yīng)的線性關(guān)系為z=-139.97-5.35x1+10.93x2+2.86x3+34.59x4。將邏輯回歸方法輸出的結(jié)果與圖像相結(jié)合,可以得到更直觀的碎米、整米區(qū)分圖像。在未來(lái)的研究中可將建立的模型與機(jī)械臂相結(jié)合,通過(guò)機(jī)械臂挑取區(qū)分出的碎米,實(shí)現(xiàn)通過(guò)人工智能方法進(jìn)行自動(dòng)化、低成本的碎米快速檢測(cè)與篩分。此模型還可以運(yùn)用到水果、蔬菜等其他食品的篩分與分級(jí)中,具有較大的應(yīng)用潛力。