田 勇,廖 歡,江國強(qiáng),周濤
(四川中煙工業(yè)有限責(zé)任公司什邡卷煙廠,什邡 618400)
霉菌作為一類分布極為廣泛的真菌微生物,在適宜的溫濕度條件下能夠迅速繁殖生長。片煙由于長時(shí)間的存儲(chǔ)以及受到復(fù)雜多變的環(huán)境因素影響,容易發(fā)生霉變、腐爛和質(zhì)變。不同地域、不同煙草品種以及霉菌菌種的不同,使得片煙霉變檢測成為一項(xiàng)具有一定挑戰(zhàn)性的任務(wù)。
傳統(tǒng)的片煙霉變檢測方法主要依賴于人工的方式,例如肉眼觀察和嗅覺等[1],對(duì)于少量的片煙進(jìn)行檢測尚能勝任,但無法滿足正常卷煙生產(chǎn)對(duì)大量片煙霉變情況的準(zhǔn)確檢測需求。因此,亟需一種高效準(zhǔn)確的霉變檢測方法來保證煙草品質(zhì)。
計(jì)算機(jī)視覺是一種常見的非人工霉變檢測方式[2-3],它通過對(duì)片煙表面的圖像進(jìn)行處理和分析,識(shí)別出可能存在的霉變區(qū)域,從而判斷片煙是否受到霉變影響。然而,這種方法無法準(zhǔn)確識(shí)別臨近霉變和內(nèi)部的霉變情況。
為了提升對(duì)片煙內(nèi)部霉變以及臨近霉變的識(shí)別能力,本文基于近紅外光譜的吸收特征對(duì)化學(xué)成分進(jìn)行了研究,提出了一種采用近紅外光譜方式進(jìn)行片煙霉變檢測的方法。近紅外光譜技術(shù)以其在無損檢測領(lǐng)域的獨(dú)特優(yōu)勢得到了廣泛應(yīng)用,其對(duì)物質(zhì)的吸收、反射等特性具有敏感性,能夠提供豐富的化學(xué)信息[4-5]。
本文將通過突破傳統(tǒng)檢測手段的局限性,引入了深度學(xué)習(xí)技術(shù),為煙草行業(yè)提供了一套高效準(zhǔn)確的片煙霉變檢測解決方案。這一創(chuàng)新性的研究成果將在提升卷煙生產(chǎn)質(zhì)量、保障消費(fèi)者健康等方面,產(chǎn)生深遠(yuǎn)的社會(huì)和經(jīng)濟(jì)效益。同時(shí),本研究為近紅外光譜技術(shù)在農(nóng)產(chǎn)品質(zhì)量檢測中的應(yīng)用拓展了新的思路和方法,為相關(guān)領(lǐng)域的研究和實(shí)踐注入了新的活力和前景。
異常值和缺失值是常見的數(shù)據(jù)質(zhì)量問題。異常值可能是由于測量誤差、設(shè)備故障或其他異常情況導(dǎo)致的,它們可能會(huì)對(duì)分析和模型建立產(chǎn)生誤導(dǎo)。缺失值則可能是由于采集過程中的遺漏或者實(shí)際情況下無法獲取數(shù)據(jù)導(dǎo)致的,如果不進(jìn)行處理,可能會(huì)導(dǎo)致分析結(jié)果的失真。因此在進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分析之前,需要對(duì)存在的缺失值和異常值進(jìn)行處理。本文數(shù)據(jù)預(yù)處理的流程如圖1 所示。
圖1 數(shù)據(jù)預(yù)處理流程Fig.1 Data preprocessing workflow chart
在光譜設(shè)備進(jìn)行檢測時(shí),首先對(duì)入射光的振幅或相位(或同時(shí)調(diào)制兩者)進(jìn)行周期性空間調(diào)控,隨后通過光纖導(dǎo)入系統(tǒng)中。隨著入射光照射在片煙表面,特定頻率的光會(huì)被片煙吸收,形成相應(yīng)的反射光。在經(jīng)過濾波處理后,只有近紅外部分被保留,接著通過光柵的作用,近紅外光產(chǎn)生了近干涉的效應(yīng)。電子元器件按順序檢測各個(gè)縫隙的近紅外光強(qiáng)度,從而得到不同波段的反射率。
本文使用的近紅外光譜儀覆蓋波長范圍從1000 nm 到2500 nm。在這個(gè)波長范圍內(nèi),將光譜分成了200 個(gè)不同的波段,每個(gè)波段對(duì)應(yīng)1 個(gè)反射率記錄。因此,每條數(shù)據(jù)包含了200 個(gè)不同波段的反射率數(shù)據(jù),同時(shí)還包括了片煙的種類、產(chǎn)地、霉變程度等相關(guān)信息。本文采集1000 條不同片煙的反射率數(shù)據(jù)。
異常值檢測是數(shù)據(jù)分析中的一個(gè)重要步驟,其目的是識(shí)別數(shù)據(jù)集中與其余數(shù)據(jù)顯著不同的觀測值,也就是那些在統(tǒng)計(jì)上被認(rèn)為是罕見的或者異常的數(shù)據(jù)點(diǎn)。異常值可能代表了數(shù)據(jù)中的錯(cuò)誤、噪聲,或者是具有特殊意義的重要信息。
本文采用局部異常因子[6]進(jìn)行異常值檢測,該方法通過評(píng)估每個(gè)數(shù)據(jù)點(diǎn)相對(duì)于其鄰近鄰居的密度來確定其異常程度[7]。本文選用歐氏距離作為距離度量,以衡量數(shù)據(jù)點(diǎn)之間的相似性。對(duì)于每條數(shù)據(jù)的每一個(gè)波段的反射率,利用歐氏距離找到其最近的其他數(shù)據(jù)相同波段的k 個(gè)反射率鄰近點(diǎn)。根據(jù)找到的k-近鄰,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的局部可達(dá)密度:
式中:Nk(p)為點(diǎn)p 的k 個(gè)最近鄰;Dist(p,o)為點(diǎn)p到點(diǎn)o 的歐氏距離。
最終,利用局部可達(dá)密度計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的局部異常因子:
通過設(shè)定適當(dāng)?shù)拈撝?,即可將局部異常因子與異常點(diǎn)的存在進(jìn)行關(guān)聯(lián),從而識(shí)別出數(shù)據(jù)集中的局部異常點(diǎn)。
缺失值填充是數(shù)據(jù)預(yù)處理中的一項(xiàng)重要任務(wù),其目的是在數(shù)據(jù)集中存在缺失值的情況下,通過合理的方法來估計(jì)或補(bǔ)充缺失的數(shù)據(jù),以保證后續(xù)分析和建模的準(zhǔn)確性和可靠性。
本文采用線性回歸模型進(jìn)行缺失值填充,該方法旨在通過已有數(shù)據(jù)的線性關(guān)系來估計(jì)缺失值。將每個(gè)波段反射率看作線性回歸模型中的因變量,并使用同一條數(shù)據(jù)其他波段反射率作為自變量來估計(jì)缺失值。對(duì)于波段反射率Bj,線性回歸模型可以表示為
式中:Bj為要填充的波段反射率;α0,α1,α2,…,αm為回歸系數(shù);B1,B2,…,Bm為同一條數(shù)據(jù)其他波段反射率;ε 為誤差項(xiàng)。
對(duì)于每個(gè)要填充的波段反射率Bj,首先選擇其他不含缺失值的波段反射率B1,B2,…,Bm,然后構(gòu)建線性回歸模型。訓(xùn)練模型的目標(biāo)是最小化誤差項(xiàng)ε,即:
式中:N 為樣本數(shù)量。
訓(xùn)練好的線性回歸模型可以用來估計(jì)缺失值。對(duì)于一個(gè)包含缺失波段反射率的數(shù)據(jù),使用其他已知的波段反射率代入模型,計(jì)算出Bj的估計(jì)值,從而填充缺失值。
本文將片煙數(shù)據(jù)及其統(tǒng)計(jì)特征共同輸入至深度學(xué)習(xí)模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[8-9]中,達(dá)到對(duì)片煙霉變的智能檢測,如圖2 所示。
圖2 霉變智能檢測流程Fig.2 Intelligent mold detection flow chart
在本節(jié)中,本文對(duì)研究所使用的片煙數(shù)據(jù)進(jìn)行統(tǒng)計(jì)特征的提取,為智能檢測模型提供更多參考信息,具體統(tǒng)計(jì)特征如表1 所示。
表1 統(tǒng)計(jì)特征計(jì)算表Tab.1 Statistical feature calculation table
2.2.1 檢測模型
每次訓(xùn)練將每條數(shù)據(jù)中的波段分為10 組,每組聯(lián)合統(tǒng)計(jì)特征作為RNN 每個(gè)時(shí)間步的輸入。
在RNN 的時(shí)間步t=0 時(shí),初始化隱層狀態(tài)h0為零向量,則后續(xù)每一步隱層狀態(tài)的計(jì)算方式為
式中:Wxh和Whh為輸入層和隱層的權(quán)重矩陣;bh為隱層的偏置向量;xt為RNN 第t 步輸入,xt=[dt,dstat];dt為每條數(shù)據(jù)中 的第t 組波段數(shù)據(jù),dstat為統(tǒng)計(jì)特征;ReLU 為線性整流函數(shù),可以描述為
RNN 最終的輸出計(jì)算方式為
式中:Why和by分別為輸出層的權(quán)重矩陣和偏置向量;hT為最終步隱層狀態(tài);ρ 為sigmoid 函數(shù),可以描述為
RNN 的總體傳遞過程如圖3 所示。
圖3 RNN 傳遞過程Fig.3 RNN propagation process
2.2.2 目標(biāo)函數(shù)與優(yōu)化
本文選用交叉熵作為目標(biāo)函數(shù),其表達(dá)式為
目標(biāo)函數(shù)的優(yōu)化使用Adam[10]反向傳播算法進(jìn)行模型中參數(shù)的調(diào)整,從而使模型能不斷降低目標(biāo)函數(shù)值。
為了驗(yàn)證本文方法的有效性,本文采集1000條不同片煙的反射率數(shù)據(jù),其中800 條作為模型的訓(xùn)練樣本,200 條作為模型的測試樣本,其他模型相關(guān)參數(shù)如表2 所示。
表2 模型參數(shù)設(shè)置Tab.2 Model parameter configuration
本文實(shí)驗(yàn)結(jié)果由兩部分構(gòu)成,第一部分對(duì)比了本文提出的方法和基于隨機(jī)森林的片煙霉變檢測方法的效果。第二部分測試了本文方法所采用的預(yù)處理和統(tǒng)計(jì)特征的有效性。為了衡量不同方法或方法配置的性能,本文選用分類問題中常用的4 個(gè)參數(shù),精確率(Accuracy)、準(zhǔn)確率(Precision)、召回率(Recall)和F1 分?jǐn)?shù)作為評(píng)價(jià)指標(biāo),表達(dá)式如下:
式中:TP 代表預(yù)測為有霉變的樣本、標(biāo)簽為有霉變的樣本的數(shù)量;TN 代表預(yù)測為無霉變的樣本、標(biāo)簽為無霉變的樣本的數(shù)量;FP 代表預(yù)測為有霉變的樣本、標(biāo)簽為無霉變的樣本的數(shù)量;FN 代表預(yù)測為無霉變的樣本、標(biāo)簽為有霉變的樣本的數(shù)量。
實(shí)驗(yàn)結(jié)果的第一部分,本文提出的方法和基于隨機(jī)森林的片煙霉變檢測方法的對(duì)比結(jié)果如表3所示。
表3 不同方法結(jié)果對(duì)比Tab.3 Comparison of results from different methods
通過對(duì)比RNN 與隨機(jī)森林在分類任務(wù)中的表現(xiàn),可以看出RNN 在多個(gè)評(píng)價(jià)指標(biāo)上表現(xiàn)更為優(yōu)越。首先,RNN 的精確率高達(dá)0.85,略高于隨機(jī)森林的0.82,顯示了其在整體分類準(zhǔn)確性上的優(yōu)勢。其次,在準(zhǔn)確率和召回率方面,RNN 分別達(dá)到了0.87和0.82,相對(duì)于隨機(jī)森林的0.85 和0.78,說明RNN在識(shí)別正類別時(shí)具有更高的準(zhǔn)確率和覆蓋率。這也反映在F1 分?jǐn)?shù)上,RNN 的0.84 略高于隨機(jī)森林的0.81,表明RNN 能夠在保持精確度和召回率的平衡上取得更好的效果。
實(shí)驗(yàn)結(jié)果的第二部分,本文設(shè)計(jì)了不同對(duì)比實(shí)驗(yàn)來檢驗(yàn)本文方法所采用的預(yù)處理和統(tǒng)計(jì)特征的有效性,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 不同實(shí)驗(yàn)配置結(jié)果對(duì)比Tab.4 Comparison of results with different experimental configurations
由表4 可知,使用預(yù)處理和統(tǒng)計(jì)特征的實(shí)驗(yàn)配置在所有評(píng)價(jià)指標(biāo)上均取得了最佳的性能,實(shí)驗(yàn)結(jié)果表明,綜合考慮預(yù)處理和統(tǒng)計(jì)特征可以使模型獲得最佳的分類性能。
本文提出的算法結(jié)合了近紅外光譜技術(shù)和深度學(xué)習(xí)方法,能夠高效準(zhǔn)確地檢測片煙中的霉變情況。相對(duì)于傳統(tǒng)的人工檢測方法,該算法能夠在更短的時(shí)間內(nèi)完成大量數(shù)據(jù)的處理,同時(shí)減少了人為誤差的影響,從而提高了檢測的效率和精度。
本文致力于開發(fā)一種基于近紅外光譜和深度學(xué)習(xí)方法的片煙霉變檢測方法,以解決傳統(tǒng)人工檢測方法的局限性。通過采用RNN 網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合近紅外光譜數(shù)據(jù),成功地實(shí)現(xiàn)了對(duì)片煙霉變的自動(dòng)檢測與識(shí)別。實(shí)驗(yàn)結(jié)果表明,本文的方法在精確率、準(zhǔn)確率、召回率等評(píng)價(jià)指標(biāo)上取得了提升,相比傳統(tǒng)的人工檢測方法,具有明顯的優(yōu)勢和實(shí)用價(jià)值。同時(shí),本文還引入了異常值檢測和缺失值填充等預(yù)處理技術(shù),進(jìn)一步提升了模型的穩(wěn)定性和魯棒性。綜上所述,本文為片煙霉變檢測領(lǐng)域的發(fā)展做出了一定的貢獻(xiàn),同時(shí)也為相關(guān)領(lǐng)域的研究提供了有益的參考。我們相信,在不斷的改進(jìn)和優(yōu)化下,該方法將在實(shí)際生產(chǎn)中發(fā)揮重要作用,為煙葉行業(yè)的發(fā)展做出積極的貢獻(xiàn)。