張忠良,湯建國(guó),喬丹娜,雒興剛*,趙 亮,唐加福
(1.東北大學(xué)信息科學(xué)與工程學(xué)院,沈陽(yáng) 110819;2.云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,昆明 650231)
基于代價(jià)敏感學(xué)習(xí)的卷煙感官質(zhì)量評(píng)估方法
張忠良1,湯建國(guó)2,喬丹娜2,雒興剛1*,趙亮1,唐加福1
(1.東北大學(xué)信息科學(xué)與工程學(xué)院,沈陽(yáng) 110819;2.云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,昆明 650231)
針對(duì)卷煙感官評(píng)估中存在的代價(jià)敏感問(wèn)題,將基于代價(jià)敏感的反饋神經(jīng)網(wǎng)絡(luò)應(yīng)用于卷煙感官評(píng)估中。為了驗(yàn)證方法的有效性,結(jié)合煙草企業(yè)生產(chǎn)實(shí)際設(shè)置代價(jià)矩陣,并利用煙草公司提供的數(shù)據(jù)進(jìn)行了對(duì)比試驗(yàn)。結(jié)果表明,與代價(jià)不敏感方法相比,本方法在錯(cuò)分總代價(jià),高代價(jià)類別識(shí)別率以及平均分類準(zhǔn)確率3個(gè)方面均有顯著改善。
分類算法;代價(jià)敏感;感官評(píng)估;神經(jīng)網(wǎng)絡(luò);卷煙
感官質(zhì)量評(píng)估被廣泛地應(yīng)用于食品生產(chǎn)和設(shè)計(jì)中,例如紅酒[1]、卷煙[2]、咖啡[3]和啤酒[4]等。Stone等[5]將感官評(píng)估定義為:“感官評(píng)估是一門通過(guò)視覺(jué)、嗅覺(jué)、味覺(jué)、觸覺(jué)和聽(tīng)覺(jué)來(lái)喚起、測(cè)量、分析以及解釋產(chǎn)品或材料特性的科學(xué)學(xué)科”。顯然,感官評(píng)估依賴于專家的經(jīng)驗(yàn)和知識(shí)。
目前,煙草及其制品主要通過(guò)品煙專家的感官評(píng)吸對(duì)卷煙產(chǎn)品感官質(zhì)量進(jìn)行評(píng)價(jià)。然而,這種完全依賴人工方式的感官評(píng)估存在諸多不足。評(píng)估結(jié)果容易受到專家知識(shí)結(jié)構(gòu)、情感以及周圍環(huán)境等因素的影響,往往帶有模糊性和不精確性,并需要花費(fèi)大量的時(shí)間和財(cái)力。而且卷煙感官評(píng)估對(duì)品煙專家的身體健康會(huì)產(chǎn)生一定負(fù)面影響。
近年來(lái)隨著信息化水平的提高,卷煙企業(yè)積累了大量的數(shù)據(jù)。為了克服上述所提到的關(guān)于專家評(píng)估的不足,相關(guān)研究人員開(kāi)始采用數(shù)據(jù)挖掘的手段輔助專家感官評(píng)估[6-9]。然而,所有的這些研究都是基于錯(cuò)分代價(jià)一致的前提下展開(kāi)的。
事實(shí)上,在卷煙感官評(píng)估中,錯(cuò)分代價(jià)也是不一致的。例如,在新產(chǎn)品的開(kāi)發(fā)中,錯(cuò)分可行方案的代價(jià)遠(yuǎn)遠(yuǎn)大于錯(cuò)分不可行方案,因?yàn)殄e(cuò)分符合要求的葉組配方將導(dǎo)致可行方案的流失。另外,將高品質(zhì)的煙葉錯(cuò)分為低品質(zhì)的煙葉的代價(jià)也遠(yuǎn)遠(yuǎn)大于相反情況,因?yàn)楦咂焚|(zhì)的煙葉一般為稀缺資源。因此,有必要研究代價(jià)敏感的卷煙感官評(píng)估方法。本文考慮采用基于代價(jià)敏感的神經(jīng)網(wǎng)絡(luò)應(yīng)用于卷煙感官質(zhì)量評(píng)估中。試驗(yàn)結(jié)果表明,基于代價(jià)敏感的神經(jīng)網(wǎng)絡(luò)在錯(cuò)分總代價(jià)、高代價(jià)類別識(shí)別率以及平均分類準(zhǔn)確率3個(gè)方面均有顯著改善。利用該方法可以輔助感官評(píng)吸工作,減少感官評(píng)吸專家的工作量,從而提高煙草企業(yè)在新產(chǎn)品開(kāi)發(fā)和產(chǎn)品維護(hù)中的效率。
1.1材料
試驗(yàn)數(shù)據(jù)來(lái)源于國(guó)內(nèi)某煙草集團(tuán)2010—2012年的成品煙化學(xué)成分檢測(cè)和感官質(zhì)量評(píng)估結(jié)果,共684組數(shù)據(jù)。其中化學(xué)成分包括總糖量、還原糖、煙堿量、總揮發(fā)堿、總氮量、煙堿氮、蛋白質(zhì)、施木克值、氮堿比、含氯量、含鉀量、糖堿比、氨態(tài)堿13項(xiàng)指標(biāo),作為模型的輸入屬性;感官質(zhì)量評(píng)估指標(biāo)包括光澤、香氣、諧調(diào)、雜氣、刺激性、余味6項(xiàng),作為模型的輸出屬性。數(shù)據(jù)均為多名卷煙感官評(píng)估專家評(píng)吸后給出的平均結(jié)果。每一項(xiàng)指標(biāo)分別作為決策屬性,因此本文考慮6組數(shù)據(jù)集。專家打分依據(jù)的感官質(zhì)量評(píng)判標(biāo)準(zhǔn)如表1所示。各感官指標(biāo)分值原始數(shù)據(jù)分布情況如圖1所示。
1.2方法
表1 卷煙感官質(zhì)量評(píng)判標(biāo)準(zhǔn)Table1 Evaluation criteria of cigarette sensory quality
圖1 各感官指標(biāo)結(jié)果分布情況Fig. 1 The distribution of the values of sensory evaluation indices
1.2.2基于代價(jià)敏感的神經(jīng)網(wǎng)絡(luò) 本文采用文獻(xiàn)[10]提出的基于代價(jià)敏感的神經(jīng)網(wǎng)絡(luò)運(yùn)用于卷煙感官評(píng)估中。在這里作簡(jiǎn)單闡述。
過(guò)抽樣(Over-sampling):基于代價(jià)敏感的過(guò)抽樣方法試圖通過(guò)改變訓(xùn)練樣本分布從而使得每個(gè)樣本的錯(cuò)分代價(jià)一致。具體地,該技術(shù)根據(jù)樣本的錯(cuò)分代價(jià)按一定比例復(fù)制代價(jià)較低的樣本。首先,識(shí)別具有最小單位代價(jià)的類別。根據(jù)文獻(xiàn)[10],使用公式4識(shí)別基準(zhǔn)類別。
欠抽樣(Under-sampling):和過(guò)抽樣策略類似,基于代價(jià)敏感欠抽樣技術(shù)也是通過(guò)改變樣本分布從而使得每個(gè)樣本的錯(cuò)分代價(jià)一致。不同的是,這種方法通過(guò)刪除代價(jià)相對(duì)較低的樣本達(dá)到這種效果。具體地,同樣根據(jù)公式5計(jì)算第個(gè)類別對(duì)應(yīng)的樣本數(shù)量。在基于代價(jià)敏感的欠抽樣方案中,根據(jù)公式6識(shí)別具有最大單位代價(jià)的類別。
在訓(xùn)練階段,基于閾值偏移的代價(jià)敏感神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)沒(méi)有區(qū)別,但是在預(yù)測(cè)階段,前者采用閾值偏移的方式使得輸出結(jié)果更偏向于錯(cuò)分代價(jià)較高的類別。
2.1數(shù)據(jù)預(yù)處理
由于卷煙感官評(píng)估結(jié)果是由多名專家評(píng)分后取平均值得到的,因此我們得到的數(shù)據(jù)表中感官指標(biāo)的數(shù)值不是離散值。另一方面,每個(gè)專家基于表1以0.5為分段進(jìn)行打分,評(píng)估結(jié)果實(shí)際為離散量,因此我們需要對(duì)感官結(jié)果進(jìn)行離散化處理。感官評(píng)估指標(biāo)的離散化方法如表2所示。以光澤為例,將得分在[0, 2.75]區(qū)間內(nèi)的樣本歸為一類,屬于該類的樣本光澤暗淡,然后將(2.75, 3.25]分為一類,以此類推,每隔0.5為一個(gè)間隔,最終得到整個(gè)區(qū)間的劃分。
表2 卷煙感官指標(biāo)離散化情況Table2 Description of discretization of cigarette sensory index
由表2方法離散化后的6組數(shù)據(jù)集的基本信息如表3所示,由于在表2中某些區(qū)間內(nèi)不存在樣本,所以表2和表3相應(yīng)數(shù)據(jù)集中的類別數(shù)不一定一致。此外,在進(jìn)行試驗(yàn)之前,需要對(duì)每一個(gè)條件屬性進(jìn)行歸一化處理,計(jì)算如下:
根據(jù)文獻(xiàn)[12],本文采用5次5折交叉驗(yàn)證的方法進(jìn)行實(shí)驗(yàn),即試驗(yàn)時(shí)將全部數(shù)據(jù)樣本隨機(jī)分為5份,每次取其中的4份進(jìn)行訓(xùn)練,其余樣本作為測(cè)試集,計(jì)算錯(cuò)分代價(jià)。重復(fù)進(jìn)行5次這樣的試驗(yàn),5次的平均結(jié)果作為最終分類器的錯(cuò)分代價(jià)。
表3 感官指標(biāo)各數(shù)據(jù)集信息Table3 Information of sensory evaluation datasets
2.2 代價(jià)矩陣設(shè)置
我們通過(guò)在煙草企業(yè)對(duì)卷煙設(shè)計(jì)和生產(chǎn)過(guò)程的調(diào)研發(fā)現(xiàn):一方面,卷煙配方感官品質(zhì)的優(yōu)劣決定該配方用于何種檔次的卷煙生產(chǎn),卷煙配方的感官品質(zhì)越好,則對(duì)應(yīng)生產(chǎn)的卷煙價(jià)格越高;另一方面,高感官品質(zhì)的卷煙配方是稀缺的,卷煙配方實(shí)際是多個(gè)單料煙的混合物,不同單料煙的組合得到的卷煙配方的感官品質(zhì)是不同的,而高感官品質(zhì)的卷煙配方往往較難獲得。因此,通過(guò)與煙草企業(yè)研究人員進(jìn)行討論,我們確定了如下的代價(jià)矩陣設(shè)置原則:當(dāng)高感官品質(zhì)的卷煙配方錯(cuò)分為低品質(zhì)的卷煙配方時(shí),賦予較高的錯(cuò)分代價(jià);反之,則賦予單位代價(jià)。以香氣為例,假如我們現(xiàn)在有兩個(gè)卷煙配方樣本a和b,其對(duì)應(yīng)的香氣指標(biāo)的分值分別為26和32,如果將樣本b的香氣指標(biāo)錯(cuò)誤地預(yù)測(cè)為26,則我們會(huì)錯(cuò)失一個(gè)高香氣品質(zhì)的卷煙配方,因此賦予較大的錯(cuò)分代價(jià);反過(guò)來(lái),如果將樣本a的香氣指標(biāo)錯(cuò)誤地預(yù)測(cè)為32,只需人工進(jìn)一步驗(yàn)證確認(rèn)即可,不會(huì)造成損失,因此賦予較小的錯(cuò)分代價(jià)(單位代價(jià))?;谏鲜鍪聦?shí),我們采用如下方式產(chǎn)生代價(jià)矩陣:
2.3參數(shù)設(shè)置
在本文中,BP神經(jīng)網(wǎng)絡(luò)作為基本分類器訓(xùn)練基于代價(jià)敏感的分類器,神經(jīng)網(wǎng)絡(luò)具有三層結(jié)構(gòu),在隱含層和輸出層我們均采用‘logsig’作為傳遞函數(shù),隱含層節(jié)點(diǎn)數(shù)設(shè)置為10,訓(xùn)練次數(shù)設(shè)置為200。需要說(shuō)明的是,本文的目的是為了說(shuō)明基于代價(jià)敏感的神經(jīng)網(wǎng)絡(luò)在卷煙感官質(zhì)量評(píng)估中的有效性,為卷煙生產(chǎn)企業(yè)設(shè)計(jì)開(kāi)發(fā)智能感官評(píng)估系統(tǒng)提供借鑒,因此并沒(méi)有進(jìn)行參數(shù)設(shè)置的優(yōu)化,事實(shí)上,由于各個(gè)企業(yè)歷史數(shù)據(jù)和產(chǎn)品的不同,需要根據(jù)企業(yè)自身實(shí)際情況進(jìn)行參數(shù)的選擇。
2.4試驗(yàn)結(jié)果
本文采用分類器錯(cuò)分總代價(jià)、高代價(jià)類別分類準(zhǔn)確率以及平均分類準(zhǔn)確率作為衡量不同方法性能的三個(gè)指標(biāo),其中錯(cuò)分總代價(jià)是指所有錯(cuò)分樣本所產(chǎn)生的錯(cuò)分代價(jià),高代價(jià)類別分類準(zhǔn)確率是指錯(cuò)分代價(jià)最大的類別的預(yù)測(cè)準(zhǔn)確率,平均分類準(zhǔn)確率是指各個(gè)類別的分類準(zhǔn)確率的平均值,因此,錯(cuò)分總代價(jià)越低,高代價(jià)類別分類準(zhǔn)確率和平均分類準(zhǔn)確率越高,說(shuō)明相應(yīng)方法的性能越好。所有的結(jié)果如表4-表6所示,每行對(duì)應(yīng)數(shù)據(jù)集,每列表示相應(yīng)的分類方法,最后一行代表每個(gè)方法的平均值。表中每個(gè)數(shù)字表示評(píng)價(jià)指標(biāo)值±方差。
表4反映了采用不同代價(jià)矩陣情況下,錯(cuò)分總代價(jià)的試驗(yàn)結(jié)果。從試驗(yàn)結(jié)果可以看出,光澤和諧調(diào)的錯(cuò)分總代價(jià)相對(duì)較小,而其他感官指標(biāo)的錯(cuò)分總代價(jià)相對(duì)較大。對(duì)照?qǐng)D1,原始數(shù)據(jù)集中,光澤和諧調(diào)的分布規(guī)律明顯,而其他感官指標(biāo)的分值分布較為模糊,這說(shuō)明在卷煙感官評(píng)估中,光澤和諧調(diào)這兩個(gè)指標(biāo)較為容易識(shí)別,而其他指標(biāo)則難度較大。產(chǎn)生這一問(wèn)題的原因有兩方面:一方面香氣等較難識(shí)別的感官指標(biāo)導(dǎo)致分類器產(chǎn)生的錯(cuò)分總代價(jià)較高;另一方面由于香氣等指標(biāo)的評(píng)估結(jié)果分布規(guī)律模糊,在類別屬性離散化過(guò)程中可能導(dǎo)致引入了更多的類別屬性噪聲,進(jìn)一步加劇了識(shí)別的難度。因此,在建立基于代價(jià)敏感的卷煙感官評(píng)估系統(tǒng)時(shí),一方面要不斷提高分類器的性能,另一方面要從數(shù)據(jù)源頭抓起,提高歷史數(shù)據(jù)的質(zhì)量,比如香氣等感官指標(biāo)的評(píng)定結(jié)果不以多個(gè)卷煙評(píng)估專家給出的評(píng)估結(jié)果的平均值出現(xiàn),而是直接給出這些指標(biāo)的類別檔次信息,從而避免離散化等操作帶來(lái)的噪聲問(wèn)題。
另外,從表4中α的取值可以看出不同的感官指標(biāo)的錯(cuò)分代價(jià)矩陣是各有特點(diǎn)的。例如諧調(diào)、余味和刺激性3個(gè)指標(biāo)的α較小,而其他3個(gè)指標(biāo)的α值較大。較小的α值說(shuō)明針對(duì)這些感官指標(biāo),應(yīng)盡量保持原有樣本的分布;反之,則說(shuō)明需要突出高代價(jià)樣本的識(shí)別效果。
表5反映了采用不同代價(jià)矩陣情況下,高代價(jià)類別分類準(zhǔn)確率的試驗(yàn)結(jié)果。結(jié)果說(shuō)明采用基于代價(jià)敏感的學(xué)習(xí)方法,可以有效地提高目標(biāo)類別的識(shí)別率,這對(duì)于卷煙產(chǎn)品維護(hù)和新產(chǎn)品開(kāi)發(fā),具有重要的實(shí)踐意義。例如需要開(kāi)發(fā)或者維護(hù)的卷煙新產(chǎn)品的香氣目標(biāo)值為28±0.25,則卷煙設(shè)計(jì)人員只需將28±0.25設(shè)置為錯(cuò)分代價(jià)較高的類別,這樣利用本方法就可以識(shí)別出符合要求的卷煙配方,從而大大縮小配方設(shè)計(jì)人員的搜索范圍,提高工作效率。
表6反映了采用不同代價(jià)矩陣情況下,平均分類準(zhǔn)確率的實(shí)驗(yàn)結(jié)果。平均分類準(zhǔn)確率反映了分類器在各個(gè)類別上的分類效果??梢钥吹剑?dāng)采用Over-sampling和Under-sampling時(shí),光澤,諧調(diào),刺激性以及雜氣這4個(gè)感官指標(biāo)的平均準(zhǔn)確率明顯高于香氣和余味兩個(gè)感官指標(biāo),這說(shuō)明基于代價(jià)敏感的神經(jīng)網(wǎng)絡(luò)在預(yù)測(cè)高代價(jià)類別樣本的同時(shí),也可以更好地預(yù)測(cè)其他類別的樣本,但是當(dāng)感官指標(biāo)達(dá)到一定復(fù)雜程度時(shí),基于代價(jià)敏感的神經(jīng)網(wǎng)絡(luò)的決策更偏向于高代價(jià)樣本,從而導(dǎo)致平均預(yù)測(cè)準(zhǔn)確率有所下降。另外,Threshold-moving的平均預(yù)測(cè)準(zhǔn)確率較低,說(shuō)明該方法在預(yù)測(cè)卷煙感官指標(biāo)時(shí)更偏向于高代價(jià)類別。因此,Over-sampling和Undersampling技術(shù)在卷煙感官評(píng)估中的效果更好。
表4 錯(cuò)分總代價(jià)試驗(yàn)結(jié)果Table4 Results of misclassification cost
表5 高代價(jià)類別分類準(zhǔn)確率Table5 Classification accuracy on classes with the highest cost
表6 平均分類準(zhǔn)確率Table6 Results of average classification accuracy
本文利用基于代價(jià)敏感的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)卷煙感官質(zhì)量,結(jié)果表明該方法在錯(cuò)分總代價(jià)、高代價(jià)類別的識(shí)別率以及平均分類準(zhǔn)確率3個(gè)指標(biāo)上均獲得了顯著的效果,尤其在預(yù)測(cè)高代價(jià)類別和平均準(zhǔn)確率這兩個(gè)指標(biāo)上,本文方法具有絕對(duì)的優(yōu)勢(shì)。因此,基于代價(jià)敏感學(xué)習(xí)方法可以有效的識(shí)別卷煙感官評(píng)估中的高代價(jià)樣本。據(jù)此,在卷煙新產(chǎn)品開(kāi)發(fā)和產(chǎn)品維護(hù)過(guò)程中可以將目標(biāo)類別設(shè)置為較大的錯(cuò)分代價(jià),從而獲得符合要求的產(chǎn)品配方,對(duì)卷煙生產(chǎn)具有實(shí)踐意義。
[1] King E S, Dunn R L, Heymann H. The influence of alcohol on the sensory perception of red wines [J]. Food Quality and Preference, 2013, 28(1)∶ 235-243.
[2] Feng T J, Ma L T, Ding X Q, et al. Intelligent techniques for cigarette formula design[J]. Mathematics and Computers in Simulation, 2008, 77(5-6)∶ 476-486.
[3] Borém F M, Ribeiro F C, Figueiredo L P, et al. Fortunato V A, Isquierdo E P, Evaluation of the sensory and color quality of coffee beans stored in hermetic packaging[J]. Journal of Stored Products Research, 2013, 52∶ 1-6.
[4] Ghasemi-Varnamkhasti M, Mohtasebi S S, Rodriguez-Mendez M L, et al. Classification of non-alcoholic beer based on aftertaste sensory evaluation by chemometric tools[J]. Expert Systems with Applications, 2012, 39(4)∶4315-4327.
[5] Zeng X Y, Ruan D, Koehl L. Intelligent sensory evaluation∶Concepts, implementations, and applications [J]. Mathematics and Computers in Simulation, 2008, 77(5-6)∶443-452.
[6] 高大啟,吳守一. 并聯(lián)神經(jīng)網(wǎng)絡(luò)在烤煙內(nèi)在品質(zhì)評(píng)定中的應(yīng)用[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),1999,30(1):58-62.
[7] 邵惠芳,許自成,李東亮,等. 基于BP神經(jīng)網(wǎng)絡(luò)建立烤煙感官質(zhì)量的預(yù)測(cè)模型[J]. 中國(guó)煙草學(xué)報(bào),2011,17(1):19-25.
[8] 王強(qiáng),陳英武,李孟軍. 基于支持向量機(jī)的卷煙質(zhì)量評(píng)估方法[J]. 系統(tǒng)管理學(xué)報(bào),2006,15(5):475-478.
[9] 王濤. SVM在配方感官評(píng)估中的應(yīng)用[J]. 微計(jì)算機(jī)信息,2010(10):236-238.
[10] Zhou Z H, Liu X Y. Training cost-sensitive neural networks with methods addressing the class imbalance problem[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(1)∶ 63-77.
[11] Tomek I. Two modifications of CNN[J]. IEEE Transactions on Systems, Man and Cybernetics, 1976, 6∶769-772.
[12] J G Moreno-Torres, J A Sáez, F Herrera. Study on the Impact of Partition-Induced Dataset Shift on-Fold Cross-Validation, IEEE[J]. Transactions on Neural Networks and Learning Systems, 23 (2012) 1304-1312.
A Method for Cigarette Sensory Quality Evaluation Based on Cost-sensitive Learning
ZHANG Zhongliang1, TANG Jianguo2, QIAO Danna2, LUO Xinggang1*, ZHAO Liang1, TANG Jiafu1
(1. College of Information Science and Engineering, Northeastern University, Shenyang 110819, China; 2. Technology Center, China Tobacco Yunnan Industrial Co., Ltd., Kunming 650231, China)
Arming at the cost-sensitive problems in cigarette sensory evaluation, Cost-Sensitive Back-Propagation Neural Networks(CSBPNN) was employed in this paper to deal with the problems derived from cigarette sensory evaluation. In order to verify the effectiveness of our methodology, the cost matrix was obtained based on production practice and the comparative experimental study was carried out by using dataset from a tobacco company. The experimental results indicated that our methods have a significant advantage on total misclassification cost, high cost label recognition rate and average classification accuracy when compared with the cost-insensitive methods.
classification algorithm; cost-sensitive; sensory evaluation; neural network; cigarette
TS41+1
1007-5119(2016)05-0075-07
10.13496/j.issn.1007-5119.2016.05.014
國(guó)家自然科學(xué)基金面上項(xiàng)目“基于QFD和數(shù)據(jù)挖掘的卷煙產(chǎn)品葉組配方優(yōu)化關(guān)鍵技術(shù)研究”(61273204)
張忠良(1986-),在讀博士研究生,研究方向:數(shù)據(jù)挖掘。E-mail:zzl19860210@126.com。*通信作者,E-mail:xgluo@mail.neu.edu.cn
2015-12-30
2016-08-09