章平泉,杜秀敏,金嵐峰,陳兆華,金殿明
(江蘇中煙工業(yè)有限責(zé)任公司淮陰卷煙廠,江蘇 淮安 223002)
不同的學(xué)者[1-2]對(duì)煙葉的可用性有不同的認(rèn)識(shí),一般認(rèn)為可用性包括煙葉本身主觀的特征和客觀的要求,是可變的,是某種煙葉在特定的廠家的特定的卷煙制品中滿足其配方需求的程度[3]。目前煙葉可用性問(wèn)題主要表現(xiàn)在以下幾個(gè)方面:煙葉香味風(fēng)格尚不能完全滿足中式卷煙對(duì)原料的需要;部分煙葉的化學(xué)成分不夠協(xié)調(diào);一些煙葉的外觀質(zhì)量和內(nèi)在質(zhì)量不一致;煙葉質(zhì)量的穩(wěn)定性較差。因此,如何提高和評(píng)價(jià)煙葉可用性是一項(xiàng)綜合性的系統(tǒng)工程[4]。隨著新理論、新技術(shù)的發(fā)展,人們提出了許多新模型和方法應(yīng)用于煙葉可用性評(píng)價(jià)[5-9],但這些方法都存在著評(píng)價(jià)指標(biāo)適宜值及評(píng)價(jià)因子權(quán)重難于客觀確定等不足。
支持向量機(jī)(Support Vector Machine,SVM)是建立在VC(Vapnik Chervonenkis)維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則基礎(chǔ)上的一種新型機(jī)器學(xué)習(xí)方法[10]。與神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,SVM具有小樣本學(xué)習(xí)、泛化能力強(qiáng)等特點(diǎn),能有效地避免過(guò)學(xué)習(xí)、局部極小點(diǎn)以及“維數(shù)災(zāi)難”等問(wèn)題[11]。目前,并沒(méi)有SVM應(yīng)用于煙葉可用性預(yù)測(cè)的相關(guān)文獻(xiàn)報(bào)道。因此,本研究嘗試建立煙葉可用性SVM模型,并對(duì)模型的預(yù)測(cè)準(zhǔn)確性進(jìn)行驗(yàn)證,以便更好地進(jìn)行煙葉可用性評(píng)價(jià),為卷煙產(chǎn)品配方維護(hù)和煙葉分組加工提供參考。
給定訓(xùn)練集
超平面w·x+b=0能將兩類樣本正確區(qū)分,并使分類間隔最大的優(yōu)化問(wèn)題可表示為:
當(dāng)訓(xùn)練集線性不可分時(shí),任何超平面都必有劃分錯(cuò)誤的樣本點(diǎn)。為此,引入松弛變量ξi≥0(i=1,…,n),約束條件為yi[w·x+b]+ξi? 1≥0(i=1,2,…,n),同時(shí)引進(jìn)懲罰參數(shù)C作為對(duì)錯(cuò)分樣本點(diǎn)的懲罰,此時(shí)優(yōu)化函數(shù)為:
優(yōu)化(2)式的對(duì)偶問(wèn)題為:
由Kuhn-Tucker定理可知,對(duì)偶變量與約束的乘積為0,即:
如果ai=0,樣本xi稱為非支持向量;若ai>0樣本xi稱為支持向量,因此,最后得判別函數(shù)為:
對(duì)于非線性分類,使用非線性映射?把數(shù)據(jù)從原空間Rn映射到一個(gè)高維特征空間ω,在高維特征空間ω上建立優(yōu)化平面。此時(shí),在非線性情況下支持向量機(jī)對(duì)分類問(wèn)題稱為最大化函數(shù):
此時(shí)決策面為:
最后得決策函數(shù)為:
其中K(x,xi)為核函數(shù),核函數(shù)的選取應(yīng)使其成為特征空間的一個(gè)點(diǎn)積,即存在函數(shù)?,使得K(x,xi)=φ(x) φ(xi),常用的核函數(shù):
其中γ,r, 和d為核函數(shù)參數(shù)。
對(duì)于訓(xùn)練集中第i和j類,需要解決以下二分類問(wèn)題:
通過(guò)(6)式求出最終的決策函數(shù)為:
劉國(guó)順等[5]用化學(xué)成分(總氮、總糖、還原糖、施木克值、總植物堿和鉀)和物理特性(單葉重、含梗率、葉質(zhì)重、平衡含水率和填充力)作為分類參數(shù),運(yùn)用主成分分析和聚類分析方法,對(duì) 44個(gè)煙葉樣本進(jìn)行了分類,根據(jù)綜合得分把所有煙葉樣本分為5組。為了清晰區(qū)分樣品的分類屬性,根據(jù)文獻(xiàn)[5]的煙葉可用性評(píng)價(jià)結(jié)果,去除8和9號(hào)樣本,將剩余42個(gè)煙葉樣本分為4類,即可用性差(記為第 1類,共 8個(gè)樣本)、可用性較差(記為第 2類,共8個(gè)樣本)、可用性較好(記為第3類,共14個(gè)樣本)和可用性好(記為第4類,共12個(gè)樣本)(表1)。
從第1類至第4類樣品中分別隨機(jī)選取2、2、3和3個(gè)共計(jì)10個(gè)樣品組成預(yù)測(cè)集樣本,將其余32個(gè)樣品組成訓(xùn)練集樣本建立煙葉可用性SVM預(yù)測(cè)模型,并對(duì)預(yù)測(cè)集樣本分類屬性進(jìn)行預(yù)測(cè)。為了消除不同物理量綱的影響,對(duì)所有物理特性和化學(xué)指標(biāo)按照x'=(x?min(x))/(max(x)?min(x))進(jìn)行規(guī)范化處理,其中x'為某指標(biāo)規(guī)范后的數(shù)值,min(x)=min(x1,x2,…xn);max(x)=max(x1,x2,…xn)。采用libsvm2.9軟件[12]建立SVM預(yù)測(cè)模型。
以文獻(xiàn)[5]中32個(gè)原始數(shù)據(jù)為訓(xùn)練樣本集,用Fisher法[13]作模式識(shí)別投影圖。分別選取多項(xiàng)式函數(shù)、sigmoid函數(shù)以及RBF函數(shù)作為核函數(shù)建立SVM預(yù)測(cè)模型,采用k-折交叉驗(yàn)證法確定最優(yōu)參數(shù),并與Fisher法分析結(jié)果進(jìn)行對(duì)比。結(jié)果如圖1和表2。
從圖1可以看出,F(xiàn)isher法訓(xùn)練分類結(jié)果較好,但對(duì)預(yù)測(cè)集樣本的預(yù)測(cè)準(zhǔn)確率只有70%。從表2可以看出,SVM方法對(duì)預(yù)測(cè)集樣本的預(yù)測(cè)準(zhǔn)確率達(dá)到了80%~90%,明顯優(yōu)于前者,且以RBF為核函數(shù)建立的SVM模型預(yù)測(cè)結(jié)果最好,對(duì)訓(xùn)練集和預(yù)測(cè)集樣本的預(yù)測(cè)準(zhǔn)確率分別為84.38%和90%,表現(xiàn)出較強(qiáng)的泛化能力(建模參數(shù)為C=4,γ=0.25,ε=0.001),這可能是由于RBF可調(diào)參數(shù)少,在一般光滑性假設(shè)條件下具有良好的性能所致[14]。但另一方面,本研究建立的煙葉可用性SVM預(yù)測(cè)模型對(duì)訓(xùn)練集和預(yù)測(cè)集的預(yù)測(cè)準(zhǔn)確性仍有較大的提升空間,其原因可能有以下幾點(diǎn):①試驗(yàn)所選取的物理特性和化學(xué)成分只是影響煙葉可用性的一部分,而不是全部;②模型選擇影響SVM的性能;③預(yù)測(cè)準(zhǔn)確性依賴于訓(xùn)練集和預(yù)測(cè)集樣本的選取以及訓(xùn)練集樣本的來(lái)源,數(shù)量及其代表性。
表1 煙葉可用性分組結(jié)果Table1 Grouping results of tobacco leaf usability
圖1 煙葉可用性的Fisher法分類投影圖Fig.1 The class projection chart of tobacco leaf usability forecast with Fisher method
表2 不同方法對(duì)預(yù)測(cè)集樣本預(yù)測(cè)結(jié)果的對(duì)比Table2 Comparison prediction results of forecast samples with different methods
運(yùn)用不同的核函數(shù)建立煙葉可用性SVM預(yù)測(cè)模型,并與Fisher法分析結(jié)果進(jìn)行對(duì)比。分析結(jié)果表明,煙葉可用性SVM預(yù)測(cè)模型比Fisher法分析結(jié)果均好,且以RBF為核函數(shù)建立的SVM分類預(yù)測(cè)模型能更佳地反映煙葉可用性與物理和化學(xué)指標(biāo)之間的非線性關(guān)系。如何建立更好地評(píng)價(jià)煙葉可用性SVM分類預(yù)測(cè)模型,并準(zhǔn)確地對(duì)煙葉可用性進(jìn)行預(yù)測(cè),還需綜合訓(xùn)練集樣本選擇、評(píng)價(jià)指標(biāo)的確定及SVM模型參數(shù)的選擇才能進(jìn)一步、合理地確定。
[1]左天覺(jué).煙草的生產(chǎn),生理和生物化學(xué)[M].朱尊權(quán),等,譯.上海:遠(yuǎn)東出版社,1993.
[2]朱尊權(quán).煙葉的可用性與卷煙的安全性[J].煙草科技,2000(8):3-6.
[3]唐遠(yuǎn)駒.關(guān)于煙葉的可用性問(wèn)題[J].中國(guó)煙草科學(xué),2007,28(1):1-5.
[4]鄧小華.湖南烤煙區(qū)域特征及質(zhì)量評(píng)價(jià)指標(biāo)間關(guān)系研究[D].長(zhǎng)沙:湖南農(nóng)業(yè)大學(xué),2007:12.
[5]劉國(guó)順,楊永鋒,凌愛(ài)芬.應(yīng)用主成分分析和聚類分析評(píng)價(jià)烤煙葉位間質(zhì)量差異[C]//中國(guó)煙草學(xué)會(huì) 2006年學(xué)術(shù)年會(huì)論文集,2007.
[6]王欣.湖北煙區(qū)烤煙質(zhì)量綜合評(píng)價(jià)及與國(guó)內(nèi)外優(yōu)質(zhì)烤煙的差異分析[D].鄭州:河南農(nóng)業(yè)大學(xué),2008.
[7]薛超群,尹啟生,王信民.模糊綜合評(píng)判在化學(xué)成分評(píng)價(jià)煙葉可用性中的應(yīng)用[J].煙草科技,2007(4):62-64.
[8]丁云生,何悅,曹金麗.大理州烤煙主要化學(xué)成分特征及其可用性分析[J].中國(guó)煙草科學(xué),2009,30(3):13-18.
[9]張永安.提高上部煙葉可用性的化控技術(shù)研究[D].合肥:安徽農(nóng)業(yè)大學(xué),2004:6.
[10]Vapnik V.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,2000.
[11]Vapnik V.An overview of statistical learning theory[J].IEEE Transactions on Neural Netwoks,1999,10(5): 988-999.
[12]Chih Chung Chang, Chih Jen Lin.LIBSVM-a library for support vector machines [EB/OL]. [2010-1-10]http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[13]張文彤.SPSS 11統(tǒng)計(jì)分析教程(高級(jí)篇)[M].北京:北京希望電子出版社,2002.
[14]田盛豐,黃厚寬.回歸型支持向量機(jī)的簡(jiǎn)化算法[J].軟件學(xué)報(bào),2002,13(6):1169-1172.