尹梅,周國雄
(1.湖南工程職業(yè)技術(shù)學院信息工程系,湖南 長沙 410151;2.中南林業(yè)科技大學計算機與信息工程學院,湖南長沙 410004)
?
基于改進模糊聚類的煙草品質(zhì)集成評價模型
尹梅1,周國雄2
(1.湖南工程職業(yè)技術(shù)學院信息工程系,湖南 長沙 410151;2.中南林業(yè)科技大學計算機與信息工程學院,湖南長沙 410004)
針對煙草化學成分與煙草品質(zhì)之間難以建立確定的數(shù)學模型的問題,提出了一種基于改進模糊聚類的煙草品質(zhì)評價方法。該方法以煙葉樣品的化學成分的差異性為依據(jù),以模型分類結(jié)果與專家評吸結(jié)果的一致性為目標,利用模擬退火算法對現(xiàn)有的模糊聚類算法進行優(yōu)化改進,建立基分類器;在此基礎上,利用 AdaBoost將基分類器對于不同樣本集的多個分類結(jié)果進行集成,形成最終的煙草品質(zhì)評價模型。以130組煙葉作為煙草樣本,測定了各煙葉樣品中總糖、還原糖、總氮、煙堿、氧化鉀、氯離子、蛋白質(zhì)7種化學成分含量,并采用改進的模糊聚類方法與神經(jīng)網(wǎng)絡算法、模糊聚類算法進行對比試驗,該方法的誤檢率為6.7%,具有提升小樣本數(shù)據(jù)的辨識能力,優(yōu)于所比較的其他2種方法。
模糊聚類;模擬退火;專家評吸;煙草品質(zhì)評價
投稿網(wǎng)址:http://xb.ijournal.cn
煙草中的化學成分十分復雜,它們對人的感官刺激與人的主觀感受之間的關(guān)系極其微妙,呈弱隨機性,使得煙草品質(zhì)的評價差異性較大?,F(xiàn)有的煙草品質(zhì)評價,大都采用傳統(tǒng)的數(shù)理統(tǒng)計方法,曹建敏等[1]利用簡單相關(guān)分析、偏相關(guān)分析以及線性回歸方法,分析了多種化學物質(zhì)對煙草品質(zhì)的影響;李強等[2]對煙草主要化學成分進行主成分分析,建立了烤煙品質(zhì)的估算方法;于建軍等[3]通過相關(guān)和回歸方法,從7種化學成分及其3種比值中提取了4個對煙草品質(zhì)影響較大的主因子,這些方法能夠明確不同化學成分對煙草品質(zhì)的影響程度,但難以建立煙草化學成分與其品質(zhì)之間確定的數(shù)學模型,因而無法直接給出評估結(jié)果。徐小華等[4]則將支持向量機用于煙草化學成分協(xié)調(diào)性的分類,陳清等[5]利用人工神經(jīng)網(wǎng)絡對煙草品質(zhì)進行分類,這些智能計算在一定程度上彌補了傳統(tǒng)數(shù)理統(tǒng)計的不足,但是對于弱隨機性的品質(zhì)分類準確性仍然不高。
筆者提出了一種基于改進模糊聚類的煙草品質(zhì)的評價方法:以煙葉樣品的化學成分的差異性為依據(jù),以評價結(jié)果與專家評吸結(jié)果一致性為綜合目標,利用模擬退火算法對現(xiàn)有的模糊聚類算法進行優(yōu)化改進,建立基分類器;在此基礎上,利用AdaBoost將基分類器對于不同樣本集的多個分類結(jié)果進行集成,形成最終的煙草品質(zhì)評價模型。
選用煙葉中總糖、還原糖、總氮、煙堿、蛋白質(zhì)、氧化鉀、氯離子的含量作為煙草品質(zhì)主要評價依據(jù),采用多種煙草樣本以及專家評價結(jié)果建立測量集[6],通過分類算法對樣本煙草化學成分進行分析,來評價煙草內(nèi)在品質(zhì)的差異性。
基于傳統(tǒng)數(shù)理統(tǒng)計方法只能分析影響卷煙品質(zhì)的相關(guān)因素,無法建立煙草化學成分與品質(zhì)之間明確數(shù)學模型[7]和評吸專家的感受存在一定的隨機性,導致單一的分類模型,往往存在弱學習特性[8],分類結(jié)果容易受到影響,導致偏差,提出一種基于改進模糊聚類的煙草品質(zhì)集成評價方法,算法原理如圖1所示,主要分為基于模擬退火優(yōu)化的模糊聚類煙草品質(zhì)評價模型和基于 AdaBoost的集成分類優(yōu)化2部分,前者采用模擬退火算法對傳統(tǒng)的模糊聚類算法進行優(yōu)化,對多組測試樣本中的化學成分進行分類,得到若干個單一的煙草品質(zhì)弱評價模型;在此基礎上,利用 AdaBoost對多組分類模型的權(quán)重進行迭代計算,最終組合為煙草品質(zhì)集成評價模型。
圖1 基于改進模糊聚類的煙草品質(zhì)集成評價方法Fig.1 Tobacco quality integrated evaluation method based on improved fuzzy clustering
煙草中主要化學成分的含量及比例是評價煙草品質(zhì)的重要依據(jù),但是由于燃燒過程中各種化學成分間存在相互作用,使煙草品質(zhì)的評價模型的建立更為困難。
聚類分析是典型的無指導學習算法,具有很強的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)能力,聚類分析能夠按照某個特定標準對數(shù)據(jù)集進行合理劃分[9],確定每個對象所屬的類別,從而將煙草化學成分這類復雜對象集合,分化成由相似的對象組成的多個類。
2.1模糊聚類分析
式中:uil為隸屬度,表示第l個煙葉樣品隸屬于第i個品質(zhì)等級的程度,并要滿足2個約束條件,即。引入距離),(iixxd'表示任意煙葉樣品間的差異度,),(iixxd'采用明考斯基公式[10]來表示。由于不同化學成分對煙葉品質(zhì)的影響有一定的差異,因此在明考斯基距離的基礎上,加入權(quán)重因子,以體現(xiàn)不同化學成分對煙葉品質(zhì)的影響程度,得到
式中:xi、xi'分別表示2個煙葉樣品品質(zhì)等級;d(xi,xi')為 2個樣品品質(zhì)等級的加權(quán)明考斯基距離; xij表示第i個煙葉樣品的第j個化學成分含量的取值;ωk(k∈[1,p])表示第k個化學成分的品質(zhì)等級影響權(quán)重。
由于不同化學成分的度量單位不一致,會影響煙葉品質(zhì)聚類分析的結(jié)果,為避免這一影響,需要對數(shù)據(jù)進行標準化處理[11–12]。采用 z–score標準化方法對于各化學成分含量f的度量值進行處理,即
式中:zif為標準化處理后的煙草樣本某一等級成分取值;r1f,r2f,…,rnf分別表示N個煙葉樣本的某一化學成分的原始含量f數(shù)據(jù),mf是rif的平均值。
經(jīng)過 z–score標準化處理后,以每個煙葉樣品品質(zhì)等級到各個品質(zhì)等級中心距離之和的最小值為目標,結(jié)合式(2),得到如下目標函數(shù)。
由此,利用模糊聚類的基本思想,煙草品質(zhì)的評價問題被轉(zhuǎn)換為式(4)所示的目標優(yōu)化問題,即通過選取合適的分類中心cjk,使式(4)所示指標達到最優(yōu)。
2.2基于模擬退火的分類改進
傳統(tǒng)的模糊聚類采用K均值法,即采用最小二乘法對(4)式所示目標函數(shù)進行求解,尋找權(quán)重因子以及聚類中心向量。該方法一方面受到計算法的限制,難以在全局范圍類搜索最優(yōu)的分類結(jié)果;另一方面由于僅考慮了煙葉樣品的化學成分的差異性,而無法使分類中心符合評吸專家的評定結(jié)果。
模擬退火是一種基于種群并行優(yōu)化的算法,具有易實現(xiàn)、計算效率高等優(yōu)點[13–14],同時在陷入局部最優(yōu)問題上有所改善,因此采用模擬退火算法對于分類中心cjk進行選取。
2.2.1實現(xiàn)步驟
第1步,對煙草樣本的化學成分含量進行標準化處理。
第2步,建立初始族群,在充分高的初始溫度T0條件下,在PM×個煙草品質(zhì)分類中心cjk系數(shù)以及P個權(quán)重組成的解空間中,產(chǎn)生N個隨機的物質(zhì)粒子族群γ,每個族群同時隨機生成初始解狀態(tài)S1,S1,…,SN,以及迭代次數(shù) L。
第3步,評價煙草品質(zhì),根據(jù)準則函數(shù)計算種群中各個物質(zhì)粒子的綜合代價J(γn)。
第4步,模型擾動,對族群中的物質(zhì)粒子按照狀態(tài)產(chǎn)生函數(shù)進行擾動,調(diào)整N個粒子的狀態(tài)值,生成新的粒子γn。
第5步,退火過程,根據(jù)退火表對準則函數(shù)進行降火。
第6步,判定算法終止條件,判斷評價指標J,如J小于0,認定煙草品質(zhì)分類中心已達到最優(yōu),否則按照Metropolis準則對結(jié)果進行判斷,若滿足Metropolis準則,則終止迭代,反之跳入第2步,繼續(xù)迭代。
第7步,利用迭代得到的最優(yōu)系數(shù)構(gòu)造煙草品質(zhì)分類中心,建立煙草品質(zhì)分類評價模型,完成煙草品質(zhì)分類。
2.2.2 準則函數(shù)選取
在退火算法中,準則函數(shù)的取值越小,表示權(quán)重和分類中心cjk的取值越優(yōu)。根據(jù)煙草品質(zhì)評價問題的特點,準則函數(shù)的選取既需要考慮煙葉樣品的化學成分的差異性,又需要考慮分類結(jié)果與評吸專家評定結(jié)果的一致性,因此采用式(5)的性能指標。
式中:J為綜合準則函數(shù),其由分類距離代價J1與分類準確性代價J2加權(quán)組合而成;α和β分別為2種指標的權(quán)重系數(shù);2J利用樣本的分類誤差來度量,其中nl表示第l個等級中,專家認定的樣本個數(shù),ln'表示模型分類中與專家評定結(jié)果一致的樣本個數(shù)。
2.2.3溫度更新速度
模擬退火算法中,溫度更新函數(shù)用于外循環(huán)中溫度值的修改[15],是“金屬物質(zhì)”降溫方式的數(shù)學表示,它直接決定了煙草品質(zhì)評價算法的收斂速度。
2.2.4狀態(tài)產(chǎn)生函數(shù)
模擬退火算法的搜索能力決定于狀態(tài)產(chǎn)生函數(shù)的選取,應盡可能同時保證搜索的全局性和隨機性。為了達到這一目的,引入混沌因子對物質(zhì)粒子的狀態(tài)進行擾動[16]。
式中:px是某一時刻準備進行迭代生成新狀態(tài)的原始物質(zhì)粒子狀態(tài);xp'是即將產(chǎn)生的新物質(zhì)粒子狀態(tài);Logistic為混沌擾動因子。
專家評吸對煙草品質(zhì)評價的結(jié)果受到很多因素的影響,單一煙草樣本集的品質(zhì)評價模型,難以克服評價樣本的弱隨機性,容易出現(xiàn)誤判。AdaBoost集成分類方法,能夠?qū)⒍鄠€精度相對較低的弱分類算法進行綜合考慮,構(gòu)造出精度較高的強分類算法,提升分類精度,因此將改進模糊聚類算法與AdaBoost相結(jié)合,用于煙草品質(zhì)評價。
基于AdaBoost的模型集成分類算法[17],是利用改進模糊聚類算法作為基分類器,通過單個基分類器的分類結(jié)果誤差為依據(jù),加權(quán)建立最終的煙草品質(zhì)評價模型[17]。首先根據(jù)改進模糊聚類算法的分類誤差計算樣本權(quán)重;其次利用加權(quán)后的煙草樣本進行模糊聚類分析,得到對應的煙草品質(zhì)評價模型,同時更新該分類模型的模型權(quán)重;根據(jù)模型精度以及迭代次數(shù)檢查收斂條件。如滿足迭代結(jié)束條件,則根據(jù)模型權(quán)重和各次煙草品質(zhì)分類模型生成最終的集成煙草品質(zhì)評價模型,否則開始新一輪的迭代。
AdaBoost方法的實現(xiàn):
第1步,設m個初始學習的化學成分樣本集為{M},各個樣本集的初始權(quán)重Mddd,,,21…相同,均設置為1/M。
第2步,利用模擬退火算法優(yōu)化模糊聚類算法,分別對m個煙草訓練樣本集進行訓練,獲得第t次的煙草品質(zhì)評價模型ht。
第3步,記錄本次煙草品質(zhì)評價模型ht,計算并保存第t次煙草品質(zhì)評價模型ht的權(quán)重tω,根據(jù)第2步得到的煙草品質(zhì)評價模型的分類誤差,判定收斂標準,若滿足收斂條件,進入第5步;否則進入第4步。
第4步,根據(jù)煙草品質(zhì)評價模型對m個訓練集分類誤差絕對值的和,計算樣本權(quán)重,計算新的樣本集,返回第2步,開始新一輪迭代。
3.1模型權(quán)重的計算
煙草品質(zhì)評價模型的權(quán)重tω的計算,直接影響最終評價模型的準確性[19]。為了增加誤差較小的煙草品質(zhì)評價模型在最終模型中的權(quán)重,采用分類誤差相對值進行權(quán)重的更新。
式中:yt(k)表示各個煙草訓練集原始分類結(jié)果;Et表示第t次迭代計算的煙草品質(zhì)評價模型ht的錯誤率,相對所有煙草品質(zhì)評價模型對各個煙草訓練集的加權(quán)方差總和的比例,即相對誤差;βt為調(diào)節(jié)因子;ωt為第t次迭代得到的煙草品質(zhì)評價模型對最終預測模型的影響權(quán)重值。
3.2樣本權(quán)重的計算
在評吸過程中,品質(zhì)評價結(jié)果必然會受到評吸專家個人主觀因素的影響,存在異常評價的樣本,為了有效降低錯誤樣本對煙草品質(zhì)評價模型的影響,提升正確樣本的貢獻,需要對樣本權(quán)重值進行調(diào)節(jié)。采用分類誤差絕對值作為衡量樣本權(quán)重的依據(jù),通過權(quán)重計算和歸一化2個步驟,計算樣本的權(quán)重。
式中: Et表示第t次迭代計算的煙草品質(zhì)評價模型ht的錯誤率,相對所有煙草品質(zhì)評價模型對各個煙草訓練集的加權(quán)方差總和的比例,即相對誤差;dt'+1(k)表示新的樣本權(quán)重值。
由于樣本權(quán)重值總和必須為 1,需要進行歸一化處理。
為了驗證方法的有效性,采用真實的煙草樣本數(shù)據(jù)對基于模擬退火的改進模糊聚類算法和基于AdaBoost集成分類算法進行仿真試驗。
煙草樣本為來自于山東、山西、云南、四川、陜西、廣西、貴州和江西8省的130組煙葉,測定了各煙葉樣品中總糖、還原糖、總氮、煙堿、氧化鉀、氯離子、蛋白質(zhì)7種化學成分含量,與多位評吸專家給出的品質(zhì)評定結(jié)果組成試驗樣本集。隨機抽取其中的 3 0組樣本作為驗證樣本,其余的 1 00組作為學習樣本。
4.1改進模糊聚類算法的仿真
采用MATLAB仿真軟件,對基于模糊聚類的煙葉品質(zhì)評價方法進行仿真;同時采用模擬退火方法對模糊聚類的分類中心進行優(yōu)化。模擬退火的冷卻參數(shù)α=0.9,初始溫度T0=1 000,群體規(guī)模N=20,其中分類中心 cjk和權(quán)重采用實數(shù)編碼,分別占 16位。最大迭代次數(shù)為8。
為了說明改進效果,將改進模糊聚類算法和單純的模糊聚類算法,對相同煙葉樣本進行分類分析,得到的不同樣本數(shù)量條件下,驗證樣本品質(zhì)分類精度如圖2所示。不難看出,基于模擬退火優(yōu)化的模糊聚類方法的分類精度具有明顯優(yōu)勢,隨著樣本數(shù)量的不斷增加,模擬退火–模糊聚類對煙葉樣本的分類精度不斷提高,當樣本數(shù)大于 6 5后,模糊聚類–模擬退火算法的平均分類誤差在 15%以內(nèi),優(yōu)于傳統(tǒng)的模糊聚類算法的分類結(jié)果。
圖2 分類誤差對比曲線Fig.2 Classification error contrast curve
4.2基于AdaBoost的集成分類仿真
以改進模糊聚類算法為基分類器,利用MATLAB,按照AdaBoost方法進行集成分類。經(jīng)過多次試驗發(fā)現(xiàn),AdaBoost算法的迭代次數(shù)以及單次訓練的樣本數(shù)量是決定分類精度的關(guān)鍵因素。
若單次分類參與的樣本數(shù)較少,為了涵蓋所有樣本,必然要求 AdaBoost迭代次數(shù)增加,迭代次數(shù)增加能夠提升算法的精度,但由于單次樣本數(shù)量較少,其分類的精度可能仍然不高;反之,若單次分類選用的樣本數(shù)較多,算法的運算量呈指數(shù)級增加,各次訓練的差異將不明顯。集成分類仿真結(jié)果表明,AdaBoost算法的迭代次數(shù)為11次,單次訓練的樣本數(shù)為12時,分類精度較高。
表1是專家對于30組驗證樣本所作出的煙草品質(zhì)評定結(jié)果。表2是采用算法所得到的品質(zhì)評價結(jié)果。對比表1和表2,可以看到,利用所建立算法得到的結(jié)果與專家評定結(jié)果差異較小,準確性較高。
表1 30組驗證樣本的專家評吸結(jié)果Table 1 The results of expert evaluation for 30 groups of validation samples
表2 30組驗證樣本的改進模糊聚類算法的評級結(jié)果Table 2 The experimental results of the 30 sets of validation samples by the improved fuzzy clustering algorithm
為了進一步說明所采用算法的優(yōu)勢和有效性,采用SVM、神經(jīng)網(wǎng)絡、模糊聚類對100組煙葉樣本集進行學習,建立評價模型,利用評價模型對驗證樣本進行分析,30組驗證樣本的評級結(jié)果列于表3。
表3 煙草品質(zhì)評價對比Table 3 Comparison results for tobacco quality evaluation
改進的模糊聚類算法的評級結(jié)果與專家評吸結(jié)果基本一致,誤檢率為6.7%,因此在檢測的準確性方面優(yōu)于其他2種算法。這主要是由于將模擬退火算法與模糊聚類算法相結(jié)合,提升了小樣本數(shù)據(jù)的辨識能力,同時利用 AdaBoost方法,降低了評吸專家對煙草品質(zhì)評定過程的主觀性對分析結(jié)果的影響,因此在樣本相同時,檢測的誤檢率遠小于其他2種缺陷辨識算法。
[1] 曹建敏,劉帥帥,邱軍.烤煙重要致香物質(zhì)與評吸質(zhì)量的相關(guān)性研究[J].中國煙草科學,2012,12(6):65–68.
[2] 李強,周冀衡,楊榮生.基于主成分回歸的曲靖 C3F等級烤煙評吸質(zhì)量估算模型[J].中國煙草學報,2011,24(1):42–45.
[3] 于建軍,閆鼎,葉賢文.重慶地區(qū)烤煙主要化學成分與評吸質(zhì)量分析[J].浙江農(nóng)業(yè)學報,2010,32(10):22–25.
[4] 徐小華,胡曉飛,全曉松,等.支持向量機對煙草化學成分協(xié)調(diào)性的分類應用[J].江蘇農(nóng)業(yè)科學,2014,42(7):431–432.
[5] 陳清,劉巍,鐘科軍.基于煙草中致香成分的人工神經(jīng)網(wǎng)絡分類模型[J].湖南大學學報(自然科學版),2009,23(2):56–64.
[6] 殷勇.煙草成分對其香級影響程度的粗糙集判別方法[J].農(nóng)業(yè)機械學報,2010,16(5):36–42.
[7] 李恒,羅華元,王玉,等.烤煙致香成分與評吸質(zhì)量的相關(guān)性分析[J].昆明學院學報,2008,30(4):37–40.
[8] 湯朝起,劉穎,束茹欣.應用在線近紅外光譜分析復烤前后原煙及片煙的質(zhì)量特性[J].光譜學與光譜分析,2014,24(12):45–48.
[9] Zhao Feng,Jiao Licheng,Liu Hanqiang.Kernel generalized fuzzy C–means clustering with spatial information for image segmentation[J].Digital Signal Processing,2013,16(1):63–67.
[10] Zeng Shan,Tong Xiaojun,Sang Nong.Study on multicenter fuzzy C–means algorithm based on transitive closure and spectral clustering[J].Applied Soft Computing Journal,2014,18(5):25–31.
[11] Benaichouche A N H,Siarry Oulhadj P.Improved spatial fuzzy C–means clustering for image segmentation using PSO initialization,Mahalanobis distance and postsegmentation correction[J].Digital Signal Processing,2013,18(5):33–36.
[12] Zhao Xinchao.Simulated annealing algorithm with adaptive neighborhood[J].Applied Soft Computing Journal,2010,26(2):56–62.
[13] Leung Stephen C H,Zhang Defu,Zhou Changle,et al. A hybrid simulated annealing metaheuristic algorithm for the two-dimensional knapsack packing problem[J].Computers and Operations Research,2010, 26(1):42–45.
[14] 葛洪偉,王銀年.求解VRPSDP問題的改進模擬退火遺傳算法[J].計算機工程與應用,2010,32(30):48–52.
[15] 袁泉.Adaboost組合分類模型在信用評估領(lǐng)域應用研究[D].哈爾濱:哈爾濱工業(yè)大學,2011.
[16] 付忠良,趙向輝,苗青,等.AdaBoost算法的推廣——一組集成學習算法[J].四川大學學報(工程科學版),2010,16(6):36–39.
[17] 陳春萍.基于SVM與AdaBoost組合的分類算法研究[D].西安:西安電子科技大學,2012.
責任編輯:羅慧敏
英文編輯:羅 維
An improved fuzzy clustering-based ensemble evaluation model for tobacco quality
Yin Mei1, Zhou Guoxiong2
(1.Department of Information Engeering, Hunan Vocational College of Engineering, Changsha 410151, China; 2.School of Computer and Information Engineering, Central South University of Forestry & Technology, Changsha 410004, China)
To solve the difficulty in establishing the mathematical model of the cigarette chemical composition and tobacco quality, an improved fuzzy clustering-based ensemble evaluation model for tobacco quality is proposed. The method first determined the differences in chemical components among tobacco samples, and to obtain consistency results between model classification and expert evaluation results, simulated annealing algorithm was used to optimize the existing fuzzy clustering algorithm, and base classifier was established. On this basis, multiple classification results for different sample sets by the classifiers were integrated using the AdaBoost, and the final tobacco quality evaluation models was formed. The contents of 7 kinds of chemical composition including total sugar, reducing sugar, total nitrogen, nicotine, potassium ion, chlorine ion and protein in 130 group of tobacco leaf were determined, contrast experiment is done by the improved fuzzy clustering method, neural network algorithm and fuzzy clustering algorithm, the results showed that the error detection rate of the improved fuzzy clustering method is 6.7%, indicating the improved method has the ability to recognize small sample data, and is superior to the other compared methods.
fuzzy clustering; simulated annealing; expert evaluation; tobacco quality evaluation
尹梅(1983—),女,廣西桂林人,碩士,講師,主要從事電子信息工程技術(shù)及自動控制研究,21298544@qq.com
TP273+.21
A
1007-1032(2016)04-0359-06
2015–06–15 修回日期:2016–05–08
國家自然科學基金項目(60975049)