李 佳,劉振宇
(中南民族大學(xué) 資源與環(huán)境工程學(xué)院,武漢 430074)
隨著人工智能技術(shù)的發(fā)展,以神經(jīng)網(wǎng)絡(luò)(ANN)、模糊數(shù)學(xué)法(Fuzzy)、貝葉斯分類(Bayesian)、灰色預(yù)測(cè)模型為代表的數(shù)據(jù)挖掘技術(shù)方法成為一種非常有效的機(jī)器學(xué)習(xí)分類評(píng)價(jià)手段[1].對(duì)清潔生產(chǎn)評(píng)價(jià)而言,鑒于生命周期評(píng)價(jià)原則是整個(gè)清潔生產(chǎn)評(píng)價(jià)活動(dòng)的核心依據(jù),需據(jù)此來(lái)構(gòu)建評(píng)價(jià)指標(biāo)體系,并制定評(píng)估流程.本次評(píng)估對(duì)象生產(chǎn)流程較長(zhǎng),在指標(biāo)體系設(shè)置及選擇上較為復(fù)雜,具有模糊性、非線性、高噪聲、小樣本等特征[2];傳統(tǒng)評(píng)價(jià)方法雖操作簡(jiǎn)便,應(yīng)用較廣泛,但由于主觀性較強(qiáng),評(píng)價(jià)結(jié)果存在不準(zhǔn)確性[3,4].支持向量機(jī)方法(SVM)針對(duì)上述問(wèn)題具有優(yōu)勢(shì),屬于分類算法的范疇,通過(guò)尋求最小結(jié)構(gòu)劃風(fēng)險(xiǎn)提升學(xué)習(xí)機(jī)泛化能力,能在少量樣本下解決非線性及高維模式問(wèn)題[5].已有學(xué)者將ANN運(yùn)用到清潔生產(chǎn)工藝評(píng)價(jià)中,而SVM在該領(lǐng)域的應(yīng)用尚未展開,因此,針對(duì)SVM在清潔生產(chǎn)評(píng)價(jià)領(lǐng)域的應(yīng)用研究具有十分積極的意義.
目前我國(guó)石煤提釩行業(yè)存在問(wèn)題較多,如難以有效提取釩資源、工藝設(shè)備落后、環(huán)境污染嚴(yán)重等,需要對(duì)該行業(yè)整體生產(chǎn)工藝技術(shù)制定和實(shí)施一套具有科學(xué)性、有效性的清潔生產(chǎn)評(píng)價(jià)方法,幫助企業(yè)“自我評(píng)估,發(fā)現(xiàn)問(wèn)題,制定方案”[6].因此,本文在對(duì)BP神經(jīng)網(wǎng)絡(luò)和SVM方法理論研究的基礎(chǔ)上,以石煤提釩生產(chǎn)工藝中水浸工藝為對(duì)象,對(duì)比分析兩種機(jī)器學(xué)習(xí)方法的異同及其應(yīng)用.
采用數(shù)據(jù)挖掘算法有助于從大量復(fù)雜的數(shù)據(jù)中找出數(shù)據(jù)分析模式,根據(jù)功能不同所挖掘的模式主要有描述型和預(yù)測(cè)型兩種模式.BP神經(jīng)網(wǎng)絡(luò)與SVM是其中典型分類預(yù)測(cè)算法模式,廣泛應(yīng)用于機(jī)器分類學(xué)習(xí)過(guò)程中,但BP神經(jīng)網(wǎng)絡(luò)與SVM的理論原理存在一定差異.
BP神經(jīng)網(wǎng)絡(luò)是基于傳統(tǒng)統(tǒng)計(jì)學(xué)理論,遵循樣本數(shù)目趨于無(wú)窮大時(shí)的漸近理論[7,8];SVM是一種以統(tǒng)計(jì)學(xué)理論為主導(dǎo)的學(xué)習(xí)算法,常用于小樣本機(jī)器學(xué)習(xí)規(guī)律數(shù)學(xué)框架與基本理論的研究,優(yōu)勢(shì)在于能很好地解決樣本不足的問(wèn)題.與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)等方法相比,SVM以最小經(jīng)驗(yàn)風(fēng)險(xiǎn)為約束條件,通過(guò)對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)的固定,使置信范圍最小化,最小化結(jié)構(gòu)風(fēng)險(xiǎn)[9].
1.2.1 BP神經(jīng)網(wǎng)絡(luò)
反向傳播(BP)神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)中的最常見模型,原理是以誤差反傳誤差為依托,進(jìn)行學(xué)習(xí)方法的反向傳播,通過(guò)訓(xùn)練樣本對(duì)象的持續(xù)學(xué)習(xí),不斷調(diào)整不同層次間的閾值及連接權(quán)值,輸入信號(hào)先后經(jīng)過(guò)各隱層節(jié)點(diǎn),最終實(shí)現(xiàn)由輸入層節(jié)點(diǎn)向輸出節(jié)點(diǎn)的轉(zhuǎn)移,單層節(jié)點(diǎn)的輸出僅同下一節(jié)點(diǎn)輸出存在密切關(guān)聯(lián).假如輸出層的輸出達(dá)不到預(yù)期水平,將導(dǎo)致誤差信號(hào)反向傳播流程的逆向發(fā)展[10,11].在兩個(gè)過(guò)程交替發(fā)展的過(guò)程中,誤差函數(shù)梯度下降策略運(yùn)行在有權(quán)向量空間上,動(dòng)態(tài)迭代進(jìn)行某組權(quán)向量的確定,獲得最小化的網(wǎng)絡(luò)誤差函數(shù),信息提取和儲(chǔ)存任務(wù)隨之完成.常見的BP神經(jīng)網(wǎng)絡(luò)模型共有自學(xué)習(xí)、輸入輸出、誤差計(jì)算及作用函數(shù)共四種模型[8].
1.2.2 支持向量機(jī)
SVM有著線性和非線性,在評(píng)價(jià)清潔生產(chǎn)的過(guò)程中,評(píng)價(jià)指標(biāo)與清潔生產(chǎn)等級(jí)兩者間存在著極為顯著的非線性關(guān)聯(lián).本文探討非線性SVM.在非線性變換的支持下實(shí)現(xiàn)非線性問(wèn)題向?qū)?yīng)維度的線性問(wèn)題的轉(zhuǎn)變,通過(guò)變換過(guò)程達(dá)到分類超平面的最優(yōu)化,借助核函數(shù)促進(jìn)此種變換目標(biāo)的達(dá)成.核函數(shù)同特定變換空間內(nèi)的內(nèi)積相等,也就是K(xi,xj)=φ(xi)·φ(xj).“維數(shù)災(zāi)害”的問(wèn)題通過(guò)K(xi,xj)得到了妥善處理,其適用模式分類的理念是:在凸二次規(guī)劃問(wèn)題的計(jì)算過(guò)程中,在預(yù)先設(shè)定好非顯現(xiàn)映射φ的支持下實(shí)現(xiàn)某一高維空間上的向量x映射,再在高維空間內(nèi)計(jì)算分類超平面的最優(yōu)解,使其能夠盡量準(zhǔn)確地劃分兩類數(shù)據(jù)點(diǎn),且將劃分好的數(shù)據(jù)點(diǎn)置于分類面的最大距離上[10].
課題前期曾對(duì)石煤提釩工藝進(jìn)行了深入研究,以LCA理論為基礎(chǔ),構(gòu)建了石煤提釩工藝清潔生產(chǎn)評(píng)價(jià)指標(biāo)體系[12],本文在前期所建立的水浸工藝清潔生產(chǎn)評(píng)價(jià)指標(biāo)體系基礎(chǔ)上,利用BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)兩種機(jī)器學(xué)習(xí)方法,對(duì)比研究?jī)煞N方法在清潔生產(chǎn)水平評(píng)價(jià)上的應(yīng)用.用隨機(jī)方法[13]生成了標(biāo)準(zhǔn)清潔生產(chǎn)等級(jí)樣本系列:
(1)3個(gè)清潔生產(chǎn)等級(jí)“清潔生產(chǎn)水平”、“一般水平”和“淘汰水平”分別對(duì)應(yīng)清潔生產(chǎn)等級(jí)目標(biāo)值1, 2, 3;
(2)利用均勻隨機(jī)數(shù)在各評(píng)價(jià)等級(jí)每個(gè)指標(biāo)變化區(qū)間內(nèi)隨機(jī)產(chǎn)生20個(gè)指標(biāo)值;
(3)在隨機(jī)生成的60個(gè)樣本系列中,對(duì)應(yīng)每個(gè)生產(chǎn)等級(jí)共挑選30個(gè)樣本構(gòu)成檢驗(yàn)集,檢驗(yàn)集用于SVM和BP檢驗(yàn)及對(duì)比.
基于數(shù)據(jù)變量間的差異,其數(shù)據(jù)級(jí)與量綱存在一定差異,必須通過(guò)歸一方式進(jìn)行訓(xùn)練樣本的處理,強(qiáng)化指標(biāo)范圍的合理性,有效緩解數(shù)值差距.可通過(guò)下列公式進(jìn)行規(guī)范化處理[14]:
(1)
分別利用SVM和BP神經(jīng)網(wǎng)絡(luò)兩種方法對(duì)石煤提釩水浸工藝清潔生產(chǎn)水平進(jìn)行評(píng)價(jià),比較分析結(jié)果.使用MATLAB7.8為操作平臺(tái),SVM選用Libsvm工具箱實(shí)現(xiàn),BP神經(jīng)網(wǎng)絡(luò)采用自己編制算法程序.
2.1.1 分類器選擇
SVM算法從本質(zhì)上屬于兩類分類器,而石煤提釩清潔生產(chǎn)評(píng)價(jià)結(jié)果由三個(gè)層次構(gòu)成,通過(guò)SVM算法無(wú)法進(jìn)行清潔生產(chǎn)的分類評(píng)價(jià),故進(jìn)一步構(gòu)建了以二叉樹為基礎(chǔ)的三類分類系統(tǒng)(見圖1).
圖1 三類分類系統(tǒng)Fig.1 Three kinds of classification system
2.1.2 核函數(shù)和參數(shù)
現(xiàn)階段常見的SVM函數(shù)共4種,分別為sigmoid 核函數(shù)、多項(xiàng)式核函數(shù)、線性核函數(shù)和徑向基核函數(shù)[15].徑向基核函數(shù)在某一參數(shù)的取值過(guò)程中所出現(xiàn)的特例是sigmoid 核函數(shù),它對(duì)于數(shù)值的要求相對(duì)較少;同多項(xiàng)式核函數(shù)對(duì)比,其參數(shù)量相對(duì)較少,還能很好地處理各分類問(wèn)題,具有極為突出的適用性優(yōu)勢(shì)[17].本文在評(píng)價(jià)模型訓(xùn)練過(guò)程中選取了徑向基核函數(shù),見下式:
K(xi,xj)=exp(-γ‖xi-xj‖2),γ>0.
(2)
確定核函數(shù)形式后,相應(yīng)參數(shù)為懲罰因子C和核參數(shù)g(上式中的γ)函數(shù)參數(shù)的取值直接影響模型的分類效果,由SVM理論可知:若在未使用參數(shù)優(yōu)化工具的情況下運(yùn)用SVM,則在參數(shù)選擇過(guò)程中僅能運(yùn)用試湊法的方式,此種方式規(guī)范性較弱.由于訓(xùn)練結(jié)果的準(zhǔn)確性,大都需要不斷重復(fù)試湊過(guò)程,少則數(shù)十、多則數(shù)百,且最終未必能獲得最優(yōu)化的SVM.因此,本文選取網(wǎng)絡(luò)搜索法(GS),對(duì)懲罰參數(shù)C和核參數(shù)g進(jìn)行尋優(yōu).在設(shè)置C和g的搜索范圍時(shí),先進(jìn)行粗略網(wǎng)格搜索,獲得最佳參數(shù)位置,再在進(jìn)行精細(xì)網(wǎng)格搜索,確定最終的參數(shù)值.具體步驟如下:
(1)以設(shè)定步長(zhǎng)為依據(jù),結(jié)合搜索方向,不斷進(jìn)行參數(shù)對(duì)的選擇并進(jìn)行校驗(yàn)驗(yàn)證,通過(guò)對(duì)比分析的方式重復(fù)進(jìn)行各參數(shù)對(duì)的交叉驗(yàn)證,到網(wǎng)格搜索停止時(shí)結(jié)束,最終結(jié)合交叉驗(yàn)證率的大小選擇最優(yōu)化的參數(shù).將參數(shù)C和g的搜索范圍分別設(shè)為[l,500]和[l,10];參數(shù)集C∈{2-10,2-9,…210},g∈{2-10,2-9,…210},進(jìn)行粗略網(wǎng)格搜索,確定達(dá)到最高分類效率的參數(shù)區(qū)間.
(2) 以設(shè)定好的最高分類效率參數(shù)區(qū)間為依據(jù),就C∈{2-5,2-6,…2-9},g∈{20,21,…24}進(jìn)行重新調(diào)整,并據(jù)此推進(jìn)精細(xì)網(wǎng)格搜索,其結(jié)果參見圖2.分類效率最大化的平面體現(xiàn)為深色平面,當(dāng)分類效率的結(jié)果最大時(shí),該參數(shù)是評(píng)價(jià)模型的最優(yōu)化參數(shù),該研究過(guò)程中,分類效率達(dá)100%時(shí),C=0.0038,g=1.8,評(píng)價(jià)模型隨之形成.
圖2 精細(xì)網(wǎng)格搜索結(jié)果(最佳:C=0.0038,g =1.8)Fig.2 Results of fine grid search
綜上設(shè)計(jì),就 LIBSVM2.88已有的徑向基核函SVM網(wǎng)絡(luò)參數(shù)的程序最優(yōu)情況進(jìn)行調(diào)整.確定最優(yōu)化參數(shù)后,訓(xùn)練精度隨之達(dá)到最優(yōu).圖3為網(wǎng)絡(luò)搜索法獲得的SVM對(duì)訓(xùn)練樣本和測(cè)試樣本的檢測(cè)結(jié)果.
圖3 GS-SVM的測(cè)試集實(shí)際分類和預(yù)測(cè)分類對(duì)比Fig.3 Comparison of measured and predicted values of GS-SVM
該研究在函數(shù)編程計(jì)算過(guò)程中主要采用了Matlab神經(jīng)網(wǎng)絡(luò)工具箱,輸入、輸出層上的神經(jīng)元分別有29, 1個(gè),隱層的神經(jīng)元?jiǎng)t有20個(gè)(該個(gè)數(shù)可自主測(cè)定,但必須控制在輸入個(gè)數(shù)以內(nèi),且相對(duì)輸出與輸入綜合的50%更大).當(dāng)訓(xùn)練次數(shù)高達(dá)30次時(shí),BP網(wǎng)絡(luò)的誤差率僅為10%,評(píng)價(jià)過(guò)程及結(jié)果如圖4所示.
圖4 BP神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)過(guò)程及預(yù)測(cè)分類結(jié)果Fig.4 BP neural network evaluation process and the predicted classification results
訓(xùn)練過(guò)程中,BP網(wǎng)絡(luò)會(huì)產(chǎn)生一定的“記憶”,該算法不僅誤差小,還在容錯(cuò)能力、泛化性等具有極強(qiáng)的優(yōu)勢(shì),能夠更好地滿足大樣本訓(xùn)練數(shù)據(jù)的檢測(cè)要求.同GS-SVM對(duì)比,當(dāng)樣本數(shù)為30時(shí),通過(guò)BP網(wǎng)絡(luò)進(jìn)行測(cè)試的準(zhǔn)確率僅有90%,代表以梯度下降法為根本的BP神經(jīng)網(wǎng)絡(luò)呈現(xiàn)出“過(guò)學(xué)習(xí)”狀態(tài),在小樣本訓(xùn)練集較少的情況下,能很好地模擬出生產(chǎn)工藝現(xiàn)狀,卻無(wú)法有效地掌握評(píng)價(jià)結(jié)果的特征,使其在可推廣性上存在一定劣勢(shì),證明小樣本訓(xùn)練情況下,BP神經(jīng)網(wǎng)絡(luò)所提出的評(píng)價(jià)模型在泛化性上的優(yōu)勢(shì)逐步弱化,局部極小、收斂速度不快等問(wèn)題極為突出,且小樣本訓(xùn)練結(jié)果難以滿足預(yù)期條件.
本研究分別利用SVM和BP神經(jīng)網(wǎng)絡(luò)建立了石煤提釩水浸工藝清潔生產(chǎn)評(píng)價(jià)模型,并進(jìn)行了模型分類評(píng)價(jià)對(duì)比,結(jié)果表明:SVM方法建模過(guò)程簡(jiǎn)單,能保證模型具有較好的泛化性能,在解決小樣本即有限樣本的評(píng)價(jià)問(wèn)題時(shí)較BP神經(jīng)網(wǎng)絡(luò)有更好的適應(yīng)性和推廣性,不僅解決了整體工藝指標(biāo)數(shù)據(jù)存在的數(shù)據(jù)不足問(wèn)題,還降低了采集數(shù)據(jù)的評(píng)價(jià)成本,具有較好的準(zhǔn)確性.而BP神經(jīng)網(wǎng)絡(luò)由于陷入局部最優(yōu)而導(dǎo)致不能獲得較為客觀的結(jié)果.由于SVM不過(guò)分依賴樣本數(shù),因此,SVM較BP神經(jīng)網(wǎng)絡(luò)更適合工藝清潔生產(chǎn)評(píng)價(jià)問(wèn)題的研究,是一種具有較高實(shí)用價(jià)值的小樣本評(píng)價(jià)方法.