蔡培良,羅 勇,楊劍鋒,易凡竣,龍小昂
(1.紅云紅河煙草(集團)有限責任公司曲靖卷煙廠,云南 曲靖 655001) (2.深圳華龍訊達信息技術(shù)股份有限公司,廣東 深圳 518052)
目前,數(shù)據(jù)分析處理技術(shù)已在煙草業(yè)得到廣泛應用[1],然而對卷煙包裝材料成本參數(shù)的分析仍以人工為主,存在數(shù)據(jù)不完整、樣本量少、不精確、成本評估誤差大等問題[2-5]。針對這些問題,本文對卷煙包裝實際成本進行分析[6],對原、輔材料消耗量進行計算[7-9],通過數(shù)據(jù)挖掘采集卷煙包裝信息,采用量子粒子群算法對支持向量機參數(shù)進行優(yōu)化,從而實現(xiàn)對卷煙包裝成本參數(shù)的自優(yōu)化與控制。
基于數(shù)據(jù)挖掘技術(shù)的卷煙包裝成本分析主要有以下步驟:
步驟1,采集卷煙包裝成本有關數(shù)據(jù)(如原輔材料成本、經(jīng)營費用等);
步驟2,根據(jù)采集到的數(shù)據(jù),建立卷煙包裝成本數(shù)據(jù)分布診斷模型[10-12],并計算數(shù)據(jù)置信度,通過置信度對不正常數(shù)據(jù)進行刪改,構(gòu)建最大似然評估修改模型;
步驟3,對所采集到的數(shù)據(jù)進行整體分析,解析供給方成本和收益率[13]。
卷煙包裝成本分析的具體流程如圖1所示。
圖中aij為卷煙包裝成本,其中i為卷煙包裝材料種類,共計n種,j為第i類材料成本。在此基礎上,用樣本標準差Yi修正卷煙包裝成本,通過t變換得到總體標準差λi如下:
圖1 成本分析方法解析圖
(1)
式中:βi是i類卷煙包裝材料成本均值。第i類卷煙包裝材料成本查驗統(tǒng)計量Hi為:
(2)
用式(3)表示t分布的概率密度函數(shù)g(aij)為:
(3)
將置信度設為0.95,通過大樣本均數(shù)置信區(qū)間評估法,檢驗卷煙包裝成本樣本數(shù)據(jù)是否處于描述的置信區(qū)間中。采集置信區(qū)間中的卷煙包裝成本樣本數(shù)據(jù),通過最大似然評估修改模型更新數(shù)據(jù)。更新過程中采用的似然評估修改模型L為:
(4)
(5)
(6)
式中:ai為卷煙包裝材料種類。
在此基礎上,獲得卷煙包裝成本Z如下:
(7)
1.2.1支持向量機預測模型
支持向量機(support vector machines,SVM)的理論依據(jù)和泛化性能高,樣品集訓練結(jié)果誤差小,是一種高質(zhì)量的數(shù)據(jù)處理、分類方法[14]。支持向量機能夠有效解決局部極小值問題,確保得到的極值解是全局最優(yōu)解。SVR(支持向量回歸機)是支持向量機回歸的簡稱,其可進行時間序列預測,更適用于處理有限樣品的機器學習問題[15]。
將訓練集(x1,y1),…,(xl,yl)轉(zhuǎn)換成(Π(x1),y1),…,(Π(xl),yl),xi和yi為訓練集橫、縱坐標,i=1,2,…,l,其中l(wèi)為訓練集總數(shù)。轉(zhuǎn)換時通過非線性映射把樣品從原空間Jc映射到特征空間H,利用映射到特征空間H的結(jié)果構(gòu)造回歸超平面。支持向量機在構(gòu)建回歸超平面時的優(yōu)化目標是最小化數(shù)據(jù)間隔minΦ(v,b):
(8)
優(yōu)化時以式(9)為約束條件:
yiz(vxi)+bz≥1i=1,2,…,l
(9)
式中:v,b分別為數(shù)據(jù)間隔的橫、縱坐標;Φ為間隔長度;z為平面空間面積。
支持向量機不直接求解原始問題,而是通過求解對偶問題獲得最優(yōu)解,獲取的包裝成本參數(shù)預測模型如下:
(10)
為了減少數(shù)據(jù)計算量,采用原空間核函數(shù)代替高維特征空間的點積運算。支持向量機的多項式及函數(shù)和高斯徑向基函數(shù)等均是核函數(shù)[16-17],由于式(10)所示的預測模型為非線性模型,因此支持向量機核函數(shù)采用式(11)所示的徑向基函數(shù):
z(xi,x)=exp{-|x-xi|2/(2ζ)}
(11)
式中:z(xi,x)為包裝成本參數(shù)徑向基函數(shù);ζ為核寬度;x為成本參數(shù)。
1.2.2量子粒子群算法
量子粒子群算法具有較好的尋優(yōu)性能,可通過波函數(shù)?(x,y)表達粒子狀態(tài)。式(12)為粒子的位置方程:
(12)
式中:x(t)為粒子的位置;t為迭代次數(shù);K為粒子半徑。
設定隨機數(shù)u,通過式(13)~(15)求解粒子與全局最優(yōu)解間的距離:
K(t+1)=2·u·|roptimal-x(t)|
(13)
(14)
qi(t=1)=
(15)
式中:qi(t=1)為粒子隨機位置;R為種群大??;roptimal為種群平均最優(yōu)解;qoptimali為第i個粒子的最優(yōu)位置點;soptimal為種群最佳位置;q1,q2分別為選用的兩個粒子的隨機位置。采用式(16)更新粒子位置xi(t=1):
xi(t=1)=qi(t=1)±η|roptimal-
xi(t)|·ln(k/e)
(16)
式中:η為擴張系數(shù);k為粒子個數(shù);e為粒子群總個數(shù)。η的值可通過式(17)求得:
(17)
式中:Maxtimes為擴張最大次數(shù);r為粒子實際擴張強度;c為粒子的理論擴張強度。
1.2.3量子粒子群算法優(yōu)化支持向量機
將煙卷包裝成本分析結(jié)果代入適應度函數(shù),采用量子粒子群算法通過多次優(yōu)化迭代尋找最優(yōu)的支持向量機參數(shù)。
1)粒子編碼方式。
以B={Z1,Z2,…,Zk}表示粒子群,該粒子群有k個粒子,一個支持向量機參數(shù)組合代表一個粒子,粒子位置向量Zi為:
Zi=[z1,z2,…,zm]
(18)
式中:m為粒子維度。
2)確定支持向量機適應度函數(shù)。
卷煙包裝成本參數(shù)的有效與否可采用適應度函數(shù)來評價,將卷煙包裝成本參數(shù)自優(yōu)化和控制間關系作為適應度函數(shù)errr,公式如下:
(19)
第1步,采集卷煙包裝成本及具體包裝參數(shù),構(gòu)成支持向量機的訓練樣本。
第2步,確定支持向量機參數(shù)和核函數(shù)區(qū)間,采用式(20)所示的徑向基核函數(shù):
(20)
式中:σ為徑向基核函數(shù)分布系數(shù);‖xi-xj‖為核距離。
第3步,在徑向基核函數(shù)中輸入各量子粒子位置,獲取各粒子適應度函數(shù)值。
第4步,若量子粒子的即刻位置為最佳位置,修正粒子以往最佳位置,否則確保以往最佳位置穩(wěn)定。
第5步,若粒子群即刻位置為最佳位置,修正粒子群以往最佳位置,否則確保以往粒子群最佳位置穩(wěn)定。
第6步,分析粒子群的局部吸引域。
第7步,修正各粒子位置。
第8步,若達到最高迭代次數(shù),終止參數(shù)優(yōu)化進程,否則返回第3步,繼續(xù)進行參數(shù)優(yōu)化。
利用本文方法分析某卷煙廠2016年8月12日采購自B品牌供應商的煙盒包裝紙成本,結(jié)果如圖2所示。
圖2 盒包裝紙成本統(tǒng)計界面
由圖3可以看出,采用編號405的卷煙盒包裝紙后,卷煙的利潤最高,可達到530.55元。
圖3 卷煙利潤統(tǒng)計界面
為驗證本文基于數(shù)據(jù)挖掘技術(shù)的卷煙包裝成本參數(shù)自優(yōu)化與控制方法的有效性,將傳統(tǒng)的指令域示波器方法與本文方法進行對比,驗證不同方法的優(yōu)化控制效果。對比結(jié)果如圖4所示。
圖4 不同方法優(yōu)化控制有效率對比
從圖4可以看出,利用指令域示波器方法進行卷煙包裝成本參數(shù)優(yōu)化控制的有效率低于85%,這主要是因為指令域示波器方法不能準確分析卷煙包裝加工成本和卷煙包裝加工參數(shù)兩者之間的關系。而利用本文方法對該卷煙加工過程進行自優(yōu)化控制的有效率在90%以上,這是因為本文方法采用了數(shù)據(jù)挖掘技術(shù),并很好地發(fā)揮了支持向量機和量子粒子群算法的優(yōu)點,實現(xiàn)了對卷煙包裝成本參數(shù)的有效優(yōu)化與控制。
本文提出了基于數(shù)據(jù)挖掘技術(shù)的卷煙包裝加工參數(shù)自優(yōu)化與控制方法,運用該方法從根本上減少卷煙包裝加工過程中的不確定參數(shù),利于支持向量機預測模型和量子粒子群算法實現(xiàn)對卷煙包裝加工參數(shù)的自優(yōu)化與控制。運用本文方法可使卷煙包裝成本參數(shù)更能滿足實際生產(chǎn)的需要,對其他參數(shù)的確定具有一定的參考價值。