添玉,張琳娜
(上海海事大學(xué)物流工程學(xué)院,上海 201306)
隨著統(tǒng)計(jì)學(xué)理論的發(fā)展和計(jì)算機(jī)的出現(xiàn),商業(yè)預(yù)測在企業(yè)戰(zhàn)略決策中的作用越來越明顯.本文通過對德國大陸汽車信息收集和業(yè)務(wù)開拓(Business Development and Marketing,BD&M)的預(yù)測業(yè)務(wù)進(jìn)行分析后,發(fā)現(xiàn)其對中國汽車市場的短期預(yù)測不夠準(zhǔn)確.究其原因,該部門采用的汽車產(chǎn)量數(shù)據(jù)來自GI(Global Insight)數(shù)據(jù)庫,結(jié)果適用于長期預(yù)測,在短期預(yù)測方面具有滯后性,缺乏一定的適應(yīng)性.
支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論發(fā)展起來的新興的機(jī)器學(xué)習(xí)方法.基于結(jié)構(gòu)風(fēng)險最小化原則,SVM將最大化分類間隔的思想與基于核的方法結(jié)合在一起,表現(xiàn)出很好的泛化能力.SVM具有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),并且可以很好地克服“維數(shù)災(zāi)難”和“過擬合”等傳統(tǒng)算法所不可規(guī)避的問題,已被廣泛應(yīng)用在數(shù)據(jù)挖掘[1]、需求預(yù)測[2]等領(lǐng)域.鑒于SVM的原理和特征特別適合小樣本,本文提出一種中國汽車月產(chǎn)量的優(yōu)化核函數(shù)參數(shù)的改進(jìn)SVM預(yù)測模型,并應(yīng)用在德國大陸汽車公司輕型汽車電子市場價值估計(jì)中.
統(tǒng)計(jì)學(xué)習(xí)理論就是研究小樣本統(tǒng)計(jì)估計(jì)和預(yù)測的理論,主要包括4個方面[3]:(1)經(jīng)驗(yàn)風(fēng)險最小化準(zhǔn)則下統(tǒng)計(jì)學(xué)習(xí)一致性的條件;(2)在這些條件下關(guān)于統(tǒng)計(jì)學(xué)習(xí)方法推廣性的界的結(jié)論;(3)在這些界的基礎(chǔ)上建立的小樣本歸納推理準(zhǔn)則;(4)實(shí)現(xiàn)新準(zhǔn)則的實(shí)際算法.其中,最有指導(dǎo)性的理論結(jié)果是推廣性的界,與此相關(guān)的一個核心概念是VC維.VC維是為了研究學(xué)習(xí)過程一致收斂的速度和推廣性而定義的有關(guān)函數(shù)集學(xué)習(xí)性能的指標(biāo).VC維反映函數(shù)集的學(xué)習(xí)能力,VC維越大則學(xué)習(xí)機(jī)器越復(fù)雜.統(tǒng)計(jì)學(xué)習(xí)理論系統(tǒng)地研究各種類型的函數(shù)集、經(jīng)驗(yàn)風(fēng)險與實(shí)際風(fēng)險之間的關(guān)系,即推廣性的界.關(guān)于兩類分類問題,結(jié)論是:對指示函數(shù)集中的所有函數(shù)(包括使經(jīng)驗(yàn)風(fēng)險最小的函數(shù)),經(jīng)驗(yàn)風(fēng)險Remp(ω)和實(shí)際風(fēng)險R(w)之間以至少1-η的概率滿足
式中:h是函數(shù)集的VC維,l是訓(xùn)練樣本數(shù).這一結(jié)論從理論上說明學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險由經(jīng)驗(yàn)風(fēng)險和置信范圍兩部分組成,其中置信范圍與學(xué)習(xí)機(jī)器的VC維及訓(xùn)練樣本數(shù)有關(guān).因此,在有限訓(xùn)練樣本下,學(xué)習(xí)機(jī)器的VC維越高則置信范圍越大,從而真實(shí)風(fēng)險與經(jīng)驗(yàn)風(fēng)險之間可能的差別就越大.這就是出現(xiàn)過學(xué)習(xí)現(xiàn)象的原因.機(jī)器學(xué)習(xí)過程不但要使經(jīng)驗(yàn)風(fēng)險最小,還要控制學(xué)習(xí)機(jī)器的VC維以縮小置信范圍,才能把實(shí)際風(fēng)險控制在一個較低的水平,使學(xué)習(xí)模型對未知樣本具有較好的推廣性.
假定訓(xùn)練樣本集為{(xi,yi),i=1,2,…,l},其中輸入值xi∈Rn,yi∈R為對應(yīng)的目標(biāo)值,l為樣本數(shù).定義ε不敏感損失函數(shù)為
學(xué)習(xí)的目的是構(gòu)造f(x),使其與目標(biāo)值之間的距離小于ε,同時函數(shù)的VC維最小.這樣對于未知樣本x,可最優(yōu)地估計(jì)出對應(yīng)的目標(biāo)值.因此,回歸的最優(yōu)化問題[3]為
式中:C為懲罰因子,C越大表示對超出ε的懲罰越大.根據(jù)最優(yōu)化的充要條件可知,拉格朗日乘子與約束的乘積在最優(yōu)點(diǎn)為零,由此最優(yōu)化計(jì)算得到的αi和,取值必然是以下5種情形之一:(1)αi=0,=0;(2)0 < αi<C=0;(3)αi=0,0 <<C;(4)αi=C=0;(5)αi=0,=C.以上5種情形中,稱(2)~(5)對應(yīng)的xi為支持向量.非支持向量對ω沒有貢獻(xiàn),只有支持向量對ω有貢獻(xiàn),即對估計(jì)函數(shù)f(x)有貢獻(xiàn),由此稱對應(yīng)的學(xué)習(xí)方法為SVM.在支持向量中,稱(4)和(5)對應(yīng)的xi為邊界支持向量,是超出ε之外的數(shù)據(jù)點(diǎn),稱(2)和(3)對應(yīng)的xi為標(biāo)準(zhǔn)支持向量,是落在ε上的數(shù)據(jù)點(diǎn).因此,ε越大,支持向量數(shù)越少,但函數(shù)估計(jì)精度越低.
本文采用的數(shù)據(jù)從國務(wù)院發(fā)展研究中心信息網(wǎng)和國家統(tǒng)計(jì)局網(wǎng)站收集整理而得.中國汽車月產(chǎn)量包括乘用車和商用車兩部分,國內(nèi)生產(chǎn)和CKD(全散裝件)都包括在內(nèi).具體數(shù)據(jù)見圖1.
世界銀行的報告顯示,汽車產(chǎn)量與GDP密切相關(guān).根據(jù)“GDP=總消費(fèi)+總投資+凈出口”這個公式,本文初步選定固定資產(chǎn)投資完成額、社會消費(fèi)品零售總額、進(jìn)出口總值和凈出口額等4個因素作為自變量,所選數(shù)據(jù)為2005—2010年的月數(shù)據(jù).
圖1 2005—2010年中國汽車產(chǎn)量
在對中國汽車月產(chǎn)量進(jìn)行預(yù)測的4個自變量中,社會固定資產(chǎn)投資完成額與社會消費(fèi)品零售總額有較大的相關(guān)性,去除前者,對剩下的數(shù)據(jù)進(jìn)行回歸預(yù)測.因數(shù)據(jù)結(jié)構(gòu)的特殊,首先使用Excel中的Format Data To Libsvm宏將數(shù)據(jù)轉(zhuǎn)換成可識別的形式,將預(yù)處理的文件保存為data.txt,然后使用線性函數(shù)轉(zhuǎn)換對數(shù)據(jù)進(jìn)行歸一化處理,將歸一化的數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)train.txt和預(yù)測數(shù)據(jù)forcast.txt.
將SVM應(yīng)用于回歸方面,主要有VAPNIK提出的 ε-SVR 和 SCHOLKOPF 等提出的 v-SVR.ε-SVR通過事先確定ε來控制算法希望達(dá)到的精度,具有良好的可控性,相對于v-SVR而言模型也較簡單,在有較好的參數(shù)選擇方法時適宜選擇ε-SVR方法.根據(jù)本文的數(shù)據(jù)及計(jì)算的實(shí)際要求,選擇ε-SVR回歸方法較好.由于RBF核函數(shù)具有一定的代表性,這里選用RBF核函數(shù)作為SVM的核函數(shù).
訓(xùn)練SVM時首先需要考慮兩種參數(shù):核參數(shù)γ和懲罰參數(shù)C.參數(shù)的選擇并沒有通用的先驗(yàn)知識,需要在一定范圍內(nèi)進(jìn)行搜索以找到好的參數(shù)組合.目前,選取SVM參數(shù)最常用的方法是網(wǎng)格搜索法結(jié)合交叉驗(yàn)證法[4].
SVM機(jī)器學(xué)習(xí)方法就是根據(jù)分類規(guī)則
對下列優(yōu)化問題
應(yīng)用Lagrange乘子法得到的Wolfe對偶優(yōu)化問題的最優(yōu)解
訓(xùn)練一個SVM,求解
的最大化解α和b.通過最小化推廣能力的估計(jì)值(通常采用測試錯誤率表示推廣能力的估計(jì)),得到常數(shù)C和核函數(shù)固有參數(shù).
參數(shù)選擇可以歸結(jié)為最小最大化問題:最大化式(7)并在解的基礎(chǔ)上最小化推廣能力的估計(jì)值,由此可以得到選擇SVM參數(shù)的最優(yōu)化方法.[5]
最優(yōu)化方法選擇參數(shù)的步驟:(1)為常數(shù)C和核函數(shù)固有參數(shù)賦初值;(2)最大化式Q(α),得到α和b;(3)更新常數(shù)C和核函數(shù),最小化推廣能力的估計(jì)值;(4)如果估計(jì)值滿足要求結(jié)束運(yùn)算,否則重復(fù)步驟(2).其中,步驟(3)中的推廣能力是指學(xué)習(xí)機(jī)測試未知數(shù)據(jù)的分類性能,主要有留一法(利用錯分類率評估分類性能)和支持向量計(jì)算法(利用支持向量數(shù)與訓(xùn)練樣本總數(shù)之比評估分類性能).
從式(5)可知,懲罰因子C控制的是訓(xùn)練錯誤率與模型復(fù)雜度間的折中;從式(6)可知,懲罰因子C并沒有出現(xiàn)在式(5)的Wolfe對偶式中,而是改變Lagrange系數(shù)的取值范圍.因此,對于一個SVM,如果無限增大懲罰因子C,當(dāng)SVM中沒有邊界支持向量時,C的改變不再影響分類性能.[6]
從式 K(xi,xj)=exp(-γ‖xi- xj‖2)可以看出,核參數(shù)γ相當(dāng)于對樣本間歐氏距離的歸一化,判定特定空間中向量間的距離.另一方面,根據(jù)KKT互補(bǔ)條件的一個重要結(jié)果:對于j∈SV,
綜上,選用支持向量與樣本數(shù)的比例估計(jì)推廣能力時,根據(jù)式(9)調(diào)整γ是合理的.并且該式對γ求導(dǎo)有
由此可得γ的調(diào)整規(guī)則為
將第2.3節(jié)生成的3個參數(shù)用于訓(xùn)練SVM模型.在得到訓(xùn)練模型后,用預(yù)測樣本預(yù)測汽車月產(chǎn)量.汽車月產(chǎn)量預(yù)測結(jié)果分別為1 524 150,135 204,173 435,預(yù)測值與實(shí)際值的擬合曲線見圖2.
圖2 改進(jìn)SVM預(yù)測結(jié)果與實(shí)際值擬合曲線
根據(jù)上述預(yù)測模型估計(jì)2010年3個月的中國輕型汽車電子市場容量,見圖3.
首先通過與制造商和經(jīng)銷商溝通,結(jié)合網(wǎng)上查到的資料選出各車型的模型車及其所用的汽車電子產(chǎn)品,然后根據(jù)產(chǎn)品經(jīng)理以及各事業(yè)部的報告獲得各類電子產(chǎn)品的裝車率,接著通過中國汽車產(chǎn)量預(yù)測模型計(jì)算出當(dāng)月的汽車月產(chǎn)量;然后分別乘以各車型的比例,再乘上前兩步的數(shù)據(jù),得出總共需要的電子產(chǎn)品總量;最后通過戰(zhàn)略分析、與各個事業(yè)部交流后得出每個電子產(chǎn)品的價格,乘以各自的總量后得到各車型的電子市場價值,最后求和得到中國輕型汽車電子市場的總價值.[7-9]
圖3 中國輕型汽車電子市場容量計(jì)算
中國的輕型汽車主要包括乘用車和輕型商用車.乘用車根據(jù)汽車的軸距、排量、重量等參數(shù)可分為A,B,C和D型車,其中由于D型車屬豪華型轎車,產(chǎn)量較少,這里不列入計(jì)算范圍.首先,在確定好列入計(jì)算的車型后,對每種車型進(jìn)行模型車的選擇,A,B和C型車選取兩種模型車,國內(nèi)品牌和國外品牌的各一種,假設(shè)模型車的電子產(chǎn)品安裝率和價格是其代表車型的平均水平,模型車的選擇見圖4.然后經(jīng)過調(diào)查建立各模型車的電子產(chǎn)品類別和裝車率表,同時根據(jù)市場分析和收集的數(shù)據(jù)得出各電子產(chǎn)品的價格,見表1.
圖4 模型車的選擇
再根據(jù)對2010年3個月汽車產(chǎn)量的預(yù)測,結(jié)合每類車型所占比例,參照每個電子產(chǎn)品的市場價格,計(jì)算出每個電子產(chǎn)品的容量,數(shù)據(jù)見表2.
最終估計(jì)結(jié)果見圖5,其中每月編號1的數(shù)據(jù)為使用SVM預(yù)測的汽車月產(chǎn)量而得出的值,編號2的數(shù)據(jù)為使用GI數(shù)據(jù)庫的汽車年產(chǎn)量除以12以后得到的值.對比結(jié)果可發(fā)現(xiàn)使用舊方法預(yù)測的值比新方法小,因?yàn)樗念A(yù)測周期長(最新數(shù)據(jù)為2009年9月預(yù)測),沒有充分考慮到中國汽車市場的迅速發(fā)展趨勢,而且缺乏波動性.由此可見,在進(jìn)行短期市場價值估計(jì)時,使用SVM回歸方法獲得汽車月產(chǎn)量數(shù)據(jù)的預(yù)測結(jié)果較好.
表1 各車型電子產(chǎn)品裝車率及單位價格(部分)
表2 單個電子產(chǎn)品市場價值(部分)
圖5 電子市場價值估計(jì)結(jié)果比較
以中國汽車月產(chǎn)量的預(yù)測作為研究對象,針對德國大陸汽車BD&M部門的業(yè)務(wù)流程中預(yù)測方法存在的缺陷,提出一種改進(jìn)的SVM預(yù)測方法,對中國汽車月產(chǎn)量進(jìn)行短期預(yù)測并應(yīng)用于汽車電子市場的潛在價值估計(jì),取得滿意效果.然而,商業(yè)預(yù)測是一項(xiàng)復(fù)雜的系統(tǒng)工程,除了在預(yù)測方法上進(jìn)行改進(jìn)外,信息系統(tǒng)的構(gòu)建、關(guān)鍵數(shù)據(jù)的定時收集也必不可少,除此之外還必須在組織機(jī)構(gòu)上進(jìn)行優(yōu)化,使得各部門之間一些關(guān)鍵信息得到共享,減少不必要的溝通和協(xié)調(diào)工作.
[1]毛建洋.支持向量機(jī)在數(shù)據(jù)挖掘中的應(yīng)用研究[D].上海:華東理工大學(xué),2006.
[2]王穎,邵春福.基于支持向量機(jī)的公路貨運(yùn)量預(yù)測方法研究[J].物流技術(shù)與方法,2010(21):142-150.
[3]CRISTIANINI N.支持向量機(jī)導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2005.
[4]段鳳娟,朱吉勝,王華建.支持向量機(jī)快速算法的實(shí)現(xiàn)技術(shù)[J].現(xiàn)代計(jì)算機(jī):專業(yè)版,2008(09):57-58.
[5]鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘中的新方法:支持向量機(jī)[M].北京:科學(xué)出版社,2004.
[6]王睿.關(guān)于支持向量機(jī)參數(shù)選擇方法分析[J].重慶師范大學(xué)學(xué)報:自然科學(xué)版,2007,24(2):1-4.
[7]程遠(yuǎn).我國分地區(qū)乘用車市場分析及預(yù)測[D].上海:上海交通大學(xué),2007.
[8]趙海龍.中國汽車保有量預(yù)測建模及其應(yīng)用研究[D].長沙:湖南大學(xué),2009.
[9]鄧麗娜.中國汽車工業(yè)與國民經(jīng)濟(jì)發(fā)展的相關(guān)分析及需求預(yù)測[D].成都:西南交通大學(xué),2005.