曹 斐,周 彧,王春曉,任夢(mèng)宇,周 峰
(1.中國地質(zhì)大學(xué)(武漢)機(jī)械與電子信息學(xué)院,武漢 430074;2.中建三局工程設(shè)計(jì)有限公司,武漢 430074)
在建筑行業(yè),混凝土是最重要的結(jié)構(gòu)材料之一,其抗壓強(qiáng)度是指在外力作用下,單位面積所能承受的壓力,又指抵抗壓力破壞的能力。混凝土的抗壓強(qiáng)度很大程度上決定了建筑的荷載、安全性能,因此如何快速有效地判斷混凝土強(qiáng)度對(duì)施工質(zhì)量和進(jìn)度有重要意義[1]。
影響混凝土抗壓強(qiáng)度的因素可分為兩類,即多種原料用量比例和養(yǎng)護(hù)齡期,原料用量比例決定混凝土早期強(qiáng)度,經(jīng)過一定的養(yǎng)護(hù)齡期后,各原料之間通過物理和化學(xué)反應(yīng)充分交互作用,強(qiáng)度呈一定規(guī)律增長(zhǎng),特征復(fù)雜,各因素并非與混凝土強(qiáng)度呈現(xiàn)簡(jiǎn)單的線性關(guān)系,直接建立數(shù)學(xué)模型較為困難[2]。而機(jī)器學(xué)習(xí)可以挖掘到數(shù)據(jù)的深層規(guī)律,并通過訓(xùn)練得到可靠的預(yù)測(cè)模型,性質(zhì)優(yōu)良,因此有學(xué)者將機(jī)器學(xué)習(xí)應(yīng)用于混凝土抗壓強(qiáng)度預(yù)測(cè)的問題,采用的方法有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)。Asteris等[3]將反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagayion Neural Network, BPNN)應(yīng)用在自密實(shí)混凝土強(qiáng)度預(yù)測(cè)中,在僅有少量數(shù)據(jù)的情況下,四層的網(wǎng)絡(luò)結(jié)構(gòu)較好地完成了任務(wù)。Tsai等[4]提出將高階神經(jīng)網(wǎng)絡(luò)(High-Order Neural Network, HONN)應(yīng)用于混凝土抗壓強(qiáng)度預(yù)測(cè)問題的研究,該網(wǎng)絡(luò)通過使各輸入?yún)?shù)之間形成多種乘積形式來實(shí)現(xiàn)非線性表達(dá),形成了簡(jiǎn)單固定的公式。但只在同一齡期下進(jìn)行了實(shí)驗(yàn),未考慮全部參數(shù),且乘積形式的表達(dá)力不足,得到的模型不夠完備。高寶成等[5]利用核函數(shù)的非線性將原混凝土參數(shù)投向高維空間,將其轉(zhuǎn)化為線性問題,獲得支持向量回歸(Support Vector Regression, SVR)預(yù)測(cè)模型,效果顯著。SVR算法建立在嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論基礎(chǔ)上,泛化能力強(qiáng),且核技巧使其擅于解決復(fù)雜的非線性問題,另外相對(duì)于其他機(jī)器學(xué)習(xí)方法,該方法對(duì)數(shù)據(jù)量的要求不高,少量樣本即可進(jìn)行良好的預(yù)測(cè),因此在很多領(lǐng)域都得到了應(yīng)用。陳通箭等[6]利用該算法預(yù)測(cè)軌道車站客流高峰期持續(xù)時(shí)間,以此提高軌道車站高峰時(shí)期的管理和運(yùn)營(yíng)能力。薛同來等[7]利用SVR預(yù)測(cè)水質(zhì),相比其他方法,誤差明顯降低。劉代剛等[8]利用SVR進(jìn)行風(fēng)力預(yù)測(cè),以減小風(fēng)力發(fā)電的隨機(jī)性對(duì)電力系統(tǒng)的影響。由于SVR在各應(yīng)用場(chǎng)景中的較強(qiáng)優(yōu)勢(shì),本文將其作為基礎(chǔ)算法進(jìn)行混凝土抗壓強(qiáng)度的預(yù)測(cè)。
關(guān)于SVR的優(yōu)化,一個(gè)重要的手段是權(quán)重的引入,即加權(quán)型SVR(Weighted SVR,WSVR)。張講社等[9]提出以誤差大小為權(quán)重來調(diào)節(jié)懲罰參數(shù),減少了噪聲和孤立點(diǎn)對(duì)模型的影響。在時(shí)間序列中,張翔[10]提出通過隨機(jī)森林計(jì)算出每個(gè)時(shí)間點(diǎn)對(duì)最終預(yù)測(cè)結(jié)果的重要度,將其作為權(quán)值對(duì)SVR核函數(shù)加權(quán),實(shí)現(xiàn)對(duì)SVR時(shí)間序列預(yù)測(cè)效果的提升。本文使用的改進(jìn)方法即為加權(quán),傳統(tǒng)的SVR往往會(huì)忽略樣本優(yōu)劣性,由于對(duì)所有樣本出錯(cuò)的懲罰力度相同,劣勢(shì)樣本將使得實(shí)際得到的SVR模型與理想模型產(chǎn)生較大偏差,針對(duì)這一問題,本文提出了一種基于馬氏距離的加權(quán)型SVR(WSVR based on Mahalanobis distance,MWSVR),根據(jù)訓(xùn)練樣本到測(cè)試集中心的距離來反比量化懲罰因子,弱化異常數(shù)據(jù)在求解過程中的作用,使不同樣本合理發(fā)揮作用。
SVR算法的前身是支持向量機(jī)(Support Vector Machine, SVM),原始SVM算法由Vapnik和Cortes提出來解決二分類問題[11],SVR是支持向量機(jī)在回歸領(lǐng)域的一個(gè)重要分支。SVR解決的回歸問題分為線性和非線性,但歸根結(jié)底,實(shí)際解決的都是線性問題,針對(duì)非線性問題,SVR通過核函數(shù)將數(shù)據(jù)映射到高維空間,在高維空間中通過最小化結(jié)構(gòu)風(fēng)險(xiǎn)來逼近函數(shù),因?yàn)樵诮⒛P瓦^程中僅依靠了部分向量,所以稱之為支持向量。
SVR的線性回歸問題描述為:給定m個(gè)樣本數(shù)據(jù){(x1,y1),(x2,y2)…(xm,ym)},其中xi∈Rn(i=1,2…m),Rn表示n維的向量空間,R指實(shí)數(shù)域,xi代表已知的樣本決策變量,包含多個(gè)因子,yi為待預(yù)測(cè)量,本文中指混凝土強(qiáng)度,為單一數(shù)值。如果在二維空間,SVR的目的是尋找一條直線,使所有的(xi,yi)盡可能在這條直線上;如果在高維空間,那就是尋找超平面使訓(xùn)練樣本盡可能位于超平面上,公式描述如下[12]:
f(x)=ωTx+b
(1)
(2)
SVR的優(yōu)化目標(biāo)如下[12]:
(3)
式中:ε為允許誤差帶的寬度,當(dāng)預(yù)測(cè)值f(xi)和預(yù)測(cè)值yi之間的誤差超過ε時(shí)計(jì)算損失。ξi和ξ′i為松弛因子,代表預(yù)測(cè)誤差。C為懲罰因子,C越大,表示對(duì)誤差的懲罰力度越大,針對(duì)不同的樣本,C是固定的。A項(xiàng)為正則項(xiàng),代表模型復(fù)雜度,防止過擬合。另外還應(yīng)該避免欠擬合,描述為 B項(xiàng)。
為求解優(yōu)化問題式(3),每個(gè)約束條件引入拉格朗日乘子α、α′、μ、μ′[12]:
(4)
式(3)的對(duì)偶問題如下[12]:
(5)
先求解L函數(shù)的最小值問題,對(duì)ω、b、ξi和ξ′i求導(dǎo),令其為0,得到四個(gè)等式,其中ω只與α和α′相關(guān),如式(6)[12]所示:
(6)
將得到的四個(gè)等式代入式(4),可得式(7)[12]:
(7)
利用二次規(guī)劃求解得到α和α′,根據(jù)其值得到支持向量,分為以下三類:
(1)若αi=C、α′i=0或α′i=C、αi=0,則xi為邊界支持向量;
(2)若αi∈(0,C)、α′i=0或α′i∈(0,C)、αi=0,則xi為標(biāo)準(zhǔn)支持向量;
(3)若αi=0且α′i=0,則xi為非支持向量。
總之,α′i-αi≠0時(shí),xi為支持向量,將參與到ω的計(jì)算當(dāng)中,另外偏置b也由標(biāo)準(zhǔn)支持向量得到,如式(8)[12]:
(8)
引入核函數(shù)K,將原參數(shù)映射到高維空間,最終解的形式為[12]:
(9)
可以看到SVR模型的重點(diǎn)在于αi和α′i,(α′i-αi)的值決定了最終解的形式,而它們求解的一個(gè)重要邊界條件為0≤α′i,αi≤C,這樣的邊界條件將全體樣本一視同仁,懲罰力度相同,若能根據(jù)樣本的差異,改變懲罰因子,令0≤α′i,αi≤Ci,異化邊界條件,將得到更精準(zhǔn)有效的αi和α′i的解的形式。
在回歸問題中,一個(gè)可循的規(guī)律是輸入?yún)?shù)越接近,輸出就越接近,因此更好地訓(xùn)練與測(cè)試集接近的數(shù)據(jù)將提升測(cè)試質(zhì)量。假設(shè)自變量為二維數(shù)據(jù),維度為X1和X2,如圖1,測(cè)試集中心大致反應(yīng)了測(cè)試集的分布,根據(jù)訓(xùn)練樣本的位置,可以看出它們偏離測(cè)試集中心的程度不同,因此需要相應(yīng)的弱化或強(qiáng)化它們?cè)谟?xùn)練時(shí)的作用,顯然,樣本1的強(qiáng)化意義較大,這可以通過加大懲罰力度實(shí)現(xiàn),樣本3則應(yīng)弱化,減小其懲罰因子,允許其出錯(cuò),使其在訓(xùn)練時(shí)幾乎不發(fā)揮作用,近似剔除。因此根據(jù)訓(xùn)練樣本到測(cè)試集中心的距離量化懲罰因子是合理的。
圖1 二維數(shù)據(jù)集示例Fig.1 2D dataset example
選擇合適的距離度量手段將會(huì)得到好的加權(quán)效果,馬氏距離可以用來度量一個(gè)樣本和一個(gè)群體之間的距離,相比其他度量方法,它與數(shù)據(jù)的量綱無關(guān),還會(huì)考慮到各個(gè)變量之間的關(guān)系,可應(yīng)用于本文的問題中。
首先定義均值向量μ=(μ1,μ2…μn),代表了每個(gè)特征的均值,協(xié)方差矩陣Cmat則代表了各個(gè)特征之間的相關(guān)關(guān)系,X的協(xié)方差矩陣公式描述如下[13]:
Cmat=cov(Xi,Xj)=E[(X-μ)T(X-μ)]
(10)
則空間中任意兩點(diǎn),如M、N兩數(shù)據(jù)點(diǎn)之間的馬氏距離DM(M,N)表達(dá)式如式(11)所示[13]:
(11)
現(xiàn)在需要構(gòu)造懲罰因子Ci和距離1/DM的正比關(guān)系,由于冪次方是一種常見的、簡(jiǎn)單的正比關(guān)系,且基于前人經(jīng)驗(yàn)[9],本文中假定了它們之間的關(guān)系如下:
(12)
式中:k和j是需要根據(jù)實(shí)際情況選擇的參數(shù)。利用k、j、DM得到Ci后,約束條件不變,優(yōu)化問題為:
(13)
本文也嘗試了如Ci=sin(1/DM)(其中0≤1/DM≤π/2)這樣的Ci和1/DM之間的正比關(guān)系以及其它冪的形式,但無良好成效,因此最終選定了式(12)的形式,式(12)以訓(xùn)練樣本到測(cè)試集中心的馬氏距離為權(quán)重實(shí)現(xiàn)了由C到Ci的轉(zhuǎn)變,稱為MWSVR。
懲罰因子的改變只對(duì)二次規(guī)劃的求解過程產(chǎn)生影響,其他過程和SVR相同。因此MWSVR還有一些SVR中固有的參數(shù)需要調(diào)整尋優(yōu),分別是ε、σ和error,ε代表允許誤差帶的寬度,σ是高斯核函數(shù)的寬度,error是允許的判別誤差,|α′i-αi|>error時(shí),即可判定其為支持向量。這五個(gè)參數(shù)都可以影響支持向量的個(gè)數(shù),對(duì)MWSVR的泛化能力造成影響,因此需要慎重選擇。這些參數(shù)的選擇使用了遺傳算法,以測(cè)試集的均方根誤差(Root Mean Squard Error, RMSE)為優(yōu)化目標(biāo),RMSE可以用來衡量一組數(shù)據(jù)的預(yù)測(cè)值ypredict與真實(shí)值ytrue的偏差程度,如式(14)所示:
(14)
本文所使用的數(shù)據(jù)來自加州大學(xué)歐文分校,共計(jì)1 030條[14]。數(shù)據(jù)集示例如表1,均是未經(jīng)處理的原始數(shù)據(jù)。輸出變量是混凝土的抗壓強(qiáng)度,單位為MPa。輸入變量包括8項(xiàng),首先為混凝土的原材料,包括水泥、爐渣、粉煤灰、水、減水劑、粗骨料和細(xì)骨料的用量,單位均為kg/m3,即每立方米混凝土中包含的各材料的質(zhì)量,混合在一起的原材料經(jīng)均勻攪拌,密實(shí)成型。各種原料的比例至關(guān)重要,以水與水泥用量的比值即水灰比為例來說明,圖2為1 030條數(shù)據(jù)中各水灰比下的混凝土抗壓強(qiáng)度均值,明顯可看到二者成反比,這也與經(jīng)驗(yàn)相符,水灰比較小時(shí),顆粒間空隙小,水化反應(yīng)產(chǎn)生的膠體容易填充空隙,蒸發(fā)后水孔較少,混凝土抗壓強(qiáng)度較高。但由于數(shù)據(jù)局限性,圖2是基于統(tǒng)計(jì)所描繪的折線,除水灰比外,其余自變量并不相同,故略有起伏。其次為養(yǎng)護(hù)齡期,剛成型的混凝土需要在一定的溫度、濕度環(huán)境下養(yǎng)護(hù)硬化,常見齡期為7 d、28 d。在正常養(yǎng)護(hù)的條件下,混凝土強(qiáng)度將隨齡期的增長(zhǎng)而不斷發(fā)展,最初7~14 d內(nèi)強(qiáng)度增長(zhǎng)較快,之后逐漸緩慢,28 d達(dá)到設(shè)計(jì)強(qiáng)度,之后會(huì)繼續(xù)增長(zhǎng)。本文所使用的數(shù)據(jù)也表明了這一點(diǎn),圖3展示了三組混凝土抗壓強(qiáng)度數(shù)據(jù)和養(yǎng)護(hù)齡期的關(guān)系,其中各組內(nèi)除養(yǎng)護(hù)齡期以外,自變量相同。
表1 混凝土數(shù)據(jù)集示例[14]Table 1 Concrete data set example[14]
續(xù)表
圖2 混凝土抗壓強(qiáng)度和水灰比的關(guān)系Fig.2 Relationship between concrete compressive strength and water cement ratio
圖3 混凝土抗壓強(qiáng)度和養(yǎng)護(hù)齡期的關(guān)系Fig.3 Relationship between concrete compressive strength and age
(15)
(16)
式中:X′和X″分別表示歸一化和標(biāo)準(zhǔn)化后的數(shù)據(jù)。
遺傳算法在本文中的尋優(yōu)過程如下:
(1)初始化種群:隨機(jī)生成50個(gè)個(gè)體,每個(gè)個(gè)體包括5條染色體,即k、j、ε、σ、error,它們的范圍均設(shè)為0~200;
(2)計(jì)算各個(gè)個(gè)體的適應(yīng)度RMSE,RMSE越小越好,因此這里取倒數(shù),即1/RMSE,以便選擇;
(3)選擇:選擇率為50%,即保留 25個(gè)個(gè)體作為父代,并生成25個(gè)子代。首先選擇RMSE取最小值的個(gè)體,避免適應(yīng)度高的個(gè)體丟失,再采用輪盤賭算法(個(gè)體被選中的概率與其適應(yīng)度大小成正比)保留24個(gè)個(gè)體;
(4)編碼:將數(shù)據(jù)變?yōu)槎M(jìn)制編碼,以便交叉和變異,長(zhǎng)度為22位;
(5)交叉:以概率70%隨機(jī)挑選父代中的兩個(gè)個(gè)體進(jìn)行基因交叉,產(chǎn)生25個(gè)子代,保證種群總體數(shù)目不變;
(6)變異:以概率70%在隨機(jī)位置對(duì)子代進(jìn)行取反操作;
(7)解碼:將二進(jìn)制數(shù)重新轉(zhuǎn)換為十進(jìn)制;
(8)種群更新:25個(gè)父代及25個(gè)交叉變異產(chǎn)生的子代構(gòu)成新種群;
(9)尋優(yōu)次數(shù)已至上限100次,退出循環(huán),否則返回(2)。
結(jié)合了遺傳算法的MWSVR過程如圖5所示,首先初始化50對(duì)參數(shù)k、j、ε、σ、error,再根據(jù)馬氏距離DM和k、j得到懲罰因子Ci,根據(jù)ε、σ、error、Ci求解SVR對(duì)偶問題,由二次規(guī)劃得到(αi-α′i),判斷其值得到支持向量,再由其獲得偏置b,SVR解的形式即可獲得,在測(cè)試集上進(jìn)行預(yù)測(cè),得到預(yù)測(cè)值和真實(shí)值的均方根誤差RMSE,保留使RMSE獲得最小值的參數(shù)k、j、ε、σ、error的組合,并由遺傳算法對(duì)其他的參數(shù)組合進(jìn)行調(diào)整得到新的50對(duì)參數(shù),經(jīng)過多次交叉、變異、選優(yōu),得到了ε=0.102 3,σ=0.157 3,error=0.091 5,k=58.789 3,j=1.995的參數(shù)組合,在此參數(shù)下,MWSVR有最低的RMSE。
圖4 改進(jìn)的SVR流程圖Fig.4 Flowchart of Genetic Algorithm
圖5 改進(jìn)的SVR流程圖Fig.5 Improved SVR flowchart
本文的對(duì)比方法有決策樹(Decision Tree, DT)、隨機(jī)森林(Random Forest, RF)、BP神經(jīng)網(wǎng)絡(luò)、RBF(Radial Basis Function)神經(jīng)網(wǎng)絡(luò)和基礎(chǔ)SVR。
圖6 二叉樹Fig.6 Binary tree
(1)決策樹是一種以樹形結(jié)構(gòu)學(xué)習(xí)的算法模型,不斷采用二元切的方式使數(shù)據(jù)分布在各個(gè)結(jié)點(diǎn)上,直至使所有樣本在最終分叉結(jié)點(diǎn)上均有合理有效的預(yù)測(cè)值[15]。圖6是一個(gè)簡(jiǎn)單的二叉樹,根據(jù)變量t判斷輸出結(jié)果為V1還是V2,由于本文變量較多,且輸出值范圍廣,所以樹形結(jié)構(gòu)較復(fù)雜,共有215個(gè)結(jié)點(diǎn)。
圖7 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 The structure of BPNN
(2)隨機(jī)森林則是由多棵決策樹組成,所有決策樹預(yù)測(cè)結(jié)果的均值即為其結(jié)果[16]。
(3)BP神經(jīng)網(wǎng)絡(luò)是多層前饋型神經(jīng)網(wǎng)絡(luò)中的一種,屬于人工神經(jīng)網(wǎng)絡(luò)的一類,可包含任意多層結(jié)構(gòu),能對(duì)任何一種非線性輸入輸出關(guān)系進(jìn)行模仿,是應(yīng)用最廣泛的網(wǎng)絡(luò)之一[17]。圖7即為本文的網(wǎng)絡(luò)結(jié)構(gòu),輸入層、隱含層和輸出層結(jié)點(diǎn)數(shù)分別為8、16和1。
y的計(jì)算過程如式(17)、(18)所示。
(17)
(18)
式中:z和a分別表示線性變換和非線性變換,g為激活函數(shù),b為偏置,z(1)、a(1)、g(1)和b1位于網(wǎng)絡(luò)第一層,z(2)、g(2)和b2位于網(wǎng)絡(luò)第二層。
(4)RBF神經(jīng)網(wǎng)絡(luò)也屬于人工神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)為固定的三層,隱含層為徑向基函數(shù),雖然結(jié)構(gòu)簡(jiǎn)單不可變,但具有良好的全局逼近能力,訓(xùn)練速度快[18],計(jì)算過程如下:
(19)
為了增加實(shí)驗(yàn)結(jié)果的客觀性,所有實(shí)驗(yàn)都在統(tǒng)一訓(xùn)練集和測(cè)試集上進(jìn)行,占比均為50%,且所有參數(shù)的選取都是以RMSE為優(yōu)化目標(biāo)。關(guān)于數(shù)據(jù)預(yù)處理,因決策樹和隨機(jī)森林是基于概率的模型,所以除了這二者,其他方法都經(jīng)過了和MWSVR同樣的歸一化和標(biāo)準(zhǔn)化。
本文的評(píng)價(jià)指標(biāo)包括時(shí)間和RMSE。
(1)時(shí)間:這里包括訓(xùn)練過程和測(cè)試過程的時(shí)間,不同算法復(fù)雜程度不同,所用時(shí)間的差異也較大,因此可作為衡量算法效率的指標(biāo),這里是10次實(shí)驗(yàn)訓(xùn)練和測(cè)試過程所用的平均時(shí)間,編程工具為MATLAB,計(jì)算機(jī)基本配置為Intel(R) Core(TM) i5-6200U和DDR4 8G。
(2)RMSE:表2列出了兩種指標(biāo)下各種方法的效果。
表2 各種方法關(guān)于混凝土抗壓強(qiáng)度預(yù)測(cè)的效果對(duì)比Table 2 Comparison of various methods on prediction of compressive strength of concrete
先令MWSVR與決策樹和隨機(jī)森林作比較,MWSVR的時(shí)間復(fù)雜度明顯較高,這是因?yàn)闆Q策樹和隨機(jī)森林的數(shù)學(xué)過程簡(jiǎn)單,且沒有參數(shù)需要逐步訓(xùn)練,但在混凝土問題中,這兩種方法預(yù)測(cè)效果并不好;再相較于兩種神經(jīng)網(wǎng)絡(luò)方法,無論是時(shí)間復(fù)雜度還是預(yù)測(cè)效果,MWSVR都具有明顯的優(yōu)勢(shì)。最后比較MWSVR和SVR,它們所用時(shí)間相當(dāng),因?yàn)樗鼈兊那蠼膺^程相同,但MWSVR的RMSE較SVR得到了改善,而且當(dāng)人為去除一些距離較遠(yuǎn)的數(shù)據(jù)時(shí),最終結(jié)果并沒有發(fā)生明顯變化,說明 WSVR中異化懲罰因子的確起到了近似剔除異常數(shù)據(jù)的作用。
表3 交叉驗(yàn)證下的SVR和MWSVR的對(duì)比Table 3 Comparison of SVR and MWSVR with cross-validation
為了避免此結(jié)論的偶然性,將數(shù)據(jù)分為3份進(jìn)行交叉驗(yàn)證,單獨(dú)對(duì)比了SVR和MWSVR的RMSE,結(jié)果如表3所示中的1~3三組結(jié)果。這佐證了 MWSVR的優(yōu)勢(shì),證明了MWSVR是一種集合了速度和效果的混凝土抗壓強(qiáng)度預(yù)測(cè)方法。
關(guān)于MWSVR的劣勢(shì),這里做如下說明:MWSVR捕捉異常數(shù)據(jù)的能力是有限的,因?yàn)槔玫氖亲宰兞恐g的距離,考慮極端情況,若某個(gè)訓(xùn)練樣本的自變量就在測(cè)試集數(shù)據(jù)中心附近,但因變量相對(duì)正常值非常大或非常小,那么它將被賦予很大的懲罰因子,但卻是異常數(shù)據(jù),顯然會(huì)對(duì)模型造成干擾,因此文章的MWSVR雖然有效,但不能捕捉所有異常數(shù)據(jù),這也是它的局限之處。在其他實(shí)驗(yàn)中,這種想法得到了驗(yàn)證,MWSVR算法只在部分?jǐn)?shù)據(jù)中較SVR得到了提升。雖然在預(yù)測(cè)模型中,MWSVR和SVR時(shí)間復(fù)雜度無大差別,但在尋優(yōu)過程中,MWSVR參數(shù)增多,較為復(fù)雜。
提出了一種基于馬氏距離的加權(quán)型SVR,它避免了測(cè)試集數(shù)據(jù)資源的浪費(fèi),并利用訓(xùn)練集和測(cè)試集的馬氏距離實(shí)現(xiàn)懲罰因子的差異化,使得不同樣本在決定最終模型的過程中占有不同重要性,訓(xùn)練過程更有針對(duì)性,增強(qiáng)了訓(xùn)練的意義,并找到了馬氏距離和懲罰因子之間的一種簡(jiǎn)單有效的冪形式的映射公式,二者呈反比關(guān)系。在混凝土抗壓強(qiáng)度的預(yù)測(cè)問題中,分別用決策樹、隨機(jī)森林、BP神經(jīng)網(wǎng)絡(luò)、RBF神經(jīng)網(wǎng)絡(luò)、標(biāo)準(zhǔn)SVR與MWSVR對(duì)比,實(shí)驗(yàn)表明,MWSVR未造成時(shí)間復(fù)雜度的增加,且預(yù)測(cè)效果最好、誤差最低,在混凝土抗壓強(qiáng)度預(yù)測(cè)問題中行之有效。但該方法只能在早期粗略估計(jì)混凝土抗壓強(qiáng)度,若需要更細(xì)致的輸出則需要提供更多數(shù)據(jù)細(xì)節(jié)。
針對(duì)目前的不完善之處,對(duì)下一步的工作總結(jié)如下:(1)提高算法的普適性,使其能夠有效識(shí)別各類異常數(shù)據(jù),懲罰因子的加權(quán)化更加合理,使之在絕大多數(shù)情況下效果近似于或優(yōu)于基礎(chǔ)SVR;(2)尋找更佳的懲罰因子和馬氏距離的映射形式,取得更加明顯的提升效果;(3)本文只使用了一種混凝土數(shù)據(jù)源進(jìn)行實(shí)驗(yàn),且1030條數(shù)據(jù)對(duì)于8維的自變量來說并不充足,應(yīng)尋找更多數(shù)據(jù)加以實(shí)驗(yàn),實(shí)現(xiàn)更加精確的預(yù)測(cè)。