趙靜 王選倉? 樊振陽 王培丞
(1.長安大學(xué) 公路學(xué)院,陜西 西安 710064;2.長安大學(xué) 信息工程學(xué)院,陜西 西安 710064)
截止2018年底,我國高速公路養(yǎng)護(hù)里程占總里程的97%[1]。2019年9月,中共中央國務(wù)院印發(fā)了《交通強(qiáng)國建設(shè)綱要》,其中指出應(yīng)大力發(fā)展智慧交通,推動(dòng)大數(shù)據(jù)、人工智能等新技術(shù)與交通行業(yè)的深度融合[2]。因此將人工智能技術(shù)運(yùn)用于道路養(yǎng)護(hù)工程中迫在眉睫。其中路面性能評(píng)價(jià)是路面養(yǎng)護(hù)的重要環(huán)節(jié),也是養(yǎng)護(hù)決策與資金投入的依據(jù),因此使用人工智能技術(shù)對(duì)路面性能進(jìn)行評(píng)價(jià)將是道路養(yǎng)護(hù)需要重點(diǎn)解決的問題。
在我國,路面性能綜合評(píng)價(jià)是根據(jù)《公路技術(shù)狀況評(píng)定標(biāo)準(zhǔn)》(JTG H20—2018)進(jìn)行的[3],其方法為依據(jù)各單項(xiàng)評(píng)價(jià)指標(biāo)(不包括彎沉值)與相應(yīng)權(quán)重的乘積通過計(jì)算路面技術(shù)狀況(PQI)值來判斷,各分項(xiàng)指標(biāo)權(quán)重是通過結(jié)合專家經(jīng)驗(yàn)判斷各指標(biāo)重要性并結(jié)合實(shí)際的數(shù)據(jù)進(jìn)行綜合確定的,以道路的服務(wù)功能為首要考慮因素。所以現(xiàn)在的評(píng)價(jià)方法無法準(zhǔn)確客觀地反映出路面的整體水平。
為合理地對(duì)路面性能進(jìn)行評(píng)價(jià),Fang[4]為了避免主觀與不確定性,提出了一種改進(jìn)的灰色理論灰色聚類原理。Ling等[5]將可拓理論運(yùn)用在路面性能評(píng)價(jià)中。Han等[6]建立了分層貝葉斯估計(jì)的馬爾可夫混合風(fēng)險(xiǎn)模型,結(jié)果表明該模型可以很好地完成短期路面使用性能評(píng)價(jià)。王靜[7]調(diào)查了甘肅省實(shí)際路面主導(dǎo)損害,建立了灰色逼近理想解排序法(TOPSIS)模型對(duì)路面性能進(jìn)行了評(píng)價(jià),評(píng)價(jià)結(jié)果更符合甘肅路面性能實(shí)際。張威等[8]選取京哈高速指標(biāo)建立博弈論的路面性能物元可拓評(píng)價(jià)模型,該模型將德爾菲法與關(guān)聯(lián)函數(shù)法結(jié)合起來建立靜態(tài)博弈。李學(xué)峰等[9]采用廣義有序邏輯回歸法建立了瀝青路面使用性能評(píng)價(jià)模型,該方法可以有效解決邏輯回歸模型條件的限制。
這些模型研究也存在著各自的不足,如神經(jīng)網(wǎng)絡(luò)比較容易發(fā)生過學(xué)習(xí)情況,層次分析法主要依據(jù)專家經(jīng)驗(yàn)確定相應(yīng)的重要性,因此客觀性不強(qiáng)。這使得評(píng)價(jià)結(jié)果的準(zhǔn)確性降低。而隨著人工智能的興起,支持向量機(jī)(SVM)被普遍地應(yīng)用于各個(gè)領(lǐng)域中。其在分類評(píng)價(jià)中效果極佳。同時(shí)懲罰參數(shù)C和核函數(shù)g對(duì)模型的精度起著至關(guān)重要的作用[10],因此本研究采用3種優(yōu)化模型對(duì)支持向量機(jī)參數(shù)進(jìn)行優(yōu)化,得到最好的優(yōu)化模型。最后,將此模型運(yùn)用于廣東省某高速公路23個(gè)路段路面的性能評(píng)價(jià)中。
支持向量機(jī)是一種應(yīng)用廣泛的機(jī)器學(xué)習(xí)方法,它的精確性取決于懲罰參數(shù)C和核函數(shù)g。本研究分別使用參數(shù)尋優(yōu)方面的3種常用的方法(交叉驗(yàn)證(CV)、粒子群算法(PSO)、遺傳算法(GA))確定最佳參數(shù)。
1992年,Vapnik提出了支持向量機(jī)(SVM)[11]。SVM是主要解決分類的模型。傳統(tǒng)模型是將數(shù)據(jù)處理為低維度數(shù)據(jù),以便模型建立。而SVM方法是將數(shù)據(jù)點(diǎn)進(jìn)行“升維”,通過核函數(shù)將樣本點(diǎn)映射到高維甚至無窮維空間[12],在高維空間中采用處理線性與非線性問題的方法[13]。
原理可以用圖1中的二維情況說明。圖中的“●”與“▲”分別代表2類不同樣本,H是分類超平面[14]。這兩個(gè)樣本類的平面應(yīng)滿足兩個(gè)條件:①H1和H2同時(shí)平行于H。②H1和H2都為各自類距H平面最遠(yuǎn)。H1和H2的間隔稱為分類距離。最優(yōu)分類超平面就是讓分類超平面H使得和距離最大,并且能將2類不同樣本正確分開(訓(xùn)練錯(cuò)誤為0)。支持向量(SV)是離最佳分類超平面最近的向量[15]。假設(shè)每一個(gè)路段為一個(gè)點(diǎn),其相應(yīng)的檢測指標(biāo)為其屬性。
圖1 最佳分類超平面圖Fig.1 Best classification super plan
1.1.1 線性分類
假如分類數(shù)據(jù)為n維向量,某區(qū)間的l個(gè)樣本及這個(gè)區(qū)間可能的類為:(xi,yi),i=1,2,…,l,xi∈Rn,yi∈{1,-1)}l,R為實(shí)數(shù)集,H表示為
wxi+b=0
(1)
其中:w為超平面法線向量,b為分類直線的偏移量。顯然,式(1)中w和b乘以系數(shù)后仍滿足方程。不失一般性,設(shè)對(duì)所有樣本x滿足下列不等式:
(2)
可將上述不平等合并為如下不等式:
yi(wxi+b)≥1,i=1,2,…,l
(3)
此時(shí)分類間隔為2/‖w‖,要使‖w‖2/2最小并滿足yi(wxi+b)≥1,i=1,2,…,l,求解最佳分類平面H便改為求解下面的最優(yōu)解問題[16]:
(4)
s.t.yi(wxi+b)≥1。
通過Lagrange函數(shù)對(duì)式(4)進(jìn)行轉(zhuǎn)化,即
(5)
(6)
1.1.2 非線性分類
實(shí)際應(yīng)用中,會(huì)遇到非線性分類超平面情況,此時(shí)若依然使用線性劃分是不精確的,對(duì)于這類問題,超平面已經(jīng)不能解決這類問題,這時(shí)需要求得一個(gè)超曲面對(duì)數(shù)據(jù)進(jìn)行分類[17]。支持向量機(jī)通過尋找“最大間隔”來確定最優(yōu)超平面,但超曲面沒有間隔的概念[18]。此時(shí)需要通過一個(gè)映射,將尋找超曲面的問題轉(zhuǎn)化為尋找超平面的問題,相對(duì)圖1的線性分類,圖2為非線性分類示意圖。
圖2 非線性分類示意圖Fig.2 Schematic diagram of nonlinear classification
由映射函數(shù)φ:x→H將樣本向量xi映射到高維特征空間H,在空間H中得出最佳超平面。引進(jìn)核函數(shù)K(xi,xj),但函數(shù)滿足Mercer條件[19],對(duì)應(yīng)變換空間的內(nèi)積為K(xi,xj)=φ(xi)φ(xj),這可解決“維數(shù)災(zāi)難”問題。
與第1.1.1節(jié)步驟相同,二次規(guī)劃的目標(biāo)函數(shù)為
L(w,x,b,a,b)=
(7)
其中K(xi,xj)=φ(xi)φ(xj)被稱為核函數(shù),則分離超平面表示為
(8)
訓(xùn)練集的最優(yōu)分類判別函數(shù)為
(9)
其中,xi為支持向量,x為未知向量,f(x)為支持向量機(jī)。
1.2.1 交叉驗(yàn)證
交叉驗(yàn)證是用于驗(yàn)證分類器性能的統(tǒng)計(jì)方法,其思想是將訓(xùn)練集進(jìn)行分組,將一部分作為訓(xùn)練集,一份作為驗(yàn)證集,已得到的分類準(zhǔn)確率作為評(píng)價(jià)分類器性能的指標(biāo),最終得到最佳的參數(shù)[12]。
1.2.2 粒子群算法
1995年Eberhar與Kennedy提出了一種全局不間斷的隨機(jī)優(yōu)化技術(shù)[20]。粒子群優(yōu)化算法中,每個(gè)粒子都利用其各自的記憶與學(xué)習(xí)來尋找最優(yōu)的解[21]。
(10)
1.2.3 遺傳算法
為了得到全局的最優(yōu)解,遺傳算法可通過模仿生物進(jìn)化過程產(chǎn)生繁殖、變異及選擇得到最優(yōu)解[22]。其具體的尋優(yōu)支持向量機(jī)最佳參數(shù)過程大致如下:
(1)首先對(duì)訓(xùn)練集訓(xùn)練得到的懲罰參數(shù)C與核函數(shù)g編碼,每一串代碼代表一個(gè)可行解,用qij表示(生物術(shù)語稱為基因)。同時(shí)產(chǎn)生一個(gè)初始種群Q,Q中包含所有的可行解。
(2)計(jì)算初始種群的誤差函數(shù),確定種群的適應(yīng)度。
(3)第k個(gè)染色體和第l個(gè)染色體在第j位進(jìn)行交叉操作,即式(11)-(12):
qkj=qkj(1-d)+qljd
(11)
qlj=qlj(1-d)+qkjd
(12)
式中:d是區(qū)間[0,1]的一個(gè)隨機(jī)常數(shù)。
(4)第i個(gè)個(gè)體的第j個(gè)基因qij變異,即
(13)
其中,qmax與qmin分別為qij最大值及最小值,r為[0,1]區(qū)間的一個(gè)隨機(jī)常數(shù)。
適應(yīng)度函數(shù)為
f(s)=r2(1-s/Gmax)2
(14)
其中,r2為一個(gè)隨機(jī)數(shù),s為迭代次數(shù),Gmax為最大進(jìn)化次數(shù)。
高速公路瀝青路面使用性能的合理評(píng)價(jià)是便于公路管理部門進(jìn)行養(yǎng)護(hù)決策的重要前提,通常路面使用性能所處狀態(tài)用“優(yōu)、良、中、次、差”表述,這是一個(gè)多分類問題,模型建立步驟如下:
(1)確定訓(xùn)練集、訓(xùn)練集標(biāo)簽和測試集、測試集標(biāo)簽。
訓(xùn)練集:采用評(píng)價(jià)標(biāo)準(zhǔn)等級(jí),具體方法為:將優(yōu)、良、中、次、差5個(gè)等級(jí)中的路面抗滑性能指數(shù)(SRI)、路面車轍深度指數(shù)(RDI)、路面行駛質(zhì)量指數(shù)(RQI)、路面損壞狀況指數(shù)(PCI)、路面結(jié)構(gòu)強(qiáng)度指數(shù)(PSSI)5項(xiàng)指標(biāo),運(yùn)用Matlab中rand()函數(shù)在其對(duì)應(yīng)的區(qū)間中產(chǎn)生10個(gè)隨機(jī)數(shù)。
訓(xùn)練集標(biāo)簽:評(píng)價(jià)為優(yōu)的標(biāo)簽為1,良的標(biāo)簽為2,中的標(biāo)簽為3,次的標(biāo)簽為4,差的標(biāo)簽為5。
測試集:測試集為所要評(píng)價(jià)路段的SRI、RDI、RQI、PCI等5項(xiàng)指標(biāo)數(shù)據(jù)。
測試集標(biāo)簽:按照評(píng)價(jià)標(biāo)準(zhǔn)計(jì)算各個(gè)路段的PQI,得到相應(yīng)的評(píng)價(jià)等級(jí),為優(yōu)的標(biāo)簽為1,良的標(biāo)簽為2,中的標(biāo)簽為3,次的標(biāo)簽為4,差的標(biāo)簽為5,用來對(duì)比兩種評(píng)價(jià)方法的不同。
(2)選擇核函數(shù)。本研究的核函數(shù)均選擇K(x,xi)=exp(-g‖x-xi‖2),g>0。
(3)通過粒子群算法、遺傳算法、交叉驗(yàn)證3種方法分別求出最佳參數(shù)C和g。
圖3 路面性能評(píng)價(jià)流程圖Fig.3 Flow chart of pavement performance evaluation
本研究以2017年廣東省某路段AK53+840—AK87+682的檢測數(shù)據(jù)為例,首先進(jìn)行聚類分析,將最終的23個(gè)養(yǎng)護(hù)路段均值按照《公路技術(shù)狀況評(píng)定標(biāo)準(zhǔn)》(JTG H20—2018)計(jì)算,并對(duì)該段的路面性能進(jìn)行綜合評(píng)價(jià)。具體數(shù)據(jù)見表1。
為便于對(duì)數(shù)據(jù)進(jìn)行分析,本研究對(duì)表1對(duì)數(shù)據(jù)可視化處理,見圖4。
表1 各指標(biāo)值Table 1 Value of each indicator
圖4 散點(diǎn)圖矩陣Fig.4 Scatterplot matrix
在圖4中,對(duì)角線中的箱線圖表示相應(yīng)指標(biāo)的分布情況,非對(duì)角線的散點(diǎn)圖可以看出5指標(biāo)兩兩之間的關(guān)系。通過SRI、RDI、RQI、PCI、PSSI的23組數(shù)據(jù)得到的箱式圖,筆者很清晰地了解到各指標(biāo)的最小值、最大值,上、下四分位數(shù)以及中位數(shù)和異常數(shù)據(jù)。同時(shí),大部分指標(biāo)之間都是非線性關(guān)系,因此,在分類模型中應(yīng)選擇非線性分類器。
以上述的23個(gè)養(yǎng)護(hù)路段作為測試集,規(guī)范評(píng)價(jià)方法得到的結(jié)果為測試集標(biāo)簽。由于表1中各單項(xiàng)指標(biāo)都大于80,因此,在模型建立時(shí),只選擇為優(yōu)、良、中3個(gè)等級(jí)。其中,優(yōu)等的標(biāo)簽為1,良等的標(biāo)簽為2,中等的標(biāo)簽為3。以優(yōu)等為例,生成的訓(xùn)練集見表2。
表2 優(yōu)等訓(xùn)練集及標(biāo)簽Table 2 Excellent training set and label
對(duì)訓(xùn)練集與測試集進(jìn)行歸一化處理,分別采用交叉驗(yàn)證、粒子群算法、遺傳算法3種參數(shù)優(yōu)化方法,對(duì)第2.2節(jié)所確定的訓(xùn)練集進(jìn)行訓(xùn)練,3種方法分別得到C1與g1,C2與g2,C3與g3。最終得到準(zhǔn)確率最大的懲罰參數(shù)C與核函數(shù)參數(shù)g。
2.3.1 交叉驗(yàn)證
采用K-CV模型交叉驗(yàn)證選擇最佳的懲罰參數(shù)C和函數(shù)參數(shù)g,如圖5所示。首先C1的范圍為2-10~210,g1取值范圍為2-10~210,最佳懲罰參數(shù)C1=0.001,g1=0.001時(shí),準(zhǔn)確率為97.00%。
圖5 最佳參數(shù)初選等高線圖Fig.5 Primary selection of optimal parameters contour map
通過初選,如圖6所示,將C1取值范圍縮小在2-2~22間,g1的取值范圍縮小在2-4~20之間,同時(shí)降低等高線中變化間隔。最終得出最佳參數(shù)C1為0.25,g1為0.062 5,此時(shí)準(zhǔn)確率最大為99.60%。
圖6 最佳參數(shù)的終選等高線圖Fig.6 Final selection of optimal parameters contour map
2.3.2 粒子群算法
當(dāng)?shù)螖?shù)為200,種群數(shù)量20時(shí),粒子群算法的適應(yīng)度曲線如圖7所示,最終得出最佳參數(shù)C2為4.858,g2為0.503時(shí),準(zhǔn)確率最大為96.67%。
圖7 粒子群算法適應(yīng)度曲線Fig.7 Particle swarm algorithm fitness curve
2.3.3 遺傳算法
同樣當(dāng)?shù)螖?shù)為200,種群數(shù)量20時(shí),遺傳算法的適應(yīng)度曲線如圖8所示,最終得出最佳參數(shù)C3為0.964,g3為0.407,此時(shí)準(zhǔn)確率為94.77%。
圖8 遺傳算法適應(yīng)度曲線Fig.8 Genetic algorithm fitness curve
使用3種模型對(duì)訓(xùn)練集進(jìn)行參數(shù)優(yōu)化,各模型準(zhǔn)確率及得到的參數(shù)見表3。
表3 3種模型參數(shù)優(yōu)化結(jié)果Table 3 Optimization results of three models’ parameters
由表3可知,交叉驗(yàn)證模型得到的準(zhǔn)確率最高,粒子群算法次之,遺傳算法最差。因此筆者選用交叉驗(yàn)證所得到的最佳參數(shù)對(duì)路面性能進(jìn)行評(píng)價(jià)。
用最佳參數(shù)C與g在Matlab的libsvm3.20工具包中對(duì)測試集進(jìn)行測試,結(jié)果見圖9。
對(duì)圖9進(jìn)行分析如下:
圖9 評(píng)價(jià)結(jié)果對(duì)比Fig.9 Comparison of evaluation results
(1)在23個(gè)養(yǎng)護(hù)路段中,有11個(gè)養(yǎng)護(hù)路段為優(yōu)等,總長度為16 624 m,優(yōu)等率為47.06%;有11個(gè)養(yǎng)護(hù)路段被評(píng)為良,總長度為17 704 m,良等率為50.11%;只有養(yǎng)護(hù)路段20為中等,總長度為1 000 m,中等率為2.83%。說明這23個(gè)養(yǎng)護(hù)路段整體性能良好。
(2)通過標(biāo)準(zhǔn)與支持向量機(jī)評(píng)價(jià)模型對(duì)比可得,在23個(gè)養(yǎng)護(hù)路段中,有4個(gè)養(yǎng)護(hù)路段評(píng)價(jià)不一致,分別為養(yǎng)護(hù)路段4、5、20、22。以養(yǎng)護(hù)路段4為例,該養(yǎng)護(hù)路段SRI、RDI、PCI、PSSI為85.29、86.77、88.55、87.75,均小于90,但RQI值為94.16,按照標(biāo)準(zhǔn)評(píng)價(jià),該養(yǎng)護(hù)路段評(píng)價(jià)為優(yōu),而使用支持向量機(jī)對(duì)該段的評(píng)價(jià)為良,更符合實(shí)際路況。整條高速公路RQI值都落在了94至96這個(gè)區(qū)間,如若整條高速公路按照這種標(biāo)準(zhǔn)評(píng)定,只要其他指標(biāo)值都大于80,評(píng)價(jià)結(jié)果都可能為優(yōu),這顯然不合理。因此,使用支持向量機(jī)建立的瀝青路面綜合評(píng)價(jià)更為合理。
針對(duì)我國傳統(tǒng)《公路技術(shù)狀況評(píng)定標(biāo)準(zhǔn)》(JTG H20—2018)中PQI瀝青路面性能綜合評(píng)價(jià)模型的不足,本研究提出了支持向量機(jī)瀝青路面性能綜合評(píng)價(jià)模型。具體結(jié)論如下:
(1)支持向量機(jī)分類可應(yīng)用于瀝青路面的綜合性能評(píng)價(jià),其通過建立最優(yōu)超平面,尋找最優(yōu)解,可以很好地反映瀝青路面狀況。
(2)本研究提出了支持向量機(jī)路面性能評(píng)價(jià)模型訓(xùn)練集的確定方法,即利用等級(jí)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行訓(xùn)練。同時(shí)采用交叉驗(yàn)證、粒子群算法、遺傳算法3種優(yōu)化模型對(duì)最佳參數(shù)進(jìn)行尋優(yōu)。其中,交叉驗(yàn)證方法所得到的最佳參數(shù)準(zhǔn)確率最高為99.96%。
(3)以廣東省一條高速公路的23個(gè)養(yǎng)護(hù)路段為實(shí)例,通過與《標(biāo)準(zhǔn)》PQI評(píng)價(jià)結(jié)果進(jìn)行對(duì)比分析可知,支持向量機(jī)建立的評(píng)價(jià)模型更符合實(shí)際。