趙國武、劉濤、金磊、董磊、楊紀舉
(1.臨沂市公路事業(yè)發(fā)展中心,山東臨沂 276007;2.山東通維信息工程有限公司,山東濟南 250000;3.臨沂市公路事業(yè)發(fā)展中心郯城縣中心,山東臨沂 276037)
近些年,隨著車輛保有量持續(xù)增長,路面行車荷載也隨之急速增長,隨之帶來了瀝青路面使用壽命減少、使用性能下降的后果。及時科學(xué)預(yù)測并評價瀝青路面使用性能狀態(tài),是實現(xiàn)制定養(yǎng)護策略、保障瀝青路面使用和服務(wù)性能的關(guān)鍵[1]。目前,針對路面使用性能的評價多依賴于相關(guān)規(guī)范,未能充分挖掘路面性能使用指數(shù)和其他指數(shù)之間的關(guān)系?,F(xiàn)有的研究多通過多項式回歸的方法獲取路面性能使用指數(shù)的表征方式[2]。除此以外,相關(guān)權(quán)重系數(shù)僅通過道路等級確定,而非根據(jù)道路實際使用情況確定,如此將導(dǎo)致所得到的路面性能指數(shù)預(yù)測公式與實際數(shù)據(jù)貼合不緊密,魯棒性與泛化性能不強,無法較好地應(yīng)用于實際當中[3]。因此尋求一種貼合于道路實際使用情況的性能評價方法極為重要[4]。
為了解決上述問題,諸多學(xué)者做出了很多努力。張凱星等[5]以廣東省的道路數(shù)據(jù)為研究對象,通過采用BP 神經(jīng)網(wǎng)絡(luò),將路面結(jié)構(gòu)強度納入路面使用性能考量因素中,最終結(jié)果證明,通過此種方法可以在一定程度上對路面使用性能進行評價。張麗娟等[6]同樣以廣東省瀝青路面相關(guān)數(shù)據(jù)為研究對象,基于ARIMA 和支持向量機(SVM)算法構(gòu)建瀝青路面PCI 的預(yù)測模型,試驗結(jié)果表明,此兩種方法可以較好地對瀝青路面使用性能進行預(yù)測。孫鵬等[7]則是通過采用灰色預(yù)測模型,實現(xiàn)對瀝青路面使用性能指數(shù)PQI 的預(yù)測。相似的是,商博明等[8]以市政道路路面為研究對象,通過灰色馬爾可夫模型實現(xiàn)了對路面使用性能較為準確的預(yù)測??偟膩碚f,現(xiàn)在大多數(shù)瀝青路面使用性能預(yù)測多基于數(shù)學(xué)統(tǒng)計模型(層析分析法、灰色預(yù)測、粒子群算法等)以及機器學(xué)習模型(SVM、BPNN等),但是大多數(shù)研究僅是研究一種算法在路面使用性能預(yù)測上的表現(xiàn)如何,缺乏對多種算法對同一路面數(shù)據(jù)的橫向?qū)Ρ妊芯俊?/p>
綜上所述,本文以臨沂市瀝青路面數(shù)據(jù)為研究對象,基于概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network,PNN)和隨機森林(Random Forest,RF)構(gòu)建瀝青路面使用性能評價指數(shù)預(yù)測模型,并以整體預(yù)測準確率和子類別預(yù)測準確率為評價指標進行對比分析,以得到預(yù)測準確率較高的模型來解決瀝青路面使用性能指數(shù)PQI 的預(yù)測問題。
概率神經(jīng)網(wǎng)絡(luò)(PNN)模型是一種較為有效的預(yù)測神經(jīng)網(wǎng)絡(luò)模型,屬于前饋神經(jīng)網(wǎng)絡(luò),是徑向基網(wǎng)絡(luò)的一種變體。從本質(zhì)上說,此種網(wǎng)絡(luò)是一種自監(jiān)督網(wǎng)絡(luò),需要特定的標簽進行學(xué)習識別。相較于多層感知機,PNN 運行速度更快、準確度更高,更為重要的是對于異常值的敏感性更低??傮w而言,PNN 由四部分組成,即輸入層(Input),模式層(Pattern Layer),求和層(Summation Layer)以及輸出層(Output)。PNN的結(jié)構(gòu)如圖1所示。輸入層用于將所需要學(xué)習認知的數(shù)據(jù)傳入網(wǎng)絡(luò),模式層則用于計算所輸入數(shù)據(jù)的特征向量與其各自模式的匹配程度,即相似度。值得一提的是,模式層的神經(jīng)元個數(shù)是和輸入的數(shù)據(jù)樣本個數(shù)保持一致的。
圖1 PNN 的結(jié)構(gòu)圖
從上述描述及圖1 可知,輸入層和模式層之間通過某個高斯函數(shù)相連接,通過計算模式層和輸入層中各個神經(jīng)元之間的匹配程度并進行累加求和平均數(shù)學(xué)運算,最后可以預(yù)測出輸入數(shù)據(jù)的所屬類別。則PNN 的數(shù)學(xué)計算表達式可用式(1)進行表示
式(1)中:yg表示網(wǎng)絡(luò)的輸出值;lg表示g 類的數(shù)量;表示g 類的第i 個神經(jīng)元的第j 個數(shù)據(jù)。
隨機森林(RF)算法,屬于集成學(xué)習中的Bagging(也稱為Bootstrap Aggregation)的方法。RF 是基于決策樹而形成的一種有監(jiān)督學(xué)習算法。決策樹通過樹形結(jié)構(gòu),利用層層推理的方式學(xué)習輸入數(shù)據(jù)的關(guān)鍵特征,進而實現(xiàn)對關(guān)鍵類別的分類學(xué)習。從本質(zhì)上來講,決策樹是一種基于if-then-else 規(guī)則的有監(jiān)督學(xué)習算法。隨機森林算法就是基于眾多無關(guān)聯(lián)的決策樹,實現(xiàn)對數(shù)據(jù)的分類學(xué)習。具體來講,隨機森林即是通過組合多種分類器,以投票的方式結(jié)合多個分類器的預(yù)測結(jié)果,進而提升整體算法的預(yù)測魯棒性。總體來說,RF 的數(shù)據(jù)處理預(yù)測主要可以分為三個部分,其運行流程如圖2所示。
圖2 RF 運算示意圖
在RF 算法計算過程中,獲得一個可靠的預(yù)測結(jié)果的關(guān)鍵是選取典型的關(guān)鍵特征。其中,基尼系數(shù)是特征選擇的關(guān)鍵,基尼系數(shù)計算方法如式(2)所示。
式(2)中:p表示概率值;K表示某一類別。
本文以臨沂市2021年瀝青路面使用性能檢測數(shù)據(jù)為研究對象,進行兩種預(yù)測模型基于行駛質(zhì)量指數(shù)(RQI)、路面狀況指數(shù)(PCI)、路面車轍深度指數(shù)(RDI)、磨耗指數(shù)(PWI)以及跳車指數(shù)(PBI)5 種路面特征指數(shù)對路面使用性能指數(shù)(PQI)的預(yù)測準確率進行對比研究?,F(xiàn)對上述指數(shù)進行介紹。行駛質(zhì)量指數(shù)RQI:該指數(shù)主要用來反映路面的憑證情況,一般而言,路面的平整度會受到荷載、道路結(jié)構(gòu)、路面材料、外界環(huán)境等多種因素影響,之間的影響關(guān)系較為復(fù)雜。通過一些車載傳感器設(shè)備可以獲取路面平整度信息。路面狀況指數(shù)PCI:用來反映道路在服役過程中的損壞情況??傮w上來說,道路損壞可以分為兩種,即外部損壞和內(nèi)部損壞。該指數(shù)主要用來反映路面外部損壞程度。其量化方式主要通過車載攝像機拍攝路面情況,對圖中路面損壞情況進行分類統(tǒng)計并量化。車轍深度指數(shù)RDI:用來衡量路面在車輛反復(fù)荷載下的沉陷深度,是衡量路面舒適程度的重要指標。磨耗指數(shù)PWI:該指標主要用于反映路面的整體粗糙程度,可以對瀝青路面的表觀構(gòu)造微觀特征進行描述。該指標反映了路面的摩擦阻力、降噪能力等特性。跳車指數(shù)PBI:該指標從某種程度上反映了路面在服役過程中縱斷面的變化情況。
本文基于上述路面評價指標,通過實際數(shù)據(jù)構(gòu)建路面性能綜合評價指標的表達式。選取了臨沂市2021年的數(shù)據(jù)進行處理并構(gòu)建。初始得到的數(shù)據(jù)共有2140 條,通過刪除缺損、異常的數(shù)據(jù),最終可用的數(shù)據(jù)共有1220 條。基于PQI 數(shù)值大?。?~100)將其分為4 個類別,即優(yōu)、良、中、次,分別記為4、3、2、1。通過統(tǒng)計可以得出,各個類別下的數(shù)據(jù)各有847、314、56、3 個樣本。由于PQI 類別為1 的樣本數(shù)據(jù)過少,在使用模型進行分析預(yù)測的過程中,此類別無法充分學(xué)習其特征并得到準確可靠的預(yù)測結(jié)果,故本文將PQI類別為1 和2 的樣本數(shù)據(jù)合并,統(tǒng)一定為2。
通過基于本文1.1 和1.2 小節(jié)所述的PNN 和RF模型基本原理,基于Scikit-Learn 第三方庫,用Python 編程語言實現(xiàn)上述計算過程,最后所得的兩種預(yù)測模型結(jié)果如表1所示。
表1 RNN 和RF 模型對PQI 的預(yù)測準確率比較(2021年數(shù)據(jù))
從表1 結(jié)果可以得出,RF 模型在整體預(yù)測準確率上遠高于PNN 模型,其準確率高達99.67%。除此以外,兩種模型針對類別4 樣本,即PQI 指數(shù)為優(yōu)秀的類別樣本,預(yù)測準確率均達到了100%。而對于類別3 和類別2 的樣本數(shù)據(jù)(即PQI 指數(shù)為良和中)來說,PNN無法正確預(yù)測該兩種類別的樣本數(shù)據(jù),反觀RF 模型可以較為準確地進行預(yù)測,其準確率分別為98.61%和100%。
造成這種現(xiàn)象的原因可能是,在測試集中的類別2 和類別3 樣本數(shù)據(jù)過少,無法滿足PNN 模型對這兩種類別樣本數(shù)據(jù)的特征學(xué)習,進而不能進行較為準確的預(yù)測。另外,從這個結(jié)果還可以得到,RF 模型在小樣本數(shù)據(jù)上的敏感性要遠低于PNN 模型。
為了進一步對比驗證PNN 模型和RF 模型在PQI指數(shù)驗證上的預(yù)測魯棒性和模型泛化性能,本文隨機選取了臨沂市2019年共計200 組PQI 指數(shù)相關(guān)數(shù)據(jù)。使用上述基于2021年訓(xùn)練測試得到的相關(guān)模型,在此200 組數(shù)據(jù)上進行預(yù)測。各類別及整體準確率如表2所示。
表2 RNN 和RF 模型對PQI 的預(yù)測準確率比較(2019年數(shù)據(jù))
從表2 中不難看出,RF 模型在整體準確率上依舊優(yōu)于PNN 模型。兩種模型在類別4 樣本上均表現(xiàn)出較高的準確率,而在類別3 和類別2 樣本數(shù)據(jù)上,兩種模型表現(xiàn)依舊相同。從上述結(jié)果可以得出,PNN 模型和RF 模型在本測試集上具有較好的魯棒性和泛化性能。
本文以臨沂市瀝青路面使用性能相關(guān)數(shù)據(jù)為研究對象,通過PNN 模型和RF 模型分別進行了瀝青路面使用性能指數(shù)(PQI)預(yù)測對比研究,從中得出以下結(jié)論:第一,RF 模型相較PNN 模型具有較強的預(yù)測能力,整體預(yù)測準確率及單個類別預(yù)測準確率均較高;第二,RF 模型和PNN 模型均具有較好的魯棒性和泛化性能,對數(shù)據(jù)的敏感性較小;第三,PNN 模型相較RF 模型而言具有較強的樣本數(shù)量敏感性,易因樣本數(shù)據(jù)量多少影響其預(yù)測準確率。在之后的研究中,將收集更多數(shù)據(jù),使所建立的預(yù)測模型可以充分學(xué)習獲取PQI 指數(shù)特征信息。