摘要:為提高風(fēng)險預(yù)測系統(tǒng)的易用性和可解釋性,提出基于自組織映射網(wǎng)絡(luò)(SOM)改進(jìn)的即時學(xué)習(xí)(JITL)風(fēng)險預(yù)測框架。首先,應(yīng)用SOM對數(shù)據(jù)樣本進(jìn)行聚類,并對聚類特征進(jìn)行解釋。進(jìn)而,通過基于聚類結(jié)果的樣本選擇算法構(gòu)建待測數(shù)據(jù)的相似樣本集,在線上調(diào)用作為基學(xué)習(xí)器的支持向量機(jī)(SVM)進(jìn)行建模并輸出風(fēng)險預(yù)測結(jié)果。最后,采用一個交通事故數(shù)據(jù)集對風(fēng)險模型的性能進(jìn)行測試,檢驗(yàn)其精度、易用性和可解釋性。結(jié)果表明:采用SOM-JITL策略的SVM模型,受試者工作狀況曲線面積指標(biāo)達(dá)到0.720,相比不使用該策略的傳統(tǒng)SVM模型提高17.5%,精度較高;SOM-JITL模型構(gòu)建所需參數(shù)調(diào)節(jié)工作少,具有較好的易用性;此外,SOM聚類結(jié)果準(zhǔn)確識別出處于交通擁堵等高風(fēng)險場景,與現(xiàn)實(shí)場景一致,具有可解釋性。綜上,SOM-JITL策略能有效提高基學(xué)習(xí)器的性能,達(dá)到精度、可解釋性和易用性的平衡,有助于以低成本大規(guī)模推廣風(fēng)險預(yù)測系統(tǒng)。
關(guān)鍵詞:機(jī)器學(xué)習(xí);風(fēng)險預(yù)測;易用性;可解釋性;即時學(xué)習(xí);自組織映射
中圖分類號:U491.3.文獻(xiàn)標(biāo)志碼:A
DOI:10.7652/xjtuxb202405020.文章編號:0253-987X(2024)05-0212-09
A Risk Prediction Framework Based on Self-Organizing Mapping and
Just-in-Time-Learning Considering Usability and Interpretability
Abstract:To enhance the usability and interpretability of risk prediction system, a traffic risk prediction framework based on just-in-time learning (JITL) improved via self-organizing mapping (SOM) is proposed. Firstly, SOM is applied for clustering the data samples and interpreting the clustering features. Then, a sample selection algorithm based on clustering results is used to construct a similar sample set for the data to be tested, and the support vector machine (SVM), which is the base learner, is invoked online to model and output the risk prediction results. Lastly, the model performance is tested using a traffic flow-crash dataset to evaluate interpretability and accuracy. The results show that the area under receiver operating characteristic curve of the SVM model using the SOM-JITL strategy reaches 0.720, which is 17.5% higher than that of the traditional SVM model without the strategy. The SOM-JITL requires less parameter adjustment, and has better usability. In addition, the clustering results of the SOM-JITL accurately identify high-risk scenarios, such as traffic congestion, which is consistent with realistic scenarios and has interpretability. In summary, the SOM-JITL can effectively enhance the performance of the base learner, and endow the model with balance among accuracy, interpretability and usability, facilitating the cost-effective and large-scale deployment of risk prediction systems.
Keywords:machine learning; risk prediction; usability; interpretability; just-in-time learning; self-organized map
風(fēng)險預(yù)測深入生產(chǎn)生活的各方面,為了防止事故發(fā)生,許多領(lǐng)域都已建立了特定的風(fēng)險預(yù)測模型,為相關(guān)事業(yè)的安全穩(wěn)定做出了巨大貢獻(xiàn)。在醫(yī)學(xué)領(lǐng)域,已形成多項(xiàng)疾病的風(fēng)險預(yù)測應(yīng)用[1];在金融領(lǐng)域,大量針對企業(yè)破產(chǎn)和個人信用的風(fēng)險評估指導(dǎo)著銀行制定合理的投資方案[2];在交通領(lǐng)域,預(yù)測系統(tǒng)實(shí)時監(jiān)測著風(fēng)險因子的變化以規(guī)避交通事故的發(fā)生[3]。為了獲得更可靠的風(fēng)險預(yù)測系統(tǒng),在過去的研究中,以計(jì)量經(jīng)濟(jì)學(xué)模型為基礎(chǔ)的各類風(fēng)險預(yù)測模型被廣泛應(yīng)用,包括Logistics模型[4]、貝葉斯方法[5]等,此類模型針對風(fēng)險致因的相關(guān)性進(jìn)行研究,易于理解,但普遍存在識別精度相對較低的問題。隨著智能算法和數(shù)據(jù)采集技術(shù)的快速發(fā)展,已有多個領(lǐng)域開始采集大量系統(tǒng)正常運(yùn)行和處于故障時的數(shù)據(jù),并使用機(jī)器學(xué)習(xí)對行業(yè)內(nèi)出現(xiàn)的事故風(fēng)險進(jìn)行預(yù)測和評估[6]。以深度學(xué)習(xí)為代表的復(fù)雜機(jī)器學(xué)習(xí)模型隨后也被引入事故風(fēng)險的研究中[7],進(jìn)一步提高了風(fēng)險預(yù)測的精度。
風(fēng)險預(yù)測模型的可解釋性是能否執(zhí)行管理決策的依據(jù)。深度學(xué)習(xí)框架作為黑箱模型帶來的低可解釋性容易造成法律上的責(zé)任歸屬不明確[8],從而限制風(fēng)險預(yù)測系統(tǒng)的應(yīng)用。已有學(xué)者對可解釋機(jī)器學(xué)習(xí)展開研究[9],提出利用特征重要度或代理模型對變量的影響進(jìn)行分析,并將解釋結(jié)果和現(xiàn)實(shí)場景進(jìn)行對比,以此檢驗(yàn)?zāi)P偷目山忉屝裕?0]。另一方面,深度學(xué)習(xí)模型的建立需要復(fù)雜的訓(xùn)練和參數(shù)調(diào)試知識。對于不同數(shù)據(jù)集,往往需要專家重新進(jìn)行調(diào)參訓(xùn)練才能投入使用[11],所訓(xùn)練的模型無法大規(guī)模推廣,成本耗費(fèi)高昂,易用性不強(qiáng)。因此,亟需提出新的風(fēng)險預(yù)測模型達(dá)到精度、解釋能力和易用性3者間的平衡,理想模型應(yīng)該同時具有場景識別和短時風(fēng)險預(yù)測的功能[12],且不需要復(fù)雜的算法參數(shù)調(diào)節(jié)知識就能完成模型建立并投入使用。
基于以上目標(biāo),本文提出基于自組織映射聚類(SOM)改進(jìn)的即時學(xué)習(xí)策略(JITL),以支持向量機(jī)(SVM)作為基學(xué)習(xí)器,結(jié)合SOM-JITL構(gòu)建風(fēng)險預(yù)測框架,旨在完成風(fēng)險場景識別和短時風(fēng)險預(yù)測[13],同時賦予模型高精度、可解釋性和易用性。本研究的貢獻(xiàn)主要在于:采用SOM聚類完成場景識別,實(shí)現(xiàn)了模型可解釋性的提升;利用即時學(xué)習(xí)策略提高了模型易用性和基學(xué)習(xí)器精度;采用交通事故數(shù)據(jù)集對建立的SOM-JITL-SVM模型進(jìn)行測試,通過對比各個基線方法的性能指標(biāo),驗(yàn)證SOM-JITL策略為風(fēng)險預(yù)測模型帶來的有益提升。
1.模型算法
1.1.改進(jìn)的自組織映射-即時學(xué)習(xí)算法
JITL的基本思想是將傳統(tǒng)“離線建模、線上工作”的模式轉(zhuǎn)變?yōu)椤熬€上同時建模和工作”。傳統(tǒng)模型是在系統(tǒng)訓(xùn)練完成后提供用戶使用,JITL是在線上同時建立模型和實(shí)現(xiàn)用戶需求,兩者的工作流程對比如圖1所示。JITL首先將所有已有樣本存儲在歷史樣本數(shù)據(jù)庫中,當(dāng)用戶提交測試需求時,通過預(yù)設(shè)規(guī)則選擇待測數(shù)據(jù)小鄰域范圍內(nèi)的樣本,建立相似樣本子集,再使用相似樣本子集在線上進(jìn)行建模和結(jié)果輸出。在輸出結(jié)果后,當(dāng)前模型將被立刻舍棄,為一次性使用的模型。與傳統(tǒng)建模策略相比,JITL可以有效地處理樣本差異性較大的分類問題,提升傳統(tǒng)方法難以解決的不平衡分類問題的準(zhǔn)確度[14]。
在采用JITL策略并應(yīng)用基學(xué)習(xí)器進(jìn)行建模前,需根據(jù)數(shù)據(jù)之間的相似度在歷史樣本數(shù)據(jù)庫中挑選出相似樣本子集。相似度的計(jì)算方法可以使用歐氏距離、漢明距離、曼哈頓距離等[15],多數(shù)文獻(xiàn)使用基于歐氏距離的K近鄰方法。但是,使用K近鄰方法需要提前預(yù)設(shè)待選樣本數(shù)量,過少的樣本數(shù)量會使樣本子集的信息缺失,過多的數(shù)量會引入噪聲,都會影響建模質(zhì)量。因此,本文提出基于SOM聚類結(jié)果的改進(jìn)JITL樣本子集構(gòu)建算法。
SOM是一種用于聚類和特征提取的神經(jīng)網(wǎng)絡(luò)無監(jiān)督學(xué)習(xí)算法。對于具有K個樣本的向量組X=[x1,x2,…,xK],SOM將其映射到具有指定神經(jīng)元(簇)拓?fù)浣Y(jié)構(gòu)的二維空間中,為探索最佳的神經(jīng)元數(shù)量,在建模時將使用多組網(wǎng)絡(luò)結(jié)構(gòu)對比其性能。
SOM的訓(xùn)練過程采用勝者通吃的激活機(jī)制,每一次比較輸入向量和神經(jīng)元向量(簇心)的歐氏距離,與輸入向量相似性最大的神經(jīng)元獲勝,并對周圍鄰域的神經(jīng)元權(quán)值進(jìn)行更新。權(quán)值w的更新公式為
w←w+ηh(d)(x-w)(1)
式中:η是學(xué)習(xí)率;h(·)是衰減函數(shù),在實(shí)際應(yīng)用中常使用高斯函數(shù);d是激活神經(jīng)元和其他神經(jīng)元之間的距離,一般為在網(wǎng)絡(luò)結(jié)構(gòu)中的坐標(biāo)距離。
在完成歷史樣本數(shù)據(jù)的SOM聚類后,當(dāng)輸入待測樣本時,判斷待測樣本所屬的SOM簇,再根據(jù)該SOM簇的相似簇心構(gòu)造相似簇集合,進(jìn)一步根據(jù)子簇心的相似簇心擴(kuò)大相似簇集合,以此循環(huán)。將所屬相似簇集合的歷史樣本作為相似樣本子集,相似簇心的判別條件可使用簇心距離集合的均值或25%分位值,具體算法如下。
算法1:基于SOM聚類結(jié)果的JITL相似樣本子集構(gòu)造
輸入:SOM簇編號集合I={1,2,…,N},SOM簇心向量W={wi,i=I},SOM簇心距離矩陣D={dij,i=I,j=I},SOM簇心鄰接矩陣A={aij,i=I,j=I},歷史樣本集H={xq,q=1,2,…},待測數(shù)據(jù)xp
輸出:待測數(shù)據(jù)xp的相似樣本子集S
1.2.基學(xué)習(xí)器:支持向量機(jī)
SVM是一個經(jīng)典而高效的分類器,其通過搜索支持向量并構(gòu)造它們的線性或非線性組合來確定分類超平面[16]。采用SVM作為SOM-JITL策略的基學(xué)習(xí)器,優(yōu)勢在于SVM超參數(shù)較少,便于調(diào)校投入使用。在后續(xù)建模測試中,僅使用SVM建模的推薦參數(shù)。一個典型的非線性SVM可以被定義為
F(x)=sgn (∑a*iyiK(x,xi)+b*)(2)
式中:a*i是優(yōu)化后拉格朗日乘子;yi是支持向量的類別;K(x,xi)為核函數(shù);xi為支持向量;b*為截距。
1.3.基線:極端梯度提升
XGBoost在梯度提升樹的基礎(chǔ)上進(jìn)行了大量改進(jìn),被認(rèn)為在分類和回歸問題上都具有極高的性能,在交通事故風(fēng)險預(yù)測中也有較多應(yīng)用[17]。XGBoost代表復(fù)雜機(jī)器學(xué)習(xí)在本文中成為基線,在建模測試中調(diào)用python的XGBoost庫實(shí)現(xiàn)該模型,其超參數(shù)較多,參數(shù)調(diào)試過程較為復(fù)雜,通常需要反復(fù)調(diào)試以避免過擬合的情況發(fā)生。
1.4.超參數(shù)選取
采用貪心算法對XGBoost超參數(shù)進(jìn)行調(diào)節(jié),即在參數(shù)的推薦值范圍內(nèi)逐個嘗試,當(dāng)一個參數(shù)調(diào)至最優(yōu)時,再進(jìn)行下一個參數(shù)的優(yōu)化,簡要的算法流程如下所示。
算法2:基于貪心算法的機(jī)器學(xué)習(xí)超參數(shù)優(yōu)化
輸入:待優(yōu)化超參數(shù)數(shù)組A={a1,a2,…,an},訓(xùn)練數(shù)據(jù)集T={(xj,yj)},待優(yōu)化超參數(shù)取值上下限U={u1,u2,…,un},D={d1,d2,…,dn},使用超參數(shù)數(shù)組A進(jìn)行訓(xùn)練的學(xué)習(xí)器y=fA(X)
輸出:優(yōu)化的超參數(shù)數(shù)組A*={a*1,a*2,…,a*n}
本實(shí)驗(yàn)中選用的SVM默認(rèn)參數(shù)和優(yōu)化后的XGBoost主要參數(shù)值可直接參考表1。
2.測試數(shù)據(jù)
2.1.數(shù)據(jù)集構(gòu)造
本研究旨在通過和現(xiàn)實(shí)場景進(jìn)行比對來驗(yàn)證可解釋性,因此選擇基于實(shí)際工程背景的交通事故數(shù)據(jù)集進(jìn)行測試。原始數(shù)據(jù)為浙江杭州上塘快速路2015年3個月間的交通流和事故記錄。交通流記錄包括傳感器每5 min內(nèi)記錄一次該時段內(nèi)的斷面交通量、平均車速和車道占有率。事故記錄由公安交警部門提供,共包括123起事故。為對事故風(fēng)險進(jìn)行提前預(yù)警,對每一起事故,將事故點(diǎn)所在路段上下游傳感器采集的前5~10 min內(nèi)的交通量、占有率和車速數(shù)據(jù)作為特征變量,共6個自變量。
交通事故相對于正常行駛狀態(tài)是稀有事件,使用全樣本數(shù)據(jù)集容易導(dǎo)致數(shù)據(jù)不平衡問題[18]。目前在風(fēng)險預(yù)測研究中,普遍采用病例對照法來構(gòu)造數(shù)據(jù)集[19],通過對每一個病例(事故)選取一定數(shù)量的正常樣本作為對照組,能在平衡數(shù)據(jù)樣本的同時探索病例(事故)的影響因素。因此,本研究參考病例對照法,對每條事故數(shù)據(jù),隨機(jī)選擇了相同觀測路段、相同時間、不同日期的3條非事故數(shù)據(jù)進(jìn)行匹配,并作相應(yīng)的特征變量計(jì)算,最終數(shù)據(jù)集共計(jì)492條數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)及變量描述見表2。
在使用表2交通事故數(shù)據(jù)集進(jìn)行性能測試時,對傳統(tǒng)的建模方法,依舊劃分訓(xùn)練集和測試集,兩個集合的數(shù)據(jù)比例為75%和25%,且兩個集合中事故數(shù)據(jù)和非事故數(shù)據(jù)的比例仍控制在約1∶3??紤]到JITL策略獨(dú)特的“用后即棄”模型使用方法,為保持模型評價時精度指標(biāo)的一致性,所有應(yīng)用JITL策略的方法使用75%的數(shù)據(jù)作為歷史樣本數(shù)據(jù),25%的數(shù)據(jù)作為測試數(shù)據(jù)。
2.2.精度評價指標(biāo)
杭州事故測試數(shù)據(jù)集為典型的二分類問題數(shù)據(jù)集,當(dāng)模型輸出為連續(xù)值時,使用受試者工作狀況(ROC)曲線下的面積Auc來表征模型的綜合精度。ROC曲線為在不同分類閾值t下以假陽性率Rfp為橫坐標(biāo)、真陽性率Rtp為縱坐標(biāo)描畫的曲線。假陽性率代表有多少正常狀況被誤檢為險情,真陽性率代表有多少險情被正確識別,其分類混淆矩陣見表3,計(jì)算方法如下
式中:nTP、nFP為真陽性、假陽性案例數(shù)量;nTN、nFN為真陰性、假陰性案例數(shù)量。
顯然一個高精度的模型應(yīng)當(dāng)具有低假陽性率和高真陽性率,此時ROC曲線會更飽滿,相應(yīng)Auc指標(biāo)更高。
通過調(diào)整不同的分類閾值,可以在容許更高假陽性率的前提下提高模型的真陽性率,采用最大約登指數(shù)yd作為最終分類閾值,即ROC曲線上的縱坐標(biāo)與橫坐標(biāo)之差最大時對應(yīng)的分類閾值,并采用F1分?jǐn)?shù)指標(biāo)Fscore綜合評價此時的模型性能,兩者計(jì)算公式如下
3.結(jié)果和討論
分別使用SVM、XGBoost、JITL-SVM和SOM-JITL-SVM模型在事故數(shù)據(jù)集上對風(fēng)險進(jìn)行預(yù)測,各模型選擇參數(shù)后的性能測試結(jié)果如表4所示。從模型的Auc和Fscore指標(biāo)項(xiàng)可以發(fā)現(xiàn),直接使用SVM模型進(jìn)行風(fēng)險預(yù)測效果不佳;在應(yīng)用了JITL策略后,性能得到提升,Auc指標(biāo)達(dá)到0.648;當(dāng)聯(lián)合應(yīng)用SOM-JITL策略時,Auc指標(biāo)為0.720,較SVM提升17.5%,較JITL-SVM提升11.1%,其Auc和Fscore指標(biāo)在各個模型中均表現(xiàn)最好,此時模型能正確識別77.4%的險情,誤報率為37%。
在易用性方面,SOM-JITL-SVM模型僅需確定使用的聚類網(wǎng)絡(luò)結(jié)構(gòu),XGBoost則需要專家知識確認(rèn)超參數(shù)優(yōu)化的上、下限,并使用貪心算法優(yōu)化超參數(shù)值。結(jié)合兩者的精度性能,SOM-JITL-SVM的調(diào)參過程更簡單,精度能達(dá)到甚至超過XGBoost的水平,因此SOM-JITL-SVM具有更好的易用性。
此外,根據(jù)每一次待測數(shù)據(jù)從輸入到風(fēng)險結(jié)果輸出的耗時,計(jì)算了各模型的平均預(yù)測時間。由表4耗時項(xiàng)可知,由于JITL策略是線上建模并輸出結(jié)果,對比傳統(tǒng)模型增加了訓(xùn)練模型所需的時間,但平均每一次預(yù)測用時都能控制在0.543 ms左右,考慮硬件性能和冗余,SOM-JITL的計(jì)算耗時能滿足短時風(fēng)險預(yù)測的時效性需要。
下面,將具體論述SOM-JITL的精度性能、易用性和可解釋性。
3.1.精度性能討論
在SOM-JITL-SVM模型中,對多組SOM網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行測試,從2×1結(jié)構(gòu)遍歷至7×7,共比較27個網(wǎng)絡(luò)結(jié)構(gòu)的模型精度,每種結(jié)構(gòu)進(jìn)行30次實(shí)驗(yàn),以多次實(shí)驗(yàn)Auc指標(biāo)的均值為中心、標(biāo)準(zhǔn)差為長度繪制誤差棒,結(jié)果如圖2所示。
由圖2易發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)為4×2時,模型Auc的均值最高,達(dá)到0.720,標(biāo)準(zhǔn)誤差為0.015,在可接受范圍內(nèi)。因此,選擇4×2網(wǎng)絡(luò)結(jié)構(gòu)、Auc為0.720的SOM-JITL-SVM模型作為代表。
圖2中Auc均值隨網(wǎng)絡(luò)結(jié)構(gòu)的變化而波動。性能穩(wěn)定、Auc均值較高且標(biāo)準(zhǔn)差較小的網(wǎng)絡(luò)結(jié)構(gòu)有3×1、 3×2、 3×3、 4×2、 5×2、 7×1,其神經(jīng)元數(shù)量均在3~10之間,每個神經(jīng)元命中的樣本數(shù)量期望為30~100,考慮到SOM相似樣本集選取算法會使多個簇聚為一類,實(shí)際每個類別的樣本會比期望值更多。
在JITL-SVM模型中采用了K近鄰相似樣本選擇法,即選取相似樣本的比例為原始數(shù)據(jù)集中歐氏距離最小的前10%、20%和30%個樣本,構(gòu)造相似樣本子集訓(xùn)練。最終實(shí)驗(yàn)結(jié)果表明,選擇前20%的相似樣本所獲得的效果最佳,與SOM聚類的樣本數(shù)量結(jié)果類似。即在JITL構(gòu)建相似樣本子集時,控制相似樣本集大小在30~140之間可以獲得最佳性能[20],可以根據(jù)不同的基學(xué)習(xí)器微調(diào)樣本集大小,但低于或超過這個范圍的性能都會存在較大波動。故SOM網(wǎng)絡(luò)中的神經(jīng)元數(shù)量N應(yīng)大致滿足與歷史樣本數(shù)M的如下關(guān)系
綜上,在精度要求上,SOM-JITL策略實(shí)現(xiàn)了基學(xué)習(xí)器性能的較大提升,所形成的風(fēng)險預(yù)測模型達(dá)到和復(fù)雜機(jī)器學(xué)習(xí)一致的水平。
3.2.易用性討論
在建模過程中,SOM-JITL-SVM使用基學(xué)習(xí)器的默認(rèn)參數(shù),僅在SOM的網(wǎng)絡(luò)結(jié)構(gòu)配置上進(jìn)行了一次參數(shù)調(diào)節(jié),實(shí)際應(yīng)用時可以按式(7)推算。
在采用XGBoost算法進(jìn)行數(shù)據(jù)集測試時,遵循算法2,采用貪心算法進(jìn)行求解最優(yōu)超參數(shù)。使用初始參數(shù)時,訓(xùn)練集Auc指標(biāo)接近1,測試集Auc僅為0.6,形成巨大的訓(xùn)練測試集指標(biāo)差,顯然XGBoost在訓(xùn)練集上過擬合。進(jìn)行超參數(shù)調(diào)節(jié)后,模型Auc指標(biāo)的訓(xùn)練測試集指標(biāo)差為0.139,不再過擬合。如更換數(shù)據(jù)集,則需要再次進(jìn)行上述過程。
結(jié)合表4的模型精度對比結(jié)果,SOM-JITL策略極大地簡化了機(jī)器學(xué)習(xí)模型的參數(shù)調(diào)試過程,使利用較少的調(diào)參知識完成風(fēng)險預(yù)測建模成為可能。在考慮模型易用性并有較高精度需求時,SOM-JITL策略是一種行而有效的方法。
3.3.可解釋性討論
在驗(yàn)證了SOM-JITL的精度性能和易用性后,需進(jìn)一步對其在機(jī)器學(xué)習(xí)范疇內(nèi)的可解釋性進(jìn)行討論,以確定SOM-JITL的普適和易用性是從數(shù)據(jù)中自發(fā)學(xué)習(xí)風(fēng)險特征得到,而不是通過一個復(fù)雜的過擬合過程產(chǎn)生。
以3.1中獲得的4×2網(wǎng)絡(luò)結(jié)構(gòu)的SOM-JITL-SVM模型為例,討論模型可解釋性。該模型中SOM簇心鄰接權(quán)重如圖3所示,權(quán)重顏色越深代表兩個簇心的距離越大,算法將距離較近的1、2、6號簇心連接為一個類(1-2-6),其余簇心單獨(dú)成一個類。按每一類別內(nèi)的事故數(shù)和樣本數(shù)比值計(jì)算事故率,按事故率升序排列得到從風(fēng)險等級Ⅰ到Ⅵ的6類交通運(yùn)行場景。表5描述了SOM在杭州上塘快速路上識別的6類交通運(yùn)行場景,以及每個場景的交通流和事故率特征。
由表5可知,第Ⅴ類和第Ⅵ類場景的事故率最高,事故數(shù)超過其他4類總和的兩倍,需重點(diǎn)分析。第Ⅴ類交通場景的特征是上下游交通量差距較大,且交通量和運(yùn)行速度都隨著車輛的前進(jìn)逐步升高,但車道占有率并沒有改變。檢查原始數(shù)據(jù)的采集編號可定位此類場景是典型的車輛合流區(qū)[21-22],在合流過程中交通運(yùn)行復(fù)雜,易發(fā)生事故。雖然第Ⅰ類場景也存在類似的交通量和速度增大、車道占有率不變的特征,但其速度更接近運(yùn)行限速[23],是交通量總體較小、路況良好的自由流狀態(tài)。第Ⅵ類場景的上下游車道占有率極大提高而速度顯著下降,該情況發(fā)生在擁堵的分流區(qū),車道數(shù)減少但交通量未明顯減少[24],會頻繁發(fā)生超車、別車、加塞等不良駕駛行為,導(dǎo)致事故高發(fā)。由第Ⅴ類和第Ⅵ類的高風(fēng)險特征,結(jié)合第Ⅳ類場景的車道占有率顯著高于第Ⅰ、第Ⅱ、第Ⅲ類且第Ⅳ類事故率也較高的現(xiàn)象可以得出,高車道占有率的交通運(yùn)行狀況是事故多發(fā)場景[25],應(yīng)重點(diǎn)排查在交織區(qū)路段高車道占有率情況下的風(fēng)險隱患,與現(xiàn)實(shí)場景一致。
綜上,不同于傳統(tǒng)機(jī)器學(xué)習(xí)模型的事后解釋,SOM-JITL將變量解釋工作遷移到建模之前,最大限度地保留了數(shù)據(jù)信息,易于理解,擁有良好的可解釋性,同時增強(qiáng)了SOM-JITL模型的易用性和實(shí)用性。如圖4所示,SOM的聚類結(jié)果可作為風(fēng)險評估的初步結(jié)論、JITL-SVM的預(yù)測值可作為精細(xì)化評估結(jié)論,形成兩階段、多層次的風(fēng)險評估流程。
4.結(jié).論
考慮精度、可解釋性和易用性的平衡,本文提出了基于自組織映射改進(jìn)即時學(xué)習(xí)策略(SOM-JITL)的風(fēng)險預(yù)測框架,采用交通事故數(shù)據(jù)集作為實(shí)例分析,主要結(jié)論如下。
(1)在交通事故數(shù)據(jù)集的測試中,應(yīng)用了SOM-JITL策略的SVM基學(xué)習(xí)器性能得到大幅提高。與不使用該策略的傳統(tǒng)SVM模型相比,Auc指標(biāo)提高17.5%達(dá)到0.720,能夠正確識別77%的高風(fēng)險警情,達(dá)到和復(fù)雜機(jī)器學(xué)習(xí)XGBoost模型一致的水平,具有較高的精度;單次運(yùn)行時間為0.543 ms,亦滿足短時預(yù)測時效性的要求。
(2)SOM-JITL策略的參數(shù)調(diào)試簡單,易于使用,作為其基學(xué)習(xí)器的SVM模型僅使用默認(rèn)推薦參數(shù),性能即達(dá)到和進(jìn)行了較復(fù)雜調(diào)參的XGBoost模型一致的水平。SOM-JITL策略的參數(shù)調(diào)試工作主要是選擇SOM網(wǎng)絡(luò)結(jié)構(gòu),本文提出了神經(jīng)元數(shù)量估算公式以簡化該過程,當(dāng)每個神經(jīng)元的期望樣本數(shù)量在30~150時,SOM-JITL策略能達(dá)到較高的性能,以此實(shí)現(xiàn)了SOM-JITL策略的良好易用性。
(3)SOM-JITL策略在建模前采用SOM對數(shù)據(jù)進(jìn)行聚類分析,完成風(fēng)險場景識別,在事故數(shù)據(jù)集中,SOM聚類結(jié)果表明,高車道占有率場景下的事故率顯著提高,擁堵狀態(tài)下的合流、分流區(qū)更容易發(fā)生交通事故,與實(shí)際相符。這表明SOM-JITL策略具有良好可解釋性,能夠快速學(xué)習(xí)數(shù)據(jù)中的風(fēng)險特征。
(4)SOM-JITL策略結(jié)合不同的基學(xué)習(xí)器實(shí)現(xiàn)了風(fēng)險預(yù)測框架的高精度、可解釋性和易用性的平衡,適用于各領(lǐng)域內(nèi)的風(fēng)險預(yù)測問題。但是,本研究僅對風(fēng)險的預(yù)測預(yù)警進(jìn)行了討論,尚未考慮發(fā)現(xiàn)風(fēng)險后的主動防控措施,這是未來研究中進(jìn)一步提高SOM-JITL風(fēng)險預(yù)測框架應(yīng)用價值的研究方向。
參考文獻(xiàn):
[1]NADARAJAH R, YOUNSI T, ROMER E, et al. Prediction models for heart failure in the community: a systematic review and meta-analysis [J]. European Journal of Heart Failure, 2023, 25(10): 1724-1738.
[2]ZELENKOV Y, FEDOROVA E, CHEKRIZOV D. Two-step classification method based on genetic algorithm for bankruptcy forecasting [J]. Expert Systems with Applications, 2017, 88: 393-401.
[3]YU Le, DU Bowen, HU Xiao, et al. Deep spatio-temporal graph convolutional network for traffic accident prediction [J]. Neurocomputing, 2021, 423: 135-147.
[4]HUO Xiaoyan, LENG Junqiang, LUO Lijun, et al. A mixed logit model with mean-variance heterogeneity to investigate factors of crash occurrence [J]. International Journal of Injury Control and Safety Promotion, 2021, 28(3): 301-308.
[5]KAMEL A, SAYED T, FU Chuanyun. Real-time safety analysis using autonomous vehicle data: a Bayesian hierarchical extreme value model [J]. Transportmetrica: B.Transport Dynamics, 2023, 11(1): 826-846.
[6]CHEN T K, LIAO H H, CHEN Gengdao, et al. Bankruptcy prediction using machine learning models with the text-based communicative value of annual reports [J]. Expert Systems with Applications, 2023, 233: 120714.
[7]BRITO M P, STEVENSON M, BRAVO C. Subjective machines: Probabilistic risk assessment based on deep learning of soft information [J]. Risk Analysis, 2023, 43(3): 516-529.
[8]KRAFFT T D, ZWEIG K A, KNIG P D. How to regulate algorithmic decision-making: a framework of regulatory requirements for different applications [J]. Regulation amp; Governance, 2022, 16(1): 119-136.
[9]KHATTAK A, CHAN P W, CHEN Feng, et al. Interpretable ensemble imbalance learning strategies for the risk assessment of severe-low-level wind shear based on LiDAR and PIREPs [J/OL]. Risk Analysis, 2023[2023-07-12]. https://doi.org/10.1111/risa.14215.
[10]BOSTROM A, DEMUTH J L, WIRZ C D, et al. Trust and trustworthy artificial intelligence: a research agenda for AI in the environmental sciences [J/OL]. Risk Analysis, 2023[2023-07-12]. https://doi.org/10.1111/risa.14245.
[11]MANNERING F, BHAT C R, SHANKAR V, et al. Big data, traditional data and the tradeoffs between prediction and causality in highway-safety analysis [J]. Analytic Methods in Accident Research, 2020, 25: 100113.
[12]GUTIERREZ-OSORIO C, PEDRAZA C. Modern data sources and techniques for analysis and forecast of road accidents: a review [J]. Journal of Traffic and Transportation Engineering(English Edition), 2020, 7(4): 432-446.
[13]楊文臣, 周燕寧, 田畢江, 等. 基于聚類分析和SVM的二級公路交通事故嚴(yán)重度預(yù)測 [J]. 中國安全科學(xué)學(xué)報, 2022, 32(5): 163-169.
YANG Wenchen, ZHOU Yanning, TIAN Bijiang, et al. Traffic accident severity prediction for secondary highways based on cluster analysis and SVM model [J]. China Safety Science Journal, 2022, 32(5): 163-169.
[14]QI Long, LIU Hui, XIONG Qian, et al. Just-in-time-learning based prediction model of BOF endpoint carbon content and temperature via vMF mixture model and weighted extreme learning machine [J]. Computers amp; Chemical Engineering, 2021, 154: 107488.
[15]ZHAO Dan, PAN Tianhong, SHENG Biqi. Just-in-time learning algorithm using the improved similarity index [C]//2016 35th Chinese Control Conference (CCC). Piscataway, NJ, USA: IEEE, 2016: 9065-9068.
[16]WANG Ling, ABDEL-ATY M, LEE J, et al. Analysis of real-time crash risk for expressway ramps using traffic, geometric, trip generation, and socio-demographic predictors [J]. Accident Analysis amp; Prevention, 2019, 122: 378-384.
[17]PARSA A B, MOVAHEDI A, TAGHIPOUR H, et al. Toward safer highways, application of XGBoost and SHAP for real-time accident detection and feature analysis [J]. Accident Analysis amp; Prevention, 2020, 136: 105405.
[18]PARSA A B, TAGHIPOUR H, DERRIBLE S, et al. Real-time accident detection: coping with imbalanced data [J]. Accident Analysis amp; Prevention, 2019, 129: 202-210.
[19]LI Qianwen, YAO Handong, LI Xiaopeng. A matched case-control method to model car-following safety [J]. Transportmetrica: A.Transport Science, 2023, 19(3): 2055198.
[20]ZHOU Ping, CHEN Weiqi, YI Chengming, et al. Fast just-in-time-learning recursive multi-output LSSVR [JP+3]for quality prediction and control of multivariable dynamic systems [J]. Engineering Applications of Artificial Intelligence, 2021, 100: 104168.
[21]ZHENG Qikang, XU Chengcheng, LIU Pan, et al. Investigating the predictability of crashes on different freeway segments using the real-time crash risk models [J]. Accident Analysis amp; Prevention, 2021, 159: 106213.
[22]SHI Qi, ABDEL-ATY M. Big data applications in real-time traffic operation and safety monitoring and improvement on urban expressways [J]. Transportation Research: Part C.Emerging Technologies, 2015, 58, Part B: 380-394.
[23]YU Rongjie, QUDDUS M, WANG Xuesong, et al. Impact of data aggregation approaches on the relationships between operating speed and traffic safety [J]. Accident Analysis amp; Prevention, 2018, 120: 304-310.
[24]YANG Kui, WANG Xuesong, YU Rongjie. A Bayesian dynamic updating approach for urban expressway real-time crash risk evaluation [J]. Transportation Research: Part C.Emerging Technologies, 2018, 96: 192-207.
[25]陳豐, 張婷, 黃雅迪, 等. 越江越海隧道入口段追尾事故風(fēng)險預(yù)測模型研究 [J]. 交通運(yùn)輸系統(tǒng)工程與信息, 2021, 21(6): 167-175.
CHEN Feng, ZHANG Ting, HUANG Yadi, et al. Rear-end crash risk prediction model on entrance section of cross-river and cross-sea tunnels [J]. Journal of Transportation Systems Engineering and Information Technology, 2021, 21(6): 167-175.