摘 要:為了快速預測道路交通事故中乘員的頭部損傷風險,求解副駕駛乘員頭部損傷與影響因素之間的關系,構建一種基于Stacking集成學習的乘員損傷預測模型。選用Yaris為研究車型,研究工況為正面碰撞,以主車車輛碰撞初速度、從車碰撞初速度、碰撞角度、碰撞重疊率為輸入,以副駕駛乘員的頭部簡明傷害等級(AIS)為輸出。結果表明,Stacking算法預測模型有良好的測試效果,其測試準確率達到90%,并且預測效果優(yōu)于4種常見機器學習算法(KNN、SVM、DT和ANN)和2種代表性集成學習(Bagging、Boosting)算法。
關鍵詞:損傷預測 Stacking集成學習 THUMS模型 副駕駛乘員頭部損傷
汽車正面碰撞是最常見的交通事故之一,正面碰撞的試驗方法包括全寬碰撞、偏置碰撞和角度碰撞[1]。當交通事故發(fā)生時,能夠快速得到乘員損傷情況顯得尤為重要。目前車輛碰撞自動呼救系統(tǒng)(AACN)中的主要算法之一就是乘員損傷預測模型,因此如何提高模型的準確度成為了當下學者們的研究熱點,其預測結果的準確度直接影響后續(xù)的救治流程。
美國通用汽車公司的Kononen等人最早提出了Logistic回歸模型來預測乘員損傷程度[2]。日本本田研發(fā)有限公司的Yoshida等人在Kononen等人基礎上,采集日本近十年的交通事故數據,然后對這些數據進行Logistic回歸方程,并用剩下的交通事故數據驗證了該模型的準確性[3]。Ejima,S等人使用邏輯回歸模型開發(fā)了AACN的損傷嚴重度預測(ISP)算法,以預測持續(xù)損傷嚴重度評分(ISS)15+損傷的概率。根據車身類型,對國家汽車抽樣系統(tǒng)耐撞性數據系統(tǒng)(NASS-CDS:1999-2015)和2000年款或更高車型進行了新的案例選擇標準篩選,將碰撞方向、速度變化、多次碰撞、安全帶使用、車輛類型、乘員年齡以及女性乘員納入考慮范圍[4]。
之前的研究大多選用的是事故調查的方法獲取碰撞參數及約束系統(tǒng)狀態(tài)參數,從而對預測模型進行訓練。相較于交通傷害預測的簡單數值模型,有限元模型可以在碰撞參數復雜的情況下提供響應靈敏度。同時,之前的乘員傷情預測算法大多是基于Logistic回歸模型,算法模型較為單一,當訓練樣本量大時,性能不好,同時容易發(fā)生欠擬合現象,且只能處理二分類問題。最近幾年隨著深度學習和機器學習成為一大研究熱點,本文提出一種基于Stacking集成學習的副駕駛乘員損傷預測模型,一定程度上對醫(yī)療診斷有參考作用。
1 Staking集成學習
1.1 Stacking集成學習算法
在機器學習中,XGBoost和CatBoost是兩種強大的梯度提升算法,前者通過優(yōu)化計算速度和正則化提高模型性能,后者專注于類別特征的處理和自動化缺失值處理;LightGBM以高效的直方圖分裂算法和并行計算加速訓練,適合大規(guī)模數據集;RandomForest通過構建多個決策樹并投票提高預測準確性,具備較好的魯棒性;ExtraTrees則通過增加隨機性來增強模型的泛化能力和訓練速度。每種算法在不同場景中都有其獨特的優(yōu)勢,能夠根據具體需求選擇合適的模型。集成學習中的stacking方法通過將多個基模型的預測結果結合起來,形成一個強大的綜合模型。因此,本文融合了XGBoost、CatBoost、LightGBM、RandomForest和ExtraTrees,這些模型各具優(yōu)勢,通過集成它們的預測可以有效提高準確性和魯棒性。XGBoost和LightGBM提供了高效的梯度提升,CatBoost專注于類別特征處理,RandomForest和ExtraTrees通過集成多個決策樹來提升模型穩(wěn)定性。通過Stacking方法,這些模型的優(yōu)點得以充分發(fā)揮,從而實現更優(yōu)的預測性能。
1.2 典型工作流程
基于Stacking集成學習的副駕駛乘員頭部損傷預測方法,具體流程包括以下幾個部分:數據采集、數據預處理、模型訓練和檢驗預測。具體步驟如下。
(1)采集并創(chuàng)建副駕駛乘員頭部損傷預測數據集,以影響乘員頭部損傷的主要因素作為評價指標,即輸入變量,以頭部損傷等級(AIS)作為目標變量。
(2)采用SMOTE方法對數據進行了過采樣和平衡處理,合成新的少數類樣本來平衡類別分布,然后將數據集劃為訓練集與測試集,訓練集用于構建模型,測試集用于評估模型性能。
(3)基于訓練集數據,搭建副駕駛乘員頭部損傷預測模型,由于Stacking算法中子模型的超參數尋優(yōu)對集成模型性能的提高有限,子模型的結構和超參數采用Sklearn框架內置的默認數值。
(4)采用測試集數據檢驗Stacking模型的預測效果和泛化能力,確定模型適用性。
2 副駕駛乘員損傷數據集的制作
2.1 仿真模型建立與驗證
本文采用的乘用車有限元模型為美國國家碰撞分析中心(NCAC)發(fā)布的2010年版豐田Yaris模型,該車型已經過多次實車試驗驗證?;谠撜囉邢拊P?,構建全因子試驗設計矩陣,25%,50%,75%,100%不同重疊率;0°,30°,60°不同角度;左側主車速度為30km/h,40km/h,50km/h,60km/h,70km/h;右側從車車輛速度為30km/h,40km/h,50km/h,60km/h,70km/h,共300組仿真數據。
2.2 臺車模型的建立與驗證
通過對標驗證,HybridIII假人駕駛艙模型的頭部加速度仿真結果與試驗數據基本一致,證明模型具有較高的可靠性,如圖1所示。隨后,將HybridIII假人替換為THUMS人體模型,并根據HybridIII假人的定位參數對THUMS模型進行調整。參照Yaris碰撞前后的相關影像資料和試驗報告,對THUMS模型的初始位置、骨盆角度、手部及腿部姿態(tài)進行優(yōu)化調整,同時將肌肉激活水平設定為Normal。在多次模擬后,獲取目標姿態(tài)的NODE節(jié)點信息,并替換原始THUMS文件中NODE關鍵字的節(jié)點數據,從而完成姿態(tài)調整。
基于上述構建整車模型加載相應的邊界條件,計算完成后提取副駕駛座椅下方某點的加速度與轉矩曲線,作為臺車模型的輸入條件。并利用LS-DYNA求解器進行計算,獲取假人頭部的質心加速度。
利用AIS描述正面碰撞乘員損傷嚴重程度,結合AIS與中國新車評價規(guī)程(China-New Car Assessment Program,C-NCAP)標準,建立頭部損傷等級對應關系[5],如表1,將仿真得到的副駕駛乘員頭部損傷指標(Head Injury Criterion,HIC)值轉化為AIS等級。
最終,完成副駕駛乘員損傷數據集的制作,共有300條損傷數據。
3 結果與分析
3.1 預測結果
考慮模型性能和訓練效率,采用2層Stacking結構,5折交叉驗證,元學習器采用加權平均的方法[6]。由于本文所構建的乘員損傷預測數據集標簽中有7個類別,在準確率基礎上,增加F1分數和混淆矩陣作為衡量模型性能的度量指標?;煜仃囀欠治龆喾诸惸P托阅茏钪庇^的工具,它展示了模型在每個類別上的分類情況,包括正確分類和錯誤分類的數量。它可以幫助發(fā)現模型容易混淆的類別。在混淆矩陣中,可以直接觀察每個類別的分類準確性,以及哪些類別之間容易產生誤分類。其中,準確率和F1分數的計算公式分別為
式(1)中,TP(True Positive)代表模型正確預測為正類的樣本數,TN(True Negative)代表模型正確預測為負類的樣本數,FP(False Positive)代表模型錯誤地預測為正類的樣本數,FN(False Negative)代表模型錯誤地預測為負類的樣本數。
式(2)中,精確率P衡量的是所有被預測為正類的樣本中,實際為正類的比例。召回率R衡量的是所有實際為正類的樣本中,被正確預測為正類的比例。
隨機抽取數據庫中80%樣本作為訓練集,剩余20%作為測試集。Stacking集成模型預測結果的準確率和F1分數分別是90.29%、90.28%,混淆矩陣如圖2。行表示真實的類別標簽,列表示模型預測的類別標簽,對角線表示模型正確分類的樣本數量,非對角線表示模型分類錯誤的樣本數量。對角線數值遠大于非對角線數值,說明模型的分類性能總體較好。
3.2 模型對比分析
為直觀反映Stacking集成學習方法在乘員損傷預測中的優(yōu)勢,對比分析了4種常見機器學習(KNN、SVM、DT和ANN)[7]和2種代表性集成學習(Bagging、Boosting)[8]算法的預測效果。由于這些算法均包含若干重要的超參數,嚴重影響著所構建模型的預測效果。因此,為尋找適合于本文數據集的算法超參數,避免模型產生過擬合和欠擬合現象,采用網格搜索和5-折交叉驗證法優(yōu)化模型超參數[9],各算法的超參數搜索空間與最優(yōu)超參數如表2所示。為評估各模型的乘員損傷預測效果,分別計算了4種常見機器學習、2種代表性集成學習和Stacking模型在測試集上的性能度量指標,如圖3所示。在常見的單一機器學習模型中,ANN模型的預測效果最好,準確率和F1分數分別為86.29%、86.78%,SVM模型的預測效果次之,DT模型的預測效果最差,準確率和F1分數分別為81.33%、81.23%。在2種代表性集成學習模型中,Bagging模型比Boosting模型的預測效果更好,準確率、F1分數分別為88.53%、88.25%。在所有模型中,Stacking模型準確率、F1分數高達90.29%、90.28%,預測效果最好,表明Stacking集成學習方法可應用于乘員頭部損傷預測任務,能有效提升頭部損傷評價的準確率。相較于傳統(tǒng)機器學習,集成學習相當于多個“決策者”共同解決一個問題,可獲得更準確的預測結果。其次,超參數優(yōu)化是一個非常困難且繁瑣的過程,Stacking方法減少了其對超參數調優(yōu)的依賴性,極大程度上避免人為超參數優(yōu)化過程,使得Stacking模型更具通用性與普適性。正如本文所建Stacking乘員頭部損傷預測模型采用的超參數為默認參數,其預測效果顯著優(yōu)于超參數優(yōu)化后的常見機器學習模型。
4 結論
(1)基于LS_DYNA有限元方法創(chuàng)建了副駕駛乘員頭部損傷預測數據集,包含300個樣本,每個樣本由碰撞角度,碰撞重疊率,兩車速度這四個特征和一個標簽頭部損傷等級組成。該數據集涵蓋很寬的數值范圍,可為開發(fā)副駕駛乘員損傷預測模型提供基礎數據依據。
(2)為提升乘員頭部損傷預測模型準確性和泛化效果,引入了先進的Stacking集成學習算法。依托于頭部損傷預測數據集,構建了基于Stacking集成學習的頭部損傷預測模型,在測試集上準確率、F1分數高達90.29%、90.28%,取得了良好的預測效果。
(3)通過對比分析常見機器學習和代表性集成學習算法,Stacking模型在2種性能度量指標上均具有明顯優(yōu)勢,說明Stacking集成學習在頭部損傷預測方面具有很好的可行性。相較傳統(tǒng)機器學習方法,Stacking算法極大程度上減少了模型對超參數調優(yōu)的依賴性,更具通用性和普適性,可為副駕駛乘員頭部損傷初步評價提供方法借鑒。
參考文獻:
[1]張金換. 汽車碰撞安全性設計[M].北京:清華大學出版社,2010.
[2] Kononen D W, Flannagan C A C, Wang S C. Identification and validation of a logistic regression model for predicting serious injuries associated with motor vehicle crashes[J]. Accident; Analysis and Prevention, 2011, 43(1): 112-122.
[3] Yoshida S, Hasegawa T, Tominaga S, et al. Development of injury prediction models for advanced automatic collision notification based on Japanese accident data[J]. International Journal of Crashworthiness, 2016, 21: 112-119.
[4] Ejima, S., Goto, T., Zhang, P., Cunningham, K., et al. Injury Severity Prediction Algorithm Based on Select Vehicle Category for Advanced Automatic Collision Notification[J]. SAE Technical Paper 2022.
[5]張文會,伊靜,劉委,等.基于MADYMO的大客車追尾碰撞事故乘員損傷機理[J]. 吉林大學學報(工學版),2022,52(1):118-126.
[6] Caruana R, Niculescu-Mizil A, Crew G, et al. Ensemble selection from libraries of models[C]// Proceedings of the Twenty-First International Conference on Machine Learning. New York: Association for Computing Machinery, 2004: 18.
[7]張化進,吳順川,韓龍強,等. 基于改進 Dempster-Shafer 證據理論的巖體質量異質集成評價方法[J]. 巖土力學,2022,43(S1):532-541.
[8]崔陽陽,鄧念東,曹曉凡,等. 基于集成學習的地質災害危險性評價[J]. 水力發(fā)電,2020,46(10):36-41.
[9] Zhang H, Wu S, Zhang X, et al. Slope stability prediction method based on the margin distance minimization selective ensemble[J]. Catena, 2022, 212: 106055.