趙建東,陳溱,焦彥利,張凱麗,韓明敏
(1.北京交通大學(xué),a.交通運(yùn)輸學(xué)院,b.綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,北京100044;2.河北省交通規(guī)劃設(shè)計(jì)院,石家莊050000)
近年來,由于“兩客一?!敝攸c(diǎn)營運(yùn)車輛的特殊性與高風(fēng)險(xiǎn)性,其異常駕駛行為給高速公路交通出行帶來巨大的安全隱患,因其引發(fā)的交通事故給社會(huì)造成了巨大損失。如何準(zhǔn)確快速識(shí)別重點(diǎn)營運(yùn)車輛異常駕駛行為是亟待解決的難題。
在車輛異常行為識(shí)別所使用的數(shù)據(jù)源上,主要有以下3 種:①駕駛員生理特征數(shù)據(jù),具有識(shí)別精準(zhǔn)度高、反應(yīng)速度快的優(yōu)點(diǎn),但存在數(shù)據(jù)收集困難的缺陷;②視頻圖像數(shù)據(jù),具有良好的識(shí)別檢測效果,但在高速公路視頻監(jiān)控不完善或天氣惡劣的情況下,視頻數(shù)據(jù)難以準(zhǔn)確識(shí)別駕駛行為;③GPS、北斗等車載終端行為特征數(shù)據(jù),具有較好識(shí)別效果,且數(shù)據(jù)收集簡單,但具有數(shù)據(jù)量大、數(shù)據(jù)特征復(fù)雜的特點(diǎn)。
在異常行為識(shí)別種類上,任慧君等[1]提出一種利用車載GPS 模塊采集的車輛軌跡數(shù)據(jù)實(shí)現(xiàn)車輛駕駛行為安全性分析的方法,能夠識(shí)別超速、急變速、急轉(zhuǎn)彎這3 類異常駕駛行為。王海星等[2]采用因子分析和模糊C均值聚類相結(jié)合的方法,實(shí)現(xiàn)對危險(xiǎn)貨物運(yùn)輸車輛駕駛員急加減速、超速駕駛和變速駕駛的聚類。
在利用深度學(xué)習(xí)算法識(shí)別異常駕駛行為方面,薛清文等[3]采用輕量梯度提升機(jī)(LGBM)算法識(shí)別異常駕駛行為,實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)算法的異常駕駛行為的高精度自動(dòng)識(shí)別?;蒿w等[4]提出一種基于雙向長短記憶網(wǎng)絡(luò)(Bi-LSTM)及全連接神經(jīng)網(wǎng)絡(luò)(FC)的拓展神經(jīng)網(wǎng)絡(luò)檢測模型,用于準(zhǔn)確識(shí)別異常駕駛行為。SUN 等[5]通過結(jié)合全球定位系統(tǒng)(GPS)、北斗和慣性傳感器(IMU)等多種數(shù)據(jù),基于先進(jìn)算法提出了一種用于檢測車道級(jí)異常駕駛行為的方法。
由此可見,目前,基于GPS、北斗等車載終端行為特征數(shù)據(jù)的異常駕駛行為的識(shí)別研究依然為該領(lǐng)域的研究熱點(diǎn)。深度學(xué)習(xí)廣泛應(yīng)用于異常駕駛行為的識(shí)別中,并取得了一定的成果,識(shí)別的異常種類主要集中在超速駕駛、急變速等行為。但由于“兩客一?!敝攸c(diǎn)營運(yùn)車輛存在3種車型,且每種車型的速度限制存在區(qū)別,且車輛車身重、慣性大、剎車?yán)щy等特點(diǎn),目前缺少一種針對“兩客一?!避囕v的異常駕駛行為識(shí)別算法。
因此,本文提出一種基于時(shí)間序列符號(hào)化算法與多尺度卷積神經(jīng)網(wǎng)絡(luò)的組合模型(TSA-MCNN)用于專門識(shí)別重點(diǎn)營運(yùn)車輛的異常行駛行為。該模型基于重點(diǎn)營運(yùn)車輛的特點(diǎn),利用自定義規(guī)則的靜態(tài)與動(dòng)態(tài)時(shí)間序列符號(hào)算法(TSA),將輸入進(jìn)模型的數(shù)據(jù)轉(zhuǎn)化為符號(hào)化的特征序列,組合運(yùn)用MCNN模型,在輸入更多數(shù)據(jù)特征的同時(shí)減少卷積次數(shù)與參數(shù)數(shù)量,最終高效準(zhǔn)確的識(shí)別“兩客一危”重點(diǎn)營運(yùn)車輛的異常駕駛行為,提高交通出行的安全性。
本文所用數(shù)據(jù)為廣河高速、廣州北三環(huán)高速與從莞深高速相交路段的2018年9月~11月北斗車載終端所采集的客車、貨車、危險(xiǎn)品車輛軌跡數(shù)據(jù)。未經(jīng)數(shù)據(jù)清洗前數(shù)據(jù)量為10.6 G,為了提高數(shù)據(jù)處理速度與精度,同時(shí)避免不必要的、由數(shù)據(jù)收集過程中引發(fā)的異常數(shù)據(jù)值影響識(shí)別過程,研究中針對各類異常數(shù)據(jù)值制定相應(yīng)的規(guī)則進(jìn)行處理[6],數(shù)據(jù)處理流程如圖1所示。
圖1 異常數(shù)據(jù)處理流程Fig.1 Abnormal data processing flow
數(shù)據(jù)經(jīng)清洗后,每條數(shù)據(jù)包含6 個(gè)字段,分別為:車牌號(hào)、車輛類型、經(jīng)度、緯度、定位儀速度、定位時(shí)間,如表1所示。
表1 北斗數(shù)據(jù)字段Table 1 BeiDou data set
圖2 稀疏自動(dòng)編碼器降維處理Fig.2 Sparse autoencoder dimensionality reduction process
基于一維矩陣Cn數(shù)據(jù),本文采用機(jī)器學(xué)習(xí)中的K均值聚類算法(K-means clustering algorithm)對數(shù)據(jù)進(jìn)行聚類,其中,參數(shù)K依據(jù)手肘法[10]和輪廓系數(shù)[10]計(jì)算結(jié)果選取。當(dāng)K=3 時(shí),首次出現(xiàn)曲率最大的轉(zhuǎn)折點(diǎn)且輪廓系數(shù)局部最大,其中,SSE(簇內(nèi)誤方差)是每個(gè)K值對應(yīng)簇內(nèi)的向量到簇內(nèi)中心向量的距離誤差平方和,其中,簇內(nèi)誤方差與輪廓系數(shù)均為無量綱參數(shù)。不同K值的肘部法及輪廓系數(shù)如圖3所示。
圖3 不同K 值的肘部法與輪廓系數(shù)分析圖Fig.3 Analysis of elbow method and contour coefficient for different K values
對聚類結(jié)果中每類時(shí)間序列的特點(diǎn)進(jìn)行分析,可得以下結(jié)論:
第1 類的速度時(shí)間序列為數(shù)據(jù)中行駛速度較為平穩(wěn)的個(gè)體,其行駛速度在整段行程中均較為平穩(wěn),但該類存在部分速度時(shí)間序列中的個(gè)別速度點(diǎn)超過該車型在高速公路上行駛的速度上限;
第2 類的速度時(shí)間序列為數(shù)據(jù)中行駛速度較為不平穩(wěn)的個(gè)體,其在整段行程中存在1次以上的車輛由正常行駛速度大幅度變化至0值的行為,且速度變化過程時(shí)間范圍為5~60 s;
第3 類的速度時(shí)間序列為數(shù)據(jù)中行駛速度較低的個(gè)體,其在整體行程中大部分時(shí)間的車速遠(yuǎn)低于前兩類。
依據(jù)以上聚類結(jié)果,并結(jié)合重點(diǎn)營運(yùn)車輛具有車身重、剎車距離長、安全要求高與事故后果嚴(yán)重等特點(diǎn),將第1 類數(shù)據(jù)根據(jù)3 種車型的不同限速劃分為正常行駛行為與超速駕駛行為,把第2類根據(jù)速度變化時(shí)的加速度大小劃分為緊急停車行為與臨時(shí)停車行為,把第3類定義為低速駕駛行為。
(1)超速駕駛行為
超速駕駛行為指車輛行駛過程中行駛速度超過道路、法律規(guī)定的速度上限。根據(jù)《中華人民共和國道路交通安全法》的規(guī)定,對于重點(diǎn)營運(yùn)車輛,在無特殊限速的情況下,客車與貨車在高速公路上的限速為100 km?h-1,危險(xiǎn)品車輛在高速公路上的限速為80 km?h-1。根據(jù)付川云等[11]關(guān)于車輛超速駕駛的研究成果,研究中定義行駛速度超過速度上限的時(shí)間大于40 s為1次超速行為。
(2)緊急停車行為
緊急停車行為指在停車行為發(fā)生前有急減速行為,其極具危害性,容易引發(fā)追尾、多車相撞等事故。目前,交通運(yùn)輸行業(yè)對于急變速行為缺乏統(tǒng)一的判斷標(biāo)準(zhǔn),根據(jù)任慧君等[1]的研究成果,研究中設(shè)置急變速的閾值alimit為3 m?s-2,并且定義當(dāng)速度變化率a超出閾值alimit,則判定車輛發(fā)生急變速行為。因此,緊急停車行為定義為在車速v降為0 之前存在1次以上速度變化率a超出閾值alimit的停車行為。
(3)臨時(shí)停車行為
臨時(shí)停車行為指在停車行為發(fā)生前未有急減速行為,由于道路前方發(fā)生事故、客車違規(guī)上下客、道路存在障礙物或道路擁堵等原因發(fā)生的暫時(shí)性的停車行為。其危害性相對于緊急停車行為較小,但依舊存在一定風(fēng)險(xiǎn)。研究中設(shè)置急變速的閾值alimit為3 m?s-2,并且定義當(dāng)速度變化率a超過閾值alimit,則判定車輛發(fā)生急變速行為。因此,臨時(shí)停車行為定義為在車速v降為0之前不存在速度變化率a超出閾值alimit的停車行為。
(4)低速駕駛行為
低速駕駛行為指低于道路最低限速的駕駛行為,其中,最低限速vlow為60 km?h-1。目前,在低速行駛方面缺少相關(guān)研究,研究中定義車速v低于vlow持續(xù)120 s為低速駕駛行為。
至此,本文將重點(diǎn)營運(yùn)車輛的異常駕駛行為劃分為超速駕駛行為、緊急停車行為、臨時(shí)停車行為與低速駕駛行為,其速度曲線與加速度曲線如圖4所示。將每個(gè)速度時(shí)間序列Vn對應(yīng)1 個(gè)字符化標(biāo)簽S,組成數(shù)據(jù)集,其中,Vn為預(yù)處理的速度時(shí)間序列,S為字符化標(biāo)簽,表征內(nèi)容包括正常駕駛行為、超速駕駛行為、緊急停車行為、臨時(shí)停車行為、低速駕駛行為。將數(shù)據(jù)集D作為輸入,搭建異常駕駛行為識(shí)別模型。
圖4 5種駕駛行為速度-時(shí)間曲線與加速度-時(shí)間曲線Fig.4 Velocity and acceleration curves of five driving behaviors
時(shí)間序列符號(hào)化算法[12-14](Time series Symbolic Algorithm,TSA)是將原始時(shí)間序列轉(zhuǎn)化為僅包含有限取值的符號(hào)序列,是一個(gè)粗?;^程[15]。根據(jù)符號(hào)生成的形式,時(shí)間序列符號(hào)化分為靜態(tài)法與動(dòng)態(tài)法,靜態(tài)的時(shí)間序列符號(hào)化算法利用的靜態(tài)區(qū)間劃分對處在不同區(qū)間的時(shí)間序列觀測值進(jìn)行統(tǒng)一符號(hào)化;動(dòng)態(tài)的時(shí)間序列符號(hào)化利用時(shí)間序列中不同觀測值之間的動(dòng)態(tài)關(guān)系實(shí)現(xiàn)數(shù)據(jù)的符號(hào)化。本文同時(shí)采用靜態(tài)和動(dòng)態(tài)時(shí)間序列符號(hào)化算法對時(shí)間序列進(jìn)行符號(hào)化處理,作為模型的輸入。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種類似于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,常用于識(shí)別、分類各種時(shí)間序列[16-18],也是多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale Convolutional Neural Network,MCNN)模型的基礎(chǔ)。卷積神經(jīng)網(wǎng)絡(luò)包括:卷積層(Convolutional layer)、池化層(Pooling layer)、線性整流層(Rectified Linear Units layer)、全連接層(Fully-Connected layer)等。
多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale Convolutional Neural Network,MCNN)[19-22]是一種CNN 的組合改進(jìn)模型,是一種多通道輸入的模型。MCNN模型由單輸入卷積,卷積參數(shù)合并,共同卷積,輸出結(jié)果4部分組成。多輸入的MCNN模型相較于CNN模型具有更好的穩(wěn)定性,能夠在獲取更多數(shù)據(jù)特征的同時(shí),避免不必要的卷積,減少參數(shù)數(shù)量,避免過擬合,提高整體模型學(xué)習(xí)的效率。
因此,本文為了針對“兩客一?!敝攸c(diǎn)營運(yùn)車輛存在多種車型、多種速度限制、多種異常駕駛行為的特點(diǎn),引入時(shí)間序列符號(hào)化算法組合MCNN 模型搭建的TSA-MCNN 組合模型,分類識(shí)別重點(diǎn)營運(yùn)車輛的異常駕駛行為,如圖5所示。
圖5 TSA-MCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 TSA-MCNN network structure
本文的實(shí)驗(yàn)數(shù)據(jù)集共有4000 組車輛北斗數(shù)據(jù),其中,正常駕駛數(shù)據(jù)、超速駕駛數(shù)據(jù)、緊急停車數(shù)據(jù)、臨時(shí)停車數(shù)據(jù)、低速駕駛數(shù)據(jù)各800 組。將訓(xùn)練集與測試集4∶1的分類比例劃分,即3200組數(shù)據(jù)用于模型訓(xùn)練,800 組數(shù)據(jù)用于模型驗(yàn)證。為驗(yàn)證TSA-MCNN 模型的性能,采用相同的數(shù)據(jù)集作為輸入,將其與傳統(tǒng)的時(shí)間序列識(shí)別模型(DTWKNN[23]、CNN)進(jìn)行對比分析,分別識(shí)別異常駕駛行為。對于DTW-KNN模型,通過在計(jì)算過程中根據(jù)不同的車輛類型標(biāo)簽將時(shí)間序列乘以相應(yīng)的系數(shù)進(jìn)行數(shù)據(jù)縮放,使得DTW-KNN模型能夠區(qū)分不同的限速;對于CNN模型,將車輛類型標(biāo)簽直接帶入模型進(jìn)行訓(xùn)練。為了更好體現(xiàn)每種模型的性能,利用每種模型的準(zhǔn)確率(Accuracy)、Kappa系數(shù)[24]與對于每個(gè)分類的精確率(Precision)、查全率(Recall)、F1分?jǐn)?shù)(F1-Score)作為評(píng)價(jià)指標(biāo)。
準(zhǔn)確率是識(shí)別正確數(shù)據(jù)量占總數(shù)據(jù)量的比例,表征模型識(shí)別整體準(zhǔn)確率;Kappa系數(shù)表征多種異常駕駛行為的識(shí)別總準(zhǔn)確率,其值越高,代表模型識(shí)別總準(zhǔn)確度越高;精確率為識(shí)別結(jié)果為同一種類的數(shù)據(jù)中真實(shí)結(jié)果也屬于該種類的數(shù)據(jù)所占的比例;查全率是指在所有真實(shí)結(jié)果屬于同一類的數(shù)據(jù)中被識(shí)別結(jié)果也為該類的數(shù)據(jù)的比例;F1-Score為精確率和查全率的調(diào)和平均值,用于評(píng)價(jià)異常駕駛行為識(shí)別的綜合性能。
計(jì)算公式為
式中:F1、P、R、K、Eacc分別為F1 分?jǐn)?shù)、精確率、查全率、Kappa 系數(shù)與準(zhǔn)確率;ETN、ETP、EFP、EFN分別為把正類識(shí)別為正類的數(shù)量,把負(fù)類識(shí)別為負(fù)類的數(shù)量,把正類識(shí)別為負(fù)類的數(shù)量,把負(fù)類識(shí)別為正類的數(shù)量;Po、N、ni、ti、k分別為總體分類精度、樣本總數(shù)、第i類真實(shí)樣本數(shù)、第i類預(yù)測出來的樣本數(shù)與分類總數(shù)。
3 種模型的各類評(píng)價(jià)參數(shù)如表2所示,識(shí)別結(jié)果采用混淆矩陣方式[25]表示如圖6所示。
表2 3種模型的評(píng)價(jià)參數(shù)表Table 2 Table of evaluation parameters of three models
由表2和圖6可以直觀的看出:
圖6 3種模型分類結(jié)果的混淆矩陣Fig.6 Confusion matrix of classification results of three models
(1)TSA-MCNN 模型識(shí)別駕駛行為的總準(zhǔn)確率高于CNN 模型與DTW-KNN 模型,分別高出了20.50%與5.63%,DTW-KNN 模型的總準(zhǔn)確率高于CNN 模型14.87%。3 種模型Kappa 系數(shù)的大小也表明TSA-MCNN模型的準(zhǔn)確率大于DTW-KNN模型與CNN 模型的準(zhǔn)確率。在模型訓(xùn)練方面,CNN模型所需的時(shí)間最短,其次為TSA-MCNN,DTWKNN所需的時(shí)間最長,此外,隨著分類識(shí)別數(shù)據(jù)的數(shù)量與維數(shù)不斷增大,DTW-KNN模型所需的時(shí)間遠(yuǎn)大于CNN模型與TSA_MCNN模型。
(3)由于車輛臨時(shí)停車行為與緊急停車行為僅由急變速閾值alimit區(qū)分,易混淆,3種模型在兩種行為上的識(shí)別區(qū)分效果不同。CNN模型在對臨時(shí)停車行為與緊急停車行為的精確率、查全率與F1 分?jǐn)?shù)均較低,其中,緊急停車的查全率低至0.55,僅能識(shí)別不到60%的緊急停車行為;DTW-KNN模型對于臨時(shí)停車行為與緊急停車行為具有良好的查全率、精確率與F1分?jǐn)?shù),相對于CNN模型緊急停車的識(shí)別效果有所改善;TSA-MCNN 模型具有良好的查全率、精確率與F1分?jǐn)?shù),雖然存在部分漏判與誤判的情況,查全率與精確率均達(dá)到93%以上。表明對于重點(diǎn)營運(yùn)車輛的臨時(shí)停車行為與緊急停車行為識(shí)別,TSA-MCNN 模型的性能優(yōu)于CNN 模型與DTW-KNN模型。
(4)對于低速駕駛行為,相對其他4種行為在速度時(shí)間序列上具有較為突出的數(shù)據(jù)特征,因此,3種模型對低速駕駛行為均具有優(yōu)秀的查全率、精確率與F1分?jǐn)?shù),能很好地對其進(jìn)行判別。
本文以重點(diǎn)營運(yùn)車輛北斗數(shù)據(jù)為基礎(chǔ),針對重點(diǎn)營運(yùn)車輛多種車型、多種速度限制、多種異常駕駛行為的特點(diǎn),基于機(jī)器學(xué)習(xí)聚類結(jié)果與道路法律法規(guī)劃分并定義4種異常駕駛行為類型,構(gòu)建TSAMCNN 模型識(shí)別駕駛行為,測試驗(yàn)證TSA-MCNN組合模型,相較于CNN 模型、DTW-KNN 模型具有更高的準(zhǔn)確率,具體有以下結(jié)論:
(1)運(yùn)用稀疏自動(dòng)編碼器算法對預(yù)處理后的速度時(shí)間序列數(shù)據(jù)進(jìn)行降維處理,在保留主要特征的同時(shí)降低后續(xù)模型的計(jì)算成本,同時(shí),組合速度時(shí)間序列的模糊熵、標(biāo)準(zhǔn)差、最大值與最小值,運(yùn)用機(jī)器學(xué)習(xí)的方法對數(shù)據(jù)初步聚類,并基于道路法規(guī)與重點(diǎn)營運(yùn)車輛的特性進(jìn)一步劃分定義4 種異常駕駛行為,構(gòu)建樣本數(shù)據(jù)集。
(2)在駕駛行為識(shí)別模型方面,以分類定義后的樣本數(shù)據(jù)集數(shù)據(jù)作為輸入的特征向量,針對重點(diǎn)營運(yùn)車輛的特點(diǎn),引入TSA算法組合MCNN模型,搭建TSA-MCNN 模型識(shí)別正常駕駛行為與4 種異常駕駛行為。
(3)在實(shí)例驗(yàn)證方面,以廣河高速重點(diǎn)營運(yùn)車輛北斗數(shù)據(jù)為例,驗(yàn)證TSA-MCNN 模型在駕駛行為識(shí)別方面具有識(shí)別精度高的特點(diǎn),其正常駕駛行為、超速駕駛行為、緊急停車行為、臨時(shí)停車行為、低速駕駛行為的識(shí)別精確率相對于傳統(tǒng)的CNN模型(DTW-KNN 模型)分別提高了26%(13%)、26%(6%)、23%(5%)、28%(3%)、0(0),對于正常駕駛與4種異常駕駛行為均具有良好的識(shí)別效果。