蘇 芳,袁 勤
(1.武漢理工大學(xué) 國(guó)際教育學(xué)院,湖北 武漢 430070;2.武漢理工大學(xué) 中國(guó)應(yīng)急管理研究中心,湖北 武漢 430070)
交通事故已經(jīng)引起了社會(huì)與國(guó)家的廣泛關(guān)注,然而我國(guó)交通管理起步較晚,交通管理工作仍存在不足。據(jù)我國(guó)統(tǒng)計(jì)年鑒顯示,2014—2018年的交通事故發(fā)生量分別為196 812、187 781、212 846、203 049和244 937,交通事故發(fā)生量呈現(xiàn)明顯上升的趨勢(shì),2018年交通事故發(fā)生量達(dá)到了歷年的最高值。城市公路在我國(guó)公路體系中占據(jù)重要地位,也是交通事故的高發(fā)區(qū)域。趙琳娜[1]指出我國(guó)城市公路里程僅占全國(guó)道路總里程的7.5%,但城市公路交通事故卻占全國(guó)公路交通事故的45.8%,城市公路交通事故傷亡人數(shù)占全國(guó)公路交通事故傷亡總數(shù)的38.8%,城市公路百公里交通事故率是高速公路的4倍、普通公路的10倍。然而,由于城市公路交通事故的后果較其他情形輕微,因此,城市公路并未引起重視。
數(shù)據(jù)挖掘技術(shù)針對(duì)目前交通事故數(shù)據(jù)庫(kù)中的積累數(shù)據(jù),提供了一種新型的具有大數(shù)據(jù)時(shí)代特色的研究思路。利用數(shù)據(jù)挖掘技術(shù)對(duì)城市公路交通事故進(jìn)行相關(guān)研究, 能探索城市公路交通事故中的隱藏知識(shí),深入了解城市公路交通事故的特征,對(duì)于避免城市公路交通事故具有重要的意義, 且得到的成果對(duì)城市公路交通管理工作和相關(guān)法律法規(guī)的制定具有一定的指導(dǎo)意義,有助于城市公路交通事故的預(yù)防, 確保城市公路交通的安全[2]。我國(guó)數(shù)據(jù)挖掘技術(shù)的研究雖然起步較晚,但已在公司財(cái)務(wù)[3]、互聯(lián)網(wǎng)[4]等領(lǐng)域得到廣泛使用。在交通安全領(lǐng)域中,李科等[5]采用關(guān)鍵事故率法對(duì)高速公路事故多發(fā)路段進(jìn)行鑒別。劉崛雄[6]運(yùn)用聚類分析探索了事故在不同時(shí)空下的差異,并使用貝葉斯網(wǎng)絡(luò)構(gòu)建事故的預(yù)測(cè)模型。丁宇[7]使用統(tǒng)計(jì)分析和聚類分析等數(shù)據(jù)挖掘方法研究了城市交通事故駕駛員特征。但相關(guān)研究最終聚焦于事故的某一具體因素進(jìn)行探索,缺乏對(duì)事故不同影響因素之間關(guān)聯(lián)的探討。
關(guān)聯(lián)規(guī)則算法是數(shù)據(jù)挖掘技術(shù)中挖掘事故影響因素之間聯(lián)系的算法,在國(guó)外已得到廣泛關(guān)注與應(yīng)用。MARTN等[8]基于西班牙安達(dá)盧西亞的交通事故數(shù)據(jù),利用Apriori算法分析數(shù)據(jù)庫(kù)中收集的信息,研究易受影響的改善要素、碰撞次數(shù)和危險(xiǎn)路段之間的關(guān)系,并指出西班牙政府在交通管理上的缺失。DAHER等[9]以紐約州日內(nèi)瓦手指湖地區(qū)的機(jī)動(dòng)車撞車事故作為數(shù)據(jù)集,運(yùn)用關(guān)聯(lián)規(guī)則分析交通事故的主要原因,并且進(jìn)一步將頻率模式增長(zhǎng)算法和關(guān)聯(lián)規(guī)則相結(jié)合,以突出顯示導(dǎo)致最嚴(yán)重的撞車事故的時(shí)間和環(huán)境設(shè)置,結(jié)果表明大多數(shù)撞車事故發(fā)生在12:00—18:00之間。Apriori算法模型使關(guān)聯(lián)規(guī)則挖掘最經(jīng)典的算法,運(yùn)用Apriori算法對(duì)城市公路交通事故進(jìn)行關(guān)聯(lián)規(guī)則分析,有助于發(fā)現(xiàn)城市公路交通事故的特征,為城市公路交通安全管理工作提供科學(xué)支持,有效地預(yù)防城市公路交通事故的發(fā)生。因此,筆者以數(shù)據(jù)挖掘?yàn)槭侄危ㄟ^(guò)對(duì)國(guó)內(nèi)城市公路交通事故數(shù)據(jù)集的關(guān)聯(lián)規(guī)則進(jìn)行分析,探索其中隱藏知識(shí),以期為我國(guó)城市公路交通管理提供一種新思路。
1.1.1 數(shù)據(jù)收集
筆者主要以城市公路的交通事故為研究對(duì)象,從交通管理部門調(diào)研取得城市公路交通數(shù)據(jù)。考慮到時(shí)效性,事故數(shù)據(jù)的對(duì)應(yīng)時(shí)間均為2019年5月—7月,共包含4 285條交通事故數(shù)據(jù)。
1.1.2 數(shù)據(jù)整理
交通事故的致因因子一般分為人、車和環(huán)境3個(gè)方面,由于人的因素難以觀測(cè)記錄,因此筆者結(jié)合原始數(shù)據(jù)集的特點(diǎn),將城市公路交通事故的致因因子概括為時(shí)間因素、道路環(huán)境因素和車的因素3個(gè)致因維度,如圖1所示?;谥乱蚰P蛯?duì)數(shù)據(jù)集的關(guān)鍵詞進(jìn)行提取,將數(shù)據(jù)字段化得到對(duì)應(yīng)的數(shù)據(jù)集字段表,如表1所示。
圖1 城市公路交通事故致因模型
表1 事故集字段表
所構(gòu)建的城市公路交通事故數(shù)據(jù)集由9個(gè)字段組成,并可通過(guò)字段抽取形成新的數(shù)據(jù)空間。將Excel表格存儲(chǔ)為CSV形式備用,所得數(shù)據(jù)集形式如圖2所示。
圖2 交通事故集整理結(jié)果
數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)的一個(gè)步驟,指在海量的、有噪聲的原始數(shù)據(jù)中找到表面看不出卻又真實(shí)存在的數(shù)據(jù)間的關(guān)系[10]。關(guān)聯(lián)規(guī)則是反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系。Apriori算法是第一個(gè)關(guān)聯(lián)規(guī)則挖掘算法,也是最經(jīng)典的算法。Apriori算法采用以下指標(biāo)來(lái)定義各個(gè)項(xiàng)目之間的關(guān)聯(lián)性:
(1)A?B的支持度(support)。支持度定義為前項(xiàng)事務(wù)A和后項(xiàng)事務(wù)B在整個(gè)數(shù)據(jù)集Z中同時(shí)發(fā)生的頻率[11],即發(fā)生概率,也表示與之對(duì)應(yīng)的關(guān)聯(lián)規(guī)則的實(shí)用性。
(1)
式中:support(A?B)為事務(wù)A指向事務(wù)B的支持度;N(A∩B)表示事務(wù)A、B同時(shí)出現(xiàn)的計(jì)數(shù);N(Z)為總體數(shù)據(jù)集計(jì)數(shù);P(A∩B)為事務(wù)A、B同時(shí)發(fā)生的概率。
(2)A?B的置信度(confidence)。置信度表示在前項(xiàng)事務(wù)A發(fā)生的情況下,事務(wù)B的發(fā)生概率[12]。置信度的定義為支持度與前項(xiàng)頻率之比,即條件概率,表示規(guī)則的強(qiáng)度,反應(yīng)關(guān)聯(lián)規(guī)則的確定性[13]。
confidence(A?B)=
(2)
式中:confidence(A?B)為事務(wù)A指向事務(wù)B的置信度;support(A?B)、support(A)分別為事務(wù)A指向事務(wù)B的支持度、事務(wù)A的支持度;P(A)、P(A∩B)、P(B|A)分布表示事務(wù)A的發(fā)生概率、事務(wù)A與事務(wù)B同時(shí)發(fā)生的概率、事務(wù)B在事務(wù)A已發(fā)生的前提下的發(fā)生概率。
(3)A?B的提升度(lift)。提升度表示已知條件A發(fā)生的情況下事務(wù)B發(fā)生的概率,與B總體發(fā)生的概率之比。提升度的定義為置信度與后項(xiàng)概率之比,反映了前項(xiàng)條件A對(duì)后項(xiàng)事務(wù)B發(fā)生概率的影響性。
(3)
式中:lift(A?B)為事務(wù)A指向事務(wù)B的提升度;coinfidence(A?B)為事務(wù)A指向事務(wù)B的置信度;support(B)為事務(wù)B的支持度;P(B|A)為事務(wù)B在事務(wù)A已發(fā)生的前提下的發(fā)生概率;P(B)為事務(wù)B的發(fā)生概率。
一般地,支持度與置信度作為關(guān)聯(lián)規(guī)則生成的篩選條件,根據(jù)研究目的設(shè)置最小支持度閾值與最小置信度閾值從而篩選出符合條件的關(guān)聯(lián)規(guī)則。提升度作為關(guān)聯(lián)規(guī)則關(guān)聯(lián)性的評(píng)判標(biāo)準(zhǔn),以1為界限,當(dāng)提升度為1時(shí),條件A與事務(wù)B互相獨(dú)立,當(dāng)提升度大于1時(shí),條件A與事務(wù)B具有關(guān)聯(lián)性,且對(duì)于生成的關(guān)聯(lián)規(guī)則,提升度越高,關(guān)聯(lián)性越強(qiáng)。在此,為定量評(píng)價(jià)關(guān)聯(lián)規(guī)則的有效性,根據(jù)提升度的數(shù)值定義了utility(A?B)函數(shù)對(duì)關(guān)聯(lián)規(guī)則的信度進(jìn)行量化分析。
(4)
根據(jù)提升度大小將關(guān)聯(lián)規(guī)則的信度分為4個(gè)不同的區(qū)間,其中提升度小于等于1表示對(duì)應(yīng)的關(guān)聯(lián)規(guī)則無(wú)明顯關(guān)聯(lián)性,記為無(wú);提升度在1與1.5之間表示對(duì)應(yīng)的關(guān)聯(lián)規(guī)則具有微弱關(guān)聯(lián)性,記為*;提升度在1.5與2之間表示對(duì)應(yīng)的關(guān)聯(lián)規(guī)則具有較明顯關(guān)聯(lián)性,記為**;提升度大于2表示對(duì)應(yīng)的關(guān)聯(lián)規(guī)則具有顯著的關(guān)聯(lián)性,記為***。
首先對(duì)數(shù)據(jù)集展開數(shù)據(jù)挖掘,其數(shù)據(jù)點(diǎn)分布如圖3所示,可見(jiàn)部分?jǐn)?shù)據(jù)列的數(shù)據(jù)點(diǎn)是相對(duì)集中的,這意味著數(shù)據(jù)之間存在潛在的規(guī)律性。
圖3 數(shù)據(jù)集的數(shù)據(jù)點(diǎn)分布
基于數(shù)據(jù)集,根據(jù)支持度的降序繪制出排名前十的重要字段,如圖4所示。由圖4可知,在交通事故中,道路情況以干燥為主;撞擊是交通事故的主要碰撞類型;報(bào)警細(xì)類主要為機(jī)動(dòng)車相撞、機(jī)動(dòng)車與非機(jī)動(dòng)車刮蹭;事故發(fā)生時(shí)的天氣狀況主要是多云天氣;撞擊車型雙方都多為小車類型。
圖4 支持度前十的重要字段
然而,交通事故主要是由于各項(xiàng)影響因素互相作用而導(dǎo)致的。因此,需進(jìn)一步對(duì)交通事故進(jìn)行關(guān)聯(lián)規(guī)則研究分析。交通事故總體關(guān)聯(lián)規(guī)則的熱點(diǎn)散布圖如圖5所示,可以看出總體關(guān)聯(lián)規(guī)則的數(shù)量為16條,而關(guān)聯(lián)規(guī)則的信度大多集中在1.5~1.7之間,具有較明顯的關(guān)聯(lián)性;交通事故總體關(guān)聯(lián)規(guī)則的2D矩陣散布圖如圖6所示,可以直觀地看出總體關(guān)聯(lián)規(guī)則中高信度規(guī)則包含的字段相對(duì)集中,而高信度規(guī)則的字段則是城市公路交通事故的主要致因。
圖5 交通事故關(guān)聯(lián)規(guī)則的熱點(diǎn)散布圖
圖6 交通事故關(guān)聯(lián)規(guī)則的2D矩陣散布圖
通過(guò)Apriori算法的關(guān)聯(lián)規(guī)則挖掘,提取出總體事故的16條關(guān)聯(lián)規(guī)則,具體關(guān)聯(lián)規(guī)則如表2所示。交通事故的關(guān)鍵規(guī)則路徑如圖7所示,可以看出在城市公路交通事故中,涉事雙方均為小車的機(jī)動(dòng)車碰撞事故,不易造成人員受傷,涉及電動(dòng)車的事故容易造成人員受傷;事故多發(fā)生于路面干燥的情況下。
表2 交通事故總體關(guān)聯(lián)規(guī)則
圖7 交通事故的關(guān)鍵規(guī)則路徑
通過(guò)字段選擇構(gòu)建城市公路交通事故的時(shí)間信息數(shù)據(jù)集,挖掘事故的時(shí)間規(guī)則。事故時(shí)間支持度前十的字段如圖8所示,展示了事故時(shí)間因素的重點(diǎn)項(xiàng)目。挖掘出的城市公路交通事故的具體時(shí)間關(guān)聯(lián)規(guī)則如表3所示。交通事故時(shí)間關(guān)聯(lián)規(guī)則路徑圖9所示,可以看出城市公路交通事故多發(fā)生于上午與晚上時(shí)段;晚上時(shí)段事故不易導(dǎo)致人員受傷,上午時(shí)段易產(chǎn)生人員受傷情況。
圖8 事故時(shí)間支持度前十的字段
圖9 事故時(shí)間關(guān)聯(lián)規(guī)則路徑
表3 事故時(shí)間關(guān)聯(lián)規(guī)則
通過(guò)字段選擇構(gòu)建城市公路交通事故的環(huán)境信息數(shù)據(jù)集,挖掘事故的道路環(huán)境規(guī)則。通過(guò)關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)9條道路環(huán)境關(guān)聯(lián)規(guī)則,具體內(nèi)容如表4所示。
表4 道路環(huán)境關(guān)聯(lián)規(guī)則
城市公路交通事故時(shí)間關(guān)聯(lián)規(guī)則路徑如圖10所示,可以看出事故多發(fā)于多云天氣與小雨天氣;多云天氣時(shí)容易導(dǎo)致人員受傷,小雨造成的道路濕滑也是需要關(guān)注的重要誘因。
圖10 道路環(huán)境關(guān)聯(lián)規(guī)則路徑
通過(guò)字段選擇構(gòu)建城市公路交通事故的涉事車型數(shù)據(jù)集。通過(guò)關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)13條涉事車型關(guān)聯(lián)規(guī)則,具體關(guān)聯(lián)規(guī)則如表5所示。城市公路交通事故涉事車型關(guān)聯(lián)規(guī)則路徑如圖11所示,可以看出涉事車型多為小車與機(jī)動(dòng)車;小車之間的機(jī)動(dòng)車相撞事故,不易造成人員受傷,電動(dòng)車被撞時(shí)容易產(chǎn)生人員受傷情況。
圖11 涉事車型關(guān)聯(lián)規(guī)則路徑
表5 涉事車型關(guān)聯(lián)規(guī)則
(1)城市公路交通事故致因是由“人、車、管、環(huán)”4類影響因素互相作用的復(fù)雜系統(tǒng),人的因素是事故的主觀因素,車的因素和環(huán)境因素通過(guò)影響人的判斷導(dǎo)致事故的發(fā)生,是事故的客觀因素。筆者選取事故的客觀因素作為研究對(duì)象,分析事故因素與結(jié)果之間的關(guān)聯(lián)規(guī)則路徑,并選取在關(guān)聯(lián)規(guī)則路徑可視化中有較大優(yōu)勢(shì)的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘。
(2)通過(guò)關(guān)聯(lián)規(guī)則挖掘,可有效地解釋事故影響因素與事故結(jié)果之間的影響,有助于確認(rèn)和解釋事故致因。數(shù)據(jù)挖掘結(jié)果表明,城市公路交通事故存在明顯的時(shí)段特征、天氣環(huán)境特征和涉事車型特征,如上午時(shí)段事故容易造成人員受傷;事故多發(fā)于多云天氣,小雨造成的道路濕滑也是事故的重要誘因;電動(dòng)車事故容易造成人員受傷。
(3)運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)城市公路交通事故數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,可以有效發(fā)現(xiàn)其中的隱藏知識(shí)。以交通管理部門的實(shí)際數(shù)據(jù)作為支撐,避免了數(shù)據(jù)獲取的主觀性,研究結(jié)果具有一定的可信度;立足于國(guó)內(nèi)城市公路交通事故,對(duì)城市公路交通事故的特征進(jìn)行分析,同時(shí)彌補(bǔ)了國(guó)內(nèi)相關(guān)研究中使用國(guó)外數(shù)據(jù)的現(xiàn)象,研究結(jié)論更契合我國(guó)城市公路交通現(xiàn)狀;應(yīng)用的數(shù)據(jù)挖掘技術(shù)具備針對(duì)數(shù)據(jù)本身、弱化代碼編寫的特點(diǎn),為交通事故的致因因子特征分析提供了一種合理且便捷的思路,且有利于向交通管理部門推廣。
武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版)2020年4期