閆鵬,張林
(華北理工大學(xué) 建筑工程學(xué)院,河北 唐山 063210)
上世紀80年代以來,我國智能交通系統(tǒng)逐步加速發(fā)展,目前,在城市交通管理、交通控制以及交通規(guī)劃等領(lǐng)域智能交通系統(tǒng)得到廣泛應(yīng)用。在城市智能交通系統(tǒng)的發(fā)展過程中,雖然城市道路交通擁堵的緊張形勢得到了有效緩解,但是通過車輛檢測器、電子警察抓拍以及GPS定位系統(tǒng)等智能交通數(shù)據(jù)采集設(shè)備產(chǎn)生了數(shù)據(jù)量巨大的交通數(shù)據(jù),主要包含交通流量、道路事故以及車輛違法數(shù)據(jù),然而,交通大數(shù)據(jù)隱藏的價值信息尚未得到有效挖掘。
面對交通大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)存儲、處理以及分析方法已經(jīng)不能充分挖掘出具有高價值密度的數(shù)據(jù)信息。因此,目前城市交通系統(tǒng)面臨數(shù)據(jù)種類繁多以及價值密度較低等諸多問題,如何智能化分析交通大數(shù)據(jù),成為制約實現(xiàn)城市交通良好發(fā)展目標的瓶頸,必須積極采取有效措施加以解決。通過采用合適高效的數(shù)據(jù)挖掘方法,分析交通流量、道路事故以及車輛違法數(shù)據(jù)的時間或者空間特征,力爭為城市交警部門準確判斷道路交通運行狀態(tài)效果、道路事故和車輛違法預(yù)警提供具有參考價值的建議[1-3]。
當今,以Hadoop大數(shù)據(jù)平臺為代表的新興大數(shù)據(jù)技術(shù)在處理大數(shù)據(jù)時表現(xiàn)不凡,為高效分析交通大數(shù)據(jù)難題提供了有效解決途徑。通過采用Hadoop大數(shù)據(jù)平臺智能分析城市交通大數(shù)據(jù)時空分布特征,可以深度挖掘交通大數(shù)據(jù)的潛在價值信息,為城市交通管理提供理論及技術(shù)支持,有效提升城市交通系統(tǒng)管理水平[4-5]。
1997年,加拿大Robert教授首次應(yīng)用詞頻統(tǒng)計方法[6-7]解決了所在領(lǐng)域研究的熱點問題,2002年,國內(nèi)梁立明和邱均平2位教授首次采用詞頻統(tǒng)計方法分析相關(guān)問題的發(fā)展狀況以及變化趨勢。在諸多專業(yè)領(lǐng)域數(shù)據(jù)特征分析挖掘研究時,詞頻統(tǒng)計方法得到了廣泛的應(yīng)用。詞頻統(tǒng)計方法的原理即根據(jù)用戶需求統(tǒng)計指定關(guān)鍵詞的頻率,并按照指定的關(guān)鍵詞頻率高低排列,進而分析所研究問題的本質(zhì)特征。該方法的實質(zhì)在于統(tǒng)計規(guī)定的文件內(nèi)特定詞語出現(xiàn)的頻率,可根據(jù)分析統(tǒng)計結(jié)果得到特定詞語的分布特征規(guī)律。
目前,應(yīng)用詞頻統(tǒng)計方法挖掘數(shù)據(jù)方式主要為人工統(tǒng)計,此種方式極大降低了大數(shù)據(jù)計算效率。此外,詞頻統(tǒng)計分析小樣本量數(shù)據(jù)不足以說明數(shù)據(jù)分布特征,必須具備充足數(shù)據(jù)量才可明確數(shù)據(jù)的隱藏的價值信息,因此,該方法適用于交通大數(shù)據(jù)的智能特征分析研究。
由于CentOS7系統(tǒng)具有良好的穩(wěn)定性以及極高的安全性等優(yōu)勢,因此,選擇CentOS7系統(tǒng)作為Hadoop集群運行環(huán)境,并安裝配置相應(yīng)的基礎(chǔ)運行文件,保障Hadoop集群正常運行。交通大數(shù)據(jù)智能特征分析需要不斷調(diào)試編譯MapReduce程序以及綜合考慮數(shù)據(jù)分析平臺前期開發(fā)和后期Hadoop集群部署的便捷性,因此,Hadoop集群采用偽分布式安裝模式部署。偽分布Hadoop集群軟件[8-11]配置如表1所示。
表1 Hadoop集群軟件配置
Hadoop集群正常運行需要安裝合適JDK(Java Development Kit)開發(fā)環(huán)境,因此,下載JDK1.8版本壓縮包并安裝,在CentOS7.2操作系統(tǒng)中終端輸入java-version命令查看JDK是否成功安裝,圖1所示表明JDK 1.8成功安裝。
圖1 JDK成功安裝界面
在上述步驟安裝之后,即可安裝配置Hadoop集群,Hadoop集群配置文件分別為core-site.xml文件、hdfs-site.xml文件、mapred-site.xml文件以及yarn-site.xml文件配置。Hadoop集群主要文件完成環(huán)境配置,運行CentOS7.2操作系統(tǒng)終端輸入./start-all.sh命令查看偽分布式Hadoop集群是否可以正常啟動,輸入jps查看Hadoop集群所有進程進程是否配置成功。Hadoop集群節(jié)點正常啟動如圖2所示。
圖2 Hadoop集群正常啟動
基于Hadoop平臺的交通大數(shù)據(jù)智能特征分析研究,主要包含3個關(guān)鍵步驟,分別為讀取配置文件、創(chuàng)建Job(設(shè)置Job運行主類)以及設(shè)置Job,其中,設(shè)置Job步驟主要包含Input和Output階段、Map階段、Shuffle階段以及Reduce階段。詞頻統(tǒng)計MapReduce實現(xiàn)流程如圖3所示。
(1)Input和Output階段
Input階段負責(zé)指定文件的輸入目錄位置以及將數(shù)據(jù)文件劃分為N個片段,片段的大小應(yīng)和HDFS分布式文件系統(tǒng)的Block大小(64MB)相符合。Output階段主要負責(zé)整理以及輸出數(shù)據(jù),并將輸出文件存儲于指定目錄位置。
(2)Map階段
該階段以解析以及實現(xiàn)Map函數(shù)為核心,計算處理輸入數(shù)據(jù)片段的鍵值對
(3)Shuffle階段
將Map階段具有相同key值的鍵值對劃分為一組,并將具有相同key值的數(shù)據(jù)傳遞至相同的Reduce階段。
(4)Reduce階段
根據(jù)Reduce函數(shù)處理具有相同key值的鍵值對,并將最終分析結(jié)果寫入HDFS分布式文件系統(tǒng)存儲。
圖3 詞頻統(tǒng)計MapReduce實現(xiàn)流程
城市交通數(shù)據(jù)主要包含交通流量數(shù)據(jù)、道路事故數(shù)據(jù)以及車輛違法數(shù)據(jù)3種數(shù)據(jù),由于所研究的城市交通數(shù)據(jù)采集設(shè)備受限以及保密性原則等原因,該項研究主要以城市交通道路事故數(shù)據(jù)為例,開展基于Hadoop平臺的交通大數(shù)據(jù)智能特征分析研究,力爭通過分析道路事故數(shù)據(jù)的時空分布特征規(guī)律,為城市交通管理良好發(fā)展提供技術(shù)以及數(shù)據(jù)支持。
采集的道路事故數(shù)據(jù)來源于某市交警支隊所屬城市道路事故數(shù)據(jù)管理系統(tǒng),采集時間間隔為2019年1月1日至8月31日,共計30903起道路交通事故,包含8個月的交通事故的報警時間、地址類型、事發(fā)地址、報警細類(事故類型)等內(nèi)容,并將采集的數(shù)據(jù)存儲在HDFS分布式文件系統(tǒng),道路事故數(shù)據(jù)示例以及數(shù)據(jù)項描述分別如表2和表3所示。
表2 道路事故數(shù)據(jù)示例
表3 道路事故數(shù)據(jù)項描述
3.2.1 時間特征分析
(1)小時特征分析
根據(jù)Hadoop數(shù)據(jù)平臺智能分析存儲于HDFS分布式文件系統(tǒng)的道路事故數(shù)據(jù),道路事故發(fā)生數(shù)小時分布的結(jié)果如圖4所示。從小時分布特征角度分析,道路事故發(fā)生數(shù)小時分布呈波動式變化趨勢,在上午9時事故發(fā)生數(shù)達到最大值為2 473起,凌晨4時事故數(shù)達到最小值為77起。上午7時至晚上19時時間段內(nèi),不同小時事故發(fā)生數(shù)高于小時事故發(fā)生次數(shù)平均值1 287起。此外,上午8時至中午11時以及下午17時至18時,兩個時間段內(nèi)不同小時事故數(shù)均達到2 000起以上,屬于道路事故發(fā)生率較高時段。
圖4 道路事故發(fā)生數(shù)小時分布
從報警細類發(fā)生數(shù)角度分析,不同小時報警細類主要以機動車與機動車以及機動車與非機動車報警細類居多,非機動車與行人報警細類占比相對于其它報警細類較少;根據(jù)不同報警細類發(fā)生數(shù)小時分布圖5可知,不同報警細類發(fā)生數(shù)最低值均處于夜晚0時至凌晨4時,然而,單車肇事以及非機動車與行人報警細類發(fā)生數(shù)最大值,分別處于下午15時以及上午9時,其它4種報警細類均處于8時,在7時至21時時間段內(nèi)不同報警細類發(fā)生數(shù)高于其它時段。
圖5 不同報警細類發(fā)生數(shù)小時分布
(2)日特征分析
分析道路事故發(fā)生數(shù)時間特征分布,不僅可通過小時周分布體現(xiàn),也可以通過統(tǒng)計分析日期分布特征體現(xiàn),通過編寫并運行MapReduce程序?qū)Σ煌掌诘缆肥鹿拾l(fā)生數(shù)分類統(tǒng)計,具體統(tǒng)計分析結(jié)果如圖6和圖7所示。根據(jù)道路事故發(fā)生數(shù)日期分布圖6可知,不同日期道路事故發(fā)生數(shù)基本在均值997起(占比3%)上下浮動,事故發(fā)生數(shù)日期分布相對穩(wěn)定。但是,不同日期的事故發(fā)生率較高,多數(shù)日期發(fā)生的事故數(shù)在970起以上,13日至26日期間事故發(fā)生數(shù)略高于其它日期,17日發(fā)生道路事故發(fā)生數(shù)最多共1086起,日期事故數(shù)占比達4%。
圖6 道路事故發(fā)生數(shù)日期分布
從不同報警細類發(fā)生數(shù)角度分析,由圖7可知,不同報警細類發(fā)生數(shù)日期分布整體相對穩(wěn)定,不同日期的報警細類主要以機動車與機動車以及非機動車與機動車類型居多,機動車與機動車報警細類日期發(fā)生數(shù)均值為677起,多半數(shù)日期機動車與機動車發(fā)生數(shù)超過該報警細類發(fā)生數(shù)均值,尤其在1日、10日、15日至17日以及24日至25日等12 d該報警細類發(fā)生數(shù)均在700起及以上,屬于機動車與機動車報警細類高發(fā)日期。非機動車與機動車報警細類發(fā)生數(shù)分布基本在均值199起上下變化,在23日該報警細類發(fā)生數(shù)達到日期分布最高值為234起。此外,諸如單車肇事以及非機動車與非動車報警細類日期發(fā)生數(shù)均在60起以下,與機動車與機動車以及非機動車與機動車報警細類相比而言,屬于低發(fā)報警細類類型。
圖7 不同報警細類發(fā)生數(shù)日期分布
(3)周特征分析
采用Hadoop數(shù)據(jù)平臺智能詞頻統(tǒng)計道路事故發(fā)生數(shù),道路事故發(fā)生數(shù)以及不同報警細發(fā)生數(shù)周分布分別如圖8和圖9所示。根據(jù)事故發(fā)生數(shù)周分布圖8可知,道路事故發(fā)生數(shù)周分布差異性較大,例如,周二事故發(fā)生數(shù)和周六事故發(fā)生數(shù)相差約600起。對比道路事故發(fā)生數(shù)周分布也可知,周五和周六道路事故發(fā)生數(shù)較高,周二和周日道路事故數(shù)較低,周六為道路事故發(fā)生數(shù)周分布最大值,周二道路事故發(fā)生數(shù)為周分布最低值。
根據(jù)不同報警細類發(fā)生數(shù)周分布圖9可知,不同報警細類周分布特征相對穩(wěn)定。與其它報警細類相比,不同報警細類發(fā)生數(shù)周分布中機動車與機動車報警細類占比最高,非機動車與行人報警細類占比最低。此外,在周五非機動車與非機動車、非機動車與行人以及機動車與行人報警細類發(fā)生數(shù)均達到最高值,單車肇事、機動車與非機動車以及機動車與機動車報警細類發(fā)生數(shù)分別在周一、周三以及周六達到最高值。
圖8 道路事故發(fā)生數(shù)周分布
圖9 不同報警細類發(fā)生數(shù)周分布
3.2.2空間分布特征
根據(jù)采集的道路事故數(shù)據(jù)以及實地調(diào)研結(jié)果可知,該市交警部門主要將主城區(qū)劃分為5個管轄區(qū)域,因此,將道路事故數(shù)按照不同區(qū)域以及不同報警細類分類統(tǒng)計,以便分析不同區(qū)域事故形態(tài)特征分布規(guī)律,經(jīng)過Hadoop數(shù)據(jù)平臺智能詞頻統(tǒng)計分析結(jié)果如圖10所示。
圖10 道路事故發(fā)生數(shù)區(qū)域分布
從區(qū)域事故發(fā)生數(shù)角度分析,由圖10可知,該市道路事故主要發(fā)生B區(qū)域以及E區(qū)域,2個區(qū)域事故發(fā)生數(shù)占比高于其它區(qū)域事故發(fā)生數(shù)占比,B區(qū)域事故發(fā)生數(shù)9 038起,屬于道路事故高發(fā)區(qū)域。根據(jù)不同報警細類區(qū)域分布表4可知,5個管轄區(qū)域不同報警細類分布規(guī)律較為明顯且變化趨勢相對穩(wěn)定。在5個管轄區(qū)域中,機動車與機動車、機動車與非機動車仍然屬于報警細類高發(fā)類型,2種報警細類發(fā)生數(shù)占比分別在67%和20%左右變化,高于其它3種報警細類發(fā)生數(shù)占比。其中,在B區(qū)域以及E區(qū)域機動車與機動車報警細類發(fā)生數(shù)均達到6 000起,高于其它5種報警細類發(fā)生數(shù)占比。此外,不同區(qū)域非機動車與行人報警細類發(fā)生數(shù)占比均為1%,低于其它報警細類發(fā)生數(shù),屬于低發(fā)報警細類類型。
表4 不同報警細類區(qū)域分布
(1)基于大數(shù)據(jù)分布式并行計算技術(shù),采用HDFS分布式文件系統(tǒng)實現(xiàn)了城市交通道路事故大數(shù)據(jù)的分布式存儲;采用MapReduce分布式計算框架并行化詞頻統(tǒng)計方法的技術(shù),以某城市道路事故數(shù)據(jù)為例,從道路事故發(fā)生數(shù)以及報警細類2個方面,智能分析了道路事故數(shù)據(jù)的時空分布特征,明確了道路事故時間分布特征和空間分布特征規(guī)律。
(2)根據(jù)道路事故特征分析結(jié)果可知,從城市道路事故發(fā)生數(shù)角度分析,道路事故發(fā)生數(shù)小時分布呈波動式變化趨勢,上午8時至中午11時以及下午17時至18時,屬于道路事故發(fā)生率較高時段;道路事故發(fā)生數(shù)日分布相對穩(wěn)定,13日至26日期間事故發(fā)生數(shù)略高于其它日期;道路事故發(fā)生數(shù)周分布相對穩(wěn)定,周五和周六道路事故發(fā)生數(shù)較高,周二和周日道路事故數(shù)較低;道路事故主要發(fā)生B區(qū)域以及E區(qū)域,2個區(qū)域事故發(fā)生數(shù)占比高于其它區(qū)域事故發(fā)生數(shù)占比。此外,從城市道路事故報警細類角度分析,城市道路事故主要以機動車與機動車、機動車與非機動車2種報警細類為主,非機動車與行人報警細類為報警細類低發(fā)事故類型。