何夢嬌 吳 戈▲ 梁 華 唐 倩
(1.蘇州大學(xué)軌道交通學(xué)院 江蘇 蘇州 215000;2.姑蘇交警大隊 江蘇 蘇州 215000;3.什邡市交通運輸局 四川 德陽 618400)
隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等新技術(shù)的迅速發(fā)展,“互聯(lián)網(wǎng)+”成為當(dāng)今經(jīng)濟發(fā)展新引擎。國家“十三五”交通運輸發(fā)展規(guī)劃中提出要基于互聯(lián)網(wǎng)及社會其他渠道獲取信息,深化信息資源利用,提高交通運輸決策的公眾參與度。2012年蘇州市政府主辦推動網(wǎng)絡(luò)論壇“寒山聞鐘”,開通“政風(fēng)熱線”,為市民發(fā)表訴求和建言提供平臺。蘇州交通廣播推出聽眾微信路況播報,收集和發(fā)布早、晚高峰實時路況。這三類數(shù)據(jù)構(gòu)成的蘇州交通輿情包含了市民對城市交通問題的咨詢、意見、建議以及態(tài)度等諸多信息,可為營造更好的交通環(huán)境、提高市民交通滿意度提供有價值的參考。
近年來,文本挖掘成為數(shù)據(jù)挖掘的重要領(lǐng)域,主要應(yīng)用在用戶感知、情緒分析、熱點話題識別信息提取[1-2]等諸多方面。然而基于文本挖掘技術(shù)的分析方法尚未系統(tǒng)地應(yīng)用到對不同來源的交通輿情研究中。本文基于蘇州市政府投訴平臺和交通廣播所獲得的文本數(shù)據(jù),利用文本挖掘技術(shù)研究交通輿情中的深層價值。本研究可對交通輿情進(jìn)行快速跟蹤分析,從中提取市民真實出行需求及其變化趨勢,對管理部門宏觀審視城市交通問題、及時發(fā)現(xiàn)和制定有效解決方案具有重要意義。
筆者用文本挖掘技術(shù)對多源交通輿情進(jìn)行全面深入的分析,其流程見圖1。
圖1 交通輿情文本挖掘的流程Fig.1 Process of traffic public opinion mining
對所收集的交通輿情數(shù)據(jù),首先進(jìn)行預(yù)處理:第一步,利用搜狗詞庫及自定義詞庫用R語言編寫程序進(jìn)行自動分詞,其中自定義詞庫添加交通事件、交通基礎(chǔ)設(shè)施等專業(yè)詞匯以及蘇州市道路、地物名稱等信息,以提高分詞準(zhǔn)確性;第二步,同義詞歸并,將幾個同義詞歸結(jié)為某一詞匯,比如信號燈、交通信號等均作為紅綠燈處理;第三步,詞頻統(tǒng)計,按照同1個詞匯在1條文本記錄中多次出現(xiàn)時只計1次的原則,計算各詞匯在全部數(shù)據(jù)中出現(xiàn)的頻次;第四步,利用向量空間模型[3]建立文本向量,將文本轉(zhuǎn)換為計算機可識別的格式;第五步,用文檔頻率法[4]篩選關(guān)鍵詞,提取文本特征集。
數(shù)據(jù)預(yù)處理后,筆者分別采用支持向量機(SVM)模型[5]對交通輿情的主題內(nèi)容進(jìn)行快速自動分類;使用對應(yīng)分析[6]方法探究不同方式獲取的關(guān)鍵詞之間的差異和聯(lián)系,總結(jié)不同文本源的數(shù)據(jù)特點;利用關(guān)聯(lián)規(guī)則Apriori算法針對具體問題深入挖掘,抽取特殊的交通事件或道路,對關(guān)鍵詞進(jìn)行關(guān)聯(lián)分析,明確不同交通現(xiàn)象產(chǎn)生的原因;關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)則用來描述文本當(dāng)中詞與詞之間的關(guān)系,定量地確定各關(guān)鍵詞在交通輿情中的地位,從而清晰地展現(xiàn)交通輿情熱點及其演變。
本文收集了3種不同來源的輿情數(shù)據(jù)。其中,蘇州市姑蘇區(qū)2016年交通環(huán)境的投訴建議分別來自“寒山聞鐘”論壇(695條,以下簡稱論壇數(shù)據(jù))和政風(fēng)熱線電話(1 179條,簡稱電話數(shù)據(jù))。2016年2月23日—4月15日期間聽眾微信播報的早晚高峰路況信息來自蘇州交通廣播(3 507條,以下簡稱微信數(shù)據(jù))。
姑蘇區(qū)投訴建議數(shù)據(jù)的分詞示例見表1,對語義沒有影響的助詞已被刪除。
表1 投訴建議的分詞結(jié)果示例Tab.1 Examples of word segmentation of complaints
微信數(shù)據(jù)是聽眾用語音描述的實時交通狀況,剔除虛詞、口頭語以及重復(fù)內(nèi)容后,一般較為簡短,見表2。
對分詞后的文本,統(tǒng)計各詞語出現(xiàn)的頻率。
表2 微信語音路況的分詞示例Tab.2 Examples of word segmentation of real-time traffic information
表3按照詞義,分基礎(chǔ)設(shè)施、交通組織、交通秩序、道路、地物等,列出了論壇數(shù)據(jù)和電話數(shù)據(jù)中的高頻詞及其出現(xiàn)的頻率,其中空白數(shù)據(jù)表示其所占比例低于0.01。從論壇數(shù)據(jù)高頻詞看出,53%的交通基礎(chǔ)設(shè)施中出現(xiàn)了紅綠燈(及其同義詞),遠(yuǎn)多于其他詞匯,隔離欄、停車位以及標(biāo)志出現(xiàn)的次數(shù)相當(dāng)。從交通組織看,左轉(zhuǎn)、右轉(zhuǎn)出現(xiàn)的次數(shù)相近,且遠(yuǎn)多于其他詞匯。左右轉(zhuǎn)交通與交通信號密切相關(guān),因此解決好交通信號的設(shè)置、配時等問題,有可能大幅度減少市民的投訴。另一方面,改造和施工出現(xiàn)的次數(shù)也較多,說明施工和改造等交通建設(shè)項目對投訴也有較大影響。從交通秩序來看,描述交通狀況表象的擁堵一詞出現(xiàn)的次數(shù)最多,其次是違?,F(xiàn)象,需要加強監(jiān)管。
因為交通問題普遍存在于城市各地區(qū),所以投訴中道路、地物詞匯分布較為廣泛,出現(xiàn)的最高頻次卻明顯少于其他詞匯。投訴最多的道路有人民路、勞動路、西環(huán)路等,但這些道路并非與地物中的金閶新城、平江新城等重疊,說明投訴中出現(xiàn)的道路和地物均反映了對相關(guān)區(qū)域內(nèi)交通狀況的不滿。
通過比較發(fā)現(xiàn), “南山金城”等地物及“禁鳴” “減速帶” “逆行”詞語在電話中作為高頻詞,在論壇中卻較少出現(xiàn),說明這2種渠道的輿情內(nèi)容有一定差異。
表3 投訴建議中主要高頻詞出現(xiàn)的頻率Tab.3 Frequency of keywords in complaints
微信數(shù)據(jù)中頻繁出現(xiàn)描述實時路況的擁堵、追尾以及說明通行方向的西向東、南向北等詞匯。用文本挖掘中常用的詞云圖來展示微信數(shù)據(jù)中出現(xiàn)的道路的頻次,結(jié)果見圖2。
圖2 道路的詞云圖Fig.2 Word cloud of road names
由圖2可見,微信路況數(shù)據(jù)中提到最多的道路為婁江快速路、尹山大橋、南環(huán)高架等城市快速路及其相關(guān)路段,姑蘇區(qū)的人民路、勞動路等出現(xiàn)較少。說明微信路況數(shù)據(jù)主要反映以快速路為代表的全市道路交通狀況。
由于論壇與電話投訴主題范圍較廣,為便于管理部門更有效地從中發(fā)現(xiàn)市民對城市交通問題的訴求及解決方案,有必要根據(jù)投訴的主題內(nèi)容對其快速自動分類。圖3是本文創(chuàng)建的分類模型的具體類別及主要特征詞例。
圖3 主題類別及其特征詞匯Fig.3 Topic classifications and feature words
以隨機抽取的500條論壇數(shù)據(jù)作為訓(xùn)練集,剩余的195條作為測試集。經(jīng)過比較發(fā)現(xiàn),采用軟邊緣參數(shù)為1的線性核函數(shù)時,SVM模型的分類結(jié)果準(zhǔn)確率最高。表4對比了測試集的人工分類與SVM模型分類的結(jié)果,正確率達(dá)到92.3%,其中交通基礎(chǔ)設(shè)施、道路交通狀況與秩序的分類正確率為100%。分類誤差的主要原因是投訴文本中有錯別字或一條投訴中包含多個主題。
表4 SVM分類結(jié)果Tab.4 Results of SVM classification
用經(jīng)過訓(xùn)練的自動分類模型對電話數(shù)據(jù)進(jìn)行分類,與論壇數(shù)據(jù)分類結(jié)果相對比(見圖4)后發(fā)現(xiàn),交通基礎(chǔ)設(shè)施問題在電話數(shù)據(jù)中占63.2%,在論壇數(shù)據(jù)中占40%,說明市民對加強和改善交通基礎(chǔ)設(shè)施建設(shè)的訴求非常強烈,也反映出姑蘇區(qū)的交通基礎(chǔ)設(shè)施建設(shè)仍存在很大問題。
圖4 投訴分類統(tǒng)計圖Fig.4 Statistical chart of classificationof complaints
對3種不同來源的輿情數(shù)據(jù)高頻詞進(jìn)行對應(yīng)分析,可以明確各數(shù)據(jù)源關(guān)鍵詞的特點,結(jié)果見圖5。圖中關(guān)鍵詞的因子載荷值越接近,其對應(yīng)關(guān)系越緊密??拷鴺?biāo)軸的關(guān)鍵詞沒有顯著特征,即各種數(shù)據(jù)中都會出現(xiàn)該關(guān)鍵詞,如車道、紅綠燈、事故、交叉口等。由圖5可見,電話數(shù)據(jù)中頻繁出現(xiàn)人民路、公交車、停車、標(biāo)志、隔離欄等詞語,而行人、非機動車道、機動車、左轉(zhuǎn)、右轉(zhuǎn)、掉頭等與論壇數(shù)據(jù)聯(lián)系密切,說明電話數(shù)據(jù)多涉及公共交通以及與安全、停車有關(guān)的交通設(shè)施,而論壇數(shù)據(jù)更多反映慢行交通與機動車交通的沖突、交叉口交通組織等問題。與微信路況聯(lián)系最緊密的有擁堵、相撞、追尾、匝道、快速路以及表示方向的詞,與電話及論壇數(shù)據(jù)有明顯差異。另一方面,電話數(shù)據(jù)中禁止、取消、最好等詞頻繁出現(xiàn),暗示其中可能比其他數(shù)據(jù)更多地包含交通問題解決方案建議。
圖5 不同文本源的關(guān)鍵詞對應(yīng)分析Fig.5 Correspondence analysis of keywords in different text sources
由表3可知,2016年姑蘇區(qū)被關(guān)注最多的是人民路。這條市區(qū)南北干道從2012年開始地鐵施工,主要交叉口都采取了圍擋、禁左等措施,通行條件較差。地鐵施工末期的2016年2月下旬,對人民路開始進(jìn)行改造,直到2016年12月中旬全部施工結(jié)束后才完全拆除了圍擋,恢復(fù)正常通行。
表5為人民路的關(guān)聯(lián)規(guī)則結(jié)果,支持度表示規(guī)則在所有文檔中出現(xiàn)的頻率,置信度表示在規(guī)則中前繼項集出現(xiàn)的前提下后繼項集出現(xiàn)的頻率,提升度表示在規(guī)則中包含前繼項集的條件下包含后繼項集的概率與不含前繼項集的條件下卻含后繼項集的概率之比。模型最小支持度閾值設(shè)為0.003,最小置信度閾值設(shè)為0.1,并篩選出提升度大于3的規(guī)則,關(guān)聯(lián)規(guī)則按置信度降序排列。支持度和置信度值相同表明規(guī)則的后繼項集出現(xiàn)的頻率相同??梢园l(fā)現(xiàn):與人民路同時出現(xiàn)頻率最高的詞匯有施工、改造、掉頭、禁止、標(biāo)志等,這說明道路施工期間的交通組織措施是使人民路成為輿情熱點的主要原因。{人民路=>平川路}這條規(guī)則的提升度明顯大于其他規(guī)則,說明平川路在投訴中單獨出現(xiàn)的概率較小,更多是在投訴人民路時提到平川路。
表5 人民路的關(guān)聯(lián)規(guī)則Tab.5 Association rules of Renmin Road
同樣,對出現(xiàn)頻率較高的其他道路、地物進(jìn)行關(guān)聯(lián)規(guī)則分析發(fā)現(xiàn),勞動路和西環(huán)路的主要問題是交叉口交通組織和道路設(shè)計;江宇路和蘇站路周邊住宅小區(qū)較多,存在慢行設(shè)施不完善、交通秩序治理欠缺等問題。市公安局一詞在論壇數(shù)據(jù)中頻繁出現(xiàn),主要和交通服務(wù)與管理的詞匯關(guān)聯(lián),而不是作為地點的代名詞出現(xiàn);電話數(shù)據(jù)中“南山金城”與“禁鳴”關(guān)聯(lián)密切,也反映出對于噪音污染等緊迫性較高的問題,市民可能更傾向用電話進(jìn)行投訴。
圖6為2016年各月份與人民路相關(guān)的投訴輿情數(shù)量的變化。在改造初期投訴數(shù)量略有增加,改造完成后投訴數(shù)量急劇上升。下面通過關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)具體分析產(chǎn)生該現(xiàn)象的原因。
圖6 不同月份人民路的投訴變化Fig.6 Monthly variation of complaints about Renmin Road
將2016年1-4月作為改造前期,5-11月作為改造期間,12月作為改造后期。對人民路改造各階段投訴內(nèi)容的關(guān)鍵詞進(jìn)行共現(xiàn)網(wǎng)絡(luò)分析,結(jié)果見圖7,由于這些關(guān)鍵詞均與“人民路”共現(xiàn),因此圖中省略人民路。圖中節(jié)點大小表示度中心性,連線代表關(guān)鍵詞共現(xiàn)次數(shù)。
圖7 人民路改造不同階段的投訴關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖Fig.7 Co-occurrence network of keywords of complaints about Renmin Road in different reconstruction phase
由圖7可見,隨著人民路改造階段的不同,市民投訴的內(nèi)容也發(fā)生相應(yīng)的變化。例如,在改造初期,“臨時” “通行”共現(xiàn)次數(shù)較為明顯,說明在改造初期,臨時通行等交通措施會引發(fā)投訴?!敖埂币辉~在初期主要承接“調(diào)頭” “直行”等詞匯,在中期還承接“標(biāo)志” “違規(guī)”等,說明施工期間的違規(guī)現(xiàn)象也引發(fā)較多投訴。另外,在改造完成后,人們對隔離欄、車道以及公交車投訴突然增多,并且與行人、不方便等詞共現(xiàn)明顯。這是因為,人民路由改造前的雙向4車道改為雙向5車道(包括2條公交專用道),道路中央增設(shè)了隔離欄,減少了路段中機動車調(diào)頭和左轉(zhuǎn)以及行人隨意穿越道路的可能性。由于不適應(yīng)新的通行方案,引發(fā)了一些爭議,出現(xiàn)了類似“人民路修好后比以前更不合理、更加擁堵”的抱怨。
圖8以“擁堵”為中心描繪了早晚高峰關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖??梢?,“擁堵”和大多數(shù)關(guān)鍵詞都存在共現(xiàn)關(guān)系,在早高峰與“西向東”共現(xiàn)次數(shù)最多,在晚高峰除了與“東向西”方向,與其他方向的共現(xiàn)次數(shù)均相對較多,這表明早高峰路況的整體擁堵方向是西向東,而晚高峰除了東向西,其他3個方向的擁堵情況也較為嚴(yán)重。 一些高架、快速路與出口之間連線較粗,如南環(huán)高架—濱河路—出口,表明在高架的出口處擁堵嚴(yán)重,需要加強快速路出口的交通組織和管理力度。從早高峰圖中看出, “某車輛” “剎車燈” “不亮了”聯(lián)系緊密,說明某些車輛自身故障也會引發(fā)聽眾播報。
圖8 微信實時路況的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖Fig.8 Co-occurrence network of keywords in real-time traffic information
在交通系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)越來越多的背景下,結(jié)合多種文本挖掘方法研究其價值有助于交管部門深入分析交通輿情,全面掌握城市交通問題,及時發(fā)現(xiàn)市民訴求的變化趨勢,以制定有效的交通治理方案。本文以2016年蘇州市姑蘇區(qū)相關(guān)的網(wǎng)絡(luò)論壇、熱線電話以及微信播報的交通輿情為對象進(jìn)行了實證分析。研究發(fā)現(xiàn),不同輿情渠道反映的城市交通問題有明顯的差異,需要對交通輿情進(jìn)行系統(tǒng)挖掘和比較分析,才能更深入地了解市民訴求的多樣性;蘇州市姑蘇區(qū)在交通基礎(chǔ)設(shè)施方面市民反應(yīng)較強烈,解決好道路交叉口信號設(shè)置、配時以及交通組織等問題,將會大幅度減少投訴。熱線電話多涉及公共交通以及與安全、停車有關(guān)的交通設(shè)施,而網(wǎng)絡(luò)論壇更多反映慢行交通與機動車交通的沖突、交叉口交通組織等問題。另一方面,市民能在一定程度上忍受地鐵施工和道路改造階段的不便,但對于新的交通管理方案的理解和支持還需要有關(guān)部門更廣泛的解釋說明以及實踐驗證。此外,蘇州市在早高峰呈現(xiàn)西向東擁堵嚴(yán)重的規(guī)律,需要針對擁堵規(guī)律制定適合的交通組織方案,且城市快速路在出口處擁堵最嚴(yán)重,應(yīng)進(jìn)一步加強城市快速路出口的交通組織和管理力度。
目前無法獲得投訴用戶及聽眾的社會經(jīng)濟屬性,今后如果能結(jié)合個人屬性分析不同用戶投訴的差異,對豐富交通輿情的分析內(nèi)容和制定有針對性的交通改進(jìn)措施具有重要的意義。