丁子羿,湯文蘊,鐘天辰
(南京林業(yè)大學汽車與交通工程學院,江蘇 南京 210037)
越來越多的網民通過各大自媒體平臺發(fā)表自身對于城市交通運行狀態(tài)的意見。對于交通領域的輿情信息進行挖掘和研究,能夠更好地為交通管理者提供決策依據(jù)并為公眾出行提供最優(yōu)質的服務。程思琪[1]通過微博挖掘了城市交通事件中意見領袖在輿情傳播和治理中的作用,分析出交通輿情領域單態(tài)意見領袖相較于多態(tài)領袖的不足;付志峰[2]根據(jù)城市軌道交通突發(fā)事件的特征,提出并創(chuàng)新了軌道交通輿情的應對策略;苑虎[3]等構建了考慮交通影響因素的應急疏散需求模型,研究出應急疏散需求曲線的宏觀特征;潘攀[4]以成都市城市軌道交通突發(fā)網絡輿情為例,分析了輿情引導機制中存在的問題,借鑒國外軌道交通輿情引導的經驗,對現(xiàn)有對策提出了改進建議;湯麗華[5]基于LSTM 網絡理論,提出公路交通輿情情感分析的創(chuàng)新方法及監(jiān)測系統(tǒng);滕靖[6]根據(jù)輿情周期理論構建了交通網絡輿情的分析方法,相較于傳統(tǒng)方法更具適用性。目前,國內學者針對交通輿情的挖掘研究較少,對于城市道路運行狀態(tài)的研究很少與網絡輿情相結合。
根據(jù)“一城三區(qū)”戰(zhàn)略的實施,目前南京市形成了以都市區(qū)為主的交通發(fā)展經濟圈,一些主要道路成為了能夠明顯反映交通參與者對城市道路交通滿意度的熱點地區(qū)。但隨著機動車保有量的增加,市區(qū)道路擁堵情況日益嚴重,高架立交和出城公路的通行不暢,使得市區(qū)道路接近飽和。為了更好地梳理城市交通,需要了解民眾對于城市道路交通的看法和建議,通過分析輿情的指向來對道路及周邊交通基礎設施進行改進。擬選取兩個不同的交通熱點地區(qū),收集這兩個地區(qū)的交通輿情信息并進行分析。
本文選擇南京市玄武湖隧道和玄武大道作為城市交通運行狀態(tài)輿情的研究區(qū)域,以“玄武湖隧道”、“玄武大道”、“交通”為關鍵詞在微博抓取了2021 年2 月1日—4月1日的數(shù)據(jù),爬取的數(shù)據(jù)以csv文件形式進行存儲。
考慮到爬取的數(shù)據(jù)中含有大量與主題無關的內容,因此需要對抓取的文本進行預處理。本文采用的預處理方式包括文本刪除、中文分詞和去停用詞,最終得到玄武湖隧道和玄武大道的交通運行狀態(tài)輿情文本11387條。
數(shù)據(jù)預處理后,通過高頻詞統(tǒng)計和詞云圖繪制初步了解交通輿情文本的主題信息,采用Python 的WordCloud 包對統(tǒng)計得到的15683 個不重復的原始關鍵詞進行詞云圖繪制[7]。由圖1可知,擁堵、排隊、繞行等詞匯出現(xiàn)頻率最高,作為南京市玄武區(qū)的兩條主干道,每天有大量車流從兩地通行,在早晚高峰時段,常常發(fā)生道路擁堵,市民們通過交通廣播等途徑了解到路況信息后不得不繞行來避開擁堵路段。此外,交警對城市主干道車輛的指揮和管控也受到網友們的密切關注。
圖1 高頻詞詞云圖
本文的技術路線圖如圖2 所示,首先爬取交通運行狀態(tài)的微博文本,數(shù)據(jù)預處理后以csv 文件形式存儲。其次,基于SnowNLP 方法進行情感分析,展現(xiàn)出網民的情感狀態(tài)隨時間變化的趨勢圖。最后,通過LibSVM 法對所有文本進行分類,篩選出交通主題的文本。分別通過困惑度分析和主題強度計算得到相應的主題數(shù)量以及每個主題的占比。構建LDA主題模型,得到并分析城市道路交通運行狀態(tài)的消極主題詞。
圖2 技術路線圖
首先通過Python 對兩個事件的數(shù)據(jù)樣本進行訓練,設置情感輸出值大于0.55 時為積極情緒,情感輸出值在0.45-0.55之間時為中性情緒,情感輸出值小于0.45時為消極情緒。所得到的情感標注結果如圖3所示,由分類結果可知,積極評論占多數(shù),中性評論較少。
圖3 交通運行狀態(tài)數(shù)據(jù)情感分布統(tǒng)計
采用Python 的第三方庫SnowNLP 對每條微博文本進行情感分析,對每日微博文本的情感輸出結果取平均值,如圖4所示。
圖4 城市交通運行狀態(tài)情感趨勢圖
由分析結果可知,2 月1 日至4 月3 日期間民眾對玄武湖隧道和玄武大道交通運行狀態(tài)的整體情感波動較大,2月10日至2月12日正值春節(jié)期間,因疫情原因市民出行較少,交通狀態(tài)良好;2月22日由于新年期間返程高峰已過,工商業(yè)和小型餐飲業(yè)復工,導致當日的出行數(shù)量較多,兩條主干道較為擁堵,情感狀態(tài)偏消極;3月1日至3月4日由于是開學季和返程高峰,兩地道路擁堵嚴重,通行效率和服務水平較低,民眾情感狀態(tài)偏消極;3 月24 日18 時左右玄武湖隧道由北向南方向發(fā)生交通事故,造成大面積擁堵,整體情感狀態(tài)消極;其余時間段的消極情緒普遍集中于早晚高峰。
對情感分析的結果進行進一步分析,以一周的形式對微博文本進行分類,情感值統(tǒng)計周期圖如圖5所示。由圖可知,兩條主干道的交通參與者在周一、周五和周末的情感狀態(tài)均低于0.5,結合爬取的微博原文,2月19日玄武大道由東向西發(fā)生重大交通事故,2月21日玄武大道發(fā)生車輛追尾,造成道路擁堵,導致民眾情感狀態(tài)較消極。周四民眾的情感狀態(tài)為中性,周二、周三、周六為狀態(tài)積極,表明兩地車輛通行順暢,擁堵等因素對民眾情緒狀態(tài)的影響較小。
圖5 情感值統(tǒng)計周期圖
主題挖掘技術是文本挖掘領域中一種新的技術,一般用于對核心詞匯、短語或句子進行標識和抽取。可以定位出文本中的熱門主題,將挖掘得到的主題數(shù)據(jù)與時序信息相結合,能夠探究出輿情變化的規(guī)律并預測其未來的發(fā)展趨勢。主題概率模型法是主題挖掘技術中的主流方法,在挖掘微博文本時能夠充分考慮詞與詞之間的關系和語義特征[8],因此本文采用主題概率模型法進行主題挖掘分析。
首先通過LibSVM 法對預處理后的文本數(shù)據(jù)進行分類。在提取的11387 條數(shù)據(jù)中,交通路況新聞占3021 條(26.5%),交通運行狀態(tài)評論5987 條(52.6%),無關數(shù)據(jù)2379條(20.9%)[9]。
LDA(Latent Dirichlet Allocation)模型是一種常見的三層貝葉斯模型,可以將原本高維的詞空間縮減成由一組主題詞組成的小主題空間。LDA 的模型構建過程如圖6所示,其中,D 為文檔集合,α 和β 分別為主題分布θD和主題詞分布φ 的先驗分布參數(shù),z 和ω分別為模型生成的主題和最終的主題詞[10]。
圖6 LDA模型構成圖
通過計算文本的主題強度分布,可以分析出各個主題詞的熱度占比,主題強度占比越高,表示其熱度越高。計算公式如下:
其中,Sn表示主題詞為n 時的強度,θni表示主題為n 時文本i的概率大小。
在建模前進行主題困惑度計算,主題個數(shù)為3 時對應的困惑度值最小,因此構建LDA 模型時將主題個數(shù)設置為3。對文本進行主題強度分析,通過LDAvis多維縮放后得到事件下的Intertopic距離,如圖7所示,其中主題1占比最高,達到51.9%[11]。
圖7 主題強度分布
統(tǒng)計出每一組主題中出現(xiàn)頻率最高的5個消極詞匯,如表1 所示。由主題1、2 可知,玄武湖隧道和玄武大道雙向車流擁堵時給群眾帶來了不便和麻煩,上下班高峰時段的擁堵影響了道路的通行效率,影響了市民們上下班、回家的時間,產生大量消極情緒。主題3反映了網民對交通執(zhí)法情況的態(tài)度,醉酒駕駛及其他違規(guī)駕駛行為都會危及其他駕駛員的生命安全,這對道路執(zhí)勤人員也是一個重大挑戰(zhàn),網民對交警給予了很高的期望[12]。LDA 模型主題詞的概率分布結果如圖8~圖10所示。
表1 消極主題詞表
圖8 消極主題詞1概率分布
圖9 消極主題詞2概率分布
圖10 消極主題詞3概率分布
本文采用情感分析和主題挖掘協(xié)同分析的方法,對微博爬取的交通運行狀態(tài)輿情文本進行了分析。根據(jù)分析結果和兩條城市道路的實時路況信息,得出以下結論:
⑴玄武湖隧道花季往來車流較多,由北向南道路的擁堵情況較為嚴重。交通違法行為和車流堵塞是影響民眾情感趨勢的主要因素;
⑵玄武大道雙向車道車流通行量大,內環(huán)公路和繞城公路基礎設施建設良好,車流通行能力強,相關的消極主題詞較少。
本文的研究為交通管理者和輿情管理人員提供了一種新思路,通過挖掘多自媒體平臺交通輿情信息,可以更全面地了解城市道路交通運行狀態(tài)存在的問題,輿情監(jiān)管者從而可以更好地引導交通輿情的走勢。