趙己周,楊 穎
(1.天津市市政工程設(shè)計(jì)研究院,天津 300051; 2.同濟(jì)大學(xué),上海 201804)
近年來,世界各大城市都面臨著常規(guī)公交客流持續(xù)下降的困境,造成這一現(xiàn)象的外因主要有軌道交通、私家車以及出租車(含網(wǎng)約車)的分流作用,內(nèi)因則是常規(guī)公交系統(tǒng)自身的服務(wù)水平較低,吸引力不足,無法適配居民日益多元的出行需求[1-2]。以天津市常規(guī)公交系統(tǒng)為例,由于城市人口規(guī)模趨于穩(wěn)定造成的居民出行總規(guī)模基本穩(wěn)定,加之軌道交通網(wǎng)絡(luò)不斷織密,對主要通道上客流的吸引作用日益增強(qiáng),導(dǎo)致天津市常規(guī)公交客流量自2015年以來逐年下滑(見圖 1),加之運(yùn)營公交所需的人工成本居高不下,造成公交系統(tǒng)的發(fā)展陷于停滯,企業(yè)經(jīng)營面臨困境。
在上述背景下,各地均對未來城市公共交通系統(tǒng)的發(fā)展進(jìn)行了布局規(guī)劃,并在規(guī)劃的過程中注重廣泛吸收公眾意見,常規(guī)的公眾意見征集形式主要有意見簿、調(diào)查問卷、群眾座談等,這些方式往往耗時(shí)較長且覆蓋的公眾范圍有限。社交媒體作為伴隨著互聯(lián)網(wǎng)發(fā)展而迅速成長的新型信息交互媒介,吸引了大量用戶在其中發(fā)表觀點(diǎn)、交流看法,也為規(guī)劃設(shè)計(jì)人員提供了大量免費(fèi)的一手信息。相較于傳統(tǒng)分析方法,基于網(wǎng)絡(luò)文本的分析方法具有時(shí)效性強(qiáng)、覆蓋面廣、調(diào)研成本低等優(yōu)勢,此外,利用網(wǎng)絡(luò)文本開展定量分析可有效避免主觀判斷、個(gè)人喜好等主觀性因素的干擾,有利于提高分析結(jié)果的客觀性和準(zhǔn)確性。近些年在國內(nèi)外均有一些學(xué)者在不同領(lǐng)域開展基于社交網(wǎng)絡(luò)信息的分析研究,F(xiàn)raedrich和Lenz通過搜集各大傳媒網(wǎng)站中的用戶評論,分析了公眾對于自動駕駛技術(shù)的看法及接受度[3]。Donchenko等人通過分析當(dāng)?shù)厣缃幻襟w中關(guān)于各類社會問題的貼文信息,嘗試研究社會發(fā)展過程中的隱藏規(guī)律以及決定不同社會群體情緒變化的因素[4]。黃思維抽取社交網(wǎng)絡(luò)中與交通擁堵相關(guān)的信息,對交通擁堵信息在社交網(wǎng)絡(luò)中的傳播機(jī)理及影響進(jìn)行分析[5]。潘美瑜等人以微博社交平臺為主要數(shù)據(jù)來源,利用網(wǎng)絡(luò)爬蟲技術(shù)實(shí)時(shí)獲取與城市交通系統(tǒng)相關(guān)的一系列文本數(shù)據(jù),實(shí)現(xiàn)對城市交通問題的事件特征提取與致因挖掘,同時(shí)研究文本背后的情感特征[6]。李丹妮和梁嘉依托新浪微博博文,對“上海垃圾分類”的相關(guān)討論開展輿情分析[7]。
圖1 天津市常住人口、常規(guī)公交年客運(yùn)量、軌道交通年客運(yùn)量變化圖(2006—2018年)
可見基于網(wǎng)絡(luò)傳媒的文本分析研究已在各個(gè)領(lǐng)域得到了應(yīng)用,本文嘗試以城市常規(guī)公交作為研究對象,提出一套完整的網(wǎng)絡(luò)文本分析方法,識別網(wǎng)民對于該話題的討論熱點(diǎn)以及情感取向,并以天津市為實(shí)例開展分析,嘗試對網(wǎng)民討論中提到的突出問題給出相應(yīng)改善策略。
在介紹具體的文本分析方法之前,首先定義以下術(shù)語:語料,即語言材料,在本文中特指單條的網(wǎng)民評論內(nèi)容;語料庫,指由一組語料構(gòu)成的語料集合。
準(zhǔn)確識別公共交通領(lǐng)域中的社會討論熱點(diǎn)可為規(guī)劃設(shè)計(jì)人員開展工作提供借鑒參考。討論熱點(diǎn)分析流程可以概括為語料分詞、單個(gè)語料關(guān)鍵詞提取以及語料庫關(guān)鍵詞提取。
1.1.1 語料分詞
語料分詞是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,由于西文的行文規(guī)則規(guī)定單詞間以空格作為自然分隔符,因此在西文語料的處理過程中較少涉及分詞問題;但在處理中文語料時(shí)此問題無法回避,目前中文分詞方法主要有基于詞典的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于構(gòu)詞的分詞方法[8]。本文采用基于詞典的分詞工具包——結(jié)巴分詞完成語料的分詞工作,其工作過程如下例:
“故宮的著名景點(diǎn)包括乾清宮、太和殿和午門等。其中乾清宮非常精美,午門是紫禁城的正門。”
經(jīng)分詞后的結(jié)果為:
“故宮/的/著名景點(diǎn)/包括/乾/清宮/、/太和殿/和/午門/等/。/其中/乾/清宮/非常/精美/,/午門/是/紫禁城/的/正門/?!?/p>
可以看出,“乾清宮”一詞未能被工具成功識別,此外,為便利后續(xù)操作,形如“的”、“是”、“和”以及標(biāo)點(diǎn)符號等不表達(dá)實(shí)際含義的字符(亦被稱為停用詞)宜從分詞結(jié)果中移除。因此,在對大規(guī)模語料進(jìn)行分詞操作前,建議首先構(gòu)建自定義詞典以及停用詞表,以保證較高的分詞準(zhǔn)確率。
經(jīng)重新優(yōu)化后的分詞結(jié)果為:
“故宮/著名景點(diǎn)/包括/乾清宮/太和殿/午門/乾清宮/精美/午門/紫禁城/正門”
1.1.2 單個(gè)語料關(guān)鍵詞提取
通常來說,如果某個(gè)詞在一條語料中出現(xiàn)的頻率較高,并且在整體語料庫中很少出現(xiàn),則認(rèn)為該詞具有很好的將該條語料與其它語料區(qū)分開的能力,適宜作為關(guān)鍵詞。TF-IDF算法正是以此思想為指導(dǎo),通過計(jì)算詞頻TF(Term Frequency)以及逆文檔頻率IDF(Inverse Document Frequency)實(shí)現(xiàn)語料關(guān)鍵詞的識別。
詞頻TF的計(jì)算方法如下:
(1)
由式(1)可知,若某個(gè)詞在單個(gè)語料中出現(xiàn)的次數(shù)越多,則該詞的詞頻值越大。
逆文檔頻率IDF的計(jì)算方法如下:
(2)
其中,lg代表求以10為底數(shù)的對數(shù),由式(2)可見,若語料庫中包含該詞的語料數(shù)越少,則該詞的逆文檔頻率值越大。
因此,詞i在語料j中TF-IDF值的計(jì)算方法由式(3)給出:
TF-IDFi,j-TFi,j×IDFi,
(3)
詞語在某一語料中的TF-IDF值越大,則說明這個(gè)詞越適宜作為該語料的關(guān)鍵詞。下面通過一個(gè)例子演示TF-IDF算法的實(shí)現(xiàn)過程(演示未包含對停用詞的處理),假設(shè)語料庫中共包含4條語料:
this is the first document
this is the second second document
and the third one
is this the first document
首先統(tǒng)計(jì)每個(gè)詞在各語料中的詞頻TF,得到詞頻矩陣(見表 1)。
表1 示例語料詞頻矩陣
之后計(jì)算每個(gè)詞的逆文檔頻率IDF(見表 2)。
最后將上述兩表中相對應(yīng)的元素相乘得到TF-IDF矩陣(見表 3)。
表3 示例語料TF-IDF矩陣
根據(jù)單個(gè)語料中各詞TF-IDF值的大小確定該語料的關(guān)鍵詞,如語料1的關(guān)鍵詞按照排序結(jié)果可取first,this,is,document以及the。
TF-IDF算法易于實(shí)現(xiàn)且執(zhí)行效率較高,但缺陷在于其對出現(xiàn)在文章不同位置的詞語均一視同仁,無法體現(xiàn)詞語出現(xiàn)位置對重要性的影響。
1.1.3 語料庫關(guān)鍵詞提取
對單個(gè)語料關(guān)鍵詞的提取結(jié)果進(jìn)行統(tǒng)計(jì)分析,得到能夠代表全體語料的關(guān)鍵詞。具體地,提取每個(gè)語料中按TF-IDF值降序排序后的前k個(gè)關(guān)鍵詞(若關(guān)鍵詞個(gè)數(shù)不足k個(gè),則按照實(shí)際個(gè)數(shù)提取),并對所有提取出的關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì)。
承接上例的結(jié)果,取k=2,得到全體語料關(guān)鍵詞頻次統(tǒng)計(jì)表(見表 4)。
網(wǎng)絡(luò)上紛繁的評論信息表達(dá)了人們的各種情感色彩和情感傾向,如喜、怒、哀、樂、批評、贊揚(yáng)等?;诖耍芯咳藛T可以利用這些帶有主觀色彩的評論了解大眾輿論對于某一事物的看法。
文本情感取向分析方法主要可分為基于情感詞典的情感分析方法和基于機(jī)器學(xué)習(xí)的情感分析方法[9]?;谇楦性~典的方法是從待測文本中提取特征詞后,在情感詞典中查找該特征詞的情感值,根據(jù)累加的情感值進(jìn)行情感分類?;跈C(jī)器學(xué)習(xí)的方法則先基于文本集訓(xùn)練得到分類器,再基于分類器實(shí)現(xiàn)對新文本的分類。
表4 示例語料關(guān)鍵詞頻次統(tǒng)計(jì)表
本文采用基于機(jī)器學(xué)習(xí)方法的情感分析工具包——SnowNLP進(jìn)行語義的情感取向分析,SnowNLP的結(jié)果取值介于0和1之間,表達(dá)文本代表正面情感的概率,即結(jié)果約接近于1表示情感表現(xiàn)越積極,反之則越消極。此工具包已由軟件開發(fā)者基于網(wǎng)購商品的評論數(shù)據(jù)進(jìn)行了訓(xùn)練,但為了適應(yīng)特定的文本環(huán)境,建議對模型進(jìn)行二次訓(xùn)練。
筆者首先在新浪微博中,以“天津”和“公交”為檢索條件篩選出兩個(gè)星期之內(nèi)有價(jià)值的微博語料共52條。在構(gòu)建了自定義詞典及停用詞表后,取得了較好的分詞效果,如下例:
原始語料:早上看到感人一幕,大贊我天津公交676司機(jī),幫助老人下公交車
分詞結(jié)果:早上/感人/大贊/司機(jī)/老人
對完成分詞后的單個(gè)語料進(jìn)行關(guān)鍵詞提取,并提取每條語料中的前10個(gè)關(guān)鍵詞,得到所有有效微博語料的關(guān)鍵詞頻次統(tǒng)計(jì)表(見表 5,其中頻次為1的關(guān)鍵詞已略去)。
表5 微博天津公交話題高頻詞表
云詞圖可以更加形象的展示頻次統(tǒng)計(jì)表所包含的信息(見圖 2),圖中字號大小基于詞語的出現(xiàn)頻次。
可以看到,網(wǎng)絡(luò)上關(guān)于天津公交的討論主要集中在“老人”、“司機(jī)”以及“時(shí)間”等話題。根據(jù)關(guān)鍵詞追溯原博文發(fā)現(xiàn)關(guān)于以上關(guān)鍵詞的討論主要有:
圖2 微博天津公交話題云詞圖
早上看到感人一幕,大贊我天津公交676司機(jī),幫助老人下公交車。
這是一個(gè)非常放松的城市,今天路上人很少,公交車上老人很多,我很懷疑年輕人都去哪里啦,太美好啦!
我好像終于知道為什么天津公交車大多數(shù)時(shí)候車上有至少70%的老人了——因?yàn)樗麄兂斯徊挥没ㄥX!
今天698公交車讓我感覺要飛起來了,天津的司機(jī)師傅太生猛了……,還怕不能放下手機(jī)享受生活?來天津做公交車吧!
初次來天津,今天印象最深的居然是652路公交車,雖然只坐了七八站,那感覺真的是:司機(jī)開車真的猛,柴油發(fā)動機(jī)馬力強(qiáng)勁,下意識地下車前提前站到后門,都有點(diǎn)站不穩(wěn)!哈哈知乎上看到這是津南三霸?
兩輛車前后腳發(fā)車,再后面一輛等20分鐘,能不能規(guī)范一下發(fā)車時(shí)間?始發(fā)站都如此混亂!
835路公交車,在王頂?shù)躺藤Q(mào)城公交站,在有車的情況下,拖延發(fā)車時(shí)間,請有關(guān)部門重視一下。我和母親在這邊等車等了超過四十分鐘,從12點(diǎn)55分左右一直等到發(fā)博。
可以看出,以上討論主要集中于老年人免費(fèi)乘公交車,公交車司機(jī)駕駛行為以及公交車運(yùn)營混亂等話題。
此外,對微博語料進(jìn)行情感分析的結(jié)果總體上較好地反映了語料的情感傾向。例如:“不過,作為城市的窗口,天津的大部分出租車和部分公交車司機(jī),素質(zhì)真的有待提高”的情感評分為0.045 0;
“現(xiàn)在的京津冀一體化帶來的交通便捷,真的是很好的體驗(yàn)。最近跑了天津河北,交通上無縫連接,都與北京地鐵無縫連接,公交地鐵都可以用北京的交通卡刷卡支付,隨便哪個(gè)車,跳上去,刷個(gè)手機(jī)就可以了”的情感評分為0.836 1。
然而,由于網(wǎng)絡(luò)語言具有表達(dá)形式自由以及語言不規(guī)范等特征,對于部分語料的情感分析結(jié)果不夠理想,如:“天津的公交車,還能再人性化一點(diǎn)嗎?這腿是真的放不下啊”!一句本是表達(dá)對公交車座位間隔的不滿,但由于語言表達(dá)形式的原因其情感評分結(jié)果為0.701 4。
通過所有微博語料情感評分結(jié)果的分布情況(見圖 3),可以看出公眾對天津市公交系統(tǒng)的評價(jià)總體上呈“兩極化”態(tài)勢,情感傾向表現(xiàn)為積極與消極的語料數(shù)量基本相同,說明天津市公交系統(tǒng)發(fā)展取得了一些成績,但仍在部分領(lǐng)域存在較大的改善空間。
圖3 微博天津公交話題情感傾向分布
綜合以上分析結(jié)果,筆者就公眾關(guān)注熱點(diǎn)對天津市常規(guī)公交系統(tǒng)的發(fā)展提出如下建議:
1)改革老年人乘車優(yōu)待制度。自2010年天津市實(shí)行65歲以上本地戶籍老年人免費(fèi)乘坐公交車政策以來,雖體現(xiàn)了社會對老年人的關(guān)愛,但政策設(shè)計(jì)的精細(xì)化程度不高,無形中正向刺激了老年人的乘車需求,由此派生出相當(dāng)比例的非剛性出行,增加了高峰時(shí)期的車內(nèi)擁擠度,增加了公交企業(yè)承擔(dān)的風(fēng)險(xiǎn)和壓力,形成對社會公共資源的擠占。此外,不常乘坐公交車的老年人無法享受這項(xiàng)政策帶來的實(shí)惠,也引發(fā)對于這項(xiàng)政策公平性的質(zhì)疑。建議天津可仿效上海的做法,上海市在2016年由老年人綜合津貼制度替代了之前的免費(fèi)乘車制度[10],采取每個(gè)月無差別地為所有老人發(fā)放一定數(shù)額津貼的方式,抑制了部分非剛性出行,體現(xiàn)了老年人福利政策的均等化,取得良好效果。
2)加強(qiáng)對駕駛員及車輛運(yùn)營的管理。2019年9月,《天津市公共汽車運(yùn)營成本規(guī)制辦法(試行)》及其三個(gè)配套辦法正式實(shí)行,辦法中設(shè)定了運(yùn)營服務(wù)質(zhì)量考核辦法,考核結(jié)果與財(cái)政補(bǔ)貼直接掛鉤,由此激勵公交運(yùn)營企業(yè)不斷提高經(jīng)營效率和服務(wù)水平,提升群眾滿意度。辦法實(shí)施以來取得了一定效果,但仍與公眾期待存在差距,建議今后針對群眾反映的熱點(diǎn)內(nèi)容繼續(xù)修訂完善考核辦法。
城市公共交通系統(tǒng)是實(shí)現(xiàn)城市交通可持續(xù)發(fā)展的重要組成部分,在其發(fā)展過程中需要廣泛吸收公眾的意見建議。為此,本文提出了一套完整的基于社交媒體信息的文本分析方法,并以天津市為實(shí)例開展分析,識別網(wǎng)民對于天津市公交系統(tǒng)的討論熱點(diǎn)以及情感取向,最后針對網(wǎng)民討論較為集中的問題給出相應(yīng)改善策略。本文提出的文本分析方法簡便高效,可快速抽取大量文本中的關(guān)鍵信息,輔助相關(guān)工作開展;但社交媒體信息通常單體篇幅較短且表達(dá)形式較為隨意多樣,可能會對識別精度產(chǎn)生影響,因此在開展實(shí)際業(yè)務(wù)時(shí),需首先對所采用的工具進(jìn)行有針對性的優(yōu)化訓(xùn)練。