沈洪洲, 居 玥
(1 南京郵電大學(xué)管理學(xué)院, 南京 210003; 2 南京郵電大學(xué)信息產(chǎn)業(yè)融合創(chuàng)新與應(yīng)急管理研究中心, 南京 210003)
2021 年鄭州720 暴雨給應(yīng)急信息管理機(jī)構(gòu)帶來了嚴(yán)峻的挑戰(zhàn)。 在這一過程中,全社會(huì)對(duì)突發(fā)事件的應(yīng)急反應(yīng)能力、資源調(diào)配能力的表現(xiàn)尤為突出,展現(xiàn)了對(duì)傳統(tǒng)通信技術(shù)和應(yīng)急信息管理的現(xiàn)有技術(shù)能夠有效使用的能力,例如地理信息和全球定位系統(tǒng)、遙感技術(shù)等當(dāng)代技術(shù)的使用[1-2];但在此過程中也暴露了這些技術(shù)中公民參與度低,難以直接支撐應(yīng)急救援行動(dòng)的不足。 然而在重大突發(fā)事件中,全社會(huì)共同參與的動(dòng)員行動(dòng)也是必需的,也都會(huì)對(duì)應(yīng)急救援行動(dòng)提供不可或缺的幫助[3]。 因此,可以更加主動(dòng)積極地借助廣大民眾(尤其是突發(fā)事件現(xiàn)場的民眾)的群體智慧,來幫助采集、識(shí)別、完善和傳播應(yīng)急管理過程中需要的各類應(yīng)急救援信息,使其成為應(yīng)急信息管理的重要信息來源,從而對(duì)做出正確的應(yīng)急決策[4]。
已有學(xué)者對(duì)相關(guān)實(shí)踐案例進(jìn)行研究,通過對(duì)社交媒體中廣大民眾發(fā)布的信息進(jìn)行挖掘,進(jìn)而給應(yīng)急救援機(jī)構(gòu)提供決策支持[5]。 例如,陳茜等學(xué)者[6-7]的研究發(fā)現(xiàn)突發(fā)自然災(zāi)害事件背景下的微博所提供的信息可以幫助應(yīng)急管理部門了解公眾情緒走向、認(rèn)知變化以及公眾的態(tài)度,并且社交媒體上的用戶生成的內(nèi)容也被廣泛用于為緊急救援機(jī)構(gòu)或志愿者開展的現(xiàn)場救援活動(dòng)提供建議[8]。 顯然,社交媒體的積極作用已經(jīng)被應(yīng)急管理機(jī)構(gòu)承認(rèn),但是從社交媒體中挖掘出的應(yīng)急救援信息的可靠性和有效性仍然不盡如人意,大多應(yīng)急管理機(jī)構(gòu)沒有將社交媒體數(shù)據(jù)納入正式的應(yīng)急決策過程。 為在應(yīng)急信息管理中更加充分地發(fā)揮社交媒體綜合優(yōu)勢,還需進(jìn)一步深入研究如何在海量的社交媒體信息中挖掘出真正有價(jià)值的應(yīng)急救援信息。
然而,在突發(fā)事件期間,任何一個(gè)社交媒體用戶都能夠發(fā)布與事件相關(guān)的信息和觀點(diǎn),并進(jìn)行討論。由于用戶量和數(shù)據(jù)量巨大[9],研究發(fā)現(xiàn):一方面,在突發(fā)事件中不同處境的民眾借助社交媒體分布廣和傳播快的優(yōu)勢,能夠提供大量、實(shí)時(shí)的信息;另一方面,這些不同身份背景的民眾由于能力限制,提供的信息質(zhì)量參差不齊,其中不乏一些低相關(guān)性、低質(zhì)量的內(nèi)容[10],從而導(dǎo)致難以區(qū)分社交媒體中的應(yīng)急救援信息和普通信息。 在此背景下,如何快速挖掘能夠幫助識(shí)別直接提供態(tài)勢感知、現(xiàn)場幫助、求助等支撐應(yīng)急救援行動(dòng)的社交媒體內(nèi)容,探討區(qū)分應(yīng)急救援信息的關(guān)鍵特征從而提升突發(fā)事件中使用社交媒體信息的可信度,將社交媒體應(yīng)急信息納入正式的應(yīng)急決策過程,是一個(gè)值得深入探討的研究問題。
本文關(guān)注于社交媒體中應(yīng)急救援信息的收集和挖掘,以微博為具體研究平臺(tái),運(yùn)用數(shù)據(jù)挖掘方法探究社交媒體中應(yīng)急救援信息和普通信息之間的特征差別,探討區(qū)分應(yīng)急救援信息的關(guān)鍵特征,從而幫助應(yīng)急救援機(jī)構(gòu)更加高效地利用社交媒體數(shù)據(jù)。
由社交媒體用戶生成的信息可以有效地用于不同的場景,包括突發(fā)事件中的應(yīng)急信息管理。 幾十年前,社交媒體是社交網(wǎng)絡(luò)的一種技術(shù),而現(xiàn)在則已用作解決問題的工具而不僅僅是技術(shù),并且逐漸成為突發(fā)事件應(yīng)急管理中實(shí)時(shí)信息獲取的重要渠道。Saroj 等學(xué)者[11]通過系統(tǒng)的綜述,發(fā)現(xiàn)突發(fā)事件中社交媒體信息主要集中于位置預(yù)測、 情感分析、 求助&幫助、 時(shí)間以及損失傷亡這5 種類型的信息。對(duì)于不同類型的突發(fā)事件,信息內(nèi)容的差異也將導(dǎo)致分類標(biāo)準(zhǔn)的不同。 例如,Nguyen 等學(xué)者[12]將突發(fā)事件信息歸類為與事件相關(guān)和無關(guān)的2 種粗粒度分類的信息;Derczynski 等學(xué)者[13]對(duì)突發(fā)事件中社交媒體信息進(jìn)行分類研究,將其粗粒度地分類為信息豐富的和無信息的,盡管區(qū)分社交媒體中直接提供態(tài)勢感知、 現(xiàn)場幫助、 求助的應(yīng)急救援信息是粗粒度的分類,不能夠幫助進(jìn)一步理解突發(fā)事件的細(xì)節(jié),但是卻能夠有效幫助緊急救援機(jī)構(gòu)及時(shí)獲取所需要的信息。 在社交媒體中應(yīng)急救援信息的粗粒度分類過程中,本文發(fā)現(xiàn)社交媒體在突發(fā)事件中主要使用了以下3 個(gè)層面的特征,包括:信息內(nèi)容、傳播和用戶特征。
社交媒體的信息內(nèi)容特征是對(duì)突發(fā)事件最直觀的反映,對(duì)社交媒體信息的內(nèi)容特征進(jìn)行挖掘分析,能夠發(fā)現(xiàn)用戶表達(dá)人物、地點(diǎn)、狀態(tài)等細(xì)節(jié)信息,包括對(duì)支撐應(yīng)急救援行動(dòng)有價(jià)值的信息。 在突發(fā)事件中,社交媒體信息數(shù)量和內(nèi)容還會(huì)隨時(shí)間演變而有明顯的變化,同時(shí)不同地理位置的社交媒體信息在內(nèi)容、數(shù)量方面也會(huì)有著顯著差異[14]。 而對(duì)社交媒體中人類活動(dòng)的單詞頻率和位置相關(guān)信息的進(jìn)一步研究,也表明人們的情緒和活動(dòng)受到暴雨強(qiáng)度的顯著影響,驗(yàn)證了社交媒體的內(nèi)容特征在一定程度上代表著人們的態(tài)度和行為[15]。
社交媒體的信息傳播特征則是突發(fā)事件相關(guān)信息在公眾中的傳播認(rèn)可的反映,研究發(fā)現(xiàn)社交媒體的傳播特征能夠在一定程度上反映內(nèi)容的有效性,例如包含態(tài)勢感知、損失情況和求助位置等能夠支撐應(yīng)急救援行動(dòng)的關(guān)鍵信息的社交媒體數(shù)據(jù),在傳播途徑中更容易得到社交媒體用戶的關(guān)注度[16];包含求助、聯(lián)系和情感的推文等信息特征的微博,其關(guān)注度也與信息特征數(shù)量成正比[17],吳布林等學(xué)者[18]就直接指出了高轉(zhuǎn)發(fā)率的社交媒體應(yīng)急信息更有可能擁有更高的質(zhì)量。 毫無疑問,這些研究都體現(xiàn)了傳播特征在一定程度上對(duì)于內(nèi)容質(zhì)量的反映。
另外,社交媒體的用戶特征、即信息主體特征問題也一直是當(dāng)前推動(dòng)社交媒體信息納入正式應(yīng)急決策過程的關(guān)鍵點(diǎn)。 Chen 等學(xué)者[19]發(fā)現(xiàn)經(jīng)認(rèn)證的微博用戶往往比未經(jīng)認(rèn)證的用戶具有更高的社交網(wǎng)絡(luò)活動(dòng)強(qiáng)度和更大的影響力,能夠?yàn)橥话l(fā)事件的應(yīng)急管理提供更多可靠有用的信息。 并且不同用戶所發(fā)布信息內(nèi)容的影響性、權(quán)威性、專業(yè)性等方面也有著顯著差別[20]。
因此本文認(rèn)為在對(duì)社交媒體進(jìn)行分析時(shí),需要綜合考慮社交媒體信息的內(nèi)容、傳播和用戶特征,一方面能夠傳遞突發(fā)事件中用戶的求助、幫助的觀點(diǎn),另一方面也是其他用戶對(duì)于該條微博態(tài)度的傳遞。因此,從這3 個(gè)維度中抽取相應(yīng)的特征指標(biāo),探究幫助區(qū)分社交媒體內(nèi)容中應(yīng)急救援信息的關(guān)鍵的特征,從而更加有效地從嘈雜的用戶生成內(nèi)容中提取出應(yīng)急救援信息。
在突發(fā)事件發(fā)生時(shí),通過社交媒體進(jìn)行信息溝通主要有4 個(gè)方向:用戶對(duì)用戶(C2C)、用戶對(duì)政府機(jī)構(gòu)(C2A)、政府機(jī)構(gòu)對(duì)政府機(jī)構(gòu)(A2A)、政府機(jī)構(gòu)對(duì)用戶(A2C)[21]。 在這一溝通過程中,應(yīng)急機(jī)構(gòu)可以通過收集來自用戶的C2C 和C2A 信息,來幫助應(yīng)急救援行動(dòng)的開展。 然而,由于突發(fā)事件下社交媒體質(zhì)量層次不齊,在搜索不太具體的詞匯時(shí),數(shù)據(jù)非?!班须s”、缺乏上下文,使得數(shù)據(jù)質(zhì)量難有保障,不足以直接幫助應(yīng)急救援行動(dòng)[22]。 因此,在缺少足夠權(quán)威評(píng)估標(biāo)準(zhǔn)的條件下,部分研究者使用了人類反饋的方法在主觀上進(jìn)行分析判斷來評(píng)估信息質(zhì)量[20,23]。 除了人類反饋這類主觀上評(píng)估應(yīng)急信息質(zhì)量的方法外,朱益平等學(xué)者[24]從測量方法的四要素出發(fā),提出了應(yīng)急信息質(zhì)量測量框架。 針對(duì)應(yīng)急信息質(zhì)量評(píng)價(jià)體系的建立,徐文強(qiáng)等學(xué)者[25]從大數(shù)據(jù)角度下對(duì)應(yīng)急信息質(zhì)量評(píng)估進(jìn)行研究,從內(nèi)容質(zhì)量、描述質(zhì)量、信息約束這3 個(gè)維度抽取了8 個(gè)指標(biāo)構(gòu)建了大數(shù)據(jù)環(huán)境下應(yīng)急信息質(zhì)量評(píng)估指標(biāo)體系。另外還有相關(guān)研究者在主要的利益相關(guān)者、應(yīng)急服務(wù)機(jī)構(gòu)和市民的合作下,開發(fā)了一套包含需求、場景、用例的指標(biāo)來進(jìn)行突發(fā)事件相關(guān)社交媒體信息的衡量。 其衡量體系由可理解性,相關(guān)性、完整性、及時(shí)性和可信性這5 個(gè)指標(biāo)構(gòu)建[26]。
除了對(duì)應(yīng)急信息質(zhì)量某一指標(biāo)和應(yīng)急信息服務(wù)質(zhì)量評(píng)估的探討之外,吳雪華等學(xué)者[27]基于文本向量表示、語言、形式和用戶四個(gè)維度的特征,采用機(jī)器學(xué)習(xí)對(duì)社交媒體應(yīng)急信息的質(zhì)量進(jìn)行自動(dòng)識(shí)別分類。 劉校麟等學(xué)者[28]使用機(jī)器學(xué)習(xí)識(shí)別突發(fā)事件中的微博謠言,結(jié)果表示機(jī)器學(xué)習(xí)識(shí)別謠言的正確率遠(yuǎn)高于80%。 除此之外,在突發(fā)事件中,機(jī)器學(xué)習(xí)方法還被普遍用于突發(fā)事件信息抽取[29]、突發(fā)事件文本分類[30]、突發(fā)事件中情感分析[31]。 綜上所述,在評(píng)估應(yīng)急信息質(zhì)量的標(biāo)準(zhǔn)和方法上,未形成統(tǒng)一的質(zhì)量標(biāo)準(zhǔn),而機(jī)器學(xué)習(xí)也日漸成為突發(fā)事件中社交媒體信息的評(píng)價(jià)與處理的重要方法。
因此,本文在研究相關(guān)理論與實(shí)踐的基礎(chǔ)上,以“微博”為具體研究平臺(tái),選取“#河南暴雨互助?!痹掝}為研究數(shù)據(jù),從用戶生成內(nèi)容中抽取能夠幫助區(qū)分應(yīng)急救援信息的指標(biāo),利用機(jī)器學(xué)習(xí)進(jìn)行應(yīng)急救援信息分類實(shí)驗(yàn),旨在探究社交媒體中應(yīng)急救援信息和普通信息之間的特征差別,探討區(qū)分社交媒體中應(yīng)急救援信息中不同特征的影響程度。
在對(duì)鄭州720 暴雨事件的關(guān)注中,研究發(fā)現(xiàn)微博“#河南暴雨互助#”話題下的微博內(nèi)容與應(yīng)急救援的相關(guān)性較高,存在較多的信息能夠有效支撐應(yīng)急救援行動(dòng),因此將其作為研究對(duì)象。 在數(shù)據(jù)搜集階段,用Python 編寫關(guān)于微博的相關(guān)爬蟲,爬取微博“#河南暴雨互助?!痹掝}下的原創(chuàng)微博,從2021.08.20 開始進(jìn)行數(shù)據(jù)爬??;通過爬蟲程序輸入“#河南暴雨互助?!标P(guān)鍵詞,設(shè)置日期為2021.07.20~2021.08.12,發(fā)送到微博搜索引擎,對(duì)相關(guān)話題下的原創(chuàng)微博爬取數(shù)據(jù)。 由于話題下的原創(chuàng)微博只提供微博的點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)以及微博的相關(guān)正文內(nèi)容,并不足以支撐本文的分析,所以通過爬取發(fā)布微博信息的用戶主頁鏈接,從而進(jìn)入用戶主頁以爬取用戶的主頁相關(guān)內(nèi)容,如微博數(shù)、關(guān)注數(shù)、粉絲數(shù),以利于后續(xù)對(duì)相關(guān)特征的進(jìn)一步分析。
獲得微博用戶信息和正文內(nèi)容后,對(duì)獲得的微博內(nèi)容進(jìn)行重復(fù)性等驗(yàn)證,研究文本內(nèi)容發(fā)現(xiàn)2021.08.02 之后的微博相關(guān)內(nèi)容對(duì)于應(yīng)急救援的相關(guān)性都較低,最終選擇2021.07.20~2021.08.03 期間的微博,刪除重復(fù)微博后獲得的7 979條微博數(shù)據(jù),以便進(jìn)行此后的數(shù)據(jù)分析。 接下來為了獲得微博內(nèi)容是否是應(yīng)急救援信息,對(duì)微博內(nèi)容進(jìn)行人工標(biāo)注數(shù)據(jù)集,分類為1 936 條應(yīng)急救援信息和6 043 條普通信息。
本文研究通過對(duì)“微博”網(wǎng)站上應(yīng)急救援信息的觀察分析,并結(jié)合對(duì)已有的微博應(yīng)急救援信息內(nèi)容相關(guān)研究文獻(xiàn)的整理,在此基礎(chǔ)上展開研究論述如下。
本文以數(shù)據(jù)挖掘?yàn)橹饕芯糠椒ǎ瑢⒃u(píng)估各個(gè)特征對(duì)于社交媒體應(yīng)急救援信息分類的影響程度,其中使用了CART 算法作為評(píng)估特征貢獻(xiàn)度的算法。
研究首先在閱讀相應(yīng)的參考文獻(xiàn)以及“微博”平臺(tái)的數(shù)據(jù)構(gòu)成的基礎(chǔ)上,確定并篩選了所有可能對(duì)社交媒體應(yīng)急救援信息分類產(chǎn)生影響的特征。 最終確定的潛在特征見表1。
表1 社交媒體應(yīng)急救援信息分類潛在影響特征Tab. 1 Potential impact characteristics of social media emergency rescue information classification
2.2.1 人工標(biāo)注數(shù)據(jù)集
社交媒體應(yīng)急救援信息分類的訓(xùn)練可以看作是一個(gè)二分類問題,所以需要選擇正樣本和負(fù)樣本。為了確保應(yīng)急救援信息分類衡量標(biāo)準(zhǔn)的可靠性,需要對(duì)研究數(shù)據(jù)集中的微博內(nèi)容進(jìn)行人工標(biāo)注,即人工判斷每一條微博對(duì)于應(yīng)急救援行動(dòng)是否有用,即能否提供態(tài)勢感知、現(xiàn)場幫助、求助信息。 研究中招募了8 名大學(xué)生志愿者進(jìn)行人工數(shù)據(jù)標(biāo)注,標(biāo)注過程按照如下步驟進(jìn)行:
步驟1標(biāo)注要求的培訓(xùn)。 對(duì)志愿者進(jìn)行標(biāo)注要求培訓(xùn),介紹了數(shù)據(jù)標(biāo)注的目的,并詳細(xì)解釋標(biāo)注的要求和注意點(diǎn)。 在志愿者理解數(shù)據(jù)標(biāo)注要求后,還進(jìn)行了試標(biāo)注,從而確保志愿者們充分掌握數(shù)據(jù)標(biāo)注的要求。
步驟2數(shù)據(jù)標(biāo)注過程。 數(shù)據(jù)人工標(biāo)注過程由8 名經(jīng)過訓(xùn)練的志愿者進(jìn)行。 7 979 條博文數(shù)據(jù)分為4 組,每組數(shù)據(jù)同時(shí)被2 名志愿者分別標(biāo)注,因此,每條微博都擁有2 個(gè)由不同志愿者標(biāo)注的結(jié)果。志愿者首先通過對(duì)微博正文進(jìn)行仔細(xì)閱讀并充分理解后,判斷微博的文本內(nèi)容是否對(duì)應(yīng)急救援行動(dòng)有用,進(jìn)行標(biāo)注。 每條微博的標(biāo)注結(jié)果分為3 種,包括:有用、無用、不確定。
步驟3核對(duì)并確定標(biāo)注結(jié)果。 將每條微博的2 個(gè)標(biāo)注結(jié)果進(jìn)行比對(duì),以形成最終的數(shù)據(jù)標(biāo)注結(jié)果,最終結(jié)果只能是有用或者無用。 確定過程如下:
(1)如果2 個(gè)標(biāo)注結(jié)果相同(同時(shí)為有用,或同時(shí)為無用),則直接采用該標(biāo)注結(jié)果。
(2)如果一條微博存在2 個(gè)不同的標(biāo)注結(jié)果,即2 個(gè)標(biāo)注完全相反,或者結(jié)果中有“不確定”時(shí),負(fù)責(zé)標(biāo)注的2 人與第三方研究人員共同分析討論確定最終的標(biāo)注結(jié)果。
正樣本為標(biāo)注為有用、即應(yīng)急救援信息,標(biāo)注為無用信息,即普通信息被視為負(fù)樣本。 最終得到1 936條正樣本,6 043 條負(fù)樣本。
2.2.2 應(yīng)急救援信息分類特征提取
(1)內(nèi)容語言學(xué)特征提取。 微博內(nèi)容預(yù)處理后,采用“Jieba”分詞去除文本內(nèi)容中的停用詞,隨后統(tǒng)計(jì)每條微博內(nèi)容的單詞數(shù)量,將文本的單詞數(shù)量記為內(nèi)容語言學(xué)特征F1。
(2)內(nèi)容語義特征提取。 微博內(nèi)容的情感一般可以分為正向、中性或者負(fù)向。 本文通過專門的Python 程序結(jié)合成熟的情感詞典,計(jì)算出該微博文本內(nèi)容的情感值。 首先,對(duì)單條微博的文本內(nèi)容分詞后的詞匯列表進(jìn)行遍歷,檢查出詞匯中的程度副詞、否定詞和情感詞,記錄相應(yīng)位置,將積極和消極情感詞分別標(biāo)記為1、-1。 然后,找出程度副詞和否定副詞的權(quán)重,與情感詞加權(quán)得到情感值得分。 計(jì)算程序采用了知網(wǎng)HowNet 情感詞典、臺(tái)灣大學(xué)NTUSD 簡體中文情感極性詞典以及大連理工大學(xué)的中文情感詞匯本體庫。 情感值得分大于0、小于0、等于0 分別代表該微博文本內(nèi)容表現(xiàn)為正面情感傾向、負(fù)面情感傾向以及中性情感傾向。 將程序計(jì)算得到的情感值記為內(nèi)容語義特征F2。
(3)內(nèi)容精確地址提取。 從信息學(xué)角度來說,如果一條文本與其他文本在某個(gè)關(guān)鍵屬性上差別越大,那么就可以利用這個(gè)屬性的差別來區(qū)分文本的類別[32]。 社交媒體應(yīng)急救援信息中涉及關(guān)鍵屬性,那么其為應(yīng)急救援信息的概率就越高。 而在應(yīng)急救援信息中,精確的地址信息和聯(lián)系信息被視為能夠幫助救援的關(guān)鍵信息[15]。 因此,本文通過自行編寫的Python 程序?qū)ξ⒉﹥?nèi)容根據(jù)文本中的地址特征字進(jìn)行命名實(shí)體識(shí)別,提取每條微博存在的精確地址信息,有則為1,無則為0。 根據(jù)由微博內(nèi)容是否存在精確地址信息形成的一個(gè)由0、1 組成的字典,作為內(nèi)容地址信息特征F3。
(4)內(nèi)容聯(lián)系信息提取。 在應(yīng)急救援信息中幫助救援行動(dòng)開展的關(guān)鍵屬性除了精確地址之外,聯(lián)系信息也被認(rèn)為是區(qū)分應(yīng)急救援信息的一個(gè)重要屬性。 因此,對(duì)每條微博原始博文進(jìn)行了正則提取聯(lián)系信息,有則為1,無則為0。 而根據(jù)由微博內(nèi)容是否存在精確地址信息所形成的由0、1 組成的字典,則作為內(nèi)容聯(lián)系信息特征F4。
(5)圖片數(shù)量提取。 由于突發(fā)事件中圖片能夠更為直觀地展示受害者以及旁觀者的處境,本文將圖片數(shù)量作為考慮的屬性之一。 文中是在微博爬取過程進(jìn)行圖片數(shù)量的抽取,通過Python 爬取微博圖片并計(jì)數(shù),記為圖片信息特征F5。
(6)標(biāo)簽數(shù)量提取。 標(biāo)簽是微博話題是否與事件強(qiáng)相關(guān)的重要因素,而微博內(nèi)容中含有的標(biāo)簽數(shù)與是否是應(yīng)急救援信息的關(guān)聯(lián)問題也是亟需探討的內(nèi)容。 本文采用Python 程序?qū)ξ⒉┪谋纠谜齽t表達(dá)式提取內(nèi)容中的標(biāo)簽并計(jì)數(shù),記為標(biāo)簽數(shù)量特征F6。
(7)信息傳播特征提取。 由上文綜述可知,社交媒體的信息傳播特征能夠反映突發(fā)事件相關(guān)信息在公眾中的傳播認(rèn)可,能夠有效地評(píng)估信息在傳播過程中公眾的認(rèn)可度。 因此,本文爬取了每條微博的評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)、點(diǎn)贊數(shù)。 根據(jù)其中位數(shù)以及平均數(shù),分別賦值為0.1、0.1、0.01。 3 個(gè)維度的最大值分別為33.33,最終得到的信息傳播特征分?jǐn)?shù)為0 ~100。 將加權(quán)得到的信息傳播特征得分記為信息傳播特征F7。
(8)信息主體特征提取。 由上文可知,微博發(fā)布者的主體特征是信息源可靠性的重要屬性。 因此本文進(jìn)入了微博內(nèi)容發(fā)布者主頁,爬取了主頁中的微博發(fā)布數(shù)、粉絲數(shù)、關(guān)注數(shù)、微博認(rèn)證等級(jí)。 再根據(jù)其中位數(shù)、平均值、等級(jí)數(shù)分別賦值為0.01,0.1、0.1。這3 個(gè)維度的最大值同樣為33.33,最終得到的信息主體特征分?jǐn)?shù)為0~100。 將加權(quán)得到的信息傳播特征得分記為信息主體特征F8。
為了挖掘出真正能夠幫助區(qū)分社交媒體中應(yīng)急救援信息的關(guān)鍵特征項(xiàng),本部分研究首先通過自行編寫的Python 程序基于研究數(shù)據(jù)集選擇最佳的分類模型,然后根據(jù)選定的分類模型對(duì)各個(gè)特征進(jìn)行特征貢獻(xiàn)度分析,確定能夠區(qū)分社交媒體中應(yīng)急救援信息產(chǎn)生重要影響的特征項(xiàng),并對(duì)這些特征項(xiàng)進(jìn)行討論。
在閱讀參考文獻(xiàn)的基礎(chǔ)上,研究確定了樸素貝葉斯、邏輯斯蒂回歸、決策樹算法作為擬定的初步算法,為了進(jìn)一步確定最合適的算法,研究擬采用十折交叉驗(yàn)證法分別用樸素貝葉斯、邏輯斯蒂回歸和決策樹算法結(jié)合信息內(nèi)容、主體、傳播這3 個(gè)維度中抽取的8 個(gè)特征進(jìn)行分類結(jié)果比較,以確定最佳分類算法。 評(píng)估標(biāo)準(zhǔn)擬選定為F - score, 實(shí)驗(yàn)結(jié)果見表2。
表2 不同分類算法性能比較Tab. 2 Performance comparison of different classification algorithms
從表2 中分析可知,3 個(gè)分類器分類的精度都在80%以上,綜合判斷選擇了精度和F值都較高的決策樹算法作為分類模型算法。
為了能夠了解數(shù)據(jù)集分布情況,本文對(duì)社交媒體中應(yīng)急救援信息和普通信息的8 個(gè)數(shù)值型指標(biāo)以及信息傳播特征和信息主體特征這2 個(gè)綜合指標(biāo)進(jìn)行了描述性統(tǒng)計(jì)分析,統(tǒng)計(jì)其最小值、最大值、平均值、中位數(shù)、標(biāo)準(zhǔn)差,統(tǒng)計(jì)結(jié)果見表3。 由表3 中可以見得,轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、點(diǎn)贊數(shù)、發(fā)布微博、粉絲數(shù)這5 個(gè)指標(biāo)標(biāo)準(zhǔn)差較大,表明這部分幫助區(qū)分社交媒體中應(yīng)急救援信息的特征數(shù)據(jù)也不穩(wěn)定,并且根據(jù)分類的實(shí)驗(yàn)結(jié)果,選擇8 個(gè)特征進(jìn)行分類實(shí)驗(yàn)的結(jié)果(0.745)也優(yōu)于12 個(gè)基本指標(biāo)特征的實(shí)驗(yàn)結(jié)果(0.726)。 因此,本文選擇信息內(nèi)容語言學(xué)特征、信息內(nèi)容語義特征、內(nèi)容地址信息特征、內(nèi)容聯(lián)系信息特征、圖片信息特征、標(biāo)簽信息特征、信息傳播特征、信息主體特征這個(gè)8 個(gè)特征作為基本特征項(xiàng)。
表3 特征數(shù)據(jù)的統(tǒng)計(jì)差異分析Tab. 3 Statistical difference analysis of characteristic data
在分類模型中,2 種較為常用的分類方法是樹歸納法和線性邏輯斯蒂回歸方法,本文通過使用樹歸納法計(jì)算基尼不純度度量來計(jì)算特征貢獻(xiàn)度[33],采用CART 算法進(jìn)行剪枝,即采用一種二分遞歸分割技術(shù),將分類樣本集分為2 個(gè)子樣本集,生成的決策樹的每一個(gè)非葉節(jié)點(diǎn)都有2 個(gè)分枝。 在CART 算法中, 使用獨(dú)立于訓(xùn)練樣本集的測試樣本集對(duì)分枝樣本集的分類錯(cuò)誤進(jìn)行計(jì)算,找出分類錯(cuò)誤最小的子樹作為最終的分類模型[33-34]。 本研究中,利用CART 算法求得的特征貢獻(xiàn)度如圖1 所示。 因此,可以確定對(duì)社交媒體應(yīng)急救援信息分類產(chǎn)生重要影響的3 個(gè)特征:內(nèi)容地址信息特征、內(nèi)容語言學(xué)特征、信息主體特征。
圖1 特征貢獻(xiàn)度Fig. 1 Contribution of different characteristics
由圖1 可知,內(nèi)容地址信息特征、即精確地址信息在社交媒體應(yīng)急救援信息分類中的影響程度最大,本文對(duì)這一項(xiàng)數(shù)據(jù)進(jìn)行分析。 對(duì)比應(yīng)急救援信息和普通信息中是否包含精確地址信息,發(fā)現(xiàn)應(yīng)急救援信息中的精確地址信息約為80%,而普通信息中精確地址信息只有25%。 并且,包含精確地址信息的普通社交媒體內(nèi)容有50%是官方媒體機(jī)構(gòu)對(duì)受影響地區(qū)和受害者的綜合報(bào)道。 因此,研究認(rèn)為精確地址信息是區(qū)分應(yīng)急救援信息的關(guān)鍵特征,并且在區(qū)分個(gè)人發(fā)布的社交媒體內(nèi)容中的應(yīng)急救援信息方面能夠提供更加優(yōu)越的效果。
信息內(nèi)容語言特征的文本單詞數(shù)量就是指去除停用詞之后的社交媒體內(nèi)容分詞后的單詞數(shù)量(47.23)。其中,普通文本的單詞數(shù)量為34.32,遠(yuǎn)低于應(yīng)急救援文本的單詞數(shù)量為51.37。 為了避免由于單詞數(shù)量極值影響實(shí)驗(yàn)判斷的科學(xué)性,進(jìn)一步分析了文本單詞數(shù)量的中位數(shù),分別為32,44。 這也表明在一定程度上,社交媒體內(nèi)容中文本單詞數(shù)量越多,關(guān)于應(yīng)急事件描述越詳細(xì),更有可能是應(yīng)急救援信息。 為了進(jìn)一步評(píng)估關(guān)鍵特征在區(qū)分社交媒體中應(yīng)急救援信息方面的表現(xiàn),本文對(duì)信息語言學(xué)特征(word_num)和信息主體特征(user_score)進(jìn)行偏相關(guān)關(guān)系以進(jìn)一步闡釋其表現(xiàn), 結(jié)果如圖2 所示。由圖2 可知,微博內(nèi)容中單詞數(shù)量與社交媒體內(nèi)容是否是應(yīng)急救援信息有著明顯的遞增關(guān)系,說明微博內(nèi)容單詞數(shù)量越多、描述越詳細(xì),社交媒體內(nèi)容就越有可能是應(yīng)急救援信息。
圖2 關(guān)鍵特征與應(yīng)急救援信息分類偏相關(guān)關(guān)系Fig. 2 Partial correlation between key features and emergency rescue information classification
信息主體特征包含微博發(fā)布者的微博數(shù)、粉絲數(shù)、關(guān)注數(shù),是社交媒體信息來源可信度的重要特征。 分析信息主體得分的平均數(shù),應(yīng)急救援信息(34.74)明顯高于普通信息(16.73),且應(yīng)急救援信息的信息主體得分中位數(shù)(9)也遠(yuǎn)高于普通信息得分(4)。 這就清楚地表明,高質(zhì)量用戶在突發(fā)事件中能夠提供信息的質(zhì)量也更高。 但是在偏相關(guān)關(guān)系分析中,微博發(fā)布者的用戶主體特征并沒有與應(yīng)急救援信息分類表現(xiàn)出明顯關(guān)系,可得信息主體特征與其他特征共同影響著應(yīng)急救援信息的分類。
研究中還發(fā)現(xiàn),原以為聯(lián)系方式信息和圖片信息在應(yīng)急救援信息分類中能夠起到關(guān)鍵性作用,然而,在本次實(shí)驗(yàn)中卻顯示出聯(lián)系信息和是否存在圖片沒有對(duì)區(qū)分應(yīng)急救援信息起到理想的作用。 根據(jù)初步觀察和以往的研究可知,圖片信息盡管能夠更加直觀地展示突發(fā)事件的發(fā)展?fàn)顩r以及受害者現(xiàn)狀,但是在社交媒體中很大一部分圖片與社交媒體文本內(nèi)容呈現(xiàn)為非強(qiáng)相關(guān),這類普通信息對(duì)于圖片使用的不嚴(yán)謹(jǐn)使得分類器難以依靠圖片科學(xué)地區(qū)分出應(yīng)急救援信息。 與此同時(shí),還進(jìn)一步發(fā)現(xiàn)被歸類為應(yīng)急救援信息的部分內(nèi)容創(chuàng)作者可能不喜歡、甚至不適應(yīng)使用圖片表達(dá)信息,還有部分內(nèi)容創(chuàng)作者為旁觀者,不能夠提供高相關(guān)性的圖片,這也在一定程度上降低了圖片的區(qū)分應(yīng)急救援信息的貢獻(xiàn)度。另外,對(duì)于社交媒體信息中聯(lián)系信息的使用,根據(jù)本次研究與發(fā)布者的溝通以及綜合分析,有著相當(dāng)一部分應(yīng)急救援信息發(fā)布者沒有意識(shí)到除微博本身外聯(lián)系信息發(fā)布的關(guān)鍵性。 還有一部分應(yīng)急救援信息是旁觀者的收集,其聯(lián)系信息的缺失是由于自身能力和獲得信息手段的限制。
針對(duì)社交媒體內(nèi)容質(zhì)量層次不齊、難以有效區(qū)分其中應(yīng)急救援信息的現(xiàn)實(shí)問題,本文研究主要基于對(duì)“微博”上應(yīng)急救援信息的分析與相關(guān)文獻(xiàn)研究,從信息內(nèi)容、傳播、用戶三個(gè)維度提取了12 個(gè)指標(biāo)、8 類特征,選擇CART 算法進(jìn)一步分析這些特征對(duì)于區(qū)分應(yīng)急救援信息關(guān)鍵性。 研究結(jié)果顯示內(nèi)容地址信息特征、信息內(nèi)容語言特征、信息主體特征對(duì)社交媒體中的應(yīng)急救援信息分類有重要作用。 上述探討發(fā)現(xiàn)是對(duì)社交媒體中應(yīng)急救援信息研究的進(jìn)一步補(bǔ)充。
接下來,將探索如何更高效地在“微博”平臺(tái)上識(shí)別應(yīng)急救援信息。 如何引導(dǎo)用戶上傳更高質(zhì)量的應(yīng)急救援信息,從而幫助應(yīng)急救援行動(dòng)快速實(shí)施,也是后期需著重探討與研究的方向。 例如,給用戶提供更為專業(yè)的應(yīng)急救援信息模板,在社交媒體發(fā)布端自動(dòng)識(shí)別與突發(fā)事件低相關(guān)性的質(zhì)量信息,給用戶提供信息類別的選擇上傳選項(xiàng)等。