張曉涵 呂金鑫
(山東科技大學(xué) 測(cè)繪與空間信息學(xué)院, 山東 青島 266590)
對(duì)一般災(zāi)害來(lái)說(shuō),遙感技術(shù)已成為當(dāng)下應(yīng)急減災(zāi)的重要手段,當(dāng)災(zāi)害發(fā)生的第一時(shí)間,遙感能夠提供受災(zāi)區(qū)域宏觀、連續(xù)的災(zāi)情快照,從而為減災(zāi)提供有效的數(shù)據(jù)支持。盡管遙感技術(shù)在災(zāi)害領(lǐng)域應(yīng)用中仍存在局限性,但隨著科學(xué)的進(jìn)步,高質(zhì)量遙感數(shù)據(jù)的不斷涌現(xiàn),可更大程度上對(duì)災(zāi)情信息進(jìn)行反饋。而隨著新媒體時(shí)代的來(lái)臨,正如過(guò)去十年所見證的那樣,社交媒體使用量的激增為災(zāi)難情況下的多向交流提供了巨大的潛力。個(gè)人越來(lái)越多地使用社交媒體來(lái)表達(dá)他們對(duì)當(dāng)前情況的需求、意見、描述和緊迫性。因此,大多學(xué)者認(rèn)為社交媒體數(shù)據(jù)可以作為災(zāi)害情況下態(tài)勢(shì)感知和救援需求的指標(biāo)[1-3]。近幾年,許多人研究了社交媒體社區(qū)的信息流在自然災(zāi)害事件階段的演變模式[4-6],還有部分人專注于災(zāi)害期間社交媒體文本情感趨勢(shì),例如,有相關(guān)研究提出了一種基于情感詞語(yǔ)義規(guī)則[7]的情感傾向計(jì)算方法[8],以及基于詞向量的話題聚類方法用于對(duì)災(zāi)難發(fā)生時(shí)的社交媒體數(shù)據(jù)進(jìn)行輔助分析[9-12],也有研究在災(zāi)害主題下通過(guò)使用情感詞典對(duì)微博短文本進(jìn)行情緒分析,并在災(zāi)害應(yīng)對(duì)方面給出指導(dǎo)性建議[13-15]。
語(yǔ)義分析是指綜合運(yùn)用各類方法,學(xué)習(xí)或理解一段文本中所表達(dá)的語(yǔ)義內(nèi)容,因此有助于對(duì)語(yǔ)言理解的方法基本都可算為語(yǔ)義分析的范疇[16]。本研究以微博文本數(shù)據(jù)源為主著重討論了一個(gè)利用社交媒體數(shù)據(jù)評(píng)估災(zāi)害影響的框架,綜合運(yùn)用了語(yǔ)義分析中的批量分詞、元詞頻統(tǒng)計(jì)、實(shí)體識(shí)別以及情感分析等方法,并以2021年10月山西暴雨災(zāi)害為例,考察了利用微博平臺(tái)社交媒體信息提取以告知山西省災(zāi)害響應(yīng)和恢復(fù)的潛力。
自2021年10月2日起,山西降雨顯著增強(qiáng)。監(jiān)測(cè)顯示,2日20時(shí)至6日20時(shí),忻州南部、呂梁、太原、陽(yáng)泉、晉中、臨汾、長(zhǎng)治累計(jì)雨量突破100 mm。其中,太原、陽(yáng)泉、臨汾、長(zhǎng)治、呂梁、晉中等大部分地區(qū)創(chuàng)下了10月上旬累計(jì)降雨量紀(jì)錄。并受持續(xù)強(qiáng)降雨影響,多地出現(xiàn)內(nèi)澇、地質(zhì)災(zāi)害、洪水等災(zāi)情,造成人員傷亡。借此,本研究選取山西省為研究區(qū)域,并對(duì)一些受暴雨影響較大的城市進(jìn)行重點(diǎn)分析。
通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)獲取2021年10月1日至2021年10月20日包含山西各城市名稱的且與暴雨相關(guān)的微博數(shù)據(jù),爬取內(nèi)容包含每條推文的用戶ID、用戶名、鏈接、發(fā)布日期、位置以及文本內(nèi)容等信息。由于社交媒體數(shù)據(jù)龐大且嘈雜,他們需要被挖掘和整合才能用于研究抗災(zāi)能力。挖掘社交媒體數(shù)據(jù)包括數(shù)據(jù)清理、文本分析和數(shù)據(jù)可視化,由于其巨大的數(shù)量、不平衡的用戶構(gòu)成,并且還有一些因?yàn)榫W(wǎng)絡(luò)延遲問(wèn)題導(dǎo)致用戶重復(fù)發(fā)表的推文,所以對(duì)于所獲取的數(shù)據(jù)我們進(jìn)行了數(shù)據(jù)去重、語(yǔ)料清洗和停用詞過(guò)濾等數(shù)據(jù)預(yù)處理工作。經(jīng)初步清洗后的涉災(zāi)社交媒體數(shù)據(jù)共10 815條。示例數(shù)據(jù)如表1所示。
表1 山西暴雨社交媒體示例數(shù)據(jù)
其中各城市社交媒體數(shù)據(jù)量占比如圖1所示。
圖1 各城市社交媒體數(shù)據(jù)量占比
詞頻-逆文檔頻率法(term frequency-inverse document frequency,TF-IDF)是用于數(shù)據(jù)挖掘的一種加權(quán)技術(shù),其中TF是詞頻(term frequency, TF),式中用F表示,詞頻指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù),這個(gè)數(shù)字通常會(huì)被歸一化。IDF是逆文本頻率指數(shù)(inverse document frequency,IDF),式中用FID表示,這是一個(gè)詞語(yǔ)普遍重要性的度量。某一特定詞語(yǔ)的IDF,可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再將得到的商取對(duì)數(shù)。因此,TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。
TF的計(jì)算如式(1)所示。
(1)
式中,Nw是在某一文本中詞條w出現(xiàn)的次數(shù);N是該文本總詞條數(shù)。
IDF的計(jì)算公式如式(2)所示。
(2)
式中,Y是語(yǔ)料庫(kù)的文檔總數(shù);Yw是包含詞條w的文檔數(shù),分母加一是為了避免w未出現(xiàn)在任何文檔中從而導(dǎo)致分母為0的情況。
TF-IDF就是將TF和IDF相乘,如式(3)所示。
(3)
從以上計(jì)算公式便可以看出,某一特定文件內(nèi)的高詞語(yǔ)頻率,以及該詞語(yǔ)在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過(guò)濾掉常見的詞語(yǔ),保留重要的詞語(yǔ)。
關(guān)于社交媒體文本的地理命名實(shí)體抽取,本文選用中文詞法分析(lexical analysis of Chinese,LAC)模型,LAC是一種聯(lián)合的詞法分析模型,輸入采用獨(dú)熱編碼(one-hot)方式表示,每一個(gè)字有相應(yīng)的id對(duì)應(yīng),one-hot序列通過(guò)字表轉(zhuǎn)換為實(shí)向量表示的字向量序列,字向量再作為循環(huán)單元(gated recurrent units,GRU)的輸入,學(xué)習(xí)輸入序列的特征表示得到新的特性表示序列,這里還使用一個(gè)堆疊的雙向GRU結(jié)構(gòu)來(lái)增強(qiáng)學(xué)習(xí)能力,條件隨機(jī)場(chǎng)(conditional random field,CRF)以GRU學(xué)習(xí)到的特征為輸入,從而可以實(shí)現(xiàn)中文分詞、詞性標(biāo)注、專名識(shí)別等功能。在長(zhǎng)文本上準(zhǔn)確復(fù)刻了百度AI開放平臺(tái)上的詞法分析算法。效果方面,分詞、詞性、專名識(shí)別的整體準(zhǔn)確率95.5%;單獨(dú)評(píng)估專名識(shí)別任務(wù),F值87.1%,準(zhǔn)確率90.3%,召回率85.4%。
百度AI開放平臺(tái)提供全球領(lǐng)先的語(yǔ)音、圖像、自然語(yǔ)言處理等多項(xiàng)人工智能技術(shù),我們將預(yù)處理后的社交媒體文本數(shù)據(jù)通過(guò)百度的AI接口進(jìn)行的情感傾向性分析。首先對(duì)社交媒體文本數(shù)據(jù)進(jìn)行情感語(yǔ)料標(biāo)注,其中積極、消極語(yǔ)料各標(biāo)注一千條。然后采用百度AI內(nèi)置神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型進(jìn)行訓(xùn)練,本次研究所訓(xùn)練模型相對(duì)于百度AI平臺(tái)提供模型準(zhǔn)確度提升20%左右。情感結(jié)果為[-1,1]之間的情感值,當(dāng)數(shù)值越接近-1代表有強(qiáng)烈的消極情感,當(dāng)數(shù)值越接近1代表有強(qiáng)烈的積極情感。
社交媒體中的位置信息是實(shí)現(xiàn)一系列分析的基本參數(shù),但一般公眾發(fā)布社交媒體時(shí)只有少部分人選擇發(fā)送位置,借此本研究考慮利用社交媒體文本中的位置信息來(lái)彌補(bǔ)社交媒體位置信息不足的缺點(diǎn)。當(dāng)災(zāi)害發(fā)生時(shí),處在災(zāi)害影響范圍的人可能會(huì)發(fā)布社交媒體以告知災(zāi)害嚴(yán)重性,但不在災(zāi)害影響范圍的公眾會(huì)通過(guò)新聞等途徑對(duì)災(zāi)害進(jìn)行了解,并發(fā)布社交媒體對(duì)受災(zāi)嚴(yán)重的地區(qū)進(jìn)行討論,所以受公眾談?wù)撟疃嗟某鞘泻蛥^(qū)域可能是最應(yīng)收到關(guān)注的地方。
借此本研究使用中文詞法分析LAC模型對(duì)暴雨中階段社交媒體文本中的位置信息進(jìn)行抽取,通過(guò)地理編碼賦予其坐標(biāo)值,其中經(jīng)LAC模型得到的公眾關(guān)注區(qū)域的前十五,如表2所示。
表2 暴雨期間公眾重點(diǎn)關(guān)注區(qū)域
根據(jù)關(guān)注權(quán)重將公眾關(guān)注高的區(qū)域以核密度分析方法進(jìn)行可視化,從圖2可知,公眾關(guān)注的重點(diǎn)區(qū)域都在山西省南部,其中太原市受到的關(guān)注最多,這是因?yàn)樘鳛樯轿魇?huì)人口基數(shù)相對(duì)于其他城市較多,當(dāng)暴雨對(duì)城市道路通行造成影響時(shí)自然有較多的人進(jìn)行關(guān)注,值得注意的是位于太原西南方向的平遙古城也受到了較多的關(guān)注,這是因?yàn)楣娛謸?dān)心強(qiáng)降雨是否會(huì)對(duì)該世界文化遺產(chǎn)造成實(shí)質(zhì)影響。
圖2 文本位置核密度圖審圖號(hào):晉S(2022)005號(hào)
本研究依托于EasyDL平臺(tái),選擇高精度且同時(shí)兼顧準(zhǔn)確率(Precision)和召回率(Recall)的情感分析模型。根據(jù)本研究所標(biāo)注的情感語(yǔ)料,其模型訓(xùn)練效果如表3所示。
表3 情感分析模型效果 單位:%
從結(jié)果精度來(lái)看,整體情感預(yù)測(cè)的準(zhǔn)確率達(dá)到94.6%,且正向和負(fù)向樣本的F值、精確率以及召回率都有著較好的精度結(jié)果。這也為我們后續(xù)災(zāi)害背景下的公眾情感值預(yù)測(cè)提供了科學(xué)支持。
3.2.1公眾情感時(shí)間演變
我們從時(shí)間尺度上對(duì)社交媒體文本情感值進(jìn)行分析,由圖3可看出在災(zāi)害發(fā)生的各個(gè)階段積極情感占比始終高于消極情感和中性情感,且積極情感呈現(xiàn)先下降再上升的趨勢(shì),在暴雨中階段達(dá)到最低值50%,隨后在暴雨后階段上升至70%。而消極情感的走勢(shì)與積極情感呈現(xiàn)相反的趨勢(shì),在暴雨階段達(dá)到峰值40%后大幅降落,中性情感占比則是一直維持在10%左右。
圖3 情感趨勢(shì)變化
由此可以看得,大部分公眾對(duì)這次災(zāi)害始終抱有積極的態(tài)度,就算是暴雨發(fā)生最密集的階段積極情感也占據(jù)著較高的占比。而在暴雨后更是達(dá)到了積極情感占比的峰值,說(shuō)明盡管暴雨災(zāi)害對(duì)公眾過(guò)生活帶來(lái)了較大的影響,尤其是暴雨后帶來(lái)了滑坡、墻體開裂等所導(dǎo)致的次生災(zāi)害,但是隨著救援工作和后續(xù)修繕工作的展開,公眾始終保持著較為積極的態(tài)度。
3.2.2公眾情感空間分布
對(duì)于公眾情感分布的空間特征來(lái)說(shuō),本研究將自身帶有地理位置的微博進(jìn)行地理展布,并借助漁網(wǎng)圖進(jìn)行空間分析,以此分析暴雨中和暴雨后階段的公眾情感變化趨勢(shì)。借助漁網(wǎng)圖可以高效地統(tǒng)計(jì)出格網(wǎng)中所占要素的多少,有助于分析不同區(qū)域間的情感狀態(tài)。
由圖4的社交媒體文本情感值空間分析可看出,在暴雨中階段山西省南部還是存在大量的消極情感,這也是因?yàn)樵撾A段持續(xù)的高強(qiáng)度降雨使得公眾的生活受到了影響,但隨著暴雨停止以及全國(guó)各地前來(lái)支援工作的展開,在暴雨后階段山西省各城市的公眾情感值也基本被積極情感所占據(jù),這也體現(xiàn)了災(zāi)害各階段情感值的異步性和差異性。社交媒體數(shù)據(jù)與路網(wǎng)數(shù)據(jù)相結(jié)合可看得在暴雨期間山西省南部道路主干道上存在大量的消極情感,這也證實(shí)了交通可達(dá)性高的區(qū)域受暴雨影響較大。
圖4 公眾情感分布圖
對(duì)于社交媒體文本關(guān)注內(nèi)容的挖掘,我們首先使用jieba這一成熟的中文分詞python庫(kù)完成社交媒體的分詞,隨后通過(guò)sklearn中實(shí)現(xiàn)的TfidfVectorizer類方法來(lái)完成TF-IDF關(guān)鍵詞信息抽取,同時(shí)在處理過(guò)程中設(shè)置哈工大停用詞表(stopword)來(lái)去掉復(fù)雜符號(hào)以及無(wú)效字詞等數(shù)據(jù)噪聲,最后根據(jù)所得詞頻的權(quán)重制作詞云圖,如圖5所示。
(a)暴雨前 (b)暴雨中 (c)暴雨后
通過(guò)詞云圖對(duì)高詞頻關(guān)鍵詞進(jìn)行可視化展示,過(guò)濾了大量的低質(zhì)文本信息,有助于快速了解災(zāi)害主題。從圖5可看出災(zāi)害不同階段的公眾注意力變化,在暴雨前的公眾發(fā)布微博中大多是對(duì)氣象局做的預(yù)警進(jìn)行討論,所以高詞頻被“天氣”“預(yù)計(jì)”和“降雨”等所占據(jù),而在暴雨發(fā)生階段公眾除了發(fā)布一些有關(guān)暴雨的實(shí)時(shí)變化和受損程度外,關(guān)注更多的是如何進(jìn)行災(zāi)情處理和救援工作,所以該階段的詞頻被“暴雨”“救援”“高速”“滑坡”和“坍塌”等詞所占據(jù),而在暴雨后階段我們可以看出詞云中出現(xiàn)了“文物”“古建筑”“嚴(yán)重”等對(duì)詞,這是因?yàn)樯轿鳛橹袊?guó)地上文物最多的省份,據(jù)山西省文化廳在《山西省文化資源概況》中公布的文物資源統(tǒng)計(jì)數(shù)據(jù)為:古建筑及歷史建筑約2萬(wàn)處,其中木構(gòu)建筑9 000余處,宋、金以前的木構(gòu)建筑106處,占全國(guó)同期木結(jié)構(gòu)建筑物的70%以上;元代以來(lái)的古戲臺(tái)2 000多座,均居全國(guó)之冠。所以當(dāng)公眾解決暴雨對(duì)自身帶來(lái)的不利影響后,注意力焦點(diǎn)自然放到了易受暴雨次生災(zāi)害影響的古建筑上,而相關(guān)減災(zāi)部門在災(zāi)后也需要仔細(xì)排查古建筑的受損情況并進(jìn)行修繕。
自然災(zāi)害事件會(huì)在很大程度上影響人類的生活,而這一過(guò)程也會(huì)不可避免地在社交媒體上留下痕跡,社交媒體數(shù)據(jù)似乎是對(duì)傳統(tǒng)數(shù)據(jù)的有益補(bǔ)充,每個(gè)數(shù)據(jù)都闡述自己的情感和觀念。當(dāng)通過(guò)社交媒體數(shù)據(jù)對(duì)災(zāi)害發(fā)生過(guò)程有一個(gè)準(zhǔn)確理解的時(shí)候,可以更有效地降低災(zāi)害風(fēng)險(xiǎn)。借此我們將社交媒體數(shù)據(jù)作為災(zāi)害影響評(píng)估的重要數(shù)據(jù)源。在本研究中我們以2021年10月山西暴雨為例,借助于語(yǔ)義分析的多種文本探測(cè)方法對(duì)微博涉災(zāi)社交媒體文本進(jìn)行深度挖掘,探究了災(zāi)害期間公眾注意力焦點(diǎn)和情感變化,主要解決在災(zāi)害發(fā)生期間減災(zāi)人員無(wú)法獲取災(zāi)害發(fā)生地的實(shí)時(shí)狀況的情況。但仍然存在一些不足,本研究采用的數(shù)據(jù)相對(duì)來(lái)說(shuō)較為單一,因此,如何將災(zāi)害發(fā)生過(guò)程中所采集到的多源數(shù)據(jù)進(jìn)行深度融合將是我們下一步研究的重點(diǎn)。接下來(lái)可考慮將社交媒體數(shù)據(jù)和災(zāi)害傳統(tǒng)檢測(cè)數(shù)據(jù)進(jìn)行深度融合,使社交媒體數(shù)據(jù)和權(quán)威數(shù)據(jù)在災(zāi)害研究中相互補(bǔ)充。