何 巍
(中國人民警察大學(xué)智慧警務(wù)學(xué)院, 廊坊 065000)
隨著移動互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的人利用微信、微博等社交媒體發(fā)布、瀏覽和共享信息,由此產(chǎn)生了大量開放的社交媒體數(shù)據(jù)[1-2]。這些社交媒體數(shù)據(jù)包含時間戳和文本,有的還帶有地理位置信息,大體可以分為社交網(wǎng)絡(luò)、文本和時空信息3類[3]。通過數(shù)據(jù)挖掘技術(shù),可以發(fā)現(xiàn)這些數(shù)據(jù)背后隱藏的信息,例如人們的觀點、情感傾向和社會行為方式等[4-6]。
可視化分析是一種高度跨學(xué)科的數(shù)據(jù)挖掘方法,它通過將各類信息以人類可以利用視覺直觀理解的方式進行呈現(xiàn),提高了人類對抽象信息的理解和綜合研判能力。同時,可視化分析還支持人類與數(shù)據(jù)之間進行交互式探索,促進了對數(shù)據(jù)采集流程和數(shù)據(jù)挖掘模型的評估、糾正和改進,將改善人類最終獲得的知識和決策??梢暬治隹梢杂糜诳梢暬O(jiān)控、特征提取、事件檢測、異常檢測、預(yù)測分析和情況感知[3,7],在新聞、災(zāi)害應(yīng)急反應(yīng)、政治、經(jīng)濟、反恐與危機管理、娛樂、城市規(guī)劃等領(lǐng)域有非常廣泛的應(yīng)用[8-9]。
為此,首先介紹可視化分析的步驟,在此基礎(chǔ)上闡述如何利用可視化技術(shù)分析社交媒體數(shù)據(jù),最后討論分析過程中遇到的問題與挑戰(zhàn)。
根據(jù)應(yīng)用需求,用于可視化分析的數(shù)據(jù)類型將會是多種多樣的,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。首先,需要將采集來的數(shù)據(jù)融合成符合應(yīng)用需求的形式,并根據(jù)應(yīng)用需求進行數(shù)據(jù)變換和清洗。因為不同領(lǐng)域的數(shù)據(jù)通常具有不同的表達方式、不同的分布、不同的規(guī)模和不同的密度[10],所以數(shù)據(jù)融合的難點在于跨界數(shù)據(jù)的集成,通??梢圆捎没陔A段的方法、基于特征的方法或基于語義的方法等。
除了傳統(tǒng)的關(guān)系數(shù)據(jù)庫,為了適應(yīng)大數(shù)據(jù)時代數(shù)據(jù)量巨大、數(shù)據(jù)類型復(fù)雜的特點,分布式文件系統(tǒng)、NoSQL(not only SQL)數(shù)據(jù)庫、SQL on Hadoop系統(tǒng)得到了廣泛的應(yīng)用。它們可以用來存儲音頻、視頻和各類圖紙組成的非結(jié)構(gòu)化數(shù)據(jù),并且很容易實現(xiàn)橫向擴容。
可視化分析并不是簡單地將原始數(shù)據(jù)直接進行可視化展示,而是結(jié)合分析人員對數(shù)據(jù)的理解進行解釋性可視化。同時,分析人員對數(shù)據(jù)要進行交互式探索,實現(xiàn)可視化分析的循環(huán)過程(圖1),直至達到應(yīng)用需求。在分析過程中,首先應(yīng)該對數(shù)據(jù)進行全局性的概要分析,找出重點內(nèi)容,然后針對重點內(nèi)容進行細(xì)化和篩選,挖掘數(shù)據(jù)之間的相關(guān)關(guān)系和因果關(guān)系[11]。
圖1 可視化分析循環(huán)模型[11]
在社交媒體平臺,不同用戶之間通過相互關(guān)注、轉(zhuǎn)發(fā)和評論建立聯(lián)系,形成社交媒體消息節(jié)點,與社交媒體用戶節(jié)點一起構(gòu)成社交媒體網(wǎng)絡(luò),可用于探索社會結(jié)構(gòu)、社區(qū)關(guān)系等[12]。
基于用戶之間關(guān)系的網(wǎng)絡(luò),一般可以用節(jié)點鏈接圖[13]和矩陣圖[14]來表示。雖然節(jié)點鏈接圖比較直觀,但是當(dāng)節(jié)點很多時,相互之間會出現(xiàn)交叉和重疊,給網(wǎng)絡(luò)分析帶來困難。矩陣圖卻可以規(guī)避節(jié)點之間交叉和重疊的問題。如果將兩者結(jié)合起來分析,可以用于查找公共鄰居、最短路徑、社交網(wǎng)絡(luò)中最大的集團等[15-16]。
社交網(wǎng)絡(luò)節(jié)點的屬性有很多,例如年齡、性別、教育程度、位置、關(guān)系、內(nèi)容和時間等[17]。這些屬性會隨時間發(fā)生變化,所以社交網(wǎng)絡(luò)一直處于變動之中,可以利用矩陣圖對這些信息進行交互式分析[18]。每對用戶之間關(guān)系的演變可以使用基于格瑪斯特的字形矩陣(圖2[19])來進行可視化分析,按時間順序從上到下對關(guān)系數(shù)據(jù)進行編碼和疊加字形,可以分析社交媒體上關(guān)系的穩(wěn)定性。圖2中的數(shù)字是社交網(wǎng)絡(luò)節(jié)點編號,不同的數(shù)字代表不同的節(jié)點,即不同的用戶。
隨著社交媒體的發(fā)展,轉(zhuǎn)載和評論信息越來越方便。如果將源信息和被重新發(fā)布的信息都看作單獨的節(jié)點,隨著轉(zhuǎn)載過程的進行,將構(gòu)建起一個多級層次網(wǎng)絡(luò)。通??梢圆捎脴湫筒季?、圓形布局、帆形布局和曲線布局來探索信息的傳播過程[20],如圖3所示。其中,樹型布局用于突出分層特征,圓形布局和曲線布局用于突出整體擴散模式和關(guān)鍵點,而帆形布局則突出信息轉(zhuǎn)載隨時間的演變過程[3, 20]。此外,還可以使用平行坐標(biāo)來展示各個節(jié)點之間的關(guān)系和轉(zhuǎn)載的時間順序,從而說明事件的演變過程[21]。D-Map可以將源信息傳播網(wǎng)絡(luò)中的相同用戶進行合并,采用地圖隱喻的方式展示信息傳播模式[22]。采用動態(tài)流體模型可以檢測信息擴散的速度和范圍[23]。利用機器學(xué)習(xí)算法,可以有效識別虛假信息,從而及時阻斷謠言的傳播[24]。
圖3 多級層次網(wǎng)絡(luò)的不同布局[20]
很多社交媒體用戶會在賬戶中設(shè)置自己的地理位置,可能具體到地區(qū)、城市,也可能只是寬泛到國家,這可以為分析社交媒體信息提供地理背景[3]。雖然這些地理位置不是很精確,但是在進行信息擴散分析時,可以結(jié)合這些地理位置信息進行地域擴散分析[25-27]。
Cao等[25]采用圓形地圖隱喻的方式來描述信息在時空背景下是如何傳播的。通過進行地理信息擴散分析,可以得到某個特定主題的地理分布,并發(fā)現(xiàn)社交媒體參與者的空間分布[20],還可以同時研究不同區(qū)域針對某個特定主題的情緒分布情況[26]。
另外一種地理位置信息來自信息本身帶有的地理標(biāo)記,雖然這個比例僅有大約3%[28],但由于信息基數(shù)大,所以具有地理標(biāo)記的信息數(shù)量也是很大的。這類信息一般包含時間戳、位置(緯度和經(jīng)度)和文本信息等。對于帶有地理標(biāo)記的消息,可以采用的可視化類型有散點圖[29]、熱圖[30]、密度圖[31]和3D直方圖[32]等。將這類信息整合起來,可以用于探索圍繞某個社會事件所產(chǎn)生的社交媒體信息的空間、時間分布情況[30,33]。如果將帶有地理標(biāo)記的消息與其他數(shù)據(jù)融合在一起,還可以支持在一些特定場合的應(yīng)用,例如用于城市規(guī)劃[34]。
社交媒體的文本可視化一般包括關(guān)鍵字、主題和情緒可視化。其中,關(guān)鍵字是在文本上下文中使用頻率較高的詞,主題是社交媒體內(nèi)容的摘要,情緒是根據(jù)文本內(nèi)容提取的用戶的態(tài)度[35-36]。通過分析用戶所發(fā)表的文本中的關(guān)鍵字、主題和情緒可以得到豐富的語義信息[37-39]。
詞云常用于關(guān)鍵字的提取,一系列的詞被排列在平面上,詞的字體越大代表相應(yīng)的詞出現(xiàn)的頻率越高[40]。在財務(wù)模式分析[41]問題上,可以分析關(guān)鍵字之間的相關(guān)性[42],或者關(guān)鍵字、用戶和標(biāo)簽之間的相關(guān)性[43]。此外,采用分層可視化可以分析關(guān)鍵字隨時間的動態(tài)演變[37],首先將不同的文本按照時間順序進行分層,然后獲取不同層次文本的關(guān)鍵字,最后將這些關(guān)鍵字按照時間順序排列。但是,詞云無法體現(xiàn)對文本內(nèi)容本身的理解。
提取社交媒體內(nèi)容的主題是一件非常重要的事情。這些主題體現(xiàn)了用戶對文本內(nèi)容的理解。在主題可視化研究中,可以采用主題河隱喻的形式展示社交媒體內(nèi)容主題隨時間演變的過程[44]。用平行河流(圖4)來表示從同一事件中派生出的多個主題,用河流的波動表示圍繞特定主題的消息數(shù)量[38,45],可以用于分析某個社交媒體事件爆發(fā)的原因,并確定源信息和相關(guān)的衍生主題[46]。由于不同用戶之間存在相互影響,同一事件的不同主題之間也存在競爭行為,因此隨著時間的推移,這些主題會經(jīng)歷出現(xiàn)、發(fā)展、替換和消亡的過程[47]。此外,使用樹型結(jié)構(gòu)可以展示衍生出的分層主題[48-49]。
圖4 平行河流,用于可視化動態(tài)事件和主題演變[38]
情緒分析是文本分析的另一項重要內(nèi)容,通過分析公眾對社會事件的情緒,可以評估公眾對社會事件的態(tài)度。利用一定的算法可以從文本文檔中自動提取情緒,并進行交互式可視化,支持用戶分析情緒模式,探索關(guān)鍵問題[50-52]。除了簡單地將情緒分為憤怒、喜悅、悲傷等類型,還可以根據(jù)相關(guān)性將不同情緒進行分類,如憤怒-恐懼、期待-驚喜、喜悅-悲傷和信任-厭惡[53]。將情緒隨時間推移變化的情況繪制成河流[39],并采用不同的顏色來對不同的情緒進行編碼[54],可以形象直觀地展示不同情緒隨時間的演變,如圖5所示。如果要分析群體的綜合情緒動態(tài),可以采用高維投影的方式[55]。
圖5 隨時間變化的情感可視化[39]
在大數(shù)據(jù)時代,數(shù)據(jù)量巨大、數(shù)據(jù)類型多樣的特點尤為顯著,除了綜合運用可視化交互技術(shù)、自然語言處理技術(shù)和多媒體技術(shù)外,計算機并行處理技術(shù)也被用來處理大規(guī)模流式社交媒體數(shù)據(jù)。
在進行數(shù)據(jù)采集時,應(yīng)該注意采樣數(shù)據(jù)是存在偏差的。這是因為采樣數(shù)據(jù)來自使用社交媒體的人,這些人更傾向于年輕人和使用智能手機的人。同時,由網(wǎng)絡(luò)媒體機器人發(fā)布的信息也會引起采樣數(shù)據(jù)的偏差。再者,采樣數(shù)據(jù)往往只是某個或某幾個社交媒體平臺的數(shù)據(jù),不能覆蓋所有的社交媒體范圍[56]。
由于社交媒體用戶之間的關(guān)系一直處于變動之中,所以社交網(wǎng)絡(luò)具有明顯的時間特征,分析時應(yīng)該關(guān)注動態(tài)圖的演變[57-58]。
基于河流的視覺隱喻可用于動態(tài)文本、主題和情緒可視化[59-60],但是這種方法是存在局限性的。它將時間作為一個維度,而將其他所有信息都集成在另一個維度上,這會增加對除時間外的信息解讀的難度。所以,需要深入研究采用何種可視化的形式進一步表示文本信息與時間、地理信息的復(fù)雜動態(tài)特征。同時,如何將圖片和視頻所隱含的語義同文本信息的語義結(jié)合起來[61-62],需要進行深入的研究。
不同的人對用戶行為的理解也是不同的。對用戶行為的理解將改進可視化方式和數(shù)據(jù)分析方法[63-64]。但是,現(xiàn)在可視化分析和社會科學(xué)研究中缺少相應(yīng)的研究內(nèi)容[65-66],所以應(yīng)該在這方面進行一定的工作。
可視化分析是近年來一門新興的數(shù)據(jù)分析技術(shù),集成了可視化、人機交互和數(shù)據(jù)挖掘等多個領(lǐng)域的知識,可以增強人類對復(fù)雜數(shù)據(jù)的分析和探索能力。對社交媒體數(shù)據(jù)進行可視化分析可以用于可視化監(jiān)控、特征提取、事件檢測、異常檢測、預(yù)測分析和情況感知,應(yīng)用前景廣闊?,F(xiàn)實世界的數(shù)據(jù)是充滿噪聲和不確定性的,利用可視化分析可以將這些展示出來,有利于分析人員進行判斷。首先從數(shù)據(jù)采集與治理、數(shù)據(jù)管理和數(shù)據(jù)分析的角度闡述了可視化分析的步驟。然后,具體闡述了社交網(wǎng)絡(luò)可視化、時空信息可視化和文本可視化實現(xiàn)的方式。最后,對可視化分析過程中遇到的問題與挑戰(zhàn)進行了討論。未來,可視化分析技術(shù)將向著能處理更大規(guī)模的數(shù)據(jù)集和更復(fù)雜的數(shù)據(jù)類型的方向發(fā)展。