趙妍妍,秦兵,劉挺
1. 哈爾濱工業(yè)大學(xué)機(jī)電學(xué)院媒體技術(shù)與藝術(shù)系,黑龍江 哈爾濱 150001;
2. 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001
社會(huì)焦點(diǎn)透視鏡系統(tǒng)
—— 大數(shù)據(jù)視角下的輿情觀測(cè)平臺(tái)
趙妍妍1,秦兵2,劉挺2
1. 哈爾濱工業(yè)大學(xué)機(jī)電學(xué)院媒體技術(shù)與藝術(shù)系,黑龍江 哈爾濱 150001;
2. 哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001
Web2.0時(shí)代的開(kāi)啟和社會(huì)媒體的不斷發(fā)展,使得互聯(lián)網(wǎng)上的數(shù)據(jù)規(guī)模呈爆炸性增長(zhǎng)。網(wǎng)絡(luò)大數(shù)據(jù)不僅為社會(huì)治理領(lǐng)域帶來(lái)了新的契機(jī),也對(duì)數(shù)據(jù)處理技術(shù)提出了巨大的挑戰(zhàn)。構(gòu)建了一個(gè)社會(huì)焦點(diǎn)透視鏡系統(tǒng),結(jié)合新浪微博數(shù)據(jù),不僅能夠?qū)崟r(shí)提供每日的焦點(diǎn)事件及其情感分布展示,供輿情分析部門(mén)進(jìn)行檢測(cè),還能夠深層剖析焦點(diǎn)事件的情感分布原因和人群分布,協(xié)助社會(huì)治理領(lǐng)域進(jìn)行策略的提出和實(shí)施。以“9?3閱兵”為例,呈現(xiàn)社會(huì)焦點(diǎn)透視鏡系統(tǒng)深度剖析的結(jié)果展示。
網(wǎng)絡(luò)大數(shù)據(jù);社會(huì)焦點(diǎn)透視鏡;焦點(diǎn)事件抽??;情感分布
Web 2.0時(shí)代的開(kāi)啟和社會(huì)媒體(如微信、微博)的出現(xiàn)使得大量用戶(hù)從被動(dòng)地在網(wǎng)絡(luò)上接收知識(shí)轉(zhuǎn)變?yōu)楹A烤W(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生者。據(jù)統(tǒng)計(jì),互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯惴环?,網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)運(yùn)而生。目前,大數(shù)據(jù)的研究和應(yīng)用價(jià)值已在很多領(lǐng)域初見(jiàn)端倪。例如:在零售業(yè),可以在大數(shù)據(jù)中挖掘出高消費(fèi)者和高影響者兩類(lèi)有價(jià)值的客戶(hù),進(jìn)行產(chǎn)品推薦和口碑宣傳,與社交網(wǎng)絡(luò)相結(jié)合創(chuàng)造出新的商品營(yíng)銷(xiāo)模式。此外,社交網(wǎng)絡(luò)中的大數(shù)據(jù)也為很多政治選舉提供了新的宣傳手段,最典型的如在Facebook上開(kāi)展的奧巴馬的總統(tǒng)競(jìng)選運(yùn)動(dòng)。
隨著大數(shù)據(jù)理念和相關(guān)技術(shù)的不斷深入,大數(shù)據(jù)應(yīng)用也在慢慢向社會(huì)治理領(lǐng)域滲透。2015年8月31日,國(guó)務(wù)院以國(guó)發(fā)〔2015〕50 號(hào)印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》。大數(shù)據(jù)發(fā)展與“提升政府治理能力現(xiàn)代化”緊緊相連,成為全文亮點(diǎn)。大數(shù)據(jù)將如何助力政府治理,以改善百姓民生、社會(huì)服務(wù)成為大家最為關(guān)注的話(huà)題。眾所周知,爆炸性增長(zhǎng)的大數(shù)據(jù)蘊(yùn)藏著巨大的價(jià)值,因此尋求有效的大數(shù)據(jù)處理技術(shù)、方法和手段成為基于大數(shù)據(jù)進(jìn)行社會(huì)治理的最本質(zhì)的需求。
在眾多的大數(shù)據(jù)形式中,社會(huì)媒體數(shù)據(jù),如微博和微信數(shù)據(jù),是很好的一種洞察民情、觀測(cè)大眾行為的數(shù)據(jù)形式。例如,當(dāng)某一焦點(diǎn)事件發(fā)生時(shí),大量民眾在微博上發(fā)表自己的觀點(diǎn),可以通過(guò)觀測(cè)相關(guān)的微博大數(shù)據(jù)來(lái)統(tǒng)計(jì)并獲取民眾對(duì)于該事件的情感分布趨勢(shì),繼而協(xié)助相關(guān)部門(mén)進(jìn)行社會(huì)治理策略的提出和實(shí)施。此外,微博大數(shù)據(jù)還可以挖掘出民眾普遍關(guān)注的話(huà)題類(lèi)型、暴露出民眾的整體情緒趨勢(shì),供輿情部門(mén)監(jiān)測(cè)。
目前國(guó)內(nèi)外已經(jīng)有多項(xiàng)借助微博或Twitter來(lái)進(jìn)行淺層社會(huì)治理和分析的技術(shù)和系統(tǒng)。Zhao等人[1]構(gòu)建了一個(gè)名為MoodLens的中文微博情感分析系統(tǒng),將微博的情感分為憤怒、厭惡、高興和低落4類(lèi),進(jìn)行異?;蛲话l(fā)事件的監(jiān)測(cè)。Wang等人[2]構(gòu)建了一個(gè)實(shí)時(shí)的預(yù)測(cè)2012年美國(guó)大選結(jié)果的系統(tǒng),該系統(tǒng)通過(guò)統(tǒng)計(jì)Twitter上民眾對(duì)于4位候選人的情感分布來(lái)進(jìn)行結(jié)果預(yù)測(cè)。Ciot等人[3]研究了Twitter上進(jìn)行用戶(hù)性別預(yù)測(cè)的算法。Diao等人[4]研究了如何在Twitter上實(shí)時(shí)發(fā)現(xiàn)突發(fā)事件。Jennifer等人[5]研究了在Twitter上某個(gè)事件的發(fā)生時(shí)間預(yù)測(cè)算法。以上這些有代表性的系統(tǒng)和算法均是圍繞微博或Twitter大數(shù)據(jù)中焦點(diǎn)事件抽取和情感分析這兩大項(xiàng)任務(wù)進(jìn)行的,屬于淺層的大數(shù)據(jù)分析結(jié)果顯示,存在的問(wèn)題是缺乏事件和情感的深層分析和透視。這些傳統(tǒng)的系統(tǒng)和研究往往只關(guān)注民眾關(guān)心的焦點(diǎn)事件是什么,情緒走向是什么。如圖1(a)1a所示,基于自然語(yǔ)言處理技術(shù),可以對(duì)2015年5月29日的微博大數(shù)據(jù)進(jìn)行分析,挖掘出全國(guó)十大焦點(diǎn)事件以及每個(gè)事件的民眾情感分布,屬于淺層分析,分析出的結(jié)果可以為相關(guān)部門(mén)提供一定的預(yù)警信號(hào)。
然而,對(duì)于社會(huì)治理而言,相關(guān)部門(mén)更關(guān)心的是為何某一事件的發(fā)生會(huì)產(chǎn)生異常情緒、什么樣的人群會(huì)導(dǎo)致某些情緒的產(chǎn)生等深入的原因剖析,基于此來(lái)指導(dǎo)社會(huì)治理方案的制定。如圖1(b)1b所示,看到民眾對(duì)于“長(zhǎng)江游輪傾覆”事件的情緒分布后,相關(guān)部門(mén)更想知道為何會(huì)有人喜悅、為何會(huì)有人憤怒等異常情緒的形成原因。又如圖1(c)1c所示,相關(guān)部門(mén)還想知道針對(duì)同一焦點(diǎn)事件,不同的用戶(hù)畫(huà)像(性別、職業(yè)、年齡等)產(chǎn)生的情感分布的差別是什么,用以框定某一異常情緒的用戶(hù)群體進(jìn)行監(jiān)測(cè)。相比微博大數(shù)據(jù)的淺層分析和呈現(xiàn)而言,深層透視能夠更精準(zhǔn)地聚焦原因和人群,顯然對(duì)社會(huì)治理有更大的幫助。
圖1 面向焦點(diǎn)事件的情感淺層分析和深層透視
基于此,本文將詳細(xì)展示一個(gè)大數(shù)據(jù)視角下的輿情觀測(cè)平臺(tái)——社會(huì)焦點(diǎn)透視鏡系統(tǒng)。該系統(tǒng)圍繞微博大數(shù)據(jù)進(jìn)行焦點(diǎn)事件及其情感分布的深層透視,旨在為新時(shí)代的社會(huì)治理提供創(chuàng)造性的思路。如前文所述,社會(huì)焦點(diǎn)透視鏡系統(tǒng)包括兩大部分的內(nèi)容:焦點(diǎn)事件發(fā)現(xiàn)與情感分布展示;焦點(diǎn)事件情感分布原因和人群的深層透視。在第一部分內(nèi)容中,本系統(tǒng)主要采用了事件抽取技術(shù)和情感分析技術(shù);在第二部分內(nèi)容中,主要采用情感原因分析技術(shù)和用戶(hù)畫(huà)像技術(shù)。本文以“9?3閱兵”為例,呈現(xiàn)社會(huì)焦點(diǎn)透視鏡系統(tǒng)的淺層和深層分析展示結(jié)果。
社會(huì)焦點(diǎn)透視鏡系統(tǒng)是一個(gè)實(shí)時(shí)的互聯(lián)網(wǎng)大數(shù)據(jù)輿情監(jiān)測(cè)平臺(tái)。通過(guò)對(duì)微博海量數(shù)據(jù)的分析、挖掘和可視化,構(gòu)建社會(huì)焦點(diǎn)事件的發(fā)現(xiàn)、追蹤和挖掘的深層透視。圖22展示了社會(huì)焦點(diǎn)透視鏡系統(tǒng)的流程,共包括兩部分內(nèi)容:社會(huì)焦點(diǎn)事件的淺層分析和社會(huì)焦點(diǎn)事件的深層透視。
· 社會(huì)焦點(diǎn)透視鏡的淺層分析:主要包括事件發(fā)現(xiàn)和情感分析兩個(gè)模塊。淺層分析可以每隔2 h實(shí)時(shí)更新當(dāng)天的焦點(diǎn)事件,并實(shí)時(shí)對(duì)這些焦點(diǎn)事件進(jìn)行民眾情感的分析。如圖1(a)1a右側(cè)框中所示的焦點(diǎn)事件以及情感分布。此外,社會(huì)焦點(diǎn)透視鏡的淺層分析還可以實(shí)時(shí)給出全國(guó)各省民眾的整體情緒指數(shù)及各省民眾關(guān)心的焦點(diǎn)事件。如圖1(a)1a中顯示的地圖,從深至淺代表了情緒指數(shù)(喜悅情緒)由高至低。
· 社會(huì)焦點(diǎn)透視鏡的深層透視:主要包括情感歸因分析和基于用戶(hù)畫(huà)像的情感分析兩個(gè)模塊。深層透視是對(duì)某一段時(shí)期的某一個(gè)焦點(diǎn)事件的深層剖析。主要從兩個(gè)角度入手,一個(gè)是導(dǎo)致某一種情緒的事件原因,另一個(gè)是導(dǎo)致某一種情緒的人群歸類(lèi)。
下面將詳細(xì)介紹每個(gè)模塊。
2.1 數(shù)據(jù)來(lái)源
選擇新浪微博作為實(shí)時(shí)的數(shù)據(jù)來(lái)源。新浪微博匯集了有關(guān)焦點(diǎn)事件的民眾的多角度評(píng)論以及民眾每天的行為情緒動(dòng)態(tài)。社會(huì)焦點(diǎn)透視鏡系統(tǒng)每天的微博處理總量在1 600萬(wàn)條微博左右,每2 h更新一次。數(shù)據(jù)格式見(jiàn)表11。
圖2 社會(huì)焦點(diǎn)透視鏡的系統(tǒng)流程
表1 微博數(shù)據(jù)格式
2.2 預(yù)處理
預(yù)處理主要包括兩個(gè)部分:文本噪聲預(yù)處理和文本分析預(yù)處理。
文本噪聲預(yù)處理部分包括去廣告、去水軍和文本去重等步驟。考慮到微博可能存在的廣告會(huì)對(duì)后續(xù)的事件發(fā)現(xiàn)和情感分類(lèi)等步驟造成干擾,本文收集了400條廣告標(biāo)記短語(yǔ),用于過(guò)濾帶有廣告詞匯的微博;同時(shí)結(jié)合新浪微博數(shù)據(jù)中心的水軍過(guò)濾算法,初步緩解部分話(huà)題水軍泛濫的問(wèn)題;考慮到每日系統(tǒng)需要處理海量數(shù)據(jù)的微博,其中部分微博存在表述重復(fù)的現(xiàn)象,針對(duì)性地對(duì)其進(jìn)行去重處理。
文本分析預(yù)處理部分包括必要字符的替換、分詞和詞性標(biāo)注等步驟??紤]到微博文本的特點(diǎn),即用戶(hù)信息(例如“@張三”)和短鏈接信息(例如“http://t.cn/Ryrc”)等會(huì)對(duì)后續(xù)的步驟造成干擾,所以本文對(duì)其進(jìn)行必要的替換或屏蔽;后續(xù)步驟本文使用哈爾濱工業(yè)大學(xué)語(yǔ)言技術(shù)平臺(tái)(language technology platform,LTP)①http://www.ltpcloud.com/對(duì)文本進(jìn)行精準(zhǔn)的分詞與詞性標(biāo)注。
2.3 事件發(fā)現(xiàn)
這里的事件具體是指微博焦點(diǎn)事件,即在短時(shí)間內(nèi)被大量用戶(hù)高度關(guān)注、討論的話(huà)題。有些話(huà)題與社會(huì)事件密切相關(guān),如“長(zhǎng)江游輪傾覆”、“馬航失聯(lián)”等;有些話(huà)題與社會(huì)事件無(wú)關(guān),但仍在短時(shí)間內(nèi)獲得了很高的關(guān)注度,如:“你最喜愛(ài)的男神”、“最美英語(yǔ)教師”等。微博焦點(diǎn)事件不同于官方媒體的頭條新聞,微博植根于草根之中,是普通大眾的心聲或思想的網(wǎng)絡(luò)直接反饋?;诖?,挖掘浩瀚如海的微博中的焦點(diǎn)事件變得尤為重要。
在社會(huì)焦點(diǎn)透視鏡系統(tǒng)中,設(shè)計(jì)了一個(gè)實(shí)時(shí)微博焦點(diǎn)事件抽取框架。該框架的核心是基于統(tǒng)計(jì)的思想,利用啟發(fā)式規(guī)則和聚類(lèi)算法。該框架主要包含3個(gè)組成部分,分別如下。
· 話(huà)題發(fā)現(xiàn):候選熱點(diǎn)話(huà)題發(fā)現(xiàn)。
· 話(huà)題聚類(lèi):候選熱點(diǎn)話(huà)題聚類(lèi)。
· 話(huà)題排序:對(duì)聚類(lèi)得到的話(huà)題聚簇進(jìn)行排序,排序靠前的即焦點(diǎn)事件。
具體的算法可見(jiàn)參考文獻(xiàn)[6]。
2.4 情感分析
這里使用的情感分析技術(shù)具體是指面向焦點(diǎn)事件的情緒分類(lèi),最終顯示為如圖1(a)1a所示的焦點(diǎn)事件的情緒分布。其中的基礎(chǔ)技術(shù)環(huán)節(jié)是,針對(duì)一條包含焦點(diǎn)事件的微博,判斷它所表達(dá)的情緒是“喜悅”、“憤怒”、“悲傷”、“恐懼”還是“驚奇”。
情緒分類(lèi)是情感分析領(lǐng)域研究得比較深入的一項(xiàng)基礎(chǔ)任務(wù),主要有基于情感詞和基于分類(lèi)器兩大類(lèi)方法。其中基于SVM(support vector machine,支持向量機(jī))和豐富特征的方法是最經(jīng)典和快速的方法[7]。近年來(lái),隨著深度學(xué)習(xí)在自然語(yǔ)言處理的深入發(fā)展,深度學(xué)習(xí)技術(shù)在情感分類(lèi)領(lǐng)域也取得了較好的效果[8]。因此,在社會(huì)焦點(diǎn)透視鏡系統(tǒng)中,筆者采用了詞向量和SVM經(jīng)典特征相結(jié)合的方法[9],取得了較好的性能。
這里值得一提的是,微博的口語(yǔ)化較為嚴(yán)重,充斥著隱式情感(如:“滿(mǎn)滿(mǎn)的正能量”,“我給他打滿(mǎn)分”)和反諷(如:“你真是太給我長(zhǎng)臉了!”)、隱喻(如:“此人是垃圾”)等豐富的語(yǔ)言現(xiàn)象,這給情感分析技術(shù)提出了較大的挑戰(zhàn),這也是未來(lái)努力的目標(biāo)。
2.5 情感歸因分析
如前文所述,“事件發(fā)現(xiàn)”和“情感分析”模塊屬于社會(huì)焦點(diǎn)透視鏡系統(tǒng)的淺層分析。用戶(hù)更想探究的是為何會(huì)有某種情緒的產(chǎn)生、什么導(dǎo)致了某種情緒等更深層的透視。這也是本文的社會(huì)焦點(diǎn)透視鏡系統(tǒng)不同于國(guó)內(nèi)外其他現(xiàn)有系統(tǒng)的重要區(qū)別所在。在該系統(tǒng)中,第一層次的透視就是面向焦點(diǎn)事件的民眾情緒的原因分析,具體體現(xiàn)為哪個(gè)子事件的發(fā)生導(dǎo)致了這種情緒。
本系統(tǒng)首次提出了情感歸因分析任務(wù),并使用自動(dòng)抽取用戶(hù)自然標(biāo)注的Hashtag作為子事件的算法來(lái)解釋焦點(diǎn)事件的原因分析。圖33顯示的是“長(zhǎng)江游輪傾覆”事件的“喜悅”和“憤怒”兩種情緒的原因分析。從圖3(a)3a中可以看出,子事件“沉船內(nèi)部有生命跡象”和“載客458人已救起8人”的情緒分布中“喜悅”的情緒占據(jù)了一定的比重,因此這兩個(gè)子事件可以用來(lái)解釋“長(zhǎng)江游輪傾覆”事件所表露出的“喜悅”情緒。從圖3(b)3b中可以看出,子事件“乘客家屬收到詐騙短信”的情緒分布中“憤怒”的情緒占據(jù)了大部分的比重,因此該子事件可以用來(lái)解釋“長(zhǎng)江游輪傾覆”事件所表露出的“憤怒”情緒。具體的算法細(xì)節(jié)可見(jiàn)參考文獻(xiàn)[10]。
圖3 “長(zhǎng)江游輪傾覆”事件的“喜悅”和“憤怒”兩種情緒歸因分析
2.6 基于用戶(hù)畫(huà)像的情感分析
除了焦點(diǎn)事件的情緒歸因分析之外,用戶(hù)不同群體與情緒之間的對(duì)照也是社會(huì)焦點(diǎn)透視鏡系統(tǒng)深層透視的重要組成部分。事實(shí)證明,不同的用戶(hù)群體對(duì)同一事件的情緒反饋也不同。如圖1(c)1c所示,不同性別的用戶(hù)對(duì)“文章出軌事件”的情緒反饋是不同的。用戶(hù)群體的特性除了用性別表示外,還有職業(yè)、年齡、地域等不同的用戶(hù)畫(huà)像角度,都可以從不同的側(cè)面展示出不同的用戶(hù)群體對(duì)同一事件的情緒反饋。如果能夠?qū)⒂脩?hù)的各個(gè)畫(huà)像角度與情緒分析相結(jié)合,無(wú)疑是從用戶(hù)角度對(duì)焦點(diǎn)事件的深層次透視。
在目前的社會(huì)焦點(diǎn)透視鏡系統(tǒng)中,僅僅針對(duì)用戶(hù)的地域和性別兩個(gè)維度的屬性,對(duì)提及的微博數(shù)量進(jìn)行了統(tǒng)計(jì)分析,圖4(a)4a和圖4(b)4b分別展示了針對(duì)“長(zhǎng)江游輪傾覆”事件用戶(hù)在省份和性別這兩個(gè)維度上的微博數(shù)量。當(dāng)然,將不同的用戶(hù)屬性與其情感分布進(jìn)行對(duì)照是更深入的社會(huì)輿情透視,這也將是下一步的研究工作。
除了以上幾個(gè)重要模塊的展示外,社會(huì)焦點(diǎn)透視鏡系統(tǒng)還有其他一些豐富的展示效果,詳情請(qǐng)見(jiàn)http://qx.8wss.com。
與人民網(wǎng)和新浪微博合作,筆者將社會(huì)焦點(diǎn)透視鏡系統(tǒng)的關(guān)鍵技術(shù)用于了2015年的“9?3閱兵”話(huà)題中,推出了閱兵大數(shù)據(jù)“網(wǎng)民情緒展示”平臺(tái),該平臺(tái)每隔15 min刷新一次數(shù)據(jù),進(jìn)行展示。
“網(wǎng)民情緒展示”平臺(tái)的主要功能包括:網(wǎng)民實(shí)時(shí)關(guān)注熱門(mén)地區(qū)排名、網(wǎng)民實(shí)時(shí)評(píng)論閱兵熱點(diǎn)高頻詞分析、網(wǎng)民實(shí)時(shí)熱點(diǎn)話(huà)題排行榜以及整個(gè)閱兵過(guò)程中的輿情走勢(shì)等。該平臺(tái)共采集了9月3日8:30-12:30這4 h內(nèi)網(wǎng)民在新浪微博平臺(tái)上的閱兵相關(guān)話(huà)題,并進(jìn)行分析統(tǒng)計(jì)。大數(shù)據(jù)分析結(jié)果顯示:原創(chuàng)微博及轉(zhuǎn)發(fā)微博總帖量共計(jì)453萬(wàn)人次,網(wǎng)民參與發(fā)帖的峰值點(diǎn)出現(xiàn)在中午12:00,峰值數(shù)據(jù)為50萬(wàn)人次;熱門(mén)地區(qū)被廣東、北京和山東包攬前三甲;網(wǎng)民熱議的高頻詞有“國(guó)泰民安、挺身而出、舍生忘死”等;“習(xí)近平宣布將裁軍30萬(wàn)”成為網(wǎng)民最熱議的話(huà)題。
圖55是“網(wǎng)民情緒展示”平臺(tái)的部分?jǐn)?shù)據(jù)截圖。
圖4 “長(zhǎng)江游輪傾覆”事件微博數(shù)量
圖5 “網(wǎng)民情緒展示”平臺(tái)的部分?jǐn)?shù)據(jù)截圖
本文介紹的“社會(huì)焦點(diǎn)透視鏡系統(tǒng)”是微博大數(shù)據(jù)時(shí)代下的一種新型的輿情監(jiān)測(cè)平臺(tái)。該系統(tǒng)不僅可以像傳統(tǒng)系統(tǒng)一樣展示出社會(huì)熱議的事情及民眾的情緒分析,還可以深層透視焦點(diǎn)事件背后情緒分布的原因及其相應(yīng)的用戶(hù)群體,相信可以對(duì)當(dāng)代社會(huì)治理方案的制定提供一定的技術(shù)支持。
[1] ZHAO J C, DONG L, WU J J, et al. MoodLens: an emoticon-based sentiment analysis system for Chinese Tweets in Weibo[C]//The 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, August 12-16, 2012, Beijing, China. New York: ACM Press, 2012: 1528-1531.
[2] W A N G H, C A N D, K A Z E M Z A D E H A, e t a l. A s y s t e m f o r r e a l-t i m e Twitter sentiment analysis of 2012 U.S. presidential election cycle[C]//The ACL 2012 System Demonstrations, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 115-120.
[3] CIOT M, SONDEREGGER M, RUTHS D. Gender inference of Twitter users in non-English contexts[C]//The 2013 Conference on Empirical Methods in Natural Language Processing, October 18-21, 2013, Seattle, Washington, USA. Sofia: Association for Computational Linguistics, 2013: 1136-1145.
[4] DIAO Q M, JIANG J, ZHU F D, et al. Finding bursty topics from microblogs[C]// T he 50 th Annual Me e ting of the Association for Computational Linguistics, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 536-544.
[5] W I L L I A M S J, K AT Z G. E x t r a c t i n g and modeling durations for habits and events from Twitter[C]//The 50th Annual Meeting of the Association for Computational Linguistics, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 223-227.
[6] ZHAO Y Y, QIN B, LIU T, et al. Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on Microblog[J]. Multimedia Tools and Applications, 2014: 1-18.
[7] MOHAMMAD S M, KIRITCHENKO S, ZHU X D. NRC-Canada: building the state-of-the-art in sentiment analysis of Tweets[C]//The International Workshop on Semantic Evaluation, June 2013, Atlanta, USA. New York: Association for Computational Linguistics, 2013: 321-327.
[8] SOCHER R, PERELYGIN A, Wu J, et al. Recursive deep models for semantic compositionality over a sentiment tre ebank[C]//T he Conference on Empirical Methods in Natural Language Processing(EMNLP 2013), October 18-21, 2013, Seattle, WA, USA. Sofia: Association for Computational Linguistics, 2013: 1631-1642.
[9] TANG D Y, WEI F R, YANG N, et al. Learning sentiment-specific word embedding for Twitter sentiment classification[C]// The 52th Annual M e e t i n g o f t h e A s s o c i a t i o n f o r Computational Linguistics (ACL 2014), June 22-27, 2014, Baltimore, MD, USA. Baltimore: Association for Computational Linguistics, 2014: 1555-1565.
[10] ZHAO Y Y, QIN B, DONG Z J, et al. What causes different emotion distributionsof a hot event? A deep event-emotion analysis system on microblogs[C]//The 4th CCF Conference on Natural Language Processing & Chinese Computing(NLPCC 2015), October 9-13, 2015, Nanchang, China. Berlin: Springer, 2015: 453-464.
Social event sensor: a public opinion platform from the big data perspective
ZHAO Yanyan1, QIN Bing2, LIU Ting2
1. Department of Media Technology and Art, Harbin Institute of Technology, Harbin 150001
2. Research Center for Social Computing and Information Retrieval of Computer Science and Technology School, Harbin Institute of Technology, Harbin 150001
The development of Web 2.0 and social media has led to the explosive growth of online user generated content. Big data brings a new opportunity for social governance, but also poses a great challenge for the data processing technology. A social event sensor system was constructed, which not only can automatically extract the daily hot events and their emotion distributions in real time for opinion monitoring, but also can deeply analyze the emotion distribution causations and the population distributions to help policy-making in social governance. Finally, one case study “9.3 Parade”was showed to show the deeply analysis of social event sensor system.
big Web data, social event sensor, hot event extraction, sentiment distribution
TP391.1
A
10.11959/j.issn.2096-0271.2016018
趙妍妍(1983-),女,哈爾濱工業(yè)大學(xué)機(jī)電學(xué)院媒體技術(shù)與藝術(shù)系副教授、碩士生導(dǎo)師,中國(guó)中文信息學(xué)會(huì)社會(huì)媒體處理專(zhuān)委會(huì)委員,主要研究方向?yàn)樯鐣?huì)計(jì)算、情感分析。
秦兵(1968-),女,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,社會(huì)計(jì)算與信息檢索中心副主任,中文信息學(xué)會(huì)信息檢索專(zhuān)委會(huì)委員,中國(guó)計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)委員會(huì)委員,主要研究方向?yàn)樯鐣?huì)計(jì)算、自然語(yǔ)言處理、文本挖掘。
劉挺(1972-),男,哈爾濱工業(yè)大學(xué)教授,社會(huì)計(jì)算與信息檢索研究中心主任,中國(guó)計(jì)算機(jī)學(xué)會(huì)理事,中國(guó)中文信息學(xué)會(huì)常務(wù)理事、社會(huì)媒體處理專(zhuān)業(yè)委員會(huì)主任,國(guó)際會(huì)議ACL 2014、EMNLP 2015領(lǐng)域主席,主要研究方向?yàn)樯鐣?huì)計(jì)算、信息檢索和自然語(yǔ)言處理。
2016-01-20
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61300113, No.61273321, No.61133012)
Foundation Items: The National Natural Science Foundation of China(No.61300113,No.61273321,No.61133012)