蔣春華 劉歡 劉憶寧
【摘 要】易班網(wǎng)是一款高校教育教學(xué),生活服務(wù), 文化娛樂的綜合性互動社區(qū)網(wǎng),其參與主體是高校老師和學(xué)生。文章提供了一種監(jiān)測校園輿情的方案,該方案將網(wǎng)絡(luò)爬蟲和敏感詞進(jìn)行對比搜索來監(jiān)控輿情方向。實驗數(shù)據(jù)表明,通過網(wǎng)絡(luò)爬蟲技術(shù)可以很好的用來監(jiān)測校園輿情。
【關(guān)鍵詞】易班網(wǎng);網(wǎng)絡(luò)爬蟲;敏感詞
The Research and Design about Sensitive Words Monitoring System on Easy Class Network
JIANG Chun-hua LIU Huan LIU Yi-ning
(School of Computer and Information Security, Guilin University of Electronic Technology,Guilin Guangxi 541004,China)
【Abstract】Yi Ban network is a comprehensive interactive community network with function of education and teaching in college,life services, culture and entertainment.A program is proposed to monitor the public opinion of the campus.Comparing the web crawlers and the search of sensitive words,it can monitor the direction of the public opinion.The experimental data shows that web crawlers can be used to monitor the public opinion of the campus.
【Key words】Yi Ban network;Web crawlers;Sensitive words
0 引言
隨著科學(xué)技術(shù)的發(fā)展,信息技術(shù)逐漸走進(jìn)千家萬戶。信息技術(shù)的發(fā)展給人們?nèi)粘I顜肀憷耐瑫r,也給人們生活帶來挑戰(zhàn)。人們崇尚自由,在看不見的網(wǎng)絡(luò)中發(fā)表著自己的觀點,而不需要承擔(dān)言論帶來的責(zé)任。有些別有用心的人會引導(dǎo)網(wǎng)絡(luò)言論,從而達(dá)到自己的目的。因此需要對網(wǎng)絡(luò)言論進(jìn)行監(jiān)控,防止不明真相的參與者被別有用心的人引導(dǎo)。
在校大學(xué)生是網(wǎng)絡(luò)言論的主力軍,然而由于大學(xué)生普遍涉世未深,極易受到不實信息和敵對勢力的蠱惑煽動,在虛擬網(wǎng)絡(luò)世界里發(fā)表一些激進(jìn)的觀點和言論,影響校園和社會的穩(wěn)定團(tuán)結(jié)。為此,監(jiān)測大學(xué)生的網(wǎng)上言論,通過大學(xué)生網(wǎng)上言論了解其心理思想和訴求是極其重要的。微博、貼吧、人人網(wǎng)等社交平臺,無需實名注冊,人員混雜,因此對這些平臺上在校大學(xué)生進(jìn)行網(wǎng)絡(luò)輿情[1]監(jiān)控十分困難。易班網(wǎng)是一款專門針對在校大學(xué)生開發(fā)的互動社區(qū),需要實名注冊。因此可以利用易班網(wǎng)對大學(xué)生進(jìn)行網(wǎng)絡(luò)言論監(jiān)控[2],從而了解大學(xué)生心理思想和訴求。利用易班網(wǎng)可以很好的了解當(dāng)代大學(xué)生對于各種網(wǎng)絡(luò)事件的觀點[3]、輿論導(dǎo)向以及大學(xué)生的心理狀態(tài),有利于學(xué)校及時處理相關(guān)輿情事件、引導(dǎo)輿情的發(fā)展[4]。
1 易班網(wǎng)絡(luò)輿情監(jiān)測方案
圖1 系統(tǒng)流程圖
利用敏感詞監(jiān)測系統(tǒng)對于易班網(wǎng)絡(luò)輿情監(jiān)測進(jìn)行調(diào)研,在系統(tǒng)開發(fā)過程中綜合各方面因素,使用了Python2.7版本作為開發(fā)語言,MySQL5.1版本作為數(shù)據(jù)庫存儲系統(tǒng),界面設(shè)計使用Django框架進(jìn)行web展示。該系統(tǒng)主要包括了信息獲取、信息處理、輿情分析和輿情預(yù)警等四個模塊。程序運行流程如圖1。
1.1 信息獲取
對于易班網(wǎng)絡(luò)言論進(jìn)行分析,發(fā)現(xiàn)用戶言論主要集中在對文章的評論[5],因此這一部分是信息獲取的主要途徑。由于每個學(xué)校都是有相對應(yīng)的ID,因此我們只需要對本校對應(yīng)的
ID域進(jìn)行監(jiān)控和爬蟲爬取,從而獲取到學(xué)校在易班網(wǎng)上所有的文章URL。對這些URL進(jìn)行存儲和網(wǎng)頁爬取,獲取文章信息以及文章下面的用戶評論信息。易班網(wǎng)絡(luò)的環(huán)境導(dǎo)致團(tuán)隊成員需要綜合考慮各個方面,對爬蟲進(jìn)行了延時處理,即每隔一定的時間(該時間可以由系統(tǒng)后臺管理員設(shè)定)對易班網(wǎng)進(jìn)行爬蟲爬取信息。由于爬蟲在輪回爬取過程中,會遇到很多重復(fù)URL地址,為此,本系統(tǒng)在對爬蟲爬取過程中做了去重處理,而且在入庫處理時對文章和評論發(fā)表時間做了判斷,以確保存儲的數(shù)據(jù)是最新的且避免了重復(fù)數(shù)據(jù)入庫。
1.2 信息處理
信息處理模塊主要是對獲取到的用戶評論信息進(jìn)行入庫處理。經(jīng)過分析可知:易班網(wǎng)采用JSON格式的方式處理用戶的評論數(shù)據(jù)。針對這種處理方式,對JSON數(shù)據(jù)進(jìn)行了分析,將數(shù)據(jù)進(jìn)行了分隔,對文章URL、文章下所有的評論人員的ID,評論內(nèi)容、評論時間等字段內(nèi)容進(jìn)行了入庫處理。
1.3 輿情分析
輿情分析是輿情監(jiān)控系統(tǒng)的關(guān)鍵模塊。為了便于應(yīng)對各種突發(fā)情況和管理員針對不同信息進(jìn)行分析檢索,系統(tǒng)管理員可以在后臺自主設(shè)定輿情敏感詞。系統(tǒng)利用這些敏感詞和數(shù)據(jù)庫中信息進(jìn)行匹配,找出存在敏感詞的評論,以及發(fā)表該評論的人員和文章的URL地址。匹配過程如下:建立敏感詞數(shù)據(jù)庫,將敏感詞與獲取的評論信息進(jìn)行匹配查找,確定是否存在包含敏感詞的言論。將包含敏感詞的評論文章ID和評論信息存儲下來,并且通過E-mail實時通知負(fù)責(zé)人員進(jìn)行處理。
1.4 輿情預(yù)警
互聯(lián)網(wǎng)信息的傳播速度很快,輿情的爆發(fā)時間也具有不可預(yù)料性,而管理人員不可能實時在線,因此,及時預(yù)警輿情是網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)不可或缺的功能。該系統(tǒng)的輿情預(yù)警主要通過發(fā)送E-mail到監(jiān)控人員移動終端進(jìn)行實現(xiàn)。當(dāng)匹配到相關(guān)敏感詞在文章評論中出現(xiàn)時,系統(tǒng)會自動向后臺設(shè)定的郵箱地址發(fā)送預(yù)警郵件。預(yù)警郵件包含敏感詞所在文章的網(wǎng)頁地址,便于管理人員可以及時了解到輿情的動態(tài),及時妥當(dāng)處理相關(guān)問題[6]。
2 結(jié)論
本系統(tǒng)利用網(wǎng)絡(luò)信息技術(shù)來實現(xiàn)對易班網(wǎng)絡(luò)的實時輿情監(jiān)測,以解決傳統(tǒng)人工監(jiān)測時“人手不足、容易疏忽、效率底下”等問題,可以更加及時的發(fā)現(xiàn)問題,凈化校園網(wǎng)絡(luò)環(huán)境,引導(dǎo)輿論導(dǎo)向,并且可以及時定位言論發(fā)布者,以便于做出相應(yīng)處置。
【參考文獻(xiàn)】
[1]王娟.網(wǎng)絡(luò)輿情監(jiān)控分析系統(tǒng)構(gòu)建[J].長春理工大學(xué)學(xué)報(高教版),2007,4: 201-203.
[2]張玨.網(wǎng)絡(luò)輿情預(yù)測模型與平臺的研究[D].北京:北京交通大學(xué),2009.
[3]J.Zeng,S.Zhang,C.Wu,et al..Predictive Model for Internet Public Opinion.Fuzzy Systems and Knowledge Discovery,2007.FSKD 2007.Fourth International Conference on.IEEE,2007,3:7-11.
[4]滕云,陳玲.網(wǎng)絡(luò)輿情特點的實證研究——基于高校BBS論壇的文本分析[J]. 山東社會科學(xué),2014,3:181-186.
[5]D.Shen,Z.Chen,Q.Yang,et al..Web-page classification through summarization[C]. Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2004:242-249.
[6]殷晉,雷航.網(wǎng)絡(luò)輿情發(fā)現(xiàn)與分析系統(tǒng)設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué), 2014.
[責(zé)任編輯:田吉捷]