沈旭,王新政,林子晴
(1.嶺南師范學院信息工程學院,湛江524048;2.桂林理工大學信息科學與工程學院,桂林541004)
中國互聯(lián)網(wǎng)絡信息中心發(fā)布的第43 次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》中指出,8.29 億是本人國截止2018 年12 月的網(wǎng)民規(guī)模,全年新增的網(wǎng)民就達到5653 萬,同時報告指出互聯(lián)網(wǎng)的普及率高達59.6%,并且,在數(shù)據(jù)中本人們可以發(fā)現(xiàn)本人國網(wǎng)民中青年群體占整體網(wǎng)民的67.8%,而高校學生在這當中又是一個特殊的群體,他們正處在青春洋溢、朝氣蓬勃的時期,對于社會上發(fā)生的討論度高的新聞或者熱點事件有著高度的關注,并且喜歡對這些事件或者熱點新聞發(fā)表自己的看法與感受,而這不免會引來激烈又廣泛的討論。但是,在這些言論中,可能會充斥著缺乏深思熟慮的表達,由于網(wǎng)絡的快速傳播,最后會對整個社會的輿情有著負面的影響。因此,高校就要加強對網(wǎng)絡熱點事件的了解,盡早知道當天的熱度較高的話題,給學生正確地網(wǎng)絡文化指引,營造一個充滿正能量的校園網(wǎng)絡環(huán)境。
數(shù)據(jù)研究的重點一直都是對網(wǎng)絡輿情的分析,目的就是通過獲取海量網(wǎng)絡數(shù)據(jù),并對數(shù)據(jù)進行挖掘,然后分析出隱藏在數(shù)據(jù)背后的有價值輿情觀點[1]。
在國內,從2005 年開始出現(xiàn)網(wǎng)絡輿情分析的研究文獻[2],相對國外來說起步較晚,但近年來對網(wǎng)絡輿情感興趣的人越來越多,該主題的文獻也逐漸升溫,相應的也出現(xiàn)了很多不同方向的輿情信息系統(tǒng),例如TOOM 輿情監(jiān)測系統(tǒng)、軍犬網(wǎng)絡輿情監(jiān)控系統(tǒng)、谷尼網(wǎng)絡輿情監(jiān)測系統(tǒng),等等。并且可以發(fā)現(xiàn),國內的網(wǎng)絡輿情分析的重點是服務于政府或者一些決策管理的機構[3],服務于校園的還是比較缺少的。
在國外,從1997 年開始就有相關的文獻發(fā)表,而在2012 年呈逐年上升的趨勢,其中,大部分的研究內容是對網(wǎng)絡輿情分析進行微觀分析、對網(wǎng)絡動機的分析以及對地區(qū)間差異的分析等[4]。同時在十九世紀也初步產(chǎn)生了一些輿情分析技術。例如,話題檢測與跟蹤(Topic Detection and Tracking)技術,它不僅可以處理網(wǎng)絡上日趨嚴重的信息爆炸問題,也可以對媒體信息流的已知話題進行持續(xù)跟蹤,同時自動識別新話題[5]。此外,國外還有許多輿情監(jiān)測軟件,例如說Buzzlogic、Radian6、Trackur、Sentiment Metrics 等。可見,國外對網(wǎng)絡的監(jiān)測與管理也是十分重視。
本課題主要研究的內容是高校網(wǎng)絡輿情突發(fā)事件預警系統(tǒng)的設計,利用PyCharm 作為開發(fā)平臺,采用Python 語言,從網(wǎng)絡中爬取需要分析的數(shù)據(jù),然后把熱點話題通過郵箱發(fā)送給輿情監(jiān)控人員,幫助學校及時獲取網(wǎng)絡熱點話題信息,并對學生采取積極的引導措施。主要的功能模塊如下:輿情信息采集模塊、輿情分析與展示模塊以及輿情預警功能模塊。
網(wǎng)絡爬蟲技術,被稱作網(wǎng)絡機器人,也被叫做網(wǎng)頁蜘蛛,是一種可以根據(jù)一定的規(guī)則,自動提取網(wǎng)頁數(shù)據(jù)的技術。爬蟲流程圖如圖1 所示。
圖1 爬蟲流程
在使用的場景不同的情況下,爬蟲可以有不同的分類,一般可分為通用爬蟲和聚焦爬蟲。搜索引擎爬取網(wǎng)絡信息的重要組成部分就是通用爬蟲,第一步就是要選取初始URL,并且把這些URL 放入等待爬取的URL 隊列里面,然后從URL 隊列中拿出等待抓取的地址,下一步就可以解析DNS,獲得主機的IP,同時下載URL 對應的網(wǎng)頁,并將其存進已經(jīng)下載的網(wǎng)頁庫里,同時把這些URL 放入已爬取的URL 隊列里面。下一步就要分析已爬取URL 隊列里面的URL 和其中的其他一些URL,并且將URL 放進等待爬取URL 隊列,從而進入下一個循環(huán)[6]。通用爬蟲的流程如圖2 所示。
圖2 通用爬蟲的流程圖
聚焦爬蟲通俗講就是可以針對某種特定的內容進行數(shù)據(jù)抓取,可見它獲取到的數(shù)據(jù)都是盡可能地和需求相關的,換句話來說,這是一種“面向特定需求”的爬蟲程序。聚焦爬蟲和通用搜索引擎爬蟲的主要區(qū)別在于:聚焦爬蟲在抓取網(wǎng)頁數(shù)據(jù)的時候會對內容進行篩選,盡可能地實現(xiàn)只抓取與主題需求相關的網(wǎng)頁數(shù)據(jù)信息。聚焦爬蟲流程如圖3 所示。
圖3 聚焦爬蟲流程圖
網(wǎng)頁解析就是對抓取的網(wǎng)頁進行再處理,去掉與主題無關的信息,例如無用的鏈接、廣告等[7-8]??梢允褂煤芏喾N方法去處理,例如可以通過BeautifulSoup 解析處理,或者是JSON 解析、PyQuery 解析處理又或是XPath 解析處理,也可以使用正則表達式處理。
數(shù)據(jù)可視化主要是為了讓人們可以更直觀地看出數(shù)據(jù)的各種屬性和變量之間的關系,通常會使用圖表的方式呈現(xiàn)出來,例如餅圖、直方圖、散點圖、柱狀圖等。讓人可以更直觀地分析數(shù)據(jù),發(fā)現(xiàn)不同的數(shù)據(jù)信息之間潛在的關系,最終有利于挖掘到有價值的信息。
高校網(wǎng)絡輿情突發(fā)事件預警系統(tǒng),其目的在于能夠及時準確地得到網(wǎng)絡輿情信息,并把信息的分析結果反饋給高校管理人員,以便做出相應的決策去應對突發(fā)事件,維護校園的穩(wěn)定。但由于網(wǎng)絡輿情載體多而雜,本系統(tǒng)不可能涵蓋所有類型的網(wǎng)絡,針對這一特點,本文網(wǎng)絡輿情信息獲取的來源主要是新浪新聞站點等,一方面新聞信息比較真實可靠,另一方面新聞信息涵蓋了各方面的熱點話題,通過新聞點擊量來分析出熱點話題,系統(tǒng)涉及到的內容包括前期的采集輿情信息,分析得到的信息,最后通過圖表展示出來,最后核心功能就是輿情預警,其中輿情預警主要是把話題熱度前三名通過郵箱的方式發(fā)送給輿情監(jiān)控人員,起到報警的作用。
為了滿足用戶的功能需求,提高系統(tǒng)的實用性,本系統(tǒng)需要實現(xiàn)的功能如下:
(1)輿情采集:實現(xiàn)互聯(lián)網(wǎng)中信息采集是實現(xiàn)該系統(tǒng)的基礎工作。在輿情采集工作中涉及到一些新聞門戶網(wǎng)站,采集到的數(shù)據(jù)最終會保存在MySQL 數(shù)據(jù)庫中。
(2)輿情處理:通過采集的數(shù)據(jù)來分析熱點關鍵字,提取熱門話題,對熱門話題進行排序。
(3)數(shù)據(jù)分析:通過柱狀圖、餅狀圖等顯示關鍵詞及熱度的數(shù)據(jù),讓用戶可以更直觀地感受輿情信息的具體內容。
(4)輿情預警:對信息按熱度(點擊量)進行排序,把關注度前十的話題信息通過郵箱發(fā)送給輿情監(jiān)控人員。
對系統(tǒng)功能模塊的劃分是以需求分析得到結果為參考的。大體分為三個模塊:輿情采集、數(shù)據(jù)分析、輿情預警。系統(tǒng)模塊圖如圖4 所示。
系統(tǒng)流程圖如圖5 所示。
圖4 系統(tǒng)模塊圖
圖5 系統(tǒng)流程圖
輸入用戶名和密碼,點擊登錄即可,用戶可注冊成為普通用戶。普通用戶可以查看系統(tǒng)的所有數(shù)據(jù)信息,管理員除此之外還可以發(fā)送預警信息給特定的聯(lián)系人。登錄頁面如圖6 所示。
圖6 登錄頁面
數(shù)據(jù)采集是該系統(tǒng)最底層也是最核心的模塊,該模塊主要是抓取目標HTML 頁面上的數(shù)據(jù),并傳到本地數(shù)據(jù)庫當中。爬蟲程序核心代碼如下:
登錄成功后,就會進入系統(tǒng)首頁,該頁面主要是對獲取到的輿情信息的概覽,可以查看數(shù)據(jù)總條目,以折線圖展示兩周內獲取數(shù)據(jù)的變化,通過餅狀圖清晰地看出信息來源的主流媒體有哪些,同時以詞云圖的形式展示出熱門的話題。系統(tǒng)首頁如圖7 所示。
圖7 系統(tǒng)首頁
(1)熱門信息頁面
該頁面展示了熱門前三十名的信息,主要包括信息標題、信息點擊率、信息時間、信息發(fā)布媒體,點擊標題就可以跳轉到該信息具體內容的鏈接。熱門信息頁面如圖8 所示。
圖8 熱門信息頁面
(2)熱門話題頁面
該頁面展示了話題的熱度排名??梢栽谒阉骺蛩阉飨嚓P話題的熱度。熱門話題頁面如圖9 所示。
圖9 熱門話題頁面
(1)時間與熱度分析頁面
此頁面是利用一個橫坐標為時間,縱坐標為點擊量的散點圖進行分析,可以直觀觀察到信息的普遍熱度集中在10000 到120000 之間。其中,右下角有一個熱度篩選,可以通過這個篩選某個熱度范圍的新聞,當鼠標移動到某個點時,就會顯示相應新聞的標題信息、點擊量數(shù)目、話題信息,點擊該點,就會跳轉到此信息的相應鏈接。時間與熱度分析頁面如圖10 所示。
圖10 時間與熱度分析頁面
(2)熱度話題分析
話題分析頁面主要是可以從一個橫坐標為話題,縱坐標為熱度的柱狀圖中直觀看出熱度前一百的話題的熱度差別。話題分析頁面如圖11 所示。
圖11 熱度話題分析頁面
當點擊該柱形時候,就會在下方出現(xiàn)一個“空心”圓餅圖來顯示該話題的具體情況。點擊大學的柱形就會出現(xiàn)該話題的具體分析信息,具體話題分析如圖12 所示。
圖12 具體話題分析圖
(3)話題數(shù)據(jù)查詢
該頁面可以查詢感興趣的話題的具體新聞信息。在文本框中輸入話題,點擊查詢,頁面即會出現(xiàn)話題的具體分析圖。話題查詢頁面如圖13 所示。
圖13 數(shù)據(jù)話題查詢頁面
(1)預警分級
在預警分級可以看到熱度較高的話題數(shù)據(jù)。把數(shù)據(jù)分為三個等級:紅色預警是熱度前十名的話題,黃色預警是熱度第十到第三十的話題,其余為綠色預警。
紅色預警信息如圖14 所示:
圖14 紅色預警信息
黃色預警信息如圖15 所示:
圖15 黃色預警信息
綠色預警信息如圖16 所示:
圖16 綠色預警信息
圖17 發(fā)送郵件頁面
圖18 郵件發(fā)送成功提示
(2)發(fā)送郵件
該頁面只有管理員可以進入,普通用戶不能發(fā)送信息,因此要先用管理員的身登錄系統(tǒng),然后填寫郵箱地址,點擊發(fā)送信息即可。其中,發(fā)送郵件頁面如圖17所示。
郵件發(fā)送成功提示如圖18 所示。
高校網(wǎng)絡輿情突發(fā)事件預警系統(tǒng),其目的在于能夠及時準確地得到網(wǎng)絡輿情信息,并把信息的分析結果反饋給高校管理人員,以便做出相應的決策去應對突發(fā)事件,維護高校穩(wěn)定。本文網(wǎng)絡輿情信息獲取的來源主要是新浪新聞等站點,通過新聞點擊量來分析出熱點話題,系統(tǒng)涉及到的內容包括前期的輿情采集信息,分析得到的信息,最后通過圖表展示出來,最后核心功能就是輿情預警,其中輿情預警主要是把話題熱度前三名通過郵件的方式發(fā)送給輿情監(jiān)控人員,實現(xiàn)及時預警功能。但是由于網(wǎng)絡輿情載體多而雜,本系統(tǒng)網(wǎng)絡輿情信息獲取的來源覆蓋面廣度仍有欠缺,這是以后需要改進的地方。