鄺楚文
(惠州經濟職業(yè)技術學院,廣東惠州 516001)
由于網(wǎng)絡本身所具有的隨意性、隱蔽性和虛擬性等特點,將自己的真實想法通過網(wǎng)絡表達出來日漸受到人們的歡迎。網(wǎng)絡輿情能夠反映社情民意的重要表現(xiàn)和某些社會群體或階層的社會政治態(tài)度,是社會輿情的重要組成部分[1]。在學校范圍內的網(wǎng)絡輿情,其主體主要包括校內學生、教育工作者、與學校各類事項和教育密切聯(lián)系的群體。校園網(wǎng)絡輿情主要通過學校新聞網(wǎng)、學校貼吧等移動通訊工具進行傳播。大量外部信息、社會輿論導向通過社交網(wǎng)絡浸入校園,對校內學生的思想行為產生影響。從整體上看,校園網(wǎng)絡輿情是集合學校相關聯(lián)的一切網(wǎng)絡八卦討論整體?;ヂ?lián)網(wǎng)的虛化世界具有隱蔽性,造謠誹謗等侵權行為層出不窮[2]。由于監(jiān)管難以面面俱到,導致互聯(lián)網(wǎng)色情暴力對學生的身心健康產生嚴重影響。大數(shù)據(jù)背景下,基于數(shù)據(jù)挖掘技術設計校園網(wǎng)絡輿情監(jiān)測系統(tǒng)具有重要意義。
通過對海量數(shù)據(jù)中潛在的模式進行刻畫,并根據(jù)數(shù)據(jù)的潛在模式預測,從而得到數(shù)據(jù)模型與規(guī)律。
數(shù)據(jù)挖掘過程包括數(shù)據(jù)預備、數(shù)據(jù)挖掘和解釋評估三部分。利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析的常用方法包括分類、聚類、回歸分析、關聯(lián)規(guī)則、Web頁挖掘等[3]。數(shù)據(jù)挖掘流程如圖1所示。
圖1 數(shù)據(jù)挖掘流程Fig.1 Data Mining Process
為應對動態(tài)變化的海量數(shù)據(jù),數(shù)據(jù)挖掘技術的并行計算和分布式處理能力逐步得到提升。這些大數(shù)據(jù)挖掘技術可以構造網(wǎng)絡分析、文本分析等數(shù)據(jù)挖掘模型。在社交網(wǎng)絡中,文本是大數(shù)據(jù)的非結構化部分的重要內容,校園網(wǎng)絡輿情監(jiān)測是文本挖掘技術的典型應用[4]。
全文檢索主要包括兩方面的功能,是校園網(wǎng)絡輿情監(jiān)測系統(tǒng)的重要組成部分;它能夠針對數(shù)據(jù)庫中的網(wǎng)絡輿情數(shù)據(jù)快速構建全文索引,并且通過主題相關性分析的方式篩選網(wǎng)絡輿情信息[5]。用戶需要對主題關鍵詞進行自定義,全文檢索根據(jù)庫存文檔進行檢索匹配,并根據(jù)主題關鍵出現(xiàn)的頻率、順序等特征,構建索引文檔并進行記錄。
全文檢索技術包括索引和檢索兩個重要模型。其中,索引模型對組織存儲結構進行表達,檢索模型提供文檔和度量查詢的相似度檢索方法。根據(jù)主題關鍵字詞或字的相似程度判斷文檔與查詢的相關度。相關度和相似度呈正比。從本質上看,全文檢索是分析用戶查詢主題關鍵詞和計算機語料庫中文檔的相似度。
該數(shù)據(jù)挖掘方法主要是聚類分析和關聯(lián)分析等技術,系統(tǒng)能夠把敏感詞相關聯(lián)的信息返回給用戶。在國內,研究人員不斷優(yōu)化關聯(lián)規(guī)則挖掘技術。在各個方面如金融、醫(yī)學等領域已經廣泛應用改善的關聯(lián)規(guī)則。通過關聯(lián)規(guī)則挖掘,能夠獲得海量數(shù)據(jù)中隱藏的有用信息。結合自然語言處理和數(shù)據(jù)挖掘方式,我們利用關聯(lián)規(guī)則實現(xiàn)對敏感詞的關聯(lián)詞自動發(fā)現(xiàn),對敏感信息進行推演,為實現(xiàn)校園網(wǎng)絡輿情監(jiān)測中發(fā)現(xiàn)與追蹤主題功能提供條件[6]。
在搜索引擎的支持下,基于關聯(lián)分析的方法具有較高的效率,但是在一些情況下,難以保證允許系統(tǒng)在短時間內發(fā)送大量查詢[7]。如果用戶所關注的內容不限敏感詞以及與其相關性較強的短語或者詞,通過設置閾值進行聚類,對語義的涵義進行分析。
文本挖掘的基礎是文本表示。通常情況下,文本由大量詞匯構成,將會映射出較高維度的向量空間,從而增加計算機分析的運算時間。一般采用文檔特征提取的方式,即將分類貢獻較小的詞匯去除,篩選特征詞匯,以提高程序運行的速度和效率。
校園網(wǎng)絡輿情屬于整體概念,是學生利用網(wǎng)絡傳遞和表明自己的想法、情感等的集合。多數(shù)情況下,學生主要從論壇、新聞客戶端、博客等公共信息平臺發(fā)布的文章及評論等渠道獲取網(wǎng)絡信息?;ヂ?lián)網(wǎng)時代為校園網(wǎng)絡人群提供更大的情感宣泄空間,同時,也會帶來潛在的校園網(wǎng)絡輿情爆發(fā)。
隨著互聯(lián)網(wǎng)的快速發(fā)展,對校園網(wǎng)絡用戶也會帶來更加嚴重的影響。校園網(wǎng)絡輿情不僅是個別老師、學生的思想碰撞以及學校論壇貼吧里熱議的話題新聞,而是包含所有與學校涉及相關網(wǎng)絡流傳的言論總和[8]。
當前情況下,校園網(wǎng)絡輿情可能在多個網(wǎng)絡平臺發(fā)布,但是,通常情況下,校園網(wǎng)絡監(jiān)測系統(tǒng)難以對每個網(wǎng)絡平臺的信息都進行全面監(jiān)測。在本文基于數(shù)據(jù)挖掘的校園網(wǎng)絡輿情監(jiān)測系統(tǒng)中,主要監(jiān)測幾個主流媒體網(wǎng)站,這些平臺的數(shù)據(jù)量足能夠表征整個網(wǎng)絡的輿情情況。
微信公眾號。由于它是騰訊微信的附屬產品,擁有大多數(shù)的微信用戶,其用戶數(shù)量十分龐大。微信公眾號不具備較強的交互性,但是具備較強的引導性和傳播性[9]。
新浪微博。新浪微博屬于開放式,集成化的網(wǎng)絡社交平臺,經過多年累積,已擁有大量用戶群體。每個用戶都允許在平臺上發(fā)布文章與評論,還可以選擇關注其他用戶,創(chuàng)建好友關系。
百度貼吧。百度貼吧屬于互動性、開放性的網(wǎng)絡信息交流平臺。它具有豐富多樣的內容,與百度搜索引擎共用賬號,方便用戶使用該平臺。百度貼吧的內容由特定用戶進行管理,發(fā)布的內容容易受到該用戶的管控。百度貼吧的用戶量十分龐大,值得我們關注。
天涯論壇。天涯論壇屬于互動性、開放性和匿名性的網(wǎng)絡信息交流平臺,其用戶數(shù)量龐大。天涯論壇具有較多內容種類,不同種類的風格各有差異,其內容涉及學術研究以及社會生活的方方面面。各類網(wǎng)民基本都能找到自己感興趣的論壇和板塊,獲得相關信息。匿名性是該論壇的典型特性,該論壇允許用戶在沒有注冊賬號的情況下,在論壇內發(fā)表言論。使得惡意注水與造謠的成本大大降低[10]。
我們設計校園網(wǎng)絡輿情監(jiān)測系統(tǒng)設計時,選擇對這些主流網(wǎng)絡站點進行監(jiān)測,為校園網(wǎng)絡輿情監(jiān)測系統(tǒng)提供數(shù)據(jù)。校園問卷調查表明,學生用戶對新聞網(wǎng)站的網(wǎng)絡輿情內容非常感興趣,由于新聞網(wǎng)站的網(wǎng)絡輿情產生量不足不做監(jiān)測。
校園網(wǎng)絡輿情用戶管理。用例圖能夠更加深透地了解系統(tǒng)或類的行為,為系統(tǒng)開發(fā)人員提供更加詳細的設計素材。校園網(wǎng)絡輿情監(jiān)測系統(tǒng)的用戶主要有系統(tǒng)操作員、教師及學生用戶。其中,校園網(wǎng)絡輿情人員管理用例主要包括查詢輿情信息、查詢人員信息、發(fā)布通知、管理文件、修改文件、清除文件、查詢通知、退出系統(tǒng)幾個部分。
校園網(wǎng)絡輿情信息收集模塊。校園網(wǎng)絡輿情監(jiān)測系統(tǒng)從主流媒體收集相關信息。其監(jiān)測信息流程如圖2 所示。
圖2 校園網(wǎng)絡輿情監(jiān)測信息流程Fig.2 Information flow of public opinion monitoring on campus network
校園網(wǎng)絡輿情檢索功能。在校園網(wǎng)絡輿情監(jiān)測系統(tǒng)中,摒棄傳統(tǒng)的網(wǎng)絡輿情信息管理方式,采用現(xiàn)代化的網(wǎng)絡輿情信息管理方式,使學校負責校園網(wǎng)絡輿情監(jiān)管的部門信息能夠共享信息,并且及時聯(lián)動更新信息,避免信息更新不及時導致對校園網(wǎng)絡輿情信息的管理帶來失誤。現(xiàn)代化的校園網(wǎng)絡輿情信息檢測系統(tǒng)能夠減少相關工作量,降低校園網(wǎng)絡輿情監(jiān)測成本,在學校內部各個院系之間實現(xiàn)信息共享,更加方便準確地傳輸校園網(wǎng)絡輿情信息,提高網(wǎng)絡輿情監(jiān)測效率。需要建立統(tǒng)一的校園網(wǎng)絡輿情信息共享體系,對學校各單位通過各自的門戶網(wǎng)站、呼叫中心、單位辦公系統(tǒng)、領導信箱等各種方式的校園網(wǎng)絡輿情監(jiān)測受理工作進行整合,實現(xiàn)統(tǒng)一管理,重點協(xié)調和監(jiān)督及時處理信件,提高辦理質量。
校園網(wǎng)絡輿情干預功能。在基于數(shù)據(jù)挖掘的校園網(wǎng)絡輿情監(jiān)測系統(tǒng)設計中,實現(xiàn)網(wǎng)絡輿情信息的統(tǒng)一監(jiān)測是難點之一。因此,需要在網(wǎng)絡輿情監(jiān)測業(yè)務建模的基礎上開展詳細設計工作,制定網(wǎng)絡平臺信件的合理處理流程,確保能夠靈活調整業(yè)務流程,實現(xiàn)校園網(wǎng)絡輿情監(jiān)測業(yè)務歸口統(tǒng)一。
校園網(wǎng)絡輿情監(jiān)測系統(tǒng)的體系結構龐大,用戶量眾多,在設計物理架構時,需要考慮架構的適用性以及維護成本。在系統(tǒng)體系結構中,描述了調用服務器數(shù)據(jù)生成用戶界面的過程,包括系統(tǒng)執(zhí)行所經過的層次以及各層次之間的相互關系。對比B/S和C/S架構,可以直接將B/S架構安放在廣域網(wǎng)中,滿足多用戶訪問,其交互性強、靈活性高,具有較低的維護成本。因此,在本系統(tǒng)設計時采用B/S結構。網(wǎng)絡輿情監(jiān)測系統(tǒng)架構如圖3所示。
圖3 基于數(shù)據(jù)挖掘技術的校園網(wǎng)絡輿情監(jiān)測系統(tǒng)架構Fig.3 Architecture of Campus Network Public Opinion Monitoring System Based on Data Mining Technology
其中,前端采集模塊主要負責對基礎數(shù)據(jù)的采集工作;后臺數(shù)據(jù)分析部分實現(xiàn)相似關聯(lián)、特征提取,最終實現(xiàn)跟蹤或者發(fā)現(xiàn)校園網(wǎng)絡輿情事件;用戶交互部分實現(xiàn)定制或者統(tǒng)計用戶的實際業(yè)務需求,根據(jù)不同的監(jiān)測要求發(fā)出監(jiān)測預警指令。
校園網(wǎng)絡輿情監(jiān)測系統(tǒng)主要由四部分構成,包括信息采集,信息檢索,信息分析及服務。校園網(wǎng)絡輿情監(jiān)測信息收集模塊設計如圖4 所示。
圖4 校園網(wǎng)絡輿情監(jiān)測信息收集模塊設計Fig.4 Design of Information Collection Module of Public Opinion Monitoring in Campus Network
信息檢索主要完成將檢索的校園網(wǎng)絡輿情信息發(fā)布到的數(shù)據(jù)采集服務器,信息數(shù)據(jù)采集爬蟲根據(jù)任務的描述進行工作,在服務器中存儲最終的采集結果。校園網(wǎng)絡輿情監(jiān)測信息檢索模塊設計如圖5 所示。
圖5 校園網(wǎng)絡輿情監(jiān)測信息檢索模塊設計Fig.5 Design of information retrieval module
在輿情監(jiān)測系統(tǒng)中,熱點發(fā)現(xiàn)功能能夠使用戶及時、迅速地對網(wǎng)絡熱門話題有所了解和把握,提供有效掌握網(wǎng)絡輿情的辦法。在校園網(wǎng)絡輿情監(jiān)測系統(tǒng)中,用戶可以根據(jù)實際需要,分別針對不同的輿情事件設置追蹤命令,系統(tǒng)從釆集的網(wǎng)絡信息中找到與當前主題相關的網(wǎng)頁文本信息,并按照任務等級進行呈現(xiàn)。校園網(wǎng)絡輿情分析模塊設計如圖6 所示。
圖6 校園網(wǎng)絡輿情監(jiān)測輿情分析管理模塊設計Fig.6 Design of Analysis and Management Module of Public Opinion Monitoring in Campus Network
互聯(lián)網(wǎng)時代,數(shù)字化信息化發(fā)展十分迅速,需要加快信息化建設以便對網(wǎng)絡輿情有效監(jiān)管。在校園網(wǎng)絡輿情監(jiān)測管理過程中,構建完善的網(wǎng)絡輿情監(jiān)測系統(tǒng)能夠在很大程度上提高校園網(wǎng)絡輿情信息監(jiān)管的運行效率。基于數(shù)據(jù)挖掘技術,對校園網(wǎng)絡敏感信息進行分析挖掘,設計能夠自動發(fā)現(xiàn)關鍵詞的相關檢索詞方法,實現(xiàn)校園網(wǎng)絡輿情監(jiān)測中熱點信息發(fā)現(xiàn)、主題追蹤的功能,最終達到較為完整的網(wǎng)絡輿情監(jiān)測過程。由于時間限制,本系統(tǒng)設計存在一些不足之處,需要在后續(xù)工作中進一步完善和細化。