(遵義師范學(xué)院,貴州 遵義 563000)
大數(shù)據(jù)技術(shù)為人們?nèi)粘I钆c工作帶來很多便利,從當(dāng)前我國社會發(fā)展可以看出,互聯(lián)網(wǎng)已經(jīng)在全國范圍內(nèi)得到普及。在網(wǎng)民的網(wǎng)絡(luò)生活中,微信以及微博成為其中的重要組成部分,而且還有很多網(wǎng)民會在社交網(wǎng)站以及論壇中,發(fā)表自身的看法與意見。百分之八十的網(wǎng)民,會討論社會中剛剛發(fā)生的新聞與熱點(diǎn)事件,這也在一定程度上說明,網(wǎng)絡(luò)已經(jīng)成為人民群眾的思想文化聚集地,以及社會輿情的傳播地?;诖?,本文將針對大數(shù)據(jù)技術(shù)下的網(wǎng)絡(luò)輿情分析系統(tǒng)相關(guān)內(nèi)容進(jìn)行闡述。
大數(shù)據(jù)技術(shù)主要是指數(shù)據(jù)量以及規(guī)模超過傳統(tǒng),而且無法使用主流軟件對數(shù)據(jù)量進(jìn)行整理與分析。政府部門及企業(yè)可以通過大數(shù)據(jù)技術(shù)對數(shù)據(jù)信息進(jìn)行有效處理,并制定有效的經(jīng)營發(fā)展方案以及管理方式等。大數(shù)據(jù)技術(shù)有著屬于自身的特點(diǎn),比如:數(shù)量巨大、種類繁多、價值低、密度低以及流通速度快。國外的Hadoop平臺具有可靠性、高效性與可伸縮性特點(diǎn),可以實(shí)現(xiàn)對數(shù)據(jù)的專門處理。這一平臺包含許多不同組件,比如多種存儲節(jié)點(diǎn),即可以在一個節(jié)點(diǎn)中實(shí)現(xiàn)對不同節(jié)點(diǎn)數(shù)據(jù)信息的收集與處理。眾多的廉價計算機(jī)群可以在系統(tǒng)有需要的時候,增加處理節(jié)點(diǎn)。
網(wǎng)絡(luò)輿情通常情況下主要是指互聯(lián)網(wǎng)中的網(wǎng)民針對社會發(fā)生的熱點(diǎn)新聞事件,尤其是與網(wǎng)民自身切身利益相關(guān)的熱點(diǎn)事件、國家政策等,所表現(xiàn)出的情緒、觀點(diǎn)以及意見等,此類輿情具有一定傾向性特點(diǎn),而輿情就是不同態(tài)度與觀點(diǎn)的總和[1]。具有以下幾個特點(diǎn):廣泛性特點(diǎn),輿情可以在全國范圍內(nèi)迅速傳播;參與者類型廣泛且分布廣泛;突發(fā)性特點(diǎn),如果在某個地區(qū)發(fā)生突發(fā)事件,那么該事件可能就是社會輿情的發(fā)源地;主觀性特點(diǎn),主觀性特點(diǎn)主要是因?yàn)樯鐣浨橹械膬?nèi)容以及觀點(diǎn)具有較強(qiáng)主觀性;多元化特點(diǎn),多元化特點(diǎn)主要表現(xiàn)在社會參與者有著不同的態(tài)度與觀點(diǎn),而且社會輿情的傳播方式與表達(dá)方式也存在一定不同。在如今社會發(fā)展中,社會輿情數(shù)量以及內(nèi)容每年都在增多。怎樣盡早發(fā)現(xiàn)社會輿情,同時更好引導(dǎo)社會輿情,是如今政府部門面臨的一個重要問題。在此背景下,就要對大數(shù)據(jù)技術(shù)進(jìn)行合理應(yīng)用,更好地處理與解決網(wǎng)絡(luò)輿情相關(guān)問題。
在大數(shù)據(jù)技術(shù)背景下,網(wǎng)絡(luò)輿情分析系統(tǒng)的功能主要包含以下幾點(diǎn)。
2.1.1 數(shù)據(jù)采集功能
在網(wǎng)絡(luò)輿情分析系統(tǒng)中,數(shù)據(jù)采集功能是最為基本的功能模塊,主要工作就是對論壇、貼吧以及微信、微博中的輿情信息進(jìn)行采集。在大數(shù)據(jù)背景下的網(wǎng)絡(luò)輿情分析系統(tǒng),不僅要對傳統(tǒng)搜索引擎爬蟲進(jìn)行合理應(yīng)用,使得下載網(wǎng)頁全面性得到保障,同時還要利用聚焦爬蟲,提升采集信息的有效性與精準(zhǔn)性。還可以利用設(shè)置黑名單與白名單的方式,將有效的URL鏈接保留,實(shí)現(xiàn)對新信息的有效搜索。在Web信息抓取過程中,最主要是對網(wǎng)頁中的兩種信息進(jìn)行采集,分別是文章內(nèi)容信息以及版塊列表信息。通過對信息的采集,為后續(xù)工作展開打下良好基礎(chǔ)。
2.1.2 預(yù)處理功能
在網(wǎng)絡(luò)輿情分析系統(tǒng)中,預(yù)處理功能模塊屬于數(shù)據(jù)信息的準(zhǔn)備階段。該功能模塊的主要工作為對采集到的網(wǎng)頁信息進(jìn)行去重處理、預(yù)處理與去噪預(yù)處理,然后得到相應(yīng)文本向量集[2]。新聞網(wǎng)頁、論壇網(wǎng)頁以及微博網(wǎng)頁實(shí)際結(jié)構(gòu)存在不同,因此,要將與文本無關(guān)的HTML源碼清洗,將與輿情相關(guān)的信息,比如:信息發(fā)布時間、內(nèi)容摘要信息等保留。與此同時,能夠?qū)]有意義的網(wǎng)頁信息以及重復(fù)的網(wǎng)頁信息及時過濾,防止噪聲干擾問題出現(xiàn),確保數(shù)據(jù)信息科學(xué)性。
對于網(wǎng)絡(luò)輿情分析系統(tǒng)中的關(guān)鍵技術(shù),本文主要從以下幾點(diǎn)進(jìn)行闡述與分析。
2.2.1 輿情數(shù)據(jù)采集技術(shù)
輿情數(shù)據(jù)采集技術(shù)主要對輿情主體進(jìn)行明確,同時選擇采集起點(diǎn),輿情數(shù)據(jù)采集技術(shù)是網(wǎng)絡(luò)輿情分析系統(tǒng)中的重要組成部分,可以為后續(xù)數(shù)據(jù)處理工作,以及數(shù)據(jù)分析工作打下良好基礎(chǔ)。輿情數(shù)據(jù)采集技術(shù)的主要工作原理就是,能夠從初始URL中,獲取其中的頁面信息,然后將頁面信息存儲到本地系統(tǒng)中,并對頁面結(jié)構(gòu)以及頁面內(nèi)容進(jìn)行分析,實(shí)現(xiàn)對其中網(wǎng)頁鏈接提取,并將其作為新的URL[3]。目前所使用的網(wǎng)絡(luò)爬蟲有不同方式,比如:主題爬蟲、增量式爬蟲等,不同爬蟲方式有著屬于自身的特點(diǎn)與優(yōu)勢,具體爬蟲技術(shù)的選擇要結(jié)合網(wǎng)絡(luò)輿情實(shí)際情況展開。
2.2.2 輿情數(shù)據(jù)預(yù)處理技術(shù)
在使用網(wǎng)絡(luò)爬蟲技術(shù)對網(wǎng)頁中的信息進(jìn)行抓取過程中,實(shí)際頁面結(jié)構(gòu)以及頁面內(nèi)容存在很大不同,有很多數(shù)據(jù)信息根本達(dá)不到分析要求。在此背景下,就要對輿情數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行合理應(yīng)用,為后續(xù)數(shù)據(jù)信息分析提供保障[4]。輿情數(shù)據(jù)預(yù)處理技術(shù)主要是對網(wǎng)頁信息進(jìn)行有效處理,避免噪聲、重復(fù)等情況的出現(xiàn),并在網(wǎng)頁中對正文信息進(jìn)行有效處理,對于提取到的數(shù)據(jù)信息進(jìn)行文本預(yù)處理以及文本向量化。比如,在文本預(yù)處理中,需要對中文分詞技術(shù)進(jìn)行合理應(yīng)用,對采集到的文本字符串進(jìn)行有效切分,將其轉(zhuǎn)化為由不同單詞組成的詞集合。與此同時,可以將集合中包含的停用詞去除,對不同詞在文本中出現(xiàn)的頻率次數(shù)進(jìn)行有效統(tǒng)計,這就是人們所熟知的詞頻,詞頻可以生成倒排索引文件,從而促使文本預(yù)處理工作能夠更好完成。
2.2.3 輿情智能分析技術(shù)
輿情智能分析技術(shù)是網(wǎng)絡(luò)輿情分析系統(tǒng)中的核心技術(shù),主要工作就是對話題進(jìn)行識別與跟蹤、發(fā)現(xiàn)熱點(diǎn)話題,同時對文本傾向進(jìn)行分析。話題識別主要是通過對預(yù)處理模塊的應(yīng)用,獲得相應(yīng)文本向量集,并使用機(jī)器進(jìn)行學(xué)習(xí)。將相同類型的事件匯總到文檔中,并識別其中的輿情話題。在這一過程中,可以使用Hadoop平臺,將文本向量集劃分成為不同的小塊,并與中心文件一同發(fā)送給Map函數(shù),從而開展相應(yīng)計算工作。Map能夠?qū)⑿K中的數(shù)據(jù)分配到距離最近的中心點(diǎn)中,通過鍵值對方式,向Reduce傳遞,從而展開規(guī)劃求均值工作,將最終結(jié)果作為全新的聚類中心[5]。話題跟蹤主要是指,對后續(xù)更新的向量化文本進(jìn)行有效檢測,同時做好相似度計算工作,對與已經(jīng)存在話題的相似度進(jìn)行判斷。如果相似度已經(jīng)達(dá)到規(guī)定值,那么可以將此類文本歸納到該話題當(dāng)中。如果相似度沒有達(dá)到規(guī)定值,那么可以將其作為全新的話題進(jìn)行歸類。在這一過程中,要對話題評論數(shù)量、轉(zhuǎn)載情況以及點(diǎn)贊情況進(jìn)行分析,然后計算熱度指標(biāo),結(jié)合熱度指標(biāo)做好排序工作,進(jìn)而對熱點(diǎn)話題進(jìn)行篩選。
2.2.4 輿情預(yù)測預(yù)警技術(shù)
輿情預(yù)測預(yù)警技術(shù)主要是將輿情智能分析結(jié)果展現(xiàn)出來,在對某一熱點(diǎn)新聞、事件或者輿情進(jìn)行監(jiān)督過程中,如果用戶達(dá)到設(shè)定的報警值,那么系統(tǒng)將會自動生成相應(yīng)輿情報告,該輿情報告會通過郵件方式或者信息方式,通知工作人員。工作人員在接到通知后,可以對問題進(jìn)行有效處理。
在具體的模型設(shè)計中,要注意以下幾點(diǎn)問題:(1)信息抓取要確保全面性。如今的網(wǎng)絡(luò)輿情有著屬于自身的特點(diǎn),比如:規(guī)模大、類型多、網(wǎng)頁數(shù)量多等。因此,在實(shí)際模型設(shè)計中,要對信息的全面抓取進(jìn)行考慮。確保能夠從網(wǎng)頁、音頻、圖片以及結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)中,對信息進(jìn)行有效抓取,并對存儲器以及網(wǎng)絡(luò)爬行器進(jìn)行創(chuàng)新與優(yōu)化。(2)確保應(yīng)對輿情信息的時效性。從目前網(wǎng)絡(luò)的快速發(fā)展中可以看出,網(wǎng)絡(luò)輿情靈活多變,傳統(tǒng)輿情分析系統(tǒng)模型已經(jīng)不適合,當(dāng)今時代發(fā)展,尤其是網(wǎng)頁以及圖片中隱藏的信息,更是無法及時被發(fā)現(xiàn)與抓取[6]?;诖?,在模型設(shè)計工作開展中,要考慮系統(tǒng)應(yīng)對輿情信息的實(shí)效性,實(shí)現(xiàn)對其中隱藏信息的有效抓取,這樣才能實(shí)現(xiàn)對網(wǎng)絡(luò)輿情的有效引導(dǎo)。(3)保證分析有效性。有效的網(wǎng)絡(luò)輿情分析軟件,可以幫助企業(yè)以及政府部門盡快獲取網(wǎng)絡(luò)中的熱點(diǎn)事件以及相關(guān)信息。這樣在輿情爆發(fā)之前,能夠進(jìn)行有效控制,同時將輿情影響控制在有效范圍之內(nèi)?;诖耍谀P驮O(shè)計過程中,要對輿情信息分析的有效性進(jìn)行全面了解,確保模型設(shè)計的合理性。
綜上所述,網(wǎng)絡(luò)輿情分析系統(tǒng)對于網(wǎng)絡(luò)輿情分析,實(shí)現(xiàn)對網(wǎng)絡(luò)輿情有效引導(dǎo)具有重要作用。因此,為使得網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計的科學(xué)性與合理性得到保障,在實(shí)際設(shè)計工作開展中,要對大數(shù)據(jù)技術(shù)進(jìn)行合理應(yīng)用。將技術(shù)優(yōu)勢發(fā)揮出來,實(shí)現(xiàn)對不同數(shù)據(jù)的有效抓取,為網(wǎng)絡(luò)的健康穩(wěn)定發(fā)展打下良好基礎(chǔ)。