劉小滿 王小輝
摘要:針對(duì)目前網(wǎng)民普遍關(guān)注的由互聯(lián)網(wǎng)技術(shù)快速發(fā)展而帶來海量網(wǎng)絡(luò)熱點(diǎn)話題和焦點(diǎn)很容易因誤導(dǎo)或傳播方式不當(dāng)導(dǎo)致網(wǎng)絡(luò)群體事件或突發(fā)事件問題,以“互聯(lián)網(wǎng)+”與網(wǎng)絡(luò)輿情監(jiān)控分析深度融合發(fā)展為切入點(diǎn),將互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)以及云計(jì)算等新一代信息技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情監(jiān)控與分析上,設(shè)計(jì)實(shí)現(xiàn)了基于“互聯(lián)網(wǎng)+”的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)。該系統(tǒng)主要由輿情數(shù)據(jù)信息采集子系統(tǒng)、輿情數(shù)據(jù)信息預(yù)處理子系統(tǒng)、輿情監(jiān)控分析子系統(tǒng)和輿情應(yīng)用子系統(tǒng)構(gòu)成,通過各個(gè)子系統(tǒng)的協(xié)同工作共同完成對(duì)網(wǎng)絡(luò)海量輿情數(shù)據(jù)和信息進(jìn)行實(shí)時(shí)數(shù)據(jù)采集、輿情識(shí)別、輿情預(yù)警及引導(dǎo)治理等,穩(wěn)定社會(huì)秩序,為構(gòu)建和諧社會(huì)提供支持手段。
關(guān)鍵詞:互聯(lián)網(wǎng)+;輿情監(jiān)控與分析;輿情識(shí)別
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)31-0037-04
1背景
在這個(gè)“人人都是通訊社”的時(shí)代,許多社會(huì)輿論事件都是始于網(wǎng)絡(luò),以BBS,論壇社區(qū),博客,微博為網(wǎng)絡(luò)輿情信息的主要來源,并產(chǎn)生巨大的社會(huì)影響。面對(duì)不斷發(fā)展的互聯(lián)網(wǎng)、網(wǎng)絡(luò)輿情傳播快、渠道多,網(wǎng)絡(luò)輿情數(shù)據(jù)的異構(gòu)性與復(fù)雜性等特點(diǎn),也導(dǎo)致了難以控制輿情信息的正確性和傳播范圍,面對(duì)熱點(diǎn)話題和焦點(diǎn)的大量關(guān)注很容易導(dǎo)致網(wǎng)絡(luò)群體事件或突發(fā)事件,要實(shí)現(xiàn)高效及時(shí)的網(wǎng)絡(luò)輿情監(jiān)控變得尤為困難。如何從海量網(wǎng)絡(luò)輿情中快速、準(zhǔn)確發(fā)現(xiàn)有價(jià)值的信息,協(xié)助政府管理部門及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)盥.情、引導(dǎo)輿論方向、穩(wěn)定社會(huì)情緒,成為建設(shè)和諧社會(huì)亟待解決的課題。
隨著我國(guó)城市“互聯(lián)網(wǎng)+”等信息技術(shù)的快速發(fā)展,已經(jīng)成為推動(dòng)網(wǎng)絡(luò)輿情監(jiān)控與分析向智能化方向發(fā)展的重要?jiǎng)恿?。在目前網(wǎng)絡(luò)輿情的監(jiān)控與分析應(yīng)對(duì)面臨諸多困境的背景下,“互聯(lián)網(wǎng)+”與網(wǎng)絡(luò)輿情監(jiān)控與分析的融合發(fā)展將會(huì)為這些難題的解決提供新的工具和思路。以“互聯(lián)網(wǎng)+”與網(wǎng)絡(luò)輿情監(jiān)控與分析深度融合發(fā)展為切入點(diǎn),將互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)以及云計(jì)算等新一代信息技術(shù)應(yīng)用到網(wǎng)絡(luò)輿情監(jiān)控與分析上,使輿情數(shù)據(jù)的海量存儲(chǔ)與高效并發(fā)處理成為可能嘲。因此提出基于“互聯(lián)網(wǎng)+”的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),具有重要的理論和實(shí)踐意義。
2網(wǎng)絡(luò)輿情監(jiān)控相關(guān)技術(shù)介紹
網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)相關(guān)的最關(guān)鍵的技術(shù)包括網(wǎng)絡(luò)信息的分類、分析、識(shí)別、跟蹤等計(jì)算機(jī)文本信息處理技術(shù)。這里主要對(duì)網(wǎng)絡(luò)爬蟲技術(shù)和網(wǎng)絡(luò)信息提取與識(shí)別技術(shù)進(jìn)行介紹。
2.1網(wǎng)絡(luò)爬蟲
隨著“互聯(lián)網(wǎng)+”技術(shù)的發(fā)展,人們可以快速地通過網(wǎng)絡(luò)來獲取大量所需要的信息。但隨著互聯(lián)網(wǎng)信息量的不斷增加和擴(kuò)大,每時(shí)每刻都有上千萬的網(wǎng)絡(luò)信息增長(zhǎng)量,要從這么復(fù)雜的網(wǎng)絡(luò)信息量中找到自己想要的數(shù)據(jù)信息幾乎變得不現(xiàn)實(shí),而網(wǎng)絡(luò)爬蟲技術(shù)的應(yīng)用正是為了解決這一難題。
在本輿情監(jiān)控系統(tǒng)中,網(wǎng)絡(luò)爬蟲技術(shù)主要進(jìn)行的是從網(wǎng)絡(luò)上大量的不斷更新的信息數(shù)據(jù)抓取下來,為輿情監(jiān)控提供最原始的網(wǎng)絡(luò)信息,進(jìn)而用于下一步的分析研究,以壓縮的形式將數(shù)據(jù)存在磁盤上。圖1是常見網(wǎng)絡(luò)爬蟲的架構(gòu)圖。目前所有從互聯(lián)網(wǎng)上快速自動(dòng)的獲取數(shù)據(jù)信息都用到了網(wǎng)絡(luò)爬蟲技術(shù)。其中應(yīng)用最多的便是各搜索引擎公司的網(wǎng)絡(luò)蜘蛛程序,此外,爬蟲技術(shù)還可以用來檢測(cè)網(wǎng)站鏈接是否有效等。
2.2輿情信息的提取與識(shí)別
輿情信息的提取與識(shí)別技術(shù)主要對(duì)前期搜集來的信息做有效信息的分析,如果提取的是網(wǎng)絡(luò)新聞數(shù)據(jù),則主要從中找出新聞主題的正文信息(標(biāo)題,內(nèi)容,時(shí)間等),如果提取的是網(wǎng)絡(luò)論壇數(shù)據(jù),則主要從中找出用戶的信息(用戶ID、權(quán)威值,回復(fù)用戶ID,回復(fù)數(shù)等),然后將找出的這些關(guān)鍵信息存人設(shè)定的信息數(shù)據(jù)庫(kù)中。
輿情信息的提取分析采用的是一種基于模板與自動(dòng)機(jī)器識(shí)別相結(jié)合的信息提取方法。該方法先根據(jù)制定好的啟發(fā)式規(guī)則,然后去自動(dòng)識(shí)別網(wǎng)絡(luò)文本中不同屬性輿論信息之間的分隔符,再把它們配置到相應(yīng)模板中,然后根據(jù)模板去識(shí)別分析出同一類型的輿論網(wǎng)頁(yè)信息,最終以話題線索的方式存下來。話題線索是指對(duì)一個(gè)網(wǎng)絡(luò)輿論相關(guān)數(shù)據(jù)信息的描述,主要有網(wǎng)頁(yè)的點(diǎn)擊率,回復(fù)數(shù),標(biāo)題與評(píng)論等。與傳統(tǒng)的信息提取相比,本技術(shù)能夠快速對(duì)多種結(jié)構(gòu)類型的網(wǎng)絡(luò)輿論網(wǎng)頁(yè)數(shù)據(jù)信息進(jìn)行處理;同時(shí)在很大程度上能更好地提高輿論信息的準(zhǔn)確率和效率;并且不用修改算法就可以根據(jù)用戶不同的需求,然后自動(dòng)的動(dòng)態(tài)提取網(wǎng)絡(luò)輿論相關(guān)數(shù)據(jù)信息,以便更好地滿足研究的需要。具體提取過程如圖2所示。
輿情信息的分析識(shí)別主要是對(duì)提取到的輿論數(shù)據(jù)信息數(shù)據(jù)庫(kù)中的數(shù)據(jù)信息做內(nèi)容上和行為上的識(shí)別,并比較判斷是否為所需要的輿情信息,為后續(xù)的更有針對(duì)性的輿情數(shù)據(jù)信息分析提供相應(yīng)的參考依據(jù)。
輿情信息內(nèi)容上的識(shí)別:主要根據(jù)輿隋數(shù)據(jù)信息的文本屬性特征,首先進(jìn)行信息的分類和聚類操作,從內(nèi)容上去比較識(shí)別該數(shù)據(jù)信息是否屬于所需要的輿情數(shù)據(jù)信息。
輿情信息行為上的識(shí)別:根據(jù)輿情數(shù)據(jù)信息的社會(huì)傳播屬性,即網(wǎng)絡(luò)輿情數(shù)據(jù)信息的傳播會(huì)符合社會(huì)網(wǎng)絡(luò)中的很多屬性特征,因此可以使用社會(huì)網(wǎng)絡(luò)中的模型來建立輿情數(shù)據(jù)信息網(wǎng)絡(luò),及時(shí)的分析顯示出輿情網(wǎng)絡(luò)信息的形成和進(jìn)一步的發(fā)展趨勢(shì),同時(shí)可以更好地反映相互出網(wǎng)絡(luò)用戶之間的數(shù)據(jù)信息相互交流等。對(duì)于那些經(jīng)內(nèi)容上識(shí)別后不屬于輿情數(shù)據(jù)信息將會(huì)進(jìn)一步采用行為屬性特征進(jìn)行識(shí)別,如果這些網(wǎng)絡(luò)輿論數(shù)據(jù)信息符合行為上的屬性特征,就可以把這些數(shù)據(jù)信息也歸為所需要的輿情數(shù)據(jù)信息。
3網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的功能框架設(shè)計(jì)
網(wǎng)絡(luò)輿情信息的監(jiān)控功能主要有輿論數(shù)據(jù)信息的采集、數(shù)據(jù)信息的預(yù)處理和分析處理。系統(tǒng)功能應(yīng)具備判斷輿隋數(shù)據(jù)信息正負(fù)面發(fā)展的傾向性和趨勢(shì)、傳播方式和途徑、能進(jìn)行人工設(shè)置重點(diǎn)監(jiān)控特定的輿情信息事件的能力,具有所需輿論話題的自動(dòng)識(shí)別跟蹤、分析和提取以及統(tǒng)計(jì)報(bào)告等。根據(jù)目前該行業(yè)內(nèi)現(xiàn)行的解決技術(shù)手段和方法方案,對(duì)輿論監(jiān)控系統(tǒng)進(jìn)行更好的更有針對(duì)性的整理和歸納,并設(shè)計(jì)出更好的方案,獲取“互聯(lián)網(wǎng)+”輿情監(jiān)控分析系統(tǒng)的功能框架設(shè)計(jì)的需求。
系統(tǒng)可以分為四個(gè)主要模塊:輿情數(shù)據(jù)信息的采集子系統(tǒng)、輿情數(shù)據(jù)信息預(yù)處理子系統(tǒng)、輿情監(jiān)控分析系統(tǒng)和輿情應(yīng)用系統(tǒng)。如圖3所示。
1)輿情信息采集子系統(tǒng):能夠自動(dòng)抓取和存儲(chǔ)網(wǎng)絡(luò)上相關(guān)的輿情數(shù)據(jù)等信息。
2)輿情信息預(yù)處理子系統(tǒng):主要對(duì)所抓取到的輿隋數(shù)據(jù)信息進(jìn)行去重、關(guān)鍵詞篩選與分析等。
3)輿情監(jiān)控分析子系統(tǒng):主要對(duì)輿情數(shù)據(jù)信息進(jìn)行文本的表示、對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)里的數(shù)
據(jù)進(jìn)行識(shí)別分析等,并將識(shí)別分析的結(jié)果傳遞到分析庫(kù)中。
4)輿情web應(yīng)用系統(tǒng):實(shí)現(xiàn)用戶交互功能。
4網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)功能模塊的詳細(xì)設(shè)計(jì)
輿情監(jiān)控系統(tǒng)的工作流即數(shù)據(jù)流主要經(jīng)歷4個(gè)環(huán)節(jié)的處理:首先是根據(jù)輿情數(shù)據(jù)采集子功能模塊將采集到的輿情數(shù)據(jù)抓取到本地;接著對(duì)抓取回來的原始數(shù)據(jù)進(jìn)行分析識(shí)別加工,即刪除多余的垃圾數(shù)據(jù),并根據(jù)指定的相應(yīng)數(shù)據(jù)格式對(duì)抓取到的輿情數(shù)據(jù)信息建立索引;然后根據(jù)輿情監(jiān)控系統(tǒng)設(shè)置的特定需求對(duì)輿情數(shù)據(jù)進(jìn)行分析處理等,最后將得到的輿情數(shù)據(jù)實(shí)時(shí)地呈現(xiàn)在客戶端。如圖4所示:
4.1信息采集功能模塊設(shè)計(jì)
輿情數(shù)據(jù)主要來源于網(wǎng)站、微博、論壇等國(guó)內(nèi)外著名網(wǎng)站,采用API與網(wǎng)頁(yè)抽取相結(jié)合的方法,進(jìn)行關(guān)鍵詞采集、話題語義采集,通過關(guān)鍵詞管理、URL管理、過濾詞典及分類管理等系統(tǒng)管理配置,實(shí)現(xiàn)分類歸一管理。將數(shù)據(jù)存于HBase數(shù)據(jù)庫(kù)中,其采集過程如圖5所示。通過網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)絡(luò)輿情數(shù)據(jù)信息,并根據(jù)Dom解析html和提取相應(yīng)的數(shù)據(jù)信息;其中在n個(gè)slaver機(jī)器上分別運(yùn)行n個(gè)獲取器和爬蟲器,在master機(jī)器上運(yùn)行調(diào)度器。
4.2信息預(yù)處理功能模塊設(shè)計(jì)
在已抓取的網(wǎng)絡(luò)輿情數(shù)據(jù)信息中,除了有效的輿情數(shù)據(jù)信息外,還摻雜著大量的其他無效數(shù)據(jù)信息,如:菜單導(dǎo)航、網(wǎng)站版權(quán)、友情鏈接等。與結(jié)構(gòu)化的數(shù)據(jù)信息相比,不同的是網(wǎng)絡(luò)輿情數(shù)據(jù)信息中大多數(shù)為非結(jié)構(gòu)化的數(shù)據(jù)信息,并且數(shù)據(jù)形式復(fù)雜,所以,對(duì)這些輿情數(shù)據(jù)信息不能直接進(jìn)行分析和加工處理,需要在數(shù)據(jù)加工處理前先進(jìn)行信息的清洗除噪預(yù)處理,并對(duì)數(shù)據(jù)信息內(nèi)容以及主要屬性特征等進(jìn)行分析提取,這就是信息預(yù)處理子功能模塊的主要工作。如圖6所示,即為輿情信息預(yù)處理子功能模塊的工作流程。
4.3輿情分析功能子模塊設(shè)計(jì)
輿情分析功能子模塊是輿情監(jiān)控系統(tǒng)中最主要的一個(gè)功能模塊,主要采用網(wǎng)絡(luò)信息文本的分類和聚類等技術(shù),對(duì)前期進(jìn)行過預(yù)處理的網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行深入分析和識(shí)別挖掘,并以此提供“話題發(fā)現(xiàn)”和“熱點(diǎn)跟蹤”。輿情分析功能子模塊的工作流程如圖7所示。
輿情監(jiān)控分析功能子模塊作為系統(tǒng)的主要功能模塊,主要有最新熱點(diǎn)信息話題的發(fā)現(xiàn)與分析、熱點(diǎn)信息話題的追蹤以及社會(huì)網(wǎng)絡(luò)分析等。下面只對(duì)主要功能進(jìn)行描述。
4.3.1熱點(diǎn)信息話題的發(fā)現(xiàn)與分析
熱點(diǎn)話題發(fā)現(xiàn)與分析功能是指將輿情數(shù)據(jù)信息內(nèi)容劃分到不同的話題,并在有需求時(shí)產(chǎn)生新的與之對(duì)應(yīng)的話題;熱點(diǎn)信息話題的追蹤主要對(duì)網(wǎng)絡(luò)用戶所感興趣話題的后續(xù)發(fā)展進(jìn)行追蹤分析。在此主要使用的是文本聚類分析方法。
4.3.2社會(huì)網(wǎng)絡(luò)分析
社會(huì)網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)的一種,是復(fù)雜網(wǎng)絡(luò)研究領(lǐng)域中一種特殊的網(wǎng)絡(luò),和復(fù)雜網(wǎng)絡(luò)之間的關(guān)系是被包容與包容的關(guān)系。以微博為例,輿情監(jiān)控系統(tǒng)所使用的社會(huì)網(wǎng)絡(luò)分析方法是對(duì)網(wǎng)絡(luò)博主發(fā)布的數(shù)據(jù)信息中粉絲數(shù)以及關(guān)注數(shù)的出入度和聚類系數(shù)進(jìn)行計(jì)算,分別采用n個(gè)Map階段和一個(gè)Reduce階段,并在分析庫(kù)存儲(chǔ)計(jì)算的結(jié)果,供客戶端進(jìn)行可視化調(diào)用。聚類系數(shù)的大小是社會(huì)網(wǎng)絡(luò)分析方法中的一個(gè)關(guān)鍵參考指標(biāo),它體現(xiàn)的是網(wǎng)絡(luò)的集團(tuán)化程度,是一種網(wǎng)絡(luò)內(nèi)聚的反映,它是指社會(huì)網(wǎng)絡(luò)中實(shí)際存在的邊數(shù)和可能有的邊數(shù)之比嘲。對(duì)于社會(huì)網(wǎng)絡(luò)分析來說,集團(tuán)化是一個(gè)關(guān)鍵屬性特征,它代表網(wǎng)絡(luò)中的朋友或熟人的凝聚程度,而聚類系數(shù)就是反映這集團(tuán)化屬性。
4.4輿情展示預(yù)警功能模塊設(shè)計(jì)
該功能模塊主要實(shí)現(xiàn)系統(tǒng)和管理者之間的各種實(shí)時(shí)交互操作,將經(jīng)過系統(tǒng)分析后的結(jié)果最終反饋給管理者。該模塊所包含的功能有:敏感話題趨勢(shì)、熱點(diǎn)話題排序等。系統(tǒng)交信息互展示,能使管理者對(duì)輿情數(shù)據(jù)信息進(jìn)行及時(shí)分析并掌握輿情信息趨勢(shì)變化。更重要的是,監(jiān)控系統(tǒng)還能進(jìn)行輿情信息的自動(dòng)警示觸發(fā)。該警示的目的在于及時(shí)進(jìn)行輿情信息的反饋和采取防患于未然的措施,輿情預(yù)警主要包括輿情預(yù)警通知和輿情引導(dǎo)。
4.4.1輿情預(yù)警通知
通過網(wǎng)絡(luò)輿情預(yù)警機(jī)制的動(dòng)態(tài)模型確定不同輿情信息的權(quán)重系數(shù),然后依據(jù)權(quán)重系數(shù)大小確定等級(jí)高低。根據(jù)輿情數(shù)據(jù)信息等級(jí)的高低不同啟動(dòng)相應(yīng)的處理機(jī)制(見圖8),預(yù)警方式可設(shè)置為短信通知、郵件通知、啟動(dòng)報(bào)警(播放報(bào)警聲音)及頁(yè)面窗口彈出提示,確保輿情信息的發(fā)生立即被發(fā)現(xiàn),第一時(shí)間做出響應(yīng),預(yù)防輿隋的擴(kuò)散傳播,有效實(shí)施主動(dòng)性。
4.4.2輿情引導(dǎo)
根據(jù)網(wǎng)絡(luò)輿情數(shù)據(jù)信息的屬性和傳播方式判斷出輿情數(shù)據(jù)信息對(duì)社會(huì)生活產(chǎn)生不利影響時(shí),利用輿情的引導(dǎo)策略和技術(shù),在短期內(nèi)快速生成應(yīng)對(duì)不利影響的有效解決合力,使得網(wǎng)絡(luò)輿情信息的發(fā)展朝著期望的方向變化,并以此為目的讓廣大網(wǎng)絡(luò)民眾更快的獲知最真實(shí)的數(shù)據(jù)信息,進(jìn)而尋的社會(huì)的穩(wěn)定發(fā)展。輿情引導(dǎo)流程如圖9所示。
5結(jié)束語
將“互聯(lián)網(wǎng)+”技術(shù)應(yīng)用于輿隋監(jiān)控系統(tǒng)實(shí)現(xiàn)了云端硬件資源的共享,使得客戶不必購(gòu)買大量硬件設(shè)備就可進(jìn)行數(shù)據(jù)挖掘,節(jié)約了設(shè)備的采購(gòu)及維護(hù)費(fèi)用;同時(shí)利用云計(jì)算的集群處理能力,完成對(duì)云端數(shù)據(jù)的實(shí)時(shí)高效挖掘。從系統(tǒng)試運(yùn)行應(yīng)用效果來看,既節(jié)約了管理成本,又提高了工作效率,實(shí)現(xiàn)了網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的實(shí)時(shí)性、高效性和全面性,可為維護(hù)信息時(shí)代社會(huì)的穩(wěn)定性提供技術(shù)保障。