• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的研究與實(shí)現(xiàn)

      2013-12-31 00:00:00鄧凱英彭超
      現(xiàn)代情報(bào) 2013年11期

      〔摘 要〕網(wǎng)絡(luò)輿情作為一種重要的輿情形式,具有形成速度快,受眾人群廣等特點(diǎn),對(duì)國(guó)家和社會(huì)的影響越來(lái)越重大?;ヂ?lián)網(wǎng)用戶(hù)可以自由地在微博、論壇、博客等中發(fā)表有關(guān)社會(huì)中各類(lèi)現(xiàn)實(shí)問(wèn)題的態(tài)度和意見(jiàn)。監(jiān)測(cè)網(wǎng)絡(luò)輿情的主要手段就是利用網(wǎng)絡(luò)爬蟲(chóng)對(duì)目標(biāo)網(wǎng)絡(luò)的頁(yè)面數(shù)據(jù)進(jìn)行挖掘,然后對(duì)挖掘的數(shù)據(jù)進(jìn)行分類(lèi)處理,并科學(xué)地統(tǒng)計(jì)輿情信息。本文主要分析網(wǎng)絡(luò)輿情的特征和處理對(duì)策,并利用網(wǎng)絡(luò)爬蟲(chóng)、全文檢索、關(guān)鍵詞評(píng)分、以及科學(xué)數(shù)理統(tǒng)計(jì)等手段對(duì)網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的原理進(jìn)行探索與系統(tǒng)實(shí)現(xiàn)。

      〔關(guān)鍵詞〕網(wǎng)絡(luò)輿情;爬蟲(chóng);關(guān)鍵字排名

      DOI:10.3969/j.issn.1008-0821.2013.11.009

      〔中圖分類(lèi)號(hào)〕TP301 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2013)11-0038-04

      輿情是民眾關(guān)于現(xiàn)實(shí)社會(huì)中各種現(xiàn)象、問(wèn)題所表達(dá)的政治信念、態(tài)度、意見(jiàn)和情緒的總和[1-2]。網(wǎng)絡(luò)輿情信息是指社會(huì)民眾通過(guò)互聯(lián)網(wǎng)這一媒介所表達(dá)的情緒、態(tài)度、信念、意識(shí)、思想、意見(jiàn)、要求和行為方式等方面的綜合表現(xiàn),是對(duì)現(xiàn)代社會(huì)物質(zhì)、政治、精神和社會(huì)4個(gè)文明建設(shè)活動(dòng)的各種反映[3-5]《2012年互聯(lián)網(wǎng)輿情分析報(bào)告》藍(lán)皮書(shū)指出,2012年微博成為社會(huì)輿情的發(fā)動(dòng)機(jī),在本年網(wǎng)民重點(diǎn)關(guān)注的是社會(huì)轉(zhuǎn)型、環(huán)境問(wèn)題、釣魚(yú)島問(wèn)題、南海問(wèn)題等熱點(diǎn)話題。據(jù)統(tǒng)計(jì)2012全年關(guān)于“釣魚(yú)島與反日游行”話題的網(wǎng)絡(luò)博文合計(jì)17 742萬(wàn)篇,“倫敦奧運(yùn)”話題博文7 583萬(wàn)篇,“神舟九號(hào)與天宮一號(hào)對(duì)接”的話題博文3 923萬(wàn)篇。由此可見(jiàn),網(wǎng)絡(luò)輿情基本都是在短期爆發(fā)的,且影響范圍廣泛,都是些對(duì)國(guó)家、對(duì)社會(huì)意義深遠(yuǎn)的熱門(mén)話題。因此,對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè)分析是十分必要的。隨著科技的發(fā)展,計(jì)算機(jī)技術(shù)的迅速普及與推廣,網(wǎng)絡(luò)為社會(huì)各階層的人們提供了廣闊、自由的交流平臺(tái)[6],互聯(lián)網(wǎng)成為了社會(huì)網(wǎng)絡(luò)輿情傳播的主要平臺(tái)。而網(wǎng)絡(luò)輿情主要來(lái)自于BBS、博客、微博、點(diǎn)評(píng)等,在網(wǎng)絡(luò)中網(wǎng)民平等的表達(dá)著自己的觀點(diǎn),可以說(shuō)真話,也可以說(shuō)假話,言論相對(duì)自由,網(wǎng)絡(luò)的開(kāi)放性直接決定了網(wǎng)絡(luò)輿情的直接性、突發(fā)性、偏差性。網(wǎng)絡(luò)輿情的獨(dú)立屬性,信息流和環(huán)境會(huì)影響輿論的傳播[7]。網(wǎng)絡(luò)輿情主要來(lái)自BBS、博客、微博、點(diǎn)評(píng)等,在網(wǎng)絡(luò)中網(wǎng)民平等的表達(dá)著自己的觀點(diǎn),言論相對(duì)自由,網(wǎng)絡(luò)的開(kāi)放性直接地決定了網(wǎng)絡(luò)輿情的直接性、突發(fā)性和偏差性。本文設(shè)計(jì)的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),主要考慮以下幾個(gè)方面:(1)對(duì)主流的社交網(wǎng)站、門(mén)戶(hù)網(wǎng)站的網(wǎng)頁(yè)、帖吧、文本文件、新聞評(píng)論、微博、博客等近期發(fā)布的信息,進(jìn)行分類(lèi)存儲(chǔ)處理。(2)對(duì)指定的網(wǎng)站上的近期信息,包括網(wǎng)頁(yè)、帖吧、文本文件、新聞評(píng)論、微博、博客等數(shù)據(jù)進(jìn)行采集與歸類(lèi)存儲(chǔ)處理。(3)對(duì)采集到的各種數(shù)據(jù)進(jìn)行關(guān)鍵字分詞處理,分詞存儲(chǔ),分詞評(píng)分,分詞排名等處理。(4)建設(shè)關(guān)鍵字檢索系統(tǒng),檢索的結(jié)果按照標(biāo)題與內(nèi)容的綜合評(píng)分進(jìn)行合理的排序。(5)本網(wǎng)絡(luò)檢測(cè)系統(tǒng),采用合理的框架,預(yù)留更多未來(lái)開(kāi)發(fā)的擴(kuò)展接口,方便開(kāi)源與二次開(kāi)發(fā)。

      2013年11月第33卷第11期現(xiàn)?代?情?報(bào)Journal of Modern InformationNov.,2013Vol.33 No.112013年11月第33卷第11期網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的研究與實(shí)現(xiàn)Nov.,2013Vol.33 No.111 系統(tǒng)的主要功能模塊

      1.1 網(wǎng)絡(luò)輿情的采集模塊根據(jù)設(shè)置的檢索條件,如限定域名的http:∥.sina.com/的所有頁(yè)面的信息,將采集的數(shù)據(jù)適當(dāng)?shù)倪^(guò)濾,留下有用的關(guān)鍵數(shù)據(jù)。爬取的對(duì)象為重點(diǎn)新聞網(wǎng)站、知名社交網(wǎng)站、各大論壇,博客,以及政府網(wǎng)站等。

      1.2 數(shù)據(jù)處理模塊對(duì)從網(wǎng)絡(luò)上采集而來(lái)的數(shù)據(jù)進(jìn)行處理,處理的手段包括:歸類(lèi)、分詞、標(biāo)注、加權(quán)、存儲(chǔ)優(yōu)化等。

      1.3 關(guān)鍵字檢索為本網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)提供一個(gè)搜索引擎的功能,方便對(duì)網(wǎng)絡(luò)蜘蛛爬取的數(shù)據(jù)進(jìn)行查看管理。在一次檢索的基礎(chǔ)上,提供二次檢索。提供智能的檢索方案,按字索引、按詞索引以及字詞混合索引,對(duì)檢索結(jié)果進(jìn)行排名與統(tǒng)計(jì)。

      1.4 輿情分析與統(tǒng)計(jì)輿情分析是對(duì)輿情進(jìn)行深層次的思維加工和分析研究。主要包括內(nèi)容分析法和實(shí)證分析法。內(nèi)容分析法對(duì)信息內(nèi)容進(jìn)行客觀系統(tǒng)的定量分析,提示信息所含有的隱性情報(bào)內(nèi)容,對(duì)事物發(fā)展做情報(bào)預(yù)測(cè)。實(shí)證分析法是通過(guò)分析大量案例和相關(guān)數(shù)據(jù)從而得出結(jié)論的一種研究方法。經(jīng)過(guò)分析后,可以自動(dòng)提取關(guān)鍵字,提取一段完整的內(nèi)容進(jìn)行智能提取摘要,也可以根據(jù)已經(jīng)設(shè)置的檢索條件進(jìn)行動(dòng)態(tài)地提取摘要。對(duì)標(biāo)題進(jìn)行分詞檢索與排名。智能識(shí)別數(shù)據(jù)并歸檔到本地?cái)?shù)據(jù)源。網(wǎng)上數(shù)據(jù)的表示可以采用“點(diǎn)”與“線”組成的模型圖,來(lái)表示互聯(lián)網(wǎng)中的各類(lèi)數(shù)據(jù)。用“線”來(lái)表示各個(gè)頁(yè)面之間的URL鏈接關(guān)系,用“點(diǎn)”來(lái)表示網(wǎng)絡(luò)中的各個(gè)頁(yè)面。在這樣的一個(gè)由點(diǎn)線組成的網(wǎng)狀結(jié)構(gòu)的圖形中,每一個(gè)點(diǎn)與線都表達(dá)了非常重要的信息。所以互聯(lián)網(wǎng)中的文本類(lèi)型的數(shù)據(jù)可以簡(jiǎn)單的劃分成由頁(yè)面標(biāo)題、頁(yè)面的內(nèi)容、頁(yè)面的超文本標(biāo)記以及頁(yè)面之間的URL鏈接等構(gòu)成。一般的HTML頁(yè)面由Head標(biāo)簽和Body表組成,主要的元素有標(biāo)題Title,表格Table,層div等信息標(biāo)簽組成。然而每當(dāng)用戶(hù)瀏覽器收到數(shù)據(jù)時(shí),去掉多媒體信息數(shù)據(jù),如視頻數(shù)據(jù)、flash動(dòng)畫(huà)、圖片數(shù)據(jù)、音頻數(shù)據(jù)等非文本文件數(shù)據(jù),其余的文本文件所包含的信息可以分為兩類(lèi):一類(lèi)是用于結(jié)構(gòu)控制的HTML標(biāo)簽,HTML由“〈”和“〉”構(gòu)成一個(gè)標(biāo)簽,如〈div〉、〈head〉等標(biāo)簽;另外一類(lèi)就是內(nèi)容信息了,這些信息就提供給我們可以直接閱讀的文字。也就是我們最終需要分詞處理,存儲(chǔ)處理的,建立索引的文本數(shù)據(jù)。在頁(yè)面設(shè)計(jì)的時(shí)候,為了方便搜索引擎搜錄其頁(yè)面的信息,通常會(huì)在頁(yè)面添加關(guān)鍵字,在頁(yè)面的〈head〉標(biāo)簽中,可以添加〈meta name=”關(guān)鍵字1,關(guān)鍵字2,關(guān)鍵字3”content=”頁(yè)面摘要描述……”〉的標(biāo)簽信息來(lái)描述本頁(yè)面的主要信息,方便搜索引擎的網(wǎng)絡(luò)蜘蛛爬取信息。

      1.5 關(guān)鍵字高亮顯示在查詢(xún)檢索結(jié)果中,對(duì)關(guān)鍵字進(jìn)行統(tǒng)計(jì)并高亮顯示,雖然是一個(gè)小功能,但是技術(shù)實(shí)現(xiàn)的難度大,對(duì)用戶(hù)體驗(yàn)有較高的提升,使得在檢索結(jié)果中對(duì)關(guān)鍵的信息對(duì)用戶(hù)一目了然。

      1.6 網(wǎng)絡(luò)輿情的預(yù)測(cè)通過(guò)分析近期捕獲的網(wǎng)絡(luò)輿情,對(duì)這些數(shù)據(jù)進(jìn)行自動(dòng)分類(lèi),進(jìn)一步聚類(lèi),并統(tǒng)計(jì)出各個(gè)關(guān)鍵字的數(shù)據(jù)圖表,周期升降率,從而預(yù)測(cè)未來(lái)的輿情演化與趨勢(shì)。

      2 系統(tǒng)架構(gòu)本網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)采用MVC的設(shè)計(jì)模式。MVC的全稱(chēng)就是Model View Controller的縮寫(xiě),意思為模型model——視圖view——控制器controller,MVC是最常用的一種程序基本結(jié)構(gòu)的設(shè)計(jì),使用MVC架構(gòu)可以使業(yè)務(wù)邏輯模塊、數(shù)據(jù)鏈路模塊、UI界面模塊具有良好的分層,這3個(gè)模塊在具體的實(shí)現(xiàn)內(nèi)容上彼此分離,在關(guān)系上又彼此調(diào)用,可以使各個(gè)模塊的負(fù)責(zé)人集中精力編寫(xiě)各自的模塊,只需要對(duì)彼此的調(diào)用關(guān)系提供接口,以便降低程序關(guān)系的耦合度,達(dá)到高內(nèi)聚低耦合的目的,在MVC架構(gòu)發(fā)展的近些年中,許多有經(jīng)驗(yàn)的程序員習(xí)慣用Java的反射特性來(lái)更好地控制UI界面模塊和業(yè)務(wù)邏輯模塊的耦合性。利用MVC獨(dú)特的界面層、控制層、數(shù)據(jù)模型層的良好解耦的特點(diǎn),本系統(tǒng)基本架構(gòu)為:

      圖1 MVC系統(tǒng)架構(gòu)示意圖

      2.1 系統(tǒng)的功能架構(gòu)本網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)按功能模塊劃分,可大致劃分為網(wǎng)絡(luò)爬蟲(chóng)采集模塊、中文分詞系統(tǒng)、UI界面管理模塊、索引文件管理模塊、內(nèi)容搜索及搜索顯示模塊、中文全文檢索系統(tǒng)、關(guān)鍵字智能評(píng)分系統(tǒng)、關(guān)鍵字高亮顯示模塊等八大模塊。

      網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)網(wǎng)絡(luò)爬蟲(chóng)采集模塊中文分詞系統(tǒng)UI界面管理模塊索引文件管理模塊內(nèi)容搜索及搜索顯示模塊中文全文檢索系統(tǒng)關(guān)鍵字智能評(píng)分系統(tǒng)關(guān)鍵字高亮顯示模塊圖2 系統(tǒng)各個(gè)功能模塊

      2.1.1 網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)蜘蛛(Web Spider),也翻譯為網(wǎng)絡(luò)爬蟲(chóng)(Web Crawler),不管用其中的哪一個(gè)翻譯都是一個(gè)非常形象的名稱(chēng)。其實(shí),網(wǎng)絡(luò)就好比蜘蛛網(wǎng)一樣,上面有無(wú)數(shù)個(gè)節(jié)點(diǎn),爬蟲(chóng)Crawler就好比是在網(wǎng)絡(luò)中爬來(lái)爬去的一只蟲(chóng)子。網(wǎng)絡(luò)蜘蛛在搜尋的網(wǎng)頁(yè)中檢索一個(gè)個(gè)超鏈接URL,再對(duì)各個(gè)URL進(jìn)行判斷是否曾經(jīng)檢索過(guò),如果沒(méi)有,則通過(guò)該鏈接進(jìn)行信息爬取,并且一直循環(huán)爬取,一直到把該網(wǎng)站所有的頁(yè)面都爬取完為止。

      2.1.2 中文分詞系統(tǒng)英文單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過(guò)明顯的分界符來(lái)簡(jiǎn)單劃界,惟獨(dú)詞沒(méi)有一個(gè)形式上的分界符,雖然英文也同樣存在短語(yǔ)的劃分問(wèn)題,不過(guò)在詞這一層上,中文比之英文要復(fù)雜的多,困難的多。中文分詞系統(tǒng)用于將一個(gè)又一個(gè)的單個(gè)漢字進(jìn)行分詞。一般中文分詞是先判斷前面和后面的幾個(gè)漢字能否和本漢字組成為一個(gè)詞語(yǔ),并把前后連續(xù)的幾個(gè)漢字,按照一定的順序和語(yǔ)法進(jìn)行重新排列或組合成為一個(gè)詞序列的過(guò)程。中文分詞最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱(chēng)為相關(guān)度排序。

      2.1.3 中文全文檢索系統(tǒng)中文全文檢索是指把一個(gè)中文的文件中的全部的文本和檢索項(xiàng),進(jìn)行全文式的匹配檢索文本文件的方法。中文的全文檢索可以把一個(gè)數(shù)據(jù)庫(kù)或者一些文本文件,一個(gè)Web頁(yè)面的內(nèi)容進(jìn)行全文查找檢索。該系統(tǒng)還能分析文中的相關(guān)字、詞、句、段、篇等內(nèi)容,并帶有統(tǒng)計(jì)功能,如果我們給一本書(shū)的每一個(gè)分詞都加上一個(gè)分字標(biāo)簽,那么就可以統(tǒng)計(jì)分析全文的內(nèi)容了。比如,我們要統(tǒng)計(jì)“中國(guó)名著《西游記》這本書(shū)中,‘孫悟空’一詞在本書(shū)中共出現(xiàn)多少次”就可以通過(guò)這個(gè)檢索方法實(shí)現(xiàn)。

      2.1.4 UI界面觸發(fā)的事件反射到邏輯的處理事件的反射處理是利用Java的反射原理將View層中的事件反射到邏輯中來(lái)執(zhí)行,UI響應(yīng)反射事件時(shí),需要通過(guò)事件動(dòng)作配置數(shù)據(jù)Relation.java類(lèi),判斷事件的類(lèi)型,事件分為“無(wú)條件跳轉(zhuǎn)”和“執(zhí)行邏輯函數(shù)”兩種類(lèi)型。

      圖3 響應(yīng)事件流程圖

      3 網(wǎng)絡(luò)輿情的統(tǒng)計(jì)與分析如果人工采集互聯(lián)網(wǎng)上的信息,這個(gè)工作量將會(huì)是巨大的,因此需要研究如何在網(wǎng)絡(luò)上進(jìn)行自動(dòng)實(shí)現(xiàn)信息采集,并及時(shí)的對(duì)采集來(lái)的信息進(jìn)行處理,由人工采集信息的防擁塞,變?yōu)樽詣?dòng)采集的自動(dòng)歸類(lèi),梳理,建立索引。圖4 中文分詞的輸入輸出

      網(wǎng)絡(luò)輿情分析系統(tǒng)是處理已采集信息的核心功能模塊,具體功能如下:(1)可以對(duì)熱門(mén)話題與敏感詞匯進(jìn)行標(biāo)識(shí)。(2)可以根據(jù)新聞發(fā)布機(jī)構(gòu)的權(quán)威度、回復(fù)數(shù)量、評(píng)論的頻率,對(duì)信息進(jìn)行評(píng)分加權(quán),使得檢索時(shí)排位靠前。(3)可以識(shí)別出采集的信息在某一段時(shí)間內(nèi)是否是最熱門(mén)的話題,使用關(guān)鍵字的分詞、排序、語(yǔ)法分析和語(yǔ)義分析,來(lái)辨別各類(lèi)文章中是否包含敏感話題?;ヂ?lián)網(wǎng)頁(yè)面上的數(shù)據(jù)不僅包括頁(yè)面的內(nèi)容數(shù)據(jù),還含有一些HTML超文本標(biāo)簽主要用來(lái)對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)進(jìn)行設(shè)計(jì)。目前,部分國(guó)際化組織制定HMTL5協(xié)議對(duì)頁(yè)面上的數(shù)據(jù)的格式進(jìn)行統(tǒng)一的標(biāo)記,但是這一類(lèi)協(xié)議僅僅用于內(nèi)容信息的表述形式上,這樣做的原因是讓瀏覽頁(yè)面的用戶(hù)能夠更好地閱讀頁(yè)面信息。

      4 結(jié) 論本文在現(xiàn)有網(wǎng)絡(luò)輿情研究的基礎(chǔ)上,依據(jù)系統(tǒng)性、科學(xué)性、可靠性及可操作性原則,對(duì)如何采集監(jiān)測(cè)網(wǎng)絡(luò)輿情信息進(jìn)行深入剖析,這有助于了解網(wǎng)絡(luò)輿情發(fā)展規(guī)律,并據(jù)此設(shè)計(jì)了網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),當(dāng)然,該系統(tǒng)的功能還需進(jìn)一步完善以便推廣使用。

      參考文獻(xiàn)

      [1]董亞倩,鄧尚民.基于社會(huì)網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情主體挖掘研究[J].情報(bào)資料工作,2011,(6):45-49.

      [2]石彭輝.基于社會(huì)網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情實(shí)證研究[J].現(xiàn)代情報(bào),2013,33(2):27-31.

      [3]Xiao Qiang.The Rising Tide of Internet[R].International Journalism Nieman Reports,2004:103-104.

      [4]Guo Liang.The Internet is Changing China[EB/OL].http:∥china.usc.edu/app-images/guoliang.Pdf.

      [5]戴媛,姚飛.基于網(wǎng)絡(luò)輿情安全的信息挖掘及評(píng)估指標(biāo)體系研究[J].情報(bào)理論與實(shí)踐,2008,31(6):873-876.

      [6]陳新杰,呼雨,蘭月新.網(wǎng)絡(luò)輿情監(jiān)測(cè)指標(biāo)體系構(gòu)建研究[J].現(xiàn)代情報(bào),2012,32(5):4-7.

      [7]Suo Shuguang,Chen Yu.The Dynamics of Public Opinion in Complex Networks[J].Journal of Artificial Societies and Social Simulation,2008,11(4):2.

      (本文責(zé)任編輯:王 涓)

      静安区| 玉树县| 潢川县| 云南省| 镇安县| 紫云| 隆尧县| 新余市| 灵武市| 鄂温| 乌拉特中旗| 高要市| 田林县| 康定县| 宜宾县| 凤凰县| 舞阳县| 德庆县| 柳林县| 如东县| 乡宁县| 商都县| 霍州市| 锡林郭勒盟| 敦化市| 英超| 肇东市| 溆浦县| 柳州市| 宝应县| 鸡东县| 和田县| 万宁市| 林州市| 浙江省| 旅游| 保靖县| 仁寿县| 长治县| 潜江市| 陵水|