• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    網(wǎng)絡(luò)輿情系統(tǒng)的分析與設(shè)計

    2014-04-29 00:00:00喻思遠等
    計算機光盤軟件與應(yīng)用 2014年5期

    摘 要:隨著網(wǎng)絡(luò)的廣泛使用,網(wǎng)絡(luò)媒體已被認(rèn)為是繼報紙、廣播、電視三大新聞媒介之后的“第四媒體”,它有許多傳統(tǒng)媒體無法比擬的優(yōu)點,如它有表達快捷、信息多元、方式互動等特點。網(wǎng)絡(luò)已經(jīng)成為了折射社會輿論導(dǎo)向的主要載體之一,它在輿論信息的傳播中扮演著十分重要的角色。在網(wǎng)絡(luò)環(huán)境下,輿情的主要來源有:QQ空間、新浪微博、論壇、博客等。這幾種典型媒介都有著各自的特點,據(jù)統(tǒng)計QQ空間是所有網(wǎng)絡(luò)信息中,網(wǎng)民關(guān)注度最高,信息量最大的;以新浪微博為代表的微博類社交媒體是繼Email、BBS、ICQ、Blog之后出現(xiàn)的第五種網(wǎng)絡(luò)交流形式,是網(wǎng)絡(luò)化信息化時代的“信息寶藏”,里面的信息量是巨大的。為了能夠及時發(fā)現(xiàn)網(wǎng)絡(luò)輿情,本文我提出了一種設(shè)計網(wǎng)絡(luò)輿情系統(tǒng)的架構(gòu),并對其進行了深入分析。

    關(guān)鍵詞:網(wǎng)絡(luò)輿情;系統(tǒng)架構(gòu);功能模塊

    中圖分類號:TP391.1

    1 項目背景

    網(wǎng)絡(luò)輿情可以看做是認(rèn)識、態(tài)度、情感、政治與行為傾向的集合,它是由敏感事件的刺激而產(chǎn)生并經(jīng)由互聯(lián)網(wǎng)廣泛傳播的。世界上沒有完美的事物,所以網(wǎng)絡(luò)也是這樣,網(wǎng)絡(luò)輿論是一把“雙刃劍”,它提供了一個開放平臺來表達普通民眾的觀點。同時,也構(gòu)成了對我國政治和文化的嚴(yán)重威脅,具體體現(xiàn)在:第一,傳統(tǒng)的政治斗爭,通過網(wǎng)絡(luò)可以更高效的實現(xiàn),利用網(wǎng)絡(luò)散播謠言比現(xiàn)實更容易。第二,西方國家利用網(wǎng)絡(luò)對我國進行“西化”,網(wǎng)絡(luò)輿論處于越來越激烈的戰(zhàn)斗位置。

    高速發(fā)展的互聯(lián)網(wǎng)已使網(wǎng)絡(luò)媒體成為一種新的信息傳播方式,對人們的日常生活產(chǎn)生了巨大的影響。網(wǎng)民經(jīng)由網(wǎng)絡(luò)表達看法、思想,繼而產(chǎn)生的輿論壓力,是任何部門與組織機構(gòu)都不敢忽視的。因此,為了能夠讓國家機關(guān)、企業(yè)、公眾人物等能夠及時的掌握最實時的輿論導(dǎo)向,掌握第一手資料,本文分析了如何設(shè)計網(wǎng)絡(luò)輿情分析系統(tǒng),提出了一種全新的設(shè)計架構(gòu),為輿情系統(tǒng)的設(shè)計提供了一種全新的解決方案。

    2 網(wǎng)絡(luò)輿情的介紹

    2.1 網(wǎng)絡(luò)輿情產(chǎn)生的要素

    通過對2010年1月-2014年3月,網(wǎng)民在各大社交平臺討論熱烈的事件進行分類匯總,得出了以下七大導(dǎo)致網(wǎng)絡(luò)輿情產(chǎn)生的因素:(1)重大刑事案件;(2)涉外突發(fā)公共事件;(3)恐怖襲擊事件;(4)經(jīng)濟安全事件;(5)較大規(guī)模群體性事件;(6)公共衛(wèi)生事件;(7)突發(fā)自然災(zāi)害。

    2.2 網(wǎng)絡(luò)輿情活躍的媒介

    根據(jù)中國新媒體經(jīng)濟(互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、廣電網(wǎng)、物聯(lián)網(wǎng)等)的商業(yè)信息服務(wù)平臺――易觀智庫發(fā)布的《2013年Q3中國移動互聯(lián)網(wǎng)SNS類APP活躍用戶排行榜》。

    圖1 各大社交平臺2013第三季度用戶活躍度

    可以看出QQ空間、新浪微博、百度貼吧等社交媒體的用戶活躍度都是非常之高的,就拿QQ空間來說,月度活躍用戶數(shù)達2.8億,以中國14億人口計算,占了將近20%的人口比例。

    根據(jù)2014年3月15日,新浪微博向SEC遞交的IPO文件, 新浪微博宣稱活躍用戶增長。截止2013年12月,新浪微博月度活躍用戶數(shù)達到1.291億,同比增長34%;日活躍用戶為6140萬,同比增長36%。2013年12月,用戶在新浪微博上發(fā)表的帖子超過28億。根據(jù)上述的一些數(shù)據(jù),可以見識這類社交平臺的威力,以及可以想象對輿論可能造成的影響會有多大。

    2.3 網(wǎng)絡(luò)輿情的特點

    以下介紹的是網(wǎng)絡(luò)輿情的一些特點:(1)直接性。通過微博,BBS,新聞點評,網(wǎng)民可以及時發(fā)表個人意見,下情直接上達,使得民意表達更為通暢;(2)突發(fā)性。網(wǎng)絡(luò)輿情的形成常常非常迅速,一個熱點事件加上一種情緒化的意見,就可能成為引起巨大輿論的導(dǎo)火索;(3)偏差性。在網(wǎng)絡(luò)中發(fā)言者的身份往往比較隱蔽,而且我國網(wǎng)絡(luò)仍缺少有效監(jiān)管措施,網(wǎng)絡(luò)就很可能成為網(wǎng)民發(fā)泄情緒的地方。一些網(wǎng)民在現(xiàn)實中經(jīng)受挫折,片面理解社會問題,利用網(wǎng)絡(luò)來發(fā)泄,因此在網(wǎng)絡(luò)上更容易產(chǎn)生不真實的評論。

    3 網(wǎng)絡(luò)輿情系統(tǒng)的設(shè)計

    3.1 架構(gòu)設(shè)計

    (1)系統(tǒng)架構(gòu)分析。第一層:操作系統(tǒng)層,采用Windows;第二層:分布式數(shù)據(jù)存儲層與數(shù)據(jù)處理層,我們采用的是Apache的Hadoop,Hbase以及Mysql;第三層:數(shù)據(jù)分析引擎與數(shù)據(jù)采集引擎層:首先,數(shù)據(jù)采集引擎通過web services從外部系統(tǒng)獲取數(shù)據(jù),將數(shù)據(jù)交付下一層的Hadoop與Hbase;隨后,數(shù)據(jù)分析引擎從第二層提出經(jīng)過分類的數(shù)據(jù),對其深加工;第四層:后臺WEB系統(tǒng)層,主要功能是:管理項目,管理任務(wù),提取分析報告等等;第五層:網(wǎng)站前臺顯示層:創(chuàng)建查看項目,創(chuàng)建查看任務(wù),查看分析報告等等;第六層:系統(tǒng)安全體系層:為整套系統(tǒng)安全提供有效保障。

    圖2 輿情網(wǎng)絡(luò)系統(tǒng)系統(tǒng)架構(gòu)

    3.2 系統(tǒng)架構(gòu)的測試

    (1)系統(tǒng)架構(gòu)測試。第一步:用戶創(chuàng)建項目,在項目中創(chuàng)建任務(wù),將任務(wù)內(nèi)容提交給下一層;第二步:后臺對上層提交的任務(wù)進行分類管理,對內(nèi)容傳遞給下一層的數(shù)據(jù)采集系統(tǒng);第三步:采集系統(tǒng)對任務(wù)進行分解,調(diào)用采集中間件,從外部系統(tǒng)中獲取關(guān)聯(lián)數(shù)據(jù),對元數(shù)據(jù)進行打包封裝,交付下一層的Hbase;第四步:分析系統(tǒng)充分利用Hadoop分布式框架集群的威力,進行高速運算,得出相關(guān)統(tǒng)計數(shù)據(jù),交付上一層;第五步:網(wǎng)站后臺從分析系統(tǒng)獲取統(tǒng)計數(shù)據(jù),生成有關(guān)報告,交付上一層;第六步:網(wǎng)站前臺獲取報告結(jié)論,將其顯示在前臺中;(2)以上就是整套系統(tǒng)的一個使用流程,對其進行初步測試,得出以下結(jié)論:1)多維度,多層次的設(shè)計將有效均衡負(fù)載;2)整個系統(tǒng)的設(shè)計層層遞進,從用戶發(fā)出請求,到向用戶顯示報告,其是一個環(huán)回的過程,可以有效地進行監(jiān)控;3)采集中間件的使用可以降低我們的采集系統(tǒng)的開發(fā)成本;4)功能強悍的Hadoop與Hbase是我們整套系統(tǒng)底層的核心支持,保證了我們系統(tǒng)的安全,高速,正確,同時也降低了開發(fā)成本。

    3.3 系統(tǒng)功能模塊的劃分

    (1)搭建Hahoop與Hbase分布式框架:主要實現(xiàn)分布式框架的設(shè)計,實現(xiàn)數(shù)據(jù)的高速存儲;(2)研發(fā)數(shù)據(jù)分析引擎:對采集的數(shù)據(jù)進行詞語分解,語義分析,進行分類匯總;(3)研發(fā)數(shù)據(jù)采集引擎:從指定的網(wǎng)絡(luò)平臺上自動采集數(shù)據(jù);(4)Web前臺與后臺:有好的用戶界面,對得出數(shù)據(jù)報告進行展示;(5)實現(xiàn)采集中間件與外部系統(tǒng)的對接:能夠數(shù)據(jù)采集任務(wù)托管給采集中間件,從而節(jié)約研發(fā)成本,實現(xiàn)數(shù)據(jù)的高效采集;(6)系統(tǒng)安全管理體系的搭建:為整套系統(tǒng)的安全提供保證,維護系統(tǒng)的正確性,穩(wěn)定性,抗壓性。

    4 未來展望與總結(jié)

    通過對系統(tǒng)的架構(gòu)進行分析與設(shè)計,對功能模塊進行劃分后,系統(tǒng)的雛形就基本上出來了。文章首先介紹了項目背景,接下來介紹了什么是網(wǎng)絡(luò)輿情,網(wǎng)絡(luò)輿情的產(chǎn)生要素以及網(wǎng)絡(luò)輿情的特點。隨后提出了一種網(wǎng)絡(luò)輿情系統(tǒng)設(shè)計的架構(gòu),并且對架構(gòu)進行了分析與測試,對系統(tǒng)功能模塊的劃分做了簡要介紹。

    雖然通過不斷的研究,使得輿情監(jiān)控技術(shù)日趨成熟,但是由于輿情監(jiān)控技術(shù)本身的局限性,特別是不能對其像對普通文本那樣處理。輿情信息和文本信息的主要區(qū)是,它的擴散性和不可控性,它是一種動態(tài)的信息。我們?nèi)匀幻媾R著兩項關(guān)鍵技術(shù)亟待解決:

    4.1 及時獲取動態(tài)信息的能力

    快速及時地獲取最新的信息,對于信息趨勢分析非常重要。對于輿情這種傳播性很強的信息來說,越快發(fā)現(xiàn)就越能更好地進行預(yù)警。這樣就對動態(tài)選擇性抓取網(wǎng)頁的技術(shù)提出了更高的要求。

    4.2 語義分析的能力

    漢語這種自然語言具有豐富性和復(fù)雜性的特點,也是制約各種文本分析技術(shù)進步的主要問題。很多自動分類、聚類方法對外文支持得很好,但對中文解析的效果卻不理想。本人在對網(wǎng)絡(luò)輿情的研究中,發(fā)現(xiàn)在熱點新聞或論壇的留言中,總會存在大量的帶有強烈感情色彩的句子,這也是漢語語言的特點。如果能完全解析將這些句子或詞語的語義,對于輿情趨勢分析和敏感事件的引導(dǎo)發(fā)揮著重要的作用。

    設(shè)想如果數(shù)據(jù)分析技術(shù)達到一個新的高度,那么未來將會誕生更多更實用的信息化應(yīng)用,如:智慧決策,搜索引擎++(在搜索引擎的基礎(chǔ)上附加數(shù)據(jù)分析功能)等。為此,我們需要更加努力地進行更深入的研究。

    參考文獻:

    [1]祝華新.2010年中國互聯(lián)網(wǎng)輿情分析報告[R].2010年社會藍皮書,2010.

    [2]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計算機應(yīng)用研究,2007(24):10.

    [3]熊允發(fā),吳紹忠.基于互聯(lián)網(wǎng)的公安情報收集技術(shù)研究[J].警察技術(shù),2007(06):14-16.

    [4]胡運發(fā).中國現(xiàn)代語法[M].北京:商務(wù)印書館,1985(01):131-132.

    [5]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J].中文信息學(xué)報,2007(01).

    [6]劉永丹,曾海泉,李榮陸.基于語義分析的傾向性文本過濾[J].通信學(xué)報,2004(07).

    [7]張志剛,陳靜,李曉明.一種 HTML 網(wǎng)頁凈化方法[J].情報學(xué),2004(04):4.

    [8]鄭軍.網(wǎng)絡(luò)輿情監(jiān)控的熱點發(fā)現(xiàn)算法研究[J].哈爾濱工程大學(xué),2006(12):9-12.

    [9]王煜,王正歐.基于模式聚合和決策樹的文本分類規(guī)則抽取[J].情報科學(xué),2006(01):96-99.

    [10]楊學(xué)名.Web中文文本聚類研究及實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2006(12):13-16.

    作者簡介:喻思遠(1994.02-),男,湖北赤壁人,本科,研究方向:網(wǎng)絡(luò)輿情研究與數(shù)據(jù)挖掘。

    作者單位:石河子大學(xué)信息科學(xué)與技術(shù)學(xué)院,新疆石河子 832000

    昭平县| 岗巴县| 乐至县| 牙克石市| 旺苍县| 墨竹工卡县| 台东县| 祁东县| 泰州市| 桑植县| 乌兰察布市| 观塘区| 延吉市| 彰化市| 惠来县| 绩溪县| 仁寿县| 榕江县| 甘德县| 吕梁市| 广德县| 新安县| 民权县| 武川县| 疏勒县| 阜新| 冕宁县| 高要市| 湘阴县| 瑞安市| 甘南县| 汾西县| 满洲里市| 喜德县| 汉寿县| 台江县| 瓦房店市| 长汀县| 崇左市| 莒南县| 安平县|