吳建軍
(浙江財經(jīng)學(xué)院現(xiàn)代教育技術(shù)中心,杭州310018)
隨著國民素質(zhì)的不斷提高,網(wǎng)民的社會責(zé)任感和政治參與熱情也日漸增強(qiáng),他們往往對社會事件有著較高的敏感性和參與度,因而把握網(wǎng)絡(luò)輿情對于控制社會情緒、正確引導(dǎo)社會中堅力量有著極其重要的意義?,F(xiàn)有的輿情監(jiān)測技術(shù)大都存在監(jiān)測盲點較多、準(zhǔn)確率不高等問題,而隨著云計算技術(shù)的發(fā)展,對較大網(wǎng)絡(luò)范圍內(nèi)的大數(shù)據(jù)量進(jìn)行獲取和分析成為可能。通過對傳統(tǒng)輿情監(jiān)測技術(shù)的問題剖析,結(jié)合目前較為成熟的云計算技術(shù)架構(gòu),本文提出了網(wǎng)絡(luò)輿情的云計算監(jiān)測模式,并分析和給出了一種具體實現(xiàn)。該模式的核心是近兩年興起的大數(shù)據(jù)獲取、存儲及分析技術(shù),將大數(shù)據(jù)技術(shù)用于輿情監(jiān)測目前仍然是一個較新的應(yīng)用研究領(lǐng)域。
輿情監(jiān)測是對網(wǎng)絡(luò)熱點輿論在一定時間內(nèi)發(fā)生的頻率及趨勢的監(jiān)測和分析。隨著網(wǎng)絡(luò)和信息技術(shù)發(fā)展,網(wǎng)絡(luò)輿情在監(jiān)測方式方法、分析數(shù)據(jù)量等方面已經(jīng)發(fā)生很大變化。
輿情監(jiān)測的要點是信息的采集和分析,按信息來源和采集方式的不同,網(wǎng)絡(luò)輿情主要有下列主要監(jiān)測方法。
(1)網(wǎng)頁抓取和分析[1]
這是目前網(wǎng)絡(luò)輿情最主流的監(jiān)測方法,該方法通常采用網(wǎng)絡(luò)爬蟲類軟件對互聯(lián)網(wǎng)信息進(jìn)行抓取、清洗和歸并,并給出綜合分析結(jié)果。信息源通常為論壇、博客、微博、貼吧等交友、互動類網(wǎng)站。對于信息源范圍,也就是爬蟲檢索和抓取對象的確定,一種方式是通過搜索引擎得出[2],另一種是人工搜集的網(wǎng)站,兩種方式各有優(yōu)劣。
(2)日志分析
在大型網(wǎng)絡(luò)和電信運(yùn)營商的出口部位截取網(wǎng)絡(luò)設(shè)備日志并加以分析,這是另一種常見的網(wǎng)絡(luò)輿情分析方法。由于網(wǎng)絡(luò)日志相當(dāng)龐大,并且記錄了流經(jīng)網(wǎng)絡(luò)出口的所有信息,信息內(nèi)容雜亂,需要采用高性能、大容量設(shè)備和系統(tǒng)進(jìn)行層層過濾和分析,才能獲得和輿情相關(guān)的價值信息,因此時間和軟硬件成本都較高,目前采用并不廣泛。該方式最大的優(yōu)點是對某段網(wǎng)絡(luò)內(nèi)產(chǎn)生的輿情信息能完全截獲。
(3)特殊客戶端及人工監(jiān)測
將具備監(jiān)測甚至控制功能的客戶端安裝在特定人群或場合內(nèi)的上網(wǎng)計算機(jī)上,以達(dá)到對該類人群進(jìn)行輿情監(jiān)測甚至控制的目的。該方式監(jiān)測面較窄,并且客戶端的安裝本身已經(jīng)在心理上對上網(wǎng)者產(chǎn)生約束,不能體現(xiàn)上網(wǎng)者的真實心理情緒,因此管理和控制的色彩更濃,只在特殊情況下使用,類似的如2008年國家教育部面向青少年推廣的“綠壩-花季護(hù)航”軟件。傳統(tǒng)的人工監(jiān)測具有靈活、快速等優(yōu)點,但面對浩如煙海的互聯(lián)網(wǎng),目前只作為輿情監(jiān)測手段的補(bǔ)充在特殊情況下采用。
通過對網(wǎng)絡(luò)輿情主要監(jiān)測方法的分析可以看到,相關(guān)網(wǎng)站日志分析和網(wǎng)頁抓取等互聯(lián)網(wǎng)手段的監(jiān)測方法實施較為簡便,但普遍存在信息來源不精確問題,無論是通過人工還是搜索引擎,都無法確定輿情的準(zhǔn)確來源,在這種情況下,輿情的漏報和誤報就幾率較高,得出的監(jiān)測結(jié)果事實上并不能完全表現(xiàn)輿情發(fā)展趨勢,有時輿情可能會在監(jiān)測系統(tǒng)所不熟知的網(wǎng)站中傳播;在現(xiàn)有技術(shù)條件下,只能在大型網(wǎng)絡(luò)和電信運(yùn)營商的出口部位截取網(wǎng)絡(luò)設(shè)備日志并加以監(jiān)測才能較為準(zhǔn)確地反應(yīng)輿情信息,但是軟硬件投資代價又太高,而且監(jiān)測數(shù)據(jù)量的增長速率遠(yuǎn)遠(yuǎn)超出現(xiàn)有硬件處理能力的增長。
針對現(xiàn)有網(wǎng)絡(luò)輿情監(jiān)測模式的不足,業(yè)界迫切需要一種既能較準(zhǔn)確監(jiān)測輿情,又具有大數(shù)據(jù)處理能力、較大樣本集合,具備一定普遍性,同時又有一定可操作性的輿情監(jiān)測方案,在此思路指導(dǎo)下,本文提出一種新的網(wǎng)絡(luò)輿情的云計算監(jiān)測模式。輿情云計算并非是一個新名詞,但以往提出的這個概念通常是指在輿情的分析階段基于大數(shù)據(jù)技術(shù),采集和存儲階段使用傳統(tǒng)方式,并且深入進(jìn)行理論和實踐研究的學(xué)者也很少,而采集反而是輿情監(jiān)測是否準(zhǔn)確的重要環(huán)節(jié)。本文提出的模式將在輿情數(shù)據(jù)的采集、存儲和分析各個環(huán)節(jié)采用成熟的云計算技術(shù),是一套較為完整和具有新思路的輿情監(jiān)測解決方案。
網(wǎng)絡(luò)輿情的監(jiān)測對象是全體網(wǎng)民,對應(yīng)的網(wǎng)絡(luò)概念是廣域網(wǎng)(Wide Aera Network,WAN)。廣域網(wǎng)由眾多局域網(wǎng)(Local Aera Network,LAN)組成,橫向來看有多種主要的局域網(wǎng),例如各大型企業(yè)局域網(wǎng)、各科研機(jī)構(gòu)局域網(wǎng)、各級政府政務(wù)網(wǎng)、各學(xué)校校園網(wǎng)及各城區(qū)電信城域網(wǎng)等;而從縱向來看,很多局域網(wǎng)在自身體系內(nèi)擁有相近的技術(shù)架構(gòu)及行政管理機(jī)構(gòu),例如各級政府政務(wù)網(wǎng)、各學(xué)校校園網(wǎng)及各城區(qū)電信城域網(wǎng)。各局域網(wǎng)橫向縱向結(jié)合,構(gòu)成了廣域網(wǎng),云計算監(jiān)測模式因此將重點放在各局域網(wǎng)的輿情監(jiān)測和監(jiān)測結(jié)果的整合,只要解決了這個關(guān)鍵問題,推廣到全部局域網(wǎng)只是系統(tǒng)堆疊和行政管理機(jī)制的問題,這里將拋開行政管理許可問題而重點討論其技術(shù)實現(xiàn)。
圖1 廣域網(wǎng)中包含的主要局域網(wǎng)類型Fig.1 The main types of LAN included in wide area network
網(wǎng)絡(luò)輿情云計算監(jiān)測模式是在出口日志監(jiān)測方式基礎(chǔ)上的架構(gòu)擴(kuò)展。本文在架構(gòu)上設(shè)計了對多個局域網(wǎng)網(wǎng)絡(luò)出口數(shù)據(jù)的監(jiān)測,這個設(shè)計較好地解決了監(jiān)測網(wǎng)絡(luò)單一、樣本集合較小的問題,可以對某省甚至更大區(qū)域內(nèi)的局域網(wǎng)進(jìn)行數(shù)據(jù)的集中監(jiān)測分析。為實現(xiàn)良好的擴(kuò)展性、可用性,對整個架構(gòu)模式提出了更高的要求,即要求日志數(shù)據(jù)分布式獲取、海量存儲及分布式計算分析,因此在監(jiān)測中心引入了云計算平臺架構(gòu)設(shè)計。
輿情云計算監(jiān)測模式的基本架構(gòu)如圖2所示。
圖2 輿情云計算監(jiān)測模式架構(gòu)示意圖Fig.2 The architecture of network public opinion monitoring based on cloud computing
監(jiān)測所采用的信息來源是各局域網(wǎng)出口網(wǎng)絡(luò)日志。輿情監(jiān)測是政府主導(dǎo)的穩(wěn)定企事業(yè)單位、穩(wěn)定社會的行為,縱向看很多相同管理體系內(nèi)的局域網(wǎng)所屬相同行政管理部門,因此通過行政管理途徑集中、統(tǒng)一獲得區(qū)域內(nèi)多局域網(wǎng)日志信息來監(jiān)測網(wǎng)路輿情在信息來源上是可行的。
按照中華人民共和國公安部2005年頒布的《互聯(lián)網(wǎng)安全保護(hù)技術(shù)措施規(guī)定(公安部令第82號)》,規(guī)模局域網(wǎng)必須提供網(wǎng)絡(luò)日志記錄功能。經(jīng)過近幾年的發(fā)展建設(shè),具備一定規(guī)模的局域網(wǎng)網(wǎng)絡(luò)出口都已經(jīng)配備了網(wǎng)絡(luò)日志記錄和上網(wǎng)行為審計設(shè)備。網(wǎng)絡(luò)日志為文本流格式并遵循一定的國際標(biāo)準(zhǔn),是輿情監(jiān)測相較為可靠的信息源[3]。上網(wǎng)行為審計系統(tǒng)近年來也發(fā)展較快,該設(shè)備能提供更多、更靈活的日志及內(nèi)容審計信息,包括記錄web訪問、郵件、聊天等多種協(xié)議和行為,并可以根據(jù)需要調(diào)節(jié)審計粒度,但由于其審計內(nèi)容較豐富,目前各廠家大多采用自定義格式保存日志,而另一方面國家公安等有關(guān)部門正在對行為審計設(shè)備制定相關(guān)標(biāo)準(zhǔn),相信更豐富的審計日志在將來也會形成相對統(tǒng)一的數(shù)據(jù)格式,成為輿情監(jiān)控更豐富的信息源。
局域網(wǎng)出口日志,在1 Gb/s出口鏈路,記錄常規(guī)日志情況下,按經(jīng)驗值每天產(chǎn)生日志量約為5 GB,對于數(shù)萬人中等規(guī)模局域網(wǎng)每日日志量約為10 GB,該數(shù)值在出口帶寬充裕的大型網(wǎng)絡(luò)中可能會達(dá)到上百GB。為穩(wěn)定、可靠地采集、傳輸海量日志,我們引入分布式、高可用的海量日志收集系統(tǒng)Flume。Flume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗、加密等處理,寫入到定制的數(shù)據(jù)接收端。在局域網(wǎng)出口日志記錄設(shè)備上進(jìn)行配置,讓日志數(shù)據(jù)流轉(zhuǎn)存到網(wǎng)內(nèi)服務(wù)器上,同時在服務(wù)器上安裝Flume的Agent代理客戶端,即可以將數(shù)據(jù)流分別傳送到Flume日志收集器,實現(xiàn)分布式的數(shù)據(jù)收集。
處理幾十GB數(shù)據(jù),對于單臺大中型服務(wù)器來說,效率已顯不足,而當(dāng)我們需要同時處理一個地區(qū)幾十個甚至更多局域網(wǎng)的日志數(shù)據(jù)時,面對每天上百GB的數(shù)據(jù)規(guī)模,單臺設(shè)備在存儲和計算能力上已經(jīng)完全失去擴(kuò)展能力。針對海量數(shù)據(jù)存儲和處理,我們引入Apache Hadoop即HDFS(Hadoop Distributed Filesystem)分布式存儲及MapReduce分布式計算模型[4]。
完整的輿情云計算監(jiān)測架構(gòu)如圖3所示。
圖3 基于Hadoop、Flume的輿情云計算監(jiān)測架構(gòu)Fig.3 The architecture of network public opinion monitoring based on Hadoop and Flume
模式采用業(yè)界主流開源Hadoop云計算架構(gòu),Flume也是Hadoop生態(tài)圖譜中非結(jié)構(gòu)化數(shù)據(jù)收集的典型系統(tǒng)(Flume的最新分支版本在架構(gòu)上有所改變,但尚未穩(wěn)定推廣)[5]。整個日志數(shù)據(jù)處理過程可以描述如下。
受監(jiān)測局域網(wǎng)出口處需配備行為審計等日志記錄設(shè)備,并將日志數(shù)據(jù)引出到網(wǎng)內(nèi)服務(wù)器上,該服務(wù)器預(yù)裝Flume的代理(Agent),這些代理由輿情監(jiān)測中心的Flume主控制器(Master)進(jìn)行管理和配置,代理每5 s與Master進(jìn)行通信一次交換管理信息。Flume代理將日志數(shù)據(jù)進(jìn)行格式轉(zhuǎn)化、壓縮、加密等預(yù)處理后,通過教科網(wǎng)、因特網(wǎng)等線路傳輸?shù)酵瑯邮躆aster管理的日志收集器(Collector)集群內(nèi),收集器根據(jù)接收監(jiān)測目標(biāo)數(shù)據(jù)量情況可以設(shè)置多個,以保證數(shù)據(jù)處理速度。最終所有日志由收集器集群并行寫入HDFS分布式文件系統(tǒng),寫入時可以設(shè)置按照數(shù)據(jù)大小、行數(shù)或者間隔時間自動分割為多個文件。
HDFS分布式文件系統(tǒng)對于日志數(shù)據(jù)這樣一次寫入不必更改的大文件是理想的存儲架構(gòu),HDFS主要由NameNode和DataNode組成。NameNode是HDFS的管理者,提供數(shù)據(jù)存取的查詢、寫入和刪除等管理操作,DataNode是數(shù)據(jù)服務(wù)器集群,所有數(shù)據(jù)默認(rèn)被切分成 64 MB,并復(fù)制 3份分布存放在DataNode中。系統(tǒng)數(shù)據(jù)因此具有網(wǎng)絡(luò)冗余功能,集群數(shù)據(jù)節(jié)點越多,節(jié)點同時損壞的幾率越低,數(shù)據(jù)安全性則越高。分布式存儲容量可以通過簡單增加DataNode數(shù)據(jù)節(jié)點幾乎無限制擴(kuò)展。
MapReduce是基于HDFS的分布式計算架構(gòu)。他根據(jù)數(shù)據(jù)存放地就近進(jìn)行計算作業(yè),是典型的把計算帶給數(shù)據(jù)的云計算架構(gòu)。日志數(shù)據(jù)分布在DataNode中,Hadoop會在包含指定日志文件數(shù)據(jù)塊的多個數(shù)據(jù)節(jié)點中啟動MapReduce計算,因為每個文件有3個副本,文件塊分散度又大,因此能最大限度減少數(shù)據(jù)復(fù)制傳輸量。每個DateNode節(jié)點在MapReduce階段可以變成計算節(jié)點,在自行編制的輿情分析算法導(dǎo)引下,經(jīng)過Map、Shuffle and Sort及Reduce 3個步驟后形成演算結(jié)果保存在HDFS中。
監(jiān)測中心編寫的輿情監(jiān)測分析程序可根據(jù)監(jiān)測周期要求由Hadoop定期加載和運(yùn)算,例如在每天夜間HDFS文件系統(tǒng)相對空閑時開始對過去一天收集到的日志數(shù)據(jù)進(jìn)行統(tǒng)計分析,運(yùn)算時間視分析的數(shù)據(jù)量和分析所包含的程序及代碼數(shù)量而定,通常在數(shù)十分鐘到數(shù)小時之間。
輿情監(jiān)測的信息源是局域網(wǎng)日志數(shù)據(jù),與之相關(guān)的法律法規(guī)主要有《互聯(lián)網(wǎng)安全保護(hù)技術(shù)措施規(guī)定(公安部令第82號)》、《計算機(jī)信息網(wǎng)絡(luò)國際聯(lián)網(wǎng)安全保護(hù)管理辦法(公安部令第33號)》等,這幾個法規(guī)主要從網(wǎng)絡(luò)安全角度規(guī)范了網(wǎng)絡(luò)建設(shè)、維護(hù)方記錄上網(wǎng)信息的責(zé)任和義務(wù),但并未在網(wǎng)絡(luò)日志等信息的使用管理上做更細(xì)致的規(guī)定;從網(wǎng)絡(luò)隱私權(quán)角度來看,我國的立法也相對欠缺,在實際運(yùn)用當(dāng)中則把網(wǎng)絡(luò)隱私權(quán)部分作為隱私權(quán)并劃歸為名譽(yù)權(quán)進(jìn)行保護(hù),部分則歸入一般財產(chǎn)侵權(quán)案件進(jìn)行保護(hù)[6]。綜合來看,在日志數(shù)據(jù)上進(jìn)行商業(yè)和非商業(yè)統(tǒng)計分析尚沒有相關(guān)法律的約束,前提是不利用數(shù)據(jù)泄露和追溯個人敏感信息,否則會陷于民事糾紛當(dāng)中。但商業(yè)性質(zhì)的統(tǒng)計分析從一定角度上來說無法保障數(shù)據(jù)的安全,因此網(wǎng)絡(luò)輿情分析應(yīng)該由非商業(yè)團(tuán)體即政府相關(guān)部門或研究機(jī)構(gòu)開展,其數(shù)據(jù)源的獲取和分析才能得到政策和數(shù)據(jù)上的安全保障。
一方面基于法律問題,另一方面也為降低數(shù)據(jù)傳輸量,對于日志數(shù)據(jù)不論在傳輸環(huán)節(jié)和處理環(huán)節(jié)都需要進(jìn)行一定的技術(shù)過濾。我們建議在海量日志收集系統(tǒng)Flume的Agent在傳輸前就應(yīng)該對數(shù)據(jù)進(jìn)行初步的清洗和過濾,例如過濾明文登錄、網(wǎng)上銀行以及支付系統(tǒng)等訪問信息,甚至郵件信息,過濾程度取決于各局域網(wǎng)管理者與輿情監(jiān)測中心的合作和信任程度,畢竟很多個人信息對于輿情監(jiān)測的統(tǒng)計分析還是具有一定價值的。
不同局域網(wǎng)所采用的日志記錄設(shè)備不盡相同,并且不同審計深度其數(shù)據(jù)格式也不盡相同,雖然遵循一定的標(biāo)準(zhǔn),但在日志格式細(xì)節(jié)上仍然會有差異,Flume Agent在傳輸前也可以進(jìn)行一些格式的清洗和轉(zhuǎn)換,以盡量消除格式差異的困擾,并在傳輸時對數(shù)據(jù)進(jìn)行壓縮和加密。
輿情監(jiān)測中心應(yīng)在政府相關(guān)部門或所屬研究機(jī)構(gòu)主導(dǎo)下進(jìn)行建設(shè)。政府應(yīng)與各局域網(wǎng)所屬人達(dá)成較深層次的合作并聽取和參考局域網(wǎng)信息化相關(guān)部門意見和建議,形成嚴(yán)格的數(shù)據(jù)獲取、傳輸及處理等環(huán)節(jié)的規(guī)章制度和流程。數(shù)據(jù)的收集和傳輸應(yīng)以盡量減少對局域網(wǎng)影響為原則,并充分考慮各網(wǎng)絡(luò)信息化建設(shè)的實際情況,例如在東部較發(fā)達(dá)地區(qū),大多數(shù)多出口鏈路企事業(yè)單位租用電信運(yùn)營商出口鏈路作為網(wǎng)絡(luò)主出口,而其他鏈路相對較為空閑,這時可以選擇空閑鏈路傳輸數(shù)據(jù)。
監(jiān)測中心的Hadoop集群應(yīng)根據(jù)輿情監(jiān)測的要求建設(shè)。典型地,當(dāng)接入20個局域網(wǎng)時,我們預(yù)計日數(shù)據(jù)量約為200 GB,年數(shù)據(jù)量約為75 TB,按冗余3個副本計算,共需磁盤空間225 TB,按兩年建設(shè)容量配置為450TB。單臺數(shù)據(jù)節(jié)點服務(wù)器按照Hadoop推薦配置比值:1磁盤+2CPU內(nèi)核+6~8 GB內(nèi)存來配比,則可以測算出每服務(wù)器建議配置為:8×2 TB硬盤+2顆8核CPU+64 GB內(nèi)存,根據(jù)目標(biāo)容量該2U機(jī)架式服務(wù)器共需28臺。具體配置可根據(jù)服務(wù)器參數(shù)、性價比和需要的總?cè)萘窟M(jìn)行調(diào)整,數(shù)量則需根據(jù)計算復(fù)雜度和分析時間要求進(jìn)行調(diào)整,如果一段時間后如系統(tǒng)容量不足,或希望提高計算效率,只需向集群添加服務(wù)器即可。輿情監(jiān)測中心服務(wù)器及配置可按表1進(jìn)行初步測算。
表1 監(jiān)測中心服務(wù)器配置測算表Table 1 Server of the monitoring center configuration schedule
輿情監(jiān)測固然是滯后于已經(jīng)發(fā)生的輿論的,但仍具有一定的實時性,這取決于監(jiān)測分析的間隔和效率。不同間隔的輿情報告其著重點是不同的,例如人民網(wǎng)輿情監(jiān)測室按年發(fā)布《中國互聯(lián)網(wǎng)輿情分析報告》,報告以年為單位分析中長期輿情的產(chǎn)生、發(fā)展和處理及平息的趨勢,意在總結(jié)整個輿情周期的發(fā)展規(guī)律和處理經(jīng)驗,對于以月、周甚至日為周期的分析,重點在于觀測短期輿情的爆發(fā)情況和趨勢,以應(yīng)對和預(yù)防為主。在我們的云計算監(jiān)測模式中,利用云計算和云存儲平臺將日志數(shù)據(jù)作為寶貴的資源不斷積累,既可以做按天為單位的短期應(yīng)對和預(yù)測研究,也可以做長周期的經(jīng)驗總結(jié)研究。
由于數(shù)據(jù)量較大,同時為保持一定的實時性,輿情監(jiān)測通常會按日計算??紤]在每天流量較小的午夜12點至早晨6點之間對前一日的累積數(shù)據(jù)做演算,根據(jù)不同監(jiān)測指標(biāo)和要求,基于同一批數(shù)據(jù)可能需要進(jìn)行多次演算,典型的算法有每日網(wǎng)站按訪問量排序,涉及詞匯(話題)排序,搜索引擎關(guān)鍵字排序,用戶活動頻繁度按時間變化曲線等,每個算法耗時因程序效率、Hadoop集群大小等因素而有顯著不同[7]。
為了對監(jiān)測中心集群建設(shè)規(guī)模、監(jiān)測報告出具的時間等方面的初步測算及規(guī)律提供參考,在實驗室中進(jìn)行了初步的模擬計算。實驗環(huán)境如下:單機(jī)配置為1個Intel雙核CPU,2 GB內(nèi)存,1 TB SATA硬盤,系統(tǒng)環(huán)境為CentOS 6,Hadoop 0.20.2,Java 1.6.0。實驗1以500 MB日志數(shù)據(jù)為分析對象,計算前100個訪問量最大的網(wǎng)站并排序,考察集群在不同節(jié)點數(shù)量下的演算效率變化情況,實驗結(jié)果如圖4所示。
圖4 Hadoop集群日志分析效率隨節(jié)點數(shù)量變化情況Fig.4 Log analysis efficiency varies with the number of nodes in Hadoop cluster
由該實驗可以觀察到Hadoop集群的日志分析效率并非簡單隨節(jié)點增加而線性增加,當(dāng)集群計算量足夠大時,繼續(xù)增加節(jié)點數(shù)量已基本不能對集群效率產(chǎn)生較大影響,這時數(shù)據(jù)從磁盤存取的時間成為集群分析時間的重要組成部分,無論如何增加節(jié)點數(shù)量也無法超越和降低該基本時間。
實驗2以不同大小的日志數(shù)據(jù)為分析對象,計算前100個訪問量最大的網(wǎng)站并排序,考察集群在不同分析數(shù)據(jù)量情況下的演算效率變化情況,實驗結(jié)果如圖5所示。
圖5 Hadoop集群日志分析效率隨數(shù)據(jù)量變化情況Fig.5 Log analysis efficiency varies with the amount of data in Hadoop cluster
由實驗2可以觀察到,集群效率隨著處理數(shù)據(jù)量增長其效率增長可能會降低,但節(jié)點數(shù)量越大,其效率下降相對平緩。這個實驗給我們的啟示是Hadoop集群處理效率與節(jié)點數(shù)量、處理數(shù)據(jù)量及單機(jī)配置都有關(guān)聯(lián),而且隨著節(jié)點數(shù)量增大其增加的處理效能并不一定能被充分利用,但是Hadoop集群對未來可能無限增大的數(shù)據(jù)提供了處理的可行性[8]。
選取本校校園網(wǎng)絡(luò)日志數(shù)據(jù)進(jìn)行了應(yīng)用實踐。學(xué)校教學(xué)區(qū)校園網(wǎng)擁有電信、移動、聯(lián)通及教科網(wǎng)4個出口,總出口帶寬1.5 GB,校園網(wǎng)全體師生用戶約1.5萬個。在實驗室條件下,獲取了1個月的校園網(wǎng)日志文件約500 GB,編制了關(guān)鍵字(話題)每日排名、用戶訪問最多網(wǎng)站每日排名、用戶每日活躍趨勢等若干與網(wǎng)絡(luò)輿情相關(guān)的統(tǒng)計分析程序。通過分析,可以清晰地觀察到關(guān)鍵字(話題)每天的活躍度發(fā)展趨勢,如果有較大量的歷史數(shù)據(jù)積累,應(yīng)該可以判斷話題活躍到何種程度是為輿情發(fā)展的何種階段,當(dāng)然為避免片面性,需要多個局域網(wǎng)在較長的歷史時間內(nèi)的數(shù)據(jù)積累,樣本數(shù)據(jù)越豐富,輿情監(jiān)測越全面和準(zhǔn)確。除此之外,還能觀察到一些有意思的現(xiàn)象,例如教師用戶在近中午時段較為活躍,而學(xué)生用戶通常在下午2~3點到達(dá)活躍高峰,這些數(shù)據(jù)對于分析引導(dǎo)用戶行為有很好的參考價值。
整合行政區(qū)域各局域網(wǎng)開展輿情研究,可以建立各省市輿情監(jiān)測中心,如果將各中心數(shù)據(jù)進(jìn)行貫通,則完全可以形成全國輿情監(jiān)測系統(tǒng),這種監(jiān)測模式對象清晰,監(jiān)測較為全面,且利用最新的云計算平臺處理海量數(shù)據(jù),較好地解決了現(xiàn)有網(wǎng)絡(luò)輿情分析模式的諸多缺陷,是目前相對完整和徹底的網(wǎng)絡(luò)輿情監(jiān)測解決方案,值得深入研究和探討。
另一方面,當(dāng)數(shù)據(jù)積累到一定程度時,數(shù)據(jù)價值已遠(yuǎn)遠(yuǎn)不局限于輿情監(jiān)測研究了??梢陨钊腴_展不同行業(yè)網(wǎng)絡(luò)活動的分析研究,這對于了解、掌握當(dāng)代網(wǎng)民從生活、學(xué)習(xí)習(xí)慣到思維、心理及世界觀,以及這些情況與所在企事業(yè)單位及行業(yè)的規(guī)模、信息化程度等的關(guān)系,都具有很好的參考價值,同時對把握各行業(yè)的發(fā)展和趨勢也具有較大的現(xiàn)實意義。
[1]郝文江,武捷.互聯(lián)網(wǎng)輿情監(jiān)管與應(yīng)對技術(shù)探究[J].信息網(wǎng)絡(luò)安全,2012(3):1-4.HAO Wen-jiang,WU Jie.Internet Public Opinion Supervision and Relevant Technical Research[J].Netinfo Security,2012(3):1-4.(in Chinese)
[2]葉昭暉,曾瓊,李強(qiáng).基于搜索引擎的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)設(shè)計與實現(xiàn)[J].廣西大學(xué)學(xué)報(自然科學(xué)版),2011,36(10):303-307.YE Zhao-hui,ZENG Qiong,LI Qiang.Design and implementation of network monitoring and analyzing system of public opinion based on search engine[J].Journal ofGuangxi U-niversity(Natural Science Edition),2011,36(10):303-307.(in Chinese)
[3]張兵.一種網(wǎng)絡(luò)日志挖掘的高效算法[J].廣西師范大學(xué)學(xué)報(自然科學(xué)版),2006,24(1):26-29.ZHANG Bing.An Efficient Algorithm with Incremental Data Mining for Web Usage Mining[J].Journal of GuangxiNormal University(Natural Science Edition),2006,24(1):26-29.(in Chinese)
[4]李建江,崔健,王聃,等.MapReduce并行編程模型研究綜述[J].電子學(xué)報,2011,39(11):2635-2641.LI Jian-jiang,CUI Jian,WANG Dan,et al.Survey of MapReduce Parallel Programming Model[J].Acta Electronica Sinica,2011,39(11):2635-2641.(in Chinese)
[5]Cloudera,Inc.Flume User Guide[EB/OL].2012-08.http://archive.cloudera.com/cdh/3/flume/UserGuide/.
[6]劉琳.論網(wǎng)絡(luò)隱私權(quán)保護(hù)及其完善[J].四川教育學(xué)院學(xué)報,2012,28(7):48-49.LIU Lin.On Internet Privacy Protection and Its Perfection[J].Journal of Sichuan College of Education,2012,28(7):48-49.(in Chinese)
[7]朱薔薔,張桂蕓,劉文龍.基于MapReduce框架一種文本挖掘算法的設(shè)計與實現(xiàn)[J].鄭州大學(xué)學(xué)報(工學(xué)版),2012,33(5):110-113.ZHU Qiang-qiang,ZHANG Gui-yun,LIU Wen-long.The Design and Implemention of a Text Mining Algorithm Based onMapReduce Framework[J].Journal of Zhengzhou University(Engineering Science),2012,33(5):110-113.(in Chinese)
[8]李彬,劉莉莉.基于MapReduce的Web日志挖掘[J].計算機(jī)工程與應(yīng)用,2012,48(22):95-98.LI Bin,LIU Li-li.Weblog mining based onMapReduce[J].Computer Engineering andApplications,2012,48(22):95-98.(in Chinese)