陳 濤,劉世洪
(農(nóng)業(yè)部農(nóng)業(yè)信息服務(wù)技術(shù)重點(diǎn)實(shí)驗(yàn)室中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
面向農(nóng)產(chǎn)品安全監(jiān)測(cè)的互聯(lián)網(wǎng)輿情分析系統(tǒng)研究與應(yīng)用
陳 濤,劉世洪*
(農(nóng)業(yè)部農(nóng)業(yè)信息服務(wù)技術(shù)重點(diǎn)實(shí)驗(yàn)室中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
圍繞農(nóng)產(chǎn)品安全輿情監(jiān)管要求,研發(fā)面向農(nóng)產(chǎn)品安全監(jiān)測(cè)的互聯(lián)網(wǎng)輿情分析系統(tǒng)。利用網(wǎng)絡(luò)爬蟲對(duì)互聯(lián)網(wǎng)農(nóng)產(chǎn)品安全相關(guān)信息進(jìn)行采集,利用中文分詞技術(shù)處理,設(shè)計(jì)適合農(nóng)產(chǎn)品安全的聚類和分類算法進(jìn)行分析,完成了農(nóng)產(chǎn)品安全輿情分析的實(shí)時(shí)采集、智能處理和分析、熱點(diǎn)話題發(fā)現(xiàn)、輿情分類、可視化展示和個(gè)性化定制功能。該系統(tǒng)實(shí)現(xiàn)了農(nóng)產(chǎn)品安全輿情信息的獲取、處理、分析和服務(wù),系統(tǒng)的使用增強(qiáng)了農(nóng)產(chǎn)品安全輿情監(jiān)管力度,并為相關(guān)決策部門提供了科學(xué)依據(jù)。
農(nóng)產(chǎn)品安全;互聯(lián)網(wǎng)輿情;輿情監(jiān)管;輿情分析;信息系統(tǒng)
文獻(xiàn)著錄格式:陳濤,劉世洪.面向農(nóng)產(chǎn)品安全監(jiān)測(cè)的互聯(lián)網(wǎng)輿情分析系統(tǒng)研究與應(yīng)用[J].浙江農(nóng)業(yè)科學(xué),2015,56(9):1464-1467.
DOI 10.16178/j.issn.0528-9017.20150941
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)民對(duì)網(wǎng)絡(luò)事件可隨時(shí)進(jìn)行評(píng)論,這就誕生了一個(gè)新詞,“網(wǎng)絡(luò)輿情”。網(wǎng)絡(luò)的便捷提供了網(wǎng)民言論自由的機(jī)會(huì),但同時(shí)帶來了網(wǎng)絡(luò)輿論監(jiān)管的挑戰(zhàn)。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心2015年1月發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》數(shù)據(jù)顯示,截至2014年12月,中國網(wǎng)民規(guī)模達(dá)6.49億,中國網(wǎng)民中農(nóng)村網(wǎng)民占比27.5%,規(guī)模達(dá)1.78億[1]。近年來,輿論對(duì)于農(nóng)產(chǎn)品質(zhì)量安全問題的放大和炒作,大大增加了質(zhì)量安全監(jiān)管工作的難度,嚴(yán)重挫傷消費(fèi)者信心,也給產(chǎn)業(yè)發(fā)展帶來嚴(yán)重?fù)p失,甚至引發(fā)毀滅性打擊,已成為影響社會(huì)和諧和經(jīng)濟(jì)發(fā)展的重要因素,因而農(nóng)產(chǎn)品質(zhì)量安全輿情問題日益受到監(jiān)督管理部門及有關(guān)領(lǐng)導(dǎo)、專家的重視[2]。2014年監(jiān)測(cè)獲得的全部農(nóng)產(chǎn)品質(zhì)量安全輿情信息中,來自于網(wǎng)站的輿情信息數(shù)量首次超過50%,占比高達(dá)51.95%,互聯(lián)網(wǎng)已成為農(nóng)產(chǎn)品質(zhì)量安全輿情信息的主渠道[3]。當(dāng)前,網(wǎng)絡(luò)輿情研究逐步擴(kuò)大,但大部分的研究停留在理論上。在大數(shù)據(jù)時(shí)代,應(yīng)該利用先進(jìn)的計(jì)算機(jī)技術(shù)進(jìn)行研究。最近中央提出的“互聯(lián)網(wǎng)+農(nóng)業(yè)”為現(xiàn)代化農(nóng)業(yè)發(fā)展帶來新的契機(jī)。因此,為增強(qiáng)農(nóng)業(yè)信息化建設(shè)的需要,為滿足農(nóng)產(chǎn)品安全監(jiān)測(cè)的需求,作者開發(fā)了一套面向農(nóng)產(chǎn)品安全監(jiān)測(cè)的互聯(lián)網(wǎng)輿情分析系統(tǒng)。
1.1 系統(tǒng)概述
農(nóng)產(chǎn)品安全輿情分析系統(tǒng)是以信息技術(shù)為基礎(chǔ),以互聯(lián)網(wǎng)上農(nóng)產(chǎn)品相關(guān)數(shù)據(jù)為信息源,利用計(jì)算機(jī)技術(shù)對(duì)采集的信息進(jìn)行分析,最后以可視化的界面展示給用戶,以便快速做出決策。整個(gè)系統(tǒng)工作流程從信息的采集、信息處理和分析到輿情服務(wù)是具有生命周期的。從對(duì)網(wǎng)絡(luò)輿情信息的需求的產(chǎn)生開始,到輿情的規(guī)劃,通過技術(shù)手段到網(wǎng)絡(luò)輿情信息的采集、網(wǎng)絡(luò)輿情信息的分析、網(wǎng)絡(luò)輿情信息的服務(wù)、網(wǎng)絡(luò)輿情信息的預(yù)警,最后到部門領(lǐng)導(dǎo)的決策,整個(gè)生命周期是不斷循環(huán)的,且每個(gè)環(huán)節(jié)也是必不可少的。其流程如圖1所示。
圖1 農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的工作流程
1.2 系統(tǒng)架構(gòu)設(shè)計(jì)
在農(nóng)產(chǎn)品安全輿情分析系統(tǒng)中,整個(gè)系統(tǒng)應(yīng)有嚴(yán)格的數(shù)據(jù)流和信息流的流動(dòng)方向,以及各個(gè)層次之間的劃分和相互關(guān)聯(lián)??傮w設(shè)計(jì)是系統(tǒng)設(shè)計(jì)的核心部分,設(shè)計(jì)的好壞直接影響到系統(tǒng)未來的應(yīng)用。因此,在設(shè)計(jì)時(shí)必須著眼于信息技術(shù)目前和未來的發(fā)展趨勢(shì),在充分了解系統(tǒng)需求的基礎(chǔ)上,合理規(guī)劃系統(tǒng)的組織結(jié)構(gòu),定義好各個(gè)模塊之間的接口,使系統(tǒng)具備較好的靈活性和擴(kuò)展性。農(nóng)產(chǎn)品安全輿情分析系統(tǒng)是一個(gè)數(shù)據(jù)分析系統(tǒng),也是一個(gè)應(yīng)用業(yè)務(wù)系統(tǒng),這么一個(gè)復(fù)雜的系統(tǒng),其總體設(shè)計(jì)架構(gòu)要合理完善。在綜合考慮系統(tǒng)建設(shè)的成本、需求和面向用戶對(duì)象的基礎(chǔ)上,提出了網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)的總體架構(gòu)(圖2)。
圖2 農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的總體架構(gòu)
農(nóng)產(chǎn)品安全輿情分析系統(tǒng)采用基于B/S架構(gòu)的系統(tǒng)設(shè)計(jì)框架。通過瀏覽器進(jìn)行信息的查詢和溝通,這種方式能更好地滿足政府部門、農(nóng)產(chǎn)品企業(yè)和一般農(nóng)戶的需求。通過對(duì)農(nóng)產(chǎn)品安全輿情分析能夠及時(shí)挖掘農(nóng)產(chǎn)品安全的輿論信息,從而采取有效的應(yīng)對(duì)措施,提升政府、企業(yè)的品牌形象。
1.3 關(guān)鍵技術(shù)
1.3.1 農(nóng)產(chǎn)品安全輿情信息抓取
信息采集的數(shù)據(jù)都是來自互聯(lián)網(wǎng),采集的來源主要是各類網(wǎng)站。本系統(tǒng)是面向農(nóng)產(chǎn)品安全的輿情監(jiān)測(cè),在信息采集來源方面面向農(nóng)產(chǎn)品的網(wǎng)站,包括中國農(nóng)產(chǎn)品信息網(wǎng)、農(nóng)業(yè)部網(wǎng)、中國農(nóng)業(yè)新聞網(wǎng)等網(wǎng)站,以及貼吧和博客等。采用開源搜索引擎Nutch進(jìn)行數(shù)據(jù)抓取,Nutch是一個(gè)Java實(shí)現(xiàn)和平臺(tái)無關(guān)性的搜索引擎,提供了運(yùn)行自己的搜索引擎所需的全部工具。作為一個(gè)研究平臺(tái),Nutch有開放靈活的架構(gòu)。用戶可定制個(gè)性化的搜索引擎[4]。
1.3.2 農(nóng)產(chǎn)品安全輿情信息智能處理與分析
輿情信息的智能處理和分析技術(shù)是整個(gè)系統(tǒng)的核心的技術(shù)。農(nóng)產(chǎn)品安全輿情數(shù)據(jù)采集后,通過網(wǎng)頁去噪、排重、中文分詞、特征提取和聚類分類分析,最后得出結(jié)果。在這個(gè)過程中采用中科院的分詞軟件ICTCLAS分詞[5]進(jìn)行中文分詞處理,采用TF-IDF算法[6]進(jìn)行特征提取,使用向量空間模型VSM[7-8],最后使用文本聚類和分類算法得出農(nóng)產(chǎn)品安全的熱門話題,實(shí)現(xiàn)全過程的智能處理和分析。
1.3.3 農(nóng)產(chǎn)品安全輿情服務(wù)
輿情信息服務(wù)是通過技術(shù)將分析的結(jié)果以可視化的方式展示給用戶。結(jié)合用戶的需求,系統(tǒng)以簡(jiǎn)報(bào)形式呈現(xiàn)出日監(jiān)測(cè)報(bào)告、周監(jiān)測(cè)報(bào)告和月監(jiān)測(cè)報(bào)告發(fā)布,也可對(duì)農(nóng)產(chǎn)品安全專題全面而系統(tǒng)的報(bào)道。同時(shí)根據(jù)用戶的工作范圍或工作重點(diǎn)對(duì)信息源權(quán)限賦值,將其最關(guān)注的輿情展示出來供優(yōu)先瀏覽及輿情分析。按照用戶關(guān)注的類別分類展示輿情,通過類別的選擇了解各類別輿情信息。
2.1 系統(tǒng)功能模塊劃分
根據(jù)農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的實(shí)際需求,本系統(tǒng)由4大功能模塊組成,即農(nóng)產(chǎn)品安全輿情信息采集模塊、農(nóng)產(chǎn)品安全輿情信息處理模塊、農(nóng)產(chǎn)品安全輿情信息分析模塊和系統(tǒng)管理模塊。
2.2 系統(tǒng)功能模塊詳細(xì)設(shè)計(jì)
2.2.1 農(nóng)產(chǎn)品安全輿情信息采集模塊
本模塊主要功能是負(fù)責(zé)輿情信息的采集。為了能夠在海量數(shù)據(jù)中抓取與農(nóng)產(chǎn)品安全相關(guān)的輿情信息,需要構(gòu)建一個(gè)針對(duì)農(nóng)產(chǎn)品安全監(jiān)測(cè)的爬蟲。本文采用Nutch開源搜索引擎作為農(nóng)產(chǎn)品安全輿情信息采集的工具,主要是基于Nutch的二次開發(fā)。通過事先選取部分種子的URL列表,然后使用Nutch網(wǎng)絡(luò)爬蟲從種子URL列表爬取農(nóng)產(chǎn)品安全的輿情信息,將得到的網(wǎng)頁信息進(jìn)行數(shù)據(jù)清洗、網(wǎng)頁去噪、網(wǎng)頁內(nèi)容文本提取等操作,將其作為數(shù)據(jù)源。Nutch中還可設(shè)置URL地址的黑白名單,來實(shí)現(xiàn)部分網(wǎng)站的精確爬取(圖3)。
2.2.2 農(nóng)產(chǎn)品安全輿情信息處理模塊
信息處理模塊的主要功能是將采集模塊采集的信息進(jìn)行初步處理,再將其存入數(shù)據(jù)庫,變成可進(jìn)行輿情分析的數(shù)據(jù),即信息處理模塊的結(jié)果作為輿情分析模塊的輸入信息。信息處理模塊主要包含頁面解析、網(wǎng)頁去噪、網(wǎng)頁排重、內(nèi)容提取、中文分詞、特征提取、文本向量表示等過程。具體流程如圖4所示。
圖3 農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的信息采集模塊
圖4 農(nóng)產(chǎn)品安全輿情分析系統(tǒng)的信息處理流程
2.2.3 農(nóng)產(chǎn)品安全輿情信息分析模塊
農(nóng)產(chǎn)品安全輿情信息分析模塊是系統(tǒng)的核心模塊,主要針對(duì)處理后的信息進(jìn)行分析,包括農(nóng)產(chǎn)品安全的熱點(diǎn)話題發(fā)現(xiàn)、農(nóng)產(chǎn)品安全話題監(jiān)測(cè)與追蹤、農(nóng)產(chǎn)品安全敏感信息監(jiān)測(cè)、農(nóng)產(chǎn)品安全自動(dòng)摘要等。在此基礎(chǔ)上,進(jìn)行農(nóng)產(chǎn)品的安全趨勢(shì)預(yù)測(cè)、安全輿情預(yù)警、安全輿情報(bào)表服務(wù)、安全輿情分類、安全專題追蹤、安全統(tǒng)計(jì)分析、安全高危輿情、安全輿情檢索和用戶個(gè)性化定制等,包含了農(nóng)產(chǎn)品安全監(jiān)測(cè)的各個(gè)方面,總體上能夠滿足用戶的農(nóng)產(chǎn)品安全輿情監(jiān)測(cè)需求。
2.2.4 系統(tǒng)管理模塊
輿情管理模塊包含兩部分,一是農(nóng)產(chǎn)品安全輿情管理,包括輿情報(bào)告管理、輿情話題管理、輿情文檔管理等;二是輿情系統(tǒng)管理,設(shè)置系統(tǒng)的相關(guān)信息,包括系統(tǒng)權(quán)限管理、系統(tǒng)角色管理、系統(tǒng)字典管理等。輿情發(fā)布管理主要是輿情報(bào)告的生成,系統(tǒng)通過預(yù)先設(shè)置的統(tǒng)計(jì)報(bào)告生成模板,生成用戶所需的輿情報(bào)告。輿情話題管理主要是實(shí)現(xiàn)話題的增、刪、改操作。輿情系統(tǒng)管理主要是對(duì)系統(tǒng)的基本信息進(jìn)行配置管理。主要包括用戶權(quán)限的管理、角色管理、用戶管理和系統(tǒng)配置信息管理等。
3.1 系統(tǒng)開發(fā)環(huán)境
農(nóng)產(chǎn)品安全輿情分析系統(tǒng)軟件是在NET環(huán)境下采用C#語言進(jìn)行開發(fā),系統(tǒng)是基于B/S架構(gòu)設(shè)計(jì),用戶可以不受地域的限制和B/S架構(gòu)的平臺(tái)無關(guān)性,可以隨時(shí)隨地進(jìn)行查詢和瀏覽等。系統(tǒng)數(shù)據(jù)庫開發(fā)工具采用MySQL關(guān)系數(shù)據(jù)庫。
3.2 系統(tǒng)應(yīng)用情況
農(nóng)產(chǎn)品安全輿情分析系統(tǒng)通過一系列的對(duì)數(shù)據(jù)的處理,最終結(jié)果將以可視化的界面與用戶進(jìn)行交互。目前,本系統(tǒng)部署在中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息所,利用信息所的平臺(tái),包括大型的服務(wù)器、農(nóng)產(chǎn)品安全預(yù)警方面專家和科研團(tuán)隊(duì),采集模塊可以全天候24 h進(jìn)行農(nóng)產(chǎn)品安全輿情采集,通過系統(tǒng)分析,結(jié)合專家和團(tuán)隊(duì)的意見,實(shí)現(xiàn)農(nóng)產(chǎn)品安全輿情全方位、多方面的監(jiān)測(cè)。系統(tǒng)目前運(yùn)行良好,具有一定的應(yīng)用價(jià)值。
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.第35次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2015-01].http://cnnic.cn/gywm/ xwzx/rdxw/2015/201502/W020150203456823090968.pdf.
[2] 郭林宇,戚亞梅,李艷,等.農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情監(jiān)測(cè)工作的幾點(diǎn)思考[J].中國食物與營養(yǎng),2012,18 (12):5-7.
[3] 崔建玲.2014年我國農(nóng)產(chǎn)品質(zhì)量安全輿情概況[J].農(nóng)產(chǎn)品市場(chǎng)周刊,2015(8):22.
[4] 張彧.基于Nutch的農(nóng)業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2013.
[5] 劉群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1421-1429.
[6] 李海蓉.基于概念向量空間的文檔語義分類模型研究[J].圖書情報(bào)工作,2011,55(24):106-108.
[7] 田文穎.面向?qū)I(yè)領(lǐng)域的文本特征提取技術(shù)研究[D].北京:國防科學(xué)技術(shù)大學(xué),2009.
[8] 李祥洲,錢永忠,鄧玉,等.2014年農(nóng)產(chǎn)品質(zhì)量安全網(wǎng)絡(luò)輿情特征分析研究[J].農(nóng)產(chǎn)品質(zhì)量與安全,2015(1): 41-47.
(責(zé)任編輯:張瑞麟)
S 126;F 307.5
A
0528-9017(2015)09-1464-04
2015-04-17
中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程農(nóng)業(yè)網(wǎng)絡(luò)創(chuàng)新基金項(xiàng)目
陳 濤(1989-),男,江西萍鄉(xiāng)人,在讀碩士,研究方向?yàn)樾畔⒐芾砗蛿?shù)據(jù)挖掘。E-mail:lotus.ct@hotmail.com。
劉世洪。E-mail:lotusct@16.com。