張合斌
摘要:網(wǎng)絡(luò)輿情及其管理是信息化時(shí)代政府和主管部門(mén)構(gòu)建和諧社會(huì)的關(guān)鍵工作之一,針對(duì)此進(jìn)行網(wǎng)絡(luò)輿情分析系統(tǒng)研究是有效開(kāi)展此項(xiàng)工作極為重要的技術(shù)保障因素。本文以此為切入點(diǎn)。系統(tǒng)分析網(wǎng)絡(luò)輿情分析系統(tǒng)的七大基本功能需求和系統(tǒng)設(shè)計(jì)中的四個(gè)部分,其核心部分功能的八大模塊及相關(guān)主要技術(shù)等。
關(guān)鍵詞:網(wǎng)絡(luò)輿情分析基本功能需求核心部分功能模塊
2008年中國(guó)的網(wǎng)絡(luò)新聞得到快速發(fā)展,網(wǎng)絡(luò)新聞的使用率較去年提升了近5個(gè)百分點(diǎn),網(wǎng)絡(luò)新聞?dòng)脩?hù)達(dá)到2.34億,互聯(lián)網(wǎng)已經(jīng)成為一個(gè)不可忽視的輿情策源地與宣傳陣地。輿情是指在一定的社會(huì)空間內(nèi),圍繞社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度。它是較多群眾關(guān)于社會(huì)中各種現(xiàn)象、問(wèn)題所表達(dá)的信念、態(tài)度、意見(jiàn)和情緒等表現(xiàn)的總和?;ヂ?lián)網(wǎng)因其虛擬性、隱蔽性、發(fā)散性、滲透性和隨意性等特點(diǎn),吸引越來(lái)越多的人通過(guò)這一渠道表達(dá)自己的想法。當(dāng)網(wǎng)民的言論達(dá)到了一定規(guī)模時(shí),就形成了網(wǎng)絡(luò)輿論。作為社會(huì)輿論的一種重要表現(xiàn)形式,網(wǎng)絡(luò)輿情形成迅速,對(duì)社會(huì)的影響巨大。
由于網(wǎng)絡(luò)的信息量十分巨大,僅依靠人工的方法難以應(yīng)對(duì)網(wǎng)絡(luò)海量信息的收集和處理,需要加強(qiáng)相關(guān)信息技術(shù)的研究,形成一套自動(dòng)化的網(wǎng)絡(luò)輿情分析系統(tǒng),及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)輿情,由被動(dòng)防堵化為主動(dòng)梳理、引導(dǎo)。
網(wǎng)絡(luò)輿情分析系統(tǒng)的基本功能
在我國(guó),作為網(wǎng)絡(luò)輿情管理的主體一般是地方政府和主管部門(mén),其對(duì)網(wǎng)絡(luò)輿情管理的基本要求是:及時(shí)掌控所轄范圍內(nèi)網(wǎng)站上的信息情況(包括論壇、博客、網(wǎng)站等),防止網(wǎng)絡(luò)突發(fā)事件的發(fā)生進(jìn)而誘發(fā)群體事件,維持安全健康的網(wǎng)絡(luò)環(huán)境和穩(wěn)定的社會(huì)環(huán)境。
因此,服務(wù)于地方政府或主管部門(mén)的網(wǎng)絡(luò)輿情分析系統(tǒng)應(yīng)該具備以下七大基本功能。
網(wǎng)站的設(shè)置功能:輿情分析系統(tǒng)所配置的來(lái)源網(wǎng)站主要包括國(guó)內(nèi)知名的門(mén)戶(hù)網(wǎng)站、論壇、貼吧、博客、所關(guān)注的境外網(wǎng)站以及轄區(qū)內(nèi)一些有影響力的網(wǎng)站。
Web頁(yè)面瀏覽的功能:網(wǎng)站的設(shè)置是為了方便采集信息的管理,也方便用戶(hù)在Web頁(yè)面上的瀏覽。
指定網(wǎng)站的搜索功能:主管部門(mén)所關(guān)注的信息類(lèi)似百度貼吧的網(wǎng)絡(luò)社區(qū),以及轄區(qū)內(nèi)具有一定影響力的網(wǎng)站,如各級(jí)論壇、各政府網(wǎng)站等;這部分的需求是通過(guò)配置指定網(wǎng)站的方法來(lái)實(shí)現(xiàn)的,指定網(wǎng)站配置采集可以做到信息的準(zhǔn)確性。
全網(wǎng)搜索的功能:收集國(guó)內(nèi)各個(gè)知名門(mén)戶(hù)網(wǎng)站對(duì)該區(qū)域的報(bào)道和論壇中一些敏感的話(huà)題。由于全網(wǎng)搜索的準(zhǔn)確性難免有所下降,應(yīng)該可以通過(guò)配置關(guān)鍵字過(guò)濾來(lái)采集數(shù)據(jù),保證采集回來(lái)的信息是用戶(hù)所需要的。
主題事件的跟蹤功能:主要通過(guò)主題詞來(lái)監(jiān)控一些突發(fā)事件和熱點(diǎn)事件,如突發(fā)事件、重大事件。
敏感詞自動(dòng)檢測(cè)功能:基于敏感詞典信息過(guò)濾技術(shù),可以有效地識(shí)別各種有害文字信息,以擺脫有害信息的侵?jǐn)_,進(jìn)一步監(jiān)測(cè)各種嚴(yán)重政治性錯(cuò)誤、淫穢色情、兇殺暴力、賭博迷信、非法、負(fù)面報(bào)道等內(nèi)容的發(fā)生,可對(duì)各類(lèi)有害信息及時(shí)有效地發(fā)起預(yù)警,并嚴(yán)防此類(lèi)嚴(yán)重錯(cuò)誤見(jiàn)諸報(bào)端。
短信提示功能:其主要作用是服務(wù)于領(lǐng)導(dǎo)。通過(guò)正常的配置,將采集的信息及時(shí)用短信的形式發(fā)給領(lǐng)導(dǎo),使領(lǐng)導(dǎo)可以第一時(shí)間知道某些突發(fā)事件和熱點(diǎn)事件的情況。
網(wǎng)絡(luò)輿情分析系統(tǒng)的核心功能
充分考慮到使用者的功能需求。對(duì)以上基本功能進(jìn)行軟件工程學(xué)的分析后,可以發(fā)現(xiàn)以上七大基本功能的具體實(shí)現(xiàn)涉及輿情分析引擎、自動(dòng)信息采集、數(shù)據(jù)清理、代理服務(wù)四大部分。其中,核心部分是輿情分析引擎。
輿情分析引擎是輿情分析系統(tǒng)的核心功能,至少應(yīng)當(dāng)具備八個(gè)模塊進(jìn)行功能分解。
識(shí)別模塊:熱點(diǎn)話(huà)題、敏感話(huà)題識(shí)別,可以根據(jù)新聞出處的權(quán)威度、評(píng)論數(shù)量、發(fā)言時(shí)間密集程度等參數(shù),識(shí)別出一定時(shí)間段內(nèi)的熱門(mén)話(huà)題。利用關(guān)鍵字布控和語(yǔ)義分析,識(shí)別敏感話(huà)題。
傾向性分析模塊:對(duì)于每個(gè)話(huà)題,對(duì)每個(gè)發(fā)信人發(fā)表的文章的觀(guān)點(diǎn)、傾向性進(jìn)行分析與統(tǒng)計(jì)。
主題跟蹤模塊:分析新發(fā)表文章、帖子的話(huà)題是否與已有主題相同。
自動(dòng)摘要模塊:對(duì)各類(lèi)主題、各類(lèi)傾向能夠形成自動(dòng)摘要。
趨勢(shì)分析模塊:分析某個(gè)主題在不同的時(shí)間段內(nèi)。人們所關(guān)注的程度。
突發(fā)事件分析模塊:對(duì)突發(fā)事件進(jìn)行跨時(shí)間、跨空間綜合分析,獲知事件發(fā)生的全貌并預(yù)測(cè)事件發(fā)展的趨勢(shì)。
報(bào)警系統(tǒng)模塊:對(duì)突發(fā)事件、涉及內(nèi)容安全的敏感話(huà)題及時(shí)發(fā)現(xiàn)并報(bào)警。
統(tǒng)計(jì)報(bào)告模塊:根據(jù)輿情分析引擎處理后的結(jié)果庫(kù)生成報(bào)告,用戶(hù)可通過(guò)瀏覽器瀏覽,提供信息檢索功能,根據(jù)指定條件對(duì)熱點(diǎn)話(huà)題、傾向性進(jìn)行查詢(xún),并瀏覽信息的具體內(nèi)容,提供決策支持。
輿情分析系統(tǒng)的核心技術(shù)在于輿情分析引擎,涉及的最主要的技術(shù)包括文本分類(lèi)、聚類(lèi)、觀(guān)點(diǎn)傾向性識(shí)別、主題檢測(cè)與跟蹤、自動(dòng)摘要等計(jì)算機(jī)文本信息內(nèi)容識(shí)別技術(shù)。這些技術(shù)一向是國(guó)內(nèi)外信息工作者關(guān)注的領(lǐng)域。其中基于關(guān)鍵詞統(tǒng)計(jì)分析方法的技術(shù)相對(duì)比較成熟,但在其有效性方面還有很大的提高空間。
網(wǎng)絡(luò)輿情分析系統(tǒng)的其他功能
網(wǎng)絡(luò)輿情分析系統(tǒng)的輿情分析引擎部分是其核心功能,而自動(dòng)信息采集、數(shù)據(jù)清理、代理服務(wù)也是必不可少的,與輿情分析引擎作為整體進(jìn)行信息處理,實(shí)現(xiàn)輿情有效分析。
自動(dòng)信息采集部分主要是通過(guò)網(wǎng)絡(luò)頁(yè)面之間的鏈接關(guān)系,從網(wǎng)絡(luò)中自動(dòng)獲取頁(yè)面信息,并且隨著鏈接不斷向整個(gè)網(wǎng)絡(luò)擴(kuò)展。目前,一些搜索引擎使用這項(xiàng)技術(shù)對(duì)全球范圍內(nèi)的網(wǎng)頁(yè)進(jìn)行檢索。輿情監(jiān)控系統(tǒng)應(yīng)能根據(jù)用戶(hù)信息需求,設(shè)定主題目標(biāo),使用人工參與和自動(dòng)信息采集結(jié)合的方法完成信息收集任務(wù)。
數(shù)據(jù)清理功能部分主要完成對(duì)收集到的信息進(jìn)行預(yù)處理,如格式轉(zhuǎn)換、數(shù)據(jù)清理、數(shù)據(jù)統(tǒng)計(jì)。對(duì)于新聞評(píng)論,需要濾除無(wú)關(guān)信息,保存新聞的標(biāo)題、出處、發(fā)布時(shí)間、內(nèi)容、點(diǎn)擊次數(shù)、評(píng)論人、評(píng)論內(nèi)容、評(píng)論數(shù)量等。對(duì)于論壇BBS,需要記錄帖子的標(biāo)題、發(fā)言人、發(fā)布時(shí)間、內(nèi)容、回帖內(nèi)容、回帖數(shù)量等,最后形成格式化信息。條件允許時(shí),可直接針對(duì)服務(wù)器的數(shù)據(jù)庫(kù)進(jìn)行操作。
代理服務(wù)部分主要是指使用者根據(jù)需要選擇服務(wù)功能要求,每個(gè)月只需要支出很少的費(fèi)用,獲得一個(gè)使用期限的用戶(hù)名和密碼。就可以登錄使用系統(tǒng)平臺(tái),使用過(guò)程類(lèi)似網(wǎng)頁(yè)形式的電子郵件;或者完全將監(jiān)控任務(wù)委托給系統(tǒng),然后根據(jù)代理服務(wù)協(xié)議,為使用者提供全方位的輿情監(jiān)控服務(wù),所獲得的各類(lèi)反饋信息,采用電話(huà)、電子郵件、手機(jī)短信等方式及時(shí)匯報(bào)給使用者,支持個(gè)性化的報(bào)表定制。
網(wǎng)絡(luò)輿情分析系統(tǒng)的相關(guān)技術(shù)
網(wǎng)絡(luò)輿情分析技術(shù)是系統(tǒng)的核心應(yīng)用技術(shù),該技術(shù)是一組管理、提煉、應(yīng)用、共享所有的顯性知識(shí)和隱性知識(shí)及信息資源的方法,主要包含自然語(yǔ)言處理技術(shù)、信息檢索技術(shù)、數(shù)據(jù)挖掘技術(shù)等相關(guān)技術(shù)。
自然語(yǔ)言處理技術(shù)主要包括自動(dòng)分詞技術(shù)和自動(dòng)關(guān)鍵詞與自動(dòng)摘要技術(shù)。自動(dòng)分詞技術(shù)是中文信息處理與分析的基礎(chǔ)。以詞典和規(guī)則為基礎(chǔ),綜合利用了基于概率分析的語(yǔ)言模型方法,使分詞的準(zhǔn)確性達(dá)到一定的信度,并可根據(jù)不同的應(yīng)用進(jìn)行適合特定要求的分詞。自動(dòng)關(guān)鍵詞與自動(dòng)摘要技術(shù):在篇章語(yǔ)義分析的基礎(chǔ)上,綜合考慮詞頻、詞性、位置信息,實(shí)現(xiàn)準(zhǔn)確的自動(dòng)關(guān)鍵詞與自動(dòng)摘要。
信息檢索技術(shù)主要包括全文檢索技術(shù)和圖片內(nèi)容檢索技術(shù)。全文檢索技術(shù),即全文引擎將傳統(tǒng)的全文檢索技術(shù)與最新的Web搜索技術(shù)相結(jié)合,同時(shí)融合了多種相關(guān)技術(shù),具有豐富的檢索手段以及同義詞等智能檢索方式。圖片內(nèi)容檢索技術(shù),即圖片檢索不僅提供基于圖片描述的檢索,還提供對(duì)圖片內(nèi)容的檢索,以及結(jié)合描述與內(nèi)容的綜合檢索。
結(jié)語(yǔ)
網(wǎng)絡(luò)輿情分析是有效掌控網(wǎng)絡(luò)、促進(jìn)社會(huì)主義和諧社會(huì)建設(shè)的重要手段。網(wǎng)絡(luò)輿情分析系統(tǒng)涉及多媒體數(shù)據(jù)共享、互聯(lián)網(wǎng)搜索、統(tǒng)計(jì)分析、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘以及人工智能等領(lǐng)域和技術(shù),是一個(gè)復(fù)雜而新穎的應(yīng)用領(lǐng)域。尤其是隨著語(yǔ)義網(wǎng)絡(luò)技術(shù)的更進(jìn)一步的發(fā)展,必將使其輿情系統(tǒng)分析的結(jié)果更準(zhǔn)確、更科學(xué)。
編校:張紅玲