侯甜甜,陳培友
(黑龍江科技大學(xué)管理學(xué)院,哈爾濱150027)
大數(shù)據(jù)環(huán)境下,人們需要精準(zhǔn)、智能的檢索工具。據(jù)美國數(shù)據(jù)公司IDC提供的調(diào)查數(shù)據(jù)顯示,在2013年全球網(wǎng)絡(luò)信息資源總量就已經(jīng)達到2.7萬億GB,并且持續(xù)飛速增長,預(yù)計到2023年全球數(shù)據(jù)總存儲量將達到135萬億GB,人們已然進入大數(shù)據(jù)時代。[1]人們無時無刻不在通過互聯(lián)網(wǎng)獲取各種信息,但是Internet上的信息通常以雜亂無序的形式分散在各個開放卻又相互獨立的節(jié)點中,其可利用性和可靠性是處在動態(tài)變化之中的,因此人們需要精準(zhǔn)、智能的檢索工具來應(yīng)對大數(shù)據(jù)所帶來的挑戰(zhàn)。而在大數(shù)據(jù)背景下,企業(yè)的網(wǎng)絡(luò)輿情危機日益凸顯,企業(yè)輿情是其形象和門面,它的傳播直接關(guān)系到企業(yè)的品牌塑造、產(chǎn)品銷量等等,它幾乎決定了企業(yè)的生死。有效的輿情傳播,在使消費者對于某企業(yè)的否定到認(rèn)可過程中所起到的作用是媒體廣告的九倍。[2]因此,對于企業(yè)來講,得“輿情”者得天下。搜索引擎一直是人們查找與定位互聯(lián)網(wǎng)數(shù)據(jù)信息的重要工具,但隨著網(wǎng)絡(luò)信息資源的極速增長與用戶信息搜索需求的不斷提高,傳統(tǒng)的搜索引擎自身存在的兩個弊端逐漸被放大。一是信息覆蓋率較低,二是傳統(tǒng)搜索引擎智能化水平較低。因此,要使用戶獲得較為全面而且準(zhǔn)確的信息,就得同時調(diào)用多個搜索引擎,然后將搜索信息進行整合。[3]而智能元搜索就在這樣的背景下應(yīng)運而生。
目前,傳統(tǒng)搜索引擎的工作原理主要是:萬維網(wǎng)服務(wù)器利用“蜘蛛”程序定期搜索網(wǎng)頁信息;分析和歸檔收集的網(wǎng)頁,提取關(guān)鍵詞和設(shè)置索引標(biāo)記,并將其置入搜索引擎的索引數(shù)據(jù)庫。然后當(dāng)用戶輸入檢索的關(guān)鍵詞時,搜索引擎就會從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁呈現(xiàn)給用戶。[4]然而,這些搜索引擎一般都存在幾個問題,例如,網(wǎng)絡(luò)搜索的覆蓋范圍是有限的、實現(xiàn)搜索率和準(zhǔn)確率都不高,這些容易導(dǎo)致用戶在搜集信息時會搜集到脫離其真實訴求的無關(guān)信息。很難滿足用戶的信息搜索需求。[5]
智能元搜索引擎使搜索系統(tǒng)通過個性化和智能化引入大規(guī)模人工智能技術(shù)。這些技術(shù)包括基于網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù),用戶的個性化建模,成員搜索發(fā)動機動員政策技術(shù),管理技術(shù),文本分類,學(xué)習(xí)技術(shù)等等。同時,智能元搜索可以進行智能動態(tài)的調(diào)用決策,自動將用戶輸入的搜索請求遞交給最合適的搜索引擎來處理。不僅如此,智能元搜索還能夠通過不斷地學(xué)習(xí)來了解用戶的興趣、喜好,從而實現(xiàn)自動選取合適的獨立搜索引擎來進行信息搜索。此外,智能元搜索引擎還能夠自動對用戶輸入的關(guān)鍵詞所在的文本上下文環(huán)境來對關(guān)鍵詞的類別進行判斷,以達到最優(yōu)化的查詢效果。[6]基于智能元搜索對企業(yè)網(wǎng)絡(luò)輿情危機進行預(yù)警,就是因為面對海量的、動態(tài)的在線信息數(shù)據(jù),智能元搜索引擎可以迅速完成網(wǎng)絡(luò)發(fā)布任務(wù),同時能夠快速而準(zhǔn)確地搜索出那些不利于塑造企業(yè)良好輿情的負(fù)面信息,滿足企業(yè)智能化、個性化、多樣化和及時監(jiān)控的需求。
網(wǎng)絡(luò)輿情以各種形式表現(xiàn)出來,主要包括文本、圖片、音視頻等,而就當(dāng)前的技術(shù)而言,當(dāng)前最適合進行挖掘的數(shù)據(jù)形式仍以文本形式為主。尤其在一些論壇、微博、社區(qū)等評論性的網(wǎng)站,匯聚了大量的帶有情感傾向的文本信息。網(wǎng)絡(luò)輿情的本質(zhì)是一種輿情,而不是網(wǎng)絡(luò)中存在的具體的數(shù)據(jù),因此必須通過廣泛的提取具有情感傾向的評論信息數(shù)據(jù)進行分析后才能得到結(jié)果。并且相對于其它的模型,輿情危機預(yù)警模型的準(zhǔn)確性、及時性尤為關(guān)鍵,要準(zhǔn)確地窺探出輿情危機、及時地進行輿情危機預(yù)警、有效地消除輿情危機。而智能元搜索技術(shù)能夠較為全面、快速地獲取有關(guān)信息或數(shù)據(jù),鑒于這些優(yōu)點所以近些年智能元搜索技術(shù)進入了學(xué)者的視野并逐步得到重視。綜上可知,網(wǎng)絡(luò)中廣泛的評價信息給企業(yè)網(wǎng)絡(luò)輿情預(yù)警提供了豐富的信息資源,智能元搜索給輿情危機預(yù)警模型的建立提供了技術(shù)支持。因此建立基于智能元搜索引擎的企業(yè)網(wǎng)絡(luò)輿情危機預(yù)警模型,不僅具有現(xiàn)實需求的迫切性,同時也具有研究上的可行性。
本研究主要基于元搜索系統(tǒng)進行文本的格式及冗余處理及對搜索信息排序處理的基礎(chǔ)上進行分詞和信息的二次預(yù)處理,最終根據(jù)語料情感值的大小選擇是否進行預(yù)警。其中分詞采用中科院的ICT-CLAS2015中文分詞系統(tǒng)對其進行分詞。考慮到情感詞典的全面性與權(quán)威性,筆者選用大連理工大學(xué)情感詞匯本體庫,該情感詞典是建立在國外影響力較大的Ekman基礎(chǔ)之上的,并在其基礎(chǔ)上將情感詞典進行了更為細(xì)致的劃分。該情感詞典中將情感分為7大類21小類,共包含27467個情感詞,情感強度分為 1,3,5,7,9 五檔,9 表示強度最大,1 為強度最小。給定的詞典包括詞性、詞義數(shù)、情感分類、強度、極性值。每個詞在每一類情感下都對應(yīng)了一個極性。其中,0代表中性,1代表褒義,2代表貶義,情感分類以N開頭的為負(fù)面情感,以P開頭的為正面情感。
在該情感詞典的基礎(chǔ)上將代表中性的詞語忽略,褒義詞的強度不變,而貶義詞的情感強度記為原強度數(shù)值的相反數(shù),這樣處理便于下面對采集語料的整體情感強度值進行計算。并且根據(jù)專家意見設(shè)定情感閾值為-5,即當(dāng)情感值低于-5時則會進行預(yù)警。一旦確定預(yù)警,則系統(tǒng)會自動從由知識管理(KM)和方案集構(gòu)成的知識庫中調(diào)取相應(yīng)的處理方案,現(xiàn)存知識庫中若存在較為合理的方案系統(tǒng)則會自動輸出該方案,然后反饋給用戶。否則,則人工研究并輸入新的可行方案,然后系統(tǒng)自動存入知識庫,為以后的決策作依據(jù)。整個模型形成一個良性的閉合回路。
使用中文元搜索引擎中最具代表性的“元搜”來進行企業(yè)信息的獲取試驗。以國內(nèi)較大的六家企業(yè)為例,其中3家電子企業(yè),3家實體企業(yè)。得到有關(guān)企業(yè)信息排行前30條信息,通過兩次信息預(yù)處理后,分別對有關(guān)企業(yè)信息的分詞數(shù)、正負(fù)向情感詞條數(shù)、情感強度累加值以及是否達到閾值等指標(biāo)進行數(shù)據(jù)統(tǒng)計,得到如下處理結(jié)果。
表1 六家企業(yè)搜索信息處理數(shù)據(jù)分析表
如表1所示,分別統(tǒng)計每個企業(yè)的相關(guān)數(shù)據(jù)指標(biāo),可以注意到正負(fù)向情感詞條數(shù)之和并不等于分詞數(shù),這主要是由于即使對搜索到的企業(yè)信息進行了雙重預(yù)處理,但中文分詞系統(tǒng)在分詞時包含了大量中性詞條,這些詞條并沒有明顯的情感傾向,因此它們對于情感的強度累加值沒有影響。
在互聯(lián)網(wǎng)時代,網(wǎng)絡(luò)輿情已成為企業(yè)獲取消費者對于其產(chǎn)品或服務(wù)滿意度的關(guān)鍵指標(biāo),成為企業(yè)捕捉危機信息的主要來源。筆者運用智能元搜索技術(shù),通過對不同企業(yè)的相關(guān)網(wǎng)絡(luò)信息進行篩選,并結(jié)合分詞系統(tǒng)與情感詞典的運用,對篩選出的網(wǎng)絡(luò)信息中具有情感傾向的內(nèi)容進行計算,通過兩種類別的六家企業(yè)進行驗證,并得出了其中三家企業(yè)存在著網(wǎng)絡(luò)輿情危機,這與實際狀況是相吻合的,因此證明了本文預(yù)警方法的有效性。
[1] Vesset D,Woo B,MorrisH D,et al.Worldwide big data technology and services 2012-2015 forecast.IDC Rep,2012,233-485.
[2] 孫 瑩.基于Web文本挖掘的企業(yè)輿情情感分類模型研究[D].武漢:華中師范大學(xué),2013.
[3] 李紅梅.丁振國.周利華.基于Agent的智能元搜索引擎技術(shù)研究[J].計算機科學(xué),2008(10):90-93.
[4] 何友全,徐小樂.搜索引擎用戶接口設(shè)計[J].重慶理工大學(xué)學(xué)報:自然科學(xué)版,2010(9):63-68.
[5] Wang Zhan-ping,Xiao Xiao.The Study on Early Warning of Online Public Crisis Based on Intelligent Meta search Engine[J].Fourth International Conference on Business Intelligence and Financial Engineering.2011(143):9-13.
[6] 孫勁光,馬志芳,孟祥福.基于情感詞屬性和云模型的文本情感分類方法[J].計算機工程,2013(12):211-215.