余宏
(豫章師范學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院,南昌 330103)
隨著網(wǎng)絡(luò)技術(shù)的進(jìn)步,特別是移動(dòng)互聯(lián)網(wǎng)應(yīng)用的普及,使得社會(huì)生活得各個(gè)方面都與互聯(lián)網(wǎng)息息相關(guān)。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2018年1月發(fā)布的統(tǒng)計(jì)信息顯示:截至2017年12月,中國(guó)網(wǎng)民規(guī)模達(dá)7.72億,其中移動(dòng)手機(jī)用戶人數(shù)達(dá)7.53億,互聯(lián)網(wǎng)應(yīng)用普及率達(dá)到55.8%。與傳統(tǒng)媒體相比,新聞網(wǎng)站、博客、論壇、微信等網(wǎng)絡(luò)媒介交互性特征突出,特別是隨著移動(dòng)互聯(lián)網(wǎng)應(yīng)用的迅速普及,社會(huì)民眾參與網(wǎng)絡(luò)言論傳播變得前所未有的便利,互聯(lián)網(wǎng)成為當(dāng)今社會(huì)重要的輿情載體。只有及時(shí)把握住輿情信息,了解和掌握民眾的訴求和意見,對(duì)初露端倪的不良輿論苗頭進(jìn)行有效抑制,才能發(fā)揮前瞻性,掌握網(wǎng)絡(luò)輿論引導(dǎo)的主動(dòng)權(quán)。而傳統(tǒng)對(duì)輿情的人工處理方法對(duì)于網(wǎng)絡(luò)上海量增長(zhǎng)的輿情信息來(lái)說(shuō)是不適用的,必須借助信息技術(shù)手段對(duì)網(wǎng)絡(luò)上的輿情信息進(jìn)行快速而有效的采集、分析并生成輔助決策的知識(shí)。
輿情信息挖掘的任務(wù)主要包括輿情熱點(diǎn)話題檢測(cè)、話題追蹤、輿情觀點(diǎn)分析,這些任務(wù)主要通過輿情信息聚類和分類來(lái)實(shí)現(xiàn)。輿情信息聚類和分類的效率和準(zhǔn)確程度,對(duì)輿情熱點(diǎn)話題檢測(cè)和追蹤有著重要的影響?,F(xiàn)有的輿情監(jiān)測(cè)系統(tǒng)在進(jìn)行輿情分析時(shí)大多采用基于統(tǒng)計(jì)和特征關(guān)鍵詞的方法,由于未考慮輿情文本中的語(yǔ)義信息往往導(dǎo)致分析結(jié)果不夠準(zhǔn)確。本文將本體論和語(yǔ)義計(jì)算技術(shù)引入網(wǎng)絡(luò)輿情挖掘以提高輿情挖掘系統(tǒng)的性能。
基于語(yǔ)義的主題網(wǎng)絡(luò)輿情挖掘系統(tǒng)主要包括網(wǎng)絡(luò)輿情數(shù)據(jù)采集、領(lǐng)域本體庫(kù)的構(gòu)建、輿情數(shù)據(jù)預(yù)處理、語(yǔ)義特征抽取轉(zhuǎn)換、輿情挖掘等關(guān)鍵功能。
(1)網(wǎng)絡(luò)輿情信息采集模塊
網(wǎng)絡(luò)輿情信息的來(lái)源主要包括:網(wǎng)絡(luò)論壇、新聞網(wǎng)站、博客與微博等,網(wǎng)絡(luò)輿情信息在表現(xiàn)形式上包括文字、圖片、音視頻,其中以文字信息為主。
由于網(wǎng)絡(luò)輿情管理者往往只關(guān)注某一領(lǐng)域的輿情信息,因此,在對(duì)網(wǎng)絡(luò)輿情進(jìn)行采集時(shí),根據(jù)用戶定制的某個(gè)主題利用聚焦爬蟲有針對(duì)性的爬取主題相關(guān)的網(wǎng)頁(yè)信息。
(2)領(lǐng)域本體庫(kù)的構(gòu)建模塊
本體是領(lǐng)域概念模型的顯式表示。本體通過它的概念集及其所處的上下文來(lái)刻畫概念的內(nèi)涵。本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解。
在輿情分析中,本體的最終目標(biāo)是精確地表示那些隱含的或者不明確的信息。通過應(yīng)用本體來(lái)消除同詞異義、多詞一義及詞義模糊等現(xiàn)象,從而完成對(duì)領(lǐng)域知識(shí)清晰、準(zhǔn)確、完整的定義與描述。
在對(duì)主題網(wǎng)絡(luò)輿情分析中,所涉及的知識(shí)包括通用知識(shí)和主題相關(guān)的領(lǐng)域知識(shí)。目前在國(guó)內(nèi)外已有許多現(xiàn)成的本體庫(kù)可以免費(fèi)獲取,如國(guó)內(nèi)的知網(wǎng)庫(kù)(HowNet),國(guó)外的常識(shí)知識(shí)本體OpenCye等。我們?cè)谧鲋黝}網(wǎng)絡(luò)輿情分析的本體應(yīng)用時(shí),通用知識(shí)本體可以通過復(fù)用現(xiàn)有的知識(shí)庫(kù)如HowNet來(lái)獲得,而與輿情主題密切相關(guān)的領(lǐng)域本體通過本體構(gòu)建工具Protégé進(jìn)行構(gòu)建。
(3)數(shù)據(jù)預(yù)處理與語(yǔ)義特征轉(zhuǎn)換模塊
傳統(tǒng)上通過網(wǎng)絡(luò)爬蟲獲得的網(wǎng)絡(luò)輿情信息經(jīng)過分詞處理后,依據(jù)詞袋模型生成文本特征向量,該方法忽略了文本特征項(xiàng)之間的語(yǔ)義關(guān)系、存在同義詞和一詞多義等問題。將文本關(guān)鍵詞映射到本體中的類、屬性、實(shí)例等相關(guān)項(xiàng)上,將被映射到的不同層次的概念作為主題網(wǎng)絡(luò)輿情文本信息的語(yǔ)義特征,可以解決上述問題并提高相似度計(jì)算的準(zhǔn)確程度。
(4)輿情挖掘模塊
在前面將文本特征項(xiàng)映射為概念之后,該模塊涉及如何計(jì)算兩個(gè)概念之間的語(yǔ)義相似度,并以此為基礎(chǔ)利用分類和聚類算法進(jìn)行網(wǎng)絡(luò)輿情挖掘處理。
通過對(duì)系統(tǒng)各個(gè)模塊的分析,本文將基于語(yǔ)義的網(wǎng)絡(luò)輿情挖掘系統(tǒng)模型構(gòu)建如圖1所示:
圖1 基于語(yǔ)義的主題網(wǎng)絡(luò)輿情挖掘系統(tǒng)模型框架
主題網(wǎng)絡(luò)輿情分析主要是對(duì)當(dāng)前互聯(lián)網(wǎng)上主題方面的熱點(diǎn)話題進(jìn)行內(nèi)容分析,主要采用文本聚類和分類技術(shù)進(jìn)行話題的檢測(cè)和跟蹤。傳統(tǒng)的文本聚類和分類方法通常將文檔用關(guān)鍵詞特征向量來(lái)表示,文檔D1和文檔D2之間的內(nèi)容相關(guān)度通常用表示文檔的兩向量之間夾角的余弦值表示。該方法沒有考慮深層次的語(yǔ)義信息,例如不同關(guān)鍵詞表示相同的概念、相關(guān)的關(guān)鍵詞共現(xiàn)表示同一個(gè)主題等,導(dǎo)致聚類和分類結(jié)果的準(zhǔn)確性大大降低。因此,將基于本體的主題網(wǎng)絡(luò)輿情模型引入聚類和分類過程中,以概念語(yǔ)義相似度為核心進(jìn)行主題網(wǎng)絡(luò)輿情信息的聚類和分類,能夠提高輿情挖掘的效率和挖掘結(jié)果的精確度。
(1)語(yǔ)義特征抽取
語(yǔ)義(Semantic)即數(shù)據(jù)的含義,是對(duì)數(shù)據(jù)符號(hào)的解釋。語(yǔ)義特征,就是指能夠在語(yǔ)義層面上解釋文本內(nèi)容且定義規(guī)范的術(shù)語(yǔ)詞匯。本體中的類、屬性、實(shí)例以及關(guān)系等概念可以作為網(wǎng)絡(luò)輿情信息文本的概念特征,通過這些概念代替文本關(guān)鍵詞來(lái)描述文本,進(jìn)而根據(jù)概念之間的相關(guān)度來(lái)計(jì)算概念所描述的文本之間的相似度,該方法可用于解決“一詞多義”、“異詞同義”等問題,有利于提高文檔相似度計(jì)算的準(zhǔn)確度。
主題網(wǎng)絡(luò)輿情語(yǔ)義特征抽取分成兩個(gè)步驟:第一步是基于關(guān)鍵詞的輿情信息特征項(xiàng)選擇,主要是根據(jù)TF-IDF方法選取文檔中權(quán)重較大的N個(gè)特征詞形成一個(gè)N維特征向量來(lái)表示文檔;第二步是在關(guān)鍵詞特征項(xiàng)選擇的基礎(chǔ)上利用本體和語(yǔ)義詞典進(jìn)行語(yǔ)義特征轉(zhuǎn)換,其基本思想是:采用相應(yīng)的匹配算法將文本特征關(guān)鍵詞與本體和語(yǔ)義詞典中的概念進(jìn)行匹配,如果匹配成功則用概念代替關(guān)鍵詞特征項(xiàng),并將其加入概念特征集合中,如果匹配不成功則保留該關(guān)鍵詞特征項(xiàng)另行處理,最后將算法匹配出的概念特征集合中的相同項(xiàng)進(jìn)行合并,將權(quán)值較高的概念特征項(xiàng)保留作為網(wǎng)絡(luò)輿情文本的語(yǔ)義特征。其中的核心是將文本關(guān)鍵詞特征項(xiàng)映射為概念特征項(xiàng),匹配算法為算法1的描述。
算法1文本關(guān)鍵詞映射為本體概念算法
輸入:文檔關(guān)鍵詞特征項(xiàng)集K={k1,k2,k3,…kn};領(lǐng)域本體和Hownet通用本體;
輸出:文檔的概念特征項(xiàng)集C={c1,c2,c3,…cm}及未匹配的關(guān)鍵詞特征向量K'={k1,k2,k3,…kt}
Begin:
1.讀取關(guān)鍵詞ki,將其與領(lǐng)域本體和通用本體HowNet中的概念、屬性或?qū)嵗M(jìn)行匹配;
2.ifki與本體庫(kù)中的類ci匹配,則將ci加入概念特征項(xiàng)集合C;
3.else ifki與本體庫(kù)中的屬性aj匹配,則將aj所屬的概念ci加入概念特征項(xiàng)集合C;
4.else ifki與本體庫(kù)中的實(shí)例Ik匹配,則將實(shí)例Ik的最低下位概念ci加入概念特征項(xiàng)集合C;
5.else將未能匹配的ki加入未匹配的關(guān)鍵詞特征集合K';
6.將概念特征集合C中的相同項(xiàng)進(jìn)行合并,去除權(quán)值較低的概念特征項(xiàng),保留權(quán)值較高的概念特征項(xiàng)。
End.
(2)特征項(xiàng)權(quán)值計(jì)算
典型的權(quán)值計(jì)算方法為由Salton提出的詞頻-逆文檔頻率(TF-IDF)計(jì)算法,其基本思想為:一個(gè)詞的重要性與它在該文檔中出現(xiàn)的頻率成正比,與它在整個(gè)文檔集中包含該詞匯的文檔數(shù)目成反比。TF-IDF計(jì)算方法為:
其中,w(i,j)為文本特征項(xiàng)ti在文檔Dj中的權(quán)重值,tfij表示文本特征項(xiàng)ti在文檔Dj中出現(xiàn)的頻率,idfj表示特征項(xiàng)ti的逆文檔頻率。
逆文檔頻率的計(jì)算方法為:
其中,N為文檔集中的文檔總數(shù),nj表示包含特征項(xiàng)ti的文檔數(shù)。
因此,綜合上述兩式,詞頻-逆文檔頻率(TF-IDF)典型的計(jì)算公式為:
我們?cè)谶M(jìn)行主題網(wǎng)絡(luò)輿情分析時(shí),屬于某個(gè)主題領(lǐng)域內(nèi)的典型詞應(yīng)該給予更高的權(quán)值。本文的特征項(xiàng)權(quán)值計(jì)算以TF-IDF為基礎(chǔ),對(duì)文本關(guān)鍵詞特征項(xiàng)ki,如果ki未能與領(lǐng)域本體進(jìn)行匹配的特征項(xiàng),其權(quán)重值w(ki)按上述公式(3)計(jì)算。如果文本關(guān)鍵詞特征項(xiàng)kj能與主題領(lǐng)域內(nèi)本體庫(kù)中的概念ck進(jìn)行匹配,關(guān)鍵詞特征項(xiàng)kj則轉(zhuǎn)換為概念特征項(xiàng)ck,ck的權(quán)重值w(ck)將在kj的TF-IDF計(jì)算方法得出的結(jié)果的基礎(chǔ)進(jìn)行適當(dāng)增加權(quán)重。由于各個(gè)關(guān)鍵詞特征項(xiàng)的tfidf值的大小波動(dòng)比較大,因此,對(duì)關(guān)鍵詞特征項(xiàng)kj所轉(zhuǎn)換成的概念特征項(xiàng)ck的權(quán)值增加采用相對(duì)值,而非絕對(duì)值。實(shí)驗(yàn)顯示,關(guān)鍵詞特征項(xiàng)kj轉(zhuǎn)換成概念特征項(xiàng)ck后,ck的權(quán)值w(ck)在 kj的權(quán)值w(ki)基礎(chǔ)上提升50%左右效果較好,這樣既能突出領(lǐng)域本體范圍內(nèi)的特征詞,同時(shí)又不會(huì)大幅度影響數(shù)據(jù)的平衡。為區(qū)分關(guān)鍵詞特征項(xiàng)kj與本體庫(kù)中的類、屬性、實(shí)例等不同層次的項(xiàng)進(jìn)行匹配產(chǎn)生的概念特征項(xiàng)ck重要性,ck的權(quán)值w(ck)在kj的權(quán)值w(ki)基礎(chǔ)上提升幅度不同,如表1所示。
表1 概念特征項(xiàng)的權(quán)值計(jì)算
(3)文本表示
在基于本體的主題網(wǎng)絡(luò)輿情信息語(yǔ)義特征抽取過程中,由于受本體知識(shí)覆蓋范圍等因素的限制,導(dǎo)致部分關(guān)鍵詞特征項(xiàng)不能轉(zhuǎn)化為概念特征,但這部分特征項(xiàng)對(duì)輿情信息的聚類和分類結(jié)果的準(zhǔn)確度也有一定影響,因此,本文將輿情文本D表示為概念特征向量VC和未匹配的關(guān)鍵詞特征向量VK'。
其中,ki是第i個(gè)關(guān)鍵詞特征項(xiàng),w(ki)是關(guān)鍵詞特征項(xiàng)ki的權(quán)重;cj是第j個(gè)概念特征項(xiàng),w(cj)是概念特征項(xiàng)cj的權(quán)重。
對(duì)用向量空間模型(Vector Space Model,VSM)表示的文檔,可通過計(jì)算向量之間的相似性來(lái)度量文檔間的相似性,將空間上的相似度轉(zhuǎn)化為語(yǔ)義上的相似度。VSM模型中度量?jī)蓚€(gè)文本間的相似度,常常通過計(jì)算兩個(gè)文本向量間的余弦夾角來(lái)表示。相比距離度量,余弦相似度更加注重兩個(gè)向量在方向上的差異,計(jì)算公式如下:
其中,X,Y為兩個(gè)文本向量,xi和yi分別為向量X,Y的分量。
本文將一個(gè)輿情文檔D由概念特征向量VC和未匹配的關(guān)鍵詞特征向量VK'表示。即D={VC,VK'},其中:VC和VK'分別如公式(4)和公式(5)所示。為了體現(xiàn)關(guān)鍵詞向量和本體概念向量對(duì)輿情文檔相似性的貢獻(xiàn)度不同,在計(jì)算時(shí),我們將這兩個(gè)向量分開進(jìn)行計(jì)算。對(duì)兩個(gè)輿情文檔 D1和 D2,其概念相似度CSim(D1,D2)和關(guān)鍵詞相似度KSim(D1,D2)分別為:
其中,wD1(ki)和wD2(ki)分別表示文檔D1和D2未匹配本體的關(guān)鍵詞向量第i個(gè)分量關(guān)鍵詞特征項(xiàng)的權(quán)值;wD1(ci)和wD2(ci)分別表示文檔D1和D2本體概念向量第i個(gè)分量概念特征項(xiàng)的權(quán)值;n和m分別表示未匹配本體的關(guān)鍵詞向量和本體概念向量的維度。
輿情文檔D1和D2的總相似度TSim(D1,D2)的計(jì)算公式為:
其中,β為調(diào)節(jié)因子,用于調(diào)節(jié)輿情文檔概念語(yǔ)義特征相似度和未匹配的關(guān)鍵詞特征相似度對(duì)文檔相似度的影響。
本文在分析現(xiàn)有的網(wǎng)絡(luò)輿情挖掘系統(tǒng)存在的不足的基礎(chǔ)上,將本體語(yǔ)義引入網(wǎng)絡(luò)輿情挖掘系統(tǒng),通過引入本體,構(gòu)建了基于語(yǔ)義的主題網(wǎng)絡(luò)輿情挖掘系統(tǒng)模型;重點(diǎn)研究了通過本體語(yǔ)義信息對(duì)網(wǎng)絡(luò)輿情文本進(jìn)行語(yǔ)義特征抽取和轉(zhuǎn)換、對(duì)網(wǎng)絡(luò)輿情文本融合語(yǔ)義信息建模并進(jìn)行混合相似性計(jì)算。但是當(dāng)前對(duì)網(wǎng)絡(luò)輿情信息的挖掘研究主要集中在輿情文本信息上,對(duì)圖像、視頻等媒體所包含的網(wǎng)絡(luò)輿情信息的挖掘有待進(jìn)一步研究。