劉 娟,郝云強,尹雪雪
(山東醫(yī)學(xué)高等專科學(xué)校 山東 臨沂 276000)
網(wǎng)絡(luò)輿情信息挖掘是指借助相關(guān)信息處理技術(shù),識別、提取輿情文本中的熱點詞匯、傾向性詞匯,為輿情引導(dǎo)工作提供依據(jù)的信息挖掘活動。借助挖掘活動配套關(guān)鍵技術(shù),能夠增強信息挖掘質(zhì)量,提高輿情工作效果,因此,應(yīng)對關(guān)鍵技術(shù)予以深入分析,并總結(jié)出優(yōu)質(zhì)的技術(shù)應(yīng)用方案,促進輿情工作水平的發(fā)展。
TFIDF權(quán)重計算法的應(yīng)用常見于搜索引擎的信息挖掘,但在網(wǎng)絡(luò)輿情信息挖掘中,則一般用于信息檢索權(quán)重計算。其中,TFIDF中的TF代表詞頻、IDF代表反文檔頻率,由此可以看出,該項關(guān)鍵技術(shù)的主要思想為,若某一詞、字在某一篇文本中的詞頻較高,而在其他文章中出現(xiàn)頻率明顯減少,那么即可認為該字、詞,具備良好的區(qū)分能力,可以用于分類文章?;诖?,在網(wǎng)絡(luò)輿情信息挖掘中,該項技術(shù)的應(yīng)用原理為,利用統(tǒng)計的形式,評估某個字、詞,在一份網(wǎng)絡(luò)文件內(nèi)容中的重要程度,以便于工作者識別該篇文本的輿情關(guān)鍵字、詞,實現(xiàn)網(wǎng)絡(luò)輿情信息的收集、提取,為輿情引導(dǎo)工作提供依據(jù)。在輿情信息挖掘中,TFIDF權(quán)重計算法會按照字詞出現(xiàn)的具體位置,來評估其的重要性,例如:在詞匯重要性評估中,該算法會認定標題、首尾處出現(xiàn)的詞匯,其重要性高于正文段落中出現(xiàn)的詞匯,以準確找出表現(xiàn)該文章輿情傾向的關(guān)鍵詞,達到輿情信息挖掘的目的。
在網(wǎng)絡(luò)輿情信息挖掘中,文本聚類法是一項常用的信息挖掘關(guān)鍵技術(shù),其應(yīng)用機理為,基于文本數(shù)據(jù)的不同特征,將文本群劃分為不同數(shù)據(jù)類型的小文本群,以達到數(shù)據(jù)挖掘的效果,使同類輿情內(nèi)容、傾向的文本被歸納到一起,方便工作者全面了解網(wǎng)絡(luò)輿情狀態(tài),促進輿情工作決策活動的準確開展。從本質(zhì)上來說,該項技術(shù)的運行方式,類似于無監(jiān)督的學(xué)習(xí)機,無需工作者對算法程序進行訓(xùn)練,也不用提前標注文檔類別,因此,其在實際的信息挖掘應(yīng)用中,呈現(xiàn)出了較高的靈活性與自動化水平,提高了網(wǎng)絡(luò)輿情信息挖掘效率。就目前來看,該算法的運行步驟為,首先,收集網(wǎng)絡(luò)輿情信息文檔。其次,采用詞頻統(tǒng)計、停用詞去除等方法,構(gòu)建出所收集文檔的文本表示。第三,基于文本表示,結(jié)合對相似度的衡量,搭建聚類模型,對文本加以分類。第四,對分類結(jié)果進行驗證分析,得出最終的輿情信息聚類挖掘結(jié)果。
該技術(shù)是由中國科學(xué)院計算機技術(shù)研究所研發(fā)的,其運行主要依賴于ICTCLAS系統(tǒng),該系統(tǒng)作為當前在網(wǎng)絡(luò)輿情信息挖掘中,應(yīng)用比較廣泛的中分詞系統(tǒng),使ICTCLAS分詞法逐漸成為了網(wǎng)絡(luò)輿情信息挖掘關(guān)鍵技術(shù)。其中,該技術(shù)的信息挖掘機理為,利用層疊型隱式馬爾科夫模型,對本文信息進行切分、標注、命名等操作,以達到詞匯識別的效果,為后續(xù)的深度挖掘奠定基礎(chǔ)。目前,已經(jīng)有專家對該系統(tǒng)進行了測評,結(jié)果顯示,該系統(tǒng)的分詞準確率可達97.58%,分詞與標注處理速度可達534.5KB/S,由此可見,ICTCLAS分詞法具有良好的使用性能,有助于網(wǎng)絡(luò)輿情信息挖掘水平的提升。此外,該技術(shù)的應(yīng)用系統(tǒng),以及動態(tài)鏈接庫、概率詞典,都能在官網(wǎng)上找到免費下載鏈接,因此,基于該技術(shù)的信息挖掘工作成本也比較低。
在網(wǎng)絡(luò)輿情信息挖掘中,粗粒度情感傾向性分析技術(shù)主要用于文本的輿情傾向分析,相較于上述信息挖掘關(guān)鍵技術(shù),該技術(shù)的挖掘?qū)哟胃?。在此過程中,該技術(shù)的信息挖掘機理為使用語義角色標注對文本中的各個句子進行語義識別,得出句子中情感詞的布局狀態(tài)、句子與主題的關(guān)聯(lián)程度,最終得出文本的輿情情感傾向信息,實現(xiàn)信息挖掘。在此過程中,該技術(shù)會借助相應(yīng)的算法與程序,將文本中所有的干擾句、客觀句進行篩除,然后針對剩下的句子,按照上述信息挖掘機理,進行逐句的輿情傾向分析,整合出整篇文本的輿情傾向狀態(tài),幫助工作者快速地了解網(wǎng)絡(luò)輿情狀態(tài),以便于其采取相應(yīng)的輿情引導(dǎo)措施,來改善網(wǎng)絡(luò)輿情情況,凈化網(wǎng)絡(luò)輿論環(huán)境[1]。
細粒度情感傾向性分析技術(shù)也屬于一種網(wǎng)絡(luò)輿情傾向信息挖掘關(guān)鍵技術(shù),該技術(shù)的信息挖掘程序為,首先,基于常規(guī)的領(lǐng)域,建立相應(yīng)的領(lǐng)域特征庫,然后采用相似度計算的方法,結(jié)合現(xiàn)有同義詞資源,充實每個特征下的相關(guān)詞匯庫。若所提出領(lǐng)域非常規(guī),那么則需要對基本特征類進行自定義,再對其配套詞匯庫,予以詞匯擴充。其次,以句子為單位,定位每個特征類的輿情傾向,再基于此,計算出文本信息中每句話的情感傾向值。最后,得出文本整體的情感傾向值,實現(xiàn)情感傾向的挖掘,實現(xiàn)對網(wǎng)絡(luò)輿情信息的深度挖掘。從整體上來看,該項技術(shù)的信息挖掘過程,相較于粗粒度情感傾向性分析技術(shù)更加復(fù)雜,但該技術(shù)能夠分析出更加精細的輿情信息,因此,現(xiàn)階段該技術(shù)的應(yīng)用更為廣泛[2]。
綜上所述,增強信息挖掘技術(shù)應(yīng)用效果,有助于網(wǎng)絡(luò)輿情工作的穩(wěn)健推進。在網(wǎng)絡(luò)輿情方面,采取網(wǎng)絡(luò)輿情信息挖掘關(guān)鍵技術(shù)措施可以找準輿情關(guān)鍵詞、實現(xiàn)輿情信息分類、降低信息挖掘成本、提高輿情現(xiàn)狀掌握效率、精細化輿情傾向分析結(jié)果,從而確保網(wǎng)絡(luò)輿情工作得以順利達到預(yù)期效果。