【摘要】本文以文本信息中的情感偏向性數(shù)據(jù)挖掘作為出發(fā)點,對中國用戶使用產品的評論文本信息加以分析和討論,采用Apriori算法解讀文本信息的特征挖掘,并結合監(jiān)督形式的情感分析技術,實現(xiàn)了對使用產品評論信息的情感傾向性數(shù)據(jù)挖掘,以便于更好地幫助生產服務商改進自我的生產缺陷,提高行業(yè)內的競爭力。
【關鍵詞】情感傾向性數(shù)據(jù)挖掘文本信息
伴隨著現(xiàn)代化的電子商務迅猛發(fā)展,大多數(shù)的用戶開始選擇瀏覽網絡產品評論來了解產品和服務的信息,以便更好的選擇出自己最滿意的產品類型。同時,用戶評論信息也是一種信息的反饋途徑,幫助了產品制造商及時的發(fā)現(xiàn)產品的缺陷和服務體制的漏洞,提高自身的競爭力。這就必須得依靠有效的數(shù)據(jù)挖掘手段來提高用戶獲取信息的全面性和準確性。
一、研究背景
Popescu等人把用戶評論的文本信息挖掘任務分為以下步驟:(a)挖掘評論中的主要產品屬性;(b)挖掘用戶評論文本信息中對于產品屬性的主要觀點;(c)分析用戶評論文本信息中的情感傾向;(d)對提取出的有效信息進行重要性排名。本文的研究內容主要涉及的就是以下幾個方面。
1、挖掘產品的特征屬性
由于國外的研究者較早的意識到分析挖掘有效信息對于產品生產商的重要性,所以在英文的信息挖掘方面,他們已經取得了較好的研究領域發(fā)展的成果。在2004年時Hu等人就采用應用關聯(lián)分類的方法對文本信息中進行有效的挖掘。利用這種非監(jiān)督性的方法對一些產品評論的文本信息進行挖掘研究,平均的調查準確率達到了72%,然后在此基礎上再對信息進行后續(xù)加工處理,就得到了用戶對于產品主要特征的情感傾向性。
由于網絡評論信息數(shù)據(jù)挖掘的范圍較大,并且信息的專業(yè)性不強,信息變化快,人工參與監(jiān)督型的方法不滿足于對整體信息的挖掘,這就需要采用非監(jiān)督型的數(shù)據(jù)挖掘方式,總體的對文本信息進行分析研究。本文在以上研究的基礎上,運用關聯(lián)規(guī)則的非監(jiān)督型挖掘方式和情感傾向性分析技術來更好地對評論進行挖掘深析。
2、情感分析
情感分析也叫做觀點挖掘,和本文的研究主題相比較,觀點挖掘更偏向于文本中對相關主題內容所表達觀點的發(fā)現(xiàn)和挖掘。文本信息具有主觀性和客觀性之分:主觀性的文本偏向于對一種觀點的表達和認知;二客觀性文本偏向于對一種事實的說明和稱述。觀點挖掘的目的就是將文本中的主觀性文本信息識別出來,分析其中含有的觀點信息以及她們之間還存在的潛在的聯(lián)系,將得到的結論應用到實際問題中去。主體在主觀性文章中表達對某些或者某一實體的認知,這其中就包含著大量的主觀性情感。情感分析的目的就是判斷文本信息中體現(xiàn)的情感傾向,可以分為正面、負面和中性三類。
二、文本信息挖掘方法
本文在以上研究的基礎上,運用關聯(lián)規(guī)則的非監(jiān)督型挖掘方式和情感傾向性分析技術來更好地對評論進行挖掘深析。具體的分析方法可以分為以下幾個步驟:(a)利用中文語言的分析工具對文本信息中的詞性進行標注。(b)按照產品的屬性分類模型,逐字逐句的分析信息的情感傾向。分類則采用LingPipe自然語言分析工具。對文本信息的情感傾向進行匯總,加入到觀點評論的數(shù)據(jù)庫中。(c)對進行詞性標注后的文本信息建立關聯(lián)規(guī)則的事務文件。(d)在關聯(lián)規(guī)則的Apriori算法基礎上,挖掘出頻繁項集作為候選的特征屬性集合I0。(e)將抽取的產品特征文本信息屬性集I0按照近鄰規(guī)則進行篩選,篩選后的結果作為候選特征屬性集I1。(f)將候選特征屬性集I1按照獨立支持度的規(guī)則進行分析抽取,形成候選特征屬性集I2。(g)將I2過濾形成特征屬性集合I3;再從中過濾掉單字名詞的項目,包括單字名詞的n項頻繁項(n≤3)。剩余的則成為了最終的產品特征屬性集I。(h)在觀點數(shù)據(jù)庫中挖掘到關于產品特征屬性的語句,分析出句子包含的情感傾向。(i)再按照句子出現(xiàn)的頻率性大小進行排列,并總結出正面和負面信息的數(shù)量。
按照這種方法對文本信息進行挖掘,不用建立特征屬性的概念模型就可以得出文本信息的特征屬性。本文中以獲取產品特征分析為例,運用觀點挖掘結合情感分析的技術,從大量的用戶文本信息中得到了有效的評論信息,使用這種方法進行分析挖掘實驗表現(xiàn)出了極大的優(yōu)越性,為生產制造商和客戶提供了經濟實用的決策手段。
參考文獻
[1]唐明.文本挖掘及其在多文化交流平臺中的應用[D].西南大學,2006
[2]黃立冬.基礎教育資源搜索引擎中的中文分詞技術研究[D].南京師范大學,2006