摘要:在線評論挖掘是從大量的在線評論數(shù)據(jù)中挖掘出有用的信息以支持管理決策的過程。本文首先介紹了在線評論挖掘的意義、任務(wù)以及半監(jiān)督學習的基本概念,并給出了半監(jiān)督學習在在線評論挖掘中的應(yīng)用模型。
關(guān)鍵詞:在線評論挖掘;半監(jiān)督聚類;半監(jiān)督分類
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9599 (2012) 20-0000-02
1 緒論
Web2.0 的迅速發(fā)展使得越來越多的用戶有機會參與網(wǎng)絡(luò)互動之中,由單純的網(wǎng)絡(luò)內(nèi)容的瀏覽者,變成了網(wǎng)絡(luò)內(nèi)容的創(chuàng)造者。博客、微博、論壇、BBS、討論組、評論網(wǎng)站等為用戶提供了自由發(fā)表意見的平臺。在電子商務(wù)領(lǐng)域中,用戶的互動性則主要體現(xiàn)在用戶對于已購買產(chǎn)品的在線評論。這些主觀性的評論文本反映了用戶針對產(chǎn)品或服務(wù)的直接用戶體驗和態(tài)度,蘊含著豐富的商業(yè)信息,對研究評論者的心理和行為有很大的幫助。
1.1 從消費者的角度來說:可以利用評論挖掘結(jié)果了解產(chǎn)品的性能和其他用戶的使用體驗,為購買決策起到很好的參考作用;電子商務(wù)網(wǎng)站對于評論挖掘結(jié)果的有效展示可以避免用戶迷失在大量的在線評論文本中無法獲得有效地信息。
1.2 從生產(chǎn)商的角度來說:生產(chǎn)商可以通過消費者的評論獲得消費者的反饋信息,發(fā)現(xiàn)潛在的機會和風險,及時的改進產(chǎn)品或服務(wù)。另外也可以從競爭對手的產(chǎn)品反饋評論中獲取商業(yè)情報,增強企業(yè)的競爭能力。
1.3 從經(jīng)銷商的角度來說,可以參考產(chǎn)品評論挖掘結(jié)果,更好的確定經(jīng)銷產(chǎn)品的范圍、種類和數(shù)量。
2 在線評論數(shù)據(jù)的特點
網(wǎng)絡(luò)評論可以給客戶以及生產(chǎn)者,銷售者帶來有價值的產(chǎn)品信息與服務(wù)反饋,產(chǎn)品評論數(shù)據(jù)的一些特點以及挖掘中存在的問題如下:
2.1 評論數(shù)據(jù)量過大。隨著網(wǎng)絡(luò)的廣泛應(yīng)用,網(wǎng)絡(luò)上的客戶評論正在飛速地膨脹著。所以要從這些評論中獲取準確的信息必須要結(jié)合機器,否則人工或者半人工的挖掘過程都是非常難以完成的任務(wù)。
2.2 非結(jié)構(gòu)化數(shù)據(jù)。網(wǎng)絡(luò)中的非結(jié)構(gòu)化數(shù)據(jù)的語義獲取還是非常困難的,需要人工智能,特別是自然語言處理等多個學科的共同努力。
2.3 更新速度快。不論是數(shù)量還是風格,在線評論數(shù)據(jù)變化很快。傳統(tǒng)的機器學習方法中分類技術(shù)利用監(jiān)督型分類,需要語料訓(xùn)練分類器,這樣在一些環(huán)境和因素下,分類器需要使用更新數(shù)據(jù)集重新訓(xùn)練,實施具有一定的困難,結(jié)果可能不準確。
2.4 獲得大量的類別信息成本較高,但是可以以較低的成本獲得少量的類別信息。
針對在線評論數(shù)據(jù)的特點及存在的問題,我們將半監(jiān)督學習方法應(yīng)用到在線評論數(shù)據(jù)挖掘中。
3 半監(jiān)督學習簡介
在機器學習領(lǐng)域中,傳統(tǒng)的學習方法主要包括監(jiān)督學習和無監(jiān)督學習。半監(jiān)督學習(Semi-supervised Learning)是近年來模式識別和機器學習領(lǐng)域研究的重點問題,是監(jiān)督學習與無監(jiān)督學習相結(jié)合的一種學習方法。它主要考慮如何利用少量的標注樣本和大量的未標注樣本進行訓(xùn)練和分類的問題。半監(jiān)督學習對于減少標注代價,提高學習性能具有非常重大的實際意義。
3.1 半監(jiān)督聚類。所謂聚類,是把大量的無標記數(shù)據(jù)樣本聚集成多個類,使同一類中樣本的相似性最大,不同類中樣本的相似性最小。聚類算法已被廣泛應(yīng)用于計算機視覺、信息檢索、數(shù)據(jù)挖掘等領(lǐng)域.聚類算法在執(zhí)行過程中不能獲得任何關(guān)于預(yù)先定義的數(shù)據(jù)項的類別信息,因而通常被看作是一種無監(jiān)督學習方法。由于沒有利用任何關(guān)于類別的信息,當所定義的聚類目標函數(shù)不適合數(shù)據(jù)本身時,數(shù)據(jù)聚類結(jié)果將不能令人滿意。另外,聚類定義的任意性有可能產(chǎn)生對于實際問題沒有任何意義的聚類劃分。
盡管對于現(xiàn)實世界問題要獲得所有數(shù)據(jù)的類別信息需要付出相當大的代價,少量樣本的類別信息還是比較容易獲得的,忽視這些少量樣本類別信息將是很大的浪費。半監(jiān)督聚類充分利用成對約束信息或少量已標記數(shù)據(jù)指導(dǎo)聚類,同時能夠利用大量無標記數(shù)據(jù)所蘊含的分布信息,獲得更好的聚類效果。實驗證明,少量信息能夠很大程度的改善聚類效果[1-4]。
半監(jiān)督聚類已經(jīng)被廣泛的運用到網(wǎng)頁檢索和文本分類、醫(yī)學數(shù)據(jù)等一系列領(lǐng)域中,在理論和實際研究應(yīng)用中都獲得了長足的發(fā)展。
3.2 半監(jiān)督分類。傳統(tǒng)的分類方法屬于有監(jiān)督學習,主要分為兩個過程:訓(xùn)練過程和分類過程,通過對已標記樣本的訓(xùn)練學習,確定分類器的參數(shù),然后用訓(xùn)練好的分類器對未標記樣本進行分類。在訓(xùn)練過程中需要大量的訓(xùn)練樣本即已標記樣本才能訓(xùn)練出較好的分類器。
半監(jiān)督分類主要利用少量的標記樣本進行訓(xùn)練,然后開拓大量的未標記樣本,不斷迭代,最終得到一個較為準確的分類器。半監(jiān)督分類問題目前有三種主要的技術(shù):基于生成式的模型、基于圖正則化框架的模型和基于協(xié)同訓(xùn)練的模型[5]。
4 在線評論挖掘的主要任務(wù)
在線評論挖掘就是對互聯(lián)網(wǎng)上大量的用戶主動發(fā)表的評論文本,采用自然語言處理技術(shù)和數(shù)據(jù)挖掘方法挖掘出有用的信息以支持決策。一般可分為針對文檔、句子、詞語三種不同粒度水平。在線評論挖掘分為以下幾個子任務(wù)[6]:
4.1 產(chǎn)品特征提取。絡(luò)客戶評論中的產(chǎn)品特征挖掘是指通過機器學習方法從大量的網(wǎng)絡(luò)客戶產(chǎn)品評論中自動地獲取用戶所關(guān)注的產(chǎn)品特征信息。
4.2 情感分類。情感分類以客戶在互聯(lián)網(wǎng)上發(fā)布的產(chǎn)品評論為研究對象,挖掘客戶的情感傾向,從而自動判斷該評論的極性,即正面評論或負面評論。通過對大量客戶評論的情感分類,可以綜合得出這些客戶對該種產(chǎn)品或服務(wù)的普遍看法。
4.3 可視化。指將評論挖掘的結(jié)果以直接、明了的方式展現(xiàn)給用戶的過程。
5 基于半監(jiān)督學習的在線評論數(shù)據(jù)挖掘模型
基于以上分析,本文給出了一個在線評論數(shù)據(jù)挖掘模型,主要包括數(shù)據(jù)收集和預(yù)處理、情感分類、產(chǎn)品特征提取和可視化四個模塊,具體過程如圖1所示。
圖1.基于半監(jiān)督學習的在線評論數(shù)據(jù)挖掘模型
5.1 數(shù)據(jù)收集和預(yù)處理模塊。數(shù)據(jù)收集過程是指從電子商務(wù)網(wǎng)站收集在線評論數(shù)據(jù)的過程。采集工具選用神采軟件工作室出品的《網(wǎng)絡(luò)神采》共享版,《網(wǎng)絡(luò)神采》是一套專業(yè)的網(wǎng)絡(luò)信息采集系統(tǒng),通過靈活的規(guī)則可以從任何類型的網(wǎng)站采集信息,如新聞網(wǎng)站、論壇、博客、電子商務(wù)網(wǎng)站等等。在互聯(lián)網(wǎng)數(shù)據(jù)挖掘、網(wǎng)絡(luò)信息監(jiān)控、文件批量下載等方面有著廣泛的應(yīng)用。
文本預(yù)處理過程主要包括:在線評論記錄的過濾,過濾質(zhì)量不高的評論,如標題中只有符號沒有文字的評論;過濾掉過短的評論(字數(shù)小于50),因為過短的評論往往用詞比較概括,不包含具體的產(chǎn)品特征,信息含量不大,在產(chǎn)品特征提取過程中可以忽略。對于在線評論集合進行分詞和詞性標注,采用中國科學院計算機所軟件室編寫的基于多層隱馬爾科夫模型的中文分詞工具 ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System);對記錄進行降維處理,同義詞合并,刪除停用詞等。
5.2 產(chǎn)品特征提取模塊。提取靜態(tài)數(shù)據(jù)集上的用戶關(guān)注產(chǎn)品特征:使用半監(jiān)督聚類算法對預(yù)處理后的文本數(shù)據(jù)集進行聚類,產(chǎn)生多個類別,不同的類別蘊含著不同的產(chǎn)品特征。對聚類的得到的每個類別進行高頻詞分析,找出這些產(chǎn)品的主要特征,并根據(jù)詞頻的高低區(qū)分不同產(chǎn)品特征信息的受關(guān)注程度。
提取時間序列數(shù)據(jù)集上的用戶關(guān)注產(chǎn)品特征:將半監(jiān)督聚類算法應(yīng)用到時間序列的在線評論文本數(shù)據(jù)集中,從而獲得用戶關(guān)注的產(chǎn)品特征趨勢。分析用戶關(guān)注產(chǎn)品特征隨時間變化的趨勢,觀測用戶對于產(chǎn)品特征的興趣所在,為產(chǎn)品和服務(wù)的改進提供參考依據(jù)。
5.3 情感分類模塊。提取靜態(tài)數(shù)據(jù)集上的用戶情感傾向:使用半監(jiān)督分類方法對預(yù)處理后的文本數(shù)據(jù)集進行分類,獲得評論集中每條記錄的情感極性-正面評論和負面評論,從而獲得用戶對于產(chǎn)品的整體情感傾向。
提取時間序列數(shù)據(jù)集上的情感傾向:將半監(jiān)督聚類方法應(yīng)用到時間序列在線評論文本數(shù)據(jù)集上進行情感分類,從而獲得用戶情感趨勢。分析用戶情感傾向隨時間變化的趨勢,監(jiān)測用戶的情感變化,以支持電子商務(wù)企業(yè)的銷售決策。
5.4 可視化模塊??梢暬K是指將在線評論挖掘的結(jié)果進行直觀的展示的過程,以人們慣于接受的圖像、圖形、表格等形式將挖掘結(jié)果表現(xiàn)出來,便于理解和記憶。
針對用戶的可視化展示主要包括在電子商務(wù)網(wǎng)站上增加在線評論挖掘的展示模塊,幫助用戶進行更好的購買決策,根據(jù)客戶需求改變產(chǎn)品展示平臺,構(gòu)建推薦系統(tǒng),提高商務(wù)效率。例如好評率的展示、用戶關(guān)注特征排序、評論有用性排序等。
針對企業(yè)的可視化展示主要是將產(chǎn)品評論挖掘結(jié)果以便于支持管理決策的形式展示。例如針對挖掘出的產(chǎn)品特征進行進一步的分析整理,展現(xiàn)層次性的產(chǎn)品結(jié)構(gòu)特征;針對情感分類結(jié)果,從絕對數(shù)值和相對比例等角度進行情感傾向的圖形化展示,便于企業(yè)發(fā)現(xiàn)潛在的機會和風險,從而幫助他們改進產(chǎn)品、改善服務(wù),獲得競爭優(yōu)勢。
參考文獻:
[1]KiriWagstaff,Claire Cardie,Seth Rogers,Stefan Schroedl.Constrained K-means Clustering with Background Knowledge[C].CML,2001,577—584.
[2]A Demiriz,KP Bennett,MJ Embrechts.Semi-supervised clustering using genetic algorithm[J].rtificial neural network in engineering.1999:809—814.
[3]Basu S,Banjeree A,Mooney RJ.Active semi-supervision for pairwise constrained clustering.Proceedings of the 2004 SIAM International Conference on Data Mining,F(xiàn)lorida,2004:333-344.
[4]李雪梅,王立宏,宋宜斌,一種混合約束的半監(jiān)督聚類算法,模式識別與人工智能,2011,24(3)
[5]周志華,王玨.器學習及其應(yīng)用[M].京:清華大學出版社,20o7:259—275.
[6]葉強,李一軍,Rob Law.挖掘中文網(wǎng)絡(luò)客戶評論中的產(chǎn)品特征方法研究.管理科學學報.2009,12(2):142-152