秦海菲,杜軍平
在網(wǎng)購中,在線點評是買家購買決策的重要依據(jù),同時也是賣家經(jīng)營信息反饋的重要環(huán)節(jié)。在線點評分為數(shù)字評分和在線評論。目前,很多學者專注數(shù)字評分,因為數(shù)字評分比較直觀,容易理解,但數(shù)字評分的粒度比較粗、少,且難于細化,例如同時被評為5分的同一家酒店,顧客對它的感受完全不一樣,有的關注環(huán)境,有的關注設施,有的關注服務等。不同的人關注點不同,興趣點也不同,評價也亦不同。從經(jīng)濟學和市場理論的角度看,產(chǎn)品和服務有多維屬性,由于消費者的偏好不同,對功能和服務的期望也不同,即用戶參考評論進行決策時,會依其偏好,只關注或更加關注某些方面的特征。只考慮數(shù)值評分無法反映用戶對產(chǎn)品的全面和精確的評價[1]。因為某一類產(chǎn)品的數(shù)字評分不能為客戶帶來過多的信息,但是在線評論可以表達顧客的真實感受,能夠被購買者參考和信賴。在線評論作為顧客在網(wǎng)絡上發(fā)布的購買體驗,對其他客戶的購買決策起著重要的影響,這些體驗也是企業(yè)在市場拓展和產(chǎn)品開發(fā)計劃時要考慮的重要信息[2]。因此,在線評論數(shù)據(jù)也變得越來越重要。
隨著網(wǎng)絡的發(fā)展,用戶生成的數(shù)據(jù)越來越多,引起了利益雙方或多方的廣泛興趣,捕獲這些數(shù)據(jù)并把它們轉換為企業(yè)的核心洞察力,可為決策、營銷、分析等不同目標服務[1-4]。在線評論數(shù)據(jù)像大數(shù)據(jù)一樣具有體量巨大,增長速度快,種類繁多,價值密度低等特點。從在線評論數(shù)據(jù)中挖掘出顧客真正關心的酒店特征和對酒店的真實感受,可為酒店的分類提供真實可靠的依據(jù),同時也為酒店的智能推薦奠定基礎。
在消費者的決策過程中,在線評論已成為非常重要的信息來源[5]。研究表明,如果產(chǎn)品被他人推薦,產(chǎn)品的選擇次數(shù)會增加兩倍,這種影響取決于推薦來源的類型[6]。消費者在準備購買產(chǎn)品或服務時越來越多地尋求同行的經(jīng)驗,超過60%的消費者在購買前會咨詢客戶的反饋意見[6]。住宿評論決定了酒店的在線形象、銷售額和未來收入[5?6]。
目前,對在線評論的研究主要是從情感出發(fā),分析人們對某一產(chǎn)品的情感色彩和情感傾向,從在線評論中判斷出人們的喜、怒、哀、樂、批評、贊揚等,從而判斷出這一產(chǎn)品的受歡迎程度。在線評論挖掘屬于觀點挖掘,但不同于情感挖掘,情感挖掘只屬于觀點挖掘的一部分。2012年劉冰[7]在情感分析和觀點挖掘一文中對觀點挖掘涉及相關技術進行了總結;2015年Ravi,Guellil等[8?9]充分闡述了觀點挖掘;2016 年 Rana[10]對觀點挖掘中的方面提取技術進行了綜述;2017年Sun等[11]和李建華等[12]對觀點挖掘上進行進一步的總結和挖掘;2018年韓忠明等[13]對網(wǎng)絡評論方面級觀點挖掘方法作了綜述研究。酒店是在線評論的重要內(nèi)容,且酒店在線評論數(shù)據(jù)的獲取是很方便的,可以從貓途鷹、攜程、美團、大眾點評、驢媽媽、微博、微信等網(wǎng)站上獲取,但從目前的研究看,有影響的研究成果還比較少。
在線評論數(shù)據(jù)屬于短文本研究。每個人每天都在應用短文本(短信、微博、微信、評論、Tweets、facebook等),短文本與普通文本有很大區(qū)別。短文本是包含有限的上下文,大多數(shù)短文本搜索查詢少于5個單詞,Tweets是不超過140個字符短文本[14]。幾乎所有的短文本都在200字以內(nèi),在線點評數(shù)據(jù)也不例外。短文本通常不遵循語法,自然語言處理技術(如詞性標注和句法解析等)難于直接應用于短文本分析[15]。短文本具有稀疏性強、價值密度低,實時性強、變化大、嘈聲大、規(guī)則性弱等特點。因此,對短文本的分析比一般的文本分析要難。目前短文本研究多數(shù)都集中在社交網(wǎng)絡,酒店在線評論的研究屬于社交網(wǎng)絡研究中的一部分。
在線評論特征的挖掘包括數(shù)據(jù)獲取、數(shù)據(jù)清洗、詞性分析、特征抽取、特征詞確定等環(huán)節(jié)。具體流程如圖1所示。
圖1 基于酒店在線評論數(shù)據(jù)的特征挖掘Fig. 1 Feature mining based on hotel online review data
在線點評數(shù)據(jù)包括數(shù)字、文本、圖片等,本文應用主題爬蟲在貓途鷹網(wǎng)(tripadvisor)和攜程網(wǎng)(ctrip)上爬取相關數(shù)據(jù),去除與主題無關的各種噪音數(shù)據(jù)(如導航條、廣告信息、版權信息和其他圖片、圖像、聲音等),對獲取到的數(shù)據(jù)進行預處理(主要是去除無關和重復的數(shù)據(jù))和清洗。
數(shù)據(jù)清洗是保證數(shù)據(jù)質量的關鍵環(huán)節(jié),在線評論數(shù)據(jù)的清洗工作主要包括數(shù)據(jù)預處理(去特殊標記、標點等)、分詞、去停用詞、去低頻詞、去高頻非特征詞,具體步驟如圖2所示。
圖2 數(shù)據(jù)清洗的過程Fig. 2 Process of data clean
文本數(shù)據(jù)預處理:完成多余字符刪除和多余數(shù)據(jù)清除。
分詞:采用中科院分詞和結巴分詞相結合的方式,分詞后的數(shù)據(jù)為分詞集1。
去停用詞:在分詞集1中很多詞沒有實際意義,僅僅代表一種結構,比如介詞、嘆詞、連詞等,把這部分詞集合在一起形成停用詞表。在數(shù)據(jù)清洗中需要將停用詞剔除,以降低特征向量維度,去除停用詞后的詞集為分詞集2。
詞頻統(tǒng)計:詞頻(term frequency,TF)是指詞或短語在給定文檔中出現(xiàn)的總次數(shù),通常認為詞頻越高,其在文檔中的重要度越高,成為關鍵詞的可能性越大[16]。在酒店評論數(shù)據(jù)中,指在評論中某個詞出現(xiàn)的次數(shù)。
詞頻排序:對分詞結果的詞頻進行降序排列,排序結果為分詞集3。
去低頻詞:對低頻詞進行剔除處理,去除低頻詞后的詞集是分詞集4。
去高頻非特征詞:在線評論數(shù)據(jù)中,特征不明顯的高頻詞會削弱特征詞的特性,去除高頻非特征詞的詞集是分詞集5。
從在線評論中提取反映評論主題的特征詞(Keyphrases,包括單詞或詞組),提取的特征詞需要滿足可讀性相關性重要性覆蓋度一致性[16]。目前比常用的特征提取方法有TF-IDF、詞頻、文檔頻率、逆文檔頻率等。單獨使用上述方法不能達到特征詞選取的良好效果。
1)詞性分析
眾多文獻提出特征詞通常是名詞短語[16,20],因此需要對詞性進行分析。
2)特征詞指標
① 詞頻(TF):詞W在評論中出現(xiàn)的次數(shù)。頻數(shù)(TF)越高,評論的次數(shù)越多,關注人群越多,關注程度也就越大。某詞W的詞頻NW(即詞W出現(xiàn)的次數(shù))為出現(xiàn)的第i次。
②詞頻率(TF1):詞W在所有詞中的比重。為了與詞頻數(shù)區(qū)分開,采用TF1表示。
處理后某一詞W的詞頻率如式(2)所示:
③詞評權重(TTW):詞W在評論中的比重。
某詞W在一條評論中被多次提到和被多人提到,意義是不一樣的,為了更好區(qū)分兩者關系,采用詞評權重(TTW)。假設每一條評論代表了一個點評人,如果一個詞被多個人評論,那么代表這個詞被多人關注,這樣的詞可以是特征詞。詞評權重既考慮了詞頻數(shù),也考慮了評論人數(shù)。TFW是詞W在評論中出現(xiàn)的次數(shù),NW是含詞W的{評∑論條數(shù)(假設}一條評論代表一個人),,詞W的詞權重計算如式(3)所示:
④ 評論頻率(DF):評論頻率也稱文檔頻率,指某條評論在總評論中的比重。
DF=包含該詞的評論條數(shù)/總評論數(shù),N是總評論數(shù),評論頻率計算如式如(4)所示:
⑤ 逆文檔頻率(IDF):衡量詞或詞組所在的文檔在整個語料庫中的頻率。
逆文檔頻率越大表明該詞越重要,它是一個詞語普遍重要性的度量[16]。IDF的思想是:如果包含詞條W的評論越少,也就是,NW越小,IDF越大,則說明詞條W具有很好的類別區(qū)分能力。特定詞語W的IDF,可以由總評論數(shù)除以包含該詞語的評論,再取對數(shù)得到。計算公式如式(5)所示:
⑥ 特征權重值(TF-IDF):詞頻?逆文檔頻率(TF-IDF)是結合詞頻和逆文檔頻率來衡量候選關鍵詞的重要度量。
詞頻?逆文檔頻率(TF-IDF)被認為是所有特征中最有效、最常用的特征之一[16]。如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF1高,并且在其他文章中很少出現(xiàn),則認為該詞或者短語具有很好的類別區(qū)分能力,適合用來分類。TF-IDF的計算如式(6)所示:
TF-IDF值與該詞的出現(xiàn)頻率成正比,與在整個評論中出現(xiàn)的次數(shù)成反比。
3)特征詞的篩選
特征詞的篩選是特征詞選取和降低特征詞維度最有效的方法。分析各特征詞指標的關系是特征詞選取中重要的環(huán)節(jié),但各個指標之間存在有很強的相關性,并且量綱差異較大。為了消除各指標量綱的影響和指標之間的相關性,采用標準差標準化(Z標準化)對數(shù)據(jù)進行標準化處理。計算公式如式(7)所示:
聚類分析是研究樣品和指標分類問題的一種多元統(tǒng)計方法[17?19]。在實際應用中一般有兩種處理方式,一種是根據(jù)分類問題本身的專業(yè)知識結合實際需要來選擇分類方法,并確定分類個數(shù);另一種是多用幾種分類方法,把結果中共性取出來,如果用幾種方法的某些結果都一樣,則說明這樣的聚類確實反映事物的本質[19]。采用專業(yè)知識與多種聚類算法結合的方式對特征進行篩選,以確定特征詞。
算法1 在線評論數(shù)據(jù)的特征挖掘聚類算法
②計算各類之間的距離(類平均法、ward法、最大距離法、相似分析法),得到觀測值矩陣;
③合并類間距離最小的兩類為一新類。并重新計算新類與各類之間的距離,更新矩陣表,類的總個數(shù)依次遞減,直到為1;
④畫聚類樹圖;
⑤根據(jù)聚類圖和專業(yè)知識決定分類的個數(shù)和成員;
4)特征詞提取方法評價
本文認為特征詞能代表評價主題,Nc為代表評價主題的特征詞數(shù),NA為選擇的特征詞數(shù),準確率P如式(9)所示:
有學者研究提出召回率不適合評論數(shù)據(jù)的評價指標,因此本文借助別人提出的GMM指標,Nc為能代表評價主題的特征詞數(shù),NA為所選擇的特征詞數(shù),準確率GMM如式(10)所示:
采用數(shù)據(jù)集2對所選特征詞進行校驗。
本文采用主題爬蟲對網(wǎng)絡數(shù)據(jù)進行抓取。獲取全國高端酒店(四、五星級酒店)的在線點評數(shù)據(jù),并對在線點評數(shù)據(jù)進行處理,把全國高端酒店(四、五星級酒店)按數(shù)字評分進行排序,取出數(shù)字評分排在前20名的酒店數(shù)據(jù)為數(shù)據(jù)集1和數(shù)字評分排在后20名的酒店數(shù)據(jù)為數(shù)據(jù)集2。應用數(shù)據(jù)集1進行建模分析。在建模過程中,對數(shù)據(jù)進行清洗,再對數(shù)據(jù)進行特征抽取、特征篩選和特征選取,應用數(shù)據(jù)集2對特征詞進行校驗。
根據(jù)實驗需求,從網(wǎng)絡上爬取的50余萬條數(shù)據(jù)中篩選出前20名的酒店174 449條評論數(shù)據(jù)(數(shù)據(jù)集1)和后20名的酒店104 898條數(shù)據(jù)(數(shù)據(jù)集2)進行分析,采用中科院分詞系統(tǒng)和結巴分詞相結合的方法分別對數(shù)據(jù)集1和數(shù)據(jù)集2進行分詞,去停用詞后分別得到4 049 078個詞條和1 857 523個詞條,并分別對詞條進行分析。由于詞條數(shù)太多,再次對詞條的低頻詞和高頻非特征詞進行處理,為了降低詞條維度和分析的難度,采用降維、抽樣的方法對詞條進行分析。抽取了頻數(shù)排在前100的詞條進行詞云分析,詞云圖如圖3所示。
圖3 詞云圖Fig. 3 Word cloud
近年來,有許多學者對特征詞的提取方法進行研究。特征詞提取方法可以歸納為監(jiān)督型和非監(jiān)督型兩類[20]。監(jiān)督型可以用多種方法訓練模型,并實時調整參數(shù);非監(jiān)督型特征詞抽取主要有基于統(tǒng)計、基于詞性規(guī)則、基于主題模型、基于詞排列圖的方法。本文將利用統(tǒng)計、詞性和主題模型的方法對特征詞抽取進行分析。
3.1.1 詞性分析
從圖3可以看出詞條多且復雜,如果把所有的詞都作為候選特征詞,那么特征向量的維數(shù)將非常大,難于進行計算和分類。在詞云圖中很多詞要與其他詞組合在一起才具有實際意義。比如:“服務好”、“服務不錯”、“服務不好”、“服務很差”、“環(huán)境好”、“環(huán)境不錯”、“環(huán)境很好”、“環(huán)境很差”、“好”、“不錯”、“差”等詞是對某一主題的評價。根據(jù)酒店在線評論數(shù)據(jù)的分詞結果,對詞性的分析如表1所示。
表 1 詞性分析Table 1 Part of speech analysis
從表1可以看出,在所有詞語中名詞、形容詞、動詞、副詞在所有詞中占到了2/3,名詞的占比是最高的,占到了25.10%,其次是動詞占20.99%(包含動名詞占總詞數(shù)的2.5%,后面分析時把這部分詞歸屬名詞處理)。對詞性進行分析,分析結果如圖4所示。
圖4 詞性詞云圖Fig. 4 Part of speech word cloud
根據(jù)圖4名詞、形容詞、動詞、副詞的詞云圖可以看出名詞作為評價的主題,作為候選特征詞的確比較顯著。除名詞外,在動詞詞云圖中最為明顯的“服務”一詞也可以作為評價的主題。對這部分詞語的詞性進行查看,“服務”屬于動名詞,為了特征提取的方便,把動名詞歸屬于名詞的行列。但還有一部分詞語完全是動詞,但也表達名詞的意思,比如“裝修”、“位置”、“出行”等,這一部分是動詞名用,對于這一部分詞需要作為特征詞分析。評論數(shù)據(jù)屬于短文本數(shù)據(jù),并沒有完全遵從自然語言的語法結構,動詞名用或名詞動用情況很常見。因此,在特征詞的選取上只選取系統(tǒng)所分的名詞是不可取的,必須根據(jù)專業(yè)、行業(yè)、常識等對詞性進行進一步的篩選與確定。根據(jù)詞性的詞頻對候選特征詞的分析如表2所示。
表 2 候選特征詞詞性分析Table 2 Part of speech analysis of candidate feature words
綜合幾種特征詞提取方法,本文先利用無監(jiān)督方法TF(詞頻數(shù))提取候選特征,所提取的20個特征詞能代表評價主題值有4個。綜合TF和詞性進行分析,形容詞、副詞中沒有能代表評價主題的候選特征詞;動詞中代表評價主題的有3個,名詞中16個。利用TF_IDF提取的候選特征詞代表評價主題的有10個。而綜合無監(jiān)督型的TF、詞性在無監(jiān)督的情況下動詞+名詞提取的特征詞效果與TF_IDF的提取效果一樣,而選擇名詞作為特征詞,在監(jiān)督下篩選動詞作為補充,所提取的效果要比只提取名詞的效果要好,準確率和GMM值都達到了87%,而若名詞+動詞的篩選都在監(jiān)督下完成,所得的候選特征詞與評價主題的特征詞的準確率和GMM達到95%以上。具體結果如圖5所示。
圖5 特征詞提取方法對比Fig. 5 Comparison of feature words extraction methods
雖然動詞+名詞結合的特征詞比較適合分析,但候選特征詞的維度比較大,各候選特征詞之間的關系比較復雜,是否具備特征詞的特性還需要進一步分析,特征詞指標分析如表3所示。
從表3可以看出根據(jù)詞頻數(shù)(TF)、詞頻率(TF1)、詞頻權重(TTW)、評論頻率(DF)、逆文檔頻率(IDF)和TF1-IDF這6個評價指標選取特征詞時,在各個指標上選取特征詞的結果都不一樣。TF和DF最高的是“服務”,TF1最高的是“房間”,TTW最高的是“環(huán)境”,IDF最高的是“裝修”,TF1-IDF最高的是“溫泉”?!皽厝钡腡F1-IDF的值是最高的,但從專業(yè)的角度看,溫泉可能是高端型酒店的一個特征,但不能作為最重要的評價指標。“溫泉”的TF1-IDF值高說明有很多高端客戶在關注“溫泉”,但用“溫泉”作為酒店評論數(shù)據(jù)的特征詞是沒有代表性的。從單一的指標中選取出的特征詞不能完全滿足特征詞選擇的可讀性、相關性、重要性、覆蓋度、一致性的要求,但各個指標對候選特征詞又都有影響。因此,考慮對象酒店在線評論數(shù)據(jù)的實際情況,綜合應用TF、TF1、TTW、DF、IDF和TF1-IDF這6個指標對候選特征詞進行分析。從表3可以看出各個候選特征詞在各個評價指標上的量綱是不同的,并且差距很大,TF、TF1、TTW、DF、IDF和 TF1-IDF各指標之間存在著很強的相關性。綜合19個候選特征詞的6個評價指標的實際情況看,降低特征詞的維度是選取特征詞最實用的方法。
表 3 指標分析Table 3 Index analysis
綜合圖6候選特征詞的4個聚類樹圖根據(jù)聚類結果和酒店的專業(yè)知識,聚類為5類比較合理,把酒店在線評論候選詞歸并為5類,并對5類特征進行綜合分析,綜合19個候選特征詞的聚類結果如表4所示。
圖6 數(shù)據(jù)集1候選特征詞聚類Fig. 6 Dataset1 Candidate feature words cluster
表 4 候選特征詞歸類表Table 4 Candidate feature word classification
通過表4可以看出特征詞“服務”包含了“服務”、“服務員”、“服務態(tài)度”、“前臺”等服務信息;特征詞“設施”包含了“房間”、“設施”等硬件設施信息;特征詞“環(huán)境”包含了“位置”、“環(huán)境”、“交通”、“地理位置”等信息;特征詞“餐飲”包含了“早餐”、“水果”、“味道”等餐飲信息;整體舒適度包含了“大堂”、“性價比”、“價格”、“衛(wèi)生”、“裝修”、“溫泉”等整體舒適度信息。這5個特征詞能滿足特征詞選取的可讀性、相關性、重要性、覆蓋度、一致性的準則,因此可以作為酒店在線評論數(shù)據(jù)的特征詞。
3.3.1 方法的驗證
采用同樣的方法,用數(shù)據(jù)集2(數(shù)字評分排在后20家的酒店數(shù)據(jù))的詞條進行了詞性分析,處理后得到了24個候選特征詞,計算出24個候選特征詞的 6個指標 (TF、TF1、TTW、DF、IDF和TF1-IDF)的值,并對數(shù)據(jù)進行標準化后,采用6個指標對候選特征詞進行聚類,所得的聚類結果如圖7所示(為了圖形清晰,本文只選取了TF最高的數(shù)據(jù)進行展示)。
綜合圖7候選特征詞的4個聚類樹圖,根據(jù)聚類結果,可以看出聚類為5類比較合理,根據(jù)酒店的專業(yè)知識,把酒店在線評論候選詞歸并為5類,結果如表5所示。
圖7 數(shù)據(jù)集2候選特征詞聚類Fig. 7 Dataset2 Candidate feature words cluster
從表5中可以看出,部分被歸并的候選特征詞有了更細化、更相近或概括的變化,例如設施中增加了“床”、“房”、“空調”等細化詞;環(huán)境中增加了“地段”、“出行”、“周邊”、“附近”等相近詞;整體舒適度增加了“總體”、“整體”概括詞。綜合酒店在線評論的兩個數(shù)據(jù)集和網(wǎng)絡在線點評數(shù)據(jù)的特性,可以看出把服務、設施、環(huán)境、餐飲和整體舒適度作為酒店在線評論數(shù)據(jù)的特征詞是合理的。
表 5 后20名酒店特征詞歸類表Table 5 The last 20 Hotel feature word
綜合6個評價指標聚類圖,對于評論數(shù)據(jù),TF分析的結果要比TF_IDF的效果好,選取以TF為主,TF1、TTW、DF、IDF、TF1_IDF為輔的指標聚類時,選取TF排在前10的候選特征詞聚類和選取更多的候選特征詞聚類結果類似,后面的候選特征詞只是對前面結果的補充或細化。
本文從酒店在線點評數(shù)據(jù)出發(fā),對數(shù)據(jù)的感知獲取、數(shù)據(jù)預處理、詞性分析、特征選取、特征篩選、特征確定等進行了研究。對特征詞的篩選和確定進行了分析。單個指標(TF或者TF1-IDF)對特征詞的篩選和選擇效果不理想,需要綜合 TF、TF1、TTW、DF、IDF、TF1-IDF 多個指標進行分析。采用了無監(jiān)督的聚類方法對變量進行聚類分析,聚類時采用數(shù)據(jù)標準化消除指標相關性和量綱的影響。綜合聚類分析的結果和酒店專業(yè)知識選定酒店在線評論數(shù)據(jù)的特征詞,通過將20家酒店作為數(shù)據(jù)集2對特征詞進行校驗,得出酒店在線評論的特征詞是服務、環(huán)境、設施、整體舒適度、餐飲。下一步將根據(jù)特征詞構造更方便、快捷、可靠的分類器,為酒店和客戶進一步細分做好準備,同時也為酒店為客戶提供的個性化的智能推薦服務奠定基礎。