劉 坤,黃 煒,2,李總苛
(1湖北工業(yè)大學(xué)管理學(xué)院,湖北 武漢430068;2武漢理工大學(xué)管理學(xué)院,湖北 武漢430070)
近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,Web信息與日俱增,信息技術(shù)滲透到人們生活的各個角落?;ヂ?lián)網(wǎng)的高速發(fā)展同時帶動了電子商務(wù)業(yè)務(wù)。2013年,中國最大的電子商務(wù)網(wǎng)站淘寶網(wǎng)總成交額為1.1010萬億元,相當(dāng)于總成交額為765億美元的eBAY的2.3倍。在2014年,僅在雙11這一天淘寶網(wǎng)上的電子商務(wù)總額就達到571億元人民幣[1]。
網(wǎng)上購物不受時間和空間的限制,突破了傳統(tǒng)商務(wù)模式的障礙,無論對消費者、企業(yè),還是市場都有著巨大的吸引力和影響力。網(wǎng)購的局限性,比如無法觸摸到實物、不知道是否存在色差、尺碼是否標準等缺陷,使得用戶在購買商品前大多喜歡參考別人對商品的評論信息,以此來確定是否符合自己的需求;商品制造商也希望根據(jù)評論信息及時認識到商品的不足,對商品做出改進,開發(fā)出更適合用戶的商品。因此迫切需要一種有效的方法來整理和挖掘這些海量的評論,并且以直觀統(tǒng)一的形式展現(xiàn)出結(jié)果。
本文運用自然語言處理技術(shù)以及信息抽取技術(shù)提高用戶評論信息的利用率以及應(yīng)用范圍,使用戶能更全面地了解要購買的商品,對用戶的決策提供支持;同時對商家而言,可根據(jù)抽取的信息得出消費者對商品信息的滿意度,從而改進商品質(zhì)量和服務(wù)質(zhì)量,提高用戶滿意度,對于網(wǎng)絡(luò)個性化服務(wù)系統(tǒng)的改進與更新具有一定價值。
由于評論信息形式和內(nèi)容的隨意性,大多數(shù)評論者喜歡寫上一大堆話,而具有直接導(dǎo)向性的評論語言只占很小一部分,致使對評論文本的研究十分困難,通常需要結(jié)合數(shù)據(jù)挖掘、自然語言處理、統(tǒng)計學(xué)、語料庫學(xué)習(xí)等多學(xué)科交叉來解決評論信息的抽取問題。商品評論挖掘是一種能從非結(jié)構(gòu)化數(shù)據(jù)中找到有效信息的技術(shù),將文本的非結(jié)構(gòu)化信息轉(zhuǎn)化為有效的關(guān)鍵信息需要將其結(jié)構(gòu)化,文本信息自動抽取技術(shù)正是數(shù)據(jù)結(jié)構(gòu)化的一個重要環(huán)節(jié)。
評論信息抽取研究中,大多從主題的角度進行商品評論的信息抽取,本文嘗試從商品屬性角度著手,以商品屬性為中心,來挖掘出消費者對其的情感觀點,以及觀點態(tài)度的強弱。
Riloff和Jones[2]在1999年提出基于詞典的信息抽取,但該方法的在抽取文本信息之前,首先需要人工去建立或是整理一個詞典,根據(jù)詞典定義的模式去抽取存在于詞典中但未標記出的所需的文本信息。以Kushmerick[3]為代表的研究者提出一種基于規(guī)則的信息抽取,但基于規(guī)則的文本信息抽取模型也需要先構(gòu)造抽取規(guī)則集,相對于基于詞典的信息抽取有一定的擴展性。其表示關(guān)系的造句結(jié)構(gòu)可獲取有關(guān)詞匯和其它語義關(guān)系的信息[4]。但規(guī)則的定制主要依賴語言學(xué)家的語言知識,需要構(gòu)造描述領(lǐng)域詞特點的規(guī)則庫。但總的來說,匹配基于詞典和基于規(guī)則的抽取模型人工參與度較大,工作繁瑣,且系統(tǒng)適應(yīng)性效果較差。2004年Hu和Liu等人[5]首次提出使用關(guān)聯(lián)規(guī)則挖掘算法、壓縮修剪、冗余修剪等技術(shù)抽取高頻名詞或名詞短語,但是實驗表明,其信息抽取的精度還有待進一步提高。
基于詞典和規(guī)則的信息抽取的方法需要人工參與,并且領(lǐng)域性較強,難于擴展。而基于統(tǒng)計學(xué)習(xí)的方法適應(yīng)性較好,只需要少量的人工參與,但與此同時,基于統(tǒng)計的學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù),并且抽取效果對算法的設(shè)計要求較高。
3.2.1 最大熵模型 所謂最大熵方法就是遵循最大熵原理的建模[6],基本思想是選擇符合約束條件的所有分布中熵最大的那一個分布。最大熵原理最初由 E.T.Jaynes在1957年提出,DellaPietra等人[4]于1992年首次將其應(yīng)用于自然語言處理模型中。
章劍鋒等[7]提出了基于最大熵模型的中文評論主觀性關(guān)系挖掘方法,來提取抽取評價詞和目標對象之間的關(guān)聯(lián)關(guān)系。Somprasertsri和Lalitrojwong[8]提出用一個預(yù)先標注的文本訓(xùn)練最大熵模型,然后用訓(xùn)練得到模型從商品評論中抽取評論對象,實驗結(jié)果的準確率達到了71.88%,召回率為75.23%。
最大熵模型的優(yōu)點之一是可融合多種特征于一個模型,并且可以直接對這些特征進行建模。但最致命的是,作為一種分類器模型,最大熵對每個詞都是單獨進行分類的,標記之間的關(guān)系無法得到充分利用。
3.2.2 隱馬爾科夫模型 隱馬爾科夫模型(hidden Markov models)基于馬爾科夫假設(shè),當(dāng)前狀態(tài)只與前一個狀態(tài)有關(guān)[9]。對于文本信息抽取,每個維度的關(guān)鍵詞可看作一種狀態(tài),利用HMM抽取關(guān)鍵詞,可看作一個由觀測詞的序列到某一維度的狀態(tài)序列的解碼過程。
HMM易于建立,不需大規(guī)模的詞典集與規(guī)則集,抽取精度較高。文獻[10]應(yīng)用 HMM 抽取計算機科學(xué)研究論文的標題、作者和摘要等頭部信息。文獻[11]使用隨機優(yōu)化技術(shù)動態(tài)選擇最適合的HMM模型結(jié)構(gòu)進行信息抽取。但HMM是一種產(chǎn)生式模型,具有較強的獨立性假設(shè),所以忽略了上下文的特征,另一方面,產(chǎn)生式模型需要估計聯(lián)合分布,所以在分詞任務(wù)上的應(yīng)用性能要低于判別式模型。
3.2.3 條件隨機場模型 條件隨機場(CRFs,Conditional Random Fields)算法是另一種基于監(jiān)督的挖掘方法,它是一種無向圖模型,可用于最大化條件概率。它通過定義最大化條件概率p(y|X),選擇一個標簽序列y標注一個觀察序列X。該特性使得CRFs廣泛使用于傳統(tǒng)的信息抽取任務(wù),如序列標記、數(shù)據(jù)分割、組塊分析、詞性標注和解析等。顯然,基于CRFs的特點,它能考慮商品評論文本中被評價實體的任意方面,而且不需要條件獨立假設(shè),因此在產(chǎn)品評論挖掘中有潛在的優(yōu)勢。Chen等人[12]利用CRFs實現(xiàn)了從評論中抽取多種類型的評論信息。
最大熵模型最大的缺點是無法很好地處理序列標注問題,因為他定義的特征無法刻畫狀態(tài)間的聯(lián)系。隱馬爾科夫模型一個最大的缺點就是由于其輸出獨立性假設(shè),導(dǎo)致其不能考慮上下文的特征,限制了特征的選擇。針對以上兩個模型的缺點,對于序列標注問題,文獻[McCallum,2000][13]一文中提出最大熵隱馬模型,其核心思想是對相鄰的狀態(tài)使用最大熵模型。該模型可以任意選擇特征,但由于其在每一節(jié)點都要進行歸一化,所以只能找到局部的最優(yōu)值,導(dǎo)致最后得到的序列僅僅是個局部最優(yōu)解,同時也帶來了標記偏置的問題(label bias),即在計算概率分布時,凡是訓(xùn)練語料中未出現(xiàn)的情況全都忽略掉。針對這個問題,[Lafferty,2001][14]一文中提出了條件隨機場模型(CRFs),CRFs算法統(tǒng)計了全局概率,在做歸一化時,考慮了數(shù)據(jù)在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM 中的標記偏置(label bias)的問題。
從圖1模型中來看待三個算法的區(qū)別:HMM是一種產(chǎn)生式模型。圖1詮釋了HMM模型中存在兩個假設(shè):一是輸出觀察值(X)之間嚴格獨立,二是狀態(tài)的轉(zhuǎn)移(Y)過程中當(dāng)前狀態(tài)只與前一狀態(tài)有關(guān)(一階馬爾可夫模型)。因此HMM模型在模型的特征選擇過程中,忽略了上下文的特征,影響特征的選擇。
圖1 HMM模型圖
由圖2知:最大熵隱馬模型MEMM模型克服了觀察值之間嚴格獨立所產(chǎn)生的問題,可以任意的選擇特征。但是由于狀態(tài)之間的假設(shè)理論,使得該模型存在標注偏置問題,即在訓(xùn)練語料中未出現(xiàn)的標注全都忽略。
圖2 MEMM模型圖
圖3 顯示CRFs是無向圖模型,它是一種鏈式的判別模型,不需要獨立性假設(shè)。模型解決了標注偏置問題,去除了兩個不合理的假設(shè),即HMM中當(dāng)前狀態(tài)只與上個狀態(tài)相關(guān),以及當(dāng)前的觀測值只與當(dāng)前狀態(tài)相關(guān)(上圖Y之間沒有箭頭了)。但隨之,模型相應(yīng)地也變復(fù)雜了。
圖3 CRFs模型圖
因此,基于序列標注的信息抽取模式中,CRFs有以下三個優(yōu)點:
1)與最大熵模型比較:CRFs是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯(lián)合概率分布,而不是在給定當(dāng)前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。
2)與HMM比較:CRFs沒有HMM那樣嚴格的獨立性假設(shè)條件,因而可以容納任意的上下文信息,特征設(shè)計靈活。
3)與MEMM比較:由于CRF計算全局最優(yōu)輸出節(jié)點的條件概率,它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。
但于此同時,正是由于這些優(yōu)點,在序列標注的信息抽取模式中,CRFs需要訓(xùn)練的參數(shù)更多,時空開銷大、復(fù)雜度高。
基于以上對信息抽取的主流機器學(xué)習(xí)算法進行分析,本文采用精度和對數(shù)據(jù)特征擬合度更好的條件隨機場算法進行商品評論的信息抽取,對訓(xùn)練樣本進行評論文本信息抽取的序列標注。
本研究實驗的數(shù)據(jù)來自天貓網(wǎng)站上優(yōu)衣庫官網(wǎng)的商品評論數(shù)據(jù)2萬條。CRFs的算法實現(xiàn)來自采用開源的CRF++-0.54工具包,以此為基礎(chǔ)展開CRFs模型的訓(xùn)練和測試。
原始的商品評論數(shù)據(jù)經(jīng)過清洗和去噪后,利用jieba分詞組件對每一條訓(xùn)練數(shù)據(jù)進行分詞。其中,為了提高jieba分詞針對當(dāng)前數(shù)據(jù)的分詞效果,本研究根據(jù)當(dāng)前數(shù)據(jù)整理了一套自定義詞典(表1)。
表1 自定義詞典樣例
CRFs模型的訓(xùn)練需要提供訓(xùn)練數(shù)據(jù)和特征模板,由此來生成一個模板(model)。根據(jù)條件隨機場算法的特征選取特點,本實驗對jieba分詞的五種不同詞性標注信息。分別為:名詞n,動詞v,形容詞a,副詞f,其他o。對于文本評論信息,定義了待抽取的三個維度的關(guān)鍵信息,其輸出標記為:商品特征T,程度副詞或者否定副詞C,情感觀點P,其他O。
訓(xùn)練數(shù)據(jù)文件特征由兩個維度的信息構(gòu)成,一個是詞的本身,一個是當(dāng)前詞的詞性。這兩列數(shù)據(jù)由Tab或空格隔開,第三列是人工標注的標簽,從標簽集合{T,C,P,O}取出,并對應(yīng)指出評論文本中的各個維度的關(guān)鍵信息。每個評論樣本以空行隔開。在使用CRF++過程中,本實驗采用默認的一元模板和二元模板信息,存儲在template文件中。CRF++可根據(jù)兩個維度的信息和人工標注的標簽信息進行特征學(xué)習(xí),以此來構(gòu)建特征函數(shù)。訓(xùn)練樣本示例見圖4。
圖4 訓(xùn)練樣本示例圖
訓(xùn)練數(shù)據(jù)準備好后,即可進行模型的訓(xùn)練了。訓(xùn)練命令為:
crf_learn template_file train_file model_file
crf_learn為調(diào)用訓(xùn)練程序,template_file為定義的模板文件,train_file為標注好的訓(xùn)練樣本,model_file是根據(jù)模板和標注樣本生成的模型文件。運行截圖見圖5。
圖5 CRFs運行截圖
其中,運行中窗口的信息:參數(shù)iter表示模型迭代次數(shù),terr表示當(dāng)前標記錯誤率,serr為句子標記錯誤率,obj表示當(dāng)前對象的值。diff為與上一個對象值之間的相對差。當(dāng)obj值收斂到一定值時,CRFs模型迭代結(jié)束,此時訓(xùn)練完成。
訓(xùn)練完成后,即可對測試數(shù)據(jù)進行標注,以檢驗CRFs算法對評論文本的各個維度信息的抽取效果。測試命令為:
crf_test-m model_file test_files> output.txt
文件output.txt中記錄了對test_files的測試結(jié)果。其中,第三列為人工標注的關(guān)鍵詞標簽,最后一列為根據(jù)model的各個維度的信息抽取,為機器自動打標(圖6)。
圖6 機器自動打標圖
為了評估利用CRFs算法實現(xiàn)挖掘的性能,本文采用在文本處理問題研究中普遍使用的性能評估指標:查準率P(Precision)、查全率 R(Recall)。本文中研究的問題主要是判斷利用CRFs抽取的觀點元素是否為人工標注的真實類別。
表2 準確率和召回率測試結(jié)果 %
本文采用序列標注技術(shù),利用機器學(xué)習(xí)算法CRFs對商品評論信息進行了多維度特征信息的設(shè)計和抽取。仿真實驗表明,在詞本身的信息和詞性信息的輔助下,條件隨機場算法對商品評論信息的關(guān)鍵信息抽取有著良好的效果。對于實驗的擴展和應(yīng)用,可針對抽取出來的各個維度的商品的關(guān)鍵信息匯集商品屬性,以及商品評論中的觀點信息進行詞庫整理和統(tǒng)計分析、情感分析。同時可考慮添加句法結(jié)構(gòu)信息來提高特征信息的維度,以此提高CRFs算法對各維度信息抽取的精度。
[1] 重慶晨報.天貓雙十一交易額突破571億元[EB/OL].(2014-11-12).[2014-12-14].http://news.163.com/14/1112/02/AAQM96Q600014AED.html.
[2] Riloff E,Jones R.Learning dictionaries for information extraction by multi-level bootstrapping[C]//AAAI/IAAI.1999:474-479.
[3] Kushmerick N.Wrapper induction:Efficiency and expressiveness[J].Artificial Intelligence,2000,118(01):15-68.
[4] 趙麗芳.基于最大熵方法的評論信息抽取研究[D].上海:上海交通大學(xué),2009.
[5] Hu Min-qing,Liu Bing.Mining and summarizing customer reviews[C]//Proc of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004:168-177.
[6] 李素建,劉群,張志勇,等.語言信息處理技術(shù)中的最大熵模型方法[J].計算機科學(xué),2002,29(07):108-110.
[7] 章劍鋒,張奇,吳立德,等.中文觀點挖掘中的主觀性關(guān)系抽取[J].中文信息學(xué)報,2008,22(02):55-59.
[8] Somprasertsri G,Lalitrojwong P.A maximum entropy model for product feature extraction in online customer reviews[C]//Cybernetics and Intelligent Systems,2008IEEE Conference on.IEEE,2008:575-580.
[9] Rabiner L.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(02):257-286.
[10]Seymore K,McCallum A,Rosenfeld R.Learning hidden Markov model structure for information extraction[C]//AAAI-99Workshop on Machine Learning for Information Extraction.1999:37-42.
[11]Freitag D,McCallum A.Information extraction with HMM structures learned by stochastic optimization[J].AAAI/IAAI,2000,2000:584-589.
[12]Chen L,Qi L,Wang F.Comparison of feature-level learning methods for mining online consumer reviews[J].Expert Systems with Applications,2012,39(10):9588-9601.
[13]McCallum A,F(xiàn)reitag D,Pereira F C N.Maximum entropy markov models for information extraction and segmentation[C]//ICML.2000:591-598.
[14]Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//ICML.2001:282-289.