陳 鴻,金培權(quán),岳麗華,胡玉娟,殷鳳梅
(1.合肥師范學(xué)院公共計算機教學(xué)部,合肥230091;2.中國科學(xué)技術(shù)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,合肥230027)
基于上下文特征分類的評論長句切分方法
陳 鴻1,金培權(quán)2,岳麗華2,胡玉娟1,殷鳳梅1
(1.合肥師范學(xué)院公共計算機教學(xué)部,合肥230091;2.中國科學(xué)技術(shù)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,合肥230027)
商品評論文本對消費者和商家的決策都有重要參考價值。用戶在評論中使用的語言較為隨意,語法結(jié)構(gòu)不規(guī)則,給文本分析帶來很大難度。正確的句子切分是文本信息抽取和挖掘工作的基礎(chǔ)。為解決商品評論中用戶省略標(biāo)點情況下的句子切分問題,基于上下文特征,提出使用機器學(xué)習(xí)的方法對評論長句進行切分。根據(jù)大規(guī)模評論語料的統(tǒng)計特征選取候選句子切分點,對每一個候選句子切分點提取其上下文特征,并根據(jù)語料的統(tǒng)計特征,使用邏輯回歸對候選切分點進行分類。實驗結(jié)果表明,該方法能夠有效解決商品評論中用戶省略標(biāo)點情況下的句子切分問題。
句子切分;標(biāo)點省略;機器學(xué)習(xí);上下文特征;N元文法;邏輯回歸
商品評論作為用戶和用戶以及用戶和商家間的一種溝通工具,對用戶和商家的決策都有重要的參考價值。對商品評論的觀點句識別、情感分析[1]等研究工作也進行了很長時間?,F(xiàn)有針對商品評論的研究工作在基于句子切分正確的基礎(chǔ)上,即假設(shè)輸入為經(jīng)過切分并且正確切分的句子。然而在很多電子商務(wù)網(wǎng)站上,用戶的商品評論具有語言風(fēng)格較為隨意、語法結(jié)構(gòu)不規(guī)則等特點,而其中一個重要方面就是標(biāo)點符號的省略,例如:“這款彩電畫質(zhì)很好音效也很不錯但是價格偏貴”,“衣服很漂亮價錢也很便宜很符合我的品味我很喜歡”。第1個句子由3個子句組成(即“這款彩電畫質(zhì)很好”,“音效也很不錯”和“但是價格偏高”),而第2個句子由4個子句組成(即“衣服很漂亮”,“價錢也很便宜”,“很符合我的口味”和“我很喜歡”)。標(biāo)點符號的省略對句子的切分造成了很大的影響,傳統(tǒng)的基于標(biāo)點符號的句子切分方法在這種情形下無法適用。而句子切分的不準確也對之后的研究工作產(chǎn)生很大影響。
目前的漢語句子切分研究工作中,絕大部分工作都是基于標(biāo)點符號的切分,這種簡單的切分方法主要是為了提高之后詞語切分和詞性標(biāo)注[2-4]以及更為復(fù)雜的抽取和挖掘工作的準確率,而對于標(biāo)點省略情況下的句子切分工作研究很少。目前針對句子切分的研究集中在少數(shù)民族語言[5-8]和一些特定的應(yīng)用領(lǐng)域,比如古漢語句子切分[9-11]。文獻[9]利用詞匯和模式在農(nóng)業(yè)古籍上取得了0.48的斷句準確率和0.36的標(biāo)點準確率。文獻[10]采取N元文法在《論語》上取得了0.638的斷句F1分數(shù)值,而文獻[11]使用在現(xiàn)代漢語分詞中取得成功的條件隨機場模型,并引入互信息和t-測試差2個統(tǒng)計量作為特征,在《論語》上取得了0.762的斷句F1分數(shù)值和0.621的標(biāo)點F1分數(shù)值;在《史記》上取得了0.682的斷句F1分數(shù)值和0.531的標(biāo)點F1分數(shù)值。
古漢語的句子切分和現(xiàn)代漢語的句子切分研究有所不同,現(xiàn)在漢語的分詞和詞性標(biāo)注研究時間較長,可以使用上下文的詞袋和詞性特征進行句子切分。
針對不存在標(biāo)點情況下的句子切分問題,本文提出使用機器學(xué)習(xí)的方法對長句進行切分。將句子切分問題定義為一個二分類問題,首先對大規(guī)模的評論文本語料提取其統(tǒng)計特征,根據(jù)這些統(tǒng)計特征,對于一個不含終結(jié)符號的評論長句,抽取長句的候選切分點集合。其次對每個候選切分點,根據(jù)大規(guī)模評論語料的統(tǒng)計特征提取句子的上下文詞袋文法特征以及上下文詞性特征,并抽取候選切分點前后的長度和詞性數(shù)量特征,最后使用邏輯回歸分類器對候選切分點進行分類,判斷其是否為切分點。
本文方法框架如圖1所示。
圖1 句子切分方法框架
切分方法的實現(xiàn)包括如下步驟:
(1)大規(guī)模評論語料統(tǒng)計特征抽取
首先在大規(guī)模商品評論語料中抽取標(biāo)點符號上下文的詞袋n-gram模型和上下文n元詞性模型,這2個模型將用于接下來的候選切分點抽取以及候選切分點二分類的特征抽取。
(2)候選切分點抽取
對于一個待切分的句子,首先使用中科院分詞系統(tǒng)NLPIR進行分詞和詞性標(biāo)注。對標(biāo)注結(jié)果詞序列中的每2個連續(xù)詞,使用統(tǒng)計特征判斷這2個詞之間是否存在一個候選切分點,若統(tǒng)計特征大于一定閾值,則將這2個詞之間標(biāo)記為一個候選的切分點,注意到一個待切分句子中可能會存在多個候選切分點。
(3)候選切分點特征抽取
對于一個待切分句子中的每一個切分點,抽取它的上下文特征,作為下一步分類的特征輸入。方法的特征主要包含2類:基本的上下文特征,比如候選切分點前后的詞性數(shù)量統(tǒng)計、長度統(tǒng)計,以及抽取的上下文的語料統(tǒng)計特征。
(4)候選切分點分類
對于抽取的特征,使用邏輯回歸分類器對每一個候選切分點進行分類。
3.1 評論語料
使用某電子商務(wù)網(wǎng)站提供的商品評論語料數(shù)據(jù)集。該數(shù)據(jù)集總共包含2×106條左右的商品評論文本。將該評論語料分為2個部分,即訓(xùn)練語料和測試語料。鑒于工作目的,測試評論語料中的評論文本必須符合以下2個要求:(1)評論文本的字符長度大于10;(2)評論文本中不含任何標(biāo)點符號。
提出這2個要求的原因是,長度大于一定值并且其中不含標(biāo)點符號的句子很大可能是由于用戶省略了標(biāo)點符號,因此這些句子符合工作的出發(fā)點。
與此同時,在抽取訓(xùn)練文本語料時,忽略掉那些長度小于10并且文本中不含任何標(biāo)點的文本。
3.2 統(tǒng)計特征抽取
在訓(xùn)練語料中抽取統(tǒng)計特征,這些統(tǒng)計特征主要包括2個方面:詞袋特征和詞性特征。將這些特征總結(jié)為如表1所示。為了抽取下述特征,使用中科院分詞工具NLPIR對評論文本進行分詞和詞性標(biāo)注。還進行了一些預(yù)處理操作,比如將連續(xù)的相同標(biāo)點符號簡化成只有一個標(biāo)點(比如“。。。。。。?!被啚椤?。”)。在工作中,句子切分的標(biāo)點符號包括終結(jié)標(biāo)點符號(比如“?!薄ⅰ?!”、“?”等)以及用戶在評論文本中常用的符號(比如空格、“~”等)。
表1 評論語料統(tǒng)計特征
抽取統(tǒng)計特征的基本假設(shè)是:在訓(xùn)練文本中,終結(jié)標(biāo)點符號前后出現(xiàn)的詞袋序列組合以及詞性序列組合具有一定的概率分布,對于訓(xùn)練語料中的每條評論文本,抽取文本中每個終結(jié)標(biāo)點符號前后的詞袋和詞性統(tǒng)計規(guī)律。
(1)詞袋特征:表1中的一元(二元)文法為分詞后得到的詞袋序列中連續(xù)1個(2個)詞的組合,而標(biāo)點符號前后的一元(二元)文法組合為標(biāo)點符號前的一元(二元)文法和標(biāo)點符號后的一元(二元)文法的組合。以分詞后得到的序列:“衣服/n很/d好看/a。/w j價格/n也/d很/d便宜/a”為例,在該句子中存在著一個終結(jié)標(biāo)點符號,即句號“?!薄>涮柷暗囊辉姆椋己每矗?,句號前的二元文法為<很,好看>,而句號后的一元文法為<價格>,句號后的二元文法為<價格,也>。那么該句號前后的一元文法組合為<好看,價格>,二元文法組合為<很,好看,價格,也>。由于時間和空間復(fù)雜度的限制以及效果提升的不明顯,并未抽取三元文法的特征。
詞袋特征中的文法標(biāo)點共現(xiàn)概率可由式(1)描述:
其中,Ngrami可為某個具體的一元文法組合或者二元文法組合;分子#(Ngrami,Punc)為文法組合i和標(biāo)點符號在語料庫中共同出現(xiàn)的次數(shù);分母#Punc為終結(jié)標(biāo)點符號在語料庫中的出現(xiàn)次數(shù)。該特征描述的是一個文法組合在標(biāo)點符號前后出現(xiàn)的概率。
詞袋特征中的文法標(biāo)點概率可由式(2)描述,其中分母#Ngrami為一個文法組合在語料庫中的出現(xiàn)次數(shù)。該公式描述的是對于某個具體的文法組合Ngrami,該文法組合出現(xiàn)在終結(jié)標(biāo)點符號前后的次數(shù)與文法組合出現(xiàn)總次數(shù)的比值。
(2)詞性特征:除了詞袋特征之外,標(biāo)點符號前后的詞性對一個候選切分點是否為切分點也有重要的影響。在表1所列出的特征中,一(二、三)元詞性為連續(xù)的一(二、三)個詞性的序列,而標(biāo)點前后的詞性組合則類似詞袋特征中的文法組合,在此不再贅述。值得注意的是在本文方法中,對于每一個詞性,只保留它的根類,例如對于不同的名詞/ns,/nr,/nt,只保留根類詞性/n作為該詞的詞性,這個做法可以極大地減小模型的復(fù)雜度。還是以分詞后得到的序列:“衣服/n很/d好看/a。/w j價格/n也/d很/d便宜/a”為例,在該句中,對于句號的上下文,得到的一元詞性組合為<a,n>,二元詞性組合為<d,a,n,d>,三元詞性組合為<n,d,a,n,d,d>。詞性的字典大小比詞袋的字典大小小很多,本文方法中抽取的最長詞性組合為三元。
詞袋特征中的詞性標(biāo)點共現(xiàn)概率可由式(3)描述:
其中,POSSeqi可為一元詞性組合或者二元詞性組合;分子#(POSSeqi,Punc)為詞性組合i和標(biāo)點符號在語料庫中的共現(xiàn)次數(shù);分母#Punc為標(biāo)點符號在語料庫中的出現(xiàn)次數(shù)。該特征描述的是一個詞性組合在標(biāo)點符號前后出現(xiàn)的概率。
詞袋特征中的文法標(biāo)點概率可由式(4)描述,其中分母#POSSeqi為一個文法組合在語料庫中的出現(xiàn)次數(shù):
對于一個給定的待切分長句,首先根據(jù)第2節(jié)中得到的語料統(tǒng)計特征選取候選切分點,然后對每個切分點抽取相應(yīng)的分類特征。
4.1 候選切分點
若以一個句子中的所有可切分點作為候選切分點,則一個長度為N的句子中會存在N個候選切分點,而實際上一個評論句子中的子句數(shù)量遠小于N,因此,這種做法是不可取的。選取候選切分點的方法基于第2節(jié)中得到的語料統(tǒng)計特征,選取上下文詞袋和詞性組合在統(tǒng)計特征中概率較大的作為候選切分點。具體的方法由如下算法所示。
算法 候選分割點提取算法
輸入 待切分句子text,評論語料統(tǒng)計特征
輸出 候選切分點集合candidateSet
以分詞后得到的序列:“這/rzv款/q彩電/n畫質(zhì)/n很好/anew音效/n也/d很/d不錯/a但是/c價格/n偏/d貴/a”為例,對每2個相鄰的詞(例如“這”和“款”、“款”和“彩電”、“彩電”和“畫質(zhì)”等),判斷這2個詞之間是否為一個候選切分點。首先根據(jù)第2節(jié)中的語料統(tǒng)計特征得到每2個相鄰詞的統(tǒng)計特征值(由前所述,總共10個特征值),對于這10個特征值,若其中有一個特征值排在該特征值所有值大小的前K(K=500)位,則將這2個相鄰詞中間的坐標(biāo)點加入候選切分點集合中。對于上面的例句,得到了2個切分點,即“很好”和“音效”、“不錯”和“但是”。
4.2 分類特征抽取
對于每個切分點,提取了2大類特征作為分類器的輸入,這2類特征為方法框架圖中所示的上下文基本特征和上下文語料統(tǒng)計特征。上下文語料統(tǒng)計特征即為第2節(jié)中所述的切分點前后詞袋和詞性特征,而上下文基本特征如表2所示。
表2 上下文基本特征
基本的上下文特征包括候選切分點前后的句子長度與句子總長度的比值,以及候選切分點前后的名詞、動詞、形容詞數(shù)量與候選切分點前后的總詞數(shù)量的比值。抽取這2類特征首先因為終結(jié)符號的出現(xiàn)與其在句子中的位置有很大關(guān)系,其次作為斷句標(biāo)志的終結(jié)符號,其前后部分作為一個完整的句子應(yīng)該含有一定數(shù)量的名詞、動詞、形容詞作為句子成分(主語、謂語、賓語等)的描述,因此抽取候選切分點前后的名詞、動詞、形容詞數(shù)量與前后的句子總次數(shù)作為特征。最后,得到這2組特征,并使用邏輯回歸分類器[12]對每個候選切分點進行分類。
5.1 數(shù)據(jù)集
在前文中描述的評論語料中抽取訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。選取長度大于10并且句子中含有終結(jié)符號的句子作為訓(xùn)練語料。對于訓(xùn)練語料中的每一個句子,可以得到多個正樣本和多個負樣本。首先使用分詞工具NLPIR對句子進行分詞,在得到的詞序列w1,w2,…,wn-1,wn中,若wi為終結(jié)符號,在i位置產(chǎn)生一個正樣本;否則,對于2個均不為終結(jié)符號的詞袋wi-1,wi,在i位置產(chǎn)生一個負樣本。
選取長度小于等于10并且句子中不含有標(biāo)點符號的句子作為測試語料。對于測試語料中的每一個句子,可以得到多個測試樣本。在分詞后的詞序列w1,w2,…,wn-1,wn中,對于每2個詞袋wi-1,wi,使用3.1節(jié)中的方法判斷2個詞袋中間的i位置是否為一個候選切分點,若i位置為候選切分點,則在i位置產(chǎn)生一個測試樣本。
5.2 實驗結(jié)果
在測試語料上隨機選取了500條商品評論進行測試。評測標(biāo)準有2種:(1)基于切分點的評測,即在一個未切分的長句中,可能會存在多個切分點,基于切分點的評測方法統(tǒng)計的是所有切分點的精確率、召回率和F測量值;(2)基于句子的評測,即統(tǒng)計所有句子完全切分正確(包括對所有應(yīng)該切分的切分點的正確切分和對所有不該切分的點的不切分)的準確率。其中,基于切分點的精確率、召回率、F測量值分別為70.5%,56.1%,62.5%,基于句子的準確率為68.0%。
在2種評測標(biāo)準下的準確率達到了70%左右,這在用戶省略標(biāo)點并且?guī)в性S多新詞、口語等噪聲的商品評論語料上是一個不錯的結(jié)果,實驗結(jié)果稍有不足的是召回率不高,這也是今后工作的研究重點。
將語料統(tǒng)計閾值K對實驗結(jié)果的影響進行了對比,表3是不同K值下的實驗結(jié)果,其中的所有實驗均使用全部特征??梢?,基于切分點的召回率隨著K值的增大而增大,而準確率大體相反,綜合不同K值的情況,選取了K=500的實驗結(jié)果作為最好的結(jié)果。
表3 不同語料統(tǒng)計閾值結(jié)果對比
針對不同特征對于實驗結(jié)果的影響也進行了對比,表4為選取不同特征時的實驗結(jié)果。其中,第1組特征為僅使用評論語料統(tǒng)計特征,第2組特征為僅使用上下文基本特征,第3組為使用詞性特征,第4組為使用詞袋特征和長度特征,而第5組為使用所有特征。表4的結(jié)果表明,使用所有特征(第5組)時得到的實驗結(jié)果最好。
表4 不同特征實驗結(jié)果對比%
本文使用基于上下文特征的方法,研究用戶商品評論文本中標(biāo)點符號缺失情況下句子切分的問題。由于在標(biāo)點符號缺失的情況下傳統(tǒng)基于標(biāo)點符號的句子切分方法不適用,因此本文提出了使用機器學(xué)習(xí)的方法進行句子切分。根據(jù)大規(guī)模的商品評論語料統(tǒng)計特征,對每一個候選的切分點,抽取候選切分點的上下文文法特征和上下文詞性組合統(tǒng)計特征,與此同時,還加入了切分點前后的長度和詞性數(shù)量特征。使用邏輯回歸分類器對每個候選切分點進行分類,以判斷該候選切分點是否為一個真正的句子切分點。實驗證明本文方法能夠有效解決商品評論中用戶省略標(biāo)點情況下的句子切分問題。下一步工作旨在提高切分句子的召回率,并對斷句之后的子句進行信息抽取。
[1] Pang Bo,Lee L.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval,2008,2(1/2):1-135.
[2] 劉 群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發(fā)展,2004,41(8):1421-1429.
[3] 周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構(gòu)名自動識別[J].電子學(xué)報,2006,34(5):804-809.
[4] 俞鴻魁,張華平,劉 群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學(xué)報,2006,27(2):87-94.
[5] 李 響,才藏太,姜文斌,等.最大熵和規(guī)則相結(jié)合的藏文句子邊界識別方法[J].中文信息學(xué)報,2011,25(4):39-44.
[6] 艾山·吾買爾,吐爾根·依步拉音.維吾爾語句子邊界識別算法的設(shè)計與實現(xiàn)[J].新疆大學(xué)學(xué)報:自然科學(xué)版,2008,25(3):360-363.
[7] 艾山·吾買爾,吐爾根·依步拉音.基于最大熵的維吾爾語句子邊界識別模型[J].計算機工程,2010,36(6):24-26.
[8] 艾山·吾買爾,吐爾根·依步拉音.統(tǒng)計與規(guī)則相結(jié)合的維吾爾語句子邊界識別[J].計算機工程與應(yīng)用,2010,46(14):162-165.
[9] 黃建年,侯漢清.農(nóng)業(yè)古籍?dāng)嗑錁?biāo)點模式研究[J].中文信息學(xué)報,2008,22(4):31-38.
[10] 陳天瑩,陳 蓉,潘璐璐,等.基于前后文n-gram模型的古漢語句子切分[J].計算機工程,2007,33(3):192-196.
[11] 張開旭,夏云慶,宇 航.基于條件隨機場的古漢語自動斷句與標(biāo)點方法[J].清華大學(xué)學(xué)報:自然科學(xué)版,2009,49(10):1733-1736.
[12] Hosmer D W,Lemeshow S,Sturdivant R X.Introduction to the Logistic Regression Model[M].Hoboken,USA:John W iley&Sons,Inc.,2000.
編輯 顧逸斐
Comment Long Sentence Segmentation Method Based on Contextual Feature Classification
CHEN Hong1,JIN Peiquan2,YUE Lihua2,HU Yujuan1,YIN Fengmei1
(1.Department of Public Computer Studies,Hefei Norm al University,Hefei 230091,China;2.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)
Product reviews can help both businesses and consumers make better decisions.The arbitrary nature and irregular grammer structure of user published review makes it difficult for further textual analysis.Aim ing at resolving the problem of long sentence segmentation when users om it punctuations,entence segmentation is the foundation of the follow ing text information extraction and textmining work.Since the traditional punctuation-based methods do not work well in this condition,it proposes a machine learning based method to solve this problem.It first extracts candidate segmentation point based on statistical feature of large-scale product review corpus.Then for each candidate segmentation point,its contextual features are extracted as well as the statistical features of product review corpus and employ logistic regression to classify the candidate point.Experimental results show that this method can im prove the performance of sentence segmentation when user om its punctuations.
sentence segmentation;puntuation omitting;machine learning;contextual feature;N-gram;logistic regression
陳 鴻,金培權(quán),岳麗華,等.基于上下文特征分類的評論長句切分方法[J].計算機工程,2015,41(9):233-237,244.
英文引用格式:Chen Hong,Jin Peiquan,Yue Lihua,et al.Comment Long Sentence Segmentation Method Based on Contextual Feature Classification[J].Computer Engineering,2015,41(9):233-237,244.
1000-3428(2015)09-0233-05
A
TP311
10.3969/j.issn.1000-3428.2015.09.043
合肥師范學(xué)院青年基金資助項目(2015QN06)。
陳 鴻(1984-),女,助教、碩士研究生,主研方向:搜索引擎,自然語言處理;金培權(quán),副教授;岳麗華,教授、博士生導(dǎo)師;胡玉娟,教授;殷鳳梅,講師。
2014-08-18
2014-10-20 E-m ail:chenho@mail.ustc.edu.cn