王倩倩,范通讓
(石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 石家莊 050043)
隨著社會(huì)以及互聯(lián)網(wǎng)的迅猛發(fā)展,人們逐漸步入了海量信息時(shí)代,信息量正遵循“網(wǎng)絡(luò)摩爾定律”以每100天翻一番的速度增長(zhǎng)[1],這其中就包括大量涌現(xiàn)的術(shù)語(yǔ)和新詞語(yǔ)。如何高效快速的從海量化的信息中提取出人們所需信息就變得有些困難,同時(shí),這也是目前中文信息處理的一個(gè)重要研究方向。新詞的自動(dòng)識(shí)別在中文信息處理的眾多領(lǐng)域都發(fā)揮著重要作用。此外,新詞在一定程度上還可以反映當(dāng)前社會(huì)的輿論走勢(shì)或者熱點(diǎn)問(wèn)題,比如近期發(fā)生的備受關(guān)注的“馬航失聯(lián)”事件等。新詞識(shí)別的性能對(duì)其相關(guān)領(lǐng)域存在很大的影響,具有重要的研究?jī)r(jià)值和意義。
目前主要有兩種新詞識(shí)別的研究方法:一種是基于統(tǒng)計(jì)的方法,一種是基于規(guī)則的方法。基于統(tǒng)計(jì)的方法是通過(guò)統(tǒng)計(jì)語(yǔ)料上下文中某些特定信息的出現(xiàn)頻數(shù)來(lái)進(jìn)行新詞的識(shí)別[2]。其優(yōu)點(diǎn)是靈活性非常好、適應(yīng)能力強(qiáng)等。但是這種方法一般需要的語(yǔ)料規(guī)模較大,所以,準(zhǔn)確率會(huì)受到相應(yīng)影響?;谝?guī)則的方法是通過(guò)構(gòu)詞原理、詞性和語(yǔ)義等信息的結(jié)合構(gòu)造的樣板來(lái)進(jìn)行匹配,以此來(lái)識(shí)別新詞。其優(yōu)點(diǎn)是具有較高的準(zhǔn)確率等。但由于各領(lǐng)域詞語(yǔ)并沒(méi)有統(tǒng)一的規(guī)則,所以適應(yīng)性較差,并且對(duì)其規(guī)則的維護(hù)也有一定困難[3-4]。目前為了更好的實(shí)現(xiàn)新詞識(shí)別,大多數(shù)人都采用基于統(tǒng)計(jì)和規(guī)則相結(jié)合的方法[5]。
Chen等[6]基于統(tǒng)計(jì)特征,通過(guò)從分詞后的散串中剔除單字詞,提取新詞語(yǔ)素的方法來(lái)進(jìn)行新詞識(shí)別。該方法對(duì)低頻詞識(shí)別效果較好,但其基于大規(guī)模語(yǔ)料庫(kù),自動(dòng)識(shí)別單字詞規(guī)則難以控制實(shí)現(xiàn)。張海軍等[7]應(yīng)用統(tǒng)計(jì)學(xué)習(xí)模型作為框架來(lái)整合不同類(lèi)型的可用特征,結(jié)合多種特征規(guī)則,來(lái)檢測(cè)新詞。蘇寧等[8]提出一種基于統(tǒng)計(jì)模型和詞語(yǔ)搭配的中文新詞自動(dòng)識(shí)別方法,采用條件概率的方法提取單字詞搭配特征和臨界詞特征來(lái)識(shí)別新詞。鐘將等[9]結(jié)合使用了互信息、信息熵以及詞頻等3個(gè)指標(biāo)評(píng)價(jià)新詞,同時(shí)為進(jìn)一步提高其新詞識(shí)別性能,還引入了垃圾串過(guò)濾機(jī)制。林自芳等[10]基于詞的內(nèi)部模式,利用改進(jìn)位置成詞概率和首尾單字成詞概率加權(quán),通過(guò)統(tǒng)計(jì)量對(duì)新詞進(jìn)行識(shí)別。
本研究是以統(tǒng)計(jì)與規(guī)則相結(jié)合的方法來(lái)識(shí)別新詞。首先采用基于PAT-Array的候選重復(fù)串抽取方法,獲取含有新詞的候選串,然后依據(jù)新詞內(nèi)部模式特點(diǎn)訓(xùn)練的垃圾詞典進(jìn)行垃圾串過(guò)濾,此外,利用改進(jìn)互信息與獨(dú)立成詞概率相結(jié)合的方法來(lái)確定多字詞新詞。本研究方法綜合考慮了字符串的外部統(tǒng)計(jì)特征和內(nèi)部的模式特征,使新詞識(shí)別效果更佳。
PAT-Array是1993年由Manber和Myers提出的一種數(shù)據(jù)結(jié)構(gòu)[11],其已成功應(yīng)用在信息檢索等諸多領(lǐng)域。定義如下:
(1)設(shè)S=c0c1…cn-1是長(zhǎng)度為n的字符串,其中以某一字符i為起始位置,其左右的后綴字符串分別為L(zhǎng)i=cici-1…c0,Ri=cici+1…cn-1。
(2)字符串S的所有左右后綴字符串的位置索引數(shù)組定義為a[0,…,n-1]和b[0,…,n-1],若i<j(i,j=0,…,n-1),使La[i]<La[j],Rb[i]<Rb[j]。
(3)定義PL,PR數(shù)組為左右后綴字符串的最長(zhǎng)共有前綴數(shù)組,以此迅速查找到最長(zhǎng)的重復(fù)字符串。
對(duì)字符串S的左右后綴字符串分別進(jìn)行掃描,即可獲得S的左右重復(fù)字符串的列表,分別記為L(zhǎng)L、RL。LL、RL中重復(fù)字符串是文本中從某一個(gè)字符i開(kāi)始向左或向右重復(fù)出現(xiàn)2次及以上次數(shù)的字符串。只有同時(shí)出現(xiàn)在LL和RL中的字符串才是所需的重復(fù)字符串。
互信息是一種有用的信息度量方法,它是用來(lái)定量估計(jì)漢字之間的結(jié)合緊密程度:當(dāng)兩個(gè)字的互信息越大,表示它們的結(jié)合緊密程度越高;否則,則反之。用互信息來(lái)反映詞語(yǔ)間結(jié)合的緊密度,當(dāng)互信息MI大于某個(gè)特定閾值時(shí),就可判定兩詞結(jié)合為新詞,否則,則反之。
設(shè)S為n個(gè)詞組成的字符串,S=w1w2…wn,wi和wi+1是相鄰的兩個(gè)詞,則應(yīng)用互信息的方法計(jì)算它們結(jié)合搭配在一起的概率為:
其中P(wiwi+1)為詞wi和wi+1在語(yǔ)料庫(kù)中共同出現(xiàn)的概率,P(wi)和P(wi+1)為兩詞單獨(dú)出現(xiàn)的概率。
本研究主要面向網(wǎng)絡(luò)中新詞發(fā)現(xiàn),因此從網(wǎng)頁(yè)中爬取語(yǔ)料信息,進(jìn)行預(yù)處理后存儲(chǔ)為文檔信息。對(duì)語(yǔ)料進(jìn)行重復(fù)串發(fā)現(xiàn),選出候選串,再對(duì)候選串進(jìn)行過(guò)濾操作,濾除垃圾字符串。通過(guò)分析新詞的內(nèi)部模式,使用了訓(xùn)練垃圾詞典的方法對(duì)單字串進(jìn)行過(guò)濾,再利用互信息與獨(dú)立成詞概率結(jié)合方法來(lái)檢驗(yàn)候選串,最終確定新詞串并存入新詞表中。整體流程圖如圖1。
圖1 系統(tǒng)整體流程設(shè)計(jì)
(1)獲取網(wǎng)頁(yè)語(yǔ)料:本文利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)來(lái)
進(jìn)行網(wǎng)頁(yè)語(yǔ)料的提取。首先,從某一個(gè)網(wǎng)頁(yè)開(kāi)始,將此網(wǎng)頁(yè)中內(nèi)容信息提取出來(lái),并且將此網(wǎng)頁(yè)中所包含的網(wǎng)頁(yè)鏈接地址信息記錄下來(lái),然后,根據(jù)這些鏈接地址信息鏈接到下一個(gè)網(wǎng)頁(yè),繼續(xù)提取其網(wǎng)頁(yè)內(nèi)容,如此向后循環(huán),直到網(wǎng)頁(yè)中信息提取完為止。
(2)文本預(yù)處理:直接從網(wǎng)頁(yè)中提取的內(nèi)容包含大量的無(wú)用信息。對(duì)文本的預(yù)處理就是將這些信息濾除,保留所需信息,用這些處理后的信息來(lái)構(gòu)造語(yǔ)料庫(kù)。
生成新詞候選串是識(shí)別新詞的重要步驟,候選串中對(duì)新詞的包含量將直接影響系統(tǒng)新詞識(shí)別的性能。一般來(lái)說(shuō),新詞會(huì)在語(yǔ)料上下文中重復(fù)出現(xiàn),或者可以說(shuō),當(dāng)某個(gè)字符串在上下文中多次出現(xiàn),那么此重復(fù)串很有可能就是新詞,因此,我們可以通過(guò)對(duì)這種多次出現(xiàn)的重復(fù)串進(jìn)行查找來(lái)確定候選串。采用上文所提到的基于PAT-Array的候選重復(fù)字符串抽取方法。
通過(guò)簡(jiǎn)單的堆棧操作和對(duì)左右后綴字符串及其相應(yīng)的最長(zhǎng)共有前綴數(shù)組的掃描來(lái)獲得候選重復(fù)字符串集合。利用PAT-Array方法來(lái)統(tǒng)計(jì)查找重復(fù)串來(lái)獲得候選串,取得的新詞召回率較高。但獲取新詞的同時(shí),也會(huì)包含較多的垃圾詞串,需要進(jìn)一步過(guò)濾,才能更準(zhǔn)確的提取出新詞。
垃圾串的過(guò)濾是新詞識(shí)別的關(guān)鍵過(guò)程,直接關(guān)系到生成的新詞的準(zhǔn)確度。目前可將新詞的內(nèi)部模式分為表1中所示的11種模式。例如“1+1+1”表示由三個(gè)單子串組成的新詞;“1+2”表示由一個(gè)單子串與一個(gè)兩個(gè)字詞語(yǔ)組成的新詞。本文利用新詞的內(nèi)部模式來(lái)進(jìn)行垃圾串的過(guò)濾,根據(jù)對(duì)不同模式的特征分析,結(jié)合其相適應(yīng)方法分別進(jìn)行過(guò)濾。首先對(duì)單字串垃圾詞過(guò)濾是利用垃圾詞典的方法,再根據(jù)多字詞的成詞規(guī)律利用改進(jìn)互信息和獨(dú)立成詞概率的方法來(lái)搭配檢驗(yàn)候選串,決定是否為新詞。
表1 新詞模式分布
針對(duì)網(wǎng)絡(luò)新詞進(jìn)行統(tǒng)計(jì)分析,根據(jù)新詞不同內(nèi)部模式分類(lèi),列舉了一些新詞實(shí)例見(jiàn)表2。
表2 不同模式新詞實(shí)例
4.3.1 垃圾詞典對(duì)單字串過(guò)濾
單字串垃圾一般是由連詞,介詞和單字實(shí)體詞等可獨(dú)立運(yùn)用的語(yǔ)素構(gòu)成。在統(tǒng)計(jì)分析中發(fā)現(xiàn),新詞中單字串構(gòu)成的新詞數(shù)量較多,同時(shí),由單字串構(gòu)成的垃圾串占的比重也較大,因此,本節(jié)主要針對(duì)單字串進(jìn)行過(guò)濾,運(yùn)用訓(xùn)練垃圾詞典的方法濾除單字垃圾串。
本文共訓(xùn)練了3個(gè)垃圾詞典,垃圾串詞典、垃圾頭詞典和垃圾尾詞典,訓(xùn)練方法如下:
(1)將語(yǔ)料庫(kù)進(jìn)行切分并且做詞性標(biāo)注,形成標(biāo)記語(yǔ)料庫(kù)C。
(2)尋找?guī)熘械膯巫执槠?,將其與對(duì)應(yīng)詞性作為一個(gè)詞典項(xiàng)添加到垃圾串詞典中。
(3)在單字碎片庫(kù)中,首先對(duì)每個(gè)單字賦予基礎(chǔ)權(quán)值為1。對(duì)于常用的偽前綴、偽后綴,如“據(jù)”、“當(dāng)”等字再進(jìn)行加權(quán),除此之外,對(duì)介詞、副詞、代詞、數(shù)量詞等此類(lèi)常見(jiàn)垃圾單字也進(jìn)行加權(quán),提高其統(tǒng)計(jì)量。
(4)統(tǒng)計(jì)并計(jì)算垃圾串詞典中的單字作為垃圾詞典項(xiàng)的首(尾)字的概率。如果大于某一個(gè)特定閾值,則將該單字添加到對(duì)應(yīng)的垃圾頭(尾)詞典中。
對(duì)于與新詞同時(shí)候選出的垃圾串,主要運(yùn)用學(xué)習(xí)到的垃圾頭(尾)詞典剔除。垃圾頭(尾)詞典的訓(xùn)練流程如圖2所示。
圖2 垃圾頭(尾)詞典訓(xùn)練流程
如果候選串中包含垃圾串詞典中的字符串,則該候選串非新詞,若此候選串刪除垃圾字符串后仍為單字串碎片,則作為新的候選串加入到候選新詞集合。如果候選串中的首字包含在垃圾頭詞典中,則該串非新詞,如果刪除首字后,此候選串仍然是單字串碎片,則此串可作為新的候選串。如果候選串中的尾字包含在垃圾尾詞典中,則該串非新詞,如果刪除尾字后,此候選串仍然是單字串碎片,則此串可作為新的候選串。
4.3.2 多字詞串過(guò)濾
漢語(yǔ)中漢字和詞都有一定的構(gòu)詞規(guī)則和用法,根據(jù)漢字在詞語(yǔ)中的構(gòu)詞位置可以分為詞首、詞中和詞尾3類(lèi)。通過(guò)對(duì)多字詞模式新詞的分析,發(fā)現(xiàn)不合理搭配一般多出現(xiàn)在詞語(yǔ)的首尾這兩個(gè)位置,如“零風(fēng)險(xiǎn)”、“放心肉”,“零”與“風(fēng)險(xiǎn)”,“放心”與“肉”的搭配。因此,將這種位置特征融入互信息的方法,改進(jìn)互信息為:
其中s為待檢驗(yàn)的字符串,wh、wh+1為字符串的第一和第二個(gè)詞,wt、wt-1為倒數(shù)第一和第二個(gè)詞。利用公式(2)計(jì)算互信息,如果互信息MI(s)大于所設(shè)定閾值,則表示字符串之間的搭配是合理的,即可確定此串為新詞。否則,需要對(duì)此字符串進(jìn)行掐頭或去尾操作,循環(huán)直至字符串只剩一個(gè)單字時(shí)進(jìn)行丟棄操作。
對(duì)于候選串構(gòu)詞搭配不合理的情況,需要進(jìn)行處理。由于不同的詞獨(dú)立成詞概率不一樣,此外,有些詞通常有自己的構(gòu)詞位置。例如“超”一般是出現(xiàn)在組合新詞的詞首:“超負(fù)荷”、“超音速”等;而“族”一般出現(xiàn)在詞的詞尾:“上班族”、“吉他族”等。本文引入獨(dú)立成詞概率來(lái)解決對(duì)詞首或詞尾的處理。
其中,N(Iw)表示語(yǔ)料中w獨(dú)立成詞的次數(shù),N(w)表示w在語(yǔ)料中出現(xiàn)的總次數(shù),CP(w)則為w獨(dú)立成詞的概率。當(dāng)字符串互信息MI(s)小于某設(shè)定閾值時(shí),利用公式(3)對(duì)該串進(jìn)行如下操作處理:
(1)首先對(duì)其詞首和詞尾的獨(dú)立成詞概率進(jìn)行比較:當(dāng)詞首獨(dú)立成詞概率大于詞尾獨(dú)立成詞概率時(shí),刪除該串詞首;否則,刪除詞尾。
(2)如果處理后的字符串仍為多字詞串,則將此串作為新的候選串進(jìn)行再次處理,否則轉(zhuǎn)(3)。
(3)丟棄此候選串。
漢語(yǔ)中新詞語(yǔ)的不斷涌現(xiàn)是一個(gè)客觀規(guī)律,隨著互聯(lián)網(wǎng)的發(fā)展,這一現(xiàn)象更加明顯。新詞識(shí)別又對(duì)眾多領(lǐng)域研究有極其重要的影響,因此,漢語(yǔ)新詞識(shí)別的研究具有重要的現(xiàn)實(shí)需求和實(shí)際價(jià)值。本文利用PAT-Array候選重復(fù)串抽取方法獲取候選串,再通過(guò)自學(xué)習(xí)的方法訓(xùn)練了垃圾串、垃圾頭和垃圾尾詞典,進(jìn)行單字垃圾串的過(guò)濾,再由改進(jìn)互信息與詞的獨(dú)立成詞概率結(jié)合的方法確定新詞。候選串的選取和垃圾串的過(guò)濾是影響系統(tǒng)性能的關(guān)鍵部分,針對(duì)目前準(zhǔn)確率不是很高的情況下,我們將在新詞的選擇標(biāo)準(zhǔn)以及垃圾串過(guò)濾等方面繼續(xù)努力,以期得到更高的新詞召回率和準(zhǔn)確率。
[1]曾依靈,許洪波.網(wǎng)絡(luò)熱點(diǎn)信息發(fā)現(xiàn)研究[J].通信學(xué)報(bào),2007,28(12):141-146.
[2]張海軍,史樹(shù)敏,朱朝勇,黃河燕.中文新詞識(shí)別技術(shù)綜述[J].計(jì)算機(jī)科學(xué),2010,37(3):6-10.
[3]Nie J-Y,Hannan M-L,Jin W.Unknown Word Detection and Segmentation of Chinese using Statistical and Heuristic Knowledge[J].Communications of COLIPS,1995:47-57.
[4]Isozaki H.Japanese named entity recognition based on a simple rule generator and decision tree learning[C].Proceedings of the39th Annual Meeting on Association f or Computational Linguistics Toulouse.France,2001:306-313.
[5]劉華.一種快速獲取領(lǐng)域新詞語(yǔ)的新方法[J].中文信息學(xué)報(bào),2006,20(5):17-23.
[6]Chen K-J,Ma W .Unknown Word Ex traction for Chinese Documents[C].Proceedings of COLING 2002.Taipei,2002:169-175.
[7]張海軍,欒靜,李勇,齊向偉.基于統(tǒng)計(jì)學(xué)習(xí)框架的中文新詞檢測(cè)方法[J].計(jì)算機(jī)科學(xué),2012,39(2):232-235.
[8]蘇寧,惠子敬,劉娟.基于單字特征和搜索引擎的新詞識(shí)別[J].武漢大學(xué)學(xué)報(bào),2010,56(6):704-710.
[9]鐘將,耿升華,董高峰.一種新詞檢測(cè)方法研究[J].數(shù)字通信,2013,40(2):1-5.
[10]林自芳,蔣秀鳳.基于詞內(nèi)部模式的新詞識(shí)別[J].計(jì)算機(jī)與現(xiàn)代化,2010,(11):162-164.
[11]MANBERU,MYERSG.Suffix arrays:a new method for outline string searches[J].SIAM Journal on Computing,1993,22(5):935-948.