劉冰洋,劉 倩,張 瑾,劉欣然,程學(xué)旗
(1.中國科學(xué)院計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與工程研究中心,北京100190;2.中國科學(xué)院大學(xué),北京100190;3.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100029)
網(wǎng)絡(luò)文本的重要特點(diǎn)之一是不斷的涌現(xiàn)新詞。2011到2012年出現(xiàn)的網(wǎng)絡(luò)新詞有,“hold住”、“給力”、“穿越”、“小清新”、“12306”、“甄嬛體”等等。語言帶有強(qiáng)烈的時(shí)代烙印,這些新詞基本上都是以前未出現(xiàn)的,包括了命名實(shí)體,詞組和短語以及約定俗成的固定用語。新詞最能敏銳反映時(shí)代和社會心理的變遷,它與新的社會現(xiàn)象密不可分,從一個(gè)特定的角度表達(dá)著人們的價(jià)值觀和文化心態(tài)。所以,挖掘網(wǎng)絡(luò)新詞對于跟蹤社會發(fā)展,發(fā)現(xiàn)社會、網(wǎng)絡(luò)輿情,預(yù)測發(fā)展趨勢具有重要意義。
互聯(lián)網(wǎng)是一個(gè)開放的信息平臺,存在多領(lǐng)域多語言的文字。截止到2011年12月30日,互聯(lián)網(wǎng)的網(wǎng)頁內(nèi)容中,英語占56.6%,接下來依次為德語、俄語、日語、西班牙語、中文、法語、意大利語,其中中文的內(nèi)容量為4.5%[1]。值得一提的是,使用中文的網(wǎng)民量占全球的25%。同時(shí),由于中國的多民族環(huán)境,少數(shù)民族語言的互聯(lián)網(wǎng)內(nèi)容也在日漸增多。因此,適用于網(wǎng)絡(luò)文本多語言的通用的新詞識別方法被迫切需求。
統(tǒng)計(jì)方法在自然語言處理中,尤其是在面向網(wǎng)絡(luò)文本的淺層自然語言處理中已經(jīng)逐漸占據(jù)主流地位。規(guī)則方法很難適用于多語言的處理。而從通用有效的統(tǒng)計(jì)特征出發(fā),可以有效的識別語言要素和語用環(huán)境,提取出重點(diǎn)字串,包括但不限于:新詞、關(guān)鍵詞、固定搭配、命名實(shí)體。本文主要面向的是新詞抽取方法。
使用統(tǒng)計(jì)方法進(jìn)行新詞抽取的時(shí)候,通常第一步是從文本中抽出頻率大于一定閾值的重復(fù)串作為候選串集合,然后再通過其它統(tǒng)計(jì)量篩選、過濾或合并候選串集合中的字符串。
抽取重復(fù)串有分詞后統(tǒng)計(jì)和非分詞兩種方案:分詞后統(tǒng)計(jì)以詞語作為構(gòu)成字符串的基本單位,非分詞方案以字為基本單位。文獻(xiàn)[1]、[2]采用了最大匹配分詞;文獻(xiàn)[3]使用ICTCLAS進(jìn)行分詞和詞性標(biāo)注;文獻(xiàn)[4]使用非分詞方案,采用了n元遞增分步算法,并借鑒了Apriori算法的思想,從1字子串生成2字子串最后到n字子串,從而得到所有可能的重復(fù)串。
分詞方案的優(yōu)點(diǎn)是可以減少計(jì)算量,缺點(diǎn)是詞語切分的錯(cuò)誤會向后傳遞,導(dǎo)致一些可能是新詞的重復(fù)串無法被發(fā)現(xiàn)。非分詞方案的優(yōu)點(diǎn)在于枚舉到了所有的可能子串,缺點(diǎn)是計(jì)算量大,且會出現(xiàn)大量垃圾串,需要有效的垃圾串過濾方法。文獻(xiàn)[5]使用后綴樹來處理中文文本,但是并沒有解決后綴樹應(yīng)用于中文時(shí)的效率問題。
本文使用了非分詞方案,并通過多語言統(tǒng)一編碼和對后綴樹的改進(jìn),克服了通常認(rèn)為的使用后綴樹處理中文時(shí)字符集過大的缺點(diǎn),可以快速提取所有滿足頻率閾值的重復(fù)串。
判斷候選串集中的字符串是否成詞,可以同時(shí)借助字符串的上下文環(huán)境信息和內(nèi)部信息,通常在中文分詞領(lǐng)域被應(yīng)用。文獻(xiàn)[6]提出鄰接類別(Accessor Variety)的概念來描述字符串的使用靈活性;文獻(xiàn)[4]使用互信息來計(jì)算字符串內(nèi)部信息和相鄰字符串,判斷是否成詞;文獻(xiàn)[1]結(jié)合使用了鄰接類別、鄰接熵以及雙字耦合度的方法;文獻(xiàn)[7]提出統(tǒng)計(jì)學(xué)習(xí)的框架,使用CRF和最大熵模型,利用前、后綴,左、右熵以及串長、串頻等多個(gè)特征對候選串進(jìn)行是否為新詞的標(biāo)注,取得了較好效果,但由于模型的訓(xùn)練需要基于已標(biāo)注的訓(xùn)練數(shù)據(jù),無法應(yīng)對多領(lǐng)域和多語言的需要;文獻(xiàn)[8]使用了鄰接類別、互信息、是否為錨文本這三個(gè)統(tǒng)計(jì)量來提升中文分詞的效果,本質(zhì)上也是計(jì)算成詞可能性。
本文以鄰接類別為基礎(chǔ),結(jié)合字符串頻率提出了字符串整體度來判定成詞和過濾垃圾串,可以僅使用簡單的閾值過濾和權(quán)重計(jì)算,得到最終的新詞結(jié)果,并使其可以應(yīng)用到多語言環(huán)境。
處理多語言文本需要面對不同的語言形態(tài)和特征,因此需要先統(tǒng)一多種語言的形態(tài),再計(jì)算與語言無關(guān)的統(tǒng)計(jì)量來達(dá)到新詞抽取的目的。
本文采用如下流程抽取多語言文本中的新詞,如圖1所示。首先對文本進(jìn)行統(tǒng)一編碼,然后在雙后綴樹上統(tǒng)計(jì)重復(fù)頻率與鄰接類別并計(jì)算字符串整體度,最后對候選結(jié)果集進(jìn)行編碼還原、篩選和排序得到最終的新詞結(jié)果集。通過重復(fù)頻率來描述字符串的應(yīng)用頻繁程度,通過鄰接類別來描述字符串的應(yīng)用場景,并在非分詞場景下提出了字符串整體度來描述字符串的成詞概率。
圖1 多語言文本新詞抽取流程
語言的基本意義單元是詞語,但不同語言對應(yīng)的文字中詞語的表示形式不同。以中英文為例,中文的詞語之間沒有空白符,英文的詞語之間有空白符作為自然間隔。本文把中文視為連續(xù)字節(jié)流,并通過動態(tài)詞典的方案把英文轉(zhuǎn)化為字節(jié)流,提出如下的多語言統(tǒng)一編碼方案以統(tǒng)一處理中英文。該方案也可適用于其他語言文字。
由于中文的字符集較大,常用字符約為4 000個(gè),|∑|≈4 000,log|∑|≈12,且漢字在GBK編碼下需要兩字節(jié)來表示,使得建立后綴樹時(shí)的指針開銷很大,不利于發(fā)揮后綴樹數(shù)據(jù)結(jié)構(gòu)的時(shí)間優(yōu)勢,所以在以往的大數(shù)據(jù)量中文文本處理中較少使用后綴樹。
本文提出了一種方案:把中文文本轉(zhuǎn)換為Unicode-16編碼后,以4-bit為單位作為字符劃分。此方案把字符集大小固定為16,縮小了指針的開銷。如圖2所示,“是”的Unicode編碼為0x662F,拆分為4個(gè)4bit字符,分別是(小端字節(jié)序)。
圖2 中文編碼方案
本文采用的后綴樹[9]算法最多使用2N個(gè)節(jié)點(diǎn)來建樹,其中N為原字符串的單位長度。設(shè)每個(gè)后綴樹節(jié)點(diǎn)有C字節(jié)的固定空間開銷,每個(gè)指針的空間開銷為P字節(jié),字符串長度為Z字節(jié)。以x-bit為單位時(shí),總空間開銷為SP(x)如式(1)所示。
在32位計(jì)算機(jī)上P取4,在本文的后綴樹實(shí)現(xiàn)中,C約為64字節(jié)。4-bit的方案最為節(jié)省空間。
對于英文以及其他不需要分詞的語種,本文采用動態(tài)詞典的方式,將單詞映射為序號。以英文為例,現(xiàn)代英文中約有10萬在用單詞,在局部文本中使用雙字節(jié)就可以存儲編號值,然后同樣采用4-bit為單位劃分,如圖3所示。
圖3 英文編碼方案
中英文的最大區(qū)別在于英文不需要分詞,如果直接對英文字符串建樹,會造成存儲空間的浪費(fèi);另一方面,英文中單詞具有不同的時(shí)態(tài)、數(shù)、性,需要對它們進(jìn)行詞根還原(Stemming)。本文的實(shí)現(xiàn)中使用了Porter Stemming的規(guī)則方法。
重復(fù)字串發(fā)現(xiàn)的基本流程為以標(biāo)點(diǎn)符號為自然分隔,統(tǒng)計(jì)一段文本中所有子串的出現(xiàn)次數(shù),例如,“發(fā)現(xiàn)新聞、新詞”的子串集合及其頻率為:{發(fā)(1),現(xiàn)(1),新(2),聞(1),詞(1),發(fā)現(xiàn)(1),現(xiàn)新(1),新聞(1),新詞(1),發(fā)現(xiàn)新(1),現(xiàn)新聞(1),發(fā)現(xiàn)新聞(1)}。下文中把字符串S的頻率記為Freq(S)。
漢語特點(diǎn)是其字符表很大,結(jié)合這個(gè)特點(diǎn),目前可應(yīng)用于和已應(yīng)用于中文文本的重復(fù)串查找算法有后綴樹算法和n元遞增分步算法[4]等。
傳統(tǒng)的后綴樹算法建樹的復(fù)雜度依賴于詞匯量(對于以字符為單位的后綴樹而言,則是字符表的大小),其時(shí)間復(fù)雜度為O(N*min{log|Σ|,logN}),空間復(fù)雜度為,其中N為串的長度,為字符集大小,而遍歷后綴樹查找重復(fù)串的時(shí)間復(fù)雜度均為O (N)。特點(diǎn)是空間復(fù)雜度較高,而時(shí)間復(fù)雜度較低,只適用于小規(guī)模語料處理時(shí)快速發(fā)現(xiàn)重復(fù)串。
n元遞增分步算法雖然時(shí)間復(fù)雜度比較高,但是空間復(fù)雜度O(N)較低(N是語料規(guī)模)。其主要思想先統(tǒng)計(jì)所有兩字串的頻次,然后再逐步統(tǒng)計(jì)三字串,四字串,五字串……記錄每一次擴(kuò)展的字串以及對應(yīng)頻次,到達(dá)句末或者是字串長度達(dá)到閾值時(shí)停止擴(kuò)展。
本文對傳統(tǒng)后綴樹建樹算法進(jìn)行了改進(jìn)。漢字的常用字符表大小約為4 000,本文中把字節(jié)流以4bit為單位劃分,使得字符表大小變?yōu)?6,減少了指針開銷。建樹的時(shí)間復(fù)雜度為O (N *4),空間復(fù)雜度為O (N *4),均為線性復(fù)雜度。以4bit為單位劃分字節(jié)流的額外好處是不需要考慮被處理的字符串的編碼類型、編碼空間,且易于擴(kuò)展到其它語言。
通常來說,一個(gè)詞語的內(nèi)部結(jié)合度比較高,如詞語“禽流感”中的三個(gè)字總是一起出現(xiàn)。而它與外部上下文的關(guān)系比較松散,上下文環(huán)境靈活多變。對比“禽流”一詞,它的下文在語料中只有“感”字,所以“禽流”一詞的上下文環(huán)境不夠多變,不足以形成獨(dú)立的詞。本文在文獻(xiàn)[1,6]的基礎(chǔ)上重新給出鄰接類別適用于不對中文進(jìn)行分詞時(shí)的定義。
定義3.1(n-左鄰接集合):指在真實(shí)文本中,與字符串左邊相鄰的n字節(jié)字符串的集合,記為n-AVL。同理得n-右鄰接集合n-AVR。
定義3.2(n-鄰接類別):min{|n-AVL|,|n-AVR|},記為n-AV。它反映了串S上文和下文中鄰接類別的最小值。
本文取n為2,即只統(tǒng)計(jì)串S上文兩個(gè)字節(jié)和下文兩個(gè)字節(jié)中出現(xiàn)的鄰接集合?!拔⒉币辉~在2010年成為網(wǎng)絡(luò)熱詞,下面是真實(shí)網(wǎng)頁中的例句:
浙江組織部門開官方微博聽取民意
新浪微博是全中國最主流最具人氣當(dāng)前最火爆的微博產(chǎn)品
網(wǎng)易微博秉承讓每個(gè)人都成為中心做中國脈搏的思想讓個(gè)人的力量不再微薄
微博又叫微博客(micro blog)是微型博客的簡稱NBA官方微博落戶騰訊聯(lián)手打造第一球迷社區(qū)
2-AVL(微博)={方,浪,的,易,BOS,叫},2-AVR(微博)={聽,是,產(chǎn),秉,又,客,落},|2-AVL(微博)|=6,|2-AVR(微博)|=7,2-AV(微博)=min{6,7}=6.下文中字符串S的2-AVL、2-AVR、2-AV分別簡記為AvL(S)、AvR(S)和Av(S)。
由于本文對中文處理時(shí)不進(jìn)行分詞,所以候選的字符串可能高頻但并不成詞,即為垃圾串。字符串整體度可以用來描述一個(gè)字符串的成詞概率,過濾垃圾串。
定義3.3(字符串整體度):在給定語料C中,字符串S的整體度(String Integrity Measure,SIM)記為It(S,C),如式(2)所示。
由于Av(S)≤Freq(S)且Av(S)≥1,可知It(S,C)≥0。
在已經(jīng)建好的后綴樹上統(tǒng)計(jì)候選字符串時(shí),本文使用了自底向上的動態(tài)規(guī)劃方法,僅遍歷各節(jié)點(diǎn)一次,在線性時(shí)間內(nèi)統(tǒng)計(jì)出所有節(jié)點(diǎn)所代表的字符串的重復(fù)頻率與Av值,同時(shí)借助簡單有效的剪枝方法來減少計(jì)算量,加快計(jì)算速度。
為了便于描述算法,給出以下簡記定義:
1)字符串S的倒序記為rev(S);
2)取后綴樹T的任意節(jié)點(diǎn)X,它記錄了從根節(jié)點(diǎn)到X所表示的字符串,記為S(T,X);
3)后綴樹T的根節(jié)點(diǎn)記為root(T),以后綴樹T的任意節(jié)點(diǎn)X為根節(jié)點(diǎn),得到的子樹記為sub(T,X),可知T=sub(T,ro ot (T));
4)后綴樹T的任意節(jié)點(diǎn)X,sub(T,X)的葉節(jié)點(diǎn)個(gè)數(shù)記為leaf(T,X);
5)后綴樹T的任意節(jié)點(diǎn)X,X的深度記為H(T,X);
6)后綴樹T的任意節(jié)點(diǎn)X,刪除所有深度大于H (T ,X)+m的節(jié)點(diǎn)后,sub(T,X)的葉節(jié)點(diǎn)個(gè)數(shù)記為leafm(T,X),并定義leaf0(T,X)=1,leaf∞(T,X)=leaf(T,X)。
使用后綴樹T存儲字符串S,后綴樹Tr存儲字符串rev(S),有如下性質(zhì):
1)Freq (S (T,X))=leaf(T,X);
2)AvR (S (T,X))=leaf4(T,X);
3)同2),在后綴樹Tr上可以取得AvR(rev(S (T,X)))的值,即為AvL(S (T,X))。
4)后綴樹T的節(jié)點(diǎn)集合與字符串S的子串集合一一對應(yīng),每一個(gè)節(jié)點(diǎn)的統(tǒng)計(jì)量都代表了其對應(yīng)子串的統(tǒng)計(jì)量。
根據(jù)以上性質(zhì),自底向上的動態(tài)規(guī)劃算法遞推式如下:
設(shè)后綴樹T上節(jié)點(diǎn)X的所有子節(jié)點(diǎn)集合為c(X),
圖4中實(shí)線邊表示實(shí)際存在的邊,虛線邊表示省略了部分節(jié)點(diǎn),實(shí)心節(jié)點(diǎn)表示葉節(jié)點(diǎn)。圖中所示的后綴樹中,leaf (T,X)=9,leaf4(T,X)=6。
圖4 基于動態(tài)規(guī)劃的后綴樹算法
從后綴樹提取候選字符串時(shí)采用了如下的剪枝規(guī)則:
i.規(guī)定候選字符串的最大、最小長度,由此規(guī)定了遍歷的最小最大深度;
ii.規(guī)定候選字符串的最小頻率和最小n-AV值;
iii.由頻率和n-AV的統(tǒng)計(jì)方法可以得知,當(dāng)遍歷到樹的某一節(jié)點(diǎn)已經(jīng)不滿足規(guī)則ii、iii時(shí),它的子節(jié)點(diǎn)也不會滿足,可以直接返回。
應(yīng)用以上的剪枝規(guī)則后,后綴樹有效節(jié)點(diǎn)數(shù)縮小為原來的10%以內(nèi),見本文第4部分。
對結(jié)果字符串進(jìn)行基本排序的目的是選出最有可能成為候選新詞的字符串并給出它們的排序?;九判驎r(shí)使用的權(quán)值計(jì)算公式如式(5)所示。
上述計(jì)算公式中,W1(S)是Freq(S)與Av(S)的調(diào)合平均數(shù)。α通常取值范圍為[0.5,1.2],當(dāng)α>1時(shí),F(xiàn)req(S)所占權(quán)重更高,當(dāng)α<1時(shí),Av(S)所占權(quán)重更高;W2(S)是字符串整體度描述;W3(S)是字符串的長度在詞典中的先驗(yàn)概率,也可以根據(jù)經(jīng)驗(yàn)來決定。不同的經(jīng)驗(yàn)值配置會在結(jié)果中反映為對不同長度詞語的重視程度。
在最后的排序結(jié)果中,存在部分詞語是其他詞語的子串,通過以下的篩選方法去除。
設(shè)Weight(A)>W(wǎng)eight(B):
如果B為A的子串,刪除B;
本文的中文新詞抽取實(shí)驗(yàn)采用網(wǎng)絡(luò)語料,共計(jì)200篇新聞與博客,涵蓋財(cái)經(jīng)、體育、娛樂、社會領(lǐng)域,采用人工標(biāo)注的方法評價(jià)語料中提取出的詞語是否為新詞。但由于每篇文本中的新詞數(shù)有限,因此僅評價(jià)在背景詞典過濾之前所提取出的所有詞語是否成詞。
大部分網(wǎng)頁文本正文長度為2.5KB至12KB。由于每篇文本長度不同,返回的結(jié)果數(shù)也不同,如圖5所示。為了方便對比所有文本的結(jié)果集,本文提出了P@Percentage的評價(jià)方法。
定義3.4(P@Percentage):設(shè)返回的字符串集合元素個(gè)數(shù)為N。把返回的字符串集合按規(guī)則R排列,記字符串S在R下的排列序號為rank(R,S):
圖5 結(jié)果集詞數(shù)與文本長度關(guān)系分布圖
本文對結(jié)果集采用人工評估,把結(jié)果集中的字符串分為三類:正確詞語、組合詞語和錯(cuò)誤詞語。其中組合詞語定義為該字符串由幾個(gè)完整詞語拼合而成,例如,“金融體制”,是由“金融”和“體制”兩個(gè)詞組合而成。評價(jià)結(jié)果中正確詞語的比例記為P1@Percentage,正確詞語與組合詞語所占的比例之和記為P2@Percentage。
表1、2分別給出了在整體度排序和總權(quán)值排序下的結(jié)果??梢娕琶亢蟮淖址墙M合詞語的可能性更大。字符串整體度和以此為基礎(chǔ)給出的總權(quán)值均可有效度量字符串是否成詞。使用總權(quán)值排序可取得比字符串整體度略好的效果。
表1 P@Percentage由整體度排序
本文的方法無法發(fā)現(xiàn)和抽取Av≤1的詞語,召回率在不同文本集上評測的結(jié)果差距較大,對于詞語的召回率低于0.15,對于新詞的召回率平均值為0.634。由于出現(xiàn)新詞的文本中往往對新詞有較多的集中應(yīng)用和解釋,所以本文的方法可以較好的召回新詞。
表2 P@Percentage由總權(quán)重排序
本文在統(tǒng)計(jì)上下文鄰接類別時(shí),使用了按2字節(jié)統(tǒng)計(jì)的方式。與傳統(tǒng)的按詞語統(tǒng)計(jì)方式比較,在上下文鄰接類別較小時(shí),兩種方法的結(jié)果基本相同。隨著詞語上下文應(yīng)用環(huán)境變復(fù)雜,2字節(jié)為單位統(tǒng)計(jì)的值與按詞語統(tǒng)計(jì)的值逐漸產(chǎn)生差距(圖6)。由于結(jié)果集中往往是AV值較低的字符串影響準(zhǔn)確度,所以采用2字節(jié)為單位的統(tǒng)計(jì)方法對結(jié)果的篩選基本沒有影響,可以在減少計(jì)算量的同時(shí)保證計(jì)算效果。
本文使用的剪枝方法可以有效的減少計(jì)算量。使用最小AV值和最大字符串長度作為剪枝標(biāo)準(zhǔn),結(jié)果見表3。在本文所測試的語料上,當(dāng)最小AV值為2,最大字符串長度為20字節(jié)(10個(gè)漢字)時(shí),經(jīng)過剪枝后的節(jié)點(diǎn)數(shù)量減少至原來的10.397%。當(dāng)最小AV值限定為4時(shí),節(jié)點(diǎn)數(shù)減少至1.069%。在實(shí)際使用中,為增加召回率,通常采用第一行的剪枝標(biāo)準(zhǔn)。
圖6 以2字節(jié)為單位統(tǒng)計(jì)AV值
表3 剪枝效果分析
本文的方法在多語言語料上同樣適用。簡單的為每種語言配置幾個(gè)過濾字詞之后即可達(dá)到與中文接近的效果。以英文為例,由于英文詞語之間有空格分隔,不需要考慮成詞概率,所以在式(5)上去掉了W2。評價(jià)結(jié)果集內(nèi)大于等于兩詞的短語是否為實(shí)體名或固定語言搭配。測試語料為100篇來自FIFA的新聞?wù)Z料。結(jié)果集使用簡單規(guī)則過濾掉以of,the,for,a開頭和結(jié)尾的詞組之后,P@Percentage(1.0)為0.674,新詞和短語的總召回率為52.5%。
本文在前人研究工作的基礎(chǔ)上,總結(jié)了新詞發(fā)現(xiàn)的常用方法,改進(jìn)了后綴樹模型的計(jì)算量:修改了傳統(tǒng)后綴樹以字節(jié)為單位的基本結(jié)構(gòu),提出并實(shí)現(xiàn)了以4bit為單位的通用字符串后綴樹方法,統(tǒng)一了中、英文處理的核心部分;不需要對中文文本分詞,利用雙后綴樹以線性時(shí)間統(tǒng)計(jì)重復(fù)串與上下文鄰接量,并以此為基礎(chǔ)提出了字符串整體度用以過濾候選字符串。下一步工作是通過計(jì)算各語言中高頻搭配的背景數(shù)據(jù),自動化的過濾結(jié)果集中高頻但無意義的搭配,例如,中文的“的一”,英文中的“of a”,等等。
[1] 賀敏.面向互聯(lián)網(wǎng)的中文有意義串挖掘[D].中國科學(xué)院研究生院:計(jì)算技術(shù)研究所,2007.
[2] 黃玉蘭.有意義串挖掘及其應(yīng)用[D].中國科學(xué)院研究生院:計(jì)算技術(shù)研究所碩士學(xué)位論文,2009.
[3] 鄒綱,劉洋,劉群,等.面向Internet的中文新詞語檢測[J].中文信息學(xué)報(bào),2004,18(6):1-9.
[4] Zhang Y,Liu C.An improved fast algorithm of frequent string extracting with no thesaurus[C]//Proceedings of the artificial intelligence 6th Mexican international conference on Advances in artificial intelligence.Berlin,Heidelberg:Springer-Verlag,2007.894-903.
[5] Zeng D,Wei D,Chau M,et al.Domain-specific Chinese word segmentation using suffix tree and mutual information[J].Information Systems Frontiers,2011,13(1):115-125.
[6] Feng H,Chen K.,Deng X,et al.Accessor Variety Criteria for Chinese Word Extraction[J].Computational Linguistics,2004,30(1):75-93.
[7] 張海軍,欒靜,李勇,等.基于統(tǒng)計(jì)學(xué)習(xí)框架的中文新詞檢測方法[J].計(jì)算機(jī)科學(xué),2012,39(2):232-235.
[8] Sun W,Xu J.Enhancing Chinese word segmentation using unlabeled data[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Renals S.Stroudsburg,PA,USA:Association for Computational Linguistics,2007.970-979.
[9] Ukkonen E.On-line construction of suffix trees[J].Algorithmica,1995,14(3):249-260.