• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多語種網(wǎng)絡(luò)文本快速新詞抽取

    2014-04-14 07:50:26劉冰洋劉欣然程學(xué)旗
    中文信息學(xué)報(bào) 2014年2期
    關(guān)鍵詞:文本語言

    劉冰洋,劉 倩,張 瑾,劉欣然,程學(xué)旗

    (1.中國科學(xué)院計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與工程研究中心,北京100190;2.中國科學(xué)院大學(xué),北京100190;3.國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100029)

    1 引言

    網(wǎng)絡(luò)文本的重要特點(diǎn)之一是不斷的涌現(xiàn)新詞。2011到2012年出現(xiàn)的網(wǎng)絡(luò)新詞有,“hold住”、“給力”、“穿越”、“小清新”、“12306”、“甄嬛體”等等。語言帶有強(qiáng)烈的時(shí)代烙印,這些新詞基本上都是以前未出現(xiàn)的,包括了命名實(shí)體,詞組和短語以及約定俗成的固定用語。新詞最能敏銳反映時(shí)代和社會心理的變遷,它與新的社會現(xiàn)象密不可分,從一個(gè)特定的角度表達(dá)著人們的價(jià)值觀和文化心態(tài)。所以,挖掘網(wǎng)絡(luò)新詞對于跟蹤社會發(fā)展,發(fā)現(xiàn)社會、網(wǎng)絡(luò)輿情,預(yù)測發(fā)展趨勢具有重要意義。

    互聯(lián)網(wǎng)是一個(gè)開放的信息平臺,存在多領(lǐng)域多語言的文字。截止到2011年12月30日,互聯(lián)網(wǎng)的網(wǎng)頁內(nèi)容中,英語占56.6%,接下來依次為德語、俄語、日語、西班牙語、中文、法語、意大利語,其中中文的內(nèi)容量為4.5%[1]。值得一提的是,使用中文的網(wǎng)民量占全球的25%。同時(shí),由于中國的多民族環(huán)境,少數(shù)民族語言的互聯(lián)網(wǎng)內(nèi)容也在日漸增多。因此,適用于網(wǎng)絡(luò)文本多語言的通用的新詞識別方法被迫切需求。

    統(tǒng)計(jì)方法在自然語言處理中,尤其是在面向網(wǎng)絡(luò)文本的淺層自然語言處理中已經(jīng)逐漸占據(jù)主流地位。規(guī)則方法很難適用于多語言的處理。而從通用有效的統(tǒng)計(jì)特征出發(fā),可以有效的識別語言要素和語用環(huán)境,提取出重點(diǎn)字串,包括但不限于:新詞、關(guān)鍵詞、固定搭配、命名實(shí)體。本文主要面向的是新詞抽取方法。

    2 相關(guān)工作

    使用統(tǒng)計(jì)方法進(jìn)行新詞抽取的時(shí)候,通常第一步是從文本中抽出頻率大于一定閾值的重復(fù)串作為候選串集合,然后再通過其它統(tǒng)計(jì)量篩選、過濾或合并候選串集合中的字符串。

    抽取重復(fù)串有分詞后統(tǒng)計(jì)和非分詞兩種方案:分詞后統(tǒng)計(jì)以詞語作為構(gòu)成字符串的基本單位,非分詞方案以字為基本單位。文獻(xiàn)[1]、[2]采用了最大匹配分詞;文獻(xiàn)[3]使用ICTCLAS進(jìn)行分詞和詞性標(biāo)注;文獻(xiàn)[4]使用非分詞方案,采用了n元遞增分步算法,并借鑒了Apriori算法的思想,從1字子串生成2字子串最后到n字子串,從而得到所有可能的重復(fù)串。

    分詞方案的優(yōu)點(diǎn)是可以減少計(jì)算量,缺點(diǎn)是詞語切分的錯(cuò)誤會向后傳遞,導(dǎo)致一些可能是新詞的重復(fù)串無法被發(fā)現(xiàn)。非分詞方案的優(yōu)點(diǎn)在于枚舉到了所有的可能子串,缺點(diǎn)是計(jì)算量大,且會出現(xiàn)大量垃圾串,需要有效的垃圾串過濾方法。文獻(xiàn)[5]使用后綴樹來處理中文文本,但是并沒有解決后綴樹應(yīng)用于中文時(shí)的效率問題。

    本文使用了非分詞方案,并通過多語言統(tǒng)一編碼和對后綴樹的改進(jìn),克服了通常認(rèn)為的使用后綴樹處理中文時(shí)字符集過大的缺點(diǎn),可以快速提取所有滿足頻率閾值的重復(fù)串。

    判斷候選串集中的字符串是否成詞,可以同時(shí)借助字符串的上下文環(huán)境信息和內(nèi)部信息,通常在中文分詞領(lǐng)域被應(yīng)用。文獻(xiàn)[6]提出鄰接類別(Accessor Variety)的概念來描述字符串的使用靈活性;文獻(xiàn)[4]使用互信息來計(jì)算字符串內(nèi)部信息和相鄰字符串,判斷是否成詞;文獻(xiàn)[1]結(jié)合使用了鄰接類別、鄰接熵以及雙字耦合度的方法;文獻(xiàn)[7]提出統(tǒng)計(jì)學(xué)習(xí)的框架,使用CRF和最大熵模型,利用前、后綴,左、右熵以及串長、串頻等多個(gè)特征對候選串進(jìn)行是否為新詞的標(biāo)注,取得了較好效果,但由于模型的訓(xùn)練需要基于已標(biāo)注的訓(xùn)練數(shù)據(jù),無法應(yīng)對多領(lǐng)域和多語言的需要;文獻(xiàn)[8]使用了鄰接類別、互信息、是否為錨文本這三個(gè)統(tǒng)計(jì)量來提升中文分詞的效果,本質(zhì)上也是計(jì)算成詞可能性。

    本文以鄰接類別為基礎(chǔ),結(jié)合字符串頻率提出了字符串整體度來判定成詞和過濾垃圾串,可以僅使用簡單的閾值過濾和權(quán)重計(jì)算,得到最終的新詞結(jié)果,并使其可以應(yīng)用到多語言環(huán)境。

    3 基于雙后綴樹的動態(tài)規(guī)劃新詞提取算法

    處理多語言文本需要面對不同的語言形態(tài)和特征,因此需要先統(tǒng)一多種語言的形態(tài),再計(jì)算與語言無關(guān)的統(tǒng)計(jì)量來達(dá)到新詞抽取的目的。

    本文采用如下流程抽取多語言文本中的新詞,如圖1所示。首先對文本進(jìn)行統(tǒng)一編碼,然后在雙后綴樹上統(tǒng)計(jì)重復(fù)頻率與鄰接類別并計(jì)算字符串整體度,最后對候選結(jié)果集進(jìn)行編碼還原、篩選和排序得到最終的新詞結(jié)果集。通過重復(fù)頻率來描述字符串的應(yīng)用頻繁程度,通過鄰接類別來描述字符串的應(yīng)用場景,并在非分詞場景下提出了字符串整體度來描述字符串的成詞概率。

    圖1 多語言文本新詞抽取流程

    3.1 多語言統(tǒng)一編碼

    語言的基本意義單元是詞語,但不同語言對應(yīng)的文字中詞語的表示形式不同。以中英文為例,中文的詞語之間沒有空白符,英文的詞語之間有空白符作為自然間隔。本文把中文視為連續(xù)字節(jié)流,并通過動態(tài)詞典的方案把英文轉(zhuǎn)化為字節(jié)流,提出如下的多語言統(tǒng)一編碼方案以統(tǒng)一處理中英文。該方案也可適用于其他語言文字。

    由于中文的字符集較大,常用字符約為4 000個(gè),|∑|≈4 000,log|∑|≈12,且漢字在GBK編碼下需要兩字節(jié)來表示,使得建立后綴樹時(shí)的指針開銷很大,不利于發(fā)揮后綴樹數(shù)據(jù)結(jié)構(gòu)的時(shí)間優(yōu)勢,所以在以往的大數(shù)據(jù)量中文文本處理中較少使用后綴樹。

    本文提出了一種方案:把中文文本轉(zhuǎn)換為Unicode-16編碼后,以4-bit為單位作為字符劃分。此方案把字符集大小固定為16,縮小了指針的開銷。如圖2所示,“是”的Unicode編碼為0x662F,拆分為4個(gè)4bit字符,分別是(小端字節(jié)序)。

    圖2 中文編碼方案

    本文采用的后綴樹[9]算法最多使用2N個(gè)節(jié)點(diǎn)來建樹,其中N為原字符串的單位長度。設(shè)每個(gè)后綴樹節(jié)點(diǎn)有C字節(jié)的固定空間開銷,每個(gè)指針的空間開銷為P字節(jié),字符串長度為Z字節(jié)。以x-bit為單位時(shí),總空間開銷為SP(x)如式(1)所示。

    在32位計(jì)算機(jī)上P取4,在本文的后綴樹實(shí)現(xiàn)中,C約為64字節(jié)。4-bit的方案最為節(jié)省空間。

    對于英文以及其他不需要分詞的語種,本文采用動態(tài)詞典的方式,將單詞映射為序號。以英文為例,現(xiàn)代英文中約有10萬在用單詞,在局部文本中使用雙字節(jié)就可以存儲編號值,然后同樣采用4-bit為單位劃分,如圖3所示。

    圖3 英文編碼方案

    中英文的最大區(qū)別在于英文不需要分詞,如果直接對英文字符串建樹,會造成存儲空間的浪費(fèi);另一方面,英文中單詞具有不同的時(shí)態(tài)、數(shù)、性,需要對它們進(jìn)行詞根還原(Stemming)。本文的實(shí)現(xiàn)中使用了Porter Stemming的規(guī)則方法。

    3.2 重復(fù)字串統(tǒng)計(jì)

    重復(fù)字串發(fā)現(xiàn)的基本流程為以標(biāo)點(diǎn)符號為自然分隔,統(tǒng)計(jì)一段文本中所有子串的出現(xiàn)次數(shù),例如,“發(fā)現(xiàn)新聞、新詞”的子串集合及其頻率為:{發(fā)(1),現(xiàn)(1),新(2),聞(1),詞(1),發(fā)現(xiàn)(1),現(xiàn)新(1),新聞(1),新詞(1),發(fā)現(xiàn)新(1),現(xiàn)新聞(1),發(fā)現(xiàn)新聞(1)}。下文中把字符串S的頻率記為Freq(S)。

    漢語特點(diǎn)是其字符表很大,結(jié)合這個(gè)特點(diǎn),目前可應(yīng)用于和已應(yīng)用于中文文本的重復(fù)串查找算法有后綴樹算法和n元遞增分步算法[4]等。

    傳統(tǒng)的后綴樹算法建樹的復(fù)雜度依賴于詞匯量(對于以字符為單位的后綴樹而言,則是字符表的大小),其時(shí)間復(fù)雜度為O(N*min{log|Σ|,logN}),空間復(fù)雜度為,其中N為串的長度,為字符集大小,而遍歷后綴樹查找重復(fù)串的時(shí)間復(fù)雜度均為O (N)。特點(diǎn)是空間復(fù)雜度較高,而時(shí)間復(fù)雜度較低,只適用于小規(guī)模語料處理時(shí)快速發(fā)現(xiàn)重復(fù)串。

    n元遞增分步算法雖然時(shí)間復(fù)雜度比較高,但是空間復(fù)雜度O(N)較低(N是語料規(guī)模)。其主要思想先統(tǒng)計(jì)所有兩字串的頻次,然后再逐步統(tǒng)計(jì)三字串,四字串,五字串……記錄每一次擴(kuò)展的字串以及對應(yīng)頻次,到達(dá)句末或者是字串長度達(dá)到閾值時(shí)停止擴(kuò)展。

    本文對傳統(tǒng)后綴樹建樹算法進(jìn)行了改進(jìn)。漢字的常用字符表大小約為4 000,本文中把字節(jié)流以4bit為單位劃分,使得字符表大小變?yōu)?6,減少了指針開銷。建樹的時(shí)間復(fù)雜度為O (N *4),空間復(fù)雜度為O (N *4),均為線性復(fù)雜度。以4bit為單位劃分字節(jié)流的額外好處是不需要考慮被處理的字符串的編碼類型、編碼空間,且易于擴(kuò)展到其它語言。

    3.3 上下文鄰接統(tǒng)計(jì)

    通常來說,一個(gè)詞語的內(nèi)部結(jié)合度比較高,如詞語“禽流感”中的三個(gè)字總是一起出現(xiàn)。而它與外部上下文的關(guān)系比較松散,上下文環(huán)境靈活多變。對比“禽流”一詞,它的下文在語料中只有“感”字,所以“禽流”一詞的上下文環(huán)境不夠多變,不足以形成獨(dú)立的詞。本文在文獻(xiàn)[1,6]的基礎(chǔ)上重新給出鄰接類別適用于不對中文進(jìn)行分詞時(shí)的定義。

    定義3.1(n-左鄰接集合):指在真實(shí)文本中,與字符串左邊相鄰的n字節(jié)字符串的集合,記為n-AVL。同理得n-右鄰接集合n-AVR。

    定義3.2(n-鄰接類別):min{|n-AVL|,|n-AVR|},記為n-AV。它反映了串S上文和下文中鄰接類別的最小值。

    本文取n為2,即只統(tǒng)計(jì)串S上文兩個(gè)字節(jié)和下文兩個(gè)字節(jié)中出現(xiàn)的鄰接集合?!拔⒉币辉~在2010年成為網(wǎng)絡(luò)熱詞,下面是真實(shí)網(wǎng)頁中的例句:

    浙江組織部門開官方微博聽取民意

    新浪微博是全中國最主流最具人氣當(dāng)前最火爆的微博產(chǎn)品

    網(wǎng)易微博秉承讓每個(gè)人都成為中心做中國脈搏的思想讓個(gè)人的力量不再微薄

    微博又叫微博客(micro blog)是微型博客的簡稱NBA官方微博落戶騰訊聯(lián)手打造第一球迷社區(qū)

    2-AVL(微博)={方,浪,的,易,BOS,叫},2-AVR(微博)={聽,是,產(chǎn),秉,又,客,落},|2-AVL(微博)|=6,|2-AVR(微博)|=7,2-AV(微博)=min{6,7}=6.下文中字符串S的2-AVL、2-AVR、2-AV分別簡記為AvL(S)、AvR(S)和Av(S)。

    3.4 字符串整體度

    由于本文對中文處理時(shí)不進(jìn)行分詞,所以候選的字符串可能高頻但并不成詞,即為垃圾串。字符串整體度可以用來描述一個(gè)字符串的成詞概率,過濾垃圾串。

    定義3.3(字符串整體度):在給定語料C中,字符串S的整體度(String Integrity Measure,SIM)記為It(S,C),如式(2)所示。

    由于Av(S)≤Freq(S)且Av(S)≥1,可知It(S,C)≥0。

    3.5 算法描述

    在已經(jīng)建好的后綴樹上統(tǒng)計(jì)候選字符串時(shí),本文使用了自底向上的動態(tài)規(guī)劃方法,僅遍歷各節(jié)點(diǎn)一次,在線性時(shí)間內(nèi)統(tǒng)計(jì)出所有節(jié)點(diǎn)所代表的字符串的重復(fù)頻率與Av值,同時(shí)借助簡單有效的剪枝方法來減少計(jì)算量,加快計(jì)算速度。

    為了便于描述算法,給出以下簡記定義:

    1)字符串S的倒序記為rev(S);

    2)取后綴樹T的任意節(jié)點(diǎn)X,它記錄了從根節(jié)點(diǎn)到X所表示的字符串,記為S(T,X);

    3)后綴樹T的根節(jié)點(diǎn)記為root(T),以后綴樹T的任意節(jié)點(diǎn)X為根節(jié)點(diǎn),得到的子樹記為sub(T,X),可知T=sub(T,ro ot (T));

    4)后綴樹T的任意節(jié)點(diǎn)X,sub(T,X)的葉節(jié)點(diǎn)個(gè)數(shù)記為leaf(T,X);

    5)后綴樹T的任意節(jié)點(diǎn)X,X的深度記為H(T,X);

    6)后綴樹T的任意節(jié)點(diǎn)X,刪除所有深度大于H (T ,X)+m的節(jié)點(diǎn)后,sub(T,X)的葉節(jié)點(diǎn)個(gè)數(shù)記為leafm(T,X),并定義leaf0(T,X)=1,leaf∞(T,X)=leaf(T,X)。

    使用后綴樹T存儲字符串S,后綴樹Tr存儲字符串rev(S),有如下性質(zhì):

    1)Freq (S (T,X))=leaf(T,X);

    2)AvR (S (T,X))=leaf4(T,X);

    3)同2),在后綴樹Tr上可以取得AvR(rev(S (T,X)))的值,即為AvL(S (T,X))。

    4)后綴樹T的節(jié)點(diǎn)集合與字符串S的子串集合一一對應(yīng),每一個(gè)節(jié)點(diǎn)的統(tǒng)計(jì)量都代表了其對應(yīng)子串的統(tǒng)計(jì)量。

    根據(jù)以上性質(zhì),自底向上的動態(tài)規(guī)劃算法遞推式如下:

    設(shè)后綴樹T上節(jié)點(diǎn)X的所有子節(jié)點(diǎn)集合為c(X),

    圖4中實(shí)線邊表示實(shí)際存在的邊,虛線邊表示省略了部分節(jié)點(diǎn),實(shí)心節(jié)點(diǎn)表示葉節(jié)點(diǎn)。圖中所示的后綴樹中,leaf (T,X)=9,leaf4(T,X)=6。

    圖4 基于動態(tài)規(guī)劃的后綴樹算法

    從后綴樹提取候選字符串時(shí)采用了如下的剪枝規(guī)則:

    i.規(guī)定候選字符串的最大、最小長度,由此規(guī)定了遍歷的最小最大深度;

    ii.規(guī)定候選字符串的最小頻率和最小n-AV值;

    iii.由頻率和n-AV的統(tǒng)計(jì)方法可以得知,當(dāng)遍歷到樹的某一節(jié)點(diǎn)已經(jīng)不滿足規(guī)則ii、iii時(shí),它的子節(jié)點(diǎn)也不會滿足,可以直接返回。

    應(yīng)用以上的剪枝規(guī)則后,后綴樹有效節(jié)點(diǎn)數(shù)縮小為原來的10%以內(nèi),見本文第4部分。

    3.6 基本排序

    對結(jié)果字符串進(jìn)行基本排序的目的是選出最有可能成為候選新詞的字符串并給出它們的排序?;九判驎r(shí)使用的權(quán)值計(jì)算公式如式(5)所示。

    上述計(jì)算公式中,W1(S)是Freq(S)與Av(S)的調(diào)合平均數(shù)。α通常取值范圍為[0.5,1.2],當(dāng)α>1時(shí),F(xiàn)req(S)所占權(quán)重更高,當(dāng)α<1時(shí),Av(S)所占權(quán)重更高;W2(S)是字符串整體度描述;W3(S)是字符串的長度在詞典中的先驗(yàn)概率,也可以根據(jù)經(jīng)驗(yàn)來決定。不同的經(jīng)驗(yàn)值配置會在結(jié)果中反映為對不同長度詞語的重視程度。

    在最后的排序結(jié)果中,存在部分詞語是其他詞語的子串,通過以下的篩選方法去除。

    設(shè)Weight(A)>W(wǎng)eight(B):

    如果B為A的子串,刪除B;

    4 實(shí)驗(yàn)分析

    本文的中文新詞抽取實(shí)驗(yàn)采用網(wǎng)絡(luò)語料,共計(jì)200篇新聞與博客,涵蓋財(cái)經(jīng)、體育、娛樂、社會領(lǐng)域,采用人工標(biāo)注的方法評價(jià)語料中提取出的詞語是否為新詞。但由于每篇文本中的新詞數(shù)有限,因此僅評價(jià)在背景詞典過濾之前所提取出的所有詞語是否成詞。

    大部分網(wǎng)頁文本正文長度為2.5KB至12KB。由于每篇文本長度不同,返回的結(jié)果數(shù)也不同,如圖5所示。為了方便對比所有文本的結(jié)果集,本文提出了P@Percentage的評價(jià)方法。

    定義3.4(P@Percentage):設(shè)返回的字符串集合元素個(gè)數(shù)為N。把返回的字符串集合按規(guī)則R排列,記字符串S在R下的排列序號為rank(R,S):

    圖5 結(jié)果集詞數(shù)與文本長度關(guān)系分布圖

    本文對結(jié)果集采用人工評估,把結(jié)果集中的字符串分為三類:正確詞語、組合詞語和錯(cuò)誤詞語。其中組合詞語定義為該字符串由幾個(gè)完整詞語拼合而成,例如,“金融體制”,是由“金融”和“體制”兩個(gè)詞組合而成。評價(jià)結(jié)果中正確詞語的比例記為P1@Percentage,正確詞語與組合詞語所占的比例之和記為P2@Percentage。

    表1、2分別給出了在整體度排序和總權(quán)值排序下的結(jié)果??梢娕琶亢蟮淖址墙M合詞語的可能性更大。字符串整體度和以此為基礎(chǔ)給出的總權(quán)值均可有效度量字符串是否成詞。使用總權(quán)值排序可取得比字符串整體度略好的效果。

    表1 P@Percentage由整體度排序

    本文的方法無法發(fā)現(xiàn)和抽取Av≤1的詞語,召回率在不同文本集上評測的結(jié)果差距較大,對于詞語的召回率低于0.15,對于新詞的召回率平均值為0.634。由于出現(xiàn)新詞的文本中往往對新詞有較多的集中應(yīng)用和解釋,所以本文的方法可以較好的召回新詞。

    表2 P@Percentage由總權(quán)重排序

    本文在統(tǒng)計(jì)上下文鄰接類別時(shí),使用了按2字節(jié)統(tǒng)計(jì)的方式。與傳統(tǒng)的按詞語統(tǒng)計(jì)方式比較,在上下文鄰接類別較小時(shí),兩種方法的結(jié)果基本相同。隨著詞語上下文應(yīng)用環(huán)境變復(fù)雜,2字節(jié)為單位統(tǒng)計(jì)的值與按詞語統(tǒng)計(jì)的值逐漸產(chǎn)生差距(圖6)。由于結(jié)果集中往往是AV值較低的字符串影響準(zhǔn)確度,所以采用2字節(jié)為單位的統(tǒng)計(jì)方法對結(jié)果的篩選基本沒有影響,可以在減少計(jì)算量的同時(shí)保證計(jì)算效果。

    本文使用的剪枝方法可以有效的減少計(jì)算量。使用最小AV值和最大字符串長度作為剪枝標(biāo)準(zhǔn),結(jié)果見表3。在本文所測試的語料上,當(dāng)最小AV值為2,最大字符串長度為20字節(jié)(10個(gè)漢字)時(shí),經(jīng)過剪枝后的節(jié)點(diǎn)數(shù)量減少至原來的10.397%。當(dāng)最小AV值限定為4時(shí),節(jié)點(diǎn)數(shù)減少至1.069%。在實(shí)際使用中,為增加召回率,通常采用第一行的剪枝標(biāo)準(zhǔn)。

    圖6 以2字節(jié)為單位統(tǒng)計(jì)AV值

    表3 剪枝效果分析

    本文的方法在多語言語料上同樣適用。簡單的為每種語言配置幾個(gè)過濾字詞之后即可達(dá)到與中文接近的效果。以英文為例,由于英文詞語之間有空格分隔,不需要考慮成詞概率,所以在式(5)上去掉了W2。評價(jià)結(jié)果集內(nèi)大于等于兩詞的短語是否為實(shí)體名或固定語言搭配。測試語料為100篇來自FIFA的新聞?wù)Z料。結(jié)果集使用簡單規(guī)則過濾掉以of,the,for,a開頭和結(jié)尾的詞組之后,P@Percentage(1.0)為0.674,新詞和短語的總召回率為52.5%。

    5 總結(jié)

    本文在前人研究工作的基礎(chǔ)上,總結(jié)了新詞發(fā)現(xiàn)的常用方法,改進(jìn)了后綴樹模型的計(jì)算量:修改了傳統(tǒng)后綴樹以字節(jié)為單位的基本結(jié)構(gòu),提出并實(shí)現(xiàn)了以4bit為單位的通用字符串后綴樹方法,統(tǒng)一了中、英文處理的核心部分;不需要對中文文本分詞,利用雙后綴樹以線性時(shí)間統(tǒng)計(jì)重復(fù)串與上下文鄰接量,并以此為基礎(chǔ)提出了字符串整體度用以過濾候選字符串。下一步工作是通過計(jì)算各語言中高頻搭配的背景數(shù)據(jù),自動化的過濾結(jié)果集中高頻但無意義的搭配,例如,中文的“的一”,英文中的“of a”,等等。

    [1] 賀敏.面向互聯(lián)網(wǎng)的中文有意義串挖掘[D].中國科學(xué)院研究生院:計(jì)算技術(shù)研究所,2007.

    [2] 黃玉蘭.有意義串挖掘及其應(yīng)用[D].中國科學(xué)院研究生院:計(jì)算技術(shù)研究所碩士學(xué)位論文,2009.

    [3] 鄒綱,劉洋,劉群,等.面向Internet的中文新詞語檢測[J].中文信息學(xué)報(bào),2004,18(6):1-9.

    [4] Zhang Y,Liu C.An improved fast algorithm of frequent string extracting with no thesaurus[C]//Proceedings of the artificial intelligence 6th Mexican international conference on Advances in artificial intelligence.Berlin,Heidelberg:Springer-Verlag,2007.894-903.

    [5] Zeng D,Wei D,Chau M,et al.Domain-specific Chinese word segmentation using suffix tree and mutual information[J].Information Systems Frontiers,2011,13(1):115-125.

    [6] Feng H,Chen K.,Deng X,et al.Accessor Variety Criteria for Chinese Word Extraction[J].Computational Linguistics,2004,30(1):75-93.

    [7] 張海軍,欒靜,李勇,等.基于統(tǒng)計(jì)學(xué)習(xí)框架的中文新詞檢測方法[J].計(jì)算機(jī)科學(xué),2012,39(2):232-235.

    [8] Sun W,Xu J.Enhancing Chinese word segmentation using unlabeled data[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Renals S.Stroudsburg,PA,USA:Association for Computational Linguistics,2007.970-979.

    [9] Ukkonen E.On-line construction of suffix trees[J].Algorithmica,1995,14(3):249-260.

    猜你喜歡
    文本語言
    初中群文閱讀的文本選擇及組織
    甘肅教育(2020年8期)2020-06-11 06:10:02
    語言是刀
    文苑(2020年4期)2020-05-30 12:35:30
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    讓語言描寫搖曳多姿
    多向度交往對語言磨蝕的補(bǔ)正之道
    累積動態(tài)分析下的同聲傳譯語言壓縮
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
    人間(2015年20期)2016-01-04 12:47:10
    我有我語言
    最后的刺客免费高清国语| 国内少妇人妻偷人精品xxx网站| 观看av在线不卡| 激情五月婷婷亚洲| 曰老女人黄片| h视频一区二区三区| 99精国产麻豆久久婷婷| 美女国产视频在线观看| 啦啦啦视频在线资源免费观看| 久久久久国产精品人妻一区二区| 国产成人午夜福利电影在线观看| 久久久午夜欧美精品| 九色成人免费人妻av| 亚洲va在线va天堂va国产| 如何舔出高潮| 欧美人与善性xxx| 婷婷色麻豆天堂久久| 777米奇影视久久| 午夜老司机福利剧场| 国产爽快片一区二区三区| 欧美+日韩+精品| 亚洲av中文av极速乱| 精品久久久久久久久av| 亚洲av免费高清在线观看| av黄色大香蕉| av福利片在线观看| 一本色道久久久久久精品综合| 91精品伊人久久大香线蕉| 如何舔出高潮| 五月开心婷婷网| 69精品国产乱码久久久| 久久 成人 亚洲| 极品教师在线视频| 久久久国产精品麻豆| 日韩中字成人| 18禁在线无遮挡免费观看视频| 在线观看www视频免费| 国产又色又爽无遮挡免| 亚洲欧美精品专区久久| 青春草亚洲视频在线观看| 欧美精品亚洲一区二区| 久久亚洲国产成人精品v| 亚洲精品乱码久久久久久按摩| 九色成人免费人妻av| 男人和女人高潮做爰伦理| 蜜桃久久精品国产亚洲av| 日韩,欧美,国产一区二区三区| 亚洲精品,欧美精品| 制服人妻中文乱码| 99热全是精品| 黄片小视频在线播放| a在线观看视频网站| www.熟女人妻精品国产| 另类精品久久| 亚洲第一青青草原| 久久久国产成人免费| 人人妻人人添人人爽欧美一区卜| 国产精品一二三区在线看| 亚洲精品一二三| 又大又爽又粗| 亚洲色图综合在线观看| 精品人妻一区二区三区麻豆| 国产av精品麻豆| 操美女的视频在线观看| 老司机亚洲免费影院| 国产一区有黄有色的免费视频| 美女脱内裤让男人舔精品视频| 少妇人妻久久综合中文| 人妻人人澡人人爽人人| 精品一品国产午夜福利视频| 国产精品偷伦视频观看了| 青春草亚洲视频在线观看| 亚洲三区欧美一区| 国产在线免费精品| 各种免费的搞黄视频| 欧美 亚洲 国产 日韩一| 免费黄频网站在线观看国产| 亚洲国产欧美一区二区综合| 久久国产精品人妻蜜桃| 亚洲精品中文字幕在线视频| 成在线人永久免费视频| 一级片'在线观看视频| 亚洲国产精品成人久久小说| 国产又色又爽无遮挡免| 日韩有码中文字幕| 免费在线观看视频国产中文字幕亚洲 | 99久久人妻综合| 国产三级黄色录像| 成年女人毛片免费观看观看9 | 亚洲成国产人片在线观看| 日韩免费高清中文字幕av| 天天躁狠狠躁夜夜躁狠狠躁| 麻豆av在线久日| 久久热在线av| 久久精品国产a三级三级三级| 天天添夜夜摸| 久久久久久亚洲精品国产蜜桃av| 亚洲精品一卡2卡三卡4卡5卡 | 亚洲国产欧美在线一区| 国产精品一二三区在线看| 十八禁网站网址无遮挡| 桃花免费在线播放| 少妇 在线观看| 久久亚洲国产成人精品v| 国产av又大| 99国产精品99久久久久| 国产精品久久久av美女十八| 老鸭窝网址在线观看| 国产片内射在线| 韩国高清视频一区二区三区| 捣出白浆h1v1| 两人在一起打扑克的视频| av不卡在线播放| 亚洲国产看品久久| 欧美亚洲 丝袜 人妻 在线| 淫妇啪啪啪对白视频 | 18在线观看网站| 天堂8中文在线网| 成人av一区二区三区在线看 | 丝袜脚勾引网站| 国产又色又爽无遮挡免| 亚洲国产av影院在线观看| 一本久久精品| 久久中文看片网| 69精品国产乱码久久久| 岛国在线观看网站| 国产精品二区激情视频| 成人国语在线视频| 九色亚洲精品在线播放| 欧美日韩中文字幕国产精品一区二区三区 | 少妇裸体淫交视频免费看高清 | 999久久久精品免费观看国产| 日韩,欧美,国产一区二区三区| 亚洲国产av新网站| 欧美日韩精品网址| 日韩,欧美,国产一区二区三区| 亚洲伊人久久精品综合| 亚洲精品一卡2卡三卡4卡5卡 | √禁漫天堂资源中文www| 日韩中文字幕欧美一区二区| 五月开心婷婷网| 欧美黄色淫秽网站| 亚洲三区欧美一区| 中文字幕人妻丝袜制服| 久久人人爽av亚洲精品天堂| 国产在线一区二区三区精| 51午夜福利影视在线观看| 男女高潮啪啪啪动态图| 99久久人妻综合| 国产福利在线免费观看视频| 制服人妻中文乱码| 国产日韩欧美亚洲二区| 欧美亚洲 丝袜 人妻 在线| 亚洲精品av麻豆狂野| 在线观看人妻少妇| 中亚洲国语对白在线视频| 精品一区二区三区av网在线观看 | 国产又爽黄色视频| 亚洲色图 男人天堂 中文字幕| 中文字幕高清在线视频| 80岁老熟妇乱子伦牲交| 操美女的视频在线观看| 999久久久精品免费观看国产| 久久女婷五月综合色啪小说| 国产片内射在线| 三上悠亚av全集在线观看| 叶爱在线成人免费视频播放| 搡老乐熟女国产| 18禁观看日本| 最近最新免费中文字幕在线| 91九色精品人成在线观看| 人妻 亚洲 视频| 久久久国产成人免费| 无限看片的www在线观看| 国产欧美日韩一区二区三 | 久久人人爽人人片av| 亚洲精品国产精品久久久不卡| 极品人妻少妇av视频| 岛国在线观看网站| 亚洲av日韩精品久久久久久密| 91麻豆av在线| 亚洲国产成人一精品久久久| a级毛片在线看网站| 国精品久久久久久国模美| 国产成人系列免费观看| 亚洲天堂av无毛| 欧美 亚洲 国产 日韩一| 久久亚洲国产成人精品v| 精品一区二区三区四区五区乱码| 亚洲精品成人av观看孕妇| 女人久久www免费人成看片| 婷婷丁香在线五月| 欧美+亚洲+日韩+国产| 亚洲一码二码三码区别大吗| 国产一区二区 视频在线| 女人高潮潮喷娇喘18禁视频| 亚洲色图 男人天堂 中文字幕| 一本大道久久a久久精品| 91麻豆精品激情在线观看国产 | 国产精品久久久av美女十八| 99热国产这里只有精品6| 色婷婷久久久亚洲欧美| www.999成人在线观看| 99久久国产精品久久久| 欧美成人午夜精品| 丝袜美腿诱惑在线| xxxhd国产人妻xxx| 丝袜喷水一区| 国产欧美日韩综合在线一区二区| 国产视频一区二区在线看| 国产成人精品在线电影| 欧美国产精品一级二级三级| av在线老鸭窝| 女警被强在线播放| 亚洲精品成人av观看孕妇| 一个人免费在线观看的高清视频 | 午夜精品国产一区二区电影| 国产福利在线免费观看视频| 男男h啪啪无遮挡| 午夜精品国产一区二区电影| 亚洲精品美女久久av网站| 日韩中文字幕视频在线看片| 老熟妇乱子伦视频在线观看 | 狂野欧美激情性xxxx| 久久久精品区二区三区| 少妇裸体淫交视频免费看高清 | 国产淫语在线视频| 99久久国产精品久久久| 不卡一级毛片| 久久精品国产亚洲av高清一级| 人人妻人人添人人爽欧美一区卜| 精品一品国产午夜福利视频| 亚洲欧美成人综合另类久久久| 午夜激情av网站| 国产成人精品在线电影| 高潮久久久久久久久久久不卡| 搡老岳熟女国产| 美女主播在线视频| 建设人人有责人人尽责人人享有的| 叶爱在线成人免费视频播放| 国产免费视频播放在线视频| 黄片小视频在线播放| 中文字幕色久视频| 老熟女久久久| 久久九九热精品免费| 又黄又粗又硬又大视频| 欧美激情极品国产一区二区三区| 一级毛片电影观看| 欧美97在线视频| 久久精品久久久久久噜噜老黄| 老司机在亚洲福利影院| 99精国产麻豆久久婷婷| 国产1区2区3区精品| 一区二区日韩欧美中文字幕| 成年女人毛片免费观看观看9 | 看免费av毛片| 黄片小视频在线播放| 国产男人的电影天堂91| 十八禁高潮呻吟视频| 成年人黄色毛片网站| 岛国在线观看网站| 久久人妻熟女aⅴ| 日日夜夜操网爽| 80岁老熟妇乱子伦牲交| 午夜激情久久久久久久| 无遮挡黄片免费观看| 99精品久久久久人妻精品| 97精品久久久久久久久久精品| 99精国产麻豆久久婷婷| 亚洲中文日韩欧美视频| 国产在线视频一区二区| 青青草视频在线视频观看| 日韩精品免费视频一区二区三区| av又黄又爽大尺度在线免费看| 久久久久久人人人人人| 十八禁人妻一区二区| 免费在线观看视频国产中文字幕亚洲 | 91大片在线观看| 精品亚洲成国产av| 国产成人一区二区三区免费视频网站| 老熟妇仑乱视频hdxx| 亚洲一区二区三区欧美精品| 97人妻天天添夜夜摸| 成在线人永久免费视频| 99久久综合免费| 久久亚洲国产成人精品v| 高清av免费在线| 男女午夜视频在线观看| 国产成人一区二区三区免费视频网站| 纯流量卡能插随身wifi吗| 久久精品成人免费网站| 无限看片的www在线观看| 亚洲精品国产精品久久久不卡| 国产精品一区二区在线不卡| 天天影视国产精品| 爱豆传媒免费全集在线观看| 乱人伦中国视频| 久9热在线精品视频| 精品少妇一区二区三区视频日本电影| 久久99一区二区三区| 国产免费一区二区三区四区乱码| 成人免费观看视频高清| 一区二区三区四区激情视频| 亚洲精品一二三| 美女扒开内裤让男人捅视频| 精品亚洲乱码少妇综合久久| 精品国产一区二区久久| 三上悠亚av全集在线观看| 久久性视频一级片| 黄网站色视频无遮挡免费观看| 欧美精品一区二区大全| 在线 av 中文字幕| 日韩欧美免费精品| 精品卡一卡二卡四卡免费| 十八禁网站网址无遮挡| xxxhd国产人妻xxx| 亚洲精品美女久久av网站| 国产日韩一区二区三区精品不卡| 亚洲成人国产一区在线观看| 成人18禁高潮啪啪吃奶动态图| 精品一区二区三卡| 中文精品一卡2卡3卡4更新| 久久人人97超碰香蕉20202| 欧美日韩成人在线一区二区| 黑人巨大精品欧美一区二区mp4| 99国产精品一区二区蜜桃av | 人人澡人人妻人| 久久久欧美国产精品| 中文精品一卡2卡3卡4更新| 亚洲成人免费av在线播放| 日本一区二区免费在线视频| 好男人电影高清在线观看| 国产av又大| 一边摸一边做爽爽视频免费| 婷婷成人精品国产| 两性夫妻黄色片| 亚洲精品成人av观看孕妇| av超薄肉色丝袜交足视频| 两性午夜刺激爽爽歪歪视频在线观看 | 国产成人啪精品午夜网站| 天天影视国产精品| av网站在线播放免费| 少妇精品久久久久久久| 精品一区二区三区四区五区乱码| 亚洲少妇的诱惑av| 成人国语在线视频| 国产在线观看jvid| 亚洲综合色网址| 日本91视频免费播放| 免费不卡黄色视频| 丝袜喷水一区| 色综合欧美亚洲国产小说| 国产野战对白在线观看| 国产精品亚洲av一区麻豆| 极品少妇高潮喷水抽搐| 最新在线观看一区二区三区| 午夜免费成人在线视频| 亚洲国产av影院在线观看| www.自偷自拍.com| e午夜精品久久久久久久| 十八禁高潮呻吟视频| 国产一区二区在线观看av| 好男人电影高清在线观看| 国产极品粉嫩免费观看在线| 国产深夜福利视频在线观看| 99久久精品国产亚洲精品| 成人国产一区最新在线观看| 日韩一卡2卡3卡4卡2021年| 亚洲伊人色综图| 黄色片一级片一级黄色片| 久久国产精品影院| 高清黄色对白视频在线免费看| 中文字幕精品免费在线观看视频| 在线看a的网站| 在线 av 中文字幕| 男女边摸边吃奶| 日韩 亚洲 欧美在线| 交换朋友夫妻互换小说| 亚洲欧美精品综合一区二区三区| 丝袜人妻中文字幕| 国产精品久久久久久精品古装| 国产色视频综合| 超碰97精品在线观看| 亚洲美女黄色视频免费看| 妹子高潮喷水视频| 别揉我奶头~嗯~啊~动态视频 | 国产区一区二久久| 久久国产精品男人的天堂亚洲| 少妇的丰满在线观看| 精品亚洲成a人片在线观看| 精品一区二区三区四区五区乱码| 亚洲成人免费av在线播放| 18禁裸乳无遮挡动漫免费视频| 国产一区有黄有色的免费视频| 精品欧美一区二区三区在线| 人妻 亚洲 视频| 国产激情久久老熟女| 两个人免费观看高清视频| svipshipincom国产片| 少妇被粗大的猛进出69影院| 人人澡人人妻人| 一二三四社区在线视频社区8| 淫妇啪啪啪对白视频 | 久久ye,这里只有精品| 亚洲精品一二三| 青春草亚洲视频在线观看| 久久亚洲精品不卡| 成人18禁高潮啪啪吃奶动态图| 高清视频免费观看一区二区| 日日摸夜夜添夜夜添小说| 成人免费观看视频高清| 又黄又粗又硬又大视频| 亚洲国产欧美一区二区综合| 激情视频va一区二区三区| tocl精华| 日韩欧美国产一区二区入口| 国产成人欧美在线观看 | 国产深夜福利视频在线观看| 亚洲成国产人片在线观看| 精品国产一区二区三区四区第35| 久久久精品94久久精品| www.999成人在线观看| 啦啦啦视频在线资源免费观看| 久久女婷五月综合色啪小说| 久久精品亚洲熟妇少妇任你| 久久久久久久久久久久大奶| 久久久精品区二区三区| 久久精品久久久久久噜噜老黄| 人人妻,人人澡人人爽秒播| 久久青草综合色| 日韩欧美一区视频在线观看| 青春草亚洲视频在线观看| 美女中出高潮动态图| 精品一区在线观看国产| 久久av网站| 免费av中文字幕在线| 在线观看免费视频网站a站| 成人三级做爰电影| 亚洲第一青青草原| 在线观看免费高清a一片| 精品国产一区二区三区久久久樱花| 国产精品久久久久成人av| 男女下面插进去视频免费观看| 日韩 亚洲 欧美在线| 大香蕉久久成人网| 国产深夜福利视频在线观看| 色综合欧美亚洲国产小说| 欧美午夜高清在线| 日日摸夜夜添夜夜添小说| 国产精品av久久久久免费| 99国产精品一区二区三区| 一级片免费观看大全| 亚洲精品在线美女| 亚洲国产av新网站| 久久精品熟女亚洲av麻豆精品| 成人国语在线视频| 他把我摸到了高潮在线观看 | 天堂俺去俺来也www色官网| 69精品国产乱码久久久| 午夜福利视频在线观看免费| 黑人猛操日本美女一级片| 亚洲成av片中文字幕在线观看| 国产成人a∨麻豆精品| 少妇裸体淫交视频免费看高清 | 日韩,欧美,国产一区二区三区| 亚洲av成人一区二区三| 人成视频在线观看免费观看| 日韩中文字幕欧美一区二区| 日韩制服骚丝袜av| 精品视频人人做人人爽| 50天的宝宝边吃奶边哭怎么回事| 久久国产精品大桥未久av| 女性被躁到高潮视频| 超色免费av| 中文字幕制服av| 国产成人欧美在线观看 | 日本欧美视频一区| 91大片在线观看| 国产亚洲欧美在线一区二区| 亚洲va日本ⅴa欧美va伊人久久 | 曰老女人黄片| 国产欧美日韩一区二区精品| 亚洲少妇的诱惑av| 久久久久精品国产欧美久久久 | av天堂久久9| 岛国毛片在线播放| 岛国在线观看网站| 成人黄色视频免费在线看| 乱人伦中国视频| 国产男女内射视频| 91精品三级在线观看| 91九色精品人成在线观看| 电影成人av| 飞空精品影院首页| 精品欧美一区二区三区在线| 高清视频免费观看一区二区| 美国免费a级毛片| 最近最新免费中文字幕在线| 天天躁夜夜躁狠狠躁躁| 欧美日韩亚洲国产一区二区在线观看 | 久久久久久久精品精品| 国内毛片毛片毛片毛片毛片| 又紧又爽又黄一区二区| 操出白浆在线播放| 亚洲精品国产精品久久久不卡| 夜夜骑夜夜射夜夜干| 亚洲精品自拍成人| 成人国产一区最新在线观看| 午夜成年电影在线免费观看| 国产亚洲欧美在线一区二区| 下体分泌物呈黄色| 别揉我奶头~嗯~啊~动态视频 | 久久久精品94久久精品| 亚洲久久久国产精品| 亚洲精品国产av成人精品| 日韩大码丰满熟妇| 99久久人妻综合| 欧美国产精品一级二级三级| 高清视频免费观看一区二区| 咕卡用的链子| 亚洲人成电影观看| 天天躁夜夜躁狠狠躁躁| 中文精品一卡2卡3卡4更新| 中文字幕人妻丝袜一区二区| 亚洲自偷自拍图片 自拍| 久久性视频一级片| 少妇精品久久久久久久| 天堂8中文在线网| 中文字幕另类日韩欧美亚洲嫩草| 久久久精品区二区三区| 国产成人欧美在线观看 | avwww免费| 啦啦啦在线免费观看视频4| 国产福利在线免费观看视频| 欧美日韩亚洲高清精品| 熟女少妇亚洲综合色aaa.| 老汉色av国产亚洲站长工具| 五月天丁香电影| 如日韩欧美国产精品一区二区三区| 精品亚洲成a人片在线观看| 中国国产av一级| 亚洲九九香蕉| 亚洲中文字幕日韩| 国产成人欧美在线观看 | 青春草视频在线免费观看| 欧美久久黑人一区二区| 香蕉丝袜av| 黄网站色视频无遮挡免费观看| 最新在线观看一区二区三区| 欧美黑人欧美精品刺激| 不卡av一区二区三区| 国产熟女午夜一区二区三区| 男人添女人高潮全过程视频| 久久 成人 亚洲| 最近最新免费中文字幕在线| av天堂在线播放| 亚洲国产精品一区三区| 黄频高清免费视频| 欧美 日韩 精品 国产| 国产男女内射视频| 国产免费现黄频在线看| 亚洲五月色婷婷综合| 久久久精品国产亚洲av高清涩受| 国产欧美日韩一区二区三 | 欧美激情极品国产一区二区三区| 国产精品久久久久久精品电影小说| 久久精品久久久久久噜噜老黄| 人妻 亚洲 视频| 日日夜夜操网爽| a级毛片在线看网站| 99国产极品粉嫩在线观看| 成人18禁高潮啪啪吃奶动态图| 中文字幕人妻丝袜制服| 悠悠久久av| 夫妻午夜视频| 视频区欧美日本亚洲| 侵犯人妻中文字幕一二三四区| 亚洲av男天堂| 亚洲久久久国产精品| a级毛片黄视频| 亚洲欧美成人综合另类久久久| 欧美午夜高清在线| 老司机深夜福利视频在线观看 | 无遮挡黄片免费观看| 精品国产乱子伦一区二区三区 | 欧美亚洲日本最大视频资源| 最新在线观看一区二区三区| 国产欧美日韩精品亚洲av| 亚洲专区字幕在线| 欧美成狂野欧美在线观看| 亚洲伊人色综图| 天堂8中文在线网| 精品福利永久在线观看| 丝袜在线中文字幕| 国产精品欧美亚洲77777| 99精国产麻豆久久婷婷| 不卡一级毛片| 法律面前人人平等表现在哪些方面 | 正在播放国产对白刺激| 免费女性裸体啪啪无遮挡网站| 久久久久久久大尺度免费视频| 欧美中文综合在线视频| 俄罗斯特黄特色一大片| 欧美日韩黄片免| 欧美中文综合在线视频| 99国产综合亚洲精品| 999精品在线视频| 国产精品欧美亚洲77777| 香蕉丝袜av| 三上悠亚av全集在线观看| 国产精品一区二区在线不卡| 久久精品国产亚洲av高清一级| 欧美+亚洲+日韩+国产| 久久国产精品人妻蜜桃| 51午夜福利影视在线观看|