• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于規(guī)則和N?Gram算法的新詞識(shí)別研究

    2019-02-20 02:07:48姜如霞黃水源段隆振羅麗娟
    現(xiàn)代電子技術(shù) 2019年4期

    姜如霞 黃水源 段隆振 羅麗娟

    關(guān)鍵詞: 新詞識(shí)別; N?Gram算法; 構(gòu)詞規(guī)則; 中文分詞; 碎片庫(kù); 召回率

    中圖分類號(hào): TN911?34; TP391 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)04?0166?05

    Research on new word recognition based on rules and N?Gram algorithm

    JIANG Ruxia, HUANG Shuiyuan, DUAN Longzhen, LUO Lijuan

    (School of Information Engineering, Nanchang University, Nanchang 330031, China)

    Abstract: A lot of word fragments can be produced and the meanings after word segmentation are very different from original meanings after word segmentation using the current word segmentation tool, and the formation rules of new words have the characteristic of high freedom degree. As a result, the current word segmentation method cannot effectively identify new words in network. The fragment library is constructed combining the formation rules of new word structures on the basis of the ICTCLAS2016 word segmentation system. The Bi?gram and Tri?gram modes are adopted to extract the candidate word strings in the fragment library. The left and right adjacent entropies are used for expansion and filtering of the candidate word strings. A new word recognition method based on rules and N?Gram algorithm is proposed. The results show that the word segmentation accuracy, recall rate and F values of the method are improved. The experimental results show that the new word recognition method can effectively construct the candidate new word sets and improve the effect of Chinese word segmentation.

    Keywords: new word recognition; N?Gram algorithm; word formation rule; Chinese word segmentation; fragment library; recall rate

    0 ?引 ?言

    新詞是一個(gè)最近鑄造的發(fā)明詞或者詞的重新組合,來(lái)源于新事物的產(chǎn)生、方言的引言吸收,簡(jiǎn)略詞匯、網(wǎng)絡(luò)新詞匯、外來(lái)語(yǔ)、舊詞新用等,如“藍(lán)瘦”“一帶一路”。 隨著網(wǎng)絡(luò)的發(fā)達(dá)及網(wǎng)絡(luò)用戶的增多,新詞在網(wǎng)絡(luò)上傳播較快,使用頻率也越來(lái)越廣,但對(duì)新詞的處理也帶來(lái)許多挑戰(zhàn)。目前,很多分詞工具不能識(shí)別或是有效識(shí)別出這些新詞,對(duì)這些新詞分詞后形成字碎片,沒(méi)有表現(xiàn)它完整的語(yǔ)義甚至語(yǔ)義完全相反。

    目前有的新詞發(fā)現(xiàn)[1]方法可大致分為基于語(yǔ)言規(guī)則的方法和基于統(tǒng)計(jì)學(xué)習(xí)的方法。鑒于上述兩種方法各自的不足,現(xiàn)在大多數(shù)學(xué)者都采用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法,從而改進(jìn)新詞發(fā)現(xiàn)結(jié)果。

    霍帥等提出基于統(tǒng)計(jì)的詞關(guān)聯(lián)性信息與統(tǒng)計(jì)特征與詞法特征相結(jié)合的新詞發(fā)現(xiàn)方法[1]。林自芳等首先進(jìn)行重復(fù)串查詢,之后結(jié)合詞內(nèi)部模式的特征對(duì)位置成詞的概率和首尾單字成詞改進(jìn)方法,最后進(jìn)行統(tǒng)計(jì)[2]。周超等首先對(duì)微博語(yǔ)料進(jìn)行分詞,將在兩停用詞間的相鄰字串兩兩組合,根據(jù)組合后的字串頻率統(tǒng)計(jì)取得新詞候選串,再通過(guò)組合成詞規(guī)則進(jìn)行篩選獲得候選新詞,最后通過(guò)詞的鄰接域變化特性去除垃圾串獲得新詞[3]。

    1 ?相關(guān)技術(shù)分析

    1.1 ?候選字串結(jié)構(gòu)制定規(guī)則

    根據(jù)詞語(yǔ)模式可知詞語(yǔ)的長(zhǎng)度大多介于2~4之間,因此本文提取的新詞候選字串為二元組、三元組、四元組這三種類型。在碎片詞中根據(jù)新詞候選字串組成形式,二元組新詞候選字串只有一種組合形式:“單字”+“單字”;三元組新詞候選字串,有三種組合形式:“二字詞+單字”“單字+二字詞”“單字+單字+單字”;四元組新詞候選字串,有五種組合形式:“單字+單字+單字+單字”“單字+單字+二字詞”“單字+三字詞”“二字詞+單字+單字”“三字詞+單字”。形成碎片庫(kù)序列MC的獲取規(guī)則如下:

    1.1.1 ?單 ?字

    1) 當(dāng)連續(xù)單字碎片為n=1,若該單字碎片下一個(gè)編號(hào)的詞是一個(gè)二字詞或者三字詞,則將它們加入到碎片庫(kù)MC中;

    2) 當(dāng)連續(xù)單字碎片為n=2,若該單字碎片下一個(gè)編號(hào)的詞是一個(gè)二字詞,則將它們加入到碎片庫(kù)MC中;

    3) 當(dāng)連續(xù)單字碎片為n>2,則該連續(xù)單字碎片加入到碎片庫(kù)MC中;

    4) 當(dāng)與其連續(xù)的上一個(gè)編號(hào)的詞是一個(gè)單字且與其連續(xù)的下一個(gè)編號(hào)的詞是一個(gè)二字詞,則將它們加到碎片庫(kù)MC中;

    5) 當(dāng)與其連續(xù)的上一個(gè)編號(hào)的詞是一個(gè)二字詞且與其連續(xù)的下一個(gè)編號(hào)的詞是一個(gè)單字,則將它們加到碎片庫(kù)MC中。

    1.1.2 ?二字詞

    若與其連續(xù)的上兩個(gè)編號(hào)的詞是兩個(gè)單字或其連續(xù)的下兩個(gè)編號(hào)的詞也是單字,則將它們加到碎片庫(kù)MC中。

    1.1.3 ?三字詞

    當(dāng)與其連續(xù)的上一個(gè)編號(hào)的詞是一個(gè)單字或者與其連續(xù)的下一個(gè)編號(hào)的詞也是一個(gè)單字,則將它們加到碎片庫(kù)MC中。

    當(dāng)遇到的是單字、二字詞或者三字詞,不存在與其連續(xù)編號(hào)的詞,則跳到下一個(gè)編號(hào)的詞開(kāi)始判斷。

    1.2 N?Gram統(tǒng)計(jì)模型

    N元統(tǒng)計(jì)模型[4]的主要思想是:一個(gè)單詞的出現(xiàn)與N?Gram模型建立在一種假設(shè)前提下,即假設(shè)第n個(gè)詞的出現(xiàn)只與前面n-1個(gè)詞相關(guān),并且與其他任何詞都不相關(guān),得到的各個(gè)詞出現(xiàn)的概率的乘積就是整句的概率。

    這種方法隨著i的增大,其存在兩個(gè)致命的缺陷:一個(gè)缺陷是wi的歷史基元增多,不可能實(shí)用化;二是數(shù)據(jù)稀疏嚴(yán)重。

    為了解決wi的歷史基元增多,不可能實(shí)用化引入了馬爾科夫[5]假設(shè):一個(gè)詞的出現(xiàn)僅僅依賴于它前面出現(xiàn)的一個(gè)或者有限的幾個(gè)詞。

    如果一個(gè)詞的出現(xiàn)僅僅與它前面出現(xiàn)的一個(gè)詞有關(guān)稱之為二元Bi?Gram。如果一個(gè)詞的出現(xiàn)僅僅與它前面出現(xiàn)的兩個(gè)詞有關(guān)稱之為三元Tri?Gram。

    為了得到[Pwiw1,w2,…,wi-1],采用一種簡(jiǎn)單的估計(jì)方法:最大似然估計(jì)。即可得到: ? [Pwiw1,w2,…,wi-1=C(w1,w2,…,wi)C(w1,w2,…,wi-1)] (1)

    式中,[Cw1,w2,…,wi]是統(tǒng)計(jì)序列[w1],[w2],…,[wi-1]出現(xiàn)在語(yǔ)料庫(kù)中的次數(shù)。

    而對(duì)于數(shù)據(jù)稀疏這個(gè)問(wèn)題,需要進(jìn)行數(shù)據(jù)平滑(Data Smoothing)處理。數(shù)據(jù)平滑的目的有兩個(gè):一個(gè)是使所有的N?Gram概率之和為1;二是使所有的N?Gram概率都不為0。

    較為常用的平滑技術(shù)主要包括:Jelinek?Mercer的方法、Katz的方法、Church?Gale的方法。本識(shí)別方法使用的平滑技術(shù)是Katz[6]平滑模型:Back?off Model,該技術(shù)優(yōu)點(diǎn)是參數(shù)較少可以通過(guò)計(jì)算得出,結(jié)果也更接近實(shí)際概率分布。該技術(shù)的思想是當(dāng)一個(gè)N元Gram模型對(duì)[(wi-n+1,w2,…,wi)]詞序列出現(xiàn)的概率為0時(shí),將按照一個(gè)折扣估計(jì)退回到低元模型,并按照[Pwiwi-n+1,w2,…,wi]的比例分配為出現(xiàn)的N元模型對(duì)。

    [Pwiwi-n+1,…,wi-1=discounted*Cwi-n+1,…,wiCwi-n+1,…,wi-1] ? ? (2)

    [βwiwi-n+1,…,wi-1= ? ? ? 1-Cwi-n+1,…,wi-1>0Pwiwi-n+1,…,wi-11-Cwi-n+2,…,wi-1>0Pwiwi-n+2,…,wi-1] (3)

    1) 當(dāng)[Cwi-n+1,…,wi>0]時(shí),則:

    [Pwiwi-n+1,w2,…,wi-1=P(wi)Pwiwi-n+1,…,wi-1] (4)

    2) 當(dāng)[Cwi-n+1,…,wi=0]時(shí),則:

    [Pwiwi-n+1,w2,…,wi-1=βwiwi-n+1,…,wi-1Pwiwi-n+2,…,wi-1] (5)

    結(jié)合式(2)~式(5)可以得到基于N?Gram模型分詞算法的最佳切分輸出方式。將[s=(wi-n+1,w2,…,wi)]詞序列的最佳切分輸出方式代入到式(1),推導(dǎo)可得如下公式:

    [Ps=argmaxMi=1mPwiwi-n+1,…,wi-1] ? (6)

    在實(shí)際計(jì)算中,為防止機(jī)器誤差將很小的概率值當(dāng)作零來(lái)處理,通常采用負(fù)對(duì)數(shù)處理的方式將問(wèn)題轉(zhuǎn)化為求極小值問(wèn)題,具體公式為:

    [P′s=-ln Ps=argminMi=1mlnC(wi-1,wi)C(wi-1)] (7)

    1.3 新鄰接熵

    鄰接熵一般用于統(tǒng)計(jì)方法的新詞發(fā)現(xiàn)。使用鄰接熵計(jì)算一對(duì)詞之間的左熵和右熵,熵越大,字符串成詞概率越大,越有可能是一個(gè)新詞。

    左鄰接熵:

    [HLx=-p(ax)log p(ax)] ? (8)

    右鄰接熵:

    [HRx=-p(bx)log p(bx)] ?(9)

    式中: [p(ax)]表示a為候選詞x的左鄰接字符的概率;[p(bx)]表示b為候選詞x的右鄰接字符的概率。

    2 ?詞識(shí)別

    新詞不同于普通詞的構(gòu)成結(jié)構(gòu),詞語(yǔ)組成比較自由,并沒(méi)有嚴(yán)謹(jǐn)?shù)淖裱瓊鹘y(tǒng)語(yǔ)法結(jié)構(gòu)。因?yàn)閱渭兊幕谝?guī)則的方法,制定規(guī)則非常耗時(shí),而且可移植性差,而單一的N?Gram模型移植性好,但是在大規(guī)模的數(shù)據(jù)中計(jì)算量大,所以本文提出了基于新詞結(jié)構(gòu)制定規(guī)則和N?Gram方法的新詞識(shí)別方法。主要步驟如下:

    步驟1:通過(guò)對(duì)預(yù)處理文本中的分詞碎片進(jìn)行處理,得到候選新詞集合。

    在加入碎片庫(kù)MC過(guò)程中把每個(gè)文本中連續(xù)編號(hào)組成一個(gè)碎片子集序列FS,根據(jù)上述規(guī)則可知,F(xiàn)S是大于2個(gè)詞的詞序列。

    例如:“第一/遍/可能/還/一知半解/不明/覺(jué)/厲”。根據(jù)規(guī)則可以得到2個(gè)FS :“第一遍可能”和“不明覺(jué)厲”。

    基于N?Gram模型碎片庫(kù)MC提取FS的候選字串算法如下:

    算法:候選新詞提取算法。

    輸入:MC//碎片庫(kù)序列;FS//碎片子集序列;

    輸出:CS//候選新詞集合。

    過(guò)程:

    1) 在碎片庫(kù)序列MC中,根據(jù)關(guān)鍵詞候選串制定規(guī)則提取FS作為二元的Bi?Gram和三元的Tri?Gram模式的處理對(duì)象;

    2) 先統(tǒng)計(jì)每個(gè)FS中每個(gè)詞的頻數(shù),之后做歸一化處理,最后利用Bi?Gram模式根據(jù)式(6)分別計(jì)算每個(gè)FS的二元組、三元組和四元組字符串的概率。把字符串和概率保存到數(shù)據(jù)庫(kù)中;

    3) 根據(jù)式(2)計(jì)算每一種分詞結(jié)果的概率,選擇最優(yōu)結(jié)果,即利用式(6)求出概率P(s)的極大值,若是很小概率則使用式(7)計(jì)算概率。把所有字符串的概率按由大到小排序,選取排在前面一半的字符串作為候選字串CS1;

    4) 利用Tri?Gram模式,重復(fù)過(guò)程2)、過(guò)程3),得到候選字串CS2,最后選取同時(shí)存在與CS1和CS2中的字符串作為候選新詞集合CS。

    步驟2:采用鄰接熵對(duì)候選新詞集合進(jìn)行外部成詞概率的篩選。

    候選新詞為二元組或四元組,計(jì)算左右鄰接熵均大于閾值[7],加入新詞集合。

    候選新詞為三元組,首先計(jì)算左鄰接熵,是否大于閾值;若大于閾值,再對(duì)右鄰接熵進(jìn)行計(jì)算,把左右鄰接熵均大于閾值的候選新詞加入新詞集合,否則向右擴(kuò)展一個(gè)字符,再次計(jì)算右鄰接熵;否則向左擴(kuò)展一個(gè)字符,再次計(jì)算左鄰接熵。

    本文提出的新詞識(shí)別方法具體流程如圖1所示。

    3 ?實(shí)驗(yàn)設(shè)計(jì)與結(jié)果

    3.1 ?數(shù)據(jù)采集與預(yù)處理

    以新浪微博為實(shí)驗(yàn)平臺(tái),主要以新浪微博的API接口,并結(jié)合網(wǎng)絡(luò)爬蟲(chóng)技術(shù),對(duì)2016年8月15日—9月5日期間關(guān)注的9個(gè)熱點(diǎn)話題相關(guān)的微博數(shù)據(jù)進(jìn)行采集。關(guān)注的7個(gè)熱點(diǎn)話題包括:王寶強(qiáng)離婚、里約奧運(yùn)、傅園慧洪荒之力、大學(xué)生徐玉玉電信詐騙案、王健林的目標(biāo)、三星Note 7、杭州G20。

    對(duì)采集到各個(gè)話題相關(guān)的微博信息進(jìn)行預(yù)處理,通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)微博數(shù)據(jù)中包含各式各樣的垃圾數(shù)據(jù),這些垃圾數(shù)據(jù)對(duì)話題發(fā)現(xiàn)的準(zhǔn)確度產(chǎn)生負(fù)面影響。把篩選后的數(shù)據(jù)保存到數(shù)據(jù)庫(kù)中,主要包括微博用戶名、用戶的關(guān)注人數(shù)、用戶的粉絲數(shù)、微博發(fā)布時(shí)間、微博文本、微博評(píng)論等。oracle數(shù)據(jù)庫(kù)中,微博條數(shù)共102 104,用戶人數(shù)96 803,部分微博數(shù)據(jù)。把每條微博評(píng)論的內(nèi)容放到每個(gè)TXT文檔中,文檔命名為微博編號(hào)。

    對(duì)所有微博文本進(jìn)行預(yù)處理:微博數(shù)據(jù)用ICTCLAS2016分詞系統(tǒng)分詞后,結(jié)合哈爾濱工業(yè)大學(xué)和百度停用詞庫(kù),去除停用詞,如“不管”“了”“嗎”等后,把留下的詞語(yǔ)保存到詞語(yǔ)分詞表中的同時(shí)進(jìn)行詞頻統(tǒng)計(jì),為提取候選新詞做準(zhǔn)備。文本預(yù)處理后保存,對(duì)前三個(gè)微博文本處理結(jié)果如表1所示(加位置編號(hào))。

    3.2 ?實(shí)驗(yàn)過(guò)程與結(jié)果分析

    評(píng)價(jià)中文分詞效果時(shí),對(duì)評(píng)價(jià)指標(biāo)召回率和精確度的具體定義如下:TP為正確切分的詞語(yǔ)數(shù);TP+FP為切分出來(lái)的詞語(yǔ)總數(shù);TP+FN為參考結(jié)果中的詞語(yǔ)總數(shù)。引入準(zhǔn)確率P和召回率R的概念和綜合評(píng)價(jià)指標(biāo)F1?Measure,有:

    [P=TPTP+FP] ?(10)

    [R=TPTP+FN] ? (11)

    [F1?Measure=2×P×RP+R] ?(12)

    式中:TP預(yù)測(cè)為正,實(shí)現(xiàn)為正;FP預(yù)測(cè)為正,實(shí)現(xiàn)為負(fù);FN預(yù)測(cè)為負(fù),實(shí)現(xiàn)為正;TN預(yù)測(cè)為負(fù),實(shí)現(xiàn)為負(fù)。

    本次實(shí)驗(yàn)抽取9 000條微博文本分三組作為輸入,分別使用本文算法和中文ICTCLAS2016分詞系統(tǒng)對(duì)其做分詞處理,根據(jù)評(píng)價(jià)指標(biāo)得到的結(jié)果如表2所示。

    分析表2可知,本文分詞算法在查準(zhǔn)率、召回率和F1?Measure值上都要比使用中文ICTCLAS2016分詞系統(tǒng)分詞更好。

    下面是對(duì)一條微博兩種方法的不同結(jié)果對(duì)比:

    1領(lǐng)導(dǎo)叫你和另外兩位同志一起負(fù)責(zé)一個(gè)項(xiàng)目,他們兩個(gè)人有沖突,請(qǐng)問(wèn)你怎么協(xié)調(diào)落開(kāi)展工作?

    2傅園慧里約奧運(yùn)會(huì)走紅微博粉絲漲700萬(wàn)洪荒之力,表情包瘋轉(zhuǎn)請(qǐng)問(wèn)你怎么看?

    3小趙出差在外還要一周才能回來(lái),他母親生病,組織上特意派你去探望,請(qǐng)問(wèn)你見(jiàn)到他母親會(huì)怎么說(shuō)。

    ICTCLAS2016分詞系統(tǒng):

    1/領(lǐng)導(dǎo)/叫/你/和/另外/兩/位/同志/一起/負(fù)責(zé)/一個(gè)/項(xiàng)目/,/他們/兩/個(gè)/人/有/沖突/,/請(qǐng)問(wèn)/你/怎么/協(xié)調(diào)/落/開(kāi)展/工作/?

    2/傅/園/慧/里/約/奧運(yùn)會(huì)/走紅/微/博/粉絲/漲/700萬(wàn)/洪荒/之/力/,/表情/包/瘋/轉(zhuǎn)/請(qǐng)問(wèn)/你/ 怎么/看/?

    3/小/趙/出差/在/外/還/要/一/周/才/能/回來(lái)/,/他/母親/生病/,/組織/上/特意/派/你/去/ 探望/,/請(qǐng)問(wèn)/你/見(jiàn)到/他/母親/會(huì)/怎么/說(shuō)/?

    本文算法:

    1/領(lǐng)導(dǎo)/叫/你/和/另外/兩位/同志/一起/負(fù)責(zé)/一個(gè)/項(xiàng)目/,/他們/兩個(gè)人/有/沖突/,/請(qǐng)問(wèn)/你怎么/協(xié)調(diào)/落/開(kāi)展/工作/?

    2/傅園慧/里約/奧運(yùn)會(huì)/走紅/微博/粉絲/漲/700萬(wàn)/洪荒之力/,/表情包/瘋/轉(zhuǎn)/請(qǐng)問(wèn)/你怎么/看/?

    3/小/趙/出差/在外/還要/一周/才能/回來(lái)/,/他/母親/生病/,/組織/上/特意/派你去/ 探望/,/請(qǐng)問(wèn)/你/見(jiàn)到/他/母親/會(huì)/怎么/說(shuō)/?

    通過(guò)分析可知,使用本文第2節(jié)中的新詞識(shí)別方法處理“表情/包”“洪荒/之/力”“兩/個(gè)/人”“傅/園/慧”“里/約”,可以把候選新詞“表情包”“洪荒之力”“兩個(gè)人”“傅園慧”“里約”抽取出來(lái)。

    4 ?結(jié) ?語(yǔ)

    本文利用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法識(shí)別候選新詞,給出候選子串結(jié)構(gòu)制定規(guī)則,采用鄰接熵選取新詞。對(duì)于新詞和人名ICTCLAS2016分詞系統(tǒng)沒(méi)有識(shí)別出來(lái),而本文算法識(shí)別出來(lái)了,但是會(huì)把不同的字組合在一起形成錯(cuò)誤的詞語(yǔ)。整體而言,本文分詞算法性能較高,新詞發(fā)現(xiàn)結(jié)果較好。

    參考文獻(xiàn)

    [1] 霍帥,張敏,劉奕群,等.基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J].模式識(shí)別與人工智能,2014,27(2):141?145.

    HUO Shuai, ZHANG Min, LIU Yiqun, et al. New words discovery in microblog content [J]. Pattern recognition and artificial intelligence, 2014, 27(2): 141?145.

    [2] 林自芳,蔣秀鳳.基于詞內(nèi)部模式的新詞識(shí)別[J].計(jì)算機(jī)與現(xiàn)代化,2010(11):162?164.

    LIN Zifang, JIANG Xiufeng. A new method for Chinese new word identification based on inner pattern of word [J]. Computer and modernization, 2010(11): 162?164.

    [3] 周超,嚴(yán)馨,余正濤,等.融合詞頻特性及鄰接變化數(shù)的微博新詞識(shí)別[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2015,50(3):6?10.

    ZHOU Chao, YAN Xin, YU Zhengtao, et al. Weibo new word recognition combining frequency characteristic and accessor variety [J]. Journal of Shandong University (Natural science), 2015, 50(3): 6?10.

    [4] MILLER D R H, LEEK T, SCHWARTZ R M. BBN at TREC7: using hidden Markov models for information retrieval [C]// Proceedings of the 7th Text Retrieval Conference. [S.l.: s.n.], 2008: 80?89.

    [5] MANNING C D, SCHUTZEH H.統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)[M].苑春法,李慶中,王昀,等譯.北京:電子工業(yè)出版社,2005.

    MANNING C D, SCHUTZEH H. Foundations of statistical natural language processing [M]. YUAN Chunfa, LI Qingzhong, WANG Jun, et al, translation. Beijing: Publishing House of Electronics Industry, 2005.

    [6] HARB B, CHELBA C, DEAN J, et al. Back?off language model compression [C]// Proceedings of 10th Annual Conference of the International Speech Communication Association. Brighton: [s.n.], 2014: 352?355.

    [7] 蘭沖.基于統(tǒng)計(jì)規(guī)則的中文分詞研究[D].西安:西安電子科技大學(xué),2011.

    LAN Chong. Research on Chinese word segmentation based on statistical rules [D]. Xian: Xidian University, 2011.

    [8] 夭榮朋,許國(guó)艷,宋健.基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用,2016,36(10):2772?2776.

    YAO Rongpeng, XU Guoyan, SONG Jian. Micro?blog new word discovery method based on improved mutual information and branch entropy [J]. Journal of computer applications, 2016, 36(10): 2772?2776.

    [9] 周霜霜,徐金安,陳鈺楓,等.融合規(guī)則與統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用,2017,37(4):1044?1050.

    ZHOU Shuangshuang, XU Jinan, CHEN Yufeng, et al. New words detection method for microblog text based on integrating of rules and statistics [J]. Journal of computer applications, 2017, 37(4): 1044?1050.

    [10] 張海軍,李勇,閆琪琪.一種基于海量語(yǔ)料的網(wǎng)絡(luò)熱點(diǎn)新詞識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(5):208?213.

    ZHANG Haijun, LI Yong, YAN Qiqi. Method of new Chinese words identification from large scale network corpora [J]. Computer engineering and applications, 2015, 51(5): 208?213.

    [11] 杜麗萍,李曉戈,于根,等.基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,52(1):35?40.

    DU Liping, LI Xiaoge, YU Gen, et al. New word detection based on an improved PMI algorithm for enhancing segmentation system [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 35?40.

    [12] 邢恩軍,趙富強(qiáng).基于上下文詞頻詞匯量指標(biāo)的新詞發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(6):64?67.

    XING Enjun, ZHAO Fuqiang. A novel approach for Chinese new word identification based on contextual word frequency?contextual word count [J]. Computer applications and software, 2016, 33(6): 64?67.

    [13] 黃軒,李熔烽.博客語(yǔ)料的新詞發(fā)現(xiàn)方法[J].現(xiàn)代電子技術(shù),2013,36(2):144?146.

    HUANG Xuan, LI Rongfeng. Discovery method of new words in blog contents [J]. Modern electronics technique, 2013, 36(2): 144?146.

    极品教师在线免费播放| 制服诱惑二区| 成人手机av| 99热国产这里只有精品6| 99re在线观看精品视频| 肉色欧美久久久久久久蜜桃| 日韩欧美一区二区三区在线观看 | 王馨瑶露胸无遮挡在线观看| 美女国产高潮福利片在线看| 久久国产亚洲av麻豆专区| 国产精品偷伦视频观看了| 国产淫语在线视频| 国产主播在线观看一区二区| 日韩欧美一区视频在线观看| 亚洲av美国av| 啦啦啦 在线观看视频| 国产男女超爽视频在线观看| 久久人妻熟女aⅴ| 免费看十八禁软件| 在线观看免费午夜福利视频| 亚洲成a人片在线一区二区| 免费久久久久久久精品成人欧美视频| 91大片在线观看| 国产免费视频播放在线视频| 日本黄色视频三级网站网址 | 国产精品一区二区在线观看99| 一夜夜www| 日韩一卡2卡3卡4卡2021年| 淫妇啪啪啪对白视频| 午夜两性在线视频| 深夜精品福利| 久久久国产成人免费| 人人澡人人妻人| 国产精品亚洲一级av第二区| 人人妻人人爽人人添夜夜欢视频| 亚洲欧美一区二区三区黑人| 午夜久久久在线观看| 女性被躁到高潮视频| 97在线人人人人妻| 久久国产精品大桥未久av| 日韩有码中文字幕| 午夜福利视频精品| 自线自在国产av| av有码第一页| 免费不卡黄色视频| 午夜福利一区二区在线看| 天堂动漫精品| 蜜桃国产av成人99| av不卡在线播放| 成人精品一区二区免费| 成人永久免费在线观看视频 | 香蕉丝袜av| 视频在线观看一区二区三区| bbb黄色大片| www.自偷自拍.com| 国产淫语在线视频| 在线看a的网站| 如日韩欧美国产精品一区二区三区| 99香蕉大伊视频| 一本—道久久a久久精品蜜桃钙片| 精品国产国语对白av| 丝瓜视频免费看黄片| 捣出白浆h1v1| 色婷婷av一区二区三区视频| 757午夜福利合集在线观看| 亚洲美女黄片视频| 色精品久久人妻99蜜桃| 成人影院久久| 中文字幕制服av| 国产欧美亚洲国产| 国产成人欧美在线观看 | 国产精品影院久久| 国产一区二区三区在线臀色熟女 | 麻豆av在线久日| 黄色丝袜av网址大全| 亚洲精品一卡2卡三卡4卡5卡| 国产av一区二区精品久久| 夜夜爽天天搞| 看免费av毛片| 国产日韩欧美亚洲二区| 欧美精品人与动牲交sv欧美| 在线播放国产精品三级| 飞空精品影院首页| 美女高潮到喷水免费观看| 操出白浆在线播放| 免费日韩欧美在线观看| 国产精品久久久人人做人人爽| 久久久久久久久久久久大奶| 国产精品一区二区免费欧美| 欧美日韩亚洲高清精品| 国产精品av久久久久免费| 两人在一起打扑克的视频| 久久精品亚洲精品国产色婷小说| 考比视频在线观看| 日韩有码中文字幕| 国产精品熟女久久久久浪| 一边摸一边抽搐一进一小说 | 日本黄色日本黄色录像| 俄罗斯特黄特色一大片| 久久久国产成人免费| 亚洲欧洲日产国产| 亚洲午夜理论影院| 成年人免费黄色播放视频| 热re99久久国产66热| 一级黄色大片毛片| 乱人伦中国视频| 1024香蕉在线观看| 天天操日日干夜夜撸| 国产成人一区二区三区免费视频网站| 久久热在线av| www日本在线高清视频| 欧美成人午夜精品| 国产精品美女特级片免费视频播放器 | 久久性视频一级片| 这个男人来自地球电影免费观看| 热99re8久久精品国产| 久久久国产一区二区| 亚洲综合色网址| 啦啦啦在线免费观看视频4| 欧美乱码精品一区二区三区| 激情视频va一区二区三区| tube8黄色片| 国产一区二区激情短视频| 国产成人影院久久av| 久久久久视频综合| 国产精品电影一区二区三区 | 亚洲三区欧美一区| 男女无遮挡免费网站观看| 极品教师在线免费播放| 国产精品美女特级片免费视频播放器 | 99riav亚洲国产免费| 午夜久久久在线观看| 久久99热这里只频精品6学生| 麻豆成人av在线观看| 在线观看人妻少妇| 国产三级黄色录像| 成年人黄色毛片网站| 亚洲精品乱久久久久久| 亚洲情色 制服丝袜| 男男h啪啪无遮挡| 777久久人妻少妇嫩草av网站| 丁香六月天网| 成年人免费黄色播放视频| 高清毛片免费观看视频网站 | 国产精品一区二区精品视频观看| 亚洲精品在线美女| 欧美黑人精品巨大| 国产亚洲精品久久久久5区| 久久这里只有精品19| 丰满少妇做爰视频| 飞空精品影院首页| av网站免费在线观看视频| 欧美久久黑人一区二区| 亚洲成人免费av在线播放| 纵有疾风起免费观看全集完整版| 久久青草综合色| 国产日韩欧美亚洲二区| 亚洲av国产av综合av卡| 丰满少妇做爰视频| 考比视频在线观看| 在线观看免费午夜福利视频| 变态另类成人亚洲欧美熟女 | 亚洲欧美一区二区三区久久| 亚洲视频免费观看视频| 久久久久久亚洲精品国产蜜桃av| 热re99久久精品国产66热6| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲第一青青草原| e午夜精品久久久久久久| 99久久国产精品久久久| √禁漫天堂资源中文www| 国产片内射在线| 99久久99久久久精品蜜桃| 亚洲国产欧美日韩在线播放| 少妇被粗大的猛进出69影院| 夜夜爽天天搞| 欧美另类亚洲清纯唯美| 国产在线一区二区三区精| 久久久久久久精品吃奶| 王馨瑶露胸无遮挡在线观看| 亚洲av美国av| 熟女少妇亚洲综合色aaa.| 在线观看www视频免费| 国产av精品麻豆| 免费久久久久久久精品成人欧美视频| 乱人伦中国视频| 欧美在线一区亚洲| 丝袜美足系列| 国产免费av片在线观看野外av| 免费观看a级毛片全部| 欧美人与性动交α欧美软件| 欧美日本中文国产一区发布| 婷婷丁香在线五月| 国产高清视频在线播放一区| 亚洲精华国产精华精| 啦啦啦在线免费观看视频4| 精品国产一区二区三区四区第35| 国产精品美女特级片免费视频播放器 | 一个人免费看片子| 成人手机av| 欧美 亚洲 国产 日韩一| 国产精品免费一区二区三区在线 | 欧美午夜高清在线| 两人在一起打扑克的视频| 欧美成人午夜精品| cao死你这个sao货| 欧美中文综合在线视频| 丰满人妻熟妇乱又伦精品不卡| 热re99久久精品国产66热6| 久久人人97超碰香蕉20202| 久久精品aⅴ一区二区三区四区| 在线播放国产精品三级| 丰满饥渴人妻一区二区三| 亚洲成人国产一区在线观看| 欧美精品一区二区免费开放| 日本av手机在线免费观看| 国产无遮挡羞羞视频在线观看| av有码第一页| 亚洲第一欧美日韩一区二区三区 | 色播在线永久视频| 女人高潮潮喷娇喘18禁视频| 国产免费福利视频在线观看| 丰满人妻熟妇乱又伦精品不卡| 久久久久久免费高清国产稀缺| 久久精品人人爽人人爽视色| 亚洲综合色网址| 久久精品亚洲熟妇少妇任你| 亚洲伊人色综图| 亚洲色图av天堂| 精品高清国产在线一区| 一二三四在线观看免费中文在| 久久久精品区二区三区| 国产野战对白在线观看| 亚洲av电影在线进入| aaaaa片日本免费| 不卡av一区二区三区| 亚洲成人国产一区在线观看| 久久久国产成人免费| 色老头精品视频在线观看| 国产免费现黄频在线看| 亚洲 欧美一区二区三区| 亚洲精品久久成人aⅴ小说| 午夜老司机福利片| 国产视频一区二区在线看| 露出奶头的视频| 国产日韩一区二区三区精品不卡| 好男人电影高清在线观看| 国内毛片毛片毛片毛片毛片| 嫁个100分男人电影在线观看| 正在播放国产对白刺激| 蜜桃国产av成人99| 亚洲av日韩精品久久久久久密| 操美女的视频在线观看| 久久精品亚洲精品国产色婷小说| 一进一出好大好爽视频| 免费在线观看黄色视频的| 成年版毛片免费区| 丝袜美腿诱惑在线| 一区二区三区国产精品乱码| 成年人免费黄色播放视频| 成人18禁在线播放| 国产xxxxx性猛交| 99精品久久久久人妻精品| 97人妻天天添夜夜摸| 俄罗斯特黄特色一大片| 国产精品电影一区二区三区 | 女性生殖器流出的白浆| 我的亚洲天堂| 黄片小视频在线播放| 大码成人一级视频| 丝袜喷水一区| 精品国产乱码久久久久久小说| 91精品国产国语对白视频| 久久国产精品男人的天堂亚洲| 麻豆国产av国片精品| 777久久人妻少妇嫩草av网站| 极品教师在线免费播放| 亚洲色图 男人天堂 中文字幕| 色视频在线一区二区三区| 久久久久久免费高清国产稀缺| 女性生殖器流出的白浆| 性少妇av在线| 搡老熟女国产l中国老女人| 国产真人三级小视频在线观看| 男女边摸边吃奶| 50天的宝宝边吃奶边哭怎么回事| 亚洲av成人不卡在线观看播放网| 亚洲人成77777在线视频| 欧美日韩亚洲国产一区二区在线观看 | 别揉我奶头~嗯~啊~动态视频| 99精品在免费线老司机午夜| 亚洲国产成人一精品久久久| 欧美日韩亚洲综合一区二区三区_| 日本vs欧美在线观看视频| 无限看片的www在线观看| h视频一区二区三区| 嫁个100分男人电影在线观看| 看免费av毛片| 一个人免费看片子| 超色免费av| 久久 成人 亚洲| 国产xxxxx性猛交| 午夜精品久久久久久毛片777| 亚洲va日本ⅴa欧美va伊人久久| 久久久久精品人妻al黑| 日本wwww免费看| 亚洲精品一卡2卡三卡4卡5卡| 性高湖久久久久久久久免费观看| 日韩中文字幕视频在线看片| 日本黄色视频三级网站网址 | 国产在线免费精品| 免费观看a级毛片全部| 美女福利国产在线| 免费黄频网站在线观看国产| tocl精华| 日日爽夜夜爽网站| 亚洲美女黄片视频| 一区二区三区精品91| 大片免费播放器 马上看| 精品人妻在线不人妻| 如日韩欧美国产精品一区二区三区| www.精华液| 夜夜骑夜夜射夜夜干| 色在线成人网| 精品久久久久久久毛片微露脸| 欧美中文综合在线视频| 亚洲中文字幕日韩| 亚洲av电影在线进入| 久久ye,这里只有精品| 精品亚洲乱码少妇综合久久| 大型av网站在线播放| 国产一区二区 视频在线| 亚洲专区中文字幕在线| 精品福利永久在线观看| 精品少妇久久久久久888优播| 久久久国产欧美日韩av| 国产精品免费一区二区三区在线 | 国产区一区二久久| 免费在线观看日本一区| 纯流量卡能插随身wifi吗| 男女下面插进去视频免费观看| 人人澡人人妻人| 欧美精品高潮呻吟av久久| www.精华液| 久久天堂一区二区三区四区| 一区福利在线观看| 视频区图区小说| 亚洲精品一卡2卡三卡4卡5卡| 亚洲男人天堂网一区| 一区二区av电影网| 欧美日韩精品网址| 大香蕉久久网| 国产精品久久电影中文字幕 | 一区二区三区国产精品乱码| 精品视频人人做人人爽| 两性夫妻黄色片| 两性午夜刺激爽爽歪歪视频在线观看 | 国产精品1区2区在线观看. | 50天的宝宝边吃奶边哭怎么回事| 亚洲精品国产区一区二| 精品久久久久久久毛片微露脸| www.精华液| 每晚都被弄得嗷嗷叫到高潮| 亚洲国产精品一区二区三区在线| 91大片在线观看| 国产精品久久久av美女十八| 成年女人毛片免费观看观看9 | 亚洲精品一二三| 国产高清videossex| 一区福利在线观看| 成人影院久久| 91精品三级在线观看| 色视频在线一区二区三区| 日本精品一区二区三区蜜桃| 久久青草综合色| 成年人免费黄色播放视频| 日日夜夜操网爽| 国产三级黄色录像| 午夜91福利影院| 一个人免费在线观看的高清视频| 女人爽到高潮嗷嗷叫在线视频| 国产精品自产拍在线观看55亚洲 | 97在线人人人人妻| 成年女人毛片免费观看观看9 | 美女高潮喷水抽搐中文字幕| 黄色a级毛片大全视频| 日本精品一区二区三区蜜桃| 久久 成人 亚洲| 日韩熟女老妇一区二区性免费视频| 成人精品一区二区免费| 欧美日韩亚洲综合一区二区三区_| 香蕉久久夜色| 69av精品久久久久久 | 香蕉国产在线看| 久久午夜亚洲精品久久| 少妇粗大呻吟视频| 亚洲国产av新网站| 91成人精品电影| 女人精品久久久久毛片| 午夜福利欧美成人| 一级毛片电影观看| 国产伦理片在线播放av一区| 国精品久久久久久国模美| 岛国毛片在线播放| 天天躁日日躁夜夜躁夜夜| 叶爱在线成人免费视频播放| 成年人午夜在线观看视频| 老鸭窝网址在线观看| 精品少妇一区二区三区视频日本电影| 欧美日韩视频精品一区| 国产精品久久久久久精品古装| 欧美成狂野欧美在线观看| 国产高清视频在线播放一区| 操美女的视频在线观看| 精品视频人人做人人爽| 国产一区二区 视频在线| www.999成人在线观看| 日日夜夜操网爽| 国产精品一区二区在线观看99| 搡老熟女国产l中国老女人| 精品免费久久久久久久清纯 | 人妻 亚洲 视频| 国产人伦9x9x在线观看| 在线天堂中文资源库| 大片免费播放器 马上看| 精品国产乱码久久久久久男人| www日本在线高清视频| av超薄肉色丝袜交足视频| 侵犯人妻中文字幕一二三四区| 99riav亚洲国产免费| 久久婷婷成人综合色麻豆| 国产国语露脸激情在线看| 极品少妇高潮喷水抽搐| 一级片'在线观看视频| 80岁老熟妇乱子伦牲交| 国产精品久久久人人做人人爽| 伦理电影免费视频| 男女床上黄色一级片免费看| 大片免费播放器 马上看| 肉色欧美久久久久久久蜜桃| 一级a爱视频在线免费观看| 国产色视频综合| 午夜精品国产一区二区电影| 亚洲精品乱久久久久久| 他把我摸到了高潮在线观看 | 日韩视频一区二区在线观看| av不卡在线播放| 一级,二级,三级黄色视频| 精品国产超薄肉色丝袜足j| 久久香蕉激情| 国产日韩欧美亚洲二区| 国产精品欧美亚洲77777| 亚洲精品一二三| 青青草视频在线视频观看| 国产午夜精品久久久久久| 99九九在线精品视频| 久久精品人人爽人人爽视色| 国产1区2区3区精品| 久久久久精品人妻al黑| 一本综合久久免费| 亚洲一区二区三区欧美精品| 午夜精品国产一区二区电影| 久久久久国产一级毛片高清牌| 久久毛片免费看一区二区三区| 精品国产乱子伦一区二区三区| 亚洲中文av在线| 91av网站免费观看| 久久中文字幕人妻熟女| 真人做人爱边吃奶动态| 欧美老熟妇乱子伦牲交| 老司机午夜十八禁免费视频| 精品国产超薄肉色丝袜足j| 欧美在线一区亚洲| 国产成人免费无遮挡视频| 亚洲,欧美精品.| 老司机福利观看| 麻豆乱淫一区二区| 国产亚洲一区二区精品| 精品免费久久久久久久清纯 | 午夜成年电影在线免费观看| 免费看a级黄色片| 99香蕉大伊视频| 香蕉久久夜色| 变态另类成人亚洲欧美熟女 | 日本a在线网址| 女人爽到高潮嗷嗷叫在线视频| 露出奶头的视频| 一区二区三区国产精品乱码| 精品人妻熟女毛片av久久网站| 国产人伦9x9x在线观看| 亚洲久久久国产精品| 天天躁日日躁夜夜躁夜夜| 久久免费观看电影| 欧美日韩亚洲高清精品| 欧美成人免费av一区二区三区 | 国产精品一区二区在线观看99| 欧美激情久久久久久爽电影 | 欧美精品高潮呻吟av久久| 久久ye,这里只有精品| 性高湖久久久久久久久免费观看| a级毛片黄视频| 久久九九热精品免费| 男女午夜视频在线观看| 久久午夜综合久久蜜桃| 99精国产麻豆久久婷婷| 久热爱精品视频在线9| bbb黄色大片| 久久精品熟女亚洲av麻豆精品| 成人影院久久| 精品久久久久久久毛片微露脸| 九色亚洲精品在线播放| 男人操女人黄网站| 天天躁狠狠躁夜夜躁狠狠躁| 久久人人爽av亚洲精品天堂| 亚洲性夜色夜夜综合| 一级黄色大片毛片| 日韩一卡2卡3卡4卡2021年| 精品一品国产午夜福利视频| 欧美国产精品一级二级三级| 久久久精品免费免费高清| 黑人猛操日本美女一级片| 国产精品麻豆人妻色哟哟久久| 亚洲成a人片在线一区二区| 999久久久国产精品视频| 久久香蕉激情| 亚洲国产欧美日韩在线播放| 麻豆国产av国片精品| 老司机靠b影院| 久久香蕉激情| 日韩免费av在线播放| 黄色片一级片一级黄色片| 丝瓜视频免费看黄片| 最新在线观看一区二区三区| 他把我摸到了高潮在线观看 | 啦啦啦 在线观看视频| 色播在线永久视频| 国产av精品麻豆| 99国产精品一区二区三区| 国产精品久久久久久人妻精品电影 | 波多野结衣av一区二区av| 高清av免费在线| 国产一卡二卡三卡精品| 窝窝影院91人妻| 欧美日韩亚洲综合一区二区三区_| 国产亚洲精品一区二区www | av网站免费在线观看视频| 欧美精品啪啪一区二区三区| 黄频高清免费视频| 亚洲自偷自拍图片 自拍| 精品免费久久久久久久清纯 | 中文亚洲av片在线观看爽 | 大码成人一级视频| 久久久久精品人妻al黑| 国产精品久久久久久精品电影小说| 日韩有码中文字幕| 考比视频在线观看| 91九色精品人成在线观看| 久久精品亚洲av国产电影网| 亚洲成人免费av在线播放| 50天的宝宝边吃奶边哭怎么回事| 高清黄色对白视频在线免费看| 在线亚洲精品国产二区图片欧美| 国产精品欧美亚洲77777| 午夜福利在线免费观看网站| 黄网站色视频无遮挡免费观看| 首页视频小说图片口味搜索| 老汉色av国产亚洲站长工具| 久久久久网色| 三级毛片av免费| kizo精华| 我要看黄色一级片免费的| 69精品国产乱码久久久| 久久久精品免费免费高清| 99九九在线精品视频| 中文欧美无线码| 亚洲国产看品久久| 久久久久久亚洲精品国产蜜桃av| 99精品欧美一区二区三区四区| 五月天丁香电影| 99久久国产精品久久久| 欧美老熟妇乱子伦牲交| 欧美国产精品va在线观看不卡| 亚洲人成电影免费在线| 他把我摸到了高潮在线观看 | 这个男人来自地球电影免费观看| 色在线成人网| 国产99久久九九免费精品| 中亚洲国语对白在线视频| 99国产极品粉嫩在线观看| 青青草视频在线视频观看| 欧美在线一区亚洲| 亚洲精品在线观看二区| 久久人人爽av亚洲精品天堂| cao死你这个sao货| 人人妻,人人澡人人爽秒播| 精品一区二区三区av网在线观看 | 成人永久免费在线观看视频 | 国产真人三级小视频在线观看| 久久 成人 亚洲| 亚洲人成电影观看| 精品一区二区三卡| 精品少妇内射三级| 亚洲人成电影观看| 国产不卡一卡二| 欧美日韩国产mv在线观看视频| 这个男人来自地球电影免费观看| 国产成人系列免费观看| 啦啦啦在线免费观看视频4| 又大又爽又粗| 美女午夜性视频免费| 丝袜美足系列| 久久性视频一级片| 午夜福利乱码中文字幕| 女人爽到高潮嗷嗷叫在线视频| 午夜精品久久久久久毛片777|