• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合規(guī)則與統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法

    2017-06-27 08:10:42周霜霜徐金安陳鈺楓張玉潔
    計(jì)算機(jī)應(yīng)用 2017年4期
    關(guān)鍵詞:互信息構(gòu)詞新詞

    周霜霜,徐金安,陳鈺楓,張玉潔

    北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)(*通信作者電子郵箱jaxu@bjtu.edu.cn)

    融合規(guī)則與統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法

    周霜霜,徐金安*,陳鈺楓,張玉潔

    北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)(*通信作者電子郵箱jaxu@bjtu.edu.cn)

    結(jié)合微博新詞的構(gòu)詞規(guī)則自由度大和極其復(fù)雜的特點(diǎn),針對(duì)傳統(tǒng)的C/NC-value方法抽取的結(jié)果新詞邊界的識(shí)別準(zhǔn)確率不高,以及低頻微博新詞無(wú)法正確識(shí)別的問題,提出了一種融合人工啟發(fā)式規(guī)則、C/NC-value改進(jìn)算法和條件隨機(jī)場(chǎng)(CRF)模型的微博新詞抽取方法。一方面,人工啟發(fā)式規(guī)則是指對(duì)微博新詞的分類和歸納總結(jié),并從微博新詞構(gòu)詞的詞性(POS)、字符類別和表意符號(hào)等角度設(shè)計(jì)的微博新詞的構(gòu)詞規(guī)則;另一方面,改進(jìn)的C/NC-value方法通過引入詞頻、鄰接熵和互信息等統(tǒng)計(jì)量來重構(gòu)NC-value目標(biāo)函數(shù),并使用CRF模型訓(xùn)練和識(shí)別新詞,最終達(dá)到提高新詞邊界識(shí)別準(zhǔn)確率和低頻新詞識(shí)別精度的目的。實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)方法相比,所提出的方法能有效地提高微博新詞識(shí)別的F值。

    微博新詞;構(gòu)詞規(guī)則;統(tǒng)計(jì)量特征;C/NC-value方法;條件隨機(jī)場(chǎng)模型

    0 引言

    微博是中國(guó)最熱門的社交平臺(tái)之一,是網(wǎng)絡(luò)新詞的主要來源。微博新詞作為未登錄詞的大量出現(xiàn),給微博文本分析帶來很大困難。其中,微博文本的分詞精度低下是必須解決的首要問題。既有研究結(jié)果顯示,60%的分詞錯(cuò)誤都由未登錄詞導(dǎo)致[1]。如何有效地提高微博新詞的識(shí)別精度,具有重要的研究意義和實(shí)用價(jià)值。目前,微博新詞識(shí)別主要研究方法包括:基于規(guī)則、基于統(tǒng)計(jì)、規(guī)則與統(tǒng)計(jì)相融合等三種方法。

    基于規(guī)則的方法是從語(yǔ)言學(xué)的角度對(duì)新詞的構(gòu)詞規(guī)則進(jìn)行歸納總結(jié)并構(gòu)建正則表達(dá)式規(guī)則庫(kù)。鄒綱等[2]針對(duì)網(wǎng)頁(yè)上的中文新詞識(shí)別問題,提出一種從網(wǎng)頁(yè)中自動(dòng)檢測(cè)新詞語(yǔ)的方法,并根據(jù)構(gòu)詞規(guī)則對(duì)自動(dòng)檢測(cè)的結(jié)果進(jìn)行過濾,最終抽取新詞語(yǔ)。該方法對(duì)高頻新詞有很好的識(shí)別效果。Ma等[3]針對(duì)網(wǎng)絡(luò)新聞中的未登錄詞,提出一種自下而上的歸并算法,同時(shí)引入一些基本語(yǔ)法規(guī)則,避免了過多的高頻垃圾串的抽取。Sasano等[4]針對(duì)日語(yǔ)中的未登錄詞,利用衍生規(guī)則和象聲詞模式,通過在句子的格框架中添加新節(jié)點(diǎn)的方式發(fā)現(xiàn)最優(yōu)路徑,以此實(shí)現(xiàn)對(duì)未登錄詞的識(shí)別,該方法對(duì)某些特定類別的未登錄詞有很好的識(shí)別效果?;谝?guī)則的方法針對(duì)特定領(lǐng)域可以得到很高的準(zhǔn)確率,但是人工制定規(guī)則需要大量人工成本,存在規(guī)則領(lǐng)域性適應(yīng)能力低下等問題。

    基于統(tǒng)計(jì)的方法通常使用大規(guī)模語(yǔ)料庫(kù),通過計(jì)算統(tǒng)計(jì)信息量來發(fā)現(xiàn)新詞。Wang 等[5]將新詞識(shí)別問題與分詞問題結(jié)合,在對(duì)文本分詞標(biāo)注和新詞標(biāo)注的基礎(chǔ)上,利用統(tǒng)計(jì)量特征對(duì)改進(jìn)的條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型進(jìn)行訓(xùn)練,同時(shí)提高了分詞和新詞識(shí)別的效果。Sun等[6]融合詞法特征和邊界特征,提出一種快速的線上CRF訓(xùn)練方法,將識(shí)別到的新詞加入到詞典列表不斷進(jìn)行模型訓(xùn)練,最后分詞結(jié)果和新詞識(shí)別結(jié)果都得到了提升。Huang等[7]設(shè)定少量種子新詞,并依據(jù)詞性構(gòu)建三元組模型循環(huán)擴(kuò)充新詞候選集,通過一系列統(tǒng)計(jì)量特征將新詞識(shí)別結(jié)果量化。該方法不需要復(fù)雜的語(yǔ)言規(guī)則,只在詞性標(biāo)注的基礎(chǔ)上就可以得到很好的新詞識(shí)別效果。邢恩軍等[8]提出一種基于上下文詞頻詞匯量的統(tǒng)計(jì)指標(biāo),該指標(biāo)通過將信息熵公式中的鄰接字符串在語(yǔ)料集中出現(xiàn)的次數(shù)改成鄰接字符串集合的大小,克服了左右信息熵在識(shí)別新詞時(shí)特征不夠明顯的缺點(diǎn)。該方法與領(lǐng)域無(wú)關(guān),且對(duì)新詞的長(zhǎng)度沒有限制,僅采用一個(gè)統(tǒng)計(jì)指標(biāo)就能取得較好的效果。統(tǒng)計(jì)方法有很強(qiáng)的領(lǐng)域適應(yīng)能力和可擴(kuò)展性,但具有需要大規(guī)模語(yǔ)料庫(kù)和數(shù)據(jù)稀疏問題嚴(yán)重等問題。

    規(guī)則和統(tǒng)計(jì)相融合的方法是目前研究的主流方法。Nuo等[9]提出一種將統(tǒng)計(jì)度量值和上下文規(guī)則結(jié)合的新詞識(shí)別方法,先利用互信息等統(tǒng)計(jì)量將結(jié)合度高的單字組合形成候選新詞,并利用基于上下文的擴(kuò)展機(jī)制,確定新詞的左右邊界。通過該方法構(gòu)建的新詞詞典有效地提高了分詞效果,但只局限于識(shí)別被切分成單字碎片的新詞。杜麗萍等[10]提出一種非監(jiān)督的新詞識(shí)別方法,利用點(diǎn)互信息(Pointwise Mutual Information, PMI)的改進(jìn)算法——PMIk算法與少量基本的過濾規(guī)則相結(jié)合,從大規(guī)模百度貼吧語(yǔ)料中自動(dòng)識(shí)別出網(wǎng)絡(luò)新詞,實(shí)驗(yàn)結(jié)果顯示該方法比改進(jìn)前的算法取得了更好的新詞識(shí)別效果。Li等[11]使用基于支持向量機(jī)(Support Vector Machine, SVM)和詞特征的方法進(jìn)行新詞識(shí)別,并在程序中引入了少量的規(guī)則過濾,有效地提高了新詞識(shí)別的效果。Attia等[12]通過使用有限狀態(tài)的詞法猜測(cè)工具和基于機(jī)器學(xué)習(xí)的預(yù)標(biāo)注工具體系來進(jìn)行未登錄詞的抽取,實(shí)驗(yàn)證實(shí)方法的有效性并已將抽取的未登錄詞集合作為公開的開放資源。規(guī)則和統(tǒng)計(jì)相融合的方法可以相互取長(zhǎng)補(bǔ)短,在一定程度上緩解單獨(dú)使用統(tǒng)計(jì)方法造成的數(shù)據(jù)稀疏問題,同時(shí)解決單獨(dú)使用規(guī)則方法造成的領(lǐng)域適應(yīng)能力差等問題。

    綜上所述,針對(duì)傳統(tǒng)方法所存在的問題,本文提出了一種基于規(guī)則與統(tǒng)計(jì)相融合的方法。該方法針對(duì)微博新詞的構(gòu)詞規(guī)則極其復(fù)雜和自由度大的特點(diǎn),構(gòu)建人工啟發(fā)式規(guī)則庫(kù),引入新的統(tǒng)計(jì)量特征改進(jìn)傳統(tǒng)的C/NC-value方法,并將抽取得到的新詞集作為訓(xùn)練數(shù)據(jù),利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行新詞的標(biāo)注、建模和識(shí)別,最終有效地提高了新詞邊界的識(shí)別準(zhǔn)確率和低頻新詞的識(shí)別精度。最后,將抽取的微博新詞集合加入微博分詞的用戶字典,分詞實(shí)驗(yàn)結(jié)果顯示可有效提高微博文本的分詞和詞性標(biāo)注精度。本文方法具有不需要大規(guī)模語(yǔ)料庫(kù)作為學(xué)習(xí)數(shù)據(jù)進(jìn)行訓(xùn)練、計(jì)算量小、精準(zhǔn)度高等優(yōu)點(diǎn)。

    1 流程描述

    本文方法流程如圖1所示,主要包括數(shù)據(jù)預(yù)處理、規(guī)則方法抽取、改進(jìn)C/NC-value方法過濾、后處理和CRF模型訓(xùn)練與識(shí)別新詞等5個(gè)部分。

    第1步 數(shù)據(jù)預(yù)處理。主要包括:

    1)將文本字符統(tǒng)一轉(zhuǎn)換為UTF-8編碼。

    2)過濾微博文本中某些固定格式的特殊字符串。主要包括三類:一是網(wǎng)頁(yè)地址URL,如“http://t.cn/zOixljh”“http://t.cn/RPKM61K”等;二是郵箱地址,如“cszyzxj@163.com”“mcq0544@qq.com”等;三是微博文本特有的一種字符串格式,由符號(hào)“@”后面緊跟一個(gè)用戶名稱和一個(gè)空格符號(hào)組成,表示提及該用戶,如“@且聽風(fēng)吟_5734”和“@李開復(fù)”等。

    3)通過實(shí)驗(yàn)室獨(dú)自研發(fā)的基于感知機(jī)的微博文本分詞工具對(duì)微博語(yǔ)料進(jìn)行分詞和詞性標(biāo)注處理。如:“石家莊/ns火車站/n成功/a地/u接受/v了/u冰/n桶/q 挑戰(zhàn)/v,/wd接/v下來/v,/wd他/rr有/v權(quán)/n挑戰(zhàn)/v三/m個(gè)/q火車站/n。/wj”。

    第2步 使用新詞的構(gòu)詞規(guī)則庫(kù)對(duì)已經(jīng)經(jīng)過預(yù)處理的微博語(yǔ)料進(jìn)行新詞抽取,得到新詞候選串。

    第3步 利用統(tǒng)計(jì)量信息重構(gòu)NC-value目標(biāo)函數(shù),對(duì)新詞候選串進(jìn)行篩選。

    第4步 有針對(duì)性地制定規(guī)則對(duì)一些明顯錯(cuò)誤的識(shí)別結(jié)果進(jìn)行過濾,得到初步新詞集。部分規(guī)則實(shí)例如下:

    1)數(shù)字加量詞的組合構(gòu)成的常規(guī)字符串,如:“2015年”“12歲”“3個(gè)”等;

    2)符號(hào)組合形成的非表情字符串,如“?。。 薄???”“<<<”等;

    3)非語(yǔ)氣詞與語(yǔ)氣詞組合形成的字符串,如“是嗎”“在呢”“行啊”等。

    第5步 將抽取的新詞集作為訓(xùn)練數(shù)據(jù),利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行新詞的標(biāo)注、建模和識(shí)別,最后經(jīng)后處理得到最終的新詞集。

    圖1 系統(tǒng)流程

    2 微博新詞構(gòu)詞特點(diǎn)及規(guī)則歸納

    2.1 微博新詞構(gòu)詞特點(diǎn)

    微博新詞具有涉及領(lǐng)域廣、構(gòu)詞模式相對(duì)自由等特點(diǎn),因此,從多種角度對(duì)新詞進(jìn)行分析和歸納,總結(jié)新詞產(chǎn)生的途徑和構(gòu)詞規(guī)律可有效提高新詞的抽取精度。

    2.2 微博新詞構(gòu)詞規(guī)則

    如表1所示,微博新詞的構(gòu)詞方式復(fù)雜多樣,有諧音詞、方言詞、舊詞新用、縮略詞、英語(yǔ)音譯詞、符號(hào)新詞和新造詞等。從詞性構(gòu)成的角度分析,新詞的組成集中在名詞、動(dòng)詞、形容詞和區(qū)別詞之間,同時(shí)介詞與副詞也具備了一定的構(gòu)詞能力,能夠與其他詞語(yǔ)組合形成新詞。從音節(jié)的角度分析,新詞構(gòu)成的總趨勢(shì)是向多音節(jié)發(fā)展,以雙音節(jié)、三音節(jié)和四音節(jié)為主;同時(shí),微博新詞還充分運(yùn)用了英語(yǔ)、漢語(yǔ)、數(shù)字、符號(hào)等互相組合的方式,結(jié)構(gòu)新穎自由。本文主要從三個(gè)角度進(jìn)行總結(jié):

    1) 詞性構(gòu)成,包括動(dòng)詞、名詞、形容詞、區(qū)別詞相互組合的常規(guī)規(guī)則以及介詞、副詞與名詞、動(dòng)詞組合的特殊規(guī)則。規(guī)則實(shí)例見表2的詞性。

    2) 成詞字符類別,主要針對(duì)英文、數(shù)字和漢字的組合。規(guī)則實(shí)例見表2的字符類別。

    3) 符號(hào)表意規(guī)則,微博文本中存在大量的表情符號(hào),本文將其總結(jié)為兩類:一是靜態(tài)表情符號(hào),是由一些基本的符號(hào)組合形成的,形式上類似于日語(yǔ)中的顏文字;二是動(dòng)態(tài)表情符號(hào),有固定的構(gòu)成格式:“[字符串]”。規(guī)則實(shí)例見表2的符號(hào)。

    表1 微博新詞構(gòu)詞特點(diǎn)

    表2 新詞規(guī)則

    3 新詞發(fā)現(xiàn)

    3.1 C/NC-value算法

    該算法由Frantzi等[13]提出,是一種領(lǐng)域獨(dú)立的復(fù)合詞抽取算法。主要包括兩部分:

    一是基于統(tǒng)計(jì)量信息計(jì)算C-value值,統(tǒng)計(jì)信息包括候選詞的詞頻和詞長(zhǎng)以及包含當(dāng)前候選詞的更長(zhǎng)候選詞的詞頻和詞數(shù),如式(1)所示:

    (1)

    其中:w=w1w2…wn是候選詞;|w|表示w的長(zhǎng)度; f(w)表示w的詞頻;Tw表示包含w的候選詞集;a表示Tw中任意的包含w的候選詞; f(a)表示a的詞頻; p(Tw)表示包含w的候選詞總數(shù)。

    二是結(jié)合上下文信息計(jì)算NC-value值,上下文信息是指出現(xiàn)在候選詞前后的上下文相關(guān)詞的統(tǒng)計(jì)信息,包括上下文相關(guān)詞出現(xiàn)在候選詞前后的次數(shù)和權(quán)重,權(quán)重通過與上下文相關(guān)詞同時(shí)出現(xiàn)的候選詞的數(shù)量除以總的候選詞的數(shù)量計(jì)算得到,如式(2)所示:

    α+β=1

    (2)

    其中:Cw表示出現(xiàn)在候選詞w前后的上下文相關(guān)詞集合,b表示Cw中任意的出現(xiàn)在候選詞w前后的上下文相關(guān)詞,fw(b)表示b在候選詞w的上下文中出現(xiàn)的次數(shù),t(b)表示與b同時(shí)出現(xiàn)的候選詞數(shù)量,n表示候選詞的總個(gè)數(shù)。α和β為取值0~1的參數(shù)。

    3.2 改進(jìn)的C/NC-value算法

    既有C/NC-value方法抽取微博新詞的缺點(diǎn)主要包括:1)部分識(shí)別結(jié)果存在詞語(yǔ)粘連現(xiàn)象,新詞的邊界識(shí)別不正確;2)低頻新詞無(wú)法正確識(shí)別。

    針對(duì)上述問題,本文引入鄰接熵和互信息兩種統(tǒng)計(jì)量,重構(gòu)NC-value目標(biāo)函數(shù),以提高新詞邊界的識(shí)別準(zhǔn)確率和低頻新詞的識(shí)別精度。使用鄰接熵改善分詞精度的方法由Huang等[14]提出,能有效解決未登錄詞的左右邊界問題。該方法利用信息熵來衡量候選新詞的左鄰字符和右鄰字符的不確定性,候選新詞的鄰接熵越大,說明鄰接字符的不確定性越大,成為新詞邊界的可能性就越大。具體定義如式(3)~(5)所示:

    (3)

    (4)

    BE(w)=min{HL(w),HR(w)}

    (5)

    互信息是一個(gè)用來衡量候選詞子串之間的結(jié)合程度的統(tǒng)計(jì)量。本文將互信息加入到目標(biāo)函數(shù)中,通過計(jì)算候選低頻新詞及其子串間的結(jié)合程度來提高微博低頻新詞的識(shí)別精度。根據(jù)文獻(xiàn)[15]對(duì)互信息的定義,本文改進(jìn)如式(6)所示:

    (6)

    其中:p(w)表示w出現(xiàn)的頻率;p(w1w2…wi)表示w的子串w1w2…wi出現(xiàn)的頻率;p(wi+1wi+2…wn)表示w的子串wi+1wi+2…wn出現(xiàn)的頻率。改進(jìn)后的NC-value值計(jì)算如式(7)所示:

    NC-value(w)=α*C-value(w)+β*BE(w)+γ*MI(w);α+β+γ=1

    (7)

    其中:C-value(w)是根據(jù)式(1)得到的C-value值;BE(w)是根據(jù)式(3)、(4)、(5)得到的鄰接熵值;MI(w)是根據(jù)式(6)得到的互信息值;α、β和γ為參數(shù),取值范圍為[0,1]。

    3.3 條件隨機(jī)場(chǎng)(CRF)

    CRF模型由Lafferty等[16]提出,是一種典型的判別式模型。它在觀測(cè)序列的基礎(chǔ)上對(duì)目標(biāo)序列進(jìn)行建模,重點(diǎn)解決序列化標(biāo)注的問題。條件隨機(jī)場(chǎng)的定義如式(8)所示:

    (8)

    其中:tk(yi-1,yi,x,i)為轉(zhuǎn)移函數(shù),表示觀察序列和標(biāo)記序列在i-1和i時(shí)刻的特征;sk(yi,x,i)為狀態(tài)函數(shù),表示觀察序列和標(biāo)記序列在i時(shí)刻的特征;Z(X)為歸一化因子;λ和u為訓(xùn)練所得參數(shù)。

    CRF模型將新詞發(fā)現(xiàn)看作一個(gè)序列標(biāo)注過程,利用單字在新詞中的位置信息來標(biāo)記新詞。本文采用四詞位標(biāo)注集,如表3所示。

    表3 四詞位標(biāo)注集

    特征模板的設(shè)置主要利用上下文的信息,從訓(xùn)練語(yǔ)料中獲得字特征,采用當(dāng)前字和其前后兩個(gè)字及其詞性信息作為特征。特征模板具體描述如表4所示。

    將得到的初步新詞的特征量化,作為訓(xùn)練特征,利用CRF模型訓(xùn)練出新詞抽取模板,利用該模型對(duì)預(yù)處理的微博語(yǔ)料進(jìn)行標(biāo)注抽取,并對(duì)抽取結(jié)果進(jìn)行后處理修正,識(shí)別出更多的新詞。最后,將CRF模型識(shí)別出的新詞與初步得到的新詞集合并整理,即為最終識(shí)別出的新詞集。

    4 實(shí)驗(yàn)與分析

    4.1 實(shí)驗(yàn)語(yǔ)料

    由于目前尚無(wú)公開的微博新詞標(biāo)準(zhǔn)數(shù)據(jù)集,新詞發(fā)現(xiàn)實(shí)驗(yàn)使用的語(yǔ)料數(shù)據(jù)來源于爬萌(http://www.cnpameng.com/),從2014年6月1日的新浪微博數(shù)據(jù)(約10萬(wàn)條)中隨機(jī)抽取出2萬(wàn)條,通過實(shí)驗(yàn)室獨(dú)自研發(fā)的基于感知機(jī)的微博文本分詞工具進(jìn)行分詞和詞性標(biāo)注處理,并對(duì)預(yù)處理后的語(yǔ)料進(jìn)行新詞的規(guī)則方法抽取和C/NC-value的改進(jìn)算法識(shí)別,得到初步的新詞集。

    從語(yǔ)料中抽取新詞并進(jìn)行人工校對(duì),共抽取新詞800個(gè),作為標(biāo)準(zhǔn)新詞集。通常來講,新詞是指未被收錄到詞典中的詞語(yǔ)[17]。在本研究任務(wù)中,新詞滿足以下條件:1) 符合本文提出的構(gòu)詞規(guī)則;2) 不在用戶字典中;3) 分詞工具切分出現(xiàn)錯(cuò)誤;4) 在網(wǎng)絡(luò)上被廣泛使用。

    4.2 評(píng)價(jià)方法

    通過準(zhǔn)確率P、召回率R和F值對(duì)新詞發(fā)現(xiàn)實(shí)驗(yàn)的結(jié)果進(jìn)行評(píng)價(jià)。計(jì)算公式如下所示:

    (9)

    (10)

    (11)

    4.3 初步實(shí)驗(yàn)及參數(shù)優(yōu)化

    在計(jì)算NC-value值獲取初步新詞集的過程中,需要對(duì)候選新詞w的C-value值、鄰接熵和互信息的權(quán)重,即參數(shù)α、β和γ進(jìn)行設(shè)定。先對(duì)三種統(tǒng)計(jì)量單獨(dú)使用時(shí)的情況進(jìn)行實(shí)驗(yàn),結(jié)果見表5的三種統(tǒng)計(jì)量單獨(dú)使用部分。實(shí)驗(yàn)結(jié)果顯示,單獨(dú)使用三種統(tǒng)計(jì)量得到的準(zhǔn)確率P、召回率R和F值均較低,新詞識(shí)別效果較差。

    接下來,對(duì)三個(gè)參數(shù)的取值進(jìn)行調(diào)整。依據(jù)貪心算法的思想,在滿足α+β+γ=1的基礎(chǔ)上,先將α置于0~1取值,β則在0~1-α取值,相應(yīng)的γ值為1-α-β,以0.1為步長(zhǎng)對(duì)三個(gè)參數(shù)動(dòng)態(tài)調(diào)整,結(jié)果顯示當(dāng)α=0.4時(shí)得到了最大的F值;再將α的取值范圍設(shè)為0.35~0.45,β的取值范圍仍為0~1-α,γ值仍為1-α-β,以0.01為步長(zhǎng)再次對(duì)三個(gè)參數(shù)動(dòng)態(tài)調(diào)整,記錄下得到最大的F值時(shí)的參數(shù)取值。再按照相同的方法,依次對(duì)β和γ做同樣的實(shí)驗(yàn)。三種情況下得到的最大的F值及相應(yīng)的參數(shù)取值如表5的調(diào)參實(shí)驗(yàn)結(jié)果部分所示。結(jié)果顯示,當(dāng)α=0.34,β=0.35,γ=0.31時(shí)得到了最大的F值,即達(dá)到了最好的新詞識(shí)別效果。

    表5 三種統(tǒng)計(jì)量單獨(dú)使用時(shí)和調(diào)參的實(shí)驗(yàn)結(jié)果

    對(duì)候選新詞的NC-value值設(shè)定閾值,如果閾值設(shè)定過高,會(huì)過濾掉很多有意義的新詞;反之,如果閾值設(shè)定過低,又會(huì)使新詞結(jié)果中出現(xiàn)很多垃圾串。多次實(shí)驗(yàn)結(jié)果顯示,閾值設(shè)定為0.42時(shí)效果最佳。本文中,當(dāng)NC-value值大于0.42時(shí),判定該候選詞為初步的新詞。

    4.4 新詞發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果及分析

    將本文方法與傳統(tǒng)的新詞發(fā)現(xiàn)方法進(jìn)行對(duì)比,選取文獻(xiàn)[10-12]分別提出的方法作為三個(gè)基線系統(tǒng),同時(shí)將三個(gè)基線系統(tǒng)方法、單獨(dú)使用規(guī)則的方法、單獨(dú)使用改進(jìn)的C/NC-value方法、規(guī)則與傳統(tǒng)的C/NC-value結(jié)合的方法、規(guī)則與改進(jìn)的C/NC-value結(jié)合的方法、結(jié)合支持向量機(jī)(SVM)分類器(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)的方法與本文提出的結(jié)合條件隨機(jī)場(chǎng)(CRF)模型(https://sourceforge.net/projects/crfpp/)的方法進(jìn)行新詞識(shí)別的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表6。

    表6 新詞發(fā)現(xiàn)結(jié)果

    實(shí)驗(yàn)結(jié)果分析:

    1)基線方法1[10]提出了PMI的改進(jìn)算法,并使用部分過濾規(guī)則;基線方法2[11]使用基于SVM和詞特征的方法進(jìn)行新詞識(shí)別,并在程序中引入了少量的規(guī)則過濾;基線方法3[12]通過使用有限狀態(tài)的詞法猜測(cè)工具和基于機(jī)器學(xué)習(xí)的預(yù)標(biāo)注工具體系來進(jìn)行未登錄詞的抽取。三個(gè)基線系統(tǒng)都得到較高的召回率,但新詞識(shí)別的準(zhǔn)確率較低。一些新詞與其他詞語(yǔ)被錯(cuò)誤地劃分成一個(gè)字串,如在新詞識(shí)別結(jié)果中出現(xiàn)“太給力”“驚呆了”“的惡搞”等詞。而本文方法更關(guān)注微博新詞的語(yǔ)言學(xué)特點(diǎn),進(jìn)行歸納總結(jié)和制定規(guī)則,識(shí)別結(jié)果中均是符合構(gòu)詞規(guī)則的詞語(yǔ)。如在預(yù)處理后的語(yǔ)料中存在“太/d給/p力/n”“驚/v呆/v了/y”“的/u惡/a搞/v”的切分,通過使用規(guī)則“介詞+名詞”可以將“給力”正確抽取,使用規(guī)則“動(dòng)詞+動(dòng)詞”可以將“驚呆”正確抽取, 使用規(guī)則“形容詞+動(dòng)詞”可以將“惡搞”正確抽取,因此,構(gòu)詞規(guī)則的引入可以很好地提升新詞識(shí)別的準(zhǔn)確率。

    2)通過對(duì)實(shí)驗(yàn)4和實(shí)驗(yàn)5的結(jié)果分析可以發(fā)現(xiàn):?jiǎn)为?dú)使用規(guī)則的方法,由于缺少對(duì)候選串的過濾機(jī)制,識(shí)別結(jié)果中存在大量的非新詞詞語(yǔ),如“拼盡”(拼/v盡/v)、“學(xué)英語(yǔ)”(學(xué)/v英語(yǔ)/n)、“媒體人”(媒體/n人/n)等;單獨(dú)使用改進(jìn)的C/NC-value統(tǒng)計(jì)方法,由于缺少規(guī)則方法抽取候選串的過程,使新詞識(shí)別結(jié)果中出現(xiàn)大量的垃圾串,如“真好看”“太稀飯”“小心啊”等,因此,兩種方法得到的準(zhǔn)確率和召回率均相對(duì)較低。本文將規(guī)則與統(tǒng)計(jì)的方法進(jìn)行融合,減少了垃圾串的產(chǎn)生,同時(shí)又能過濾掉大部分的非新詞詞語(yǔ),使新詞識(shí)別的準(zhǔn)確率和召回率都得到很大的提升。

    3)實(shí)驗(yàn)6是在規(guī)則抽取的基礎(chǔ)上利用傳統(tǒng)的NC-value目標(biāo)函數(shù)過濾得到新詞。規(guī)則的引入使其得到相對(duì)較高的準(zhǔn)確率,不符合本文構(gòu)詞規(guī)則的詞語(yǔ)不會(huì)出現(xiàn)在候選新詞列表中;但是新詞識(shí)別的召回率較低,說明目標(biāo)函數(shù)考慮的統(tǒng)計(jì)信息對(duì)新詞的識(shí)別效果不佳。實(shí)驗(yàn)7提出的改進(jìn)的C/NC-value方法,通過引入鄰接熵和互信息有效提高了新詞發(fā)現(xiàn)精度。鄰接熵的引入可以很好地解決新詞邊界問題,如通過規(guī)則方法抽取后,“歡迎點(diǎn)贊”(歡迎/v點(diǎn)/v贊/v)、“點(diǎn)贊”(點(diǎn)/v贊/v)、“點(diǎn)贊支持”(點(diǎn)/v贊/v支持/v)都出現(xiàn)在候選新詞列表中,通過改進(jìn)的NC-value方法可以準(zhǔn)確地確定新詞的左右邊界,將“點(diǎn)贊”保留,其余兩種情況被過濾掉,因此進(jìn)一步提高了新詞識(shí)別的準(zhǔn)確率;同時(shí),互信息反映了候選詞子串之間的結(jié)合程度,當(dāng)?shù)皖l新詞的子串出現(xiàn)的頻率也較低,子串之間的結(jié)合程度緊密時(shí),其互信息值仍然較高,從而達(dá)到精確識(shí)別該類新詞的效果。

    4)實(shí)驗(yàn)8和實(shí)驗(yàn)9是在得到的初步新詞集的基礎(chǔ)上分別結(jié)合SVM分類器和CRF模型進(jìn)行新詞識(shí)別。實(shí)驗(yàn)依據(jù)初步新詞集對(duì)分詞后的語(yǔ)料進(jìn)行標(biāo)注得到訓(xùn)練集,經(jīng)分詞工具粗切分的語(yǔ)料作為測(cè)試集。其中,在實(shí)驗(yàn)8中,通過選取詞頻、鄰接熵和互信息三個(gè)特征組成特征向量,相關(guān)參數(shù)設(shè)定參照文獻(xiàn)[11]。在實(shí)驗(yàn)9中,通過將得到的初步新詞的特征量化作為訓(xùn)練特征,并利用CRF模型構(gòu)建新詞抽取模板,對(duì)測(cè)試語(yǔ)料進(jìn)行新詞的標(biāo)注識(shí)別。實(shí)驗(yàn)結(jié)果顯示兩種方法均能進(jìn)一步提高對(duì)低頻新詞的識(shí)別效果。其中,基于序列標(biāo)注的CRF模型更有效地利用了新詞的上下文信息,對(duì)新詞的識(shí)別效果達(dá)到最佳。通過本文方法識(shí)別到的低頻新詞包括“細(xì)思恐極”“喜大普奔”“累覺不愛”“hold住”等。

    4.5 微博分詞測(cè)試

    為了驗(yàn)證本文方法的有效性,將采用不同新詞識(shí)別方法得到的新詞集合作為用戶詞典加入到實(shí)驗(yàn)室獨(dú)自研發(fā)的微博文本分詞工具中,進(jìn)行分詞和詞性標(biāo)注實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。本實(shí)驗(yàn)使用2016年NLPCC(http://tcci.ccf.org.cn/conference/2016/pages/page05_evadata.html)微博分詞評(píng)測(cè)任務(wù)提供的2萬(wàn)條訓(xùn)練集作為訓(xùn)練語(yǔ)料,8 000條測(cè)試集作為測(cè)試語(yǔ)料,同時(shí)參照基于賓州大學(xué)漢語(yǔ)樹庫(kù)的分詞標(biāo)準(zhǔn)[18]對(duì)測(cè)試語(yǔ)料進(jìn)行分詞和人工校對(duì),參照中國(guó)科學(xué)院計(jì)算技術(shù)研究所漢語(yǔ)詞性標(biāo)記集(http://ictclas.nlpir.org/nlpir/html/readme.htm)進(jìn)行手工詞性標(biāo)注。

    實(shí)驗(yàn)評(píng)價(jià)方法仍然使用準(zhǔn)確率P、召回率R和F值,其中準(zhǔn)確率P和召回率R定義如下:

    (12)

    (13)

    實(shí)驗(yàn)結(jié)果如表7所示。從實(shí)驗(yàn)結(jié)果可看出:1)通過與不加用戶詞典得到的結(jié)果對(duì)比,加入不同的新詞識(shí)別方法得到的新詞詞典,分詞和詞性標(biāo)注結(jié)果的F值都得到了提升,說明新詞詞典的加入可以提高分詞系統(tǒng)的分詞標(biāo)注精度。2)使用新詞用戶詞典,可以糾正不同類型新詞出現(xiàn)的分詞和詞性標(biāo)注錯(cuò)誤,尤其對(duì)符合本文提出的構(gòu)詞規(guī)則的新詞效果顯著。如不同詞性組合構(gòu)成的新詞、數(shù)字與漢字結(jié)合構(gòu)成的新詞和表情符號(hào)等。三種不同類別的新詞被切分的情況如圖2所示。3)相比其他方法,使用本文方法構(gòu)建的新詞詞典在分詞標(biāo)注結(jié)果中得到了最大的F值,說明了本文方法的有效性。

    圖2 分詞和詞性標(biāo)注實(shí)例

    序號(hào)加入通過不同方法得到的詞典分詞精度(不帶詞性標(biāo)注)P/%R/%F值/%分詞精度(帶詞性標(biāo)注)P/%R/%F值/%1不加詞典94.7994.7894.7991.5091.4091.452基線方法1[10]95.2095.3495.2792.2092.3692.283基線方法2[11]95.4595.6295.5392.2592.3492.294基線方法3[12]95.8095.7795.7892.4692.5592.505單獨(dú)使用規(guī)則方法94.8694.7994.8291.5291.9091.716單獨(dú)使用改進(jìn)C/NC-value方法94.7094.9294.8091.6691.5791.617規(guī)則與傳統(tǒng)C/NC-value結(jié)合的方法95.7795.8295.7992.4592.5092.478規(guī)則與改進(jìn)C/NC-value結(jié)合的方法96.1996.2696.2292.9092.9992.959結(jié)合SVM分類器的方法96.5696.9096.7393.1693.4593.3010結(jié)合CRF模型的方法97.2397.8997.5693.9993.8793.93

    5 結(jié)語(yǔ)

    本文結(jié)合微博新詞的構(gòu)詞規(guī)則極其復(fù)雜和自由度大的特點(diǎn),針對(duì)傳統(tǒng)的C/NC-value方法抽取的結(jié)果詞語(yǔ)粘連現(xiàn)象嚴(yán)重,新詞邊界的識(shí)別準(zhǔn)確率不高,以及部分微博新詞由于出現(xiàn)頻率低而無(wú)法正確識(shí)別的問題,提出了一種融合規(guī)則和統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法。通過對(duì)微博文本新詞的構(gòu)詞規(guī)則進(jìn)行歸納總結(jié),建立新詞構(gòu)詞規(guī)則庫(kù);通過改進(jìn)傳統(tǒng)的C/NC-value方法,重構(gòu)NC-value目標(biāo)函數(shù),并結(jié)合條件隨機(jī)場(chǎng)模型(CRF)訓(xùn)練和識(shí)別新詞,提高了新詞邊界的識(shí)別準(zhǔn)確率和低頻新詞的識(shí)別精度。最后,將新詞識(shí)別結(jié)果加入用戶字典,分詞實(shí)驗(yàn)結(jié)果顯示提高了微博文本分詞和詞性標(biāo)注的精度。

    本研究主要特點(diǎn)如下:

    1) 通過對(duì)大量微博文本新詞的歸納分析,對(duì)微博新詞的構(gòu)詞規(guī)則作了系統(tǒng)的分類和總結(jié),在人工啟發(fā)式構(gòu)詞規(guī)則中融合了詞性、構(gòu)詞字符類別和符號(hào)表意等特征。

    2) 針對(duì)微博新詞發(fā)現(xiàn),改進(jìn)了C/NC-value算法。導(dǎo)入詞頻、鄰接熵和互信息,重構(gòu)NC-value的目標(biāo)函數(shù),有效地解決了該算法抽取結(jié)果所包含的詞語(yǔ)粘連現(xiàn)象相對(duì)嚴(yán)重、新詞邊界識(shí)別準(zhǔn)確率不高以及低頻新詞無(wú)法正確識(shí)別的問題。

    3) 使用條件隨機(jī)場(chǎng)模型(CRF)進(jìn)一步提高了對(duì)低頻新詞的識(shí)別精度,使識(shí)別效果得到了很大的提升。

    4) 規(guī)則與統(tǒng)計(jì)方法相融合,相互取長(zhǎng)補(bǔ)短,該方法具有不需要大規(guī)模語(yǔ)料庫(kù)、計(jì)算量小、精準(zhǔn)度高等特點(diǎn)。

    未來工作中,將進(jìn)一步分析新詞識(shí)別結(jié)果的錯(cuò)誤類型,面向大規(guī)模開放微博語(yǔ)料,總結(jié)和歸納微博新詞的構(gòu)詞規(guī)則,以及改進(jìn)統(tǒng)計(jì)算法提高新詞識(shí)別精度。

    References)

    [1] SPROAT R, EMERSON T. The first international Chinese word segmentation bakeoff [C]// Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2003, 17: 133-143.

    [2] 鄒綱, 劉洋, 劉群, 等.面向Internet的中文新詞語(yǔ)檢測(cè)[J]. 中文信息學(xué)報(bào), 2004, 18(6):1-9.(ZOU G, LIU Y, LIU Q, et al. Internet-oriented Chinese new words detection [J]. Journal of Chinese Information Processing, 2004, 18(6):1-9.)

    [3] MA W Y, CHEN K J. A bottom-up merging algorithm for Chinese unknown word extraction [C]// Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2003, 17: 31-38.

    [4] SASANO R, KUROHASHI S, OKUMURA M. A simple approach to unknown word processing in Japanese morphological analysis [J]. Nuclear Physics A, 2014, 21(6): 1183-1205.

    [5] WANG A, KAN M Y. Mining informal language from Chinese microtext: joint word recognition and segmentation [EB/OL]. [2016- 01- 06]. http://www.aclweb.org/old_anthology/P/P13/P13-1072.pdf.

    [6] SUN X, WANG H, LI W. Fast online training with frequency-adaptive learning rates for Chinese word segmentation and new word detection [C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. Stroudsburg, PA: Association for Computational Linguistics, 2012, 1: 253-262.

    [7] HUANG M, YE B, WANG Y, et al. New word detection for sentiment analysis [EB/OL]. [2016- 01- 03]. http://mirror.aclweb.org/acl2014/P14-1/pdf/P14-1050.pdf.

    [8] 邢恩軍, 趙富強(qiáng).基于上下文詞頻詞匯量指標(biāo)的新詞發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2016, 33(6):64-67.(XING E J, ZHAO F Q. A novel approach for Chinese new word identification based on contextual word frequency-contextual word count [J]. Computer Applications and Software, 2016, 33(6): 64-67.)

    [9] NUO M, LIU H, LONG C, et al. Tibetan unknown word identification from news corpora for supporting lexicon-based Tibetan word segmentation [EB/OL]. [2016- 01- 03]. http://rsr.csdb.cn/serverfiles/csdb/paper/upload/20151021/201510210132497839.pdf.

    [10] 杜麗萍, 李曉戈, 于根, 等.基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 52(1):35-40.(DU L P, LI X G, YU G, et al. New word detection based on an improved PMI algorithm for enhancing segmentation system [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 35-40.)

    [11] LI C, XU Y. Based on support vector and word features new word discovery research [M]// Trustworthy Computing and Services. Berlin: Springer, 2013: 287-294.

    [12] ATTIA M, SAMIH Y, SHAALAN K, et al. The floating Arabic dictionary: an automatic method for updating a lexical database through the detection and lemmatization of unknown words [EB/OL]. [2016- 01- 03]. http://www.aclweb.org/anthology/C12-1006.

    [13] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms: the C-value/NC-value method [J]. International Journal on Digital Libraries, 2000, 3(2): 115-130.

    [14] HUANG J H, POWERS D. Chinese word segmentation based on contextual entropy [EB/OL]. [2016- 01- 06]. http://www.aclweb.org/website/old_anthology/Y/Y03/Y03-1017.pdf.

    [15] YE Y, WU Q, LI Y, et al. Unknown Chinese word extraction based on variety of overlapping strings [J]. Information Processing and Management, 2013, 49(2): 497-512.

    [16] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 2001: 282-289.

    [17] LI H, HUANG C, GAO J, et al. The use of SVM for Chinese new word identification [C]// Proceedings of the 1st International Joint Conference on Natural Language Processing. Berlin: Springer, 2004: 723-732.

    [18] XIA F. The segmentation guidelines for the PENN Chinese treebank (3.0) [EB/OL]. [2016- 01- 07]. http://repository.upenn.edu/cgi/viewcontent.cgi?article=1038&context=ircs_reports.

    This work is partially supported by National Natural Science Foundation of China (61370130, 61473294), the Fundamental Research Funds for the Central Universities (2014RC040), the International Science and Technology Cooperation Program of China (2014DFA11350).

    ZHOU Shuangshuang, born in 1991, M. S. candidate. Her research interests include natural language processing, information extraction.

    XU Jin’an, born in 1970, Ph. D., associate professor. His research interests include natural language processing, machine translation.

    CHEN Yufeng, born in 1981, Ph. D., associate professor. Her research interests include natural language processing, artificial intelligence.

    ZHANG Yujie, born in 1961, Ph. D., professor. Her research interests include natural language processing, machine translation.

    New words detection method for microblog text based on integrating of rules and statistics

    ZHOU Shuangshuang, XU Jin’an*, CHEN Yufeng, ZHANG Yujie

    (College of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)

    The formation rules of microblog new words are extremely complex with high degree of dispersion, and the extracted results by using traditional C/NC-value method have several problems, including relatively low accuracy of the boundary of identified new words and low detection accuracy of new words with low frequency. To solve these problems, a method of integrating heuristic rules, modified C/NC-value method and Conditional Random Field (CRF) model was proposed. On one hand, heuristic rules included the abstracted information of classification and inductive rules focusing on the components of microblog new words. The rules were artificially summarized by using Part Of Speech (POS), character types and symbols through observing a large number of microblog documents. On the other hand, to improve the accuracy of the boundary of identified new words and the detection accuracy of new words with low frequency, traditional C/NC-value method was modified by merging the information of word frequency, branch entropy, mutual information and other statistical features to reconstruct the objective function. Finally, CRF model was used to train and detect new words. The experimental results show that theFvalue of the proposed method in new words detection is improved effectively.

    microblog new word; formation rule; statistical feature; C/NC-value method; Conditional Random Field (CRF) model

    2016- 09- 25;

    2016- 10- 10。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61370130,61473294);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2014RC040);科學(xué)技術(shù)部國(guó)際科技合作計(jì)劃項(xiàng)目(K11F100010)。

    周霜霜(1991—),女,遼寧葫蘆島人,碩士研究生,主要研究方向:自然語(yǔ)言處理、信息抽取; 徐金安(1970—),男,河南開封人,副教授,博士,CCF會(huì)員,主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯; 陳鈺楓(1981—),女,福建南平人,副教授,博士,主要研究方向:自然語(yǔ)言處理、人工智能; 張玉潔(1961—),女,河南安陽(yáng)人,教授,博士,主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯。

    1001- 9081(2017)04- 1044- 07

    10.11772/j.issn.1001- 9081.2017.04.1044

    TP391.1

    A

    猜你喜歡
    互信息構(gòu)詞新詞
    從構(gòu)詞詞源看英漢時(shí)空性差異
    《微群新詞》選刊之十四
    認(rèn)知視野下“好”、“壞”構(gòu)詞的對(duì)稱性研究
    “分”的音變構(gòu)詞及其句法語(yǔ)義特征
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    改進(jìn)的互信息最小化非線性盲源分離算法
    基于增量式互信息的圖像快速匹配方法
    小議網(wǎng)絡(luò)新詞“周邊”
    外教新詞堂
    狠狠婷婷综合久久久久久88av| 国产精品国产三级专区第一集| 香蕉丝袜av| 国产av码专区亚洲av| 国产不卡av网站在线观看| 国产精品香港三级国产av潘金莲 | 永久网站在线| 国产在线免费精品| 亚洲第一av免费看| 日韩精品免费视频一区二区三区| 亚洲伊人色综图| 老熟女久久久| 高清在线视频一区二区三区| 波多野结衣av一区二区av| 国产乱人偷精品视频| 国产亚洲精品第一综合不卡| 新久久久久国产一级毛片| www.自偷自拍.com| 亚洲欧美色中文字幕在线| 国产色婷婷99| 亚洲,欧美精品.| 五月开心婷婷网| 97在线人人人人妻| 免费黄网站久久成人精品| 老司机亚洲免费影院| 国产一区二区 视频在线| 制服人妻中文乱码| 777米奇影视久久| 啦啦啦在线观看免费高清www| 18禁裸乳无遮挡动漫免费视频| 国产成人91sexporn| 街头女战士在线观看网站| 国产 一区精品| 五月伊人婷婷丁香| 欧美中文综合在线视频| 美女xxoo啪啪120秒动态图| 免费av中文字幕在线| 精品第一国产精品| 亚洲色图综合在线观看| 黄色怎么调成土黄色| 美女国产视频在线观看| av片东京热男人的天堂| 国产男女内射视频| 性少妇av在线| 久久久久精品久久久久真实原创| 亚洲综合色网址| 日本vs欧美在线观看视频| 欧美中文综合在线视频| 嫩草影院入口| 欧美成人午夜精品| 一个人免费看片子| 美女午夜性视频免费| 精品一品国产午夜福利视频| 国产精品香港三级国产av潘金莲 | 国产熟女欧美一区二区| 国产成人精品无人区| 午夜日本视频在线| 免费在线观看黄色视频的| 国产97色在线日韩免费| 午夜激情久久久久久久| 中文字幕最新亚洲高清| 中文字幕av电影在线播放| 毛片一级片免费看久久久久| 久久精品国产综合久久久| 超碰成人久久| 97精品久久久久久久久久精品| 亚洲av在线观看美女高潮| 久久鲁丝午夜福利片| 久久99精品国语久久久| 校园人妻丝袜中文字幕| 美女国产高潮福利片在线看| 欧美 日韩 精品 国产| 女性被躁到高潮视频| 美国免费a级毛片| 精品卡一卡二卡四卡免费| 啦啦啦在线免费观看视频4| 久久精品国产综合久久久| 曰老女人黄片| 黄色 视频免费看| 在线观看人妻少妇| 成人午夜精彩视频在线观看| 亚洲精华国产精华液的使用体验| 免费大片黄手机在线观看| 一级毛片黄色毛片免费观看视频| 寂寞人妻少妇视频99o| 大香蕉久久成人网| 日日撸夜夜添| 欧美少妇被猛烈插入视频| a 毛片基地| 国产淫语在线视频| 国产精品国产三级专区第一集| 国产人伦9x9x在线观看 | 女人久久www免费人成看片| 宅男免费午夜| 日韩一区二区视频免费看| 久久av网站| 久久久久久久久久久免费av| 1024香蕉在线观看| 伦理电影大哥的女人| 国产av码专区亚洲av| 国产高清不卡午夜福利| 另类亚洲欧美激情| 日韩制服丝袜自拍偷拍| 国产精品久久久久久精品电影小说| 国产综合精华液| 自拍欧美九色日韩亚洲蝌蚪91| 一区二区三区精品91| 日韩熟女老妇一区二区性免费视频| 国产成人午夜福利电影在线观看| 999久久久国产精品视频| 亚洲欧美精品综合一区二区三区 | 亚洲 欧美一区二区三区| 久久久久人妻精品一区果冻| 国产一区亚洲一区在线观看| 美女主播在线视频| 国产福利在线免费观看视频| 秋霞伦理黄片| 国产乱人偷精品视频| 日韩一区二区三区影片| 99九九在线精品视频| 99久国产av精品国产电影| 精品国产超薄肉色丝袜足j| 老熟女久久久| 久久毛片免费看一区二区三区| 久久女婷五月综合色啪小说| 视频在线观看一区二区三区| 亚洲一级一片aⅴ在线观看| 国产精品女同一区二区软件| 不卡av一区二区三区| 久久人人97超碰香蕉20202| av有码第一页| 亚洲av男天堂| 狂野欧美激情性bbbbbb| 国产一区二区激情短视频 | 亚洲国产精品国产精品| 男的添女的下面高潮视频| 久久久精品94久久精品| 中文字幕亚洲精品专区| 国产成人精品久久久久久| 欧美日韩亚洲国产一区二区在线观看 | 在线观看www视频免费| 久久婷婷青草| 另类亚洲欧美激情| 人人妻人人添人人爽欧美一区卜| 亚洲欧美中文字幕日韩二区| 中文字幕亚洲精品专区| 1024香蕉在线观看| 国产成人精品无人区| 99香蕉大伊视频| 久久久久久久久免费视频了| 老司机影院成人| 男人舔女人的私密视频| 久久av网站| 国产精品一区二区在线观看99| 成人毛片60女人毛片免费| 大香蕉久久成人网| 成人国语在线视频| 色视频在线一区二区三区| 老司机影院成人| 999久久久国产精品视频| 热99久久久久精品小说推荐| 精品少妇黑人巨大在线播放| 蜜桃在线观看..| 久久这里有精品视频免费| 久久久久久久亚洲中文字幕| 精品亚洲成国产av| 久久狼人影院| 欧美激情极品国产一区二区三区| 这个男人来自地球电影免费观看 | 高清黄色对白视频在线免费看| 一区在线观看完整版| 在线观看三级黄色| 精品久久久精品久久久| 啦啦啦啦在线视频资源| 久热这里只有精品99| 国产一区二区激情短视频 | 亚洲国产av影院在线观看| 夫妻午夜视频| 性色avwww在线观看| 99热全是精品| 久久狼人影院| 国产男女超爽视频在线观看| 婷婷色综合大香蕉| av天堂久久9| 精品久久久精品久久久| 国产精品一二三区在线看| 天天躁狠狠躁夜夜躁狠狠躁| 伦精品一区二区三区| 制服诱惑二区| 卡戴珊不雅视频在线播放| 妹子高潮喷水视频| 国产成人午夜福利电影在线观看| 天天操日日干夜夜撸| 精品一区二区免费观看| 国产精品女同一区二区软件| 黄色视频在线播放观看不卡| 亚洲欧美一区二区三区久久| 精品第一国产精品| 9191精品国产免费久久| 免费黄色在线免费观看| 纯流量卡能插随身wifi吗| 少妇被粗大的猛进出69影院| 亚洲,欧美精品.| 久久精品人人爽人人爽视色| 亚洲av中文av极速乱| 婷婷色麻豆天堂久久| 丝瓜视频免费看黄片| 亚洲美女搞黄在线观看| 久久久久国产精品人妻一区二区| 亚洲精品在线美女| 久久久久久人妻| 日韩在线高清观看一区二区三区| 亚洲国产精品一区二区三区在线| 亚洲伊人久久精品综合| 黄片播放在线免费| 狂野欧美激情性bbbbbb| 免费少妇av软件| 大陆偷拍与自拍| 免费播放大片免费观看视频在线观看| 午夜免费鲁丝| 亚洲五月色婷婷综合| 欧美变态另类bdsm刘玥| 制服丝袜香蕉在线| 国产成人免费观看mmmm| 少妇猛男粗大的猛烈进出视频| 波多野结衣av一区二区av| 1024视频免费在线观看| 美女福利国产在线| kizo精华| 国产男人的电影天堂91| 伊人久久大香线蕉亚洲五| 国产女主播在线喷水免费视频网站| 国产精品女同一区二区软件| 久久狼人影院| 精品一区二区免费观看| 精品国产超薄肉色丝袜足j| 亚洲成人av在线免费| 欧美国产精品一级二级三级| 国产日韩欧美亚洲二区| 欧美精品一区二区免费开放| 超碰成人久久| 日韩熟女老妇一区二区性免费视频| 亚洲综合色网址| 亚洲精品中文字幕在线视频| 一级片免费观看大全| 亚洲精品av麻豆狂野| 国产xxxxx性猛交| 国产熟女午夜一区二区三区| 久久久久国产精品人妻一区二区| 夫妻性生交免费视频一级片| 美女国产视频在线观看| 欧美日韩国产mv在线观看视频| 婷婷成人精品国产| 九草在线视频观看| 黄片无遮挡物在线观看| 日本爱情动作片www.在线观看| 一边摸一边做爽爽视频免费| 成人午夜精彩视频在线观看| 这个男人来自地球电影免费观看 | av在线观看视频网站免费| 亚洲综合色网址| 一本久久精品| 欧美在线黄色| 久久国产精品大桥未久av| 日本免费在线观看一区| 亚洲av日韩在线播放| 少妇人妻久久综合中文| 国产在视频线精品| 一级爰片在线观看| 欧美xxⅹ黑人| 精品一区在线观看国产| 国产亚洲一区二区精品| 欧美激情 高清一区二区三区| 日韩av不卡免费在线播放| 大码成人一级视频| 黄色 视频免费看| 男女免费视频国产| 久久午夜福利片| 1024香蕉在线观看| 在线观看三级黄色| 国产亚洲精品第一综合不卡| 亚洲av日韩在线播放| xxx大片免费视频| 国产精品嫩草影院av在线观看| 亚洲欧美色中文字幕在线| 1024视频免费在线观看| 一本大道久久a久久精品| 久久亚洲国产成人精品v| 99久久中文字幕三级久久日本| 三级国产精品片| 精品国产一区二区三区久久久樱花| 亚洲情色 制服丝袜| 老熟女久久久| 在线看a的网站| 女人精品久久久久毛片| 亚洲一区中文字幕在线| 18+在线观看网站| 日本午夜av视频| 久久人人爽av亚洲精品天堂| 18禁动态无遮挡网站| 最近中文字幕2019免费版| 色吧在线观看| 狂野欧美激情性bbbbbb| 人妻一区二区av| 亚洲精品日韩在线中文字幕| 国产高清国产精品国产三级| 9热在线视频观看99| 青春草视频在线免费观看| 伊人亚洲综合成人网| 18禁裸乳无遮挡动漫免费视频| 免费日韩欧美在线观看| 亚洲精品一区蜜桃| videosex国产| 色婷婷av一区二区三区视频| 亚洲av免费高清在线观看| 亚洲精品久久成人aⅴ小说| 男女边摸边吃奶| 精品第一国产精品| 中文字幕制服av| 欧美日韩综合久久久久久| 亚洲一级一片aⅴ在线观看| 亚洲欧美清纯卡通| 免费少妇av软件| 婷婷色麻豆天堂久久| 人人妻人人添人人爽欧美一区卜| 在线亚洲精品国产二区图片欧美| 午夜福利在线免费观看网站| 日韩大片免费观看网站| 久久久久精品性色| 亚洲视频免费观看视频| 成人国产麻豆网| 亚洲欧美色中文字幕在线| 天天躁夜夜躁狠狠久久av| 国产激情久久老熟女| 国产精品免费视频内射| 国产成人精品福利久久| 中文字幕色久视频| 日韩免费高清中文字幕av| 亚洲国产看品久久| 天天操日日干夜夜撸| 欧美国产精品一级二级三级| 久久久久精品性色| 国产午夜精品一二区理论片| 男人操女人黄网站| 国产av国产精品国产| 国产精品久久久久成人av| 成年动漫av网址| 久久99精品国语久久久| 丝袜美足系列| 欧美97在线视频| freevideosex欧美| 国产成人a∨麻豆精品| 欧美精品高潮呻吟av久久| 久久久久久久久久久久大奶| 9色porny在线观看| 999久久久国产精品视频| 亚洲成av片中文字幕在线观看 | 美女午夜性视频免费| 国产成人精品久久久久久| 国产精品人妻久久久影院| 午夜免费鲁丝| 少妇人妻精品综合一区二区| 日本欧美视频一区| 欧美精品一区二区免费开放| 亚洲欧美一区二区三区久久| 丝瓜视频免费看黄片| 色网站视频免费| 国产精品欧美亚洲77777| 免费黄色在线免费观看| 久久精品熟女亚洲av麻豆精品| 日产精品乱码卡一卡2卡三| 久久久久久久精品精品| 91成人精品电影| 久久精品亚洲av国产电影网| av国产久精品久网站免费入址| 午夜福利一区二区在线看| 精品国产一区二区久久| 女性被躁到高潮视频| 少妇的逼水好多| 男人操女人黄网站| 热re99久久国产66热| 99久久人妻综合| videosex国产| av又黄又爽大尺度在线免费看| 在线 av 中文字幕| 国产av一区二区精品久久| 一区二区三区精品91| 日日爽夜夜爽网站| 国产亚洲av片在线观看秒播厂| 国产福利在线免费观看视频| 男女高潮啪啪啪动态图| 在线亚洲精品国产二区图片欧美| 午夜福利在线观看免费完整高清在| 中国国产av一级| 涩涩av久久男人的天堂| 亚洲精品自拍成人| xxxhd国产人妻xxx| 在线观看一区二区三区激情| 亚洲av中文av极速乱| 男男h啪啪无遮挡| 两个人免费观看高清视频| 日韩精品有码人妻一区| 黄色 视频免费看| 国产熟女午夜一区二区三区| 女人被躁到高潮嗷嗷叫费观| 亚洲av成人精品一二三区| 晚上一个人看的免费电影| 国产熟女午夜一区二区三区| 韩国av在线不卡| 香蕉丝袜av| 9色porny在线观看| 亚洲美女搞黄在线观看| 天堂中文最新版在线下载| 黄色毛片三级朝国网站| 日韩一区二区视频免费看| 久久久久精品久久久久真实原创| 一区二区三区激情视频| 人成视频在线观看免费观看| 综合色丁香网| 另类亚洲欧美激情| 日韩中文字幕视频在线看片| 国产精品久久久久久精品古装| 丝袜美腿诱惑在线| 国产精品女同一区二区软件| 国产色婷婷99| 菩萨蛮人人尽说江南好唐韦庄| 日韩 亚洲 欧美在线| 色94色欧美一区二区| 制服人妻中文乱码| 男女无遮挡免费网站观看| 亚洲av男天堂| 99热全是精品| 大陆偷拍与自拍| 国产精品一区二区在线不卡| 黑人巨大精品欧美一区二区蜜桃| 麻豆av在线久日| 亚洲欧美清纯卡通| www.av在线官网国产| 91久久精品国产一区二区三区| 午夜福利视频在线观看免费| 国产国语露脸激情在线看| 秋霞在线观看毛片| 美女大奶头黄色视频| 亚洲av免费高清在线观看| 久久女婷五月综合色啪小说| 国产精品欧美亚洲77777| 国产一级毛片在线| 久久精品人人爽人人爽视色| 成人影院久久| 97在线人人人人妻| 亚洲美女黄色视频免费看| 中文字幕人妻熟女乱码| 欧美bdsm另类| 午夜福利视频精品| 国产午夜精品一二区理论片| 欧美日韩亚洲国产一区二区在线观看 | 免费高清在线观看日韩| av片东京热男人的天堂| 建设人人有责人人尽责人人享有的| 麻豆乱淫一区二区| 麻豆精品久久久久久蜜桃| 大陆偷拍与自拍| 91国产中文字幕| 亚洲av福利一区| 免费日韩欧美在线观看| 亚洲成人av在线免费| 亚洲精品久久午夜乱码| av视频免费观看在线观看| 亚洲综合色惰| 国产精品久久久久久av不卡| 国产精品av久久久久免费| 国产亚洲最大av| 久久精品国产鲁丝片午夜精品| 这个男人来自地球电影免费观看 | 色吧在线观看| 久久久精品区二区三区| 亚洲成色77777| 男女国产视频网站| 欧美精品高潮呻吟av久久| 人人妻人人澡人人看| 日韩一区二区三区影片| 久久久久久久久久久免费av| 可以免费在线观看a视频的电影网站 | 国产亚洲欧美精品永久| 亚洲av在线观看美女高潮| 大陆偷拍与自拍| 色视频在线一区二区三区| 亚洲视频免费观看视频| 日本wwww免费看| av不卡在线播放| 在线天堂中文资源库| 亚洲精品国产色婷婷电影| 久久精品aⅴ一区二区三区四区 | 一级毛片我不卡| 午夜免费男女啪啪视频观看| 91国产中文字幕| 亚洲欧美中文字幕日韩二区| 日本免费在线观看一区| 美国免费a级毛片| 老司机影院毛片| 毛片一级片免费看久久久久| 国产淫语在线视频| 日本午夜av视频| 一级a爱视频在线免费观看| 免费观看在线日韩| 成人18禁高潮啪啪吃奶动态图| 极品少妇高潮喷水抽搐| 亚洲一区二区三区欧美精品| 啦啦啦在线免费观看视频4| 欧美av亚洲av综合av国产av | 日本-黄色视频高清免费观看| 啦啦啦中文免费视频观看日本| 晚上一个人看的免费电影| 亚洲婷婷狠狠爱综合网| 新久久久久国产一级毛片| 亚洲av中文av极速乱| av国产久精品久网站免费入址| 免费大片黄手机在线观看| 亚洲国产精品一区三区| 国产精品香港三级国产av潘金莲 | 18禁观看日本| 丝袜人妻中文字幕| 午夜激情av网站| 90打野战视频偷拍视频| 91久久精品国产一区二区三区| 精品亚洲成a人片在线观看| 中文字幕人妻熟女乱码| 国产一级毛片在线| 男女免费视频国产| 久久久久久久精品精品| 国产精品二区激情视频| 欧美精品av麻豆av| 两个人免费观看高清视频| 欧美另类一区| 久久久国产欧美日韩av| 精品福利永久在线观看| 亚洲一区中文字幕在线| 最近中文字幕2019免费版| 国产一区二区 视频在线| 午夜免费观看性视频| 欧美少妇被猛烈插入视频| 久久这里有精品视频免费| 欧美另类一区| 久久毛片免费看一区二区三区| 男女边吃奶边做爰视频| 久久人人97超碰香蕉20202| 国产成人精品无人区| 国产免费视频播放在线视频| 久久鲁丝午夜福利片| 91在线精品国自产拍蜜月| 国产又色又爽无遮挡免| 久久ye,这里只有精品| 欧美黄色片欧美黄色片| 国产片内射在线| 国产成人午夜福利电影在线观看| 亚洲内射少妇av| 日日啪夜夜爽| 可以免费在线观看a视频的电影网站 | 亚洲熟女精品中文字幕| 另类精品久久| av在线观看视频网站免费| 亚洲五月色婷婷综合| 男女下面插进去视频免费观看| 精品久久久精品久久久| 色网站视频免费| 春色校园在线视频观看| 精品国产一区二区三区久久久樱花| 亚洲婷婷狠狠爱综合网| 久久女婷五月综合色啪小说| 午夜91福利影院| 亚洲成人av在线免费| 9色porny在线观看| 一本久久精品| 激情视频va一区二区三区| 2022亚洲国产成人精品| 啦啦啦在线观看免费高清www| av不卡在线播放| 中文字幕人妻丝袜制服| 欧美日韩国产mv在线观看视频| 大香蕉久久网| 亚洲婷婷狠狠爱综合网| 成年人免费黄色播放视频| 色视频在线一区二区三区| 中文字幕人妻丝袜一区二区 | 99精国产麻豆久久婷婷| 亚洲精品国产色婷婷电影| 久久亚洲国产成人精品v| 色视频在线一区二区三区| 欧美人与善性xxx| 免费观看性生交大片5| 午夜福利,免费看| www.精华液| 精品视频人人做人人爽| av天堂久久9| 国产成人一区二区在线| av国产精品久久久久影院| 午夜免费观看性视频| 日韩伦理黄色片| 另类精品久久| 五月伊人婷婷丁香| 久久久久久人人人人人| 中文欧美无线码| 一级黄片播放器| 午夜av观看不卡| 婷婷成人精品国产| 99热国产这里只有精品6| 亚洲精品国产av蜜桃| 99热国产这里只有精品6| 十八禁高潮呻吟视频| 亚洲av福利一区| 欧美变态另类bdsm刘玥| 国产av国产精品国产| 日本黄色日本黄色录像| 日韩成人av中文字幕在线观看| 国产精品.久久久|