• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向中文社交媒體語(yǔ)料的無(wú)監(jiān)督新詞識(shí)別研究

    2018-05-04 06:46:18黃鍇宇黃德根
    中文信息學(xué)報(bào) 2018年3期
    關(guān)鍵詞:成詞詞串新詞

    張 婧,黃鍇宇,梁 晨,黃德根

    (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

    0 引言

    社交媒體數(shù)據(jù)承載著大量輿情信息及商業(yè)信息。近年來(lái),面向微博等社交媒體語(yǔ)料的自然語(yǔ)言處理任務(wù)受到廣泛關(guān)注,例如,微博情感分析[1]、命名實(shí)體識(shí)別[2-4]、熱點(diǎn)事件抽取[5]等。此外,還有很多面向微博語(yǔ)料的評(píng)測(cè)任務(wù),例如,COAE2014評(píng)測(cè)任務(wù)中新增加了面向微博的情感新詞發(fā)現(xiàn)任務(wù),NLPCC2015也開(kāi)展了面向微博的中文分詞及詞性標(biāo)注任務(wù)[6]。目前,很多優(yōu)秀的中文分詞系統(tǒng)應(yīng)用在傳統(tǒng)語(yǔ)料(例如新聞、專(zhuān)利)上,已經(jīng)達(dá)到了令人滿(mǎn)意的效果[7-10]。然而,由于用戶(hù)在社交媒體中發(fā)表言論時(shí)通常使用極其隨意的表達(dá)方式,因此,社交媒體語(yǔ)料中包含很多縮略詞、轉(zhuǎn)義詞、諧音詞等新詞,使得現(xiàn)有的很多自然語(yǔ)言處理技術(shù)和工具無(wú)法正常用于社交媒體語(yǔ)料的詞法分析任務(wù)[11]。研究顯示,在中文分詞評(píng)測(cè)中,系統(tǒng)間性能差別最大的是未登錄詞的召回情況[12]。為了提高面向社交媒體語(yǔ)料的中文分詞效果,本文利用大規(guī)模未標(biāo)注的微博語(yǔ)料進(jìn)行新詞識(shí)別研究。

    1 相關(guān)工作

    新詞識(shí)別方法一般分為有監(jiān)督方法和無(wú)監(jiān)督方法。有監(jiān)督方法需要利用大規(guī)模熟語(yǔ)料作為訓(xùn)練語(yǔ)料,但面向社交媒體的熟語(yǔ)料極其匱乏,故無(wú)監(jiān)督方法更適用于面向微博語(yǔ)料的新詞識(shí)別任務(wù)。文獻(xiàn)[13]提出采用信息熵(Information Entropy,IE)與詞法規(guī)則相結(jié)合的無(wú)監(jiān)督方法,識(shí)別微博語(yǔ)料中的新詞,該文獻(xiàn)首先采用詞關(guān)聯(lián)性信息的迭代上下文熵算法獲取候選新詞,再使用詞法信息進(jìn)行過(guò)濾,取得較好的效果。文獻(xiàn)[14]提出Overlap Variety(OV)方法來(lái)解決微博語(yǔ)料中低頻新詞的召回問(wèn)題,OV方法在衡量候選新詞可信度的時(shí)候不單純考慮候選新詞的頻率,而是比較該候選新詞的前后鄰接詞(Accessor Variety,AV)和該候選新詞的覆蓋串的AV值。該篇文獻(xiàn)的實(shí)驗(yàn)表明,OV方法是目前新詞識(shí)別效果最先進(jìn)的方法之一。

    現(xiàn)有的無(wú)監(jiān)督新詞識(shí)別方法大都采用傳統(tǒng)統(tǒng)計(jì)量IE、AV、PMI(Point-wise Mutual Information)等提取大規(guī)模未標(biāo)注語(yǔ)料中的詞碎片的分布信息。為了更加有效地使用已有的統(tǒng)計(jì)量,本文利用發(fā)展語(yǔ)料,分析了傳統(tǒng)統(tǒng)計(jì)量對(duì)有意義的二元詞串和無(wú)意義的二元詞串的區(qū)分效果,并選擇最具有區(qū)分力度的統(tǒng)計(jì)量對(duì)語(yǔ)料中的詞碎片進(jìn)行考量,獲得候選新詞。

    除了以上傳統(tǒng)統(tǒng)計(jì)量之外,詞向量的提出為無(wú)監(jiān)督新詞識(shí)別方法提供了有利的參考信息。文獻(xiàn)[15]首先提出了分布式詞表示方法,又稱(chēng)詞向量(word embedding)。通過(guò)大規(guī)模語(yǔ)料訓(xùn)練得到的詞向量既包含詞語(yǔ)的語(yǔ)義信息,又包含詞語(yǔ)的句法信息。文獻(xiàn)[16]提出了兩種訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)模型CBOW和Skip-gram,該方法采用低維空間表示法,不但解決了維數(shù)災(zāi)難問(wèn)題,而且挖掘了詞語(yǔ)之間的關(guān)聯(lián)屬性,從而提高了詞語(yǔ)表示在語(yǔ)義上的準(zhǔn)確度。CBOW模型是在已知上下文的基礎(chǔ)上預(yù)測(cè)當(dāng)前詞,而Skip-gram模型恰好相反,是在已知當(dāng)前詞的基礎(chǔ)上預(yù)測(cè)其上下文。

    目前,關(guān)于詞向量的研究備受關(guān)注。文獻(xiàn)[17]提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)訓(xùn)練詞向量,該文獻(xiàn)的實(shí)驗(yàn)證明,在訓(xùn)練詞向量的過(guò)程中,該方法能結(jié)合局部信息和全局信息更好地獲取詞的語(yǔ)義信息。文獻(xiàn)[18]提出了基于字向量和詞向量相結(jié)合的方式獲得詞向量,該文獻(xiàn)表明,字詞結(jié)合的詞向量比傳統(tǒng)詞向量涵蓋了更有效的語(yǔ)義及句法信息。

    本文結(jié)合上述的詞向量技術(shù)和傳統(tǒng)統(tǒng)計(jì)量,提出了一種新的無(wú)監(jiān)督新詞識(shí)別方法。首先,使用PMI方法獲取候選新詞;其次,采用多種策略在大規(guī)模未標(biāo)注的微博語(yǔ)料上訓(xùn)練得到字向量和詞向量;再根據(jù)訓(xùn)練得到的字向量和詞向量構(gòu)建成詞概率較低的弱成詞詞串集合,利用該集合對(duì)候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面進(jìn)行過(guò)濾,以提高新詞識(shí)別效果。此外,本文還重現(xiàn)了目前新詞識(shí)別效果較好的Overlap Variety方法作為本文的對(duì)比實(shí)驗(yàn)。

    2 新詞定義及其分析

    2.1 新詞定義

    新詞,又稱(chēng)未登錄詞,目前沒(méi)有統(tǒng)一的界定。文獻(xiàn)[19]將新詞定義為沒(méi)有在詞典中出現(xiàn)的詞;文獻(xiàn)[20]則認(rèn)為,新詞是指隨時(shí)代發(fā)展新出現(xiàn)的詞或舊詞新用的詞。本文所識(shí)別的新詞與傳統(tǒng)定義的新詞不同,不是單純指分詞系統(tǒng)詞典中不存在的詞,而是指分詞語(yǔ)料標(biāo)準(zhǔn)集中存在的,但分詞系統(tǒng)標(biāo)注結(jié)果中不存在的詞。具體定義如下:

    GSS(gold standard set): 表示人工標(biāo)注的標(biāo)準(zhǔn)分詞集合。

    SRS(segmented results set): 表示使用分詞工具進(jìn)行分詞后得到的分詞集合。

    本文對(duì)新詞的定義: New word={w,w∈GSS 且 w?SRS}。

    這樣定義的原因有兩點(diǎn): 第一,該定義所指的新詞一部分屬于分詞系統(tǒng)所使用的詞典中不包含的詞,記為NWset1;另一部分屬于系統(tǒng)詞典中包括,但分詞系統(tǒng)未正確切分的詞,記為NWset2。這兩類(lèi)新詞對(duì)于提高分詞系統(tǒng)的性能都具有重要的作用,NWset1可以豐富現(xiàn)有詞典的詞匯,而NWset2可以完善詞典中已有的詞語(yǔ)的成詞代價(jià)。第二,這樣定義新詞不局限于特定的某個(gè)詞典,因而即使對(duì)于詞典差異很大的分詞系統(tǒng),我們的定義也同樣適用。

    2.2 新詞分析

    我們根據(jù)《北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范》[21]人工標(biāo)注了一萬(wàn)條微博語(yǔ)料作為發(fā)展語(yǔ)料,實(shí)驗(yàn)數(shù)據(jù)部分對(duì)發(fā)展語(yǔ)料的標(biāo)注過(guò)程進(jìn)行了詳細(xì)介紹。經(jīng)過(guò)統(tǒng)計(jì),發(fā)展語(yǔ)料標(biāo)準(zhǔn)集中的總詞條數(shù)(不同詞個(gè)數(shù))為46 112,其中新詞個(gè)數(shù)為22 957,新詞比例為49.79%,可見(jiàn)微博語(yǔ)料中包含大量新詞。此外,我們對(duì)發(fā)展語(yǔ)料中新詞的詞長(zhǎng)分布進(jìn)行了分析,分析結(jié)果如圖1所示。

    圖1表明,發(fā)展語(yǔ)料中的新詞主要由二元新詞和三元新詞構(gòu)成,二者之和占新詞總數(shù)的92%,遠(yuǎn)遠(yuǎn)超過(guò)其他新詞的比例。因此,本文重點(diǎn)識(shí)別微博語(yǔ)料中詞長(zhǎng)不大于3的新詞。

    圖1 發(fā)展語(yǔ)料中新詞的詞長(zhǎng)分布

    3 理論基礎(chǔ)

    3.1 詞向量

    詞向量的提出使得在無(wú)監(jiān)督的條件下獲得語(yǔ)料中詞語(yǔ)的語(yǔ)義信息成為可能。由于詞向量模型中基于softmax方法的Skip-gram模型更適用于低頻詞,而微博語(yǔ)料中新詞的頻率普遍偏低(經(jīng)統(tǒng)計(jì),規(guī)模為一萬(wàn)條微博的發(fā)展語(yǔ)料中,頻率為1的新詞占總詞條的69%)。因此本文使用基于softmax方法的Skip-gram模型訓(xùn)練得到詞向量,訓(xùn)練參數(shù)為: 維度=200,窗口=9,最低詞頻=1。實(shí)驗(yàn)中我們收集了35萬(wàn)條未標(biāo)注的微博語(yǔ)料用來(lái)訓(xùn)練詞向量。通過(guò)采用不同的策略,訓(xùn)練得到以下三種不同的詞向量,用于構(gòu)建候選新詞過(guò)濾集合。三種詞向量分別為: 詞向量WE,字向量CE和含位置信息的字向量LCE,為了敘述方便,后文統(tǒng)稱(chēng)為詞向量。

    詞向量: 使用Nihao分詞工具[8]對(duì)未標(biāo)注的微博語(yǔ)料進(jìn)行預(yù)分詞,將預(yù)分詞語(yǔ)料中的詞及詞碎片作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到詞向量,記為WE(word embedding)。

    字向量: 將未標(biāo)注的微博語(yǔ)料按字切分,將字作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到字向量,記為CE(character embedding)。

    含位置信息的字向量: 由于中文中字的歧義現(xiàn)象比較嚴(yán)重,為了獲得更加有效的字向量,我們使用分詞工具對(duì)大規(guī)模未標(biāo)注的微博語(yǔ)料進(jìn)行預(yù)分詞后,根據(jù)字在詞語(yǔ)中的位置對(duì)字進(jìn)行細(xì)分類(lèi)。本文根據(jù)字在詞中的位置,將字分為四個(gè)類(lèi)別: B表示該字出現(xiàn)在所在詞語(yǔ)的開(kāi)始位置;E表示該字出現(xiàn)在所在詞語(yǔ)的結(jié)束位置;M表示該字出現(xiàn)在所在詞語(yǔ)的中間位置,即非開(kāi)始位置和結(jié)束位置;S表示該字獨(dú)立成詞或表示該字為詞碎片。將含有分類(lèi)信息的字作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到包含位置信息的字向量,記為L(zhǎng)CE(location information based character embedding)。

    3.2 傳統(tǒng)統(tǒng)計(jì)量

    在很多自然語(yǔ)言處理任務(wù)中,都會(huì)使用前后鄰接詞、信息熵、點(diǎn)互信息等統(tǒng)計(jì)量提取重要參考信息,本節(jié)將對(duì)這三種統(tǒng)計(jì)量在新詞識(shí)別任務(wù)中的使用方法進(jìn)行詳細(xì)介紹。

    3.2.1 前后鄰接詞(Accessor Variety,AV)

    文獻(xiàn)[22]首次提出Accessor Variety的概念,其核心思想是若某個(gè)詞串w是有意義的,那么它可以適用于多種不同的語(yǔ)言環(huán)境,即,如果一個(gè)詞串出現(xiàn)在不同的語(yǔ)言環(huán)境下,那它可能是有意義的。在新詞識(shí)別任務(wù)中,令Lav(w)表示與詞串w直接相鄰的不同的前一個(gè)字的個(gè)數(shù),Rav(w)表示與詞串w直接相鄰的不同的后一個(gè)字的個(gè)數(shù)。Lav(w)和Rav(w)這兩個(gè)值可以用來(lái)衡量詞串w對(duì)不同語(yǔ)境的適應(yīng)能力。詞串w的AV值定義如式(1)所示。

    gav(w)=logAV(w)

    (1)

    其中,AV(w)=min{Lav(w),Rav(w)}。

    3.2.2 信息熵(Information Entropy,IE)

    信息熵是信息論的基本概念,又稱(chēng)熵,可以衡量一個(gè)隨機(jī)變量的不確定性。一個(gè)隨機(jī)變量的信息熵越大,它的不確定性就越大,那么,正確估計(jì)其值的可能性就越小。在新詞識(shí)別任務(wù)中,我們利用信息熵衡量語(yǔ)料中某一詞串的所有前鄰接詞(或后鄰接詞)分布的不確定性。信息熵越小說(shuō)明詞串的前鄰接詞(或后鄰接詞)分布越集中,這樣的詞串越有可能與其前鄰接詞(或后鄰接詞)合并形成候選新詞;反之,說(shuō)明詞串的前鄰接詞(或后鄰接詞)分布的越分散,該詞串獨(dú)立成詞的可能性越大。我們用左信息熵LIE計(jì)算詞串與其前鄰接詞的信息熵,用右信息熵RIE計(jì)算詞串與其后鄰接詞的信息熵,計(jì)算如式(2)所示。

    (2)

    (3)

    其中,w為當(dāng)前考察的詞串,m為w的前鄰接詞的總數(shù),n為w的后鄰接詞的總數(shù),lwi為w的第i個(gè)前鄰接詞,rwi為w的第i個(gè)后鄰接詞。

    3.2.3 點(diǎn)互信息(Point-wiseMutualInformation,PMI)

    點(diǎn)互信息源于信息論中的互信息,是一種用來(lái)度量關(guān)聯(lián)性的統(tǒng)計(jì)量。在新詞識(shí)別任務(wù)中,通常使用PMI來(lái)衡量詞碎片之間的共現(xiàn)程度,其具體的計(jì)算如式(4)所示。

    (4)

    其中,x、y表示語(yǔ)料中的詞或詞碎片,P(x,y)表示x和y作為相鄰詞串同時(shí)出現(xiàn)的頻率,P(x)、P(y)分別表示x和y在整個(gè)語(yǔ)料中出現(xiàn)的頻率。

    4 新詞識(shí)別算法

    在新詞識(shí)別過(guò)程中,由于二元新詞的構(gòu)成形式(單字+單字)相對(duì)于三元新詞的構(gòu)成形式(單字+二字、二字+單字、單字+單字+單字)較為簡(jiǎn)單,因此,我們優(yōu)先識(shí)別二元新詞,根據(jù)過(guò)濾后的二元新詞對(duì)語(yǔ)料進(jìn)行自動(dòng)修正,然后進(jìn)行二次迭代,識(shí)別三元新詞。每次迭代過(guò)程中,將新詞識(shí)別任務(wù)分為候選新詞識(shí)別和候選新詞過(guò)濾兩個(gè)子任務(wù),下面分別詳細(xì)介紹這兩個(gè)子任務(wù)的處理方法。

    4.1 候選新詞識(shí)別

    本文首先利用發(fā)展語(yǔ)料分析現(xiàn)有統(tǒng)計(jì)量(AV,IE,PMI)對(duì)預(yù)分詞結(jié)果中的單字詞碎片的區(qū)分效果,根據(jù)分析結(jié)果選擇區(qū)分效果最為明顯的統(tǒng)計(jì)量進(jìn)行候選新詞識(shí)別。由于二元新詞的識(shí)別結(jié)果將直接影響到三元新詞的識(shí)別,所以,在此分析過(guò)程中,我們主要針對(duì)連續(xù)的兩個(gè)單字組成的二元詞串進(jìn)行分析。分析方法及結(jié)果如下:

    圖2 傳統(tǒng)統(tǒng)計(jì)量對(duì)二元詞串的區(qū)分效果

    分析方法: 根據(jù)發(fā)展語(yǔ)料的預(yù)分詞結(jié)果(SRS集合)和標(biāo)準(zhǔn)集(GSS集合)獲取有意義的二元詞串和無(wú)意義的二元詞串,分別計(jì)算每個(gè)二元詞串的PMI值和二元詞串中第一個(gè)字的RIE值、RAV值,以及第二個(gè)字的LIE值、LAV值。每個(gè)統(tǒng)計(jì)量取不同值時(shí)所包含的二元詞串的比例如圖2所示。

    詞串的獲取: 抽取發(fā)展語(yǔ)料的SRS集合中所有連續(xù)的兩個(gè)長(zhǎng)度為1的詞串組成的二元詞串,記作SetAll。

    有意義的詞串: 對(duì)于SetAll中的詞串bigramToken,如果發(fā)展語(yǔ)料的GSS集合中存在該詞串bigramToken,則bigramToken為有意義的詞串。

    無(wú)意義的詞串: 對(duì)于SetAll中的詞串bigramToken,如果不在發(fā)展語(yǔ)料的GSS集合中,則bigramToken為無(wú)意義的詞串。

    圖2的數(shù)據(jù)表明,IE(包括LIE和RIE)和AV(包括LAV和RAV)對(duì)有意義和無(wú)意義的二字詞串的區(qū)分度不大。即,無(wú)論IE和AV的閾值定為多少,識(shí)別結(jié)果中的有意義的詞串和無(wú)意義的詞串的比例都差不多;而PMI對(duì)有意義和無(wú)意義的詞串具有明顯的區(qū)分效果,PMI值大于-4的二字詞串中,有意義的詞串的比重明顯大于無(wú)意義的詞串。因此,本文選擇PMI對(duì)候選新詞進(jìn)行識(shí)別。在第一次迭代進(jìn)行二元候選新詞識(shí)別過(guò)程中,PMI閾值設(shè)為-4,即選擇PMI值大于-4的二元詞串作為候選新詞。

    4.2 候選新詞過(guò)濾

    現(xiàn)有的候選新詞的過(guò)濾方法一般是基于規(guī)則或詞典的方法,例如,詞性規(guī)則和停用詞詞典。這些方法的過(guò)濾效果較為明顯,但通用性較差。本文先利用詞向量構(gòu)建弱成詞詞串集合,然后再利用該集合對(duì)候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面進(jìn)行過(guò)濾。由于詞向量可以根據(jù)不同的目標(biāo)語(yǔ)料訓(xùn)練得到,因此,該方法不局限于特定的語(yǔ)料,通用性較好。

    本文所選的弱成詞詞串的功能與停用詞的功能類(lèi)似(即與其他詞串合并成為詞語(yǔ)的能力較差),但弱成詞詞串不同于停用詞,二者主要有兩點(diǎn)不同: 第一,停用詞中包含詞長(zhǎng)大于1的詞語(yǔ),而我們構(gòu)建的弱成詞詞串只包含長(zhǎng)度為1的字符;第二,停用詞不包含位置信息,而弱成詞詞串包含位置信息。

    構(gòu)建弱成詞詞串集合時(shí),我們選擇成詞能力較差的高頻單字詞及標(biāo)點(diǎn)作為種子集合。該種子集合共包含11個(gè)字符: {“我”,“是”,“的”,“了”,“在”,“。”,“,”,“、”,“;”,“!”,“?”}。然后利用詞向量計(jì)算當(dāng)前詞與種子集合中詞的相似度,以此為依據(jù)擴(kuò)展種子集合,經(jīng)過(guò)T次迭代進(jìn)而得到弱成詞詞串集合,本文實(shí)驗(yàn)中,T=3。詞與集合的相似度計(jì)算公式如式(5)所示。利用詞向量和種子集合構(gòu)建弱成詞詞串集合的算法如算法1所示。

    (5)

    算法1:弱成詞詞串集合的構(gòu)建算法輸入:詞向量字典WEDictionary、種子集合SeedSet、預(yù)分詞語(yǔ)料segCorpus輸出:弱成詞詞串集合L1.foriterator=1toTdoL2. tokenSim=[] //用于存放詞和集合的相似度L3. fortokeninsegCorpusdoL4. iftoken的長(zhǎng)度等于1thenL5. 獲取包含該token的詞向量L6. forwordinSeedSetdoL7. 獲取word的詞向量L8. endforL9. 根據(jù)式(5)計(jì)算token和SeedSet的相似度,將結(jié)果保存到tokenSim中L10 endifL11. endforL12. 將tokenSim中的token按照其相似度值從大到小排序,取TopM的token加入SeedSet中L13.endfor

    構(gòu)建好弱成詞詞串集合后,從候選新詞的內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面對(duì)候選新詞進(jìn)行過(guò)濾。從候選新詞的內(nèi)部構(gòu)成上對(duì)其進(jìn)行過(guò)濾時(shí),利用弱成詞詞串集合判斷構(gòu)成候選新詞的詞碎片的成詞能力,如果構(gòu)成候選新詞的任一詞碎片的成詞能力較弱,則該候選新詞會(huì)被過(guò)濾掉;從候選新詞的外部環(huán)境上對(duì)其進(jìn)行過(guò)濾時(shí),如果該候選新詞的前鄰接詞或后鄰接詞中包含成詞能力較弱的詞串,說(shuō)明該候選新詞的外部環(huán)境較為穩(wěn)定,則該候選新詞不會(huì)被過(guò)濾掉,反之,該候選新詞會(huì)被過(guò)濾掉。具體如算法2所示。

    算法2:候選新詞過(guò)濾算法輸入:詞向量詞典WEDictionary、弱成詞詞串集合AntiWordSet、候選新詞NWCandidateSet、預(yù)分詞語(yǔ)料segCorpus輸出:過(guò)濾后的候選新詞FilteredNW//從候選新詞的內(nèi)部構(gòu)成上對(duì)其進(jìn)行過(guò)濾:L1. forcandidate=wiwi+1inNWCandidateSetdoL2. 計(jì)算AS1=AvgSim(wi,AntiWordSetM)和AS2=AvgSim(wi+1,AntiWordSetM)L3. ifAS1大于閾值SIMorAS2大于閾值SIMthen將candidate過(guò)濾掉L4. endfor//從候選新詞的外部環(huán)境上對(duì)其進(jìn)行過(guò)濾:L5. forcandidate=wiwi+1inNWCandidateSetdoL6. 獲取candidate在segCorpus中的上下文contextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cL7. 將所有contextStr加入到candidate的上下文集合contextStrSet中L8. environmentFlag=0L9. forcontextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cincontextStrSetdoL10. 計(jì)算prefixContext=AvgSim(wj,AntiWordSetM),i-c≤j≤i-1L11. 計(jì)算suffixContext=AvgSim(wj,AntiWordSetM),i+2≤j≤i+1+cL12. ifprefixContext大于閾值SIMorsuffixContext大于閾值SIMthenenvironmentFlag=1L13. endforL14. ifenvironmentFlag==0then過(guò)濾該候選新詞candidateL15.endfor

    表1 弱成詞詞串示例

    在構(gòu)建弱成詞詞串集合的過(guò)程中,本文經(jīng)過(guò)T=3次迭代,經(jīng)過(guò)多次實(shí)驗(yàn),當(dāng)弱成詞詞串集合包含170個(gè)詞串時(shí),實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)。最終,獲得的弱成詞詞串集合包括120個(gè)標(biāo)點(diǎn)和50個(gè)字符。表1是弱成詞詞串集合中包含的部分標(biāo)點(diǎn)和字符。表中的標(biāo)點(diǎn)和字符后面的B、M、E、S表示該字符的位置。

    5 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果

    5.1 實(shí)驗(yàn)語(yǔ)料

    未標(biāo)注語(yǔ)料: 為了獲得盡可能豐富的詞串信息,我們收集了2011~2015年近35萬(wàn)條未標(biāo)注的微博語(yǔ)料,預(yù)分詞后,用于訓(xùn)練詞向量以及計(jì)算詞串的IE、AV、PMI等信息。

    測(cè)試語(yǔ)料: 使用NLPCC2015年的面向微博語(yǔ)料的中文分詞評(píng)測(cè)任務(wù)的訓(xùn)練語(yǔ)料作為本實(shí)驗(yàn)的測(cè)試語(yǔ)料,語(yǔ)料規(guī)模為一萬(wàn)條微博[6]。

    發(fā)展語(yǔ)料: 為了在完全不參考測(cè)試語(yǔ)料的情況下對(duì)本文的方法進(jìn)行調(diào)參,我們根據(jù)《北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范》[21]人工標(biāo)注了一萬(wàn)條微博作為發(fā)展語(yǔ)料。為了確保人工標(biāo)注的一致性,我們隨機(jī)選取500條微博讓兩名標(biāo)注人員(標(biāo)注人員A和標(biāo)注人員B)對(duì)其進(jìn)行標(biāo)注,然后對(duì)比兩人的標(biāo)注結(jié)果,針對(duì)不一致的標(biāo)注結(jié)果進(jìn)行討論和修改,直到標(biāo)注的一致性達(dá)到一定的Kappa值[23]。因Kappa值考量了標(biāo)注人員隨機(jī)標(biāo)注的可能性,故它比一般的百分比計(jì)算方法更具有說(shuō)服性,其計(jì)算如式(6)所示。

    標(biāo)注人員的標(biāo)注任務(wù)是在預(yù)分詞的基礎(chǔ)上進(jìn)行的,假設(shè)預(yù)分詞結(jié)果為:W1W2...Wi...Wn,標(biāo)注人員是在原有詞串的間隔處進(jìn)行操作。如果選擇將Wi與Wi+1合并,標(biāo)注者在Wi與Wi+1之間的標(biāo)記為yes(記為下標(biāo)y),反之,如果不合并,則此處的標(biāo)記為no(記為下標(biāo)n)。根據(jù)兩名標(biāo)注人員的標(biāo)記結(jié)果,最后計(jì)算得到的kappa值為93.55%,這說(shuō)明標(biāo)注結(jié)果已經(jīng)達(dá)到了較高的一致性,因此,標(biāo)注人員標(biāo)注的發(fā)展語(yǔ)料是可靠的。

    其中,P(A)表示兩名標(biāo)注人員實(shí)際標(biāo)注一致的概率;P(e)表示兩名標(biāo)注人員隨機(jī)標(biāo)注一致的概率;C(AyBy)表示兩名標(biāo)注人員在對(duì)應(yīng)相同的地方都選擇合并的操作數(shù);C(AnBn)表示兩名標(biāo)注人員在對(duì)應(yīng)相同的地方都選擇不合并的操作數(shù),因預(yù)分詞結(jié)果中很多地方都不需要合并,且我們更關(guān)注兩名標(biāo)注人員同時(shí)選擇合并的情況。因此,在計(jì)算Kappa時(shí),兩名標(biāo)注人員都未修改的地方不予考慮,即C(AnBn)=0;Count表示被任意一名標(biāo)注人員修改過(guò)的地方的總數(shù);P(Ay)表示標(biāo)注人員A標(biāo)注成yes的概率,即標(biāo)注人員A標(biāo)成yes的操作數(shù)除以標(biāo)注人員A總的操作數(shù),式(8)中的其他P(*)表示的意思類(lèi)似于P(Ay)。

    5.2 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

    5.2.1 新詞識(shí)別結(jié)果

    實(shí)驗(yàn)過(guò)程中,我們首先識(shí)別由兩個(gè)單字詞碎片組成的詞串,然后進(jìn)行二次迭代,獲得三元新詞。為了檢驗(yàn)本文的方法,我們進(jìn)行了如下對(duì)比實(shí)驗(yàn),二元新詞的識(shí)別結(jié)果如表2所示。

    表2 二元新詞識(shí)別結(jié)果

    Baseline: 利用PMI識(shí)別預(yù)分詞語(yǔ)料中的二元新詞,其中PMI的閾值設(shè)定為-4;

    Baseline+WE: 采用Baseline的方法獲得候選新詞,使用基于詞向量WE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;

    Baseline+CE: 采用Baseline的方法獲得候選新詞,使用基于字向量CE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;

    Baseline+LCE: 采用Baseline的方法獲得候選新詞,使用基于含有位置信息的字向量LCE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;

    ExperimentX+External: 表示在實(shí)驗(yàn)ExperimentX的基礎(chǔ)上,從外部環(huán)境方面對(duì)候選新詞進(jìn)一步進(jìn)行過(guò)濾,其中上下文窗口c的取值為1的實(shí)驗(yàn)效果最佳;

    OverlapVariety: 為了將本文提出的方法和現(xiàn)有優(yōu)秀的方法進(jìn)行對(duì)比,我們重現(xiàn)了文獻(xiàn)[14]提出的OverlapVariety方法。

    數(shù)據(jù)顯示,單純從內(nèi)部構(gòu)成方面對(duì)候選新詞過(guò)濾的實(shí)驗(yàn)中,LCE的過(guò)濾效果最為明顯,比基線系統(tǒng)的F值提高了3.28%,比Overlap Variety方法提高了1.43%;從外部環(huán)境對(duì)候選新詞過(guò)濾后,F(xiàn)值得到進(jìn)一步提高,最佳結(jié)果比基線系統(tǒng)提高了6.75%。實(shí)驗(yàn)表明,本文利用含有位置信息的字向量構(gòu)建的弱成詞詞串集合能有效過(guò)濾二元候選新詞中的噪音詞串。

    根據(jù)二元新詞的識(shí)別結(jié)果,將預(yù)分詞語(yǔ)料中的二元新詞進(jìn)行合并,然后進(jìn)行二次迭代,進(jìn)一步識(shí)別語(yǔ)料中的三元新詞。二次迭代過(guò)程中,獲取三元候選新詞時(shí),同樣采用PMI方法。利用發(fā)展語(yǔ)料調(diào)整PMI閾值時(shí),PMI閾值對(duì)新詞識(shí)別結(jié)果的影響如圖3所示。

    由圖3可見(jiàn),二次迭代的PMI閾值為2時(shí),發(fā)展語(yǔ)料中新詞識(shí)別結(jié)果的F值達(dá)到峰值。因此,本文二次迭代時(shí)設(shè)定PMI閾值為2。最終發(fā)展語(yǔ)料中二元新詞和三元新詞的識(shí)別結(jié)果如表3的第一行數(shù)據(jù)所示;測(cè)試語(yǔ)料的識(shí)別結(jié)果如表3的第二行數(shù)據(jù)所示。

    實(shí)驗(yàn)結(jié)果表明,測(cè)試語(yǔ)料和發(fā)展語(yǔ)料的識(shí)別結(jié)果比較接近,說(shuō)明本文提出的方法能夠有效識(shí)別二元和三元新詞,并對(duì)候選新詞中的噪音進(jìn)行有效過(guò)濾;同時(shí),該結(jié)果也進(jìn)一步證明了我們標(biāo)注的發(fā)展語(yǔ)料的可信度。

    表3 二元新詞和三元新詞的識(shí)別結(jié)果

    此外,我們通過(guò)改變未標(biāo)注語(yǔ)料的大小,比較了語(yǔ)料規(guī)模對(duì)新詞識(shí)別結(jié)果的影響,實(shí)驗(yàn)結(jié)果如圖4所示。實(shí)驗(yàn)表明語(yǔ)料規(guī)模從1萬(wàn)條微博(只包含發(fā)展語(yǔ)料)到35萬(wàn)條微博逐漸擴(kuò)大時(shí),召回率逐漸降低,精確率和F值不斷提高。當(dāng)語(yǔ)料規(guī)模達(dá)到15萬(wàn)條微博后,實(shí)驗(yàn)結(jié)果趨于平穩(wěn)。

    5.2.2 新詞識(shí)別結(jié)果分析

    我們最終識(shí)別到的新詞包括醫(yī)學(xué)、科技、金融、生物、影視娛樂(lè)等多種領(lǐng)域的術(shù)語(yǔ);還有人名、地名、品牌名等命名實(shí)體;此外,還有包括字母、數(shù)字與漢字組合成的新詞,以及包含錯(cuò)字的新詞。表4是我們識(shí)別到的新詞的舉例。

    圖4 語(yǔ)料規(guī)模對(duì)新詞識(shí)別結(jié)果的影響

    表4 新詞示例

    雖然本文提出的方法能夠識(shí)別很多領(lǐng)域的新詞,但該方法仍存在缺點(diǎn)。該方法對(duì)四字詞的識(shí)別效果不佳,例如我們識(shí)別出的新詞中還包括“心如止”(正確為: 心如止水)、“語(yǔ)道破”(正確為: 一語(yǔ)道破);此外,新詞識(shí)別結(jié)果中除了上述識(shí)別不完整的四字詞外,還有類(lèi)似于“負(fù)全責(zé)”、“請(qǐng)接力”、“取決于”、“隱藏著”等包含多余成分的錯(cuò)誤詞語(yǔ)。因此,要獲得更加高質(zhì)量的新詞,還需要很多工作和努力。

    6 總結(jié)和展望

    本文是面向中文社交媒體語(yǔ)料的新詞識(shí)別研究。這一研究任務(wù)的難點(diǎn)在于,社交媒體語(yǔ)料中沒(méi)有成熟的訓(xùn)練語(yǔ)料,無(wú)法通過(guò)有監(jiān)督的方法訓(xùn)練得到可靠的新詞識(shí)別模型。因此,本文采用基于PMI和多種策略的詞向量的無(wú)監(jiān)督方法進(jìn)行新詞識(shí)別和過(guò)濾。實(shí)驗(yàn)結(jié)果表明,本文利用詞向量構(gòu)建的弱成詞詞串集合對(duì)候選新詞進(jìn)行了有效過(guò)濾,新詞識(shí)別效果明顯優(yōu)于基線系統(tǒng)和現(xiàn)有的最佳的無(wú)監(jiān)督新詞識(shí)別方法之一Overlap Variety方法。此外,為了分析傳統(tǒng)統(tǒng)計(jì)量PMI、AV、IE等方法的識(shí)別效果,本文根據(jù)《北大分詞語(yǔ)料標(biāo)注規(guī)則》標(biāo)注了面向社交媒體語(yǔ)料的分詞語(yǔ)料,作為實(shí)驗(yàn)的發(fā)展語(yǔ)料,發(fā)展語(yǔ)料的實(shí)驗(yàn)結(jié)果與最終測(cè)試語(yǔ)料的實(shí)驗(yàn)結(jié)果較為接近,證明本文標(biāo)注的發(fā)展語(yǔ)料具有較高的可靠性。

    盡管本文所提出方法的識(shí)別結(jié)果得到了明顯提高,但最終的F值還沒(méi)有達(dá)到60%,因此還存在很大的提升空間。下一步,我們將在此基礎(chǔ)上,進(jìn)一步提高新詞識(shí)別的精確度,利用自學(xué)習(xí)方法逐漸擴(kuò)大面向社交媒體的成熟語(yǔ)料,為有監(jiān)督方法提供可靠的訓(xùn)練語(yǔ)料。

    [1] Nguyen T H, Shirai K. Topic modeling based sentiment analysis on social media for stock market prediction[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 1354-1364.

    [2] Liu X, Zhou M, Wei F, et al. Joint inference of named entity recognition and normalization for tweets[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. 2012: 526-535.

    [3] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings[C]//Proceedings of the 2015 Conference on EMNLP of the Association for Computational Linguistics. Lisbon, Portugal, 2015: 548-554.

    [4] Li C, Liu Y. Improving Named Entity Recognition in Tweets via Detecting Non-Standard Words[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 929-938.

    [5] Dong G, Li R, Yang W, et al. Microblog burst keywords detection based on social trust and dynamics model[J]. Chinese Journal of Electronics, 2014, 23(4): 695-700.

    [6] Qiu X, Qian P, Yin L, et al. Overview of the NLPCC 2015 Shared Task: Chinese Word Segmentation and POS Tagging for Micro-blog Texts[M].Natural Language Processing and Chinese Computing. Springer International Publishing, 2015: 541-549.

    [7] Liu Y, Zhang Y, Che W, et al. Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations[C]//Proceedings of EMNLP. 2014: 864-874.

    [8] Degen H, Deqin T. Context information and fragments based cross-domain word segmentation[J]. China Communications, 2012, 9(3): 49-57.

    [9] Li Z, Sun M. Punctuation as implicit annotations for Chinese word segmentation[J]. Computational Linguistics, 2009, 35(4): 505-512.

    [10] Tseng H, Chang P, Andrew G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]//Proceedings of the 4th SIGHAN workshop on Chinese language Processing. 2005: 168-171.

    [11] Eisenstein J. What to do about bad language on the internet[C]//Proceedings of HLT-NAACL. 2013: 359-369.

    [12] Sproat R, Emerson T. The first international Chinese word segmentation bakeoff[C]//Proceedings of the 2nd SIGHAN workshop on Chinese language processing. Association for Computational Linguistics, 2003: 133-143.

    [13] 霍帥, 張敏, 劉奕群, 等. 基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J]. 模式識(shí)別與人工智能, 2014, 27(2): 141-145.

    [14] Ye Y, Wu Q, Li Y, et al. Unknown Chinese word extraction based on variety of overlapping strings[J]. Information Processing & Management, 2013, 49(2): 497-512.

    [15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Cognitive modeling, 1988, 5(3): 1.

    [16] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th NIPS. 2013: 3111-3119.

    [17] Huang E H, Socher R, Manning C D, et al. Improving word representations via global context and multiple word prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. Association for Computational Linguistics, 2012: 873-882.

    [18] Chen X, Xu L, Liu Z, et al. Joint learning of character and word embeddings[C]//Proceedings of IJCAI. 2015: 1236-1242.

    [19] Chen K J, Ma W Y. Unknown word extraction for Chinese documents[C]//Proceedings of the 19th international conference on Computational linguistics. Association for Computational Linguistics, 2002: 1-7.

    [20] 鄒綱, 劉洋, 劉群, 等. 面向 Internet 的中文新詞語(yǔ)檢測(cè)[J]. 中文信息學(xué)報(bào), 2004, 18(6): 2-10.

    [21] 俞士汶, 段慧明, 朱學(xué)鋒, 等. 北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范[J]. 中文信息學(xué)報(bào), 2002, 16(5): 51-66.

    [22] Feng H, Chen K, Deng X, et al. Accessor variety criteria for Chinese word extraction[J]. Computational Linguistics, 2004, 30(1): 75-93.

    [23] Carletta J. Assessing agreement on classification tasks: the kappa statistic[J]. Computational linguistics, 1996, 22(2): 249-254.

    猜你喜歡
    成詞詞串新詞
    靈動(dòng)的詞串,寫(xiě)話(huà)的紐帶
    《微群新詞》選刊之十四
    報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
    新聞傳播(2018年15期)2018-09-18 03:19:58
    “湊合”成詞及詞義演變考.
    先秦形容詞性反義并列詞語(yǔ)成詞規(guī)律考
    再論“睡覺(jué)”成詞的時(shí)代
    東方教育(2017年14期)2017-09-25 16:53:37
    “企業(yè)”的成詞及詞義內(nèi)涵考釋
    美語(yǔ)口語(yǔ)詞串You Know What探析
    小議網(wǎng)絡(luò)新詞“周邊”
    外教新詞堂
    午夜精品在线福利| 国产 一区 欧美 日韩| 久久精品久久久久久久性| 男女视频在线观看网站免费| 国产av不卡久久| 亚洲国产精品sss在线观看| 天天躁夜夜躁狠狠久久av| 尾随美女入室| 小蜜桃在线观看免费完整版高清| 中文字幕久久专区| 在线国产一区二区在线| 日韩欧美国产在线观看| 别揉我奶头 嗯啊视频| 久久久国产成人免费| 免费观看人在逋| av在线天堂中文字幕| 少妇猛男粗大的猛烈进出视频 | 日日啪夜夜撸| 成人毛片a级毛片在线播放| 国产三级中文精品| 亚洲成人久久性| 一级黄色大片毛片| 亚洲欧美成人精品一区二区| 丝袜喷水一区| 简卡轻食公司| 国产精品三级大全| 国产高潮美女av| 天堂网av新在线| 久久韩国三级中文字幕| 男女下面进入的视频免费午夜| 22中文网久久字幕| 亚洲成人久久性| 麻豆一二三区av精品| 久久久国产成人精品二区| 午夜激情欧美在线| 久久午夜亚洲精品久久| 亚洲va在线va天堂va国产| 午夜福利在线观看吧| 午夜福利在线观看吧| 能在线免费看毛片的网站| 国内精品一区二区在线观看| av黄色大香蕉| 极品教师在线视频| 亚洲婷婷狠狠爱综合网| 免费搜索国产男女视频| 久久午夜福利片| 久久久色成人| 亚洲人与动物交配视频| 男人狂女人下面高潮的视频| 亚洲av电影不卡..在线观看| 久久精品国产鲁丝片午夜精品| 男人和女人高潮做爰伦理| 亚洲国产色片| 一进一出抽搐动态| 最近中文字幕高清免费大全6| 26uuu在线亚洲综合色| 国产乱人视频| 变态另类成人亚洲欧美熟女| 小蜜桃在线观看免费完整版高清| a级一级毛片免费在线观看| a级毛色黄片| 日韩成人av中文字幕在线观看| 少妇被粗大猛烈的视频| 在线天堂最新版资源| 久久这里有精品视频免费| 国产v大片淫在线免费观看| 日韩制服骚丝袜av| 国产不卡一卡二| 亚洲熟妇中文字幕五十中出| 国产精品久久视频播放| 国产精品一及| 3wmmmm亚洲av在线观看| av.在线天堂| 看十八女毛片水多多多| 成人av在线播放网站| 黄色视频,在线免费观看| 亚洲国产欧美在线一区| 天堂中文最新版在线下载 | 久久6这里有精品| 亚洲18禁久久av| 99久久中文字幕三级久久日本| 最好的美女福利视频网| 亚洲欧美精品自产自拍| 国产激情偷乱视频一区二区| 国产精品久久电影中文字幕| 亚洲成人久久爱视频| 亚洲五月天丁香| 成年女人永久免费观看视频| 亚洲成人中文字幕在线播放| 亚洲中文字幕一区二区三区有码在线看| 99精品在免费线老司机午夜| 亚洲精品456在线播放app| 一级毛片我不卡| 国产男人的电影天堂91| 久久国产乱子免费精品| 2022亚洲国产成人精品| 色哟哟哟哟哟哟| 波野结衣二区三区在线| 成人一区二区视频在线观看| 欧美极品一区二区三区四区| 国产黄色视频一区二区在线观看 | 免费av毛片视频| 午夜福利在线在线| 成人亚洲欧美一区二区av| 久久久欧美国产精品| 联通29元200g的流量卡| 老女人水多毛片| 99热全是精品| 久久九九热精品免费| 99riav亚洲国产免费| 色播亚洲综合网| 狂野欧美激情性xxxx在线观看| 亚洲国产欧美人成| 热99在线观看视频| 亚洲成人中文字幕在线播放| 波多野结衣高清无吗| 91久久精品电影网| 成人毛片a级毛片在线播放| 国产精品.久久久| 日本熟妇午夜| 岛国毛片在线播放| 日韩国内少妇激情av| 日韩视频在线欧美| 内地一区二区视频在线| 日韩 亚洲 欧美在线| 夜夜爽天天搞| 亚洲av一区综合| 国产黄a三级三级三级人| 色噜噜av男人的天堂激情| 精品一区二区三区人妻视频| 亚洲av二区三区四区| www.av在线官网国产| 亚洲精华国产精华液的使用体验 | 日本免费一区二区三区高清不卡| 久久久久久久久中文| 级片在线观看| 性欧美人与动物交配| 亚洲图色成人| 校园春色视频在线观看| 欧美xxxx性猛交bbbb| 一夜夜www| 欧美精品国产亚洲| 久久精品国产清高在天天线| 欧美又色又爽又黄视频| 一级黄色大片毛片| 特级一级黄色大片| 精品久久久久久久久久免费视频| 国产一区二区亚洲精品在线观看| 97超视频在线观看视频| 夜夜看夜夜爽夜夜摸| 日本欧美国产在线视频| 成人特级av手机在线观看| 久久精品综合一区二区三区| 国产精品,欧美在线| 成人国产麻豆网| 国产一区二区在线观看日韩| 日产精品乱码卡一卡2卡三| 2022亚洲国产成人精品| 在线观看av片永久免费下载| 我的老师免费观看完整版| .国产精品久久| 女同久久另类99精品国产91| 国产精品国产高清国产av| 日日摸夜夜添夜夜添av毛片| 青春草视频在线免费观看| 亚洲av电影不卡..在线观看| 亚洲欧美精品综合久久99| 夜夜夜夜夜久久久久| 可以在线观看的亚洲视频| 亚洲欧美日韩高清专用| 中国美女看黄片| 成人无遮挡网站| 午夜福利在线观看吧| 69av精品久久久久久| 成人美女网站在线观看视频| 九九爱精品视频在线观看| 久久人妻av系列| 天堂网av新在线| 男女那种视频在线观看| 国产综合懂色| 久久人妻av系列| 亚洲欧美日韩高清在线视频| 成人综合一区亚洲| 欧美变态另类bdsm刘玥| 91狼人影院| 日韩,欧美,国产一区二区三区 | 美女被艹到高潮喷水动态| 亚洲丝袜综合中文字幕| 午夜精品一区二区三区免费看| 亚洲在线观看片| 精品久久久久久久人妻蜜臀av| 亚洲国产精品合色在线| 天堂中文最新版在线下载 | 国产精品永久免费网站| 亚洲av电影不卡..在线观看| 在线播放国产精品三级| 国产探花在线观看一区二区| kizo精华| 国产精品一区二区在线观看99 | 欧美最新免费一区二区三区| 三级国产精品欧美在线观看| 亚洲成人av在线免费| 两个人的视频大全免费| 悠悠久久av| 国产高潮美女av| 日日啪夜夜撸| 国产一区二区在线观看日韩| 日日啪夜夜撸| 波多野结衣高清无吗| 久久热精品热| 日本与韩国留学比较| 最好的美女福利视频网| 亚洲欧美精品专区久久| www日本黄色视频网| 国内揄拍国产精品人妻在线| 精品国产三级普通话版| 国产精品,欧美在线| 亚洲国产欧美在线一区| 九九热线精品视视频播放| 中国国产av一级| 91久久精品国产一区二区成人| 一本一本综合久久| 国产黄色视频一区二区在线观看 | 亚洲国产精品成人综合色| 国产麻豆成人av免费视频| 精品久久久久久成人av| 别揉我奶头 嗯啊视频| 国产色爽女视频免费观看| 伦精品一区二区三区| 国产白丝娇喘喷水9色精品| 天堂中文最新版在线下载 | 99riav亚洲国产免费| 18禁在线无遮挡免费观看视频| 能在线免费看毛片的网站| 欧美xxxx性猛交bbbb| 晚上一个人看的免费电影| 国产亚洲精品久久久com| 禁无遮挡网站| 99热全是精品| 十八禁国产超污无遮挡网站| 亚洲人成网站在线观看播放| 国产精品国产高清国产av| 欧美日韩综合久久久久久| 国产一级毛片七仙女欲春2| 天堂中文最新版在线下载 | 蜜桃亚洲精品一区二区三区| 午夜精品国产一区二区电影 | 黑人高潮一二区| 国产精品一及| 国产精品精品国产色婷婷| 性色avwww在线观看| 男人狂女人下面高潮的视频| 老师上课跳d突然被开到最大视频| 联通29元200g的流量卡| 国产精品1区2区在线观看.| 久久欧美精品欧美久久欧美| 亚洲av.av天堂| 美女xxoo啪啪120秒动态图| 午夜福利视频1000在线观看| 女人被狂操c到高潮| 亚洲三级黄色毛片| 一个人看的www免费观看视频| 1000部很黄的大片| 精华霜和精华液先用哪个| 亚洲熟妇中文字幕五十中出| 岛国在线免费视频观看| 精品无人区乱码1区二区| 在线播放国产精品三级| 国产伦一二天堂av在线观看| 99视频精品全部免费 在线| 亚洲欧美精品专区久久| 国产av不卡久久| 亚洲欧美日韩卡通动漫| 国产美女午夜福利| 亚洲图色成人| 国内精品久久久久精免费| 成人高潮视频无遮挡免费网站| 边亲边吃奶的免费视频| 黄片wwwwww| 免费看美女性在线毛片视频| 夜夜爽天天搞| 可以在线观看的亚洲视频| 亚洲人成网站在线播| 中文字幕久久专区| 老熟妇乱子伦视频在线观看| 22中文网久久字幕| 99国产极品粉嫩在线观看| 免费av毛片视频| 中国国产av一级| 一边摸一边抽搐一进一小说| 亚洲人与动物交配视频| 国产一级毛片在线| 久久这里有精品视频免费| 特级一级黄色大片| 亚洲电影在线观看av| 少妇丰满av| 99久久中文字幕三级久久日本| 亚洲精品粉嫩美女一区| 亚洲欧美日韩卡通动漫| 亚洲成人久久爱视频| 日本在线视频免费播放| 熟妇人妻久久中文字幕3abv| 色哟哟哟哟哟哟| 最新中文字幕久久久久| 久久中文看片网| 国产一区二区亚洲精品在线观看| av在线天堂中文字幕| 亚洲欧美日韩卡通动漫| av女优亚洲男人天堂| 欧美成人免费av一区二区三区| 91精品一卡2卡3卡4卡| 男女啪啪激烈高潮av片| 长腿黑丝高跟| 一级毛片我不卡| 欧美另类亚洲清纯唯美| 亚洲最大成人中文| av在线观看视频网站免费| 男女边吃奶边做爰视频| 亚洲欧美清纯卡通| 久久精品国产亚洲av天美| 亚洲无线观看免费| 中文字幕av成人在线电影| 爱豆传媒免费全集在线观看| 69人妻影院| 午夜精品国产一区二区电影 | 日韩欧美精品免费久久| 久久精品国产亚洲网站| 黄色配什么色好看| 成人国产麻豆网| 我要搜黄色片| 国产麻豆成人av免费视频| 可以在线观看毛片的网站| 亚洲人成网站在线播放欧美日韩| 久久精品国产自在天天线| 国产精品女同一区二区软件| 一级黄片播放器| 97超碰精品成人国产| 永久网站在线| 菩萨蛮人人尽说江南好唐韦庄 | 黄片无遮挡物在线观看| 我要看日韩黄色一级片| 久久99热6这里只有精品| 日日摸夜夜添夜夜添av毛片| 免费观看a级毛片全部| 丰满的人妻完整版| 91久久精品国产一区二区成人| 成年av动漫网址| 在线观看66精品国产| 久久99热这里只有精品18| 一夜夜www| 亚洲久久久久久中文字幕| 两性午夜刺激爽爽歪歪视频在线观看| 少妇人妻一区二区三区视频| 成人午夜高清在线视频| 午夜精品国产一区二区电影 | 日本撒尿小便嘘嘘汇集6| 欧美一级a爱片免费观看看| 小说图片视频综合网站| 色吧在线观看| 中国美女看黄片| 久久久久久久亚洲中文字幕| 国产女主播在线喷水免费视频网站 | 亚洲欧美成人综合另类久久久 | 一区二区三区四区激情视频 | 亚洲激情五月婷婷啪啪| 日韩强制内射视频| 日本黄色片子视频| 日日摸夜夜添夜夜添av毛片| 少妇人妻一区二区三区视频| 免费人成视频x8x8入口观看| 在线播放国产精品三级| 欧美日韩一区二区视频在线观看视频在线 | 亚洲一区高清亚洲精品| 天天一区二区日本电影三级| 国产精品av视频在线免费观看| 天天躁日日操中文字幕| 中文字幕人妻熟人妻熟丝袜美| 人体艺术视频欧美日本| 丰满的人妻完整版| 久久久精品94久久精品| 免费看a级黄色片| 久久久久久久亚洲中文字幕| 欧美性感艳星| 日本免费一区二区三区高清不卡| 国产精品人妻久久久久久| 精品不卡国产一区二区三区| 黄片无遮挡物在线观看| 欧美一区二区亚洲| 人妻久久中文字幕网| 国语自产精品视频在线第100页| 亚洲欧美成人综合另类久久久 | 亚洲av成人av| 简卡轻食公司| 国产成人一区二区在线| 国产高清激情床上av| 毛片女人毛片| kizo精华| 免费观看a级毛片全部| 亚洲五月天丁香| 国产在视频线在精品| 1000部很黄的大片| 国产一区亚洲一区在线观看| 久久久国产成人免费| 99精品在免费线老司机午夜| 人妻夜夜爽99麻豆av| 国产精品一区二区三区四区久久| 亚洲av免费高清在线观看| 在线播放国产精品三级| 亚洲电影在线观看av| 中文精品一卡2卡3卡4更新| 性色avwww在线观看| 午夜久久久久精精品| 91精品一卡2卡3卡4卡| 黄片无遮挡物在线观看| 日日干狠狠操夜夜爽| 欧美成人精品欧美一级黄| 国产午夜精品一二区理论片| 日韩欧美 国产精品| 久久精品综合一区二区三区| 亚洲精品456在线播放app| 少妇高潮的动态图| 少妇丰满av| 一夜夜www| 成人亚洲精品av一区二区| 内射极品少妇av片p| 少妇丰满av| 插阴视频在线观看视频| 久久久a久久爽久久v久久| 三级男女做爰猛烈吃奶摸视频| 久久精品国产自在天天线| 免费搜索国产男女视频| 99久久成人亚洲精品观看| 全区人妻精品视频| 一边亲一边摸免费视频| 欧美色欧美亚洲另类二区| 伊人久久精品亚洲午夜| 精品久久久久久久久亚洲| 夜夜爽天天搞| 乱码一卡2卡4卡精品| 99久久久亚洲精品蜜臀av| 国产精品,欧美在线| 春色校园在线视频观看| 国产成人精品一,二区 | 青春草亚洲视频在线观看| 直男gayav资源| 国产精品一区二区在线观看99 | 看免费成人av毛片| avwww免费| 久久国内精品自在自线图片| 美女被艹到高潮喷水动态| 91午夜精品亚洲一区二区三区| 听说在线观看完整版免费高清| 欧美丝袜亚洲另类| 中国美白少妇内射xxxbb| 日韩欧美一区二区三区在线观看| 乱系列少妇在线播放| 伦理电影大哥的女人| 麻豆国产97在线/欧美| 99热这里只有是精品在线观看| 日本成人三级电影网站| 国产美女午夜福利| 色综合色国产| 波多野结衣高清作品| 欧美丝袜亚洲另类| 免费无遮挡裸体视频| 国产av不卡久久| 婷婷色av中文字幕| 国产老妇女一区| 舔av片在线| 国产在视频线在精品| 国产极品天堂在线| 亚洲婷婷狠狠爱综合网| 国产成人精品婷婷| 一边摸一边抽搐一进一小说| 十八禁国产超污无遮挡网站| 欧美精品一区二区大全| 69人妻影院| 男女那种视频在线观看| 成人毛片a级毛片在线播放| 欧美性猛交╳xxx乱大交人| 国产在视频线在精品| 国内少妇人妻偷人精品xxx网站| 两个人视频免费观看高清| 国产高清三级在线| 黄片无遮挡物在线观看| 午夜福利在线观看吧| 国产亚洲精品av在线| 久久这里只有精品中国| 国产黄色视频一区二区在线观看 | 看免费成人av毛片| 麻豆国产97在线/欧美| 亚洲第一电影网av| 国产亚洲5aaaaa淫片| 99久久精品国产国产毛片| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲内射少妇av| 又爽又黄a免费视频| av免费观看日本| 少妇人妻精品综合一区二区 | 国产高清激情床上av| 欧美色欧美亚洲另类二区| 色哟哟哟哟哟哟| 能在线免费看毛片的网站| 成人高潮视频无遮挡免费网站| 久久精品综合一区二区三区| 国产在视频线在精品| eeuss影院久久| a级毛色黄片| 悠悠久久av| 一本久久中文字幕| 日本熟妇午夜| 最近视频中文字幕2019在线8| 成人美女网站在线观看视频| 久久婷婷人人爽人人干人人爱| 国产69精品久久久久777片| 午夜福利高清视频| 美女cb高潮喷水在线观看| 国产白丝娇喘喷水9色精品| 综合色丁香网| 看黄色毛片网站| 床上黄色一级片| 国产大屁股一区二区在线视频| 国产 一区精品| 狂野欧美白嫩少妇大欣赏| 寂寞人妻少妇视频99o| 国产精品久久久久久av不卡| 国产伦一二天堂av在线观看| 国产黄a三级三级三级人| 精品久久久久久久久久久久久| 美女大奶头视频| 热99re8久久精品国产| 91久久精品电影网| 免费观看的影片在线观看| 在线观看66精品国产| 日本av手机在线免费观看| 在线播放无遮挡| 久久精品综合一区二区三区| 午夜精品一区二区三区免费看| 久久亚洲精品不卡| 亚洲一区高清亚洲精品| 欧美又色又爽又黄视频| 能在线免费观看的黄片| 国产老妇女一区| 精品午夜福利在线看| 中文字幕人妻熟人妻熟丝袜美| 日韩精品有码人妻一区| 国产91av在线免费观看| 国产精品福利在线免费观看| 99热全是精品| 精品人妻偷拍中文字幕| 午夜精品在线福利| 网址你懂的国产日韩在线| 女人十人毛片免费观看3o分钟| av在线亚洲专区| 我要看日韩黄色一级片| 国产精品野战在线观看| 久久婷婷人人爽人人干人人爱| 99热这里只有是精品在线观看| 男女啪啪激烈高潮av片| 国产真实乱freesex| 99久久久亚洲精品蜜臀av| 国内精品宾馆在线| 熟女电影av网| 能在线免费看毛片的网站| 三级男女做爰猛烈吃奶摸视频| 嫩草影院入口| 国产成人午夜福利电影在线观看| 丰满乱子伦码专区| 国内精品久久久久精免费| 爱豆传媒免费全集在线观看| 国产亚洲av片在线观看秒播厂 | av在线播放精品| 日韩国内少妇激情av| 91在线精品国自产拍蜜月| 少妇熟女aⅴ在线视频| 青青草视频在线视频观看| 欧美高清成人免费视频www| 中文字幕熟女人妻在线| 日韩成人伦理影院| 亚洲av一区综合| 成人永久免费在线观看视频| 国产精品女同一区二区软件| 久久久久免费精品人妻一区二区| a级毛片免费高清观看在线播放| 国产精品电影一区二区三区| 中文精品一卡2卡3卡4更新| 精品国内亚洲2022精品成人| 日韩制服骚丝袜av| 国产精品久久久久久久久免| 国产 一区精品| 亚洲不卡免费看| 深夜精品福利| 91精品一卡2卡3卡4卡| 激情 狠狠 欧美| 人妻制服诱惑在线中文字幕| 综合色丁香网| 搞女人的毛片| 日日摸夜夜添夜夜爱| 亚洲经典国产精华液单| 久久综合国产亚洲精品| 久久鲁丝午夜福利片| 亚洲高清免费不卡视频| 久久久久久久久久久免费av| 欧美成人a在线观看| 亚洲国产日韩欧美精品在线观看| 黄色视频,在线免费观看| 搞女人的毛片| 偷拍熟女少妇极品色| 内射极品少妇av片p| 国产精品女同一区二区软件| 国产伦理片在线播放av一区 | 夜夜爽天天搞| av福利片在线观看| 男人的好看免费观看在线视频| 边亲边吃奶的免费视频|