• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向中文社交媒體語(yǔ)料的無(wú)監(jiān)督新詞識(shí)別研究

    2018-05-04 06:46:18黃鍇宇黃德根
    中文信息學(xué)報(bào) 2018年3期
    關(guān)鍵詞:成詞詞串新詞

    張 婧,黃鍇宇,梁 晨,黃德根

    (大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

    0 引言

    社交媒體數(shù)據(jù)承載著大量輿情信息及商業(yè)信息。近年來(lái),面向微博等社交媒體語(yǔ)料的自然語(yǔ)言處理任務(wù)受到廣泛關(guān)注,例如,微博情感分析[1]、命名實(shí)體識(shí)別[2-4]、熱點(diǎn)事件抽取[5]等。此外,還有很多面向微博語(yǔ)料的評(píng)測(cè)任務(wù),例如,COAE2014評(píng)測(cè)任務(wù)中新增加了面向微博的情感新詞發(fā)現(xiàn)任務(wù),NLPCC2015也開(kāi)展了面向微博的中文分詞及詞性標(biāo)注任務(wù)[6]。目前,很多優(yōu)秀的中文分詞系統(tǒng)應(yīng)用在傳統(tǒng)語(yǔ)料(例如新聞、專(zhuān)利)上,已經(jīng)達(dá)到了令人滿(mǎn)意的效果[7-10]。然而,由于用戶(hù)在社交媒體中發(fā)表言論時(shí)通常使用極其隨意的表達(dá)方式,因此,社交媒體語(yǔ)料中包含很多縮略詞、轉(zhuǎn)義詞、諧音詞等新詞,使得現(xiàn)有的很多自然語(yǔ)言處理技術(shù)和工具無(wú)法正常用于社交媒體語(yǔ)料的詞法分析任務(wù)[11]。研究顯示,在中文分詞評(píng)測(cè)中,系統(tǒng)間性能差別最大的是未登錄詞的召回情況[12]。為了提高面向社交媒體語(yǔ)料的中文分詞效果,本文利用大規(guī)模未標(biāo)注的微博語(yǔ)料進(jìn)行新詞識(shí)別研究。

    1 相關(guān)工作

    新詞識(shí)別方法一般分為有監(jiān)督方法和無(wú)監(jiān)督方法。有監(jiān)督方法需要利用大規(guī)模熟語(yǔ)料作為訓(xùn)練語(yǔ)料,但面向社交媒體的熟語(yǔ)料極其匱乏,故無(wú)監(jiān)督方法更適用于面向微博語(yǔ)料的新詞識(shí)別任務(wù)。文獻(xiàn)[13]提出采用信息熵(Information Entropy,IE)與詞法規(guī)則相結(jié)合的無(wú)監(jiān)督方法,識(shí)別微博語(yǔ)料中的新詞,該文獻(xiàn)首先采用詞關(guān)聯(lián)性信息的迭代上下文熵算法獲取候選新詞,再使用詞法信息進(jìn)行過(guò)濾,取得較好的效果。文獻(xiàn)[14]提出Overlap Variety(OV)方法來(lái)解決微博語(yǔ)料中低頻新詞的召回問(wèn)題,OV方法在衡量候選新詞可信度的時(shí)候不單純考慮候選新詞的頻率,而是比較該候選新詞的前后鄰接詞(Accessor Variety,AV)和該候選新詞的覆蓋串的AV值。該篇文獻(xiàn)的實(shí)驗(yàn)表明,OV方法是目前新詞識(shí)別效果最先進(jìn)的方法之一。

    現(xiàn)有的無(wú)監(jiān)督新詞識(shí)別方法大都采用傳統(tǒng)統(tǒng)計(jì)量IE、AV、PMI(Point-wise Mutual Information)等提取大規(guī)模未標(biāo)注語(yǔ)料中的詞碎片的分布信息。為了更加有效地使用已有的統(tǒng)計(jì)量,本文利用發(fā)展語(yǔ)料,分析了傳統(tǒng)統(tǒng)計(jì)量對(duì)有意義的二元詞串和無(wú)意義的二元詞串的區(qū)分效果,并選擇最具有區(qū)分力度的統(tǒng)計(jì)量對(duì)語(yǔ)料中的詞碎片進(jìn)行考量,獲得候選新詞。

    除了以上傳統(tǒng)統(tǒng)計(jì)量之外,詞向量的提出為無(wú)監(jiān)督新詞識(shí)別方法提供了有利的參考信息。文獻(xiàn)[15]首先提出了分布式詞表示方法,又稱(chēng)詞向量(word embedding)。通過(guò)大規(guī)模語(yǔ)料訓(xùn)練得到的詞向量既包含詞語(yǔ)的語(yǔ)義信息,又包含詞語(yǔ)的句法信息。文獻(xiàn)[16]提出了兩種訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)模型CBOW和Skip-gram,該方法采用低維空間表示法,不但解決了維數(shù)災(zāi)難問(wèn)題,而且挖掘了詞語(yǔ)之間的關(guān)聯(lián)屬性,從而提高了詞語(yǔ)表示在語(yǔ)義上的準(zhǔn)確度。CBOW模型是在已知上下文的基礎(chǔ)上預(yù)測(cè)當(dāng)前詞,而Skip-gram模型恰好相反,是在已知當(dāng)前詞的基礎(chǔ)上預(yù)測(cè)其上下文。

    目前,關(guān)于詞向量的研究備受關(guān)注。文獻(xiàn)[17]提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)訓(xùn)練詞向量,該文獻(xiàn)的實(shí)驗(yàn)證明,在訓(xùn)練詞向量的過(guò)程中,該方法能結(jié)合局部信息和全局信息更好地獲取詞的語(yǔ)義信息。文獻(xiàn)[18]提出了基于字向量和詞向量相結(jié)合的方式獲得詞向量,該文獻(xiàn)表明,字詞結(jié)合的詞向量比傳統(tǒng)詞向量涵蓋了更有效的語(yǔ)義及句法信息。

    本文結(jié)合上述的詞向量技術(shù)和傳統(tǒng)統(tǒng)計(jì)量,提出了一種新的無(wú)監(jiān)督新詞識(shí)別方法。首先,使用PMI方法獲取候選新詞;其次,采用多種策略在大規(guī)模未標(biāo)注的微博語(yǔ)料上訓(xùn)練得到字向量和詞向量;再根據(jù)訓(xùn)練得到的字向量和詞向量構(gòu)建成詞概率較低的弱成詞詞串集合,利用該集合對(duì)候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面進(jìn)行過(guò)濾,以提高新詞識(shí)別效果。此外,本文還重現(xiàn)了目前新詞識(shí)別效果較好的Overlap Variety方法作為本文的對(duì)比實(shí)驗(yàn)。

    2 新詞定義及其分析

    2.1 新詞定義

    新詞,又稱(chēng)未登錄詞,目前沒(méi)有統(tǒng)一的界定。文獻(xiàn)[19]將新詞定義為沒(méi)有在詞典中出現(xiàn)的詞;文獻(xiàn)[20]則認(rèn)為,新詞是指隨時(shí)代發(fā)展新出現(xiàn)的詞或舊詞新用的詞。本文所識(shí)別的新詞與傳統(tǒng)定義的新詞不同,不是單純指分詞系統(tǒng)詞典中不存在的詞,而是指分詞語(yǔ)料標(biāo)準(zhǔn)集中存在的,但分詞系統(tǒng)標(biāo)注結(jié)果中不存在的詞。具體定義如下:

    GSS(gold standard set): 表示人工標(biāo)注的標(biāo)準(zhǔn)分詞集合。

    SRS(segmented results set): 表示使用分詞工具進(jìn)行分詞后得到的分詞集合。

    本文對(duì)新詞的定義: New word={w,w∈GSS 且 w?SRS}。

    這樣定義的原因有兩點(diǎn): 第一,該定義所指的新詞一部分屬于分詞系統(tǒng)所使用的詞典中不包含的詞,記為NWset1;另一部分屬于系統(tǒng)詞典中包括,但分詞系統(tǒng)未正確切分的詞,記為NWset2。這兩類(lèi)新詞對(duì)于提高分詞系統(tǒng)的性能都具有重要的作用,NWset1可以豐富現(xiàn)有詞典的詞匯,而NWset2可以完善詞典中已有的詞語(yǔ)的成詞代價(jià)。第二,這樣定義新詞不局限于特定的某個(gè)詞典,因而即使對(duì)于詞典差異很大的分詞系統(tǒng),我們的定義也同樣適用。

    2.2 新詞分析

    我們根據(jù)《北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范》[21]人工標(biāo)注了一萬(wàn)條微博語(yǔ)料作為發(fā)展語(yǔ)料,實(shí)驗(yàn)數(shù)據(jù)部分對(duì)發(fā)展語(yǔ)料的標(biāo)注過(guò)程進(jìn)行了詳細(xì)介紹。經(jīng)過(guò)統(tǒng)計(jì),發(fā)展語(yǔ)料標(biāo)準(zhǔn)集中的總詞條數(shù)(不同詞個(gè)數(shù))為46 112,其中新詞個(gè)數(shù)為22 957,新詞比例為49.79%,可見(jiàn)微博語(yǔ)料中包含大量新詞。此外,我們對(duì)發(fā)展語(yǔ)料中新詞的詞長(zhǎng)分布進(jìn)行了分析,分析結(jié)果如圖1所示。

    圖1表明,發(fā)展語(yǔ)料中的新詞主要由二元新詞和三元新詞構(gòu)成,二者之和占新詞總數(shù)的92%,遠(yuǎn)遠(yuǎn)超過(guò)其他新詞的比例。因此,本文重點(diǎn)識(shí)別微博語(yǔ)料中詞長(zhǎng)不大于3的新詞。

    圖1 發(fā)展語(yǔ)料中新詞的詞長(zhǎng)分布

    3 理論基礎(chǔ)

    3.1 詞向量

    詞向量的提出使得在無(wú)監(jiān)督的條件下獲得語(yǔ)料中詞語(yǔ)的語(yǔ)義信息成為可能。由于詞向量模型中基于softmax方法的Skip-gram模型更適用于低頻詞,而微博語(yǔ)料中新詞的頻率普遍偏低(經(jīng)統(tǒng)計(jì),規(guī)模為一萬(wàn)條微博的發(fā)展語(yǔ)料中,頻率為1的新詞占總詞條的69%)。因此本文使用基于softmax方法的Skip-gram模型訓(xùn)練得到詞向量,訓(xùn)練參數(shù)為: 維度=200,窗口=9,最低詞頻=1。實(shí)驗(yàn)中我們收集了35萬(wàn)條未標(biāo)注的微博語(yǔ)料用來(lái)訓(xùn)練詞向量。通過(guò)采用不同的策略,訓(xùn)練得到以下三種不同的詞向量,用于構(gòu)建候選新詞過(guò)濾集合。三種詞向量分別為: 詞向量WE,字向量CE和含位置信息的字向量LCE,為了敘述方便,后文統(tǒng)稱(chēng)為詞向量。

    詞向量: 使用Nihao分詞工具[8]對(duì)未標(biāo)注的微博語(yǔ)料進(jìn)行預(yù)分詞,將預(yù)分詞語(yǔ)料中的詞及詞碎片作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到詞向量,記為WE(word embedding)。

    字向量: 將未標(biāo)注的微博語(yǔ)料按字切分,將字作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到字向量,記為CE(character embedding)。

    含位置信息的字向量: 由于中文中字的歧義現(xiàn)象比較嚴(yán)重,為了獲得更加有效的字向量,我們使用分詞工具對(duì)大規(guī)模未標(biāo)注的微博語(yǔ)料進(jìn)行預(yù)分詞后,根據(jù)字在詞語(yǔ)中的位置對(duì)字進(jìn)行細(xì)分類(lèi)。本文根據(jù)字在詞中的位置,將字分為四個(gè)類(lèi)別: B表示該字出現(xiàn)在所在詞語(yǔ)的開(kāi)始位置;E表示該字出現(xiàn)在所在詞語(yǔ)的結(jié)束位置;M表示該字出現(xiàn)在所在詞語(yǔ)的中間位置,即非開(kāi)始位置和結(jié)束位置;S表示該字獨(dú)立成詞或表示該字為詞碎片。將含有分類(lèi)信息的字作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到包含位置信息的字向量,記為L(zhǎng)CE(location information based character embedding)。

    3.2 傳統(tǒng)統(tǒng)計(jì)量

    在很多自然語(yǔ)言處理任務(wù)中,都會(huì)使用前后鄰接詞、信息熵、點(diǎn)互信息等統(tǒng)計(jì)量提取重要參考信息,本節(jié)將對(duì)這三種統(tǒng)計(jì)量在新詞識(shí)別任務(wù)中的使用方法進(jìn)行詳細(xì)介紹。

    3.2.1 前后鄰接詞(Accessor Variety,AV)

    文獻(xiàn)[22]首次提出Accessor Variety的概念,其核心思想是若某個(gè)詞串w是有意義的,那么它可以適用于多種不同的語(yǔ)言環(huán)境,即,如果一個(gè)詞串出現(xiàn)在不同的語(yǔ)言環(huán)境下,那它可能是有意義的。在新詞識(shí)別任務(wù)中,令Lav(w)表示與詞串w直接相鄰的不同的前一個(gè)字的個(gè)數(shù),Rav(w)表示與詞串w直接相鄰的不同的后一個(gè)字的個(gè)數(shù)。Lav(w)和Rav(w)這兩個(gè)值可以用來(lái)衡量詞串w對(duì)不同語(yǔ)境的適應(yīng)能力。詞串w的AV值定義如式(1)所示。

    gav(w)=logAV(w)

    (1)

    其中,AV(w)=min{Lav(w),Rav(w)}。

    3.2.2 信息熵(Information Entropy,IE)

    信息熵是信息論的基本概念,又稱(chēng)熵,可以衡量一個(gè)隨機(jī)變量的不確定性。一個(gè)隨機(jī)變量的信息熵越大,它的不確定性就越大,那么,正確估計(jì)其值的可能性就越小。在新詞識(shí)別任務(wù)中,我們利用信息熵衡量語(yǔ)料中某一詞串的所有前鄰接詞(或后鄰接詞)分布的不確定性。信息熵越小說(shuō)明詞串的前鄰接詞(或后鄰接詞)分布越集中,這樣的詞串越有可能與其前鄰接詞(或后鄰接詞)合并形成候選新詞;反之,說(shuō)明詞串的前鄰接詞(或后鄰接詞)分布的越分散,該詞串獨(dú)立成詞的可能性越大。我們用左信息熵LIE計(jì)算詞串與其前鄰接詞的信息熵,用右信息熵RIE計(jì)算詞串與其后鄰接詞的信息熵,計(jì)算如式(2)所示。

    (2)

    (3)

    其中,w為當(dāng)前考察的詞串,m為w的前鄰接詞的總數(shù),n為w的后鄰接詞的總數(shù),lwi為w的第i個(gè)前鄰接詞,rwi為w的第i個(gè)后鄰接詞。

    3.2.3 點(diǎn)互信息(Point-wiseMutualInformation,PMI)

    點(diǎn)互信息源于信息論中的互信息,是一種用來(lái)度量關(guān)聯(lián)性的統(tǒng)計(jì)量。在新詞識(shí)別任務(wù)中,通常使用PMI來(lái)衡量詞碎片之間的共現(xiàn)程度,其具體的計(jì)算如式(4)所示。

    (4)

    其中,x、y表示語(yǔ)料中的詞或詞碎片,P(x,y)表示x和y作為相鄰詞串同時(shí)出現(xiàn)的頻率,P(x)、P(y)分別表示x和y在整個(gè)語(yǔ)料中出現(xiàn)的頻率。

    4 新詞識(shí)別算法

    在新詞識(shí)別過(guò)程中,由于二元新詞的構(gòu)成形式(單字+單字)相對(duì)于三元新詞的構(gòu)成形式(單字+二字、二字+單字、單字+單字+單字)較為簡(jiǎn)單,因此,我們優(yōu)先識(shí)別二元新詞,根據(jù)過(guò)濾后的二元新詞對(duì)語(yǔ)料進(jìn)行自動(dòng)修正,然后進(jìn)行二次迭代,識(shí)別三元新詞。每次迭代過(guò)程中,將新詞識(shí)別任務(wù)分為候選新詞識(shí)別和候選新詞過(guò)濾兩個(gè)子任務(wù),下面分別詳細(xì)介紹這兩個(gè)子任務(wù)的處理方法。

    4.1 候選新詞識(shí)別

    本文首先利用發(fā)展語(yǔ)料分析現(xiàn)有統(tǒng)計(jì)量(AV,IE,PMI)對(duì)預(yù)分詞結(jié)果中的單字詞碎片的區(qū)分效果,根據(jù)分析結(jié)果選擇區(qū)分效果最為明顯的統(tǒng)計(jì)量進(jìn)行候選新詞識(shí)別。由于二元新詞的識(shí)別結(jié)果將直接影響到三元新詞的識(shí)別,所以,在此分析過(guò)程中,我們主要針對(duì)連續(xù)的兩個(gè)單字組成的二元詞串進(jìn)行分析。分析方法及結(jié)果如下:

    圖2 傳統(tǒng)統(tǒng)計(jì)量對(duì)二元詞串的區(qū)分效果

    分析方法: 根據(jù)發(fā)展語(yǔ)料的預(yù)分詞結(jié)果(SRS集合)和標(biāo)準(zhǔn)集(GSS集合)獲取有意義的二元詞串和無(wú)意義的二元詞串,分別計(jì)算每個(gè)二元詞串的PMI值和二元詞串中第一個(gè)字的RIE值、RAV值,以及第二個(gè)字的LIE值、LAV值。每個(gè)統(tǒng)計(jì)量取不同值時(shí)所包含的二元詞串的比例如圖2所示。

    詞串的獲取: 抽取發(fā)展語(yǔ)料的SRS集合中所有連續(xù)的兩個(gè)長(zhǎng)度為1的詞串組成的二元詞串,記作SetAll。

    有意義的詞串: 對(duì)于SetAll中的詞串bigramToken,如果發(fā)展語(yǔ)料的GSS集合中存在該詞串bigramToken,則bigramToken為有意義的詞串。

    無(wú)意義的詞串: 對(duì)于SetAll中的詞串bigramToken,如果不在發(fā)展語(yǔ)料的GSS集合中,則bigramToken為無(wú)意義的詞串。

    圖2的數(shù)據(jù)表明,IE(包括LIE和RIE)和AV(包括LAV和RAV)對(duì)有意義和無(wú)意義的二字詞串的區(qū)分度不大。即,無(wú)論IE和AV的閾值定為多少,識(shí)別結(jié)果中的有意義的詞串和無(wú)意義的詞串的比例都差不多;而PMI對(duì)有意義和無(wú)意義的詞串具有明顯的區(qū)分效果,PMI值大于-4的二字詞串中,有意義的詞串的比重明顯大于無(wú)意義的詞串。因此,本文選擇PMI對(duì)候選新詞進(jìn)行識(shí)別。在第一次迭代進(jìn)行二元候選新詞識(shí)別過(guò)程中,PMI閾值設(shè)為-4,即選擇PMI值大于-4的二元詞串作為候選新詞。

    4.2 候選新詞過(guò)濾

    現(xiàn)有的候選新詞的過(guò)濾方法一般是基于規(guī)則或詞典的方法,例如,詞性規(guī)則和停用詞詞典。這些方法的過(guò)濾效果較為明顯,但通用性較差。本文先利用詞向量構(gòu)建弱成詞詞串集合,然后再利用該集合對(duì)候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面進(jìn)行過(guò)濾。由于詞向量可以根據(jù)不同的目標(biāo)語(yǔ)料訓(xùn)練得到,因此,該方法不局限于特定的語(yǔ)料,通用性較好。

    本文所選的弱成詞詞串的功能與停用詞的功能類(lèi)似(即與其他詞串合并成為詞語(yǔ)的能力較差),但弱成詞詞串不同于停用詞,二者主要有兩點(diǎn)不同: 第一,停用詞中包含詞長(zhǎng)大于1的詞語(yǔ),而我們構(gòu)建的弱成詞詞串只包含長(zhǎng)度為1的字符;第二,停用詞不包含位置信息,而弱成詞詞串包含位置信息。

    構(gòu)建弱成詞詞串集合時(shí),我們選擇成詞能力較差的高頻單字詞及標(biāo)點(diǎn)作為種子集合。該種子集合共包含11個(gè)字符: {“我”,“是”,“的”,“了”,“在”,“。”,“,”,“、”,“;”,“!”,“?”}。然后利用詞向量計(jì)算當(dāng)前詞與種子集合中詞的相似度,以此為依據(jù)擴(kuò)展種子集合,經(jīng)過(guò)T次迭代進(jìn)而得到弱成詞詞串集合,本文實(shí)驗(yàn)中,T=3。詞與集合的相似度計(jì)算公式如式(5)所示。利用詞向量和種子集合構(gòu)建弱成詞詞串集合的算法如算法1所示。

    (5)

    算法1:弱成詞詞串集合的構(gòu)建算法輸入:詞向量字典WEDictionary、種子集合SeedSet、預(yù)分詞語(yǔ)料segCorpus輸出:弱成詞詞串集合L1.foriterator=1toTdoL2. tokenSim=[] //用于存放詞和集合的相似度L3. fortokeninsegCorpusdoL4. iftoken的長(zhǎng)度等于1thenL5. 獲取包含該token的詞向量L6. forwordinSeedSetdoL7. 獲取word的詞向量L8. endforL9. 根據(jù)式(5)計(jì)算token和SeedSet的相似度,將結(jié)果保存到tokenSim中L10 endifL11. endforL12. 將tokenSim中的token按照其相似度值從大到小排序,取TopM的token加入SeedSet中L13.endfor

    構(gòu)建好弱成詞詞串集合后,從候選新詞的內(nèi)部構(gòu)成和外部環(huán)境兩個(gè)方面對(duì)候選新詞進(jìn)行過(guò)濾。從候選新詞的內(nèi)部構(gòu)成上對(duì)其進(jìn)行過(guò)濾時(shí),利用弱成詞詞串集合判斷構(gòu)成候選新詞的詞碎片的成詞能力,如果構(gòu)成候選新詞的任一詞碎片的成詞能力較弱,則該候選新詞會(huì)被過(guò)濾掉;從候選新詞的外部環(huán)境上對(duì)其進(jìn)行過(guò)濾時(shí),如果該候選新詞的前鄰接詞或后鄰接詞中包含成詞能力較弱的詞串,說(shuō)明該候選新詞的外部環(huán)境較為穩(wěn)定,則該候選新詞不會(huì)被過(guò)濾掉,反之,該候選新詞會(huì)被過(guò)濾掉。具體如算法2所示。

    算法2:候選新詞過(guò)濾算法輸入:詞向量詞典WEDictionary、弱成詞詞串集合AntiWordSet、候選新詞NWCandidateSet、預(yù)分詞語(yǔ)料segCorpus輸出:過(guò)濾后的候選新詞FilteredNW//從候選新詞的內(nèi)部構(gòu)成上對(duì)其進(jìn)行過(guò)濾:L1. forcandidate=wiwi+1inNWCandidateSetdoL2. 計(jì)算AS1=AvgSim(wi,AntiWordSetM)和AS2=AvgSim(wi+1,AntiWordSetM)L3. ifAS1大于閾值SIMorAS2大于閾值SIMthen將candidate過(guò)濾掉L4. endfor//從候選新詞的外部環(huán)境上對(duì)其進(jìn)行過(guò)濾:L5. forcandidate=wiwi+1inNWCandidateSetdoL6. 獲取candidate在segCorpus中的上下文contextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cL7. 將所有contextStr加入到candidate的上下文集合contextStrSet中L8. environmentFlag=0L9. forcontextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cincontextStrSetdoL10. 計(jì)算prefixContext=AvgSim(wj,AntiWordSetM),i-c≤j≤i-1L11. 計(jì)算suffixContext=AvgSim(wj,AntiWordSetM),i+2≤j≤i+1+cL12. ifprefixContext大于閾值SIMorsuffixContext大于閾值SIMthenenvironmentFlag=1L13. endforL14. ifenvironmentFlag==0then過(guò)濾該候選新詞candidateL15.endfor

    表1 弱成詞詞串示例

    在構(gòu)建弱成詞詞串集合的過(guò)程中,本文經(jīng)過(guò)T=3次迭代,經(jīng)過(guò)多次實(shí)驗(yàn),當(dāng)弱成詞詞串集合包含170個(gè)詞串時(shí),實(shí)驗(yàn)結(jié)果達(dá)到最優(yōu)。最終,獲得的弱成詞詞串集合包括120個(gè)標(biāo)點(diǎn)和50個(gè)字符。表1是弱成詞詞串集合中包含的部分標(biāo)點(diǎn)和字符。表中的標(biāo)點(diǎn)和字符后面的B、M、E、S表示該字符的位置。

    5 實(shí)驗(yàn)及實(shí)驗(yàn)結(jié)果

    5.1 實(shí)驗(yàn)語(yǔ)料

    未標(biāo)注語(yǔ)料: 為了獲得盡可能豐富的詞串信息,我們收集了2011~2015年近35萬(wàn)條未標(biāo)注的微博語(yǔ)料,預(yù)分詞后,用于訓(xùn)練詞向量以及計(jì)算詞串的IE、AV、PMI等信息。

    測(cè)試語(yǔ)料: 使用NLPCC2015年的面向微博語(yǔ)料的中文分詞評(píng)測(cè)任務(wù)的訓(xùn)練語(yǔ)料作為本實(shí)驗(yàn)的測(cè)試語(yǔ)料,語(yǔ)料規(guī)模為一萬(wàn)條微博[6]。

    發(fā)展語(yǔ)料: 為了在完全不參考測(cè)試語(yǔ)料的情況下對(duì)本文的方法進(jìn)行調(diào)參,我們根據(jù)《北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范》[21]人工標(biāo)注了一萬(wàn)條微博作為發(fā)展語(yǔ)料。為了確保人工標(biāo)注的一致性,我們隨機(jī)選取500條微博讓兩名標(biāo)注人員(標(biāo)注人員A和標(biāo)注人員B)對(duì)其進(jìn)行標(biāo)注,然后對(duì)比兩人的標(biāo)注結(jié)果,針對(duì)不一致的標(biāo)注結(jié)果進(jìn)行討論和修改,直到標(biāo)注的一致性達(dá)到一定的Kappa值[23]。因Kappa值考量了標(biāo)注人員隨機(jī)標(biāo)注的可能性,故它比一般的百分比計(jì)算方法更具有說(shuō)服性,其計(jì)算如式(6)所示。

    標(biāo)注人員的標(biāo)注任務(wù)是在預(yù)分詞的基礎(chǔ)上進(jìn)行的,假設(shè)預(yù)分詞結(jié)果為:W1W2...Wi...Wn,標(biāo)注人員是在原有詞串的間隔處進(jìn)行操作。如果選擇將Wi與Wi+1合并,標(biāo)注者在Wi與Wi+1之間的標(biāo)記為yes(記為下標(biāo)y),反之,如果不合并,則此處的標(biāo)記為no(記為下標(biāo)n)。根據(jù)兩名標(biāo)注人員的標(biāo)記結(jié)果,最后計(jì)算得到的kappa值為93.55%,這說(shuō)明標(biāo)注結(jié)果已經(jīng)達(dá)到了較高的一致性,因此,標(biāo)注人員標(biāo)注的發(fā)展語(yǔ)料是可靠的。

    其中,P(A)表示兩名標(biāo)注人員實(shí)際標(biāo)注一致的概率;P(e)表示兩名標(biāo)注人員隨機(jī)標(biāo)注一致的概率;C(AyBy)表示兩名標(biāo)注人員在對(duì)應(yīng)相同的地方都選擇合并的操作數(shù);C(AnBn)表示兩名標(biāo)注人員在對(duì)應(yīng)相同的地方都選擇不合并的操作數(shù),因預(yù)分詞結(jié)果中很多地方都不需要合并,且我們更關(guān)注兩名標(biāo)注人員同時(shí)選擇合并的情況。因此,在計(jì)算Kappa時(shí),兩名標(biāo)注人員都未修改的地方不予考慮,即C(AnBn)=0;Count表示被任意一名標(biāo)注人員修改過(guò)的地方的總數(shù);P(Ay)表示標(biāo)注人員A標(biāo)注成yes的概率,即標(biāo)注人員A標(biāo)成yes的操作數(shù)除以標(biāo)注人員A總的操作數(shù),式(8)中的其他P(*)表示的意思類(lèi)似于P(Ay)。

    5.2 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

    5.2.1 新詞識(shí)別結(jié)果

    實(shí)驗(yàn)過(guò)程中,我們首先識(shí)別由兩個(gè)單字詞碎片組成的詞串,然后進(jìn)行二次迭代,獲得三元新詞。為了檢驗(yàn)本文的方法,我們進(jìn)行了如下對(duì)比實(shí)驗(yàn),二元新詞的識(shí)別結(jié)果如表2所示。

    表2 二元新詞識(shí)別結(jié)果

    Baseline: 利用PMI識(shí)別預(yù)分詞語(yǔ)料中的二元新詞,其中PMI的閾值設(shè)定為-4;

    Baseline+WE: 采用Baseline的方法獲得候選新詞,使用基于詞向量WE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;

    Baseline+CE: 采用Baseline的方法獲得候選新詞,使用基于字向量CE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;

    Baseline+LCE: 采用Baseline的方法獲得候選新詞,使用基于含有位置信息的字向量LCE構(gòu)建的弱成詞詞串集合對(duì)候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過(guò)濾;

    ExperimentX+External: 表示在實(shí)驗(yàn)ExperimentX的基礎(chǔ)上,從外部環(huán)境方面對(duì)候選新詞進(jìn)一步進(jìn)行過(guò)濾,其中上下文窗口c的取值為1的實(shí)驗(yàn)效果最佳;

    OverlapVariety: 為了將本文提出的方法和現(xiàn)有優(yōu)秀的方法進(jìn)行對(duì)比,我們重現(xiàn)了文獻(xiàn)[14]提出的OverlapVariety方法。

    數(shù)據(jù)顯示,單純從內(nèi)部構(gòu)成方面對(duì)候選新詞過(guò)濾的實(shí)驗(yàn)中,LCE的過(guò)濾效果最為明顯,比基線系統(tǒng)的F值提高了3.28%,比Overlap Variety方法提高了1.43%;從外部環(huán)境對(duì)候選新詞過(guò)濾后,F(xiàn)值得到進(jìn)一步提高,最佳結(jié)果比基線系統(tǒng)提高了6.75%。實(shí)驗(yàn)表明,本文利用含有位置信息的字向量構(gòu)建的弱成詞詞串集合能有效過(guò)濾二元候選新詞中的噪音詞串。

    根據(jù)二元新詞的識(shí)別結(jié)果,將預(yù)分詞語(yǔ)料中的二元新詞進(jìn)行合并,然后進(jìn)行二次迭代,進(jìn)一步識(shí)別語(yǔ)料中的三元新詞。二次迭代過(guò)程中,獲取三元候選新詞時(shí),同樣采用PMI方法。利用發(fā)展語(yǔ)料調(diào)整PMI閾值時(shí),PMI閾值對(duì)新詞識(shí)別結(jié)果的影響如圖3所示。

    由圖3可見(jiàn),二次迭代的PMI閾值為2時(shí),發(fā)展語(yǔ)料中新詞識(shí)別結(jié)果的F值達(dá)到峰值。因此,本文二次迭代時(shí)設(shè)定PMI閾值為2。最終發(fā)展語(yǔ)料中二元新詞和三元新詞的識(shí)別結(jié)果如表3的第一行數(shù)據(jù)所示;測(cè)試語(yǔ)料的識(shí)別結(jié)果如表3的第二行數(shù)據(jù)所示。

    實(shí)驗(yàn)結(jié)果表明,測(cè)試語(yǔ)料和發(fā)展語(yǔ)料的識(shí)別結(jié)果比較接近,說(shuō)明本文提出的方法能夠有效識(shí)別二元和三元新詞,并對(duì)候選新詞中的噪音進(jìn)行有效過(guò)濾;同時(shí),該結(jié)果也進(jìn)一步證明了我們標(biāo)注的發(fā)展語(yǔ)料的可信度。

    表3 二元新詞和三元新詞的識(shí)別結(jié)果

    此外,我們通過(guò)改變未標(biāo)注語(yǔ)料的大小,比較了語(yǔ)料規(guī)模對(duì)新詞識(shí)別結(jié)果的影響,實(shí)驗(yàn)結(jié)果如圖4所示。實(shí)驗(yàn)表明語(yǔ)料規(guī)模從1萬(wàn)條微博(只包含發(fā)展語(yǔ)料)到35萬(wàn)條微博逐漸擴(kuò)大時(shí),召回率逐漸降低,精確率和F值不斷提高。當(dāng)語(yǔ)料規(guī)模達(dá)到15萬(wàn)條微博后,實(shí)驗(yàn)結(jié)果趨于平穩(wěn)。

    5.2.2 新詞識(shí)別結(jié)果分析

    我們最終識(shí)別到的新詞包括醫(yī)學(xué)、科技、金融、生物、影視娛樂(lè)等多種領(lǐng)域的術(shù)語(yǔ);還有人名、地名、品牌名等命名實(shí)體;此外,還有包括字母、數(shù)字與漢字組合成的新詞,以及包含錯(cuò)字的新詞。表4是我們識(shí)別到的新詞的舉例。

    圖4 語(yǔ)料規(guī)模對(duì)新詞識(shí)別結(jié)果的影響

    表4 新詞示例

    雖然本文提出的方法能夠識(shí)別很多領(lǐng)域的新詞,但該方法仍存在缺點(diǎn)。該方法對(duì)四字詞的識(shí)別效果不佳,例如我們識(shí)別出的新詞中還包括“心如止”(正確為: 心如止水)、“語(yǔ)道破”(正確為: 一語(yǔ)道破);此外,新詞識(shí)別結(jié)果中除了上述識(shí)別不完整的四字詞外,還有類(lèi)似于“負(fù)全責(zé)”、“請(qǐng)接力”、“取決于”、“隱藏著”等包含多余成分的錯(cuò)誤詞語(yǔ)。因此,要獲得更加高質(zhì)量的新詞,還需要很多工作和努力。

    6 總結(jié)和展望

    本文是面向中文社交媒體語(yǔ)料的新詞識(shí)別研究。這一研究任務(wù)的難點(diǎn)在于,社交媒體語(yǔ)料中沒(méi)有成熟的訓(xùn)練語(yǔ)料,無(wú)法通過(guò)有監(jiān)督的方法訓(xùn)練得到可靠的新詞識(shí)別模型。因此,本文采用基于PMI和多種策略的詞向量的無(wú)監(jiān)督方法進(jìn)行新詞識(shí)別和過(guò)濾。實(shí)驗(yàn)結(jié)果表明,本文利用詞向量構(gòu)建的弱成詞詞串集合對(duì)候選新詞進(jìn)行了有效過(guò)濾,新詞識(shí)別效果明顯優(yōu)于基線系統(tǒng)和現(xiàn)有的最佳的無(wú)監(jiān)督新詞識(shí)別方法之一Overlap Variety方法。此外,為了分析傳統(tǒng)統(tǒng)計(jì)量PMI、AV、IE等方法的識(shí)別效果,本文根據(jù)《北大分詞語(yǔ)料標(biāo)注規(guī)則》標(biāo)注了面向社交媒體語(yǔ)料的分詞語(yǔ)料,作為實(shí)驗(yàn)的發(fā)展語(yǔ)料,發(fā)展語(yǔ)料的實(shí)驗(yàn)結(jié)果與最終測(cè)試語(yǔ)料的實(shí)驗(yàn)結(jié)果較為接近,證明本文標(biāo)注的發(fā)展語(yǔ)料具有較高的可靠性。

    盡管本文所提出方法的識(shí)別結(jié)果得到了明顯提高,但最終的F值還沒(méi)有達(dá)到60%,因此還存在很大的提升空間。下一步,我們將在此基礎(chǔ)上,進(jìn)一步提高新詞識(shí)別的精確度,利用自學(xué)習(xí)方法逐漸擴(kuò)大面向社交媒體的成熟語(yǔ)料,為有監(jiān)督方法提供可靠的訓(xùn)練語(yǔ)料。

    [1] Nguyen T H, Shirai K. Topic modeling based sentiment analysis on social media for stock market prediction[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 1354-1364.

    [2] Liu X, Zhou M, Wei F, et al. Joint inference of named entity recognition and normalization for tweets[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. 2012: 526-535.

    [3] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings[C]//Proceedings of the 2015 Conference on EMNLP of the Association for Computational Linguistics. Lisbon, Portugal, 2015: 548-554.

    [4] Li C, Liu Y. Improving Named Entity Recognition in Tweets via Detecting Non-Standard Words[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 929-938.

    [5] Dong G, Li R, Yang W, et al. Microblog burst keywords detection based on social trust and dynamics model[J]. Chinese Journal of Electronics, 2014, 23(4): 695-700.

    [6] Qiu X, Qian P, Yin L, et al. Overview of the NLPCC 2015 Shared Task: Chinese Word Segmentation and POS Tagging for Micro-blog Texts[M].Natural Language Processing and Chinese Computing. Springer International Publishing, 2015: 541-549.

    [7] Liu Y, Zhang Y, Che W, et al. Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations[C]//Proceedings of EMNLP. 2014: 864-874.

    [8] Degen H, Deqin T. Context information and fragments based cross-domain word segmentation[J]. China Communications, 2012, 9(3): 49-57.

    [9] Li Z, Sun M. Punctuation as implicit annotations for Chinese word segmentation[J]. Computational Linguistics, 2009, 35(4): 505-512.

    [10] Tseng H, Chang P, Andrew G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]//Proceedings of the 4th SIGHAN workshop on Chinese language Processing. 2005: 168-171.

    [11] Eisenstein J. What to do about bad language on the internet[C]//Proceedings of HLT-NAACL. 2013: 359-369.

    [12] Sproat R, Emerson T. The first international Chinese word segmentation bakeoff[C]//Proceedings of the 2nd SIGHAN workshop on Chinese language processing. Association for Computational Linguistics, 2003: 133-143.

    [13] 霍帥, 張敏, 劉奕群, 等. 基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J]. 模式識(shí)別與人工智能, 2014, 27(2): 141-145.

    [14] Ye Y, Wu Q, Li Y, et al. Unknown Chinese word extraction based on variety of overlapping strings[J]. Information Processing & Management, 2013, 49(2): 497-512.

    [15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Cognitive modeling, 1988, 5(3): 1.

    [16] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th NIPS. 2013: 3111-3119.

    [17] Huang E H, Socher R, Manning C D, et al. Improving word representations via global context and multiple word prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. Association for Computational Linguistics, 2012: 873-882.

    [18] Chen X, Xu L, Liu Z, et al. Joint learning of character and word embeddings[C]//Proceedings of IJCAI. 2015: 1236-1242.

    [19] Chen K J, Ma W Y. Unknown word extraction for Chinese documents[C]//Proceedings of the 19th international conference on Computational linguistics. Association for Computational Linguistics, 2002: 1-7.

    [20] 鄒綱, 劉洋, 劉群, 等. 面向 Internet 的中文新詞語(yǔ)檢測(cè)[J]. 中文信息學(xué)報(bào), 2004, 18(6): 2-10.

    [21] 俞士汶, 段慧明, 朱學(xué)鋒, 等. 北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范[J]. 中文信息學(xué)報(bào), 2002, 16(5): 51-66.

    [22] Feng H, Chen K, Deng X, et al. Accessor variety criteria for Chinese word extraction[J]. Computational Linguistics, 2004, 30(1): 75-93.

    [23] Carletta J. Assessing agreement on classification tasks: the kappa statistic[J]. Computational linguistics, 1996, 22(2): 249-254.

    猜你喜歡
    成詞詞串新詞
    靈動(dòng)的詞串,寫(xiě)話(huà)的紐帶
    《微群新詞》選刊之十四
    報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
    新聞傳播(2018年15期)2018-09-18 03:19:58
    “湊合”成詞及詞義演變考.
    先秦形容詞性反義并列詞語(yǔ)成詞規(guī)律考
    再論“睡覺(jué)”成詞的時(shí)代
    東方教育(2017年14期)2017-09-25 16:53:37
    “企業(yè)”的成詞及詞義內(nèi)涵考釋
    美語(yǔ)口語(yǔ)詞串You Know What探析
    小議網(wǎng)絡(luò)新詞“周邊”
    外教新詞堂
    悠悠久久av| eeuss影院久久| 日本a在线网址| 国产亚洲精品综合一区在线观看| 一本久久中文字幕| 99热网站在线观看| 欧美日韩国产亚洲二区| 色视频www国产| 精品午夜福利在线看| 你懂的网址亚洲精品在线观看 | 1024手机看黄色片| 久久精品久久久久久噜噜老黄 | 国产成年人精品一区二区| 国产久久久一区二区三区| 亚洲人与动物交配视频| 精品欧美国产一区二区三| av国产免费在线观看| 国产免费一级a男人的天堂| 国产成人一区二区在线| 国产乱人偷精品视频| 老司机影院成人| 俺也久久电影网| 麻豆成人午夜福利视频| 免费看日本二区| 给我免费播放毛片高清在线观看| 欧美又色又爽又黄视频| 黄色一级大片看看| 成人欧美大片| 中文字幕免费在线视频6| 日日干狠狠操夜夜爽| 少妇的逼好多水| 哪里可以看免费的av片| 超碰av人人做人人爽久久| 成人无遮挡网站| 日韩 亚洲 欧美在线| 老司机福利观看| 国产在视频线在精品| 久久久久久久久久久丰满| 色av中文字幕| 老司机午夜福利在线观看视频| 日本黄色片子视频| 亚洲精品456在线播放app| 一本久久中文字幕| 美女内射精品一级片tv| 国产片特级美女逼逼视频| 卡戴珊不雅视频在线播放| 欧美一区二区国产精品久久精品| 日本与韩国留学比较| 亚洲色图av天堂| 亚洲av中文字字幕乱码综合| 一进一出抽搐动态| 最近视频中文字幕2019在线8| 国产女主播在线喷水免费视频网站 | 又黄又爽又免费观看的视频| 一级毛片aaaaaa免费看小| 男人狂女人下面高潮的视频| 国产一区亚洲一区在线观看| 亚洲美女视频黄频| 两个人的视频大全免费| 国产免费男女视频| 欧美潮喷喷水| 人妻久久中文字幕网| 日本一二三区视频观看| 亚州av有码| 日本与韩国留学比较| 欧美日韩一区二区视频在线观看视频在线 | 亚洲婷婷狠狠爱综合网| 国产黄a三级三级三级人| 日日啪夜夜撸| 三级经典国产精品| 青春草视频在线免费观看| 久久久久九九精品影院| 久久久精品94久久精品| 精品久久久久久久久av| 美女黄网站色视频| 国产成人91sexporn| 久久久久久久久久黄片| 看非洲黑人一级黄片| 色哟哟哟哟哟哟| 国产视频一区二区在线看| 精品福利观看| 亚洲经典国产精华液单| 天天一区二区日本电影三级| 国产精品1区2区在线观看.| 欧美+日韩+精品| 国产大屁股一区二区在线视频| 国产精品久久电影中文字幕| 热99re8久久精品国产| 欧美色视频一区免费| 九色成人免费人妻av| 99热只有精品国产| 人妻夜夜爽99麻豆av| 久久久久久九九精品二区国产| 在线观看av片永久免费下载| 精品福利观看| 亚洲,欧美,日韩| 赤兔流量卡办理| 国产乱人偷精品视频| 成人鲁丝片一二三区免费| 午夜激情欧美在线| 蜜桃亚洲精品一区二区三区| 99热这里只有精品一区| 久久精品国产亚洲网站| 桃色一区二区三区在线观看| 国产精品久久久久久久久免| 午夜福利在线观看吧| 亚洲av第一区精品v没综合| 搡老妇女老女人老熟妇| 久久国产乱子免费精品| 国产午夜精品久久久久久一区二区三区 | aaaaa片日本免费| 美女 人体艺术 gogo| 天美传媒精品一区二区| 男女视频在线观看网站免费| 1024手机看黄色片| 亚洲av熟女| a级毛片免费高清观看在线播放| a级毛片a级免费在线| 欧美精品国产亚洲| 99久久久亚洲精品蜜臀av| 国产熟女欧美一区二区| 人妻夜夜爽99麻豆av| 99久久久亚洲精品蜜臀av| 亚洲,欧美,日韩| 搡老熟女国产l中国老女人| 国内精品一区二区在线观看| 淫妇啪啪啪对白视频| 人妻少妇偷人精品九色| 成人av在线播放网站| 精品欧美国产一区二区三| 国产精华一区二区三区| 精品欧美国产一区二区三| 亚洲四区av| 亚洲国产精品成人综合色| 亚洲精品影视一区二区三区av| 18禁在线播放成人免费| 丰满的人妻完整版| 久久精品久久久久久噜噜老黄 | 露出奶头的视频| 国产高清激情床上av| avwww免费| 免费看a级黄色片| 人人妻,人人澡人人爽秒播| 成人美女网站在线观看视频| 欧美另类亚洲清纯唯美| 日本黄色片子视频| 亚洲国产精品国产精品| 老女人水多毛片| 国产在线男女| 看片在线看免费视频| 国产伦精品一区二区三区四那| 大又大粗又爽又黄少妇毛片口| 亚洲人成网站在线观看播放| 国产伦精品一区二区三区四那| 国产激情偷乱视频一区二区| 一级毛片aaaaaa免费看小| 免费av观看视频| 久久久久国产网址| 少妇高潮的动态图| 欧美日韩综合久久久久久| 全区人妻精品视频| 男女啪啪激烈高潮av片| 日本与韩国留学比较| 黄片wwwwww| 亚洲欧美成人综合另类久久久 | 毛片女人毛片| 91久久精品国产一区二区成人| 日日摸夜夜添夜夜爱| av卡一久久| 日本欧美国产在线视频| 久久久久国内视频| 午夜免费激情av| 别揉我奶头~嗯~啊~动态视频| 99久久无色码亚洲精品果冻| 久久人人爽人人爽人人片va| 精品午夜福利在线看| 麻豆国产97在线/欧美| 国产一区二区在线av高清观看| 深夜精品福利| 久久久精品94久久精品| 免费大片18禁| 精品免费久久久久久久清纯| 卡戴珊不雅视频在线播放| 1024手机看黄色片| 精品日产1卡2卡| 日韩欧美国产在线观看| 国产欧美日韩精品一区二区| 亚洲中文字幕日韩| 欧美日本亚洲视频在线播放| 精品久久久久久久久av| 亚洲精品影视一区二区三区av| 国产v大片淫在线免费观看| 黄色欧美视频在线观看| 免费看光身美女| av中文乱码字幕在线| 亚洲欧美成人综合另类久久久 | 91在线精品国自产拍蜜月| 69av精品久久久久久| 给我免费播放毛片高清在线观看| 亚洲一区高清亚洲精品| 国产高清三级在线| 国产伦一二天堂av在线观看| 色哟哟哟哟哟哟| 五月伊人婷婷丁香| 精品久久久久久久久av| 丝袜美腿在线中文| 99热全是精品| 晚上一个人看的免费电影| 又爽又黄a免费视频| 亚洲三级黄色毛片| 看免费成人av毛片| 亚洲中文字幕日韩| 亚洲精品亚洲一区二区| 国内揄拍国产精品人妻在线| 综合色av麻豆| 久久久久久大精品| 色哟哟·www| 激情 狠狠 欧美| 女人十人毛片免费观看3o分钟| 老司机影院成人| 国产日本99.免费观看| 欧美色欧美亚洲另类二区| 国产乱人偷精品视频| 国产精品一区二区免费欧美| 亚洲人成网站高清观看| 看黄色毛片网站| 在线国产一区二区在线| 亚洲人成网站在线播放欧美日韩| 亚洲电影在线观看av| 男女啪啪激烈高潮av片| 日韩精品有码人妻一区| 亚洲自偷自拍三级| 日本爱情动作片www.在线观看 | 老女人水多毛片| 成人精品一区二区免费| 国产黄片美女视频| 神马国产精品三级电影在线观看| 久久久成人免费电影| 久久久久久久久久黄片| 欧美性感艳星| 毛片女人毛片| aaaaa片日本免费| 乱码一卡2卡4卡精品| 一级毛片aaaaaa免费看小| 婷婷亚洲欧美| 国产白丝娇喘喷水9色精品| 国产高清视频在线观看网站| 美女大奶头视频| 久久国产乱子免费精品| 国产一区二区在线av高清观看| 毛片一级片免费看久久久久| 精品一区二区三区视频在线| 日本在线视频免费播放| av黄色大香蕉| 欧美潮喷喷水| 免费无遮挡裸体视频| eeuss影院久久| 舔av片在线| videossex国产| 啦啦啦啦在线视频资源| 亚洲人成网站在线播| 色5月婷婷丁香| 国产精品1区2区在线观看.| 在线a可以看的网站| av中文乱码字幕在线| 国产欧美日韩精品亚洲av| 嫩草影院入口| 乱系列少妇在线播放| 免费一级毛片在线播放高清视频| 国产精品一区二区三区四区免费观看 | 久久久久免费精品人妻一区二区| h日本视频在线播放| 我的老师免费观看完整版| 深夜a级毛片| 99在线人妻在线中文字幕| 最后的刺客免费高清国语| 久久精品国产99精品国产亚洲性色| 午夜精品一区二区三区免费看| 欧美不卡视频在线免费观看| 国产精品无大码| avwww免费| 99国产精品一区二区蜜桃av| 欧美3d第一页| 午夜免费男女啪啪视频观看 | 久久精品综合一区二区三区| 欧美激情在线99| 又爽又黄无遮挡网站| 久久久久久久久中文| 日本五十路高清| 变态另类丝袜制服| 一本久久中文字幕| 久久久a久久爽久久v久久| 波野结衣二区三区在线| 一a级毛片在线观看| 成年女人永久免费观看视频| 18禁裸乳无遮挡免费网站照片| 欧美极品一区二区三区四区| 国产探花极品一区二区| 久久久久久九九精品二区国产| 91麻豆精品激情在线观看国产| 免费大片18禁| 美女 人体艺术 gogo| 蜜桃亚洲精品一区二区三区| 亚洲丝袜综合中文字幕| 亚洲成人av在线免费| 国产精品av视频在线免费观看| 色综合站精品国产| 免费观看的影片在线观看| 国产精品久久电影中文字幕| 人人妻人人看人人澡| 日本-黄色视频高清免费观看| 无遮挡黄片免费观看| 国产精品精品国产色婷婷| 亚洲欧美中文字幕日韩二区| 99久久成人亚洲精品观看| 国产成人一区二区在线| 1000部很黄的大片| 婷婷六月久久综合丁香| 亚洲精品粉嫩美女一区| 观看美女的网站| av卡一久久| 麻豆乱淫一区二区| 国产v大片淫在线免费观看| av黄色大香蕉| 97超碰精品成人国产| 国产视频一区二区在线看| 国产 一区精品| 免费av毛片视频| 精品久久久久久久久av| 日日摸夜夜添夜夜爱| 免费在线观看成人毛片| 男女那种视频在线观看| 精品少妇黑人巨大在线播放 | 日本-黄色视频高清免费观看| 国产一区二区在线观看日韩| 国产一区二区三区在线臀色熟女| 成人av在线播放网站| 国产精品野战在线观看| 久久精品人妻少妇| 成人特级av手机在线观看| 在线免费十八禁| 真人做人爱边吃奶动态| 日韩欧美 国产精品| 久久99热这里只有精品18| 天美传媒精品一区二区| 男人狂女人下面高潮的视频| 日韩国内少妇激情av| 国产成人91sexporn| 美女内射精品一级片tv| 亚洲图色成人| 国语自产精品视频在线第100页| 亚洲乱码一区二区免费版| 综合色丁香网| 成熟少妇高潮喷水视频| 国产成人freesex在线 | 国产精品女同一区二区软件| 久久精品国产亚洲网站| av专区在线播放| 久久热精品热| 国产成年人精品一区二区| 欧美成人a在线观看| 欧美极品一区二区三区四区| 日本撒尿小便嘘嘘汇集6| 99热这里只有是精品50| 永久网站在线| 亚洲精品粉嫩美女一区| 国产人妻一区二区三区在| 中文字幕av在线有码专区| 成人三级黄色视频| av卡一久久| 国产高清三级在线| 国产高清视频在线播放一区| 中文字幕av成人在线电影| 最新中文字幕久久久久| 69av精品久久久久久| 亚洲第一电影网av| 波野结衣二区三区在线| 色综合亚洲欧美另类图片| 六月丁香七月| 啦啦啦观看免费观看视频高清| 亚洲精品在线观看二区| 99久久无色码亚洲精品果冻| 又黄又爽又刺激的免费视频.| 亚洲欧美精品自产自拍| 久久久久久国产a免费观看| 精品无人区乱码1区二区| 熟妇人妻久久中文字幕3abv| 高清日韩中文字幕在线| 老司机影院成人| 中国美白少妇内射xxxbb| 婷婷色综合大香蕉| 校园人妻丝袜中文字幕| 99热这里只有是精品在线观看| 看免费成人av毛片| www日本黄色视频网| 岛国在线免费视频观看| 女的被弄到高潮叫床怎么办| 成人高潮视频无遮挡免费网站| 色在线成人网| 69av精品久久久久久| 国产精品久久电影中文字幕| 欧美日韩综合久久久久久| 日韩三级伦理在线观看| 在线免费观看不下载黄p国产| 一个人看视频在线观看www免费| avwww免费| 好男人在线观看高清免费视频| 18+在线观看网站| 男人舔女人下体高潮全视频| 俺也久久电影网| 真人做人爱边吃奶动态| 一级a爱片免费观看的视频| 最后的刺客免费高清国语| 免费一级毛片在线播放高清视频| 久久人人精品亚洲av| 亚洲精品国产av成人精品 | 亚洲激情五月婷婷啪啪| 免费看美女性在线毛片视频| 99久久成人亚洲精品观看| 麻豆久久精品国产亚洲av| 国产精品,欧美在线| 成人性生交大片免费视频hd| 亚洲最大成人中文| АⅤ资源中文在线天堂| 欧美极品一区二区三区四区| 永久网站在线| 免费看美女性在线毛片视频| 久久人妻av系列| 久久欧美精品欧美久久欧美| av视频在线观看入口| 一级毛片aaaaaa免费看小| 一a级毛片在线观看| 一本一本综合久久| 欧美高清成人免费视频www| 少妇人妻一区二区三区视频| 亚洲精品国产av成人精品 | 少妇被粗大猛烈的视频| 久久久色成人| 国产精品乱码一区二三区的特点| 99久久中文字幕三级久久日本| 韩国av在线不卡| 婷婷精品国产亚洲av| 美女黄网站色视频| 国产淫片久久久久久久久| 亚洲无线观看免费| 男人舔女人下体高潮全视频| 免费人成视频x8x8入口观看| 青春草视频在线免费观看| 国产一区二区在线观看日韩| 毛片女人毛片| 国产免费男女视频| 亚洲熟妇中文字幕五十中出| 麻豆精品久久久久久蜜桃| 亚洲人成网站在线播放欧美日韩| 超碰av人人做人人爽久久| 国产又黄又爽又无遮挡在线| 亚洲自拍偷在线| 亚洲高清免费不卡视频| 91在线观看av| 亚洲av美国av| 午夜精品国产一区二区电影 | 久久亚洲精品不卡| 简卡轻食公司| 少妇熟女aⅴ在线视频| 久久精品影院6| ponron亚洲| 搡老岳熟女国产| 麻豆国产av国片精品| 又黄又爽又免费观看的视频| 有码 亚洲区| 国产精品久久久久久久久免| 中文亚洲av片在线观看爽| 18禁在线播放成人免费| 国产色爽女视频免费观看| 此物有八面人人有两片| 少妇猛男粗大的猛烈进出视频 | 蜜臀久久99精品久久宅男| 一个人观看的视频www高清免费观看| 啦啦啦观看免费观看视频高清| 久久久久久久久久成人| 亚洲精品色激情综合| 精品日产1卡2卡| 91午夜精品亚洲一区二区三区| 亚洲婷婷狠狠爱综合网| 中国美白少妇内射xxxbb| 国产一区亚洲一区在线观看| 最新在线观看一区二区三区| 免费av不卡在线播放| or卡值多少钱| 久久久精品大字幕| 黄片wwwwww| 桃色一区二区三区在线观看| 小说图片视频综合网站| 中国国产av一级| 观看免费一级毛片| 欧美bdsm另类| 国产亚洲欧美98| 日韩一本色道免费dvd| 日本一二三区视频观看| 少妇高潮的动态图| 俄罗斯特黄特色一大片| 精品一区二区三区av网在线观看| 久久国产乱子免费精品| 精品一区二区三区视频在线| 国产老妇女一区| 国产一区二区在线av高清观看| 中出人妻视频一区二区| 精品一区二区三区视频在线观看免费| 99国产精品一区二区蜜桃av| 搡老熟女国产l中国老女人| 五月玫瑰六月丁香| 色av中文字幕| 国产乱人视频| 97热精品久久久久久| 国产亚洲精品av在线| 久久久久久久久久黄片| 成人亚洲精品av一区二区| 久久久久久九九精品二区国产| 免费人成视频x8x8入口观看| 国产亚洲精品综合一区在线观看| 亚洲av.av天堂| 久久草成人影院| 国产免费一级a男人的天堂| 久久韩国三级中文字幕| 中文字幕av在线有码专区| 99在线人妻在线中文字幕| 观看免费一级毛片| 亚洲美女视频黄频| 如何舔出高潮| 村上凉子中文字幕在线| 狂野欧美白嫩少妇大欣赏| 我的老师免费观看完整版| 一本久久中文字幕| 亚洲专区国产一区二区| 成人午夜高清在线视频| 国产精品亚洲美女久久久| 综合色av麻豆| 18+在线观看网站| 国产精品日韩av在线免费观看| 日韩大尺度精品在线看网址| 国产精品免费一区二区三区在线| 亚洲图色成人| 欧美日韩精品成人综合77777| 欧美色欧美亚洲另类二区| 男人舔奶头视频| 少妇人妻精品综合一区二区 | 亚洲欧美精品综合久久99| 自拍偷自拍亚洲精品老妇| 久99久视频精品免费| 久久精品91蜜桃| 日日干狠狠操夜夜爽| 精品少妇黑人巨大在线播放 | 啦啦啦韩国在线观看视频| 搡女人真爽免费视频火全软件 | 欧美日本视频| 亚洲精品色激情综合| 中文在线观看免费www的网站| 亚洲美女黄片视频| 久久九九热精品免费| 成人亚洲欧美一区二区av| 99九九线精品视频在线观看视频| 联通29元200g的流量卡| 国产精品人妻久久久影院| 国内精品久久久久精免费| 亚洲自偷自拍三级| 国内精品久久久久精免费| 亚洲熟妇中文字幕五十中出| 日本三级黄在线观看| 亚洲精品日韩av片在线观看| 99热6这里只有精品| 波野结衣二区三区在线| 91久久精品国产一区二区三区| 美女被艹到高潮喷水动态| 香蕉av资源在线| 久久精品国产鲁丝片午夜精品| 久久精品国产亚洲av香蕉五月| 亚洲av电影不卡..在线观看| 精品国产三级普通话版| 成人亚洲精品av一区二区| 成人三级黄色视频| 成人二区视频| 3wmmmm亚洲av在线观看| 色av中文字幕| 少妇被粗大猛烈的视频| 女的被弄到高潮叫床怎么办| 精品久久久久久久久亚洲| 日本黄色片子视频| 亚洲乱码一区二区免费版| 久久草成人影院| 日本 av在线| 亚洲国产精品久久男人天堂| 久久这里只有精品中国| 级片在线观看| 99久久精品热视频| 亚洲第一电影网av| 我的女老师完整版在线观看| 国产综合懂色| 亚州av有码| 成人综合一区亚洲| 精品乱码久久久久久99久播| 真实男女啪啪啪动态图| 亚洲av成人av| 日韩欧美在线乱码| 免费观看人在逋| 中文资源天堂在线| av在线天堂中文字幕| 搡老熟女国产l中国老女人| 国产黄色小视频在线观看| 亚洲,欧美,日韩| а√天堂www在线а√下载| 欧美最新免费一区二区三区| 免费观看的影片在线观看| 久久久久久九九精品二区国产| 韩国av在线不卡| 午夜影院日韩av|