• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多策略融合的俄語(yǔ)文本詞語(yǔ)提取方法研究

    2021-08-06 03:21唐菊香孫懌暉廖曉劉建國(guó)于娟
    中國(guó)科技術(shù)語(yǔ) 2021年3期

    唐菊香 孫懌暉 廖曉 劉建國(guó) 于娟

    摘 要:俄語(yǔ)是聯(lián)合國(guó)工作語(yǔ)言之一,是俄羅斯等多個(gè)國(guó)家的官方語(yǔ)言。隨著“一帶一路”倡議的推進(jìn)和全球化進(jìn)程的加快,俄語(yǔ)文本數(shù)據(jù)成為有關(guān)組織管理決策的重要信息來(lái)源,俄語(yǔ)文本挖掘也因而成為重要的管理決策支持方法。然而,俄語(yǔ)文本挖掘方法研究目前還遠(yuǎn)未成熟,尤其是其關(guān)鍵基礎(chǔ)——俄語(yǔ)文本詞語(yǔ)提取的性能較低,阻礙著俄語(yǔ)文本建模的準(zhǔn)確性。因此,文章提出一種多策略融合的俄語(yǔ)文本詞語(yǔ)提取方法,結(jié)合俄語(yǔ)詞性分析、語(yǔ)法規(guī)則和串頻統(tǒng)計(jì)等多種方法,自動(dòng)提取包含單詞和短語(yǔ)在內(nèi)的俄語(yǔ)詞語(yǔ)。在聯(lián)合國(guó)平行語(yǔ)料庫(kù)和Taiga Corpus語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明,文章提出的方法在保證高召回率的同時(shí),達(dá)到了85%以上的高準(zhǔn)確率,顯著優(yōu)于常用的ngram方法,能夠?yàn)槎碚Z(yǔ)文本主題發(fā)現(xiàn)和文本分/聚類等文本挖掘應(yīng)用提供有效的詞庫(kù)。

    關(guān)鍵詞:俄語(yǔ)文本挖掘;詞語(yǔ)提取;詞性標(biāo)注;頻繁詞串

    中圖分類號(hào):G623.35;H08 ?文獻(xiàn)標(biāo)識(shí)碼:A ?DOI:10.12339/j.issn.1673-8578.2021.03.009

    Abstract:Russian is one of the working languages of the United Nations and the official language of many countries including Russia. With the advancement of the Belt and Road Initiative and the acceleration of globalization, Russian text data has become an important information resource for managerial decisionmaking of related organizations and Russian text mining has thus become a significant decisionmaking method. However, Russian text mining methods are still far away from being mature, especially the essential Russian text term extraction method, which affects the accuracy of Russian text modeling. This paper proposes a Russian text term extraction method, which combines multi strategies including Russian POS analysis, grammatical rules and string frequency statistics to automatically extract Russian words and multiword expressions. Experiments on the United Nations Parallel Corpus and the Taiga Corpus show that the proposed method achieves a high accuracy of approximate 85% which is much higher than normal recall rate, such as the ngram method. The proposed method can be used to create lexicons for Russian text mining applications such as text topic discovery, text classification, and text clustering.

    Keywords: Russian text mining; term extraction; POS tag; frequent wordstring

    收稿日期:2021-05-11

    基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目“基于本體學(xué)習(xí)與本體映射的組織異構(gòu)數(shù)據(jù)融合方法研究”(71771054)

    引言

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)尤其是文本數(shù)據(jù)呈現(xiàn)出爆炸式增長(zhǎng)的態(tài)勢(shì),各個(gè)領(lǐng)域和組織都積極利用數(shù)據(jù)挖掘方法對(duì)所積累的數(shù)據(jù)進(jìn)行分析。與此同時(shí),“一帶一路”倡議的推進(jìn)和全球化進(jìn)程的加快,使得單語(yǔ)言信息資源挖掘不能滿足管理決策的需求,多種語(yǔ)言信息資源的挖掘逐漸成為實(shí)現(xiàn)全球知識(shí)發(fā)現(xiàn)和共享的關(guān)鍵技術(shù)。因此,從多種語(yǔ)言的文本中發(fā)現(xiàn)有用信息和知識(shí)成為迫切需要。

    俄語(yǔ)是聯(lián)合國(guó)工作語(yǔ)言之一,是俄羅斯和哈薩克斯坦、吉爾吉斯斯坦等多個(gè)國(guó)家的官方語(yǔ)言,使用人數(shù)約占世界人口的5.7%。并且,俄羅斯作為我國(guó)鄰國(guó),與我國(guó)的貿(mào)易合作日益密切,中俄經(jīng)貿(mào)關(guān)系在兩國(guó)均占據(jù)著重要位置。俄語(yǔ)文本分析研究及相應(yīng)的文本挖掘方法研發(fā)有助于為有關(guān)組織的業(yè)務(wù)分析和管理決策提供有力的支持,對(duì)中俄貿(mào)易合作起到推動(dòng)作用。

    但目前國(guó)際上針對(duì)俄語(yǔ)文本挖掘的研究還不夠成熟,尤其是俄語(yǔ)文本詞語(yǔ)提取方法研究。俄語(yǔ)詞語(yǔ)提取是俄語(yǔ)文本挖掘的基礎(chǔ)和關(guān)鍵步驟,其結(jié)果顯著影響俄語(yǔ)文本分析和挖掘的效果。俄語(yǔ)詞語(yǔ)可以分為單詞和短語(yǔ)兩類。其中,單詞是指由空格隔開的俄語(yǔ)基本書寫單位,是組成俄語(yǔ)詞語(yǔ)的基本單元;短語(yǔ)是指由兩個(gè)或兩個(gè)以上的俄語(yǔ)單詞構(gòu)成的,具有句法和語(yǔ)義單元特征,且其確切含義不能直接從其組件得出的單詞序列。在常用詞匯中,短語(yǔ)和單詞的出現(xiàn)頻率在同一數(shù)量級(jí)上[1]。相較于單詞,短語(yǔ)具有更豐富的內(nèi)涵,自動(dòng)提取的方法更為復(fù)雜。因此,俄語(yǔ)短語(yǔ)提取是俄語(yǔ)文本詞語(yǔ)提取方法研發(fā)的重點(diǎn)。

    雖然目前已有較多針對(duì)中文和英文詞語(yǔ)提取的相關(guān)研究[2-5],但針對(duì)俄語(yǔ)文本詞語(yǔ)提取的研究較少。因此,準(zhǔn)確且高效的俄語(yǔ)文本詞語(yǔ)提取方法依然是俄語(yǔ)文本挖掘領(lǐng)域的一個(gè)難題[6]。為了彌補(bǔ)俄語(yǔ)文本詞語(yǔ)提取研究的不足,本文提出一種多策略融合的俄語(yǔ)文本詞語(yǔ)提取方法。該方法既可以提取俄語(yǔ)單詞,又可以提取不受長(zhǎng)度限制的俄語(yǔ)短語(yǔ),能夠?yàn)槎碚Z(yǔ)文本挖掘工作提供完備的詞庫(kù),進(jìn)而更好地支持組織管理決策。

    本文第1節(jié)介紹俄語(yǔ)文本詞語(yǔ)提取的研究現(xiàn)狀,第2節(jié)介紹本文的方法框架,第3、4、5節(jié)詳細(xì)介紹本文方法的實(shí)現(xiàn)過(guò)程,第6節(jié)通過(guò)實(shí)驗(yàn)分析本文方法的性能,第7節(jié)給出結(jié)論。本文的詞語(yǔ)提取方法是針對(duì)俄語(yǔ)文本的自動(dòng)處理,若無(wú)特殊說(shuō)明,后文中的“文本”均指“俄語(yǔ)文本”;“詞語(yǔ)”均指“俄語(yǔ)詞語(yǔ)”,包含俄語(yǔ)單詞和俄語(yǔ)短語(yǔ)。

    1 研究現(xiàn)狀

    在俄語(yǔ)單詞提取研究方面,俄語(yǔ)作為印歐語(yǔ)系語(yǔ)言,文本中的單詞以空格作為分隔符且單詞具有豐富的屈折變形形態(tài),因此,俄語(yǔ)單詞提取需要進(jìn)行詞形還原(lemmatization)。詞形還原是指把一個(gè)任何形式的單詞還原為其一般形式,結(jié)果是一個(gè)能夠表達(dá)完整語(yǔ)義的單詞。國(guó)內(nèi)外已有較多針對(duì)俄語(yǔ)詞形還原的研究[7-9],并基于詞典、規(guī)則、統(tǒng)計(jì)和多策略融合的方法開發(fā)出多個(gè)俄語(yǔ)詞形還原工具,如MyStem[10-11]、Pymorphy2[12-13]等。

    在俄語(yǔ)短語(yǔ)提取研究方面,相較于中文和英文短語(yǔ)的提取,俄語(yǔ)短語(yǔ)提取的研究較少,且多集中在雙詞短語(yǔ)提取的研究上[4,14]。已有的短語(yǔ)提取方法研究可以歸納為3類:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和多策略融合的方法。

    基于規(guī)則的方法,使用詞性及詞法模式等語(yǔ)言知識(shí)從語(yǔ)料中自動(dòng)提取詞語(yǔ)。單純使用基于規(guī)則的方法進(jìn)行俄語(yǔ)文本詞語(yǔ)提取的研究較少。代表性文獻(xiàn)對(duì)已有術(shù)語(yǔ)的構(gòu)成進(jìn)行歸納并擴(kuò)展出73條術(shù)語(yǔ)構(gòu)成規(guī)則,研發(fā)了FASTER系統(tǒng)實(shí)現(xiàn)醫(yī)藥領(lǐng)域的術(shù)語(yǔ)自動(dòng)提取[15]。基于規(guī)則的方法能高效地提取低頻短語(yǔ),具有較高的精度;但需要人工挖掘特定領(lǐng)域的構(gòu)詞規(guī)則,耗時(shí)耗力,且不同領(lǐng)域的規(guī)則存在差異,因此規(guī)則的通用性不足。

    基于統(tǒng)計(jì)的方法,使用詞語(yǔ)在語(yǔ)料庫(kù)中的分布統(tǒng)計(jì)屬性提取詞語(yǔ)。常用的統(tǒng)計(jì)方法包括互信息[16]、對(duì)數(shù)似然比[17]等。文獻(xiàn)[18]使用統(tǒng)計(jì)方法從包含10億個(gè)單詞的大型新聞?wù)Z料庫(kù)中總結(jié)出英文短語(yǔ)的特征。文獻(xiàn)[19]提出英文短語(yǔ)提取的LocalMaxs算法。文獻(xiàn)[20]提出一種基于詞序列頻率有向網(wǎng)的短語(yǔ)抽取算法,借鑒人類的認(rèn)知心理模式識(shí)別中文短語(yǔ)。文獻(xiàn)[21]基于左右熵聯(lián)合增強(qiáng)互信息算法和SVM分類器,構(gòu)建上下文和詞向量特征,用于提取中文短語(yǔ)?;诮y(tǒng)計(jì)的方法可以自動(dòng)且高效地提取詞語(yǔ),能有效節(jié)約人工成本,但該方法利用的是概率信息,要求語(yǔ)料庫(kù)足夠大,并且無(wú)法提取低頻詞。

    多策略融合的方法,結(jié)合使用基于規(guī)則和基于統(tǒng)計(jì)的兩種方法來(lái)提取詞語(yǔ)。多策略融合的短語(yǔ)提取方法研究較多,方法多樣化。文獻(xiàn)[22]提出Cvalue參數(shù),減少英文短語(yǔ)提取中被嵌套詞語(yǔ)的提取,提高詞語(yǔ)提取的效果。文獻(xiàn)[23]結(jié)合重復(fù)串、左右鄰接熵、內(nèi)部關(guān)聯(lián)度、多詞嵌套、停用詞等方法提取中文短語(yǔ)。文獻(xiàn)[24]使用BLSTMCRF模型抽取中文專利文本的短語(yǔ)。文獻(xiàn)[25]提出帶約束合并的代替FPGrowth算法生成中文短語(yǔ)。文獻(xiàn)[26]使用詞頻、文檔頻率、卡方分布和Tseng算法生成英文短語(yǔ)。文獻(xiàn)[27]結(jié)合改進(jìn)的二叉樹技術(shù)和內(nèi)聚性指數(shù)實(shí)現(xiàn)無(wú)監(jiān)督的關(guān)鍵短語(yǔ)提取。文獻(xiàn)[28]借助維基百科等外部資源,結(jié)合固定詞性搭配規(guī)則和MRR排名指標(biāo)實(shí)現(xiàn)俄語(yǔ)雙詞術(shù)語(yǔ)的提取。多策略融合的方法能整合多種方法的優(yōu)勢(shì),且一定程度地避免單一方法的不足。

    綜上可見,相較于中、英文詞語(yǔ)提取,專門針對(duì)俄語(yǔ)文本詞語(yǔ)提取的研究較少,已有的俄語(yǔ)文本詞語(yǔ)提取體現(xiàn)在術(shù)語(yǔ)提取、關(guān)鍵詞提取等研究的過(guò)程之中,如文獻(xiàn)[29-31]等,且詞語(yǔ)提取的效果不夠理想。從所提取詞語(yǔ)的長(zhǎng)度上來(lái)看,已有俄語(yǔ)文本詞語(yǔ)提取的研究多集中在俄語(yǔ)單詞以及雙詞短語(yǔ)的提取上,對(duì)更長(zhǎng)長(zhǎng)度的詞語(yǔ)提取的研究較少。為此,本文提出一種融合多策略的俄語(yǔ)文本詞語(yǔ)提取方法,改善俄語(yǔ)文本提詞的效果,構(gòu)建待分析的俄語(yǔ)文本和語(yǔ)料的詞庫(kù),支持大規(guī)模俄語(yǔ)文本的自動(dòng)分析。

    2 方法框架

    本文結(jié)合詞性分析、俄語(yǔ)規(guī)則和串頻統(tǒng)計(jì)等多種詞語(yǔ)提取方法,實(shí)現(xiàn)俄語(yǔ)文本詞語(yǔ)的自動(dòng)提取,包括俄語(yǔ)單詞和俄語(yǔ)短語(yǔ)。本文方法主要包括文本預(yù)處理、停用詞刪除、候選詞語(yǔ)提取和人工判別四個(gè)模塊,流程如圖1所示。

    對(duì)圖1的說(shuō)明:

    (1)文本預(yù)處理模塊的輸入是一個(gè)或多個(gè)俄語(yǔ)文檔,輸出是適用于詞語(yǔ)提取的標(biāo)準(zhǔn)化的文本。其中,俄語(yǔ)文檔是包含Web網(wǎng)頁(yè)、Word文檔、文本文檔等在內(nèi)的俄語(yǔ)自然語(yǔ)言電子語(yǔ)料。該模塊的處理方法詳見本文第3節(jié)。

    (2)停用詞刪除模塊,刪除前一模塊輸出的標(biāo)準(zhǔn)化文本中的俄語(yǔ)停用單詞和停用詞性詞,得到刪除停用詞后的單詞串集合。其中,停用單詞和停用詞性規(guī)則是本文基于大量的文本詞語(yǔ)提取實(shí)驗(yàn)總結(jié)得出。該模塊的處理方法詳見本文第4節(jié)。

    (3)候選詞語(yǔ)提取模塊,采用統(tǒng)計(jì)方法處理前一模塊輸出的單詞串集合,提取頻繁詞串,篩掉其中不成詞的詞串之后,將剩下的頻繁詞串輸出為候選詞語(yǔ)集合。該模塊的處理方法詳見本文第5節(jié)。

    (4)人工判別模塊,由俄語(yǔ)專業(yè)人士人工判定前一模塊輸出的候選詞語(yǔ),選取最終的詞語(yǔ)集合用于后續(xù)的文本挖掘等應(yīng)用。同時(shí),人工判定不成詞的候選詞語(yǔ)被加入不成詞詞典,以提高后續(xù)的俄語(yǔ)文本詞語(yǔ)提取效果。該模塊的處理方法易于理解,后文不再贅述。

    3 文本預(yù)處理

    文本預(yù)處理模塊將輸入的俄語(yǔ)文檔處理為適用于詞語(yǔ)提取的標(biāo)準(zhǔn)化文本,包含語(yǔ)料清洗、詞性標(biāo)注和詞形還原2個(gè)步驟。不同語(yǔ)言的文本預(yù)處理方法存在差異。

    3.1 文本清洗

    該步驟對(duì)輸入的俄語(yǔ)Web網(wǎng)頁(yè)、Word文檔、文本文檔等文本執(zhí)行清洗操作,即去除文本集中如導(dǎo)航欄、圖片、注釋等與文本分析無(wú)關(guān)的信息,將不同類型的文本處理為純文本,然后統(tǒng)一轉(zhuǎn)化為utf8編碼格式。圖2為一段俄語(yǔ)文本示例,其中,左側(cè)的俄語(yǔ)文本是一段隨機(jī)選取的介紹數(shù)據(jù)挖掘的百科文本,不具有特殊性;右側(cè)為與左側(cè)文本相對(duì)應(yīng)的中文文本。

    3.2 詞性標(biāo)注與詞形還原

    該步驟遍歷文本,采用現(xiàn)成工具標(biāo)注每個(gè)單詞的POS(partofspeech)詞性并還原詞形。其中,詞性標(biāo)注是指確定每個(gè)單詞的詞性為動(dòng)詞、名詞、形容詞或其他詞性的過(guò)程。詞形還原將一個(gè)任何形式的單詞還原為其原形,例如,名詞алгоритмов(algorithms)原形為алгоритм(algorithm),動(dòng)詞найденных(found)原Перед использованием алгоритмов добыча данных необходимо произвести подготовку набора анализируемых данных. Aнализируемые данные с одной стороны должны иметь достаточный объём, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Наблюдения делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для ??обучения ? алгоритма добыча данных, а тестовый набор — для проверки найденных закономерностей.

    使用數(shù)據(jù)挖掘算法之前,需要先準(zhǔn)備一組分析數(shù)據(jù)。分析數(shù)據(jù)一方面應(yīng)足夠大,以確保這些模式出現(xiàn)在其中;另一方面應(yīng)足夠緊湊,以使分析花費(fèi)的時(shí)間可接受。觀察數(shù)據(jù)分為兩類:訓(xùn)練集和測(cè)試集。訓(xùn)練集用于“學(xué)習(xí)”數(shù)據(jù)挖掘算法,測(cè)試集用于驗(yàn)證找到的模式。

    目前主流的俄語(yǔ)詞性標(biāo)注和詞形還原工具包括Mystem[8]、Pymorphy[10]、TreeTagger[32]等,已有研究[31]表明,由著名俄語(yǔ)搜索引擎Yandex開發(fā)的Mystem無(wú)論是在俄語(yǔ)詞性標(biāo)注還是詞形還原上效果皆為最佳,因此本文采用Mystem工具進(jìn)行俄語(yǔ)詞性標(biāo)注和詞形還原。圖3為圖2中的文本進(jìn)行詞性標(biāo)注與詞形還原的結(jié)果。為了便于結(jié)果展示,本文實(shí)驗(yàn)結(jié)果使用“

    ”標(biāo)記表示換行符。

    需要說(shuō)明的是,Mystem對(duì)專有名詞的大小寫和單復(fù)數(shù)的詞形還原處理會(huì)導(dǎo)致專有名詞提取錯(cuò)誤。例如,“Организации Объединенных Наций(聯(lián)合國(guó))”因被Mystem還原為“организация объединять нация(組織團(tuán)結(jié)國(guó)家)”而失去原義。因此,本文對(duì)非句首的首字母大寫單詞不執(zhí)行詞形還原操作。

    4 停用詞刪除

    停用詞是指廣泛使用的、無(wú)實(shí)際意義的或不具有區(qū)分性的詞,這些詞一般不參與構(gòu)成短語(yǔ)。本文通過(guò)實(shí)驗(yàn)總結(jié)了俄語(yǔ)停用詞性表和停用單詞表,據(jù)此刪除文本中的停用詞,輸出單詞串的集合。

    4.1 停用詞性刪除

    停用詞性是指一般不參與短詞構(gòu)詞的詞性。本文基于大量詞語(yǔ)提取實(shí)驗(yàn)的結(jié)果,結(jié)合俄語(yǔ)構(gòu)詞與中文、英文構(gòu)詞的異同,計(jì)算各個(gè)俄語(yǔ)詞性的構(gòu)詞率,將構(gòu)詞率低的詞性作為停用詞性。其中,構(gòu)詞率是指包含該詞性單詞的詞串是短語(yǔ)的概率[2]。表1列舉了各俄語(yǔ)詞性的構(gòu)詞率。

    表1中的副詞和介詞的構(gòu)詞率計(jì)算僅考慮那些參與構(gòu)詞的副詞和介詞。由于俄語(yǔ)的部分副詞和介詞也參與構(gòu)詞,如副詞нетто(凈)、дешево(輕易地)、особенно(特殊地)、плотно(努力地)、долго(長(zhǎng)時(shí)間地),介詞с(with/and/from/of)、об(about/of)、о(of/about/against)、из(from/of/in)等,本文將副詞和介詞設(shè)為停用詞性,但保留那些參與構(gòu)詞的副詞和介詞。這樣可以保證所提取詞語(yǔ)的完整性以及詞語(yǔ)提取結(jié)果的召回率。

    4.2 停用單詞刪除

    本文參考NLTK[33]的俄語(yǔ)停用單詞表,并通過(guò)大量詞語(yǔ)提取實(shí)驗(yàn)總結(jié)出俄語(yǔ)停用單詞表。圖4為對(duì)圖3中的文本刪除停用詞性詞和停用單詞后所形成的單詞串集合。

    5 候選詞語(yǔ)提取

    候選詞語(yǔ)提取模塊,統(tǒng)計(jì)頻繁共現(xiàn)的單詞串,并依據(jù)不成詞詞典和不成詞規(guī)則篩選頻繁詞串,輸出候選詞語(yǔ)集合。

    5.1 頻繁詞串提取

    該步驟以單詞為步長(zhǎng)提取頻繁詞串。其中,頻繁詞串是指共現(xiàn)頻次超出閾值的單詞序列。由于一些頻繁詞串僅作為子串出現(xiàn),沒有單獨(dú)成詞,所以本文在串頻統(tǒng)計(jì)的基礎(chǔ)上執(zhí)行子串刪除操作。頻繁詞串提取的基本思想是:頻繁共現(xiàn)的單詞串可能成詞;僅作為子串出現(xiàn)的頻繁詞串比其父串的成詞可能性小。頻繁詞串提取算法如圖5所示。

    對(duì)圖3中的文本,將頻繁詞串提取算法中的頻次閾值設(shè)為2,可以提取出6個(gè)頻繁詞串,如表2所示。其中,子串刪除操作刪除了9個(gè)詞串,包括:僅單獨(dú)出現(xiàn)1次的“данные(數(shù)據(jù))”“набор(集合)”和僅作為子串出現(xiàn)的“алгоритм(算法)”“добыча(挖掘)”“анализировать(分析)”“обучать(訓(xùn)練)”“тестовый(測(cè)試)”“алгоритм добыча(挖掘算法)”和“добыча данный(數(shù)據(jù)挖掘)”。

    輸入:俄語(yǔ)單詞串集合和頻次閾值

    輸出:頻繁詞串

    (1) 對(duì)俄語(yǔ)單詞串集合中的每一單詞串WS,切分得到WS的所有子串,長(zhǎng)度優(yōu)先統(tǒng)計(jì)每一子串的出現(xiàn)頻次,將頻次大于閾值的詞串及其頻次加入Candidates;

    (2) 按所包含單詞的個(gè)數(shù)多少降序排列Candidates中的詞串;

    (3) 對(duì)Candidates的每一詞串CWS,從頭遍歷Candidates中CWS之前的每一詞串FWS,若FWS包含CWS,則更新CWS頻次=CWS頻次FWS頻次;//減去作為子串出現(xiàn)的頻次

    (4) 刪除Candidates中頻次小于閾值的詞串;//子串刪除

    (5) 按字母順序輸出Candidates。

    5.2 不成詞過(guò)濾

    該步驟通過(guò)不成詞規(guī)則和不成詞詞典兩種方式過(guò)濾頻繁詞串,得到候選詞語(yǔ)集合。所謂不成詞是指經(jīng)俄語(yǔ)專業(yè)人士判定不是詞語(yǔ)。不成詞規(guī)則是本文總結(jié)的俄語(yǔ)頻繁詞串不成詞的規(guī)則。如本文4.1所述,為了保證召回率,本文在刪除停用詞時(shí)保留了部分介詞。這導(dǎo)致部分頻繁詞串以介詞開頭或結(jié)尾,如“об оценка(about evaluation)”“о мера(about measure)”“из число(from the number)”“от имя(of the name)”等,這些候選詞語(yǔ)顯然是不成詞的。因此,本文設(shè)置了2條不成詞過(guò)濾的規(guī)則,包括:

    (1)刪除以“об”(about/of)或“о”(of/about/against)開頭或結(jié)尾的頻繁詞串,增加去除開頭或結(jié)尾的“об”或 “о”之后的子串作為頻繁詞串;

    (2)刪除以“из”(from/of/in)或“от”(from/of/for)開頭的頻繁詞串,增加去除開頭的“из”或“от”的子串作為頻繁詞串。

    不成詞詞典是經(jīng)俄語(yǔ)專業(yè)人士判定為不成詞的頻繁詞串,該詞典將隨著人工判定工作的積累而不斷擴(kuò)充。隨著不成詞詞典的豐富,本文的俄語(yǔ)文本詞語(yǔ)提取方法的準(zhǔn)確率將逐步提高。

    頻繁詞串經(jīng)不成詞過(guò)濾之后即得到了候選詞語(yǔ)集合,可用作文本挖掘應(yīng)用的文本建模階段的詞庫(kù)。若需要精準(zhǔn)的詞語(yǔ)提取結(jié)果,則把候選詞語(yǔ)集合交由俄語(yǔ)專業(yè)人士進(jìn)行人工判定,選取最終的詞語(yǔ)集合,并把人工判定不成詞的候選詞語(yǔ)加入不成詞詞典。

    6 實(shí)驗(yàn)分析

    目前,俄語(yǔ)文本詞語(yǔ)提取方法研究還沒有標(biāo)準(zhǔn)的實(shí)驗(yàn)分析語(yǔ)料或評(píng)價(jià)指標(biāo),為了說(shuō)明本文方法的性能,采用兩個(gè)不同類型的語(yǔ)料庫(kù)對(duì)比本文方法與常用的ngram俄語(yǔ)文本詞語(yǔ)提取方法,分別計(jì)算兩種方法的成詞數(shù)目與準(zhǔn)確率。

    6.1 實(shí)驗(yàn)語(yǔ)料

    本文采用兩種題材不同的文本語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn):聯(lián)合國(guó)平行語(yǔ)料庫(kù)(The United Nations Parallel Corpus)[34]和Taiga Corpus語(yǔ)料庫(kù)[35]。對(duì)于聯(lián)合國(guó)平行語(yǔ)料庫(kù),隨機(jī)選取2014年的俄語(yǔ)文本200篇,內(nèi)容為涉及科技、經(jīng)濟(jì)等多個(gè)主題的聯(lián)合國(guó)會(huì)議記錄。對(duì)于Taiga Corpus語(yǔ)料庫(kù),本文選用20Nplus1語(yǔ)料中2016年12月到2017年1月的文本共280篇,內(nèi)容為涉及科學(xué)、數(shù)學(xué)等主題的雜志文章。

    6.2 評(píng)價(jià)指標(biāo)

    文本挖掘方法的常用評(píng)價(jià)指標(biāo)是準(zhǔn)確率和召回率。其中,衡量文本詞語(yǔ)提取方法的準(zhǔn)確率是指候選詞語(yǔ)中經(jīng)人工判定成詞的比例。召回率是指經(jīng)人工判定成詞的候選詞語(yǔ)占文本中出現(xiàn)的全部詞語(yǔ)的比例。由于目前尚沒有經(jīng)過(guò)人工精確標(biāo)注的語(yǔ)料庫(kù),無(wú)法確定語(yǔ)料中出現(xiàn)的全部詞語(yǔ)數(shù)量,因此,本文采用正確提取詞語(yǔ)的數(shù)目來(lái)代替召回率評(píng)價(jià)指標(biāo)。

    為了提高人工判別的準(zhǔn)確性,請(qǐng)兩名俄語(yǔ)專業(yè)人士分別獨(dú)立判別候選詞語(yǔ)是否成詞,然后對(duì)判別結(jié)果不同的候選詞語(yǔ)進(jìn)行第二輪人工判別,直至消除異議。其中,第一輪人工判別階段出現(xiàn)異議的情況約為1.5%??梢?,在自動(dòng)提取得到的候選詞語(yǔ)是否能夠成詞方面,俄語(yǔ)專業(yè)人士的共識(shí)度是很高的。

    6.3 實(shí)驗(yàn)分析

    為了驗(yàn)證本文方法的有效性,實(shí)驗(yàn)采用本文方法和俄語(yǔ)文本詞語(yǔ)提取常用的ngram方法分別對(duì)兩個(gè)實(shí)驗(yàn)語(yǔ)料做詞語(yǔ)提取的對(duì)比分析。由于俄語(yǔ)短語(yǔ)提取的性能決定著俄語(yǔ)文本詞語(yǔ)提取效果,因此本文實(shí)驗(yàn)結(jié)果的準(zhǔn)確率僅考慮俄語(yǔ)短語(yǔ)的提取。

    公平起見,兩種方法采用相同的文本預(yù)處理和停用詞刪除操作,且本文方法提取得到的候選詞語(yǔ)未經(jīng)不成詞詞典的篩選。對(duì)于聯(lián)合國(guó)平行語(yǔ)料庫(kù),頻繁詞串提取階段的頻次閾值設(shè)為3;對(duì)于Taiga Corpus語(yǔ)料,頻次閾值設(shè)為2。本文方法與ngram方法在兩個(gè)語(yǔ)料上的實(shí)驗(yàn)結(jié)果如表3所示。

    對(duì)表3的說(shuō)明:

    (1)表中“自動(dòng)提詞數(shù)目”為自動(dòng)提取所得到的候選詞語(yǔ)的數(shù)目,“成詞數(shù)目”為候選詞語(yǔ)中由俄語(yǔ)專業(yè)人士人工判斷為成詞的數(shù)目。

    (2)由于本文方法自動(dòng)提取所得的候選詞語(yǔ)的最大長(zhǎng)度為12(包含單詞的個(gè)數(shù)),因此,將ngram的n設(shè)為2至12。而已有研究中,因?yàn)閚的不確定性,常把n設(shè)為2或3,大大減少了自動(dòng)提詞的數(shù)目,因而召回率遠(yuǎn)低于本文方法。

    (3)將n設(shè)為2至12時(shí),ngram的提詞結(jié)果即為本文方法中未經(jīng)子串刪除的頻繁詞串集合。這些僅作為子串出現(xiàn)的詞串,不僅成詞可能性比其父串小,而且可能影響后續(xù)的文本挖掘結(jié)果。如圖2,文本中的“добыча данный(數(shù)據(jù)挖掘)”僅作為“алгоритм добыча данный(數(shù)據(jù)挖掘算法)”的子串出現(xiàn),前者不僅不成詞,還可能因出現(xiàn)頻次更高而比后者更易成為代表文本的特征詞(關(guān)鍵詞/主題詞),但顯然后者更適合作為文本的特征詞。因此在人工判別階段,將ngram提詞結(jié)果中僅作為子串出現(xiàn)的頻繁詞串皆判定為不成詞。

    (4)本文方法在Taiga Corpus語(yǔ)料上的準(zhǔn)確率略低于聯(lián)合國(guó)平行語(yǔ)料,主要原因在于本文方法的性能受停用單詞表完善程度的影響。后續(xù)隨著停用單詞表的補(bǔ)充,本文方法的性能將進(jìn)一步提高。

    由實(shí)驗(yàn)可知,在俄語(yǔ)文本詞語(yǔ)提取方面,本文方法的準(zhǔn)確率遠(yuǎn)高于ngram方法,且本文方法克服了ngram方法需要人工指定n的缺陷,比ngram的自動(dòng)化程度更高。本文方法較優(yōu)的主要原因是:①刪除僅作為子串出現(xiàn)的詞串;②根據(jù)俄語(yǔ)語(yǔ)法設(shè)置不成詞規(guī)則,刪除部分頻繁詞串。被刪除的這兩類詞串不是獨(dú)立出現(xiàn),成詞率低,且不適宜作為文本的特征詞??梢姡疚姆椒ú粌H能夠提高俄語(yǔ)文本詞語(yǔ)提取的準(zhǔn)確率,還將提高后續(xù)文本挖掘的效果。

    7 結(jié)論

    隨著“一帶一路”倡議的推進(jìn)和全球化進(jìn)程的加快,俄語(yǔ)文本數(shù)據(jù)挖掘成為有關(guān)組織管理決策的重要方法。俄語(yǔ)文本詞語(yǔ)提取是俄語(yǔ)文本挖掘的關(guān)鍵基礎(chǔ),前者的結(jié)果直接影響后者的準(zhǔn)確性。針對(duì)當(dāng)前國(guó)際上專門的俄語(yǔ)文本詞語(yǔ)提取方法研究較少的現(xiàn)狀,本文研究了一種融合多策略的俄語(yǔ)文本詞語(yǔ)提取方法,用于自動(dòng)提取待分析俄語(yǔ)文檔中的詞語(yǔ)集合,構(gòu)建文本建模階段所需的詞庫(kù),支持俄語(yǔ)文本主題發(fā)現(xiàn)和俄語(yǔ)文本分/聚類等文本挖掘應(yīng)用。

    本文方法結(jié)合俄語(yǔ)詞性分析、語(yǔ)法規(guī)則和串頻統(tǒng)計(jì)等多種策略,實(shí)現(xiàn)俄語(yǔ)文本詞語(yǔ)的自動(dòng)提取。該方法首先將輸入的俄語(yǔ)文檔預(yù)處理為適用于詞語(yǔ)提取的標(biāo)準(zhǔn)化文本,接著基于實(shí)驗(yàn)總結(jié)的俄語(yǔ)停用詞性和停用單詞表將文本切分為俄語(yǔ)單詞串集合,然后結(jié)合串頻統(tǒng)計(jì)和子串刪除的統(tǒng)計(jì)方法提取頻繁詞串,并根據(jù)不成詞詞典和俄語(yǔ)語(yǔ)法的不成詞規(guī)則進(jìn)一步過(guò)濾,所得到的候選詞語(yǔ)集合可直接用作文本挖掘應(yīng)用的詞庫(kù)。

    對(duì)不同題材的語(yǔ)料庫(kù)進(jìn)行詞語(yǔ)提取的實(shí)驗(yàn)結(jié)果表明,本文提出的俄語(yǔ)文本詞語(yǔ)提取方法在保證召回率的同時(shí),準(zhǔn)確率遠(yuǎn)高于ngram方法;克服了ngram方法需要人工指定n的缺陷;且本文方法提取得到的詞語(yǔ)集合更適用于文本挖掘應(yīng)用。但是,本文方法的詞語(yǔ)提取結(jié)果受到停用單詞表完善程度的影響,因此,未來(lái)還需通過(guò)實(shí)驗(yàn)進(jìn)一步總結(jié)和豐富停用單詞表。

    參考文獻(xiàn)

    [1] JACKENDOFF R, CYNX J. The architecture of the language faculty[J]. Quarterly Review of Biology, 1997, 7(74): 1-8.

    [2] FIROOZEH N, NAZARENKO A, ALIZON F. Keyword extraction: Issues and methods [J]. Natural Language Engineering, 2020, 26(3):259-291.

    [3] VILLAVICENCIO A, IDIART M. Discovering multiword expressions[J]. Natural Language Engineering, 2019, 25(6): 715-733.

    [4] 于娟, 黨延忠. 結(jié)合詞性分析與串頻統(tǒng)計(jì)的詞語(yǔ)提取方法[J]. 系統(tǒng)工程理論與實(shí)踐, 2010, 30(1): 105-111.

    [5] HASAN K S, NG V. Automatic keyphrase extraction: A survey of the state of the art [C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,ACL 2014. Baltimore, Maryland, USA:ACL Press, 2014: 1262-1273.

    [6] LOUKACHEVITCH N, PARKHOMENKO E, LOUKACHEVITCH N. Evaluating distributional features for multiword expression recognition [C]//21st International Conference on Text, Speech, and Dialogue, TSD 2018. Brno, Czech Republic: Springer, Cham, 2018: 126-134.

    [7] 李峰, 易綿竹. 面向俄文NLP的形態(tài)自動(dòng)分析研究與實(shí)現(xiàn)[J]. 中文信息學(xué)報(bào), 2011, 25(5): 68-75.

    [8] GOLDSMITH J. Unsupervised learning of the morphology of a natural language[J]. Computational linguistics, 2001, 27(2): 153-198.

    [9] ЛАПШИН С В, ЛЕБЕДЕВ И С. Метод полуавтоматического формирования словаря морфологических описаний слов[J]. Научнотехнический вестник информационных технологий, механики и оптики, 2012, 5(81): 104-107.

    [10] Yandex. MyStem [EB/OL]. [2021-01-07]. https://yandex.ru/dev/mystem.

    [11] SEGALOVICH I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a Web search engine[C]//International Conference on Machine Learning Models. DBLP, 2003. Las Vegas, Nevada: Springer, Cham, 2003:273-280.

    [12] KOROBOV M. pymorphy2 [EB/OL]. [2021-01-07]. https://pypi.org/project/pymorphy2.

    [13] KHACHAY M Y, KONSTANTINOVA N, PANCHENKO A, et al. Morphological analyzer and generator for Russian and Ukrainian languages [C]//International Conference on Analysis of Images, Social Networks and Texts. Yekaterinburg, Russia:Springer, Cham, 2015: 320-332.

    [14] ЛУКАШЕВИЧ Н В, ГЕРАСИМОВА А А. Определение устойчивых словосочетаний методом ассоциативного эксперимента [J]. Вестник Московского университета. Серия 9: Филология, 2018(1): 23-42.

    [15] JACQUEMIN C. Recycling terms into a partial parser [C]//Fourth Conference on Applied Natural Language Processing. Stuttgart, Germany: Association for Computational Linguistics, 1994: 113-118.

    [16] CHURCH K W, HANKS P. Word association norms, mutual information, and lexicography [J]. Computational linguistics, 1990, 16(1): 22-29.

    [17] DICE L R. Measures of the amount of ecologic association between species [J]. Ecology, 1945, 26(3): 297-302.

    [18] CHOUEKA Y. Looking for needles in a haystack or locating interesting collocational expressions in large textual databases[C]//Proceedings of the RIAO Conference on UserOriented ContentBased Text and Image Handling, 1988, Cambridge, Mass, 1988: 609-623.

    [19] SILVA J F D, LOPES G P, TORRE Q D, et al. A local maxima method and a fair dispersion normalization for extracting multiword units from corpora [C]//Sixth Meeting on Mathematics of Language. Orlando, USA, 1999: 369-381.

    [20] 陳建超, 鄭啟倫, 李慶陽(yáng), 等. 基于詞序列頻率有向網(wǎng)的中文組合詞提取算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2009, 26(10): 3746-3749.

    [21] 龔雙雙, 陳鈺楓, 徐金安, 等. 基于網(wǎng)絡(luò)文本的漢語(yǔ)多詞表達(dá)抽取方法[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2018, 53(9): 40-48.

    [22] FRANTZI K,ANANIADOU S.Extracting nested collocations[C]//Proceedings of the 16th Conference on Computational Linguistics.Copenhagen,Denmark,1996:41-46.

    [23] 唐亮, 李倩, 許洪波, 等. 基于多策略過(guò)濾的漢日多詞短語(yǔ)抽取和對(duì)齊[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2015, 50(9): 21-28.

    [24] 馬建紅, 姬帥, 劉碩. 面向?qū)@闹黝}短語(yǔ)提取[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2019, 40(5): 1365-1369.

    [25] 劉晨暉,張德生,胡鋼.基于Kert的中文主題關(guān)鍵短語(yǔ)提取算法[J].計(jì)算機(jī)應(yīng)用,2019,39(1):245-249.

    [26] RAHAMAN M M, AMIN M R. Language independent statistical approach for extracting keywords[C]//2017 4th International Conference on Advances in Electrical Engineering (ICAEE). Dhaka, Bangladesh: IEEE Press, 2017: 205-210.

    [27] RABBY G,AZAD S,MAHMUD M,et al.TeKET:a TreeBased Unsupervised Keyphrase Extraction Technique[J].Cognitive Computation,2020,12(6):811-833.

    [28] DOBROV B V, LOUKACHEVITCH N V. Multiple evidence for term extraction in broad domains[C]//Recent Advances in Natural Language Processing, Hissar, Bulgaria, 2011: 710-715.

    [29] WESTLING A, BRYNIELSSON J, GUSTAVI T. Mining the web for sympathy: the pussy riot case[C]//2014 IEEE Joint Intelligence and Security Informatics Conference. The Hague, Netherlands: IEEE, 2014: 123-128.

    [30] LAGUTINA K, LARIONOV V, PETRYAKOV V, et al. Sentiment classification of russian texts using automatically generated thesaurus [C]//Proceedings of the 23rd Conference of Open Innovations Association FRUCT. Bologna, Italy: IEEE Press, 2018: 13-16.

    [31] ХРАМЦОВ Н С. Проблематика оценивания алгоритмов автоматического извлечения ключевых слов [J]. Новые информационные технологии в автоматизированных системах,2019(22):199-203.

    [32] SCHMID H.TreeTaggerunimuenchen.de[EB/OL].[2021-03-31].https://cental.uclouvain.be/treetagger.

    [33] BIRD S, KLEIN E, LOPER E. NLTK [EB/OL]. [2020-04-13]. http://www.nltk.org.

    [34] ZIEMSKI M, JUNCZYS M, POULIQUEN B. The United Nations parallel corpus [C]//Language Resources and Evaluation in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC16), Portoro, Slovenia,2016.

    [35] SHAVRINA T, SHAPOVALOVA O.Taiga Corpus [EB/OL]. [2020-06-14]. https://github.com/TatianaShavrina/taiga_site.

    作者簡(jiǎn)介:于娟(1981—),女,博士,福州大學(xué)經(jīng)濟(jì)與管理學(xué)院教授,中國(guó)系統(tǒng)工程學(xué)會(huì)數(shù)據(jù)科學(xué)與知識(shí)系統(tǒng)工程專委會(huì)委員,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、信息與知識(shí)管理系統(tǒng),先后主持和完成多項(xiàng)國(guó)家自然科學(xué)基金和國(guó)家社會(huì)科學(xué)基金項(xiàng)目。通信方式:yujuan@fzu.edu.cn。

    唐菊香(1996—),女,福州大學(xué)經(jīng)濟(jì)與管理學(xué)院碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘與商務(wù)智能。通信方式:1767365964@qq.com。

    亚洲天堂av无毛| 99热全是精品| 自线自在国产av| 欧美精品高潮呻吟av久久| 性高湖久久久久久久久免费观看| 午夜福利在线免费观看网站| 人成视频在线观看免费观看| 一级毛片 在线播放| 国产精品欧美亚洲77777| 我要看黄色一级片免费的| 麻豆精品久久久久久蜜桃| 在线观看免费视频网站a站| 一级毛片黄色毛片免费观看视频| 日本vs欧美在线观看视频| 有码 亚洲区| 国产精品嫩草影院av在线观看| 91成人精品电影| 亚洲经典国产精华液单| 日韩av不卡免费在线播放| 精品午夜福利在线看| 咕卡用的链子| 免费少妇av软件| 在线天堂最新版资源| 精品国产一区二区久久| 人妻人人澡人人爽人人| 韩国高清视频一区二区三区| 老汉色av国产亚洲站长工具| 一区二区av电影网| 亚洲综合精品二区| 免费黄频网站在线观看国产| 天堂中文最新版在线下载| 日韩一卡2卡3卡4卡2021年| 国产1区2区3区精品| 香蕉精品网在线| 99re6热这里在线精品视频| 国产精品国产三级专区第一集| 国产亚洲午夜精品一区二区久久| 秋霞在线观看毛片| 亚洲精品美女久久久久99蜜臀 | 国产av一区二区精品久久| 国产女主播在线喷水免费视频网站| 久久久久视频综合| 色婷婷久久久亚洲欧美| 80岁老熟妇乱子伦牲交| 国产精品无大码| 成人漫画全彩无遮挡| 秋霞在线观看毛片| 岛国毛片在线播放| 99久久中文字幕三级久久日本| 精品卡一卡二卡四卡免费| 三上悠亚av全集在线观看| 日韩,欧美,国产一区二区三区| 午夜av观看不卡| 人人妻人人添人人爽欧美一区卜| 精品99又大又爽又粗少妇毛片| 成年人免费黄色播放视频| 日本午夜av视频| 久久精品久久精品一区二区三区| 欧美日韩亚洲高清精品| 丝袜美腿诱惑在线| 国产精品免费大片| 人妻少妇偷人精品九色| 国产午夜精品一二区理论片| 婷婷色综合大香蕉| 美国免费a级毛片| 极品少妇高潮喷水抽搐| 男女下面插进去视频免费观看| 啦啦啦在线观看免费高清www| 亚洲精品日本国产第一区| 日韩视频在线欧美| 国产成人精品无人区| 日韩制服骚丝袜av| 色婷婷久久久亚洲欧美| 日韩在线高清观看一区二区三区| 欧美日韩精品成人综合77777| 亚洲精品久久午夜乱码| 高清在线视频一区二区三区| 一级毛片黄色毛片免费观看视频| 久久久精品94久久精品| 国产精品蜜桃在线观看| 国产av码专区亚洲av| 99热网站在线观看| 777久久人妻少妇嫩草av网站| 久热这里只有精品99| 日韩av在线免费看完整版不卡| 欧美少妇被猛烈插入视频| 少妇人妻精品综合一区二区| 国产成人一区二区在线| 成人国产麻豆网| 久久午夜福利片| 男女午夜视频在线观看| av网站免费在线观看视频| 一级毛片电影观看| 国产一级毛片在线| 午夜福利在线免费观看网站| 熟女少妇亚洲综合色aaa.| 97人妻天天添夜夜摸| 男人添女人高潮全过程视频| 青草久久国产| 人人妻人人添人人爽欧美一区卜| 99久国产av精品国产电影| 高清欧美精品videossex| 婷婷色综合www| 日韩免费高清中文字幕av| 最近手机中文字幕大全| 国产 精品1| 99久久人妻综合| 午夜免费男女啪啪视频观看| 美女脱内裤让男人舔精品视频| 丝袜人妻中文字幕| 大码成人一级视频| av国产精品久久久久影院| a 毛片基地| 乱人伦中国视频| 久久亚洲国产成人精品v| 久久人妻熟女aⅴ| 亚洲美女视频黄频| 一级毛片我不卡| 国产xxxxx性猛交| 母亲3免费完整高清在线观看 | 涩涩av久久男人的天堂| 1024视频免费在线观看| 青青草视频在线视频观看| 久久久久久人妻| 最近中文字幕2019免费版| 啦啦啦在线观看免费高清www| 国产精品免费视频内射| 波野结衣二区三区在线| 欧美另类一区| 免费黄网站久久成人精品| 国产有黄有色有爽视频| 成人影院久久| 久久精品国产a三级三级三级| 天堂中文最新版在线下载| 久久久精品94久久精品| 黑人巨大精品欧美一区二区蜜桃| 狠狠婷婷综合久久久久久88av| 中文精品一卡2卡3卡4更新| 一级黄片播放器| 十八禁网站网址无遮挡| 久久久久视频综合| 天堂俺去俺来也www色官网| 国产亚洲精品第一综合不卡| 亚洲欧美精品自产自拍| 男女国产视频网站| 亚洲欧美一区二区三区国产| 久久久久精品人妻al黑| 啦啦啦在线观看免费高清www| 麻豆乱淫一区二区| 香蕉丝袜av| 国产激情久久老熟女| 在线观看www视频免费| 色94色欧美一区二区| 少妇的丰满在线观看| 亚洲欧美精品综合一区二区三区 | 97在线视频观看| 超碰97精品在线观看| 夫妻性生交免费视频一级片| 一边亲一边摸免费视频| 精品99又大又爽又粗少妇毛片| 久久人妻熟女aⅴ| 中文字幕最新亚洲高清| 久久久国产欧美日韩av| 街头女战士在线观看网站| 毛片一级片免费看久久久久| 18+在线观看网站| 欧美人与性动交α欧美精品济南到 | 曰老女人黄片| 亚洲精品美女久久久久99蜜臀 | 久久精品久久久久久噜噜老黄| 午夜福利影视在线免费观看| 考比视频在线观看| 成人国产av品久久久| 伊人久久国产一区二区| 国产黄频视频在线观看| 中文字幕精品免费在线观看视频| 亚洲久久久国产精品| 日韩制服骚丝袜av| 狂野欧美激情性bbbbbb| 色网站视频免费| 夫妻午夜视频| 亚洲国产成人一精品久久久| 日韩av不卡免费在线播放| 日日摸夜夜添夜夜爱| 久久久国产欧美日韩av| 免费高清在线观看视频在线观看| 超碰成人久久| 美女高潮到喷水免费观看| 国产一区亚洲一区在线观看| 久久精品久久久久久久性| 最近中文字幕2019免费版| 国产片内射在线| 熟妇人妻不卡中文字幕| 男女下面插进去视频免费观看| 观看美女的网站| 在线观看人妻少妇| 看非洲黑人一级黄片| 亚洲国产色片| 看十八女毛片水多多多| 9色porny在线观看| 秋霞伦理黄片| 亚洲伊人久久精品综合| 国产一级毛片在线| 国产黄色免费在线视频| 亚洲av免费高清在线观看| 亚洲国产精品999| 久久这里只有精品19| 国产一区二区 视频在线| 伊人久久大香线蕉亚洲五| 成人毛片a级毛片在线播放| 国精品久久久久久国模美| 欧美97在线视频| 69精品国产乱码久久久| 色婷婷久久久亚洲欧美| 亚洲经典国产精华液单| av天堂久久9| 精品亚洲成国产av| 99香蕉大伊视频| 女性被躁到高潮视频| 91精品三级在线观看| 亚洲成国产人片在线观看| 激情视频va一区二区三区| 成人亚洲精品一区在线观看| 黄色怎么调成土黄色| www.自偷自拍.com| 超色免费av| 午夜老司机福利剧场| 宅男免费午夜| 欧美日韩亚洲国产一区二区在线观看 | 精品一区二区免费观看| 另类精品久久| 亚洲激情五月婷婷啪啪| www日本在线高清视频| 亚洲精品美女久久av网站| 有码 亚洲区| 韩国精品一区二区三区| 亚洲精品久久久久久婷婷小说| 欧美日韩国产mv在线观看视频| 久久久欧美国产精品| 十分钟在线观看高清视频www| 国产精品国产三级国产专区5o| 欧美日韩一区二区视频在线观看视频在线| 91精品国产国语对白视频| 精品人妻在线不人妻| 精品久久久久久电影网| 在线亚洲精品国产二区图片欧美| 亚洲激情五月婷婷啪啪| 中文乱码字字幕精品一区二区三区| 九草在线视频观看| 国产精品欧美亚洲77777| 久久精品国产鲁丝片午夜精品| 日韩av不卡免费在线播放| 青青草视频在线视频观看| 黄色 视频免费看| 国产成人午夜福利电影在线观看| 满18在线观看网站| 七月丁香在线播放| a级毛片黄视频| 国产一区二区三区综合在线观看| 欧美人与性动交α欧美精品济南到 | 观看美女的网站| 亚洲欧美色中文字幕在线| 国产成人精品久久二区二区91 | 看非洲黑人一级黄片| 王馨瑶露胸无遮挡在线观看| 国产乱人偷精品视频| 欧美激情高清一区二区三区 | 青青草视频在线视频观看| 狠狠精品人妻久久久久久综合| 午夜福利在线免费观看网站| 国产精品人妻久久久影院| 欧美日韩精品网址| 伦精品一区二区三区| 国产亚洲欧美精品永久| 少妇精品久久久久久久| 亚洲av.av天堂| 国产精品蜜桃在线观看| 亚洲色图 男人天堂 中文字幕| 国产 精品1| 一级毛片黄色毛片免费观看视频| 精品国产国语对白av| 高清视频免费观看一区二区| 搡老乐熟女国产| 青春草视频在线免费观看| 精品一区二区免费观看| 伊人久久大香线蕉亚洲五| 中文欧美无线码| 水蜜桃什么品种好| 免费观看在线日韩| 高清欧美精品videossex| 看十八女毛片水多多多| 国产1区2区3区精品| 国产成人一区二区在线| 久久热在线av| 国产精品不卡视频一区二区| 欧美精品av麻豆av| 18+在线观看网站| 一级片'在线观看视频| 久久精品国产a三级三级三级| 国产精品一国产av| 蜜桃国产av成人99| 男人操女人黄网站| 免费看av在线观看网站| 亚洲美女黄色视频免费看| 一二三四在线观看免费中文在| 制服丝袜香蕉在线| 超碰成人久久| 人体艺术视频欧美日本| av电影中文网址| 国产免费现黄频在线看| 亚洲成人手机| 国产男女超爽视频在线观看| 王馨瑶露胸无遮挡在线观看| 国产在线免费精品| 91精品国产国语对白视频| 99re6热这里在线精品视频| 亚洲欧洲精品一区二区精品久久久 | 国产爽快片一区二区三区| 亚洲精品日韩在线中文字幕| 97精品久久久久久久久久精品| 亚洲一码二码三码区别大吗| 色婷婷久久久亚洲欧美| 看十八女毛片水多多多| 黑人猛操日本美女一级片| 久久久精品区二区三区| 最新中文字幕久久久久| 丝袜脚勾引网站| 黄色配什么色好看| 国产人伦9x9x在线观看 | 如日韩欧美国产精品一区二区三区| 99久国产av精品国产电影| 精品少妇黑人巨大在线播放| 国产精品人妻久久久影院| 少妇熟女欧美另类| 精品国产露脸久久av麻豆| 久久精品久久精品一区二区三区| 久热这里只有精品99| av片东京热男人的天堂| 婷婷成人精品国产| 精品福利永久在线观看| 热re99久久国产66热| 久热这里只有精品99| 久久久久久伊人网av| 亚洲av综合色区一区| 纵有疾风起免费观看全集完整版| av国产精品久久久久影院| 日韩在线高清观看一区二区三区| 亚洲美女视频黄频| 国产精品免费视频内射| 日本免费在线观看一区| 我的亚洲天堂| 精品一品国产午夜福利视频| 日日撸夜夜添| 蜜桃国产av成人99| 欧美xxⅹ黑人| 日日爽夜夜爽网站| 精品国产一区二区三区四区第35| 26uuu在线亚洲综合色| 国产精品国产三级国产专区5o| 免费观看av网站的网址| 啦啦啦在线免费观看视频4| 精品人妻在线不人妻| 日韩 亚洲 欧美在线| 少妇 在线观看| 国产男女内射视频| 一级毛片电影观看| 狂野欧美激情性bbbbbb| 国产野战对白在线观看| 久久久久国产网址| 国产精品偷伦视频观看了| 亚洲,一卡二卡三卡| 亚洲精品第二区| 久热这里只有精品99| 一区在线观看完整版| 日本猛色少妇xxxxx猛交久久| 亚洲国产欧美网| 在线亚洲精品国产二区图片欧美| 国产爽快片一区二区三区| 亚洲国产毛片av蜜桃av| 亚洲av电影在线进入| 亚洲综合色网址| 99久国产av精品国产电影| 亚洲国产精品成人久久小说| 国产精品99久久99久久久不卡 | 色吧在线观看| 精品久久久精品久久久| 久久久久久久亚洲中文字幕| 人成视频在线观看免费观看| 97在线视频观看| 亚洲三区欧美一区| 热99久久久久精品小说推荐| 91国产中文字幕| 热re99久久国产66热| 久久久国产欧美日韩av| 欧美精品人与动牲交sv欧美| 黑人猛操日本美女一级片| 在线观看www视频免费| 大香蕉久久网| 亚洲av男天堂| 免费日韩欧美在线观看| 80岁老熟妇乱子伦牲交| 成人毛片60女人毛片免费| 久久久久国产一级毛片高清牌| 一二三四中文在线观看免费高清| 亚洲国产最新在线播放| 9191精品国产免费久久| 久久精品夜色国产| 国产免费又黄又爽又色| 久久精品国产亚洲av涩爱| 精品国产一区二区三区久久久樱花| 这个男人来自地球电影免费观看 | 久久久久久伊人网av| 精品久久久精品久久久| 成年女人在线观看亚洲视频| 精品福利永久在线观看| 亚洲国产精品一区三区| 婷婷色av中文字幕| 美女高潮到喷水免费观看| 精品一区二区三区四区五区乱码 | 成人午夜精彩视频在线观看| 欧美亚洲 丝袜 人妻 在线| 午夜免费鲁丝| 高清在线视频一区二区三区| 最近最新中文字幕大全免费视频 | 亚洲欧美成人综合另类久久久| 天天躁夜夜躁狠狠躁躁| 美女国产视频在线观看| 国产一区有黄有色的免费视频| 成年女人毛片免费观看观看9 | 在线 av 中文字幕| 欧美日韩成人在线一区二区| 激情视频va一区二区三区| 免费观看a级毛片全部| 如何舔出高潮| 亚洲国产av影院在线观看| 97在线人人人人妻| 精品午夜福利在线看| 美女中出高潮动态图| 有码 亚洲区| 日韩在线高清观看一区二区三区| 美女xxoo啪啪120秒动态图| 制服丝袜香蕉在线| xxx大片免费视频| 美女国产高潮福利片在线看| 日韩在线高清观看一区二区三区| 国产日韩一区二区三区精品不卡| 欧美+日韩+精品| 亚洲 欧美一区二区三区| 国产精品.久久久| videossex国产| 亚洲精品一二三| 国产极品天堂在线| 精品少妇内射三级| 在线天堂最新版资源| 亚洲国产色片| 一区二区三区精品91| 国产精品久久久久久精品古装| 99香蕉大伊视频| 乱人伦中国视频| 少妇的丰满在线观看| 国产淫语在线视频| 亚洲国产精品一区三区| 90打野战视频偷拍视频| 亚洲一区中文字幕在线| 国产极品天堂在线| www.自偷自拍.com| 少妇的丰满在线观看| 少妇被粗大的猛进出69影院| 亚洲情色 制服丝袜| 在线天堂中文资源库| 9191精品国产免费久久| 欧美精品一区二区大全| 日韩一区二区三区影片| 久久精品国产自在天天线| 乱人伦中国视频| 一级片'在线观看视频| 两个人免费观看高清视频| 黑人欧美特级aaaaaa片| 国产免费现黄频在线看| 欧美国产精品va在线观看不卡| 精品人妻偷拍中文字幕| 欧美日韩亚洲高清精品| 中国三级夫妇交换| 成人午夜精彩视频在线观看| av在线播放精品| 你懂的网址亚洲精品在线观看| 久久久久网色| 波多野结衣一区麻豆| 男女午夜视频在线观看| 日韩av免费高清视频| 国产精品不卡视频一区二区| 国产1区2区3区精品| 肉色欧美久久久久久久蜜桃| 久久久久国产精品人妻一区二区| 日本午夜av视频| 高清在线视频一区二区三区| 欧美另类一区| 国产精品.久久久| www日本在线高清视频| freevideosex欧美| 18禁观看日本| xxx大片免费视频| 亚洲第一青青草原| 嫩草影院入口| 交换朋友夫妻互换小说| 国产精品蜜桃在线观看| 最黄视频免费看| 午夜福利视频在线观看免费| 男女高潮啪啪啪动态图| 国产成人精品福利久久| 亚洲av免费高清在线观看| 最新的欧美精品一区二区| 国产欧美日韩一区二区三区在线| 99久久中文字幕三级久久日本| 成年女人在线观看亚洲视频| xxxhd国产人妻xxx| 中文字幕另类日韩欧美亚洲嫩草| 在线免费观看不下载黄p国产| 观看av在线不卡| 在线观看人妻少妇| 久久ye,这里只有精品| 十八禁网站网址无遮挡| 欧美国产精品va在线观看不卡| 国产精品成人在线| 高清在线视频一区二区三区| 大码成人一级视频| 国产深夜福利视频在线观看| 大香蕉久久成人网| 亚洲精品一区蜜桃| √禁漫天堂资源中文www| 国产一区二区三区综合在线观看| 国语对白做爰xxxⅹ性视频网站| 一级片免费观看大全| 晚上一个人看的免费电影| 国产精品人妻久久久影院| 欧美老熟妇乱子伦牲交| 午夜日韩欧美国产| 天天躁夜夜躁狠狠久久av| 男人舔女人的私密视频| 午夜激情久久久久久久| 亚洲成av片中文字幕在线观看 | 伦精品一区二区三区| 亚洲国产欧美网| 亚洲精品自拍成人| 日日啪夜夜爽| 精品一区在线观看国产| 久久精品人人爽人人爽视色| 欧美 亚洲 国产 日韩一| 欧美日韩成人在线一区二区| 涩涩av久久男人的天堂| 亚洲欧洲精品一区二区精品久久久 | 午夜日韩欧美国产| 国产精品 国内视频| 欧美成人午夜免费资源| 欧美国产精品一级二级三级| www.av在线官网国产| 黄色视频在线播放观看不卡| 又大又黄又爽视频免费| 在线观看免费视频网站a站| 国产av国产精品国产| 在线看a的网站| 美女视频免费永久观看网站| av网站在线播放免费| 高清视频免费观看一区二区| 毛片一级片免费看久久久久| 欧美精品一区二区大全| 伊人久久大香线蕉亚洲五| 国产精品免费大片| 国产一区二区激情短视频 | 国产欧美日韩综合在线一区二区| 欧美在线黄色| 亚洲精品久久午夜乱码| 亚洲av日韩在线播放| 国产成人欧美| av网站在线播放免费| 国产精品.久久久| 亚洲精品第二区| 成人国产av品久久久| 色网站视频免费| 99热全是精品| 国产97色在线日韩免费| 亚洲男人天堂网一区| 免费在线观看视频国产中文字幕亚洲 | 黄片播放在线免费| 免费女性裸体啪啪无遮挡网站| 美女视频免费永久观看网站| 亚洲内射少妇av| 国产成人精品福利久久| 一级黄片播放器| 女人精品久久久久毛片| 精品少妇黑人巨大在线播放| 在线 av 中文字幕| 亚洲av成人精品一二三区| 日韩一区二区视频免费看| 久久午夜福利片| 91aial.com中文字幕在线观看| 久久狼人影院| 国产精品久久久久久av不卡| 91午夜精品亚洲一区二区三区| 亚洲美女搞黄在线观看| 欧美精品av麻豆av| 欧美激情高清一区二区三区 | 黄色一级大片看看| 九色亚洲精品在线播放| 国产极品粉嫩免费观看在线| 欧美老熟妇乱子伦牲交| www日本在线高清视频| 日韩中字成人| 两个人免费观看高清视频| av电影中文网址| 亚洲色图 男人天堂 中文字幕| 日韩欧美一区视频在线观看| 国产免费一区二区三区四区乱码| 只有这里有精品99| 国产又爽黄色视频|