• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于預(yù)訓(xùn)練語(yǔ)言模型的繁體古文自動(dòng)句讀研究

    2023-10-25 02:22:44唐雪梅陳雨航
    中文信息學(xué)報(bào) 2023年8期
    關(guān)鍵詞:句讀斷句標(biāo)點(diǎn)

    唐雪梅, 蘇 祺, 王 軍,4, 陳雨航, 楊 浩

    (1. 北京大學(xué) 信息管理系,北京 100871; 2. 北京大學(xué)數(shù)字人文研究中心,北京 100871;3. 北京大學(xué) 外國(guó)語(yǔ)學(xué)院,北京 100871; 4. 北京大學(xué) 人工智能研究院, 北京100871)

    0 引言

    中華文明歷史悠久,古典文籍浩如煙海。古籍具有極高的文獻(xiàn)價(jià)值和學(xué)術(shù)價(jià)值,古籍整理是連接現(xiàn)代和歷史的橋梁,有利于民族文化的傳承和研究。而古人在著書時(shí)一般不使用標(biāo)點(diǎn),現(xiàn)存的許多古籍也沒有斷句和標(biāo)點(diǎn),這給讀者閱讀學(xué)習(xí)和學(xué)者研究古籍造成了障礙。所謂 “凡訓(xùn)蒙,須講究,詳訓(xùn)詁,明句讀”,即是說句讀是古人求學(xué)問道的基礎(chǔ)。傳統(tǒng)的古籍句讀工作主要依靠人工,但人工句讀對(duì)標(biāo)注者的古漢語(yǔ)素養(yǎng)要求較高,一般人難以勝任。且中國(guó)古代典籍?dāng)?shù)量眾多,人工句讀效率低,短時(shí)間內(nèi)無法完成批量典籍的句讀工作。計(jì)算機(jī)自動(dòng)句讀可以有效地解決以上兩個(gè)問題。古文自動(dòng)句讀是指根據(jù)古代漢語(yǔ)句子特點(diǎn),結(jié)合現(xiàn)代漢語(yǔ)的標(biāo)點(diǎn)符號(hào)用法,讓計(jì)算機(jī)自動(dòng)切割、斷開連續(xù)的文本字符序列為句,然后加標(biāo)點(diǎn)的過程[1]。

    古文自動(dòng)句讀經(jīng)歷30多年的發(fā)展,從基于規(guī)則的方法逐漸發(fā)展到基于深度學(xué)習(xí)的方法。由于目前沒有公開的大規(guī)模的繁體古文語(yǔ)料庫(kù),且整理過的古籍散落在不同的語(yǔ)料庫(kù)或者出版社數(shù)據(jù)庫(kù),難以收集到大量整理過的繁體古籍文本,所以目前古文自動(dòng)斷句的研究基本都是針對(duì)簡(jiǎn)體漢字文本,如王博立[2]、胡韌奮[3]、俞敬松[4]等人的研究。而現(xiàn)存很多未被整理的古籍都是繁體漢字,若將繁體轉(zhuǎn)為簡(jiǎn)體再做句讀,繁簡(jiǎn)轉(zhuǎn)化的錯(cuò)誤可能會(huì)延續(xù)到句讀的結(jié)果中。同時(shí)現(xiàn)在常用在古籍任務(wù)中的預(yù)訓(xùn)練語(yǔ)言模型[5-6]都有固定的詞表,詞表中包含的繁體字較少,在詞表之外的繁體字會(huì)被替換成特殊字符,造成語(yǔ)義的缺失,會(huì)影響任務(wù)效果。因此構(gòu)建一個(gè)專門用于繁體古文的句讀模型是有必要的。斷句之后的古籍文本方便閱讀研究,標(biāo)點(diǎn)之后的文本有助于整理出版,現(xiàn)有研究較多集中在自動(dòng)斷句[3,7],俞敬松等[4]雖然同時(shí)關(guān)注自動(dòng)斷句和自動(dòng)標(biāo)點(diǎn),但用于自動(dòng)標(biāo)點(diǎn)的訓(xùn)練語(yǔ)料規(guī)模較小,且標(biāo)點(diǎn)效果并不理想;釋賢超等[8]在不同朝代的不同類型語(yǔ)料上進(jìn)行自動(dòng)標(biāo)點(diǎn)研究,但其模型泛化能力有限。另一方面未經(jīng)整理的古籍文本篇幅較長(zhǎng),整篇文章連成整體居多,篇章級(jí)句讀是應(yīng)用環(huán)境下必須解決的問題?,F(xiàn)有的研究較少涉及篇章級(jí)斷句,胡軔奮等[3]的斷句模型以段落為單位,俞敬松等[4]提出以串行滑動(dòng)窗口方式處理長(zhǎng)文本句讀,但是該方法的句讀效率較低。

    本文的主要工作有以下三項(xiàng):

    (1) 本文整理了約10億字的繁體古文語(yǔ)料,基于整理的語(yǔ)料增量訓(xùn)練BERT[5]模型得到繁體古文預(yù)訓(xùn)練語(yǔ)言模型;

    (2) 基于繁體古文預(yù)訓(xùn)練語(yǔ)言模型,利用高質(zhì)量帶標(biāo)點(diǎn)繁體古文語(yǔ)料微調(diào)預(yù)訓(xùn)練語(yǔ)言模型,實(shí)現(xiàn)繁體古文的自動(dòng)句讀和自動(dòng)標(biāo)點(diǎn);

    (3) 基于前人的工作,本文改進(jìn)數(shù)據(jù)串行滑動(dòng)窗口方式進(jìn)行篇章級(jí)句讀,在一定程上提高了運(yùn)行效率;同時(shí)本文提出了一種數(shù)據(jù)并行的滑動(dòng)窗口方案,不僅保證了自動(dòng)句讀的準(zhǔn)確率,而且大幅度提高了篇章級(jí)句讀的運(yùn)行速率。

    1 相關(guān)研究

    古文自動(dòng)句讀的研究大致經(jīng)歷了三個(gè)發(fā)展階段,分別是基于規(guī)則的階段、基于統(tǒng)計(jì)方法的階段以及基于深度學(xué)習(xí)的階段。

    黃建年等[9]總結(jié)農(nóng)業(yè)古籍的斷句標(biāo)點(diǎn)規(guī)則,包括句法特征、詞法特征、引文特征等,利用規(guī)則在農(nóng)業(yè)古籍上進(jìn)行測(cè)試,斷句的準(zhǔn)確率為48%?;谝?guī)則的方法簡(jiǎn)單、易于理解,但是需要專家建立規(guī)則庫(kù),不僅費(fèi)時(shí)費(fèi)力,且規(guī)則的覆蓋面有限,只能用于處理小規(guī)模文本。

    陳天瑩等[10]采用基于上下文的N-gram模型對(duì)古文做句子切分,在《論語(yǔ)》上達(dá)到了81%的召回率、52%的準(zhǔn)確率。后續(xù)逐漸有學(xué)者將序列標(biāo)注算法應(yīng)用到自動(dòng)斷句任務(wù)中,黃瀚萱[11]比較了基于字的條件隨機(jī)場(chǎng)模型(Conditional Random Field,CRF)和隱馬爾可夫(Hidden Markou Model,HMM)模型在《孟子》《論語(yǔ)》上的斷句效果,發(fā)現(xiàn)CRF模型優(yōu)于HMM。張開旭等[12]在CRF的基礎(chǔ)上引入互信息和t-測(cè)試差,在《論語(yǔ)》和《史記》上訓(xùn)練斷句任務(wù),分別取得了0.762和 0.682的F1值。張合等[13]基于六字位標(biāo)記集,采用層疊CRF對(duì)《老子》《水經(jīng)注》《戰(zhàn)國(guó)策》《左傳》《赤壁賦》《出師表》等進(jìn)行斷句和標(biāo)點(diǎn),低層CRF模型用于識(shí)別句子邊界,高層CRF模型用于自動(dòng)標(biāo)點(diǎn)?;诮y(tǒng)計(jì)的方法主要依靠人工特征模板,但是古籍文體風(fēng)格多樣,年代跨度大,很難構(gòu)建一個(gè)適用于所有古籍的斷句模板,從而導(dǎo)致統(tǒng)計(jì)模型的泛化能力較弱。

    隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,陸續(xù)有學(xué)者將深度學(xué)習(xí)方法用于自動(dòng)句讀任務(wù)。循環(huán)神經(jīng)網(wǎng)絡(luò)具有時(shí)序性結(jié)構(gòu),相比于卷積神經(jīng)網(wǎng)絡(luò)能夠更好地處理長(zhǎng)文本,常用于序列標(biāo)注任務(wù)。王博立[2]在2.37億字規(guī)模的訓(xùn)練集上訓(xùn)練雙向GRU (Gate Recurrent Unit)模型,該模型在古文上的斷句F1值達(dá)75%。釋賢超等[8]在南北朝、隋、唐、宋、遼和明六個(gè)朝代的佛、道和儒典籍上比較了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的標(biāo)點(diǎn)效果,實(shí)驗(yàn)表明,LSTM的標(biāo)點(diǎn)效果好于CNN,在唐代的語(yǔ)料上標(biāo)點(diǎn)可以達(dá)到94.3%的準(zhǔn)確率。古文分詞需要建立在斷句的基礎(chǔ)之上,分步進(jìn)行容易造成錯(cuò)誤多級(jí)擴(kuò)散,程寧等[7]設(shè)計(jì)了斷句、分詞及詞性一體化標(biāo)注方法,利用Bi-LSTM模型同時(shí)訓(xùn)練斷句、分詞和詞性標(biāo)注三項(xiàng)任務(wù),發(fā)現(xiàn)一體化標(biāo)注方法在三個(gè)任務(wù)上的F1值均有提升。

    2018年谷歌提出了預(yù)訓(xùn)練語(yǔ)言模型BERT,通過精調(diào)在11項(xiàng)自然語(yǔ)言處理任務(wù)上的效果超過了之前的模型,自此古文句讀模型也逐漸轉(zhuǎn)向使用預(yù)訓(xùn)練語(yǔ)言模型階段。俞敬松等[4]利用3億7 000萬(wàn)殆知閣古文語(yǔ)料對(duì)BERT語(yǔ)言模型做斷句和標(biāo)點(diǎn)訓(xùn)練,分別在單一類別文本和復(fù)合文本上測(cè)試斷句,達(dá)到了89.97%和91.67%的F1值。在單一文本上測(cè)試,標(biāo)點(diǎn)F1值達(dá)到了70.4%。胡韌奮等[3]基于33億字古漢語(yǔ)語(yǔ)料訓(xùn)練了古文BERT模型,并比較了BERT+FCL、BERT+CRF、BERT+CNN等序列標(biāo)注方法在古文斷句任務(wù)上的表現(xiàn),發(fā)現(xiàn)BERT+CNN模型在詩(shī)、詞及古文三種文體上自動(dòng)斷句效果最好,分別達(dá)到了99%、95%、92%的F1值。

    以上研究已經(jīng)在自動(dòng)斷句任務(wù)上取得了較好的結(jié)果,但自動(dòng)標(biāo)點(diǎn)的效果還有待提升,并且對(duì)篇章級(jí)長(zhǎng)文本的自動(dòng)句讀關(guān)注較少。受前人研究啟發(fā),本文試圖將BERT模型用于繁體古文自動(dòng)句讀,但由于谷歌發(fā)布的中文BERT模型是基于簡(jiǎn)體現(xiàn)代漢語(yǔ)語(yǔ)料訓(xùn)練得到的,并不一定能夠很好地表示古文語(yǔ)義,本文利用大規(guī)模繁體古文語(yǔ)料對(duì)BERT中文模型進(jìn)行增量訓(xùn)練,使其得到更好的繁體古文語(yǔ)義表示,然后再進(jìn)行自動(dòng)斷句和自動(dòng)標(biāo)點(diǎn)訓(xùn)練。在實(shí)際的生產(chǎn)環(huán)境下,很多需整理的古籍的篇幅都較長(zhǎng),本文改進(jìn)了數(shù)據(jù)串行滑動(dòng)窗口方式并提出數(shù)據(jù)并行滑動(dòng)窗口方式,能夠同時(shí)解決篇章級(jí)自動(dòng)句讀準(zhǔn)確率低和效率低的問題。

    2 模型構(gòu)建

    預(yù)訓(xùn)練語(yǔ)言模型BERT的使用包括增量訓(xùn)練和微調(diào)兩個(gè)階段,以下分別介紹BERT模型增量訓(xùn)練過程和自動(dòng)句讀標(biāo)點(diǎn)實(shí)驗(yàn)設(shè)置。

    2.1 增量訓(xùn)練BERT模型

    BERT由多層Transformer構(gòu)成,具有強(qiáng)大的語(yǔ)義表示能力。與傳統(tǒng)的靜態(tài)詞向量不同,BERT能根據(jù)上下文生成動(dòng)態(tài)的詞向量,即同一個(gè)詞在不同語(yǔ)境中會(huì)有不同的向量表示。BERT的訓(xùn)練過程是無監(jiān)督的,能夠自動(dòng)從大量無標(biāo)注語(yǔ)料中學(xué)習(xí)到字詞和句子的語(yǔ)義表示。

    本文從不同渠道收集大量繁體古文語(yǔ)料,包括詩(shī)歌、小說、駢文、論文等各類文體,內(nèi)容包含經(jīng)史子集、佛經(jīng)等,文獻(xiàn)分布年代廣泛,包含從先秦至清朝的文獻(xiàn)。經(jīng)人工清洗整理,最后得到了約10億字的帶標(biāo)點(diǎn)繁體古文語(yǔ)料。統(tǒng)計(jì)整理的語(yǔ)料得到的繁體字表有7萬(wàn)字左右(包括各類異體字、古今字),BERT中文模型(以下稱BERTbase)有固定詞表,其中僅包含7 321個(gè)漢字,覆蓋率不到十分之一,如果直接使用BERTbase,會(huì)使得很多繁體字在任務(wù)過程中被替換成UNK,造成語(yǔ)義不完整,從而影響自動(dòng)句讀任務(wù)的效果。因此本文在進(jìn)行增量訓(xùn)練之前,對(duì)整理得到的字表中的古今字、異體字去重,并在整理得到的字表中選擇部分高頻字替換掉原來詞表中的部分簡(jiǎn)體字?;谛碌脑~表和訓(xùn)練語(yǔ)料對(duì)12層BERTbase進(jìn)行增量訓(xùn)練。根據(jù)BERTbase模型預(yù)訓(xùn)練步驟將增量訓(xùn)練分為三個(gè)階段,每個(gè)階段訓(xùn)練參數(shù)如表1所示。

    表1 BERT增量訓(xùn)練三個(gè)階段參數(shù)設(shè)置

    因?yàn)楦鼡Q了詞表,原來的Embedding層對(duì)應(yīng)于原來的詞表,因此在第一階段,只更新Embedding層參數(shù),使之和新的詞表對(duì)應(yīng)。第二階段用于學(xué)習(xí)古漢語(yǔ)知識(shí),因此訓(xùn)練步驟為500K,比第一階段和第三階段訓(xùn)練步驟更多,使其有更多時(shí)間學(xué)習(xí)古漢語(yǔ)表示,在第二階段時(shí)更新模型的所有參數(shù)。在前兩個(gè)階段中,將Sequence Length設(shè)為128,在第三階段將其設(shè)為512,因?yàn)榈谌A段用于學(xué)習(xí)長(zhǎng)距離語(yǔ)義關(guān)系,據(jù)BERT研發(fā)者回應(yīng),長(zhǎng)距離的語(yǔ)義關(guān)系比較容易學(xué)習(xí)到,因此只需進(jìn)行較少步驟的學(xué)習(xí)。經(jīng)過三個(gè)階段的學(xué)習(xí),最后得到增量繁體古文BERT模型,以下稱BERTguwen。實(shí)驗(yàn)設(shè)備為兩塊32 GB的TESLAV100 顯卡,訓(xùn)練時(shí)間為7天左右。

    2.2 自動(dòng)句讀模型

    預(yù)訓(xùn)練模型可以通過微調(diào)迭代調(diào)整為適合當(dāng)前任務(wù)的模型,本文將自動(dòng)句讀和標(biāo)點(diǎn)當(dāng)作是預(yù)訓(xùn)練模型下游的序列標(biāo)注任務(wù)。

    2001年Lafferty等人提出的條件隨機(jī)場(chǎng)模型(CRF)是一種無向圖模型,在詞性標(biāo)注、命名實(shí)體識(shí)別等序列標(biāo)注任務(wù)中表現(xiàn)優(yōu)異。雖然現(xiàn)在深度學(xué)習(xí)模型也可以很好地解決序列標(biāo)注問題,但是增加CRF作為解碼層似乎效果更好。如Huang等[14]在做命名實(shí)體識(shí)別任務(wù)時(shí)考慮到標(biāo)簽前后的依賴性,在Bi-LSTM后接CRF層作為解碼層,發(fā)現(xiàn)增加CRF層會(huì)比單獨(dú)使用深度學(xué)習(xí)模型效果更好。因此,本文也將CRF作為模型的最后一層,通過其學(xué)習(xí)標(biāo)簽之間的關(guān)系,找到全局最優(yōu)的標(biāo)簽序列。

    CNN是一種前饋神經(jīng)網(wǎng)絡(luò),可以在大量數(shù)據(jù)中識(shí)別序列的局部特征,并將它們生成為固定大小的向量表示,捕捉對(duì)當(dāng)前任務(wù)最有效的特征。我們?cè)贐ERTguwen后接CNN層和全連接層,在BERTguwen的基礎(chǔ)上對(duì)句子的上下文做進(jìn)一步編碼,捕捉局部特征。BERTguwen+CRF/CNN模型如圖1所示。

    圖1 BERTguwen+CRF/CNN模型圖

    3 實(shí)驗(yàn)

    3.1 數(shù)據(jù)集

    本文以學(xué)衡網(wǎng)(1)http://core.xueheng.net/200本核心典籍和github(2)https://github.com/jackeyGao/chinese-poetry公開的全中華古詩(shī)詞數(shù)據(jù)庫(kù)中的30多萬(wàn)首詩(shī)作為實(shí)驗(yàn)語(yǔ)料,兩部分皆經(jīng)過人工整理,都是繁體漢字,且標(biāo)點(diǎn)質(zhì)量比較高。語(yǔ)料具體統(tǒng)計(jì)信息如表2所示,雖然最大句長(zhǎng)超過萬(wàn)字,但統(tǒng)計(jì)發(fā)現(xiàn)97%的句長(zhǎng)都在200字以內(nèi)。我們將數(shù)據(jù)集按照句子數(shù)8∶1∶1切分為訓(xùn)練集、測(cè)試集和驗(yàn)證集。為了讓模型能處理較長(zhǎng)文本,我們隨機(jī)將同一段落中的3~10個(gè)句子合并作為一條訓(xùn)練數(shù)據(jù)。本文選用二元標(biāo)簽BM進(jìn)行斷句數(shù)據(jù)標(biāo)注,在二元標(biāo)簽基礎(chǔ)上設(shè)計(jì)斷句和標(biāo)點(diǎn)聯(lián)合標(biāo)注標(biāo)簽?!癇”表示對(duì)應(yīng)的字符在句首,“M”表示對(duì)應(yīng)字符在句中或句尾。“Dou”“J”“Dun”“F”“M”“W”“G”分別表示該句以逗號(hào)、句號(hào)、頓號(hào)、分號(hào)、冒號(hào)、問號(hào)、感嘆號(hào)結(jié)尾。

    表2 數(shù)據(jù)集統(tǒng)計(jì)信息

    3.2 實(shí)驗(yàn)設(shè)置

    BiLSTM-CRF模型是經(jīng)典的序列標(biāo)注模型[14],本文將該模型作為基準(zhǔn)模型,將BiLSTM的隱藏元數(shù)量設(shè)為256,詞向量維度設(shè)為300。俞敬松等人[4]和胡韌奮等人[3]的古文句讀和標(biāo)點(diǎn)研究非常具有代表性,因此本文也將他們的模型作為基準(zhǔn)模型。本文比較BERTguwen+CRF、BERTbase+CRF、BERTguwen+CNN、BERTbase+CNN模型在句讀和標(biāo)點(diǎn)任務(wù)上的表現(xiàn),Sequence Length設(shè)為300,Batch Size設(shè)為32。實(shí)驗(yàn)在兩塊32 GB的Tesla V100 GPU上進(jìn)行,每個(gè)模型訓(xùn)練到收斂為止。

    3.3 斷句實(shí)驗(yàn)結(jié)果

    為檢驗(yàn)不同模型在斷句任務(wù)上的性能,本文使用精確率(Precision)、召回率(Recall)和F1(F1-score)作為評(píng)價(jià)指標(biāo)。

    斷句實(shí)驗(yàn)結(jié)果如表3所示,可以看出詩(shī)歌斷句結(jié)果整體好于古文斷句結(jié)果,可能是因?yàn)楣旁?shī)具有特定的體制和韻律,如五言絕句、七言律詩(shī)等,模型更加容易學(xué)得其斷句規(guī)律,古詩(shī)斷句最好的F1值已經(jīng)超過99%。而古文的形式更加靈活,句式更加豐富,最好的斷句F1值為95.03%,比古詩(shī)低了4.5個(gè)百分點(diǎn)。

    表3 不同模型在古文和詩(shī)歌上的斷句實(shí)驗(yàn)結(jié)果 (單位:%)

    對(duì)比不同模型的性能,可以看到BERTguwen+CRF模型相比其他模型在斷句任務(wù)上有最高的召回率和F1值,分別為95.16%、95.03%,BERTguwen+CNN模型有最高的準(zhǔn)確率95.13%。相比于基線模型Bi-LSTM+CRF,融入了預(yù)訓(xùn)練語(yǔ)言模型之后斷句效果均有一定程度的提升。融合增量訓(xùn)練的古文預(yù)訓(xùn)練模型的BERTguwen+CRF模型比基線模型Bi-LSTM+CRF的F1值提高了12.98個(gè)百分點(diǎn)。

    對(duì)比BERTbase+CRF和BERTguwen+CRF的實(shí)驗(yàn)結(jié)果??梢钥闯?使用了BERTguwen的模型斷句效果比使用BERTbase的模型好,F1值提高了1.83個(gè)百分點(diǎn),這說明對(duì)BERT模型做繁體古文增量訓(xùn)練,可以使模型學(xué)習(xí)到更多古文知識(shí),能更好地處理斷句任務(wù)。如以下案例所示, “用兵”其主語(yǔ)本是“朝廷”,在此處承前省略主語(yǔ),“其主”與“秉?!睂儆谕徽Z(yǔ),共同作為“囚廢”的賓語(yǔ),BERTguwen+CRF經(jīng)過了古文增量訓(xùn)練,能夠更好地識(shí)別此類主語(yǔ)省略的句式,斷句結(jié)果正確。而BERTbase+CRF模型錯(cuò)誤地將“秉?!碑?dāng)作“用兵”的主語(yǔ),“西方”作為“既下”的主語(yǔ),導(dǎo)致斷句錯(cuò)誤?!俺琼巍睘殡p音節(jié)文言詞,在古文中屬于比較常用的詞,但在現(xiàn)代漢語(yǔ)中幾乎不再使用,BERTbase+CRF不能準(zhǔn)確地識(shí)別這一詞語(yǔ),可能是因?yàn)樵谄洮F(xiàn)代漢語(yǔ)訓(xùn)練語(yǔ)料中“城砦”出現(xiàn)頻次較低,BERTguwen+CRF將“城砦”作為一個(gè)整體且斷句正確,這說明增量訓(xùn)練之后的BERTguwen+CRF對(duì)文言詞更加敏感。

    例1

    原文: 朝廷以夏人囚廢其主秉常。用兵西方。既下米脂等城砦數(shù)十。

    BERTguwen+CRF: 朝廷以夏人囚廢其主秉常。用兵西方。既下米脂等城砦數(shù)十。

    BERTbase+CRF: 朝廷以夏人囚廢其主。秉常用兵。西方既下。米脂等城。砦數(shù)十。

    通過分析斷句結(jié)果,我們發(fā)現(xiàn)斷句經(jīng)常出現(xiàn)“可斷可不斷”的情況,如以下兩個(gè)案例所示,原文為“借兵於楚伐魏”,模型斷句結(jié)果為“借兵於楚。伐魏”,在“伐魏”之前斷句應(yīng)該也不為錯(cuò)誤。案例2的模型斷句也是類似的情況,模型斷句偏向于將長(zhǎng)句斷為小句,但這種斷句結(jié)果似乎不能算作錯(cuò)誤。在實(shí)驗(yàn)時(shí),將唯一斷句標(biāo)注集作為標(biāo)準(zhǔn)答案,并不能全面地評(píng)估模型的性能,以后可以嘗試在測(cè)試集中給出多種正確標(biāo)注答案。

    案例1:

    原文: 取我剛平。六年。借兵於楚伐魏。

    BERTguwen+CRF: 取我剛平。六年。借兵於楚。伐魏。

    案例2:

    原文: 故曰。禮人而不荅則反其敬。愛人而不親則反其仁。治人而不治則反其知。

    BERTguwen+CRF: 故曰。禮人而不荅。則反其敬。愛人而不親。則反其仁。治人而不治。則反其知。

    3.4 標(biāo)點(diǎn)實(shí)驗(yàn)結(jié)果

    本文在評(píng)價(jià)標(biāo)點(diǎn)模型時(shí)使用微平均精確率(Pmicro)、召回率(Rmicro)和F1micro。

    標(biāo)點(diǎn)實(shí)驗(yàn)結(jié)果如表4所示,由于詩(shī)歌的標(biāo)點(diǎn)規(guī)則比較簡(jiǎn)單,所有模型的標(biāo)點(diǎn)F1值都在95%以上。BERTguwen+CNN模型在古文和詩(shī)歌上標(biāo)點(diǎn)表現(xiàn)最好,F1值為80.18%和98.91%。在古文標(biāo)點(diǎn)中,BERTguwen+CRF比BERTbase+CRF的標(biāo)點(diǎn)F1值高1.54個(gè)百分點(diǎn),BERTguwen+CNN比BERTbase+CNN的標(biāo)點(diǎn)F1值高2.21個(gè)百分點(diǎn),說明增量訓(xùn)練之后的模型在一定程度上能夠幫助提升標(biāo)點(diǎn)效果。

    表4 不同模型在古文和詩(shī)歌上的標(biāo)點(diǎn)實(shí)驗(yàn)結(jié)果 (單位: %)

    和斷句任務(wù)的結(jié)果相比,標(biāo)點(diǎn)的精確率、召回率、F1值與斷句均有較大差距,因?yàn)閿嗑湟?guī)則相對(duì)比較統(tǒng)一,而標(biāo)點(diǎn)的規(guī)則比較復(fù)雜,不同的標(biāo)點(diǎn)表達(dá)不同的感情和意義。本文實(shí)驗(yàn)的語(yǔ)料雖然是經(jīng)過人工整理的,但是依然存在標(biāo)注規(guī)則不一致的情況,如逗號(hào)和句號(hào)、分號(hào)和逗號(hào)的使用常常因人而異,模型也難以分辨。

    3.5 增量古文模型語(yǔ)義表示能力

    上面的實(shí)驗(yàn)結(jié)果已經(jīng)證明BERTguwen模型相比BERTbase模型在斷句和標(biāo)點(diǎn)任務(wù)上表現(xiàn)更好。本文設(shè)計(jì)實(shí)驗(yàn)進(jìn)一步討論BERTguwen的表現(xiàn)優(yōu)于BERTbase的原因。

    古代漢語(yǔ)和現(xiàn)代漢語(yǔ)各有特點(diǎn),現(xiàn)代漢語(yǔ)以雙音節(jié)詞為主,古代漢語(yǔ)以單音節(jié)詞為主,且多義詞比例很高。BERT與傳統(tǒng)的詞向量模型不同,BERT能夠?qū)Σ煌Z(yǔ)境下同一個(gè)詞有不同的語(yǔ)義表示,具有區(qū)分同一個(gè)詞的不同義項(xiàng)的能力,如“君之病在腸胃”中的“病”與“人皆嗤吾固陋,吾不以為病”中的“病”分別對(duì)應(yīng)不同的向量。

    本文選取一組古漢語(yǔ)多義詞來討論BERTguwen和BERTbase文言詞的語(yǔ)義表示能力。本文選取古漢語(yǔ)多義詞基于以下三個(gè)原則: ①單音節(jié)多義詞,因?yàn)锽ERT中文模型只能對(duì)句子和單字詞做語(yǔ)義表示; ②詞語(yǔ)義項(xiàng)多,文言詞除本義外通常還有引申義和假借義; ③詞語(yǔ)在古漢語(yǔ)中使用率高,屬于常用詞。

    基于以上三點(diǎn),我們參考文學(xué)網(wǎng)(3)https://wyw.hwxnet.com/article/24.html發(fā)布的150個(gè)古文多義實(shí)詞以及《古漢語(yǔ)常用字字典》第四版,選取“安”“謝”“信”“兵”“愛”“病”“假”七個(gè)單音節(jié)詞作為實(shí)驗(yàn)對(duì)象,以上七個(gè)多義詞義項(xiàng)都在3個(gè)以上,并且在我們的語(yǔ)料庫(kù)中出現(xiàn)頻次較高。

    首先從整理的語(yǔ)料中分別找到3 000條含有以上七個(gè)單音節(jié)詞的句子,利用BERTguwen對(duì)每條例句中的詞作向量化表示,然后用k-means對(duì)以上七個(gè)詞語(yǔ)的所有詞向量做聚類,最后使用t-nse對(duì)聚類結(jié)果進(jìn)行可視化。根據(jù)《古漢語(yǔ)常用字字典》中的義項(xiàng),七個(gè)單字詞的義項(xiàng)共36個(gè),將k-means的聚類數(shù)設(shè)為36,模型自動(dòng)將所有詞向量聚為36個(gè)小類。聚類效果如圖2所示,圖中每個(gè)點(diǎn)代表一個(gè)詞向量,從圖2上可以比較明顯地看出聚類之后出現(xiàn)了七個(gè)模塊,每一模塊對(duì)應(yīng)一個(gè)文言單字詞,每個(gè)模塊內(nèi)部又包含不同灰度的點(diǎn),不同顏色表示詞內(nèi)部有不同的義項(xiàng)。以上聚類結(jié)果說明BERTguwen能夠?qū)⒉煌难栽~的語(yǔ)義區(qū)分開,并且能表示出一個(gè)多義詞的不同義項(xiàng)。

    圖2 k-means對(duì)七個(gè)古漢語(yǔ)單字詞向量的聚類效果圖

    為了進(jìn)一步討論BERTguwen模型對(duì)同一個(gè)文言詞的不同義項(xiàng)的區(qū)分能力,我們對(duì)比BERTguwen和BERTbase兩個(gè)模型對(duì)七個(gè)多義詞的不同義項(xiàng)的語(yǔ)義表示能力,即是否能將不同義項(xiàng)分開。以“安”和“謝”為例,首先根據(jù)文言詞“安”的四個(gè)常用義項(xiàng)人工挑出2 000條例句,根據(jù)文言詞“謝”的三個(gè)常用義項(xiàng)挑出1 500條例句,部分例句如表5所示。

    表5 文言詞“安”“謝”常用義項(xiàng)例句(部分)

    分別使用BERTguwen和BERTbase兩個(gè)模型生成“安”和“謝”在所有例句中的詞向量,最后進(jìn)行聚類。我們使用輪廓系數(shù)評(píng)估聚類效果,聚類效果越好,輪廓系數(shù)越高,計(jì)算如式(1)所示。

    (1)

    其中,a(i)表示樣本點(diǎn)i的簇內(nèi)不相似度,j表示與樣本i在同一個(gè)類中的其他樣本,distance(i,j)表示i和j之間的距離。

    (2)

    其中,b(i) 表示i和其他每個(gè)類別的所有樣本之間的距離和的最小值,計(jì)算方式和a(i)類似。所有樣本的S(i)均值即為聚類結(jié)果的輪廓系數(shù)。

    如圖3所示,圖3(a)為BERTguwen生成的“謝”的詞向量的聚類效果,聚類系數(shù)為3,輪廓系數(shù)S為0.1173;圖3(b)為BERTbase生成“謝”的詞向量的聚類效果,聚類系數(shù)為3,輪廓系數(shù)S為0.096 4;對(duì)比圖3(a)和3(b)發(fā)現(xiàn)BERTguwen生成的“謝”的向量能夠被清晰地聚為3類,且圖3(a)的輪廓系數(shù)大于圖3(b)的輪廓系數(shù)。對(duì)比七個(gè)多義詞的七組聚類效果圖及其輪廓系數(shù)發(fā)現(xiàn),除了“信”以外,BERTguwen生成的詞向量的聚類效果明顯好于BERTbase生成的詞向量。

    圖3 (續(xù))

    觀察“信”的聚類效果圖我們可以看出,BERTguwen的聚類效果似乎好于BERTbase,但輪廓系數(shù)前者卻小于后者。原因可能是“信”的義項(xiàng)較多,并且這些義項(xiàng)之間有比較緊密的引申關(guān)系,詞性主要是動(dòng)詞和名詞。如“不欺,講信用”(言而有信)“信任”(愿陛下親之信之)“相信“(忌不自信)“信用”(小信未孚,神弗福也)。而如“安”“謝”這類多義詞,不同義項(xiàng)距離較遠(yuǎn),且詞性多樣。

    4 篇章級(jí)斷句

    近年來,不斷有學(xué)者提出長(zhǎng)文本處理模型,BlockBERT[15]切斷BERT中不重要的注意力頭,將BERT可處理的Token數(shù)從512個(gè)擴(kuò)展到1 024個(gè)。Big bird模型[16]使用稀疏注意力機(jī)制,將計(jì)算復(fù)雜度降到線性,可以處理比全局注意力Transformer長(zhǎng)8倍的序列。但是這類模型能處理的長(zhǎng)度依然有限,長(zhǎng)文本句讀是生產(chǎn)環(huán)境下需要解決的問題,但目前涉及這一問題的研究較少。俞敬松等[4]使用滑動(dòng)窗口的方式處理篇章級(jí)句讀(以下稱串行滑動(dòng)窗口1),如圖4中示例所示,每次輸入不超過64字的片段,因其訓(xùn)練數(shù)據(jù)最長(zhǎng)為21字,所以只取輸出結(jié)果的前一個(gè)或兩個(gè)斷句結(jié)果,剩余的部分歸并到第二次切分的64字。這種滑動(dòng)窗口方式雖然在一定程度上保證了斷句的準(zhǔn)確性,但是每次處理的序列只有64字,且每次只取前兩句的斷句結(jié)果,后面的處理結(jié)果因準(zhǔn)確性不高都被放棄。這種方式每次需等待前一片段輸出結(jié)果之后才能進(jìn)行第二片段的處理,處理效率很低。

    本文提出了兩種新的滑動(dòng)窗口方式,在保證準(zhǔn)確率的同時(shí)也能極大提高運(yùn)行速率,以下稱串行滑動(dòng)窗口2和并行滑動(dòng)窗口。串行滑動(dòng)窗口2是通過對(duì)串行滑動(dòng)窗口1改進(jìn)得到,如圖5示例,首先輸入文檔的前125個(gè)字,然后等待模型返回前125個(gè)字的斷句結(jié)果,因?yàn)榈箶?shù)第一句可能因?yàn)檎Z(yǔ)義不完整而出現(xiàn)錯(cuò)誤斷句,所以將倒數(shù)第一句的斷句結(jié)果加入到下一次切分的125字中過,依次處理完所有文本。這種方法使得每次能處理更長(zhǎng)的序列,并且每次只放棄輸出結(jié)果的最后一句,運(yùn)行速度相比串行滑動(dòng)窗口1有一定提高。但是因?yàn)閿?shù)據(jù)處理的方式仍然是串行的,每次需要等待前面的返回結(jié)果,句讀效率不足以滿足使用需求。

    圖5 串行滑動(dòng)窗口2示例第一次取得結(jié)果為“……據(jù)其要害。擊之可破也。岱不從。遂與戰(zhàn)。”

    為了進(jìn)一步提高篇章級(jí)句讀速率,本文提出了并行滑動(dòng)窗口方法。如圖6案例所示,將長(zhǎng)文本數(shù)據(jù)按照滑動(dòng)窗口的方式切分,第一個(gè)片段與第二個(gè)片段重復(fù)n個(gè)字,第二個(gè)片段與第三個(gè)片段重復(fù)n個(gè)字,依次將長(zhǎng)文本切成m個(gè)片段,將m個(gè)片段同時(shí)送入模型,同時(shí)返回m個(gè)結(jié)果。在處理返回結(jié)果時(shí)也按照滑動(dòng)窗口的方式處理,對(duì)于片段1,首先刪除倒數(shù)第一句的輸出結(jié)果得到新的片段1,然后在片段2的輸出結(jié)果中刪除和新的片段1重復(fù)的部分,同樣刪除片段2的倒數(shù)第一句的輸出結(jié)果,得到新的片段2,最后將新的片段1和新的片段2拼接,依次將所有的片段拼接得到最后的輸出序列。將一整篇文本切分為多條數(shù)據(jù)并行處理,大幅度提高了句讀速度,并且能保證句讀的準(zhǔn)確率。在實(shí)驗(yàn)中我們將片段長(zhǎng)度設(shè)置為125,重復(fù)字?jǐn)?shù)n設(shè)為20。

    圖6 并行滑動(dòng)窗口示例切分為m個(gè)片段,然后在返回的斷句結(jié)果中,將每個(gè)片段重復(fù)的部分去掉。

    我們將直接截?cái)嗟姆绞阶鳛榛€標(biāo)準(zhǔn),將長(zhǎng)文本每64字截?cái)嘟M成一批數(shù)據(jù)喂進(jìn)模型。使用以上四種方式句讀一段4 168字的長(zhǎng)文本,實(shí)驗(yàn)結(jié)果如表6所示。

    表6 四種篇章級(jí)句讀方法實(shí)驗(yàn)結(jié)果

    從表6中可以比較明顯地看出,滑動(dòng)窗口方法的F1值都高于直接截?cái)嗟姆椒?這是因?yàn)榛瑒?dòng)窗口只取語(yǔ)義比較完整的文本片段作為輸出結(jié)果,而直接截?cái)嗟姆绞饺菀自斐晌谋酒谓Y(jié)尾強(qiáng)制斷句的錯(cuò)誤,但是直接截?cái)嗟姆绞骄哂凶罡叩奶幚硇省?duì)比兩種串行滑動(dòng)窗口方式,本文改進(jìn)的串行滑動(dòng)窗口2句讀速度相比于串行滑動(dòng)窗口1提高了11倍,且有最高的F1值。比較并行滑動(dòng)窗口和兩種串行滑動(dòng)窗口,并行滑動(dòng)窗口方式用時(shí)5.79 s,和直接截?cái)喾绞接脮r(shí)基本無差,同時(shí)也保證了斷句具有較高的F1值。

    基于本文提出的句讀模型和并行滑動(dòng)窗口方式,我們開發(fā)了“吾與點(diǎn)”古籍自動(dòng)句讀平臺(tái)(4)http://wyd.pkudh.xyz/。該平臺(tái)可以輔助古籍研究者和愛好者自動(dòng)句讀古籍文本。

    5 總結(jié)

    古文斷句和標(biāo)點(diǎn)是古籍整理過程中重要的一步,本文利用預(yù)訓(xùn)練語(yǔ)言模型實(shí)現(xiàn)了繁體古籍的自動(dòng)斷句和標(biāo)點(diǎn)。首先利用10億字繁體古文語(yǔ)料對(duì)中文BERT模型做增量訓(xùn)練,然后以此預(yù)訓(xùn)練模型為基礎(chǔ)實(shí)現(xiàn)了繁體古文的自動(dòng)斷句和標(biāo)點(diǎn)。古文和詩(shī)歌的自動(dòng)斷句F1值分別為95.03%和99.53%,標(biāo)點(diǎn)F1值分別為80.18%和98.91%。并且通過實(shí)驗(yàn)發(fā)現(xiàn)增量訓(xùn)練后的BERT模型能夠提升自動(dòng)斷句和自動(dòng)標(biāo)點(diǎn)的效果。本文通過對(duì)文言多義詞的多個(gè)義項(xiàng)聚類發(fā)現(xiàn),增量訓(xùn)練的語(yǔ)言模型的古文語(yǔ)義表示能力優(yōu)于原始BERT模型,并且具備一定的區(qū)分多義詞不同義項(xiàng)的能力。在篇章級(jí)句讀方面,本文改進(jìn)了數(shù)據(jù)串行方案并提出數(shù)據(jù)并行的滑動(dòng)窗口方式,既能保證句讀的準(zhǔn)確率,也能保持極高的處理效率。

    猜你喜歡
    句讀斷句標(biāo)點(diǎn)
    標(biāo)點(diǎn)可有可無嗎
    《遼史》標(biāo)點(diǎn)辨誤四則
    小小標(biāo)點(diǎn)真厲害
    短句(主語(yǔ)+謂語(yǔ))
    文言斷句判斷法
    “斷句” “密碼”費(fèi)人解(二則)
    “咬文嚼字”三篇
    妙用標(biāo)點(diǎn)巧斷句
    有趣的標(biāo)點(diǎn)
    《〈曹劌論戰(zhàn)〉句讀解惑》商榷
    丰满少妇做爰视频| 丝袜喷水一区| 黑人猛操日本美女一级片| 亚洲五月婷婷丁香| 人妻一区二区av| 在线亚洲精品国产二区图片欧美| 亚洲色图综合在线观看| 国产激情久久老熟女| 天堂中文最新版在线下载| 日韩制服丝袜自拍偷拍| 手机成人av网站| 欧美精品av麻豆av| 一区在线观看完整版| 日韩欧美免费精品| tube8黄色片| 天堂俺去俺来也www色官网| 免费在线观看视频国产中文字幕亚洲 | 精品亚洲乱码少妇综合久久| av国产精品久久久久影院| e午夜精品久久久久久久| 欧美精品人与动牲交sv欧美| 亚洲第一青青草原| 国产成人欧美| 老司机深夜福利视频在线观看 | 另类精品久久| 黄色怎么调成土黄色| 国产成人欧美在线观看 | 欧美大码av| av网站免费在线观看视频| 国产又爽黄色视频| 又黄又粗又硬又大视频| 亚洲精华国产精华精| 国产一区二区三区在线臀色熟女 | 亚洲国产中文字幕在线视频| 国产成人影院久久av| 欧美激情极品国产一区二区三区| 午夜免费观看性视频| 欧美+亚洲+日韩+国产| 欧美日韩av久久| 丰满迷人的少妇在线观看| 亚洲国产欧美在线一区| 亚洲五月婷婷丁香| 精品国产乱码久久久久久男人| 日韩欧美一区视频在线观看| 12—13女人毛片做爰片一| 99国产精品一区二区三区| 亚洲国产中文字幕在线视频| 久久精品亚洲av国产电影网| 亚洲欧美精品自产自拍| 在线天堂中文资源库| 国产日韩欧美在线精品| 久久久久久人人人人人| 亚洲欧美日韩另类电影网站| 免费一级毛片在线播放高清视频 | 视频区欧美日本亚洲| 久久国产精品男人的天堂亚洲| 黄色 视频免费看| 亚洲av成人一区二区三| 自拍欧美九色日韩亚洲蝌蚪91| 99久久国产精品久久久| 亚洲av国产av综合av卡| 久久人妻福利社区极品人妻图片| 人妻 亚洲 视频| 韩国精品一区二区三区| 亚洲五月色婷婷综合| 一本综合久久免费| 日本av手机在线免费观看| 人人妻人人澡人人看| 免费观看人在逋| 亚洲久久久国产精品| 国产精品麻豆人妻色哟哟久久| 性色av一级| 亚洲五月色婷婷综合| 一本综合久久免费| 国产精品一区二区免费欧美 | 国产无遮挡羞羞视频在线观看| 脱女人内裤的视频| 一级毛片电影观看| 日本撒尿小便嘘嘘汇集6| 久久九九热精品免费| 亚洲七黄色美女视频| a级片在线免费高清观看视频| 91成人精品电影| 12—13女人毛片做爰片一| 婷婷成人精品国产| 亚洲成人免费电影在线观看| 亚洲午夜精品一区,二区,三区| 99久久综合免费| 国产激情久久老熟女| 一区在线观看完整版| 91av网站免费观看| 亚洲精品美女久久av网站| 十八禁网站免费在线| 一个人免费看片子| 伊人久久大香线蕉亚洲五| 蜜桃国产av成人99| 在线观看www视频免费| 婷婷成人精品国产| 亚洲中文字幕日韩| 岛国在线观看网站| 久久 成人 亚洲| 亚洲国产欧美在线一区| 狂野欧美激情性xxxx| 欧美日韩视频精品一区| 日韩人妻精品一区2区三区| 电影成人av| 叶爱在线成人免费视频播放| 久久女婷五月综合色啪小说| 捣出白浆h1v1| 亚洲国产看品久久| 午夜福利乱码中文字幕| 日本91视频免费播放| 日韩视频在线欧美| 免费黄频网站在线观看国产| 天天躁夜夜躁狠狠躁躁| 999久久久精品免费观看国产| 97精品久久久久久久久久精品| 操出白浆在线播放| 国产一区二区在线观看av| 久久香蕉激情| 如日韩欧美国产精品一区二区三区| 国产精品成人在线| 麻豆av在线久日| 亚洲精品日韩在线中文字幕| cao死你这个sao货| 亚洲精品自拍成人| 丝袜人妻中文字幕| 亚洲一区二区三区欧美精品| 亚洲精品自拍成人| 久久性视频一级片| 香蕉国产在线看| 欧美精品一区二区免费开放| 久9热在线精品视频| 青草久久国产| 中文字幕人妻熟女乱码| 热99re8久久精品国产| 少妇人妻久久综合中文| 亚洲国产av影院在线观看| 国产成人免费观看mmmm| 99久久国产精品久久久| 18禁裸乳无遮挡动漫免费视频| 午夜老司机福利片| 日本wwww免费看| 免费不卡黄色视频| 国产区一区二久久| 亚洲黑人精品在线| 他把我摸到了高潮在线观看 | 日本五十路高清| 精品人妻一区二区三区麻豆| 啦啦啦啦在线视频资源| 在线观看www视频免费| 男人爽女人下面视频在线观看| 亚洲色图综合在线观看| 日本av手机在线免费观看| 夜夜骑夜夜射夜夜干| 国产精品一区二区精品视频观看| 精品国产一区二区三区四区第35| 51午夜福利影视在线观看| 欧美日韩福利视频一区二区| 国产高清videossex| 亚洲专区国产一区二区| 久热这里只有精品99| 精品免费久久久久久久清纯 | 亚洲男人天堂网一区| 国产精品偷伦视频观看了| 中文精品一卡2卡3卡4更新| av电影中文网址| 成人国产一区最新在线观看| 亚洲国产看品久久| 少妇被粗大的猛进出69影院| 久久久欧美国产精品| 午夜福利乱码中文字幕| 精品视频人人做人人爽| 久久天堂一区二区三区四区| 亚洲欧美色中文字幕在线| 日本91视频免费播放| 999久久久国产精品视频| 亚洲va日本ⅴa欧美va伊人久久 | 三上悠亚av全集在线观看| 一级黄色大片毛片| 精品国产超薄肉色丝袜足j| 12—13女人毛片做爰片一| 黄色 视频免费看| av天堂在线播放| 久久人人97超碰香蕉20202| 每晚都被弄得嗷嗷叫到高潮| 老司机靠b影院| 亚洲少妇的诱惑av| 成人国产一区最新在线观看| 飞空精品影院首页| 涩涩av久久男人的天堂| tube8黄色片| 两个人免费观看高清视频| 蜜桃在线观看..| 久久久久精品人妻al黑| 日韩欧美一区二区三区在线观看 | 性高湖久久久久久久久免费观看| 丝袜美腿诱惑在线| 亚洲人成77777在线视频| 亚洲av欧美aⅴ国产| 国产黄频视频在线观看| 精品国产乱码久久久久久小说| 亚洲精品乱久久久久久| 我的亚洲天堂| 国产av国产精品国产| 国产成人av激情在线播放| 国产人伦9x9x在线观看| 亚洲国产精品一区三区| 黑人欧美特级aaaaaa片| 精品国产乱子伦一区二区三区 | 亚洲欧美色中文字幕在线| 久久天堂一区二区三区四区| 国产av精品麻豆| 色精品久久人妻99蜜桃| 亚洲av国产av综合av卡| 亚洲精华国产精华精| 这个男人来自地球电影免费观看| 在线观看免费午夜福利视频| 成人国产av品久久久| 亚洲黑人精品在线| 黄片大片在线免费观看| 99香蕉大伊视频| 国产精品免费大片| 搡老乐熟女国产| 咕卡用的链子| 亚洲五月色婷婷综合| 午夜免费成人在线视频| 人妻 亚洲 视频| 国产精品一区二区在线观看99| 欧美xxⅹ黑人| 国产精品 国内视频| 日韩制服骚丝袜av| 中文字幕最新亚洲高清| 女性被躁到高潮视频| 亚洲熟女毛片儿| 91字幕亚洲| 精品视频人人做人人爽| 亚洲精品美女久久久久99蜜臀| 久久精品人人爽人人爽视色| 香蕉丝袜av| 青草久久国产| 操美女的视频在线观看| 亚洲精品国产色婷婷电影| 制服人妻中文乱码| 热re99久久国产66热| 一级毛片精品| 一区二区三区四区激情视频| 人人澡人人妻人| 国产亚洲精品一区二区www | 51午夜福利影视在线观看| 亚洲人成电影观看| 免费不卡黄色视频| 欧美国产精品一级二级三级| 国产成人a∨麻豆精品| 99热全是精品| 日韩欧美国产一区二区入口| av视频免费观看在线观看| 热99久久久久精品小说推荐| 国产一区二区三区综合在线观看| 大型av网站在线播放| 18禁黄网站禁片午夜丰满| av一本久久久久| 丝袜美足系列| 亚洲三区欧美一区| 免费少妇av软件| 啦啦啦 在线观看视频| 欧美日韩亚洲综合一区二区三区_| 欧美在线一区亚洲| av福利片在线| 人妻久久中文字幕网| 人妻久久中文字幕网| 久久国产亚洲av麻豆专区| 久久国产精品影院| 韩国精品一区二区三区| kizo精华| 亚洲国产精品一区二区三区在线| 亚洲国产av影院在线观看| 亚洲欧洲精品一区二区精品久久久| 久久精品国产综合久久久| 女人被躁到高潮嗷嗷叫费观| 精品人妻在线不人妻| 久久久久精品人妻al黑| 色精品久久人妻99蜜桃| 午夜老司机福利片| 久久人人爽av亚洲精品天堂| 久热爱精品视频在线9| 亚洲成人免费av在线播放| 成年人免费黄色播放视频| 欧美xxⅹ黑人| 三级毛片av免费| 成人国产av品久久久| 成人手机av| 99久久精品国产亚洲精品| 久久影院123| 黑人操中国人逼视频| 热re99久久精品国产66热6| 精品视频人人做人人爽| 香蕉丝袜av| 日韩有码中文字幕| 黄片播放在线免费| 麻豆乱淫一区二区| 成年动漫av网址| 国产精品二区激情视频| 久久人妻熟女aⅴ| 国产一区二区三区av在线| 丰满人妻熟妇乱又伦精品不卡| 超碰成人久久| 日韩欧美国产一区二区入口| 80岁老熟妇乱子伦牲交| 久久中文字幕一级| 汤姆久久久久久久影院中文字幕| 婷婷丁香在线五月| av电影中文网址| 亚洲国产欧美日韩在线播放| 久久亚洲国产成人精品v| 在线看a的网站| 国产男人的电影天堂91| 亚洲av成人一区二区三| 国产一级毛片在线| 欧美老熟妇乱子伦牲交| 亚洲欧美精品自产自拍| 99热网站在线观看| 丝袜美足系列| 国产野战对白在线观看| 国产成人精品在线电影| 国产欧美日韩综合在线一区二区| 久久综合国产亚洲精品| 亚洲av成人一区二区三| 超碰97精品在线观看| 他把我摸到了高潮在线观看 | 成年美女黄网站色视频大全免费| 免费看十八禁软件| av又黄又爽大尺度在线免费看| netflix在线观看网站| 啦啦啦啦在线视频资源| 新久久久久国产一级毛片| 一个人免费在线观看的高清视频 | svipshipincom国产片| 黄色视频在线播放观看不卡| 欧美97在线视频| 成人免费观看视频高清| 青草久久国产| 久久影院123| 韩国高清视频一区二区三区| 国产精品香港三级国产av潘金莲| 日韩三级视频一区二区三区| 大香蕉久久成人网| 日本猛色少妇xxxxx猛交久久| 精品国产国语对白av| 亚洲伊人色综图| 免费女性裸体啪啪无遮挡网站| 成人国产av品久久久| 亚洲免费av在线视频| 天天躁日日躁夜夜躁夜夜| 91成人精品电影| 国内毛片毛片毛片毛片毛片| 欧美成狂野欧美在线观看| 美女大奶头黄色视频| av网站在线播放免费| 色婷婷久久久亚洲欧美| 男女无遮挡免费网站观看| 天天操日日干夜夜撸| av又黄又爽大尺度在线免费看| 亚洲av成人一区二区三| 国产xxxxx性猛交| 久久天躁狠狠躁夜夜2o2o| www.熟女人妻精品国产| 亚洲精品第二区| 国产欧美日韩精品亚洲av| 国产极品粉嫩免费观看在线| 国产免费一区二区三区四区乱码| 久久人人97超碰香蕉20202| 叶爱在线成人免费视频播放| 亚洲精品乱久久久久久| 一本久久精品| 欧美av亚洲av综合av国产av| 性少妇av在线| 精品人妻1区二区| 亚洲七黄色美女视频| 满18在线观看网站| 成人免费观看视频高清| 国产精品国产av在线观看| 国产欧美日韩综合在线一区二区| 久久国产亚洲av麻豆专区| 日韩中文字幕欧美一区二区| 国产免费av片在线观看野外av| 亚洲七黄色美女视频| 啦啦啦中文免费视频观看日本| 久久毛片免费看一区二区三区| 一区在线观看完整版| 一区二区三区乱码不卡18| 久久精品国产亚洲av香蕉五月 | 国产区一区二久久| 2018国产大陆天天弄谢| 韩国高清视频一区二区三区| 久久99一区二区三区| 91大片在线观看| 男人添女人高潮全过程视频| 欧美日本中文国产一区发布| 国产成人精品在线电影| 精品第一国产精品| 99久久人妻综合| 丝袜美腿诱惑在线| 黄色怎么调成土黄色| 免费黄频网站在线观看国产| 大型av网站在线播放| 91精品国产国语对白视频| 国产又色又爽无遮挡免| 极品人妻少妇av视频| 美女国产高潮福利片在线看| 一本一本久久a久久精品综合妖精| 成年人黄色毛片网站| av不卡在线播放| av有码第一页| 91老司机精品| 精品视频人人做人人爽| 精品久久蜜臀av无| 男女午夜视频在线观看| av超薄肉色丝袜交足视频| 我的亚洲天堂| 国产精品久久久av美女十八| 中亚洲国语对白在线视频| 正在播放国产对白刺激| 老熟女久久久| 亚洲免费av在线视频| 色精品久久人妻99蜜桃| 777米奇影视久久| 岛国在线观看网站| www.av在线官网国产| 777米奇影视久久| 国产精品久久久久成人av| 91字幕亚洲| 伊人亚洲综合成人网| 国产一区二区 视频在线| 丝袜在线中文字幕| 亚洲一区二区三区欧美精品| 熟女少妇亚洲综合色aaa.| xxxhd国产人妻xxx| 美女视频免费永久观看网站| kizo精华| 汤姆久久久久久久影院中文字幕| 亚洲国产中文字幕在线视频| av免费在线观看网站| 欧美变态另类bdsm刘玥| 满18在线观看网站| 精品欧美一区二区三区在线| 老司机深夜福利视频在线观看 | 在线观看免费视频网站a站| 免费观看人在逋| 三级毛片av免费| 日本av手机在线免费观看| 亚洲五月色婷婷综合| 欧美黑人精品巨大| 中文字幕另类日韩欧美亚洲嫩草| 国产成人一区二区三区免费视频网站| 国产精品欧美亚洲77777| 新久久久久国产一级毛片| 久久狼人影院| 亚洲欧美精品自产自拍| 精品久久久久久电影网| 丁香六月欧美| 12—13女人毛片做爰片一| 99re6热这里在线精品视频| 免费在线观看视频国产中文字幕亚洲 | 曰老女人黄片| 女性生殖器流出的白浆| 一级片'在线观看视频| 日韩一区二区三区影片| 精品人妻在线不人妻| 精品福利永久在线观看| 婷婷丁香在线五月| 欧美人与性动交α欧美软件| 美女中出高潮动态图| 天天操日日干夜夜撸| 美女扒开内裤让男人捅视频| 美女国产高潮福利片在线看| 国产在线观看jvid| 亚洲成av片中文字幕在线观看| 中国美女看黄片| 国产精品免费大片| 动漫黄色视频在线观看| 久久av网站| 桃红色精品国产亚洲av| 法律面前人人平等表现在哪些方面 | av在线播放精品| 悠悠久久av| 久久久国产精品麻豆| 老司机午夜福利在线观看视频 | 亚洲国产中文字幕在线视频| 18禁观看日本| 纵有疾风起免费观看全集完整版| 精品一区二区三区av网在线观看 | 美国免费a级毛片| 一二三四社区在线视频社区8| 国产亚洲午夜精品一区二区久久| 老熟女久久久| 欧美亚洲 丝袜 人妻 在线| 精品少妇内射三级| 成年动漫av网址| 亚洲一卡2卡3卡4卡5卡精品中文| 午夜91福利影院| 国产又色又爽无遮挡免| 日韩一卡2卡3卡4卡2021年| 欧美精品啪啪一区二区三区 | 亚洲欧美精品自产自拍| 亚洲av电影在线观看一区二区三区| 亚洲国产欧美日韩在线播放| 欧美在线一区亚洲| 久久久久精品国产欧美久久久 | 日本91视频免费播放| 交换朋友夫妻互换小说| 久久久久久久精品精品| 精品人妻在线不人妻| 黄色片一级片一级黄色片| 久久久久网色| 亚洲国产日韩一区二区| 欧美日韩视频精品一区| 一本大道久久a久久精品| 欧美变态另类bdsm刘玥| 最黄视频免费看| 午夜福利影视在线免费观看| 一本一本久久a久久精品综合妖精| 日本vs欧美在线观看视频| 亚洲精品一卡2卡三卡4卡5卡 | 亚洲色图 男人天堂 中文字幕| 咕卡用的链子| 免费少妇av软件| 精品熟女少妇八av免费久了| 欧美乱码精品一区二区三区| 国产主播在线观看一区二区| 人人妻人人澡人人看| 午夜激情av网站| 国内毛片毛片毛片毛片毛片| netflix在线观看网站| 久久久水蜜桃国产精品网| 黑人欧美特级aaaaaa片| 国产精品国产av在线观看| 国产精品欧美亚洲77777| 十八禁高潮呻吟视频| 免费观看a级毛片全部| 一本久久精品| 国产91精品成人一区二区三区 | 久久性视频一级片| 亚洲av片天天在线观看| 热99久久久久精品小说推荐| 18禁黄网站禁片午夜丰满| 水蜜桃什么品种好| 免费高清在线观看日韩| 成人18禁高潮啪啪吃奶动态图| 另类精品久久| 肉色欧美久久久久久久蜜桃| 人人澡人人妻人| 日韩视频在线欧美| 欧美成狂野欧美在线观看| 欧美激情久久久久久爽电影 | 亚洲午夜精品一区,二区,三区| 91av网站免费观看| 亚洲av成人一区二区三| 亚洲男人天堂网一区| 狂野欧美激情性xxxx| 黑人巨大精品欧美一区二区mp4| 欧美日本中文国产一区发布| 日本vs欧美在线观看视频| 另类精品久久| 69av精品久久久久久 | 久久久精品国产亚洲av高清涩受| 亚洲精品在线美女| 久久精品成人免费网站| 在线十欧美十亚洲十日本专区| 亚洲五月色婷婷综合| 亚洲精品自拍成人| 狂野欧美激情性bbbbbb| 大型av网站在线播放| 在线 av 中文字幕| 满18在线观看网站| 老司机亚洲免费影院| 日韩欧美免费精品| 亚洲自偷自拍图片 自拍| 中文字幕人妻丝袜制服| 咕卡用的链子| 国产亚洲精品久久久久5区| 高清欧美精品videossex| 男女之事视频高清在线观看| www日本在线高清视频| 男女之事视频高清在线观看| 国产精品久久久久成人av| 性色av乱码一区二区三区2| 热99国产精品久久久久久7| 国产精品av久久久久免费| 大片免费播放器 马上看| 国产有黄有色有爽视频| 欧美性长视频在线观看| 男女之事视频高清在线观看| 老熟妇乱子伦视频在线观看 | 日本wwww免费看| 国产一级毛片在线| 18禁黄网站禁片午夜丰满| 新久久久久国产一级毛片| 各种免费的搞黄视频| 国产精品影院久久| 十分钟在线观看高清视频www| 午夜福利视频在线观看免费| 成人三级做爰电影| av视频免费观看在线观看| 伦理电影免费视频| 在线精品无人区一区二区三| 一级毛片精品| 90打野战视频偷拍视频| 99九九在线精品视频| 成年美女黄网站色视频大全免费| 不卡av一区二区三区| 肉色欧美久久久久久久蜜桃| 黄色视频在线播放观看不卡| 国产黄频视频在线观看| 久久久久久久国产电影|