• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    SOM-NCSCM+:抽取式神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成方法研究①

    2023-09-24 13:15:14資康莉曹存根
    高技術(shù)通訊 2023年8期
    關(guān)鍵詞:主題詞文檔聚類

    資康莉 王 石 曹存根

    (*中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室 北京 100190)

    (**中國(guó)科學(xué)院大學(xué) 北京 100049)

    0 引言

    隨著海量文本數(shù)據(jù)在新聞網(wǎng)站、社交網(wǎng)絡(luò)等網(wǎng)絡(luò)空間極速涌現(xiàn),文本摘要作為一種關(guān)鍵技術(shù),廣泛用于對(duì)海量?jī)?nèi)容進(jìn)行提煉總結(jié),方便更多用戶快速瀏覽和了解大量文檔。其中,標(biāo)題生成作為文本摘要的一個(gè)重要應(yīng)用場(chǎng)景,其主要任務(wù)是針對(duì)給定的篇章或者短文本,生成能夠概括或評(píng)論其主要內(nèi)容的一段或者一句話作為標(biāo)題。

    標(biāo)題生成技術(shù)已被應(yīng)用于搜索結(jié)果展示、文章摘要生成、新聞標(biāo)題生成等眾多領(lǐng)域。根據(jù)需要處理的數(shù)據(jù)篇幅的不同,可將其分為單文檔標(biāo)題生成[1]和多文檔標(biāo)題生成[2];根據(jù)實(shí)現(xiàn)方式的不同可分為抽取式標(biāo)題生成[3]和生成式標(biāo)題生成[4];而根據(jù)使用的技術(shù)手段,可分為傳統(tǒng)標(biāo)題生成方法[5]和基于深度學(xué)習(xí)的標(biāo)題生成方法[6]。

    本文主要關(guān)注中文領(lǐng)域基于神經(jīng)網(wǎng)絡(luò)的抽取式標(biāo)題生成方法,該類方法目前仍面臨一個(gè)重大挑戰(zhàn):缺乏大規(guī)模、高質(zhì)量的中文標(biāo)注數(shù)據(jù)。而產(chǎn)生該挑戰(zhàn)的原因有:(1)標(biāo)題生成研究工作多在公開的外文數(shù)據(jù)集上開展,中文領(lǐng)域的部分研究工作未公開完整數(shù)據(jù)集,使得后續(xù)研究者無法在其已有工作基礎(chǔ)上繼續(xù)探索并進(jìn)行研究成果間的比較。(2)現(xiàn)有中文標(biāo)題標(biāo)注數(shù)據(jù)多收集于各類新聞網(wǎng)站、社交網(wǎng)站,數(shù)據(jù)繁雜,缺乏統(tǒng)一的分類體系,或數(shù)據(jù)集未提供原分類信息,并且原網(wǎng)站中標(biāo)題的質(zhì)量難以保證,有時(shí)甚至?xí)褂每浯蠡蛉狈εc原內(nèi)容相關(guān)的詞句來構(gòu)造標(biāo)題。

    因此,針對(duì)上述挑戰(zhàn)和問題,考慮到標(biāo)題往往可直接從原文中抽取詞匯或者句子來構(gòu)造這一特點(diǎn),本文采用了基于抽取式的標(biāo)題生成技術(shù),提出將基于無監(jiān)督學(xué)習(xí)的聚類模型和主題模型融入到基于有監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)模型中的方法,使得整個(gè)模型在具有潛在主題類別特征的、新聞標(biāo)題質(zhì)量參差不齊的數(shù)據(jù)上也能取得較好效果。本文主要的貢獻(xiàn)點(diǎn)如下。

    (1) 將抽取式新聞標(biāo)題生成問題轉(zhuǎn)化為序列標(biāo)注問題,并通過在注意力機(jī)制中融入聚類特征和主題詞信息等多種特征,增強(qiáng)對(duì)新聞內(nèi)容的上下文表示。

    (2) 采用了基于自組織映射(self-organizing map,SOM)的聚類模型[7]和隱含狄利克雷分布(latent Dirichlet allocation,LDA)主題模型[8],能將表達(dá)相同或相似主題的新聞內(nèi)容進(jìn)行聚類,并進(jìn)一步從各數(shù)據(jù)簇中自動(dòng)挖掘相關(guān)的主題詞集合。

    (3) 本文從現(xiàn)有公開的中文新聞數(shù)據(jù)集中抽取了部分?jǐn)?shù)據(jù),并進(jìn)行了分詞、錯(cuò)別字糾錯(cuò)、詞性標(biāo)注、命名實(shí)體信息標(biāo)注等預(yù)處理,再通過人工與半自動(dòng)核對(duì)等策略,得到了一個(gè)可用于抽取式中文標(biāo)題生成的數(shù)據(jù)集。最后,在該數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,本文設(shè)計(jì)的模型在微觀F1、BLEU、ROUGE、壓縮率等評(píng)價(jià)指標(biāo)上都取得了較基準(zhǔn)模型更好的效果。

    1 相關(guān)工作

    1.1 標(biāo)題生成任務(wù)

    標(biāo)題生成任務(wù)作為文本摘要的一個(gè)分支,要求生成精煉且優(yōu)質(zhì)的標(biāo)題,使得標(biāo)題包含不會(huì)過分夸大實(shí)際內(nèi)容的具體事實(shí),能夠?qū)υ瓋?nèi)容信息進(jìn)行有效地傳遞,并能吸引更多的用戶,提高用戶的閱讀效率,提升閱讀體驗(yàn)[9]。因此,在生成標(biāo)題時(shí),該任務(wù)要求去掉原文中的冗雜信息,只保留原文中涉及的關(guān)鍵信息,得到長(zhǎng)度短于原文的、更加簡(jiǎn)潔的、可由原文中部分句子組成的集合或者僅為原文中關(guān)鍵信息組合成的標(biāo)題句。標(biāo)題生成技術(shù)有著巨大的應(yīng)用價(jià)值和廣泛的應(yīng)用場(chǎng)景,例如郵件內(nèi)容的自動(dòng)生成、搜索結(jié)果展示、文章摘要生成、新聞標(biāo)題生成、移動(dòng)設(shè)備信息推送、社區(qū)問答等。

    根據(jù)標(biāo)題生成所需處理的數(shù)據(jù)篇幅可以將其分為單文檔標(biāo)題生成和多文檔標(biāo)題生成。其中,單文檔標(biāo)題生成關(guān)注的是對(duì)短文本或者單文檔進(jìn)行標(biāo)題生成[1],多文檔標(biāo)題生成則是從一組主題或者內(nèi)容相關(guān)的文檔中總結(jié)生成標(biāo)題[10]。而根據(jù)標(biāo)題生成方法的實(shí)現(xiàn)方式或產(chǎn)生輸出結(jié)果的類型,可以分為抽取式標(biāo)題生成[3]和生成式標(biāo)題生成[4]。其中,抽取式標(biāo)題生成是從原文檔內(nèi)容中抽取關(guān)鍵詞或關(guān)鍵句進(jìn)行組合來生成標(biāo)題,也即需要判斷原文檔中各個(gè)詞語、語句的重要程度,使得最終生成的標(biāo)題中的詞或句均來自原文檔;而生成式標(biāo)題生成則是在充分理解原文檔內(nèi)容的基礎(chǔ)上,允許模型使用除原文檔內(nèi)容以外的新詞語、新語句來組成能夠概括原文檔內(nèi)容的標(biāo)題。

    基于生成式以及基于抽取式的標(biāo)題生成方法各有其優(yōu)缺點(diǎn)。首先,這2 類方法都要求輸出的標(biāo)題能夠盡可能全面地包含原文檔內(nèi)容的關(guān)鍵信息?;谏墒降臉?biāo)題生成方法相比于抽取式而言在用詞方面更加靈活,能夠生成多樣化的標(biāo)題表述,來滿足許多應(yīng)用領(lǐng)域?qū)τ诙鄻踊?、個(gè)性化的信息展示的需求。而基于抽取式的標(biāo)題生成方法是抽取原文中的一部分內(nèi)容(詞或句)作為輸出,它產(chǎn)生的標(biāo)題的表述會(huì)受限于原文。但是,這2 種方法及其對(duì)應(yīng)的模型在實(shí)現(xiàn)時(shí)都會(huì)面臨從互聯(lián)網(wǎng)中獲取到的數(shù)據(jù)及其原標(biāo)題質(zhì)量難以保證的問題。在這種現(xiàn)狀下,使用基于生成式的標(biāo)題生成方法難免會(huì)受到數(shù)據(jù)集質(zhì)量的約束,而采用基于抽取式的標(biāo)題生成方法,雖然損失了一定的泛化能力,但是因?yàn)槠洳⒉荒堋白灾鳌鄙刹淮嬖谟谠瓋?nèi)容的詞匯或語句,使得其在面對(duì)“噪聲”數(shù)據(jù)時(shí)能夠具有較好的魯棒性,甚至能夠用于發(fā)現(xiàn)相關(guān)數(shù)據(jù)中的“噪聲”或“異?!?。其次,近年來快速發(fā)展的深度神經(jīng)網(wǎng)絡(luò)技術(shù)因其強(qiáng)大的表征能力,給予了這2 類方法更多的可能性,使得標(biāo)題生成的效果被不斷提升。但是,尤其在面對(duì)長(zhǎng)文本或者多文檔標(biāo)題生成時(shí),基于生成式的標(biāo)題生成方法會(huì)因缺少對(duì)關(guān)鍵信息的控制與定位,而需要額外控制最終模型輸出的標(biāo)題與原文的相關(guān)性(例如:保持原內(nèi)容的主題信息等)[6],避免出現(xiàn)無法處理未登錄詞、標(biāo)題與原內(nèi)容關(guān)鍵信息關(guān)聯(lián)度不高、詞語重復(fù)生成等問題。而基于抽取式的標(biāo)題生成方法,雖然能更好地控制與原文檔內(nèi)容的相關(guān)性,但是也需要設(shè)計(jì)較好的衡量原內(nèi)容中關(guān)鍵詞或句的重要程度的方法,避免抽取得到的標(biāo)題中具有較多冗余信息。

    此外,根據(jù)使用的技術(shù)手段來劃分,傳統(tǒng)的標(biāo)題生成方法多基于統(tǒng)計(jì)概率與人工特征工程,且多為抽取式標(biāo)題生成,通過計(jì)算得到已有數(shù)據(jù)集中的特征信息(例如句子長(zhǎng)度、句子位置、詞序、詞頻、逆文檔頻率、最大公共子串、關(guān)鍵詞表、類簇信息等),來判斷并抽取原文中具有較多信息量的詞語和句子組成標(biāo)題[5,11]。而基于神經(jīng)網(wǎng)絡(luò)的標(biāo)題生成技術(shù)多采用“端到端”的神經(jīng)網(wǎng)絡(luò)標(biāo)題生成框架[12],既可以進(jìn)行抽取式標(biāo)題生成(將標(biāo)題生成任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù)或者對(duì)句法依存樹采取剪枝的任務(wù)[13]),也可以直接生成多樣化表達(dá)的標(biāo)題[14]。并且,基于神經(jīng)網(wǎng)絡(luò)的標(biāo)題生成方法在減少人工特征工程的同時(shí),還能夠通過神經(jīng)網(wǎng)絡(luò)模型更好地學(xué)習(xí)到數(shù)據(jù)中潛在的深層信息(例如使用現(xiàn)有流行的大規(guī)模預(yù)訓(xùn)練語言模型獲取句子的語義表示[15]),這些都在一定程度上解決了因?yàn)閿?shù)據(jù)不均衡導(dǎo)致的統(tǒng)計(jì)信息計(jì)算不正確、獲取句子表示受到相關(guān)領(lǐng)域數(shù)據(jù)量的限制以及難以跨領(lǐng)域復(fù)用等問題。

    1.2 文本聚類與主題模型

    在現(xiàn)實(shí)互聯(lián)網(wǎng)中,大多數(shù)獲取到的數(shù)據(jù)是缺乏人工標(biāo)注的分類信息的,或者一些新興的事物是沒有歷史類別信息的,而文本聚類是對(duì)文本數(shù)據(jù)進(jìn)行聚類分析以解決樣本分類問題的一種方法。它作為一種無監(jiān)督機(jī)器學(xué)習(xí)方法,具有一定的靈活性和自動(dòng)處理能力,可以通過已有數(shù)據(jù)內(nèi)部自身的特征,探索性地將相似數(shù)據(jù)進(jìn)行歸類,來得到數(shù)據(jù)中潛在的自然分組情況,而不依賴預(yù)先定義的類別標(biāo)記。

    因此,文本聚類方法可作為一個(gè)獨(dú)立工具,對(duì)數(shù)據(jù)進(jìn)行類似預(yù)處理的操作,來獲得數(shù)據(jù)的基本分類情況。目前,傳統(tǒng)的文本聚類算法有K-means[16]、BIRCH (balanced iterative reducing and clustering using hierarchies)[17]以及高斯混合模型(Gaussian mixture model,GMM)[18]等,這些算法和技術(shù)已被應(yīng)用于自動(dòng)文摘、信息檢索、推薦系統(tǒng)等領(lǐng)域中。

    而本文將采用一種基于神經(jīng)網(wǎng)絡(luò)的聚類方法——基于SOM 的聚類方法。該聚類方法由Kohoen[7]提出,對(duì)應(yīng)的網(wǎng)絡(luò)模型一般只包含輸入層和輸出層,不包含隱藏層。其中,輸入層用于接收高維的輸入向量,輸出層則由一系列有序節(jié)點(diǎn)構(gòu)成(例如輸出層神經(jīng)元之間的結(jié)構(gòu)為二維網(wǎng)格,它們存在橫向連接),輸入層與輸出層之間通過權(quán)重向量連接。

    與傳統(tǒng)聚類算法以及其他基于神經(jīng)網(wǎng)絡(luò)的聚類方法不同的是,SOM 聚類方法不需要預(yù)先設(shè)置聚類數(shù)目,或者僅在傳統(tǒng)聚類算法中融入神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的詞或句的表示,完全采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠直接應(yīng)用在輸入數(shù)據(jù)的高維詞向量上,并能夠在輸出層根據(jù)不同的輸入數(shù)據(jù)激活相應(yīng)的神經(jīng)元的同時(shí),將數(shù)據(jù)進(jìn)行降維且保留數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)。此外,現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型一般采用的都是誤差修正學(xué)習(xí)方式(例如誤差反向傳播算法)來進(jìn)行模型的訓(xùn)練和學(xué)習(xí),而基于SOM 的聚類模型采用的學(xué)習(xí)方式為競(jìng)爭(zhēng)學(xué)習(xí)。具體地,在模型訓(xùn)練和學(xué)習(xí)過程中,各輸出神經(jīng)元會(huì)有選擇地適應(yīng)具有潛在類別的輸入數(shù)據(jù),使得最終輸入某一類的數(shù)據(jù)時(shí),能找到與之距離最短的一個(gè)輸出層神經(jīng)元并激活,也即各個(gè)輸出神經(jīng)元代表了不同的簇,在輸入某一類的數(shù)據(jù)到模型中時(shí),該類對(duì)應(yīng)的輸出神經(jīng)元會(huì)被激活,使得該數(shù)據(jù)劃入該簇中。與此同時(shí),這種競(jìng)爭(zhēng)學(xué)習(xí)機(jī)制在模型訓(xùn)練過程中,除了會(huì)對(duì)被激活的“獲勝”輸出神經(jīng)元與輸入層之間的權(quán)重向量進(jìn)行更新外,還會(huì)對(duì)設(shè)定的鄰近區(qū)域內(nèi)的其他輸出神經(jīng)元與對(duì)應(yīng)的輸入層之間的權(quán)重向量也進(jìn)行一定程度的權(quán)值更新,這使得輸出神經(jīng)元之間能夠保持輸入層向量的拓?fù)涮卣鳌?/p>

    另外,因?yàn)楦飨嗨茢?shù)據(jù)簇中的新聞數(shù)據(jù)往往會(huì)表達(dá)相似或者相同主題,而各個(gè)主題又是以文本中所有字詞為支撐集的概率分布,所以可以在文本聚類結(jié)果上進(jìn)一步獲取各數(shù)據(jù)簇中的主題詞信息。本文采用的是被廣泛應(yīng)用的LDA 主題模型[8]來進(jìn)一步分析各簇中的文本數(shù)據(jù),并獲取各簇中與該簇主題關(guān)聯(lián)性高的、有較大出現(xiàn)概率的主題詞集合。

    具體地,LDA 主題模型作為一種文檔生成模型,也是一種無監(jiān)督學(xué)習(xí)技術(shù)。它采用詞袋方法,將每篇文檔視為一個(gè)詞頻向量,在生成文檔時(shí),認(rèn)為一篇文檔可以有多個(gè)主題,每個(gè)主題又對(duì)應(yīng)不同的主題詞。在采用LDA 模型進(jìn)行文檔生成的過程中,首先以一定概率選擇某個(gè)主題,然后在該主題下再以一定概率選擇一個(gè)詞,之后不斷重復(fù)這個(gè)過程,直到整篇文檔生成結(jié)束。相應(yīng)地,在本文中利用LDA 主題模型從聚類模型得到的各簇新聞內(nèi)容數(shù)據(jù)中獲取主題詞的過程是上述文檔生成過程的逆過程,即根據(jù)數(shù)據(jù)集中的新聞內(nèi)容的文本集合,找到各簇?cái)?shù)據(jù)的主題以及每一個(gè)主題對(duì)應(yīng)的高頻詞集合。

    2 抽取式神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成方法

    2.1 問題定義

    如表1 所示,使用形式化語言對(duì)基于抽取式方法的中文新聞標(biāo)題生成問題進(jìn)行描述和定義。每一條新聞內(nèi)容d由句子序列{s1,s2,…,sn} 組成,其中si對(duì)應(yīng)新聞內(nèi)容中的第i條句子。而si是一條進(jìn)行了分詞的詞語序列,其中wi,j對(duì)應(yīng)該文檔d中第i條句子中的第j個(gè)詞語。則對(duì)一條新聞內(nèi)容d進(jìn)行抽取式標(biāo)題生成,是判斷各條句子中哪些詞語應(yīng)該被保留,并最終產(chǎn)生一條包含了k個(gè)詞語的詞語序列(即標(biāo)題)c={c1,c2,…,ck},其中任意一個(gè)詞語cl均來自新聞內(nèi)容d。

    表1 中文新聞標(biāo)題生成問題的形式化定義

    而對(duì)于包含了N條新聞數(shù)據(jù)的數(shù)據(jù)集來說,將數(shù)據(jù)集形式化表示為,對(duì)應(yīng)的標(biāo)簽序列集合表示為,則本文基于抽取式方法的神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型的訓(xùn)練目標(biāo)是使用C進(jìn)行模型訓(xùn)練,得到神經(jīng)網(wǎng)絡(luò)序列標(biāo)注模型。之后對(duì)于任意一條用于測(cè)試的中文新聞數(shù)據(jù)dtest,模型可以預(yù)測(cè)并輸出對(duì)應(yīng)的標(biāo)簽序列ytest,再根據(jù)標(biāo)簽序列中標(biāo)“1”的標(biāo)簽可以找到新聞內(nèi)容中相應(yīng)位置的、構(gòu)成新聞標(biāo)題的具體詞匯。

    2.2 基于SOM 的聚類模型

    本文采用的SOM 聚類模型是一個(gè)一維前向網(wǎng)絡(luò)結(jié)構(gòu),輸入層神經(jīng)元與輸出層神經(jīng)元以及輸出層神經(jīng)元之間都是全連接的結(jié)構(gòu),具體的模型結(jié)構(gòu)如圖1 左下角所示。

    圖1 輔以聚類方法的抽取式神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型的整體框架

    其中,som(·) 表示SOM 模型對(duì)各條新聞數(shù)據(jù)的計(jì)算過程,θs表示SOM 模型中的權(quán)重參數(shù)。整個(gè)SOM 模型在設(shè)置的迭代輪次結(jié)束后停止訓(xùn)練。則針對(duì)輸入的單條新聞內(nèi)容,其對(duì)應(yīng)激活的輸出神經(jīng)元坐標(biāo)zs可以被轉(zhuǎn)化為索引表示,也就對(duì)應(yīng)聚類結(jié)果中該條新聞內(nèi)容所歸屬的簇編號(hào)。

    最后,利用預(yù)訓(xùn)練好的SOM 模型,可以獲取并賦予每一條輸入的新聞內(nèi)容所對(duì)應(yīng)的簇編號(hào)。

    2.3 抽取式神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型

    2.3.1 基準(zhǔn)模型

    本文采用了常用的一種神經(jīng)網(wǎng)絡(luò)序列標(biāo)注框架作為基準(zhǔn)模型,它由一個(gè)雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)與一個(gè)條件隨機(jī)場(chǎng)模型組成,且其輸入使用了多種特征信息,包括詞向量、命名實(shí)體信息、詞性信息等。

    具體地,對(duì)每一條新聞內(nèi)容d,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)會(huì)將其對(duì)應(yīng)的詞向量和詞匯特征(命名實(shí)體特征和詞性特征)進(jìn)行聯(lián)合作為輸入x=(e1,1,e1,2,,其中分別為詞向量、命名實(shí)體特征向量、詞性特征向量的維度。之后,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出為一條隱層狀態(tài)序列h=(h1,h2,…,hTx),其中Tx為輸入向量x的長(zhǎng)度,每一個(gè)hi是向前和向后的長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)的輸出表示的連接:

    隨后,將雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出h輸入到一個(gè)全連接層進(jìn)行一定程度上的數(shù)據(jù)降維,再將得到的輸出輸入到條件隨機(jī)場(chǎng)模型中:

    其中,Wd和bd為全連接層的權(quán)重和偏置向量。

    則根據(jù)條件隨機(jī)場(chǎng)模型計(jì)算得到的對(duì)應(yīng)當(dāng)前新聞內(nèi)容d的一條標(biāo)簽序列y的得分為

    另外,因條件隨機(jī)場(chǎng)模型的計(jì)算會(huì)考慮所有可能預(yù)測(cè)出的標(biāo)簽序列,所以y出現(xiàn)的概率最終可以定義為

    其中,Wc和bc為模型處理(yi-1,yi) 標(biāo)簽對(duì)時(shí)的權(quán)重和偏置向量。

    在基準(zhǔn)神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型的訓(xùn)練過程中,整個(gè)模型的目標(biāo)是使正確的標(biāo)簽序列所對(duì)應(yīng)的對(duì)數(shù)概率最大化。因而本文采用維特比算法來訓(xùn)練條件隨機(jī)場(chǎng)模型,并使用得分最高的標(biāo)簽序列y*作為模型預(yù)測(cè)并輸出的最優(yōu)標(biāo)簽序列結(jié)果。

    2.3.2 融入聚類模型的中文標(biāo)題生成模型

    為更好地探索新聞數(shù)據(jù)內(nèi)部的隱含類別特征信息,本文采用了文獻(xiàn)[19]設(shè)計(jì)的一種神經(jīng)網(wǎng)絡(luò)框架——輔以聚類的神經(jīng)網(wǎng)絡(luò)中文句子壓縮模型(SOM-enhanced neural Chinese sentence compression model,SOM-NCSCM),如圖1 中的方法①所示,并將其用于中文新聞標(biāo)題生成任務(wù)。

    具體地,為更豐富地表示新聞內(nèi)容,本文將2.2節(jié)預(yù)訓(xùn)練好的SOM 模型得到的簇編號(hào)特征ec與新聞內(nèi)容各個(gè)分詞對(duì)應(yīng)的詞向量以及詞匯特征(命名實(shí)體特征和詞性特征)進(jìn)行連接,得到特征集合x′,其中分別為與基準(zhǔn)模型相同的詞向量、命名實(shí)體特征向量、詞性特征向量的維度,而dc為隨機(jī)初始化的簇編號(hào)特征的維度。在得到特征集合之后,將其作為文獻(xiàn)[19]設(shè)計(jì)和采用的基于注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型[20]的輸入,用于將簇編號(hào)特征融入對(duì)新聞內(nèi)容的上下文表示中。相應(yīng)地,針對(duì)當(dāng)前某條新聞內(nèi)容的輸出,其計(jì)算方式如下。

    其中,t∈[1,Tx],Wh、Ws和?都是模型中可訓(xùn)練的參數(shù),而同樣是向前和向后的長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)的輸出的連接,使用同式(2)的計(jì)算方式。

    由此,通過這一額外的神經(jīng)網(wǎng)絡(luò)模型,可以得到聚類結(jié)果增強(qiáng)的新聞內(nèi)容句子表示es。最后,再將新聞內(nèi)容各個(gè)分詞對(duì)應(yīng)的詞向量ew與整個(gè)新聞內(nèi)容的句子表示es進(jìn)行連接,作為基準(zhǔn)模型的輸入,以此來改進(jìn)基準(zhǔn)模型:

    之后整個(gè)模型的訓(xùn)練過程與2.3.1 節(jié)介紹的基準(zhǔn)模型的訓(xùn)練過程類似。

    2.3.3 融入聚類模型和LDA 模型的中文標(biāo)題生成模型

    本文進(jìn)一步對(duì)文獻(xiàn)[19]提出的NCSCM 框架進(jìn)行了改進(jìn),設(shè)計(jì)了4 種將聚類模型得到的聚類結(jié)果和LDA 主題模型獲取的主題詞特征信息進(jìn)行融合來加強(qiáng)對(duì)新聞內(nèi)容的上下文表示的方法和模型。

    首先,利用LDA 主題模型對(duì)聚類結(jié)果中每個(gè)簇內(nèi)的所有新聞內(nèi)容進(jìn)行分析,獲取與該簇主題相關(guān)的、出現(xiàn)概率最高的前k個(gè)主題關(guān)鍵詞。之后,將每一個(gè)簇的k個(gè)主題詞轉(zhuǎn)化為主題詞特征向量,并構(gòu)建了4 種在模型中融合主題詞信息與簇編號(hào)信息的方法。各方法對(duì)應(yīng)的模型如圖1 中的方法②~⑤所示,具體的實(shí)現(xiàn)方法如下所述。

    以上4 種模型在后續(xù)的訓(xùn)練過程,與2.3.1 節(jié)介紹的基準(zhǔn)模型的訓(xùn)練過程類似,這里不再贅述。

    3 數(shù)據(jù)與實(shí)驗(yàn)

    3.1 數(shù)據(jù)與預(yù)處理

    本文在實(shí)驗(yàn)中采用的數(shù)據(jù)集是哈爾濱工業(yè)大學(xué)整理的大規(guī)模中文短文摘要數(shù)據(jù)集(large-scale Chinese short text summarization dataset,LCSTS)[1]。其中的摘要數(shù)據(jù)來源于新聞媒體在中國(guó)社交平臺(tái)新浪微博上發(fā)布的新聞內(nèi)容,每條數(shù)據(jù)包含一個(gè)中文短文本和一條對(duì)應(yīng)標(biāo)題。另外,根據(jù)抽取式標(biāo)題生成任務(wù)需求,本文對(duì)該數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行了一定的預(yù)處理,具體操作包括:

    (1) 從原始數(shù)據(jù)集中獲取新聞?wù)膬?nèi)容和對(duì)應(yīng)標(biāo)題。

    (2) 因數(shù)據(jù)來自網(wǎng)絡(luò),需去掉文本數(shù)據(jù)中的特殊符號(hào)。之后再使用jieba 庫對(duì)新聞內(nèi)容和標(biāo)題進(jìn)行分詞。

    (3) 根據(jù)新聞標(biāo)題中的分詞,預(yù)先在新聞?wù)膬?nèi)容中依次、自動(dòng)標(biāo)注出標(biāo)題中各詞語出現(xiàn)過的位置。

    (4) 人工核對(duì),在新聞?wù)膬?nèi)容中選擇語義更加連貫的詞語片段,將對(duì)應(yīng)的標(biāo)題詞語所在位置的標(biāo)簽標(biāo)為“1”,得到標(biāo)簽序列。之后再經(jīng)過一遍自動(dòng)核對(duì),判斷新聞內(nèi)容中標(biāo)為“1”的那些詞語是否與標(biāo)題中各個(gè)詞語一致,也即無漏標(biāo)、多標(biāo)等情況。

    (5) 隨機(jī)抽取標(biāo)注好的數(shù)據(jù)用于模型訓(xùn)練、驗(yàn)證與測(cè)試,并使用斯坦福大學(xué)提供的自然語言處理工具包CoreNLP 對(duì)抽取的數(shù)據(jù)進(jìn)行命名實(shí)體與詞性標(biāo)注。

    最后,本文預(yù)處理后隨機(jī)抽取LCSTS 得到的用于本文實(shí)驗(yàn)的數(shù)據(jù)集合的統(tǒng)計(jì)信息如表2 所示。在實(shí)驗(yàn)時(shí),將其拆分成8000 條訓(xùn)練數(shù)據(jù),1000 條驗(yàn)證數(shù)據(jù)以及1064 條測(cè)試數(shù)據(jù)。

    表2 LCSTS 數(shù)據(jù)集中抽取的新聞數(shù)據(jù)

    3.2 實(shí)驗(yàn)設(shè)置

    本文實(shí)驗(yàn)了3 種初始化表示中文新聞數(shù)據(jù)以及主題詞信息的方法,包括以字為基本單位的中文來自變換器的雙向編碼器表征量(bidirectional encoder representation from transformers,BERT) 預(yù)訓(xùn)練模型[21]以及以詞為基本單位的2 種中文預(yù)訓(xùn)練模型(300 維度的Word2Vector 預(yù)訓(xùn)練中文詞向量[22]和中文WoBERT 預(yù)訓(xùn)練模型),并采用MiniSom 庫來構(gòu)建SOM 模型,且將其輸出層神經(jīng)元結(jié)構(gòu)設(shè)置為大小是10 的一維線型結(jié)構(gòu),其他參數(shù)保持庫中提供的模型默認(rèn)值。另外,將命名實(shí)體特征、詞性特征以及簇信息特征在模型訓(xùn)練階段都分別初始化為32 維的向量,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的隱層維度都設(shè)置為128 維,全連接層維度為64 維。而為防止過擬合,在基準(zhǔn)模型的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)與全連接層接受輸入之前使用比例為0.5 的dropout 操作。整個(gè)模型在訓(xùn)練時(shí)的批大小為64,并使用學(xué)習(xí)率為0.001的Adam 算法來進(jìn)行模型參數(shù)的優(yōu)化和學(xué)習(xí)。

    模型對(duì)應(yīng)的預(yù)測(cè)結(jié)果都是在測(cè)試集上進(jìn)行,且每個(gè)模型至少重復(fù)訓(xùn)練過5 次,并最終選擇效果趨于平均值的模型進(jìn)行效果展示與比較。此外,為評(píng)估各新聞標(biāo)題生成模型的效果,本文采用的主要評(píng)價(jià)指標(biāo)為微觀F1 值(microF1)和壓縮率(compression ratio,CR)[23],以及輔助評(píng)價(jià)指標(biāo)BLEU 值[24]和ROUGE 值[25]。這4 種評(píng)價(jià)指標(biāo)的計(jì)算方式分別為

    (1) 微觀F1 值:

    3.3 模型

    本文進(jìn)行實(shí)驗(yàn)和效果評(píng)估與對(duì)比的各模型如下,在各模型中也分別實(shí)驗(yàn)了3 種初始化詞向量的方法。其中,使用以字為基本單位的預(yù)訓(xùn)練模型時(shí),會(huì)對(duì)按照分詞進(jìn)行“0/1”標(biāo)注的數(shù)據(jù)進(jìn)一步結(jié)合BIO(begin inside outside)標(biāo)注法進(jìn)行處理后再訓(xùn)練和測(cè)試模型。

    (1) 基準(zhǔn)模型:本文2.3.1 節(jié)中介紹的模型。

    (2) 融入傳統(tǒng)聚類算法的中文標(biāo)題生成模型:為了比較SOM 模型的聚類效果,本文在NCSCM 框架中實(shí)驗(yàn)了2種傳統(tǒng)的聚類算法(K-means算法和GMM 模型),并將這2 種算法需要提前設(shè)置的聚類數(shù)目設(shè)置為與取得較好效果的SOM 模型得到的聚類數(shù)目相同的數(shù)值(聚類數(shù)目設(shè)置為10)

    (3) SOM-NCSCM:本文2.3.2 節(jié)中的方法①。

    (4) 融入SOM 模型和LDA 模型的中文標(biāo)題生成模型:本文2.3.3 節(jié)中的方法②~⑤,也即對(duì)NCSCM 框架的4 種改進(jìn)模型。

    3.4 主要實(shí)驗(yàn)結(jié)果

    表3 列出了各模型在抽取的LCSTS 的測(cè)試數(shù)據(jù)上取得的效果。實(shí)驗(yàn)結(jié)果中,加粗字體對(duì)應(yīng)的結(jié)果是當(dāng)前評(píng)價(jià)指標(biāo)下的最優(yōu)值,下劃線對(duì)應(yīng)的結(jié)果是當(dāng)前評(píng)價(jià)指標(biāo)下的次優(yōu)值,加星號(hào)對(duì)應(yīng)的結(jié)果是當(dāng)前預(yù)訓(xùn)練模型下各評(píng)價(jià)指標(biāo)中的最優(yōu)值。表4 列出了在取得較好實(shí)驗(yàn)結(jié)果的聚類結(jié)果中,各簇經(jīng)過LDA 主題模型從訓(xùn)練數(shù)據(jù)中獲取的具有較高概率的前10 個(gè)主題詞。從各個(gè)模型在測(cè)試集上取得的效果中可以看到:

    表3 所有模型在LCSTS 的測(cè)試集上的實(shí)驗(yàn)結(jié)果

    表4 LDA 主題模型從聚類結(jié)果的各簇?cái)?shù)據(jù)中抽取的取得較高概率的前個(gè)10 主題詞

    (1) 整體上看,使用以詞為基本單位的WoBERT 預(yù)訓(xùn)練模型來初始化詞向量的各模型在主要評(píng)價(jià)指標(biāo)F1 值上取得的效果均較使用另外2 種預(yù)訓(xùn)練模型的效果好,而使用以字為基本單位的BERT 預(yù)訓(xùn)練模型的各模型效果能夠取得最優(yōu)的壓縮率、BLEU 和ROUGE 值,這也就體現(xiàn)了BERT 預(yù)訓(xùn)練模型能夠輸出語境信息更豐富的詞向量的能力。

    (2) 相較于基準(zhǔn)模型,融入了聚類結(jié)果以及主題詞特征的各模型,其效果都明顯提升。這說明數(shù)據(jù)中相似數(shù)據(jù)之間存在的特征信息(主題類別以及主題詞信息)能夠輔助相似新聞數(shù)據(jù)進(jìn)行新聞標(biāo)題詞的選取。

    (3) 采用傳統(tǒng)聚類算法的標(biāo)題生成模型在F1值、壓縮率、BLEU 和ROUGE 指標(biāo)上都較基準(zhǔn)模型的效果有所提升,說明融入聚類特征能夠讓模型保留更多的新聞標(biāo)題詞,確保沒有過度壓縮新聞數(shù)據(jù)。

    (4) 結(jié)合表4 展示的主題詞信息可以看到,采用SOM 進(jìn)行神經(jīng)網(wǎng)絡(luò)聚類方法得到的模型較基于傳統(tǒng)聚類算法的模型能夠取得更好效果,且在僅采用聚類編號(hào)特征信息的方法①的基礎(chǔ)上,在方法②~⑤中融入主題詞特征信息后,可以進(jìn)一步提升新聞標(biāo)題生成的效果。

    (5) 此外,本文提出的方法②~⑤實(shí)驗(yàn)了融入主題詞信息的不同方式。從實(shí)驗(yàn)結(jié)果中可看到,直接融入主題詞特征信息來增強(qiáng)新聞句子表示的方式(方法②和③)能在各個(gè)指標(biāo)上達(dá)到較優(yōu)或者最優(yōu)的效果,而通過更為深入和復(fù)雜的融合方式得到的模型(方法④和⑤),能夠取得更佳的F1 值、BLEU和ROUGE 值,但在其訓(xùn)練過程中,所需訓(xùn)練時(shí)間更長(zhǎng),并因模型參數(shù)更多,更易出現(xiàn)過擬合。

    3.5 聚類模型消融實(shí)驗(yàn)

    為更好地觀察不同SOM 聚類模型的神經(jīng)元結(jié)構(gòu)大小對(duì)設(shè)計(jì)的標(biāo)題生成模型效果的影響,本文還進(jìn)行了針對(duì)SOM 聚類模型的消融實(shí)驗(yàn):

    (1) 在方法④對(duì)應(yīng)的SOM-NCSCM_ave 模型上融入不同SOM 神經(jīng)元結(jié)構(gòu)大小的聚類結(jié)果和相應(yīng)LDA 主題模型獲取的主題詞信息,實(shí)驗(yàn)結(jié)果如表5所示(使用中文WoBERT 預(yù)訓(xùn)練模型初始化詞向量),“SOM=X”對(duì)應(yīng)著設(shè)置的不同SOM 神經(jīng)元結(jié)構(gòu)大小,也即聚類結(jié)果中簇的數(shù)量。。

    (2) 從傳統(tǒng)聚類方法(K-means 算法和GMM 模型)以及不同SOM 神經(jīng)元結(jié)構(gòu)大小的SOM 聚類模型得到的各簇中分別都抽取了200 條數(shù)據(jù),計(jì)算不同聚類模型取得的輪廓系數(shù)(silhouette coefficient),結(jié)果如表6 所示。

    表6 不同聚類模型的輪廓系數(shù)

    當(dāng)神經(jīng)元結(jié)構(gòu)較小時(shí),聚類得到的簇較少,而隨著神經(jīng)元結(jié)構(gòu)增大,聚類得到的簇?cái)?shù)量也逐漸增多。相應(yīng)地,簇較少時(shí),新聞數(shù)據(jù)難以得到充分聚類,而簇增多時(shí),聚類到各簇的新聞數(shù)據(jù)量就會(huì)減少,導(dǎo)致有些相似新聞數(shù)據(jù)被過度細(xì)分。因此,本文采用了聚類效果最佳的、神經(jīng)元結(jié)構(gòu)大小為10 的SOM 模型進(jìn)行各模型的實(shí)驗(yàn)和效果對(duì)比。

    3.6 舉例分析

    表7 舉例展示了3 條測(cè)試集中的新聞數(shù)據(jù)以及3 種在測(cè)試集上取得較好效果的模型的預(yù)測(cè)輸出,從表中可以直觀地看到融入SOM 聚類模型與LDA主題模型對(duì)新聞標(biāo)題生成效果的影響。其中,分詞之間使用“/”分隔。

    表7 3 條新聞內(nèi)容以及3 種模型的預(yù)測(cè)結(jié)果

    通過分析各模型的預(yù)測(cè)結(jié)果,可以總結(jié)出在處理該數(shù)據(jù)集上的新聞標(biāo)題生成任務(wù)時(shí)現(xiàn)有模型的優(yōu)勢(shì)和存在的問題。

    (1) 原標(biāo)題與預(yù)測(cè)標(biāo)題的質(zhì)量:文獻(xiàn)[1]也說明了其收集的新聞數(shù)據(jù)中原標(biāo)題質(zhì)量有好有差的情況。部分原標(biāo)題包含了充分的新聞信息且語言更簡(jiǎn)練,而另一部分原標(biāo)題相對(duì)更抽象、未能概括新聞內(nèi)容的完整信息。如表6 中的例1 就是原標(biāo)題缺少地點(diǎn)關(guān)鍵詞(“甘肅/定西”)以及更充分的信息量(“296/人/重傷”),而文本設(shè)計(jì)的各模型能預(yù)測(cè)并補(bǔ)全其原標(biāo)題中缺乏的這些關(guān)鍵信息;例3 則是原標(biāo)題較抽象、缺乏事實(shí)相關(guān)信息的例子。此外,在依據(jù)本文實(shí)驗(yàn)需求進(jìn)行數(shù)據(jù)標(biāo)注時(shí),也會(huì)存在少量的分詞錯(cuò)誤或分詞不一致問題,如例1 中的分詞錯(cuò)誤“中寨至”,例3 中的分詞不一致“冷鮮/雞”與“冷/鮮/雞”。而從各模型的預(yù)測(cè)結(jié)果中可以看到,相較于其原標(biāo)題,本文設(shè)計(jì)的模型能生成更可讀的、與新聞內(nèi)容關(guān)聯(lián)更大的、包含更充分的信息量的新聞標(biāo)題,且在模型中更充分地融入聚類和主題詞信息,能夠?qū)Ψ衷~問題導(dǎo)致的影響具有一定的魯棒性。

    (2) 新聞數(shù)據(jù)壓縮程度:即新聞標(biāo)題需要對(duì)新聞內(nèi)容更加精煉的表達(dá),同時(shí)不能丟失新聞內(nèi)容中的關(guān)鍵信息。從表6 的例子中可以看到,各模型對(duì)新聞標(biāo)題詞的選取,有時(shí)會(huì)保留更多的、不存在于原標(biāo)題中的詞語,但預(yù)測(cè)的標(biāo)題在一定程度上也是可讀且合理的。結(jié)合表4 的實(shí)驗(yàn)結(jié)果,從壓縮率指標(biāo)上來看,各模型在預(yù)測(cè)時(shí),總體上仍會(huì)傾向于保留較少的詞語,這導(dǎo)致一些關(guān)鍵詞被遺漏,例如表6 例2中的“南海/網(wǎng)”,以及“在/海南”在新聞內(nèi)容出現(xiàn)的順序偏后,沒有得到模型更多的關(guān)注而被漏標(biāo)。

    4 結(jié)論

    針對(duì)中文新聞標(biāo)題生成任務(wù)面臨的大規(guī)模且高質(zhì)量中文標(biāo)注數(shù)據(jù)缺乏的問題,本文利用標(biāo)題往往由原文中的詞匯構(gòu)成這一特點(diǎn),將中文抽取式標(biāo)題生成問題轉(zhuǎn)化為序列標(biāo)注問題,并提出了多種在深度神經(jīng)網(wǎng)絡(luò)中文標(biāo)題生成模型中融入聚類和主題模型的方法。利用基于無監(jiān)督學(xué)習(xí)的SOM 聚類模型和LDA主題模型自動(dòng)挖掘出表達(dá)相同或相似主題的數(shù)據(jù)以及數(shù)據(jù)中的主題詞信息,在基于監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)模型中融入這些特征,增強(qiáng)對(duì)新聞內(nèi)容的上下文表示,從而輔助中文新聞標(biāo)題生成。在互聯(lián)網(wǎng)上公開的、缺乏人工標(biāo)注分類信息的LCSTS 中文新聞數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的模型在各評(píng)價(jià)指標(biāo)上的結(jié)果較基準(zhǔn)模型都有所提升,也提高了中文標(biāo)題生成的質(zhì)量。未來的工作可以從提升壓縮率來避免過度壓縮、減少關(guān)鍵信息遺漏的角度出發(fā)繼續(xù)研究,也可以設(shè)計(jì)人工評(píng)價(jià)策略來更細(xì)致地評(píng)估模型的效果,允許模型生成多樣化的標(biāo)題。

    猜你喜歡
    主題詞文檔聚類
    有人一聲不吭向你扔了個(gè)文檔
    基于DBSACN聚類算法的XML文檔聚類
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    基于改進(jìn)的遺傳算法的模糊聚類算法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
    我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
    我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
    2014年第16卷第1~4期主題詞索引
    《疑難病雜志》2014年第13卷主題詞索引
    亚洲国产日韩欧美精品在线观看| 亚洲综合精品二区| 国产精品,欧美在线| 久久精品影院6| 国产成人福利小说| 免费大片18禁| 日韩亚洲欧美综合| 中文字幕精品亚洲无线码一区| 亚洲欧美日韩高清专用| 淫秽高清视频在线观看| 免费电影在线观看免费观看| 一边亲一边摸免费视频| 狂野欧美激情性xxxx在线观看| 亚洲国产欧美在线一区| 日韩人妻高清精品专区| 波多野结衣巨乳人妻| 白带黄色成豆腐渣| 国产一级毛片七仙女欲春2| 午夜福利在线在线| 亚洲国产精品专区欧美| 久久久精品94久久精品| 成人无遮挡网站| 中文乱码字字幕精品一区二区三区 | 国产精品人妻久久久久久| 夫妻性生交免费视频一级片| 高清午夜精品一区二区三区| 午夜福利在线在线| 七月丁香在线播放| a级毛片免费高清观看在线播放| 国产精品久久久久久av不卡| 99热6这里只有精品| 国产精品蜜桃在线观看| 久久精品熟女亚洲av麻豆精品 | 一级黄片播放器| a级毛色黄片| 午夜福利成人在线免费观看| 国产精品蜜桃在线观看| 欧美一级a爱片免费观看看| 国产色婷婷99| 亚洲最大成人中文| 精品熟女少妇av免费看| 国产精品福利在线免费观看| 精品久久久久久久久亚洲| 国产av不卡久久| 嫩草影院精品99| 亚洲va在线va天堂va国产| 日韩 亚洲 欧美在线| 晚上一个人看的免费电影| 欧美97在线视频| 99久久九九国产精品国产免费| 亚洲精品日韩在线中文字幕| 在线免费观看的www视频| 成人性生交大片免费视频hd| 嫩草影院入口| 一个人观看的视频www高清免费观看| 午夜精品在线福利| 日韩一区二区三区影片| 中文字幕制服av| 一级毛片aaaaaa免费看小| 天堂av国产一区二区熟女人妻| 国产成人一区二区在线| 亚洲国产高清在线一区二区三| 日本与韩国留学比较| 久久婷婷人人爽人人干人人爱| 色综合站精品国产| 国产成人a∨麻豆精品| 欧美色视频一区免费| 女的被弄到高潮叫床怎么办| 日韩欧美国产在线观看| 免费观看精品视频网站| 中文字幕av在线有码专区| 看片在线看免费视频| 久久久久久九九精品二区国产| 亚洲av免费在线观看| 男女视频在线观看网站免费| 欧美色视频一区免费| 午夜激情欧美在线| 精品人妻一区二区三区麻豆| 国产精品不卡视频一区二区| 黄色一级大片看看| 国产av码专区亚洲av| 久久热精品热| 黄片无遮挡物在线观看| 欧美精品国产亚洲| 少妇裸体淫交视频免费看高清| 春色校园在线视频观看| 久久精品久久久久久久性| 精品人妻一区二区三区麻豆| 午夜免费男女啪啪视频观看| 在线观看66精品国产| 2022亚洲国产成人精品| 日日撸夜夜添| av在线播放精品| 国产视频内射| av专区在线播放| 精品国产一区二区三区久久久樱花 | 嫩草影院入口| 亚洲欧洲国产日韩| 国产精品爽爽va在线观看网站| 中国国产av一级| av在线播放精品| 最后的刺客免费高清国语| 日韩成人av中文字幕在线观看| 六月丁香七月| 国产黄色视频一区二区在线观看 | 午夜福利网站1000一区二区三区| 白带黄色成豆腐渣| 国产精品国产高清国产av| 国产不卡一卡二| 国产国拍精品亚洲av在线观看| 狠狠狠狠99中文字幕| 一个人观看的视频www高清免费观看| 国产片特级美女逼逼视频| 久久草成人影院| 免费观看精品视频网站| 岛国毛片在线播放| 你懂的网址亚洲精品在线观看 | 最近手机中文字幕大全| 国产精品伦人一区二区| 国产探花在线观看一区二区| 三级男女做爰猛烈吃奶摸视频| 蜜臀久久99精品久久宅男| 又粗又硬又长又爽又黄的视频| 日日干狠狠操夜夜爽| 亚洲人与动物交配视频| 亚洲天堂国产精品一区在线| 久久久久久久久久成人| 91久久精品电影网| 亚洲国产精品专区欧美| 91在线精品国自产拍蜜月| 日韩 亚洲 欧美在线| 国产在线一区二区三区精 | 我的女老师完整版在线观看| 午夜福利视频1000在线观看| 秋霞伦理黄片| 男女下面进入的视频免费午夜| 18禁裸乳无遮挡免费网站照片| 亚洲在线观看片| 日本免费一区二区三区高清不卡| av视频在线观看入口| videos熟女内射| 波野结衣二区三区在线| 美女黄网站色视频| 美女高潮的动态| 99久久九九国产精品国产免费| 美女黄网站色视频| 国产一级毛片在线| 国产亚洲精品av在线| 成年女人看的毛片在线观看| 欧美性猛交黑人性爽| 久久久久性生活片| 黄色日韩在线| 男人舔女人下体高潮全视频| 插阴视频在线观看视频| 99热这里只有是精品50| 精品不卡国产一区二区三区| 精品久久国产蜜桃| 国产精品伦人一区二区| av在线蜜桃| av在线天堂中文字幕| 干丝袜人妻中文字幕| 欧美最新免费一区二区三区| 久久精品综合一区二区三区| 中文字幕制服av| h日本视频在线播放| 国产精品人妻久久久影院| 国产中年淑女户外野战色| 国产毛片a区久久久久| 美女国产视频在线观看| 国产人妻一区二区三区在| 久久久久免费精品人妻一区二区| 丰满人妻一区二区三区视频av| 国产人妻一区二区三区在| 国产探花极品一区二区| 天堂√8在线中文| 久久精品久久久久久久性| 免费av不卡在线播放| 国产av不卡久久| 久久久国产成人精品二区| 欧美最新免费一区二区三区| 99九九线精品视频在线观看视频| 日本一本二区三区精品| 日本与韩国留学比较| 久久午夜福利片| 真实男女啪啪啪动态图| 亚洲成人中文字幕在线播放| 成人av在线播放网站| av在线亚洲专区| 精品久久久久久电影网 | 汤姆久久久久久久影院中文字幕 | 精品一区二区三区视频在线| 波野结衣二区三区在线| 超碰av人人做人人爽久久| 色尼玛亚洲综合影院| 三级国产精品欧美在线观看| 久久韩国三级中文字幕| 美女被艹到高潮喷水动态| av免费观看日本| 99久久精品国产国产毛片| 在线播放无遮挡| 色综合亚洲欧美另类图片| 热99re8久久精品国产| 免费无遮挡裸体视频| 日韩三级伦理在线观看| 国产一级毛片在线| 亚洲av中文av极速乱| 亚洲精品影视一区二区三区av| 免费人成在线观看视频色| av国产免费在线观看| 一级毛片我不卡| 波多野结衣巨乳人妻| 深夜a级毛片| 欧美激情在线99| 麻豆成人午夜福利视频| av专区在线播放| 成人毛片a级毛片在线播放| 国产一区二区在线av高清观看| 1024手机看黄色片| 成人综合一区亚洲| 国产极品精品免费视频能看的| 97超视频在线观看视频| 日韩成人av中文字幕在线观看| 热99re8久久精品国产| a级一级毛片免费在线观看| 精品人妻偷拍中文字幕| 黑人高潮一二区| 2021少妇久久久久久久久久久| 国产大屁股一区二区在线视频| 亚洲中文字幕一区二区三区有码在线看| 亚洲欧美成人综合另类久久久 | 日韩视频在线欧美| 欧美三级亚洲精品| 亚洲一级一片aⅴ在线观看| 国内精品宾馆在线| 精品国内亚洲2022精品成人| av.在线天堂| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 十八禁国产超污无遮挡网站| 亚洲中文字幕日韩| 国产精品,欧美在线| 日韩一区二区三区影片| 国产精品综合久久久久久久免费| 六月丁香七月| 少妇熟女aⅴ在线视频| 天堂√8在线中文| 免费黄网站久久成人精品| 久久热精品热| 1024手机看黄色片| 亚洲国产高清在线一区二区三| 校园人妻丝袜中文字幕| 99热精品在线国产| 国产成年人精品一区二区| 晚上一个人看的免费电影| 国内少妇人妻偷人精品xxx网站| 欧美激情在线99| 国产午夜精品一二区理论片| АⅤ资源中文在线天堂| 免费黄网站久久成人精品| 男人舔奶头视频| 性色avwww在线观看| 久久精品国产亚洲av涩爱| 国产成人精品婷婷| 亚洲美女搞黄在线观看| 久久国产乱子免费精品| 日本黄色片子视频| 波多野结衣高清无吗| 一区二区三区乱码不卡18| 两性午夜刺激爽爽歪歪视频在线观看| 乱人视频在线观看| 国产激情偷乱视频一区二区| 美女黄网站色视频| 级片在线观看| 日本色播在线视频| 卡戴珊不雅视频在线播放| 欧美高清性xxxxhd video| 国产高清不卡午夜福利| 国产精品人妻久久久影院| 乱系列少妇在线播放| 日韩在线高清观看一区二区三区| 亚洲自拍偷在线| 午夜亚洲福利在线播放| 久久久国产成人精品二区| 国产精品国产高清国产av| 九九久久精品国产亚洲av麻豆| 午夜免费激情av| 国产精品av视频在线免费观看| 最近中文字幕高清免费大全6| 国产91av在线免费观看| 内射极品少妇av片p| 亚洲美女视频黄频| 国产亚洲精品久久久com| 麻豆一二三区av精品| 久久99蜜桃精品久久| 99久久无色码亚洲精品果冻| 久久久久久久亚洲中文字幕| 亚洲av中文av极速乱| 69av精品久久久久久| 欧美97在线视频| 亚洲精品久久久久久婷婷小说 | 99热6这里只有精品| 久久久久久久久中文| 国产三级在线视频| 一级毛片我不卡| 国产精品人妻久久久久久| 亚洲精品日韩av片在线观看| 99久久无色码亚洲精品果冻| 老女人水多毛片| 精品人妻偷拍中文字幕| 91在线精品国自产拍蜜月| 国产 一区 欧美 日韩| 午夜日本视频在线| 久久99热这里只频精品6学生 | 你懂的网址亚洲精品在线观看 | 赤兔流量卡办理| 五月伊人婷婷丁香| 男人的好看免费观看在线视频| 赤兔流量卡办理| 黄片wwwwww| 美女cb高潮喷水在线观看| 波多野结衣巨乳人妻| 久久精品久久久久久噜噜老黄 | 人妻夜夜爽99麻豆av| 18禁在线播放成人免费| 国产高清三级在线| 精品人妻视频免费看| 最近手机中文字幕大全| 在线观看66精品国产| 69av精品久久久久久| 搞女人的毛片| 天美传媒精品一区二区| 麻豆成人av视频| 中文字幕熟女人妻在线| 欧美变态另类bdsm刘玥| 国产一区二区亚洲精品在线观看| 亚洲av中文字字幕乱码综合| 成年女人永久免费观看视频| 国产精品野战在线观看| 床上黄色一级片| 久久久久久久亚洲中文字幕| 亚洲18禁久久av| 久久人妻av系列| 国产成人91sexporn| 欧美极品一区二区三区四区| 久久精品夜夜夜夜夜久久蜜豆| 一级av片app| 亚洲乱码一区二区免费版| 麻豆乱淫一区二区| 波多野结衣高清无吗| 国产成人aa在线观看| 亚洲精品aⅴ在线观看| 大香蕉97超碰在线| 国产免费一级a男人的天堂| 午夜福利视频1000在线观看| 身体一侧抽搐| 在线免费十八禁| 人妻夜夜爽99麻豆av| 亚洲最大成人手机在线| 人体艺术视频欧美日本| 最近手机中文字幕大全| 亚洲av日韩在线播放| 亚洲av免费高清在线观看| 全区人妻精品视频| 在现免费观看毛片| 国产免费一级a男人的天堂| 老司机影院成人| 成年女人看的毛片在线观看| 精品一区二区三区视频在线| 日韩av不卡免费在线播放| 午夜爱爱视频在线播放| 亚洲av中文av极速乱| 少妇人妻精品综合一区二区| 2021天堂中文幕一二区在线观| a级毛色黄片| 国产亚洲5aaaaa淫片| 少妇熟女欧美另类| 村上凉子中文字幕在线| 亚洲国产成人一精品久久久| 草草在线视频免费看| 精品99又大又爽又粗少妇毛片| 亚洲成人中文字幕在线播放| 成年av动漫网址| 国产不卡一卡二| 精品99又大又爽又粗少妇毛片| 日韩精品有码人妻一区| 中文字幕人妻熟人妻熟丝袜美| eeuss影院久久| 中文字幕免费在线视频6| 日韩一本色道免费dvd| 午夜福利在线观看吧| .国产精品久久| av国产久精品久网站免费入址| 免费av不卡在线播放| 能在线免费看毛片的网站| 国产熟女欧美一区二区| 国产精品嫩草影院av在线观看| 两个人的视频大全免费| 中文字幕精品亚洲无线码一区| 国产三级中文精品| 麻豆av噜噜一区二区三区| 成人三级黄色视频| 精品99又大又爽又粗少妇毛片| 久久这里只有精品中国| 中文在线观看免费www的网站| 97超视频在线观看视频| 免费一级毛片在线播放高清视频| 青春草亚洲视频在线观看| 熟妇人妻久久中文字幕3abv| 毛片一级片免费看久久久久| 99视频精品全部免费 在线| 一本久久精品| 午夜福利高清视频| 成人鲁丝片一二三区免费| www日本黄色视频网| 国产久久久一区二区三区| 日日撸夜夜添| 联通29元200g的流量卡| 中文字幕熟女人妻在线| www.av在线官网国产| 欧美成人a在线观看| 熟女电影av网| 麻豆成人午夜福利视频| 自拍偷自拍亚洲精品老妇| 久久精品国产99精品国产亚洲性色| av国产免费在线观看| 亚洲精品乱码久久久v下载方式| 高清日韩中文字幕在线| 免费人成在线观看视频色| 综合色av麻豆| 亚洲欧美日韩东京热| 69av精品久久久久久| 色网站视频免费| 99久国产av精品国产电影| ponron亚洲| 建设人人有责人人尽责人人享有的 | 国国产精品蜜臀av免费| 亚洲无线观看免费| 天天躁日日操中文字幕| 精品一区二区三区人妻视频| 免费在线观看成人毛片| 亚洲精品成人久久久久久| 久久久久久久久久久丰满| 日韩欧美三级三区| 午夜免费男女啪啪视频观看| 岛国在线免费视频观看| 国产精品久久久久久久电影| 久久久国产成人免费| 午夜福利在线观看免费完整高清在| 成人性生交大片免费视频hd| 国产午夜精品久久久久久一区二区三区| 蜜桃亚洲精品一区二区三区| 久久久久久伊人网av| 欧美97在线视频| 最近视频中文字幕2019在线8| 亚洲在久久综合| 精品免费久久久久久久清纯| 99视频精品全部免费 在线| 亚洲国产色片| 精品人妻视频免费看| 国产精品永久免费网站| 久久精品影院6| 尾随美女入室| 一区二区三区免费毛片| 日韩欧美 国产精品| 免费在线观看成人毛片| 搡女人真爽免费视频火全软件| 日韩欧美国产在线观看| 久久人人爽人人爽人人片va| 欧美+日韩+精品| 亚洲av一区综合| 久久亚洲国产成人精品v| 青春草亚洲视频在线观看| 国产精品一区二区三区四区免费观看| 18禁裸乳无遮挡免费网站照片| 午夜福利在线观看免费完整高清在| 三级毛片av免费| 天天躁夜夜躁狠狠久久av| 久久久久网色| 日韩精品青青久久久久久| 女人被狂操c到高潮| 只有这里有精品99| a级毛色黄片| 91av网一区二区| 国产乱人偷精品视频| 一边亲一边摸免费视频| 不卡视频在线观看欧美| 亚洲欧美清纯卡通| 汤姆久久久久久久影院中文字幕 | 成人美女网站在线观看视频| 99九九线精品视频在线观看视频| 在线观看66精品国产| 午夜爱爱视频在线播放| 欧美日韩精品成人综合77777| 天堂影院成人在线观看| 男女国产视频网站| 亚洲色图av天堂| 欧美色视频一区免费| 黄片无遮挡物在线观看| 国产 一区 欧美 日韩| 久久久久久大精品| 国产白丝娇喘喷水9色精品| 久久久色成人| 日韩欧美精品v在线| 精品人妻一区二区三区麻豆| 国产亚洲最大av| 网址你懂的国产日韩在线| 国产淫片久久久久久久久| 亚洲欧美精品专区久久| av黄色大香蕉| 淫秽高清视频在线观看| av福利片在线观看| 三级毛片av免费| 精品国产三级普通话版| 可以在线观看毛片的网站| 一夜夜www| 欧美三级亚洲精品| 干丝袜人妻中文字幕| 免费电影在线观看免费观看| 91精品一卡2卡3卡4卡| 91精品伊人久久大香线蕉| 男的添女的下面高潮视频| 欧美成人免费av一区二区三区| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 简卡轻食公司| 3wmmmm亚洲av在线观看| 国产精品电影一区二区三区| 亚洲欧美日韩卡通动漫| 国产高潮美女av| 中文字幕制服av| 美女黄网站色视频| 欧美+日韩+精品| 午夜福利视频1000在线观看| 亚洲成人精品中文字幕电影| 亚洲av成人精品一区久久| 免费观看人在逋| 欧美日韩一区二区视频在线观看视频在线 | 精品人妻视频免费看| 国产一区有黄有色的免费视频 | 国产成人a∨麻豆精品| 国产爱豆传媒在线观看| 国产精品一二三区在线看| 97人妻精品一区二区三区麻豆| 久久精品国产亚洲网站| 国产精品1区2区在线观看.| 三级经典国产精品| av视频在线观看入口| 久久久久久久久久久免费av| 欧美成人a在线观看| 在线天堂最新版资源| av女优亚洲男人天堂| 日韩av在线免费看完整版不卡| 超碰97精品在线观看| 国产伦精品一区二区三区视频9| 亚洲不卡免费看| 亚洲一级一片aⅴ在线观看| 成人综合一区亚洲| 一边亲一边摸免费视频| 男女那种视频在线观看| 中文精品一卡2卡3卡4更新| 国产激情偷乱视频一区二区| 亚洲av电影在线观看一区二区三区 | 看片在线看免费视频| 乱人视频在线观看| 内射极品少妇av片p| 国产免费视频播放在线视频 | 亚洲国产高清在线一区二区三| videossex国产| 国产成人精品久久久久久| 人妻少妇偷人精品九色| 日日啪夜夜撸| 国产视频内射| av免费观看日本| 精品久久久久久久久久久久久| 亚洲自偷自拍三级| av专区在线播放| 18禁在线播放成人免费| 国产精品一区二区三区四区免费观看| 好男人视频免费观看在线| 老司机影院毛片| 在现免费观看毛片| 国内少妇人妻偷人精品xxx网站| 国产视频内射| 亚洲精品日韩av片在线观看| 99热精品在线国产| 亚洲婷婷狠狠爱综合网| 久久99蜜桃精品久久| 99热这里只有是精品50| 69av精品久久久久久| 边亲边吃奶的免费视频| 久久久久久久久久久丰满| 舔av片在线| 亚洲电影在线观看av| 国产v大片淫在线免费观看| 国产男人的电影天堂91| h日本视频在线播放| 一级黄片播放器| 国产精品一及| 国产伦一二天堂av在线观看| 在线免费十八禁| 色综合亚洲欧美另类图片| 国产精品人妻久久久久久| 2021少妇久久久久久久久久久| av在线观看视频网站免费| 国产色婷婷99| 嫩草影院新地址| 日韩av在线免费看完整版不卡| 亚洲国产精品国产精品| 天美传媒精品一区二区| 久久久亚洲精品成人影院| 亚洲国产精品久久男人天堂| 一级毛片久久久久久久久女| 久久久久久九九精品二区国产| 亚洲国产精品国产精品| 精品免费久久久久久久清纯| 亚洲精品亚洲一区二区| 久久久a久久爽久久v久久|