• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于小樣本數(shù)據(jù)增強(qiáng)的科技文檔不平衡分類研究

    2022-06-27 13:51:54黃金鳳高巖徐童陳恩紅
    預(yù)測 2022年3期
    關(guān)鍵詞:數(shù)據(jù)增強(qiáng)文本分類

    黃金鳳 高巖 徐童 陳恩紅

    摘 要:科學(xué)技術(shù)的飛速發(fā)展衍生出海量的科技文檔,其有效管理與查詢依賴于準(zhǔn)確的文檔自動化分類。然而,由于學(xué)科門類眾多且發(fā)展各異,導(dǎo)致相關(guān)文檔數(shù)量存在嚴(yán)重的不平衡現(xiàn)象,削弱了分類技術(shù)的有效性。雖然相關(guān)研究證實(shí)預(yù)訓(xùn)練語言模型在文本分類任務(wù)上能夠取得很好的效果,但由于科技文檔較強(qiáng)的領(lǐng)域性導(dǎo)致通用預(yù)訓(xùn)練模型難以取得良好效果。更重要的是,不同領(lǐng)域積累的文檔數(shù)量存在顯著差異,其不平衡分類問題仍未完善解決。針對上述問題,本文通過引入和改進(jìn)多種數(shù)據(jù)增強(qiáng)策略,提升了小樣本類別的數(shù)據(jù)多樣性與分類魯棒性,進(jìn)而通過多組實(shí)驗(yàn)討論了不同預(yù)訓(xùn)練模型下數(shù)據(jù)增強(qiáng)策略的最佳組合方式。結(jié)果顯示,本文所提出的技術(shù)框架能夠有效提升科技文檔不平衡分類任務(wù)的精度,從而為實(shí)現(xiàn)科技文檔自動化分類及智能應(yīng)用奠定了基礎(chǔ)。

    關(guān)鍵詞:文本分類;預(yù)訓(xùn)練模型;類別不平衡;數(shù)據(jù)增強(qiáng)

    中圖分類號:TP391.1文獻(xiàn)標(biāo)識碼:A文章編號:2097-0145(2022)03-0023-08doi:10.11847/fj.41.3.23

    Research of Imbalanced Classification for Technical Documents

    Based on Few-shot Data Augmentation

    HUANG Jin-feng, GAO Yan, XU Tong, CHEN En-hong

    (School of Computer Science, University of Science and Technology of China, Hefei 230027, China)

    Abstract:Recent years have witnessed the rapid development of science and technologies, which results in the abundant technical documents. Along this line, automatic classification tools are urgently required to support the management and retrieval of technical documents. Though prior arts have mentioned that the pre-trained models could achieve competitive performance on textual classification tasks, considering the domain-specific characters of technical documents, effectiveness of these pre-trained models might be still limited. Even worse, due to the imbalanced accumulation of documents for different research fields, there exists the severe imbalanced classification issue, which impair the effectiveness of classification tool. To deal with these issues, in this paper, we propose a comprehensive framework, which adapts the multiple data augmentation strategies, for improving the diversity and robustness of document samples in few-shot categories. Moreover, extensive validations have been executed to reveal the most effective combination of data augmentation strategies under different pre-trained models. The results indicate that our proposed framework could effectively improve the performance of imbalanced classification issue, and further support the intelligent services on technical documents.

    Key words:text classification; pre-trained language model; class imbalance; data augmentation

    1 引言

    近年來,隨著科研投入力度的不斷加大,各學(xué)科研究的長足發(fā)展衍生出了海量的科技文檔。以作為測度科技發(fā)展水平重要指標(biāo)的科技論文產(chǎn)出情況為例,自2012年至今的10年來,SCI數(shù)據(jù)庫收錄的我國作者論文數(shù)量不斷攀升,并于2019年突破50萬篇。這一趨勢既體現(xiàn)了科研領(lǐng)域蓬勃發(fā)展的新局面,也帶來了科技文檔有效管理與高效檢索的巨大挑戰(zhàn)。由于作者所提供的少量關(guān)鍵詞信息難以適應(yīng)層次復(fù)雜的標(biāo)簽體系和動態(tài)變化的分類標(biāo)準(zhǔn),在實(shí)踐中往往無法獲得所需的精度。因此,借助機(jī)器學(xué)習(xí)技術(shù),基于科技文檔中的豐富文本進(jìn)行自動化分類已成為應(yīng)時(shí)之需。

    事實(shí)上,由于自然語言表達(dá)本身有著復(fù)雜的語義結(jié)構(gòu)、豐富的多樣性和多義性,并且會隨著不同的外部語境而發(fā)生變化,導(dǎo)致科技文檔等長文本的理解與分類任務(wù)本身具有較高的困難性。近年來,隨著BERT[1]等預(yù)訓(xùn)練語言模型[1~3]的提出,越來越多的研究者聚焦于預(yù)訓(xùn)練加微調(diào)的遷移學(xué)習(xí)方式進(jìn)行文本分類。其中預(yù)訓(xùn)練語言模型按照設(shè)計(jì)的代理任務(wù)在海量的無標(biāo)簽語料中學(xué)習(xí)文本表征,獲取語言中蘊(yùn)含的結(jié)構(gòu)信息。由此,通過使用預(yù)訓(xùn)練好的語言模型并在特定下游任務(wù)中微調(diào)訓(xùn)練,可以有效地將海量無標(biāo)簽語料中的信息泛化到下游任務(wù),在各種文本分類中取得了不錯的效果。

    然而,科技文檔由于其自身領(lǐng)域性和專業(yè)性的特點(diǎn),在詞語分布與表達(dá)結(jié)構(gòu)上與通用語料存在較大差異。因此,基于通用語料的預(yù)訓(xùn)練語言模型往往在科技文檔的表征學(xué)習(xí)任務(wù)上存在一定偏差,這在一定程度上削弱了其有效性。更為重要的是,由于各學(xué)科分支發(fā)展的差異性,不同領(lǐng)域的文檔積累數(shù)量存在顯著區(qū)別,從而導(dǎo)致了嚴(yán)重的不平衡分類問題。例如,據(jù)2019年中國科技論文統(tǒng)計(jì)分析顯示,國內(nèi)科技論文最多的

    10個學(xué)科所發(fā)表的論文總數(shù)占全部國內(nèi)科技論文的62.9%,其中排名第一的“臨床醫(yī)學(xué)”學(xué)科占總量的26.4%。顯然,這種不平衡性會導(dǎo)致分類標(biāo)簽傾向于熱門學(xué)科,從而導(dǎo)致冷門學(xué)科難以有效分類,限制了分類技術(shù)在科技文檔管理與檢索任務(wù)上的應(yīng)用。

    針對這一問題,本文通過引入和改進(jìn)多種數(shù)據(jù)增強(qiáng)策略,提升了小樣本類別的數(shù)據(jù)多樣性與分類魯棒性。具體而言,首先借助各類現(xiàn)有預(yù)訓(xùn)練語言模型,對科技文檔的長文本進(jìn)行初步的表征學(xué)習(xí),進(jìn)而將學(xué)習(xí)到的表征輸入下游網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行語義分類。其中為有效解決冷門學(xué)科小樣本所面臨的分類不平衡的問題,采用簡單增強(qiáng)、混類增強(qiáng)等策略增強(qiáng)小樣本數(shù)據(jù),從而提升模型的泛化性能;同時(shí),借鑒視覺領(lǐng)域所采用的知識蒸餾思想實(shí)現(xiàn)專家模型向小樣本分類任務(wù)的數(shù)據(jù)增強(qiáng)指導(dǎo)。實(shí)驗(yàn)結(jié)果證實(shí),本文所采用的策略組合能夠有效緩解科技文檔分類中的不平衡分類問題,從而提升整體的文檔分類效果。在2021年舉行的首屆“人郵杯”高校人工智能挑戰(zhàn)賽中,我們借助本方案的初步版本脫穎而出,最終獲得該競賽冠軍。

    2 相關(guān)文獻(xiàn)綜述

    在本節(jié)中,我們將從兩個方面總結(jié)與本文相關(guān)的文獻(xiàn),分別為文本分類技術(shù)及不平衡分類問題。

    2.1 文本分類技術(shù)

    文本分類是自然語言處理中的經(jīng)典問題。近年來,隨著文本語料的積累與深度學(xué)習(xí)技術(shù)的成熟,基于深度學(xué)習(xí)的文本分類方法逐漸成為主流。其中Liu等[4]針對RNN網(wǎng)絡(luò)能夠有效建模時(shí)間序列的歷史信息和位置信息的優(yōu)勢,基于多任務(wù)學(xué)習(xí),通過共享部分層RNN網(wǎng)絡(luò)的權(quán)重,在不同文本分類任務(wù)中提升了效果。而Tai等[5]提出了樹形LSTM模型,通過建模語句中的樹形語法層次結(jié)構(gòu),在預(yù)測語句語義關(guān)聯(lián)和語句情感的分類任務(wù)中取得了顯著的提升。此外,Zhou等[6]提出將LSTM與CNN模型相結(jié)合并用于文本分類,借助CNN模型加強(qiáng)LSTM輸出中的局部短期關(guān)聯(lián),使模型能夠兼顧語言中的長短期依賴。近年來,基于注意力機(jī)制的文本分類模型也備受關(guān)注,例如Pappas和Popescu-Belis[7]使用層次化的注意力機(jī)制,建模語言中復(fù)雜的依賴關(guān)系,在多語言環(huán)境中共享了編碼器和注意力模塊權(quán)重,超過了單語言設(shè)置下的分類效果。然而,這些技術(shù)往往無法有效應(yīng)對嚴(yán)重的不平衡分類問題,因此限制了其在科技文檔分類任務(wù)上的有效應(yīng)用。

    2.2 不平衡分類問題

    樣本不平衡分類問題是有監(jiān)督學(xué)習(xí)中的基礎(chǔ)性問題,主要指不同類別樣本數(shù)量差距過大,導(dǎo)致小樣本類別訓(xùn)練數(shù)據(jù)不全面且缺乏多樣性,在測試中難以有效識別。針對這一問題,Elkan[8]使用代價(jià)敏感學(xué)習(xí),將不同的類別預(yù)測錯誤賦予不同的代價(jià)權(quán)重,調(diào)高模型將小樣本類別預(yù)測為大樣本類別的懲罰權(quán)重,這一定程度上能夠緩解樣本不均衡問題。由于樣本不均衡問題的本質(zhì)是部分類別沒有足夠的訓(xùn)練樣本,很多基于數(shù)據(jù)增強(qiáng)的方法被提出來解決這一問題。例如,Zhang等[9],Wei等[10]通過同義替換的方式,將語句中的詞語用同義詞字典或者詞向量中的近鄰進(jìn)行替換,擴(kuò)大了小樣本類別語料的數(shù)量和多樣性。Goodfellow等[11]提出FGM方法,通過計(jì)算樣本相對損失的梯度,對樣本在梯度上升的方向做隨機(jī)擾動,旨在讓模型學(xué)習(xí)更難分類的樣本,這種在樣本空間中引入噪聲的方式能夠提升模型的魯棒性。不僅是文本任務(wù),在圖片分類和目標(biāo)識別任務(wù)中也存在著嚴(yán)重的長尾問題,例如Hu等[12]通過按照樣本數(shù)量將所有類別切分為幾個大類,保證大類中的類別樣本數(shù)量相對均衡,模型按照降序每次增量學(xué)習(xí)一個大類,用小樣本遷移學(xué)習(xí)的方式實(shí)現(xiàn)每一次增量學(xué)習(xí)。在本文中,我們將通過引入多種數(shù)據(jù)增強(qiáng)策略,并借鑒視覺領(lǐng)域處理長尾分類問題的知識蒸餾技術(shù)等多種手段,嘗試解決科技文檔的不平衡分類問題。

    3 基礎(chǔ)模型

    在本節(jié)中,我們首先簡要介紹面向文檔分類任務(wù)的基礎(chǔ)模型作為本文技術(shù)框架的預(yù)備知識,其中包括基本的預(yù)訓(xùn)練語言模型及其下游網(wǎng)絡(luò)結(jié)構(gòu)。

    3.1 預(yù)訓(xùn)練語言模型

    由于現(xiàn)階段大多數(shù)自然語言處理任務(wù)的數(shù)據(jù)標(biāo)注成本較為高昂,構(gòu)建大規(guī)模的高質(zhì)量標(biāo)注數(shù)據(jù)集非常困難。近年來,在深度學(xué)習(xí)技術(shù)和豐富語料積累的支撐下,基于大規(guī)模無標(biāo)注語料訓(xùn)練學(xué)習(xí)通用語言表示,再將其應(yīng)用到下游任務(wù),已成為當(dāng)前研究的基本范式。本節(jié)將介紹經(jīng)典BERT[1]模型作為預(yù)訓(xùn)練語言模型的代表,而其他預(yù)訓(xùn)練語言模型在基本思路上與其類似。

    具體而言,BERT模型采用兩階段訓(xùn)練模式。第一個階段為預(yù)訓(xùn)練階段,基于兩個無監(jiān)督預(yù)測任務(wù):遮擋語言模型和下一句預(yù)測,從語料中學(xué)習(xí)到一種通用語言表示。第二個階段為微調(diào)階段,在已經(jīng)訓(xùn)練好的語言模型基礎(chǔ)上引入下游網(wǎng)絡(luò)架構(gòu),再基于具體下游任務(wù)對模型進(jìn)行訓(xùn)練,使其在下游任務(wù)上能夠取得良好的性能。

    3.2 下游網(wǎng)絡(luò)結(jié)構(gòu)

    在基于預(yù)訓(xùn)練語言模型學(xué)習(xí)到文本表征之后,可以通過將其輸入到下游網(wǎng)絡(luò)結(jié)構(gòu),利用分類任務(wù)中的有標(biāo)注數(shù)據(jù)完成網(wǎng)絡(luò)的訓(xùn)練,從而實(shí)現(xiàn)文本的有監(jiān)督分類。本節(jié)將介紹三種代表性的下游網(wǎng)絡(luò)架構(gòu),分別為線性分類器、CNN+線性分類器,BiLSTM+線性分類器。

    (1)線性分類器。在BERT模型基礎(chǔ)上,將學(xué)習(xí)到的表征(融合了文本的所有信息)輸入到一個全連接層,模型通過特征的線性組合做出相應(yīng)的分類決策。

    (2)CNN+線性分類器。通過在BERT模型基礎(chǔ)上加入CNN和全連接層,將BERT模型每層的輸出結(jié)果輸入到多層卷積神經(jīng)網(wǎng)絡(luò),每層卷積操作之后再接一個最大池化操作。合并所有池化操作的輸出結(jié)果,輸入到一個全連接層,最終判別得到樣本分類結(jié)果。

    (3)BiLSTM+線性分類器。在BERT模型基礎(chǔ)上加入一個雙向的LSTM層和全連接層。具體的操作和上述方法類似,將BERT模型每層的輸出結(jié)果輸入到一個雙向的LSTM層,然后將雙向的LSTM層輸出與BERT模型最后兩層的輸出拼接在一起,輸入到一個全連接層,最終給出樣本分類結(jié)果。

    4 基于小樣本增強(qiáng)的不平衡分類

    如前所述,科技文檔存在著嚴(yán)重的類別不平衡問題,削弱了現(xiàn)有分類技術(shù)的精度。在本節(jié)中,我們將介紹多種小樣本數(shù)據(jù)增強(qiáng)的策略,以嘗試解決數(shù)據(jù)類別不均衡的問題。

    4.1 技術(shù)框架概述

    本文所采用的技術(shù)框架如圖1所示。其中虛線框中的部分為上文所介紹的基礎(chǔ)語言模型,包括預(yù)訓(xùn)練語言模型與相應(yīng)的下游分類網(wǎng)絡(luò)結(jié)構(gòu)。如前所述,這一基礎(chǔ)模型框架雖然可以在通用文本分類任務(wù)上獲得較好結(jié)果,但在面臨不平衡分類問題的科技文檔分類任務(wù)上有一定的局限性。為此,本文擬通過引入多種數(shù)據(jù)增強(qiáng)策略,包括基于簡單/混類增強(qiáng)的模型泛化策略和基于知識蒸餾的專家指導(dǎo)策略等。下文將分別介紹這些數(shù)據(jù)增強(qiáng)策略。

    4.2 簡單數(shù)據(jù)增強(qiáng)

    由于各學(xué)科分支發(fā)展的差異性,部分冷門學(xué)科所積累的文檔數(shù)據(jù)量小且缺乏多樣性,難以將這些文檔歸類到正確的類別。我們期望增加這些小樣本文檔的數(shù)據(jù)量和樣本豐富度,以幫助模型對其進(jìn)行正確分類。為此,我們啟發(fā)式地引入了簡單數(shù)據(jù)增強(qiáng)[10](Easy Data Augmentation,EDA)策略,它包含一系列傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法,比如按照一定的概率對文本中的詞語按照同義詞字典進(jìn)行文本替換,隨機(jī)插入或者刪除文本中的字詞,隨機(jī)交換文本中字詞位置等方法來實(shí)現(xiàn)數(shù)據(jù)擴(kuò)增,借助一些先驗(yàn)知識,基于文本經(jīng)過少量變換不改變語義的假設(shè),生成一批新的數(shù)據(jù),從有限的數(shù)據(jù)中挖掘出等價(jià)于更多數(shù)據(jù)的價(jià)值,利用這些數(shù)據(jù)指導(dǎo)模型進(jìn)行學(xué)習(xí)。

    4.3 混類增強(qiáng)

    目前對于文檔分類任務(wù),往往采用大規(guī)模深度神經(jīng)網(wǎng)絡(luò)加以實(shí)現(xiàn),它們訓(xùn)練模型以使訓(xùn)練數(shù)據(jù)的平均誤差最小化,即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化[13](Empirical Risk Minimization,ERM)原則。但是,使用ERM方法訓(xùn)練后,神經(jīng)網(wǎng)絡(luò)可能會記住訓(xùn)練數(shù)據(jù),而不是去泛化它,如果測試分布和訓(xùn)練分布略有不同,模型的預(yù)測性能可能會發(fā)生斷崖式下跌。針對這一問題,我們期望增加模型的泛化能力,減少模型對噪聲的敏感性,提升模型訓(xùn)練時(shí)的穩(wěn)定性。對此,考慮增加樣本的多樣性,使得模型能夠從豐富的樣本數(shù)據(jù)中學(xué)習(xí)到一般規(guī)律,提升其泛化能力。

    在上一節(jié)中,我們引入了簡單數(shù)據(jù)增強(qiáng)策略,它可以實(shí)現(xiàn)對每一類的樣本分別進(jìn)行數(shù)據(jù)擴(kuò)增,屬于同類增強(qiáng),但是這種方法與數(shù)據(jù)集密切相關(guān),且需要一定的領(lǐng)域知識。針對這一局限性,我們希望能夠?qū)崿F(xiàn)一種簡單且獨(dú)立于數(shù)據(jù)集的數(shù)據(jù)擴(kuò)增方式,通過挖掘出不同類不同樣本之間的關(guān)系,構(gòu)建虛擬的數(shù)據(jù)樣本?;谏鲜鰡l(fā),我們引入并改進(jìn)了Mixup[14]的思想,按照一定的權(quán)重對訓(xùn)練集中隨機(jī)抽取出的兩個樣本以及它們的標(biāo)簽進(jìn)行加權(quán)求和,實(shí)現(xiàn)虛擬數(shù)據(jù)樣本的構(gòu)建。其中符號λ表示組合的權(quán)重,超參數(shù)γ控制特征-標(biāo)簽對之間的插值強(qiáng)度。

    =λxi+(1-λ)xj(1)

    =λyi+(1-λ)yj(2)

    λ=Beta(γ,γ)(3)

    最后,將構(gòu)建好的虛擬數(shù)據(jù)樣本輸入模型進(jìn)行訓(xùn)練,幫助模型優(yōu)化。

    4.4 正則化丟棄

    同時(shí),針對數(shù)據(jù)不平衡可能導(dǎo)致的過擬合問題,我們還將采用正則化丟棄(Regularized Dropout,RDrop[15])策略。它通過兩次dropout的方式得到同一個輸入的不同特征,構(gòu)建對抗樣本對,同時(shí)計(jì)算模型兩次輸出結(jié)果之間的KL散度,使得不同dropout得到的模型輸出基本一致,從而提升訓(xùn)練和測試時(shí)模型的一致性,增加模型的魯棒性,最終提升模型性能。

    具體而言,在本問題中,訓(xùn)練數(shù)據(jù)可以表示為{(xi,yi)}Ni=1,模型表示為P(y|x)。RDrop的損失函數(shù)包括兩個部分,一部分是基于每個模型的輸出結(jié)果計(jì)算損失值

    L(CE)i=-logP(1)θ(yi|xi)-logP(2)θ(yi|xi)(4)

    另一部分是計(jì)算兩個模型之間的對稱KL散度

    L(KL)i=12[KL(P(2)θ(y|xi)‖P(1)θ(y|xi))+

    KL(P(1)θ(y|xi)‖P(2)θ(y|xi))](5)

    最終的損失函數(shù)是對這兩個部分的損失進(jìn)行加權(quán)求和,通過最小化該目標(biāo)即可實(shí)現(xiàn)優(yōu)化求解

    Li=L(CE)i+αL(KL)i(6)

    4.5 多專家學(xué)習(xí)策略

    之前引入的各種策略都是在數(shù)據(jù)輸入端,為提升模型魯棒性和泛化性而進(jìn)行的操作。然而,如前所述,科技文檔存在嚴(yán)重的類別不平衡性,而這些模型并沒有有效借助那些數(shù)據(jù)量較少的類別。事實(shí)上,我們發(fā)現(xiàn)在樣本數(shù)較為平衡的原數(shù)據(jù)類別子集中訓(xùn)練的模型效果要比直接在所有類別中訓(xùn)練的模型效果好。為此,一種可行的策略是首先訓(xùn)練多個分類子任務(wù),然后在分類子任務(wù)的指導(dǎo)下,訓(xùn)練對所有類別的分類任務(wù),而這正是在視覺領(lǐng)域常用于解決不平衡分類問題的LFME[16]方法的出發(fā)點(diǎn)。為此,我們將LFME模型遷移到自然語言處理領(lǐng)域,其總體框架如圖2所示。

    具體而言,LFME方法先將所有類別按照樣本切分為L個子集,并針對L個類別相對均衡的類別子集分別訓(xùn)練分類模型,從而得到L個專家模型,再通過知識蒸餾的方式將L個專家模型遷移為針對所有類別的統(tǒng)一模型。其中知識蒸餾損失的權(quán)重由統(tǒng)一模型在不同類別子集上達(dá)到的驗(yàn)證集準(zhǔn)確率決定,驗(yàn)證集準(zhǔn)確率越低,代表越需要向?qū)?yīng)的專家模型學(xué)習(xí),蒸餾損失如下

    LKDl=-H(τ(z(l)),τ((l)))

    =-∑|Sl|i=1τ(z(l)i)log(τ((l)i))(7)

    τ(z(l)i)=exp(z(l)i/T)∑jexp(z(l)j/T)

    τ((l)i)=exp((l)i/T)∑jexp((l)j /T)(8)

    wl=1.0if AccMβAccEl

    AccEl-AccMAccEl(1-α)if AccM>βAccEl(9)

    LKD=∑Ll=1wlLKDl(10)

    其中T為溫度超參數(shù),β為知識蒸餾的閾值超參數(shù),AccEl為第l個專家模型的驗(yàn)證集準(zhǔn)確率,AccM為當(dāng)前統(tǒng)一模型在第l個樣本子集的驗(yàn)證集準(zhǔn)確率,wl會在每個訓(xùn)練周期結(jié)束后更新。

    同時(shí),LFME也進(jìn)行了課程學(xué)習(xí)的設(shè)置,即從簡單到困難學(xué)習(xí),使模型能夠平滑地收斂,其中樣本的難易程度由專家模型給出的置信度決定。交叉熵?fù)p失如下定義

    LCE=∑Ni=1v(k)iLCE(xi)(11)

    v(k)i=(1-piNSminNSl)eE+piNSminNSl(12)

    其中LCE為交叉熵?fù)p失函數(shù),e為所處的訓(xùn)練周期序號,pi為專家模型得到的樣本置信度,NSl為第l個類別子類的樣本數(shù)量,NSmin為NSl中的最小值。最后,優(yōu)化以下的總體損失函數(shù)

    L=∑Ni=1viLCE(xi,yi)+∑Ll=1

    ∑Ni=1wlLKDl(M,Mexp;xi)(13)

    5 實(shí)驗(yàn)驗(yàn)證與討論

    在本節(jié)中,我們將首先介紹實(shí)驗(yàn)驗(yàn)證所使用的數(shù)據(jù)集與數(shù)據(jù)處理過程,進(jìn)而通過多組實(shí)驗(yàn),討論不同預(yù)訓(xùn)練語言模型、下游網(wǎng)絡(luò)結(jié)構(gòu)及相應(yīng)的小樣本數(shù)據(jù)增強(qiáng)策略的最佳組合方式,并通過案例分析討論不同策略組合效果提升的可能原因及其潛在局限性。

    5.1 數(shù)據(jù)集介紹

    本文采用“人郵杯”有關(guān)測評的圖書分類數(shù)據(jù)集近似科技文檔數(shù)據(jù),并通過分層抽樣將原始數(shù)據(jù)集按照18∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集,三部分分別包含92549條、5142條和5141條記錄。整體文本長度分布如圖3所示,其中標(biāo)題平均長度約為13,摘要平均長度約為240。樣本類別總共22類,其分布如圖4所示,可以看到數(shù)據(jù)存在嚴(yán)重的分布不平衡問題。例如,其中T類書籍在訓(xùn)練集中占比超過30%,而S類書籍在訓(xùn)練集中僅有13條。為進(jìn)一步提升數(shù)據(jù)質(zhì)量,我們對數(shù)據(jù)進(jìn)行了簡單的清洗,去除了數(shù)據(jù)集中存在的特殊字符、重復(fù)字符等。

    5.2 實(shí)驗(yàn)設(shè)置

    本次實(shí)驗(yàn)所使用的預(yù)訓(xùn)練語言模型均來自HuggingFace資源庫,訓(xùn)練中使用的顯卡型號為NVIDIA GeForce RTX 3090。具體的參數(shù)設(shè)置如下:對于一般的預(yù)訓(xùn)練語言模型,max_len設(shè)為200,對于長文本語言模型longformer,max_len設(shè)為456,學(xué)習(xí)率設(shè)為2e-4,batch_size設(shè)為32, dropout設(shè)為0.1, epoch設(shè)為20,混類增強(qiáng)方法中的γ設(shè)為0.25,RDrop方法中的α設(shè)為1,LFME方法中的溫度超參數(shù)T設(shè)置為2,知識蒸餾的閾值超參數(shù)β設(shè)置為0.8。在訓(xùn)練LFME中的統(tǒng)一模型時(shí),過采樣小樣本類別,使用類別獨(dú)立的采樣方式。

    在實(shí)驗(yàn)過程中,我們采用了micro-f1和macro-f1作為文本多分類任務(wù)的評估指標(biāo)。其中macro-f1側(cè)重于小樣本,能夠更好地體現(xiàn)類別不均衡場景下小樣本類別上的性能。

    5.3 基礎(chǔ)語言模型及其對比效果

    在本實(shí)驗(yàn)中,為了充分比較分析不同預(yù)訓(xùn)練語言模型與下游網(wǎng)絡(luò)結(jié)構(gòu)組合在科技文檔分類任務(wù)上的效果,我們采用了多種預(yù)訓(xùn)練語言模型+線性分類器作為基準(zhǔn)模型,其在驗(yàn)證集和測試集上的分類效果如表1所示。由實(shí)驗(yàn)結(jié)果可知,實(shí)驗(yàn)中采用的所有基于預(yù)訓(xùn)練語言模型的文本分類方法相對于傳統(tǒng)的文本分類方法,在各項(xiàng)指標(biāo)上均有大幅度的提升,說明相較于隨機(jī)初始化詞向量,在大規(guī)模無標(biāo)注語料庫上學(xué)習(xí)到的語言表征可以很好地遷移到下游任務(wù),提升下游任務(wù)上的模型性能。同時(shí),對于不同的預(yù)訓(xùn)練語言模型,可以發(fā)現(xiàn)Longformer模型的性能最好,推測與其采用了局部注意力機(jī)制,可以有效地對長文本信息進(jìn)行建模相關(guān)。

    5.4 下游網(wǎng)絡(luò)結(jié)構(gòu)對比

    我們在多個預(yù)訓(xùn)練語言模型的基礎(chǔ)上研究下游分類網(wǎng)絡(luò)對預(yù)訓(xùn)練語言模型分類效果的影響,結(jié)果如表2所示,可以發(fā)現(xiàn)在BERT、NEZHA、Longformer三個預(yù)訓(xùn)練語言模型中,BiLSTM作為下游網(wǎng)絡(luò)效果最好,而CNN下游網(wǎng)絡(luò)相對于線性分類器沒有明顯提升。

    5.5 小樣本分類策略對比

    針對前文所述的科技文檔嚴(yán)重的樣本不均衡問題,在本環(huán)節(jié)中,我們以Longformer為基準(zhǔn)模型,在測試集上驗(yàn)證和對比在第4節(jié)中介紹的多種數(shù)據(jù)增強(qiáng)方法。

    具體而言,我們將數(shù)據(jù)中的22個類別按照出現(xiàn)頻次分成兩部分,并將出現(xiàn)頻次高的11個類別稱為head,出現(xiàn)頻次低的11個類別稱為tail,其中tail類別只占總樣本數(shù)的約5%。實(shí)驗(yàn)結(jié)果如表3所示,其中分別列出了在tail類別、head類別和所有類別中的f1-micro和f1-macro等指標(biāo),數(shù)據(jù)增強(qiáng)方法名稱后有tail的代表僅僅在tail類別的樣本中進(jìn)行數(shù)據(jù)增強(qiáng)。

    通過實(shí)驗(yàn)結(jié)果對比,我們發(fā)現(xiàn)LFME、RDrop、EDA、Mixup這四種數(shù)據(jù)增強(qiáng)方法,對比基線方法,在整體性能上均有不小的提升,通過分別評估head類別和tail類別中的f1-score,我們發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)能夠在不影響大樣本類別分類效果的同時(shí),極大地提升小樣本類別的分類表現(xiàn)。對比第2行和第3行以及第5行和第6行,我們發(fā)現(xiàn)僅僅在占5%的tail類別樣本中使用EDA或RDrop的方法,和與在所有樣本上做數(shù)據(jù)增強(qiáng)相比,在整體性能上能獲得差不多的提升,但在小樣本類別中明顯更優(yōu)。對比第8行和第9行,在小樣本類別上利用Mixup能在整體性能和小樣本兩方面獲得更好的效果。對比第6行和第7行以及第9行和第10行,我們發(fā)現(xiàn)在RDrop或Mixup方法上疊加EDA會造成性能損失,我們推測是EDA生成的噪聲數(shù)據(jù)被RDrop或Mixup放大所造成的。

    5.6 消融實(shí)驗(yàn)

    在前述策略組合的基礎(chǔ)之上,我們對于LFME中的重要模塊進(jìn)行了消融實(shí)驗(yàn),其在測試集上的實(shí)驗(yàn)結(jié)果如表4所示,其中“-課程學(xué)習(xí)”表示不根據(jù)專家模型區(qū)分樣本的難易程度,即公式(11)中的v(k)i設(shè)置為0,而“-動態(tài)蒸餾權(quán)重”表示在head和tail合集中不根據(jù)準(zhǔn)確率動態(tài)調(diào)整蒸餾權(quán)重,即公式(9)中的wl在前一半訓(xùn)練周期設(shè)置為1,后一半訓(xùn)練周期設(shè)置為0。實(shí)驗(yàn)結(jié)果驗(yàn)證了課程學(xué)習(xí)和動態(tài)蒸餾權(quán)重模塊的有效性,在總體macro-f1和小樣本指標(biāo)上,LFME模型都優(yōu)于消融后的模型。

    同時(shí),對于EDA中插入、刪除、替換和交換4種數(shù)據(jù)增強(qiáng)方式,我們通過刪去一種增強(qiáng)方式而保留其他三種進(jìn)行對比,驗(yàn)證EDA中每種增強(qiáng)方式的有效性,實(shí)驗(yàn)結(jié)果如表5所示。通過消融實(shí)驗(yàn),我們驗(yàn)證了所有4種數(shù)據(jù)增強(qiáng)方式對小樣本分類任務(wù)均有幫助,其中交換操作提升最少。

    5.7 案例分析

    最后,我們通過部分案例的分析,討論在效果最好的預(yù)訓(xùn)練語言模型Longformer模型的基礎(chǔ)上,Mixup和LFME兩種策略在小樣本分類問題上各自提升的可能原因及潛在的局限性。

    [樣例1]:

    標(biāo)簽:C類圖書(社會科學(xué)總論)

    標(biāo)題:國際大都市文化導(dǎo)論,《國際大都市文化導(dǎo)論》對國際都市文化的比較研究

    摘要:置于全球視野之下,試圖在全球化與全球新的城市世紀(jì)到來之際,比較研究不同全球城市精神文化的特點(diǎn),進(jìn)而揭示全球城市精神文化的共同本質(zhì)及其深層價(jià)值…

    在該案例中,該樣本被Longformer基線模型錯誤分類為T類圖書(工業(yè)技術(shù)),但在使用LFME方法后卻可以被正確分類,而且能夠達(dá)到0.93的置信度。我們預(yù)測的原因?yàn)?,在一般的?xùn)練過程中,由于類別樣本數(shù)量的失衡,不同類別辨別特征的學(xué)習(xí)速率存在著很大的差異,C類樣本數(shù)量只占T類樣本的1/16,模型在C類樣本上的泛化能力不足。但在LFME方法中,C類樣本作為tail子集中樣本數(shù)量最多的分類,tail專家模型能夠有效地識別C類樣本,通過知識蒸餾用tail專家模型指導(dǎo)LFME統(tǒng)一模型學(xué)習(xí),能夠使得不同類別間的學(xué)習(xí)速率相對同步。并且在C類圖書上LFME方法相對于基線模型在f1-score上能有4個百分點(diǎn)的提升,這也印證了我們的推測。

    [樣例2]:

    標(biāo)簽:C類圖書(社會科學(xué)總論)

    標(biāo)題:大國空巢:反思中國計(jì)劃生育政策

    摘要:《大國空巢:反思中國計(jì)劃生育政策》曾于2007年在香港出過一版,書一出版就受到了廣泛關(guān)注,并引發(fā)了激烈爭論…

    在該案例中,Longformer基線模型將該樣本錯誤分類為D類圖書(政治、法律),我們推測原因?yàn)?,“政策”一詞在D類訓(xùn)練樣本中高頻出現(xiàn),導(dǎo)致模型只根據(jù)“政策”這一關(guān)鍵詞進(jìn)行判別。這一方面是由于“政策”在該案例的標(biāo)題和摘要中多次出現(xiàn),容易混淆模型,干擾模型接收其他有效信息;另一方面,C類圖書數(shù)據(jù)量比較少,樣本多樣性不足,導(dǎo)致模型在C類樣本上的泛化能力比較差。而通過Mixup進(jìn)行混類增強(qiáng),能夠減少對錯誤標(biāo)簽的記憶,增加模型的泛化能力,使模型在訓(xùn)練和預(yù)測時(shí)性能比較一致。

    6 結(jié)論與啟示

    本文研究了如何將預(yù)訓(xùn)練語言模型遷移到科技文檔多標(biāo)簽分類任務(wù)上,并借助小樣本數(shù)據(jù)增強(qiáng)技術(shù)解決科技文檔不平衡分類的技術(shù)挑戰(zhàn)。我們通過實(shí)驗(yàn)發(fā)現(xiàn),在小樣本上做數(shù)據(jù)增強(qiáng)和在所有數(shù)據(jù)上做數(shù)據(jù)增強(qiáng)的效果差不多,不過前者相對后者在訓(xùn)練時(shí)間上縮短了5倍。同時(shí),本文通過引入和改進(jìn)多種數(shù)據(jù)增強(qiáng)策略,提升了小樣本類別的數(shù)據(jù)多樣性,并通過多組實(shí)驗(yàn)討論了不同預(yù)訓(xùn)練模型下數(shù)據(jù)增強(qiáng)策略的最佳組合方式。結(jié)果顯示這一技術(shù)框架能夠有效提升科技文檔不平衡分類任務(wù)的精度,且大多數(shù)據(jù)增強(qiáng)策略都能幫助提升小樣本分類效果。

    借助于上述技術(shù)框架的初步版本,我們在首屆“人郵杯”高校人工智能挑戰(zhàn)賽中取得了冠軍的成績。在未來工作中,將進(jìn)一步結(jié)合集成學(xué)習(xí)技術(shù),在發(fā)揮各預(yù)訓(xùn)練模型與策略組合專長的基礎(chǔ)上進(jìn)一步提升整體方案的魯棒性,并結(jié)合元學(xué)習(xí)等手段更有效地應(yīng)對冷門學(xué)科中的小樣本學(xué)習(xí)問題。

    參 考 文 獻(xiàn):

    [1]Vaswani A, Shazeer N, Parmar N, et al.. Attention is all you need[A]. Proceedings of the 31st International Conference on Neural Information Processing Systems[C]. Curran Associates, Red Hook, NY, USA, 2017. 6000-6010.

    [2]Wei J, Ren X, Li X, et al.. NEZHA: neural contextualized representation for Chinese language understanding[J]. arXiv:

    1909. 00204, 2021.

    [3]Beltagy I, Peters M E, Cohan A. Longformer: the long-document transformer[J]. arXiv: 2004. 05150, 2020.

    [4]Liu P, Qiu X, Huang X. Recurrent neural network for text classification with multi-task learning[A]. Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence[C]. NY, USA, 2016. 2873-2879.

    [5]Tai K S, Socher R, Manning C D. Improved semantic representations from tree-structured long short-term memory networks[A]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)[C]. Association for Computational Linguistics, Beijing, China, 2015. 1556-1566.

    [6]Zhou C, Sun C, Liu Z, et al.. A C-LSTM neural network for text classification[J]. arXiv: 1511. 08630, 2015.

    [7]Pappas N, Popescu-Belis A. Multilingual hierarchical attention networks for document classification[A]. Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers)[C]. Asian Federation of Natural Language Processing, Taipei, Taiwan, 2017. 1015-1025.

    [8]Elkan C. The foundations of cost-sensitive learning[A]. International Joint Conference on Artificial Intelligence[C]. Lawrence Erlbaum Associates Ltd, Seattle, Washington, USA, 2001. 973-978.

    [9]Zhang X, Zhao J, LeCun Y. Character-level convolutional networks for text classification[A]. Advances in Neural Information Processing Systems[C]. Curran Associates, Montreal, Canada, 2015. 649-657.

    [10]Wei J, Zou K. EDA: easy data augmentation techniques for boosting performance on text classification tasks[A]. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing[C]. Association for Computational Linguistics, Hong Kong, China, 2019. 6382-6388.

    [11]Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[J]. arXiv: 1412. 6572, 2015.

    [12]Hu X, Jiang Y, Tang K, et al.. Learning to segment the tail[A]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)[C]. IEEE, Seattle, WA, USA, 2020. 14042-14051.

    [13]Vapnik V. Principles of risk minimization for learning theory[A]. Advances in Neural Information Processing Systems[C]. Curran Associates, Denver, Colorado, USA, 1991. 831-838.

    [14]Zhang H, Cisse M, Dauphin Y N, et al.. Mixup: beyond empirical risk minimization[A]. International Conference on Learning Representations[C]. OpenReview.net, Vancouver, BC, Canada, 2018. 1-13.

    [15]Wu L, Li J, Wang Y, et al.. R-drop: regularized dropout for neural networks[A]. Advances in Neural Information Processing Systems[C]. Curran Associates, New Orleans, LA, USA, 2021. 10890-10905.

    [16]Xiang L, Ding G, Han J. Learning from multiple experts: self-paced knowledge distillation for long-tailed classification[A]. European Conference on Computer Vision[C]. Springer, Glasgow, UK, 2020. 247-263.

    [17]Chen Y. Convolutional neural network for sentence classification[D]. Waterloo:? University of Waterloo, 2015.

    [18]Joulin A, Grave , Bojanowski P, et al.. Bag of tricks for efficient text classification[A]. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics(Volume 2: Short Papers)[C]. Association for Computational Linguistics, Valencia, Spain, 2017. 427-431.

    [19]Johnson R, Zhang T. Deep pyramid convolutional neural networks for text categorization[A]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)[C]. Vancouver, Canada, 2017. 562-570.

    猜你喜歡
    數(shù)據(jù)增強(qiáng)文本分類
    一種算法對于深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度的提升
    基于深度學(xué)習(xí)網(wǎng)絡(luò)的乳腺癌圖片分類研究
    基于卷積神經(jīng)網(wǎng)絡(luò)的森林火災(zāi)煙霧探測算法研究
    基于深度網(wǎng)絡(luò)的車輛前后端圖像識別方法研究
    基于雙卷積神經(jīng)網(wǎng)絡(luò)的鐵路集裝箱號OCR
    基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究
    基于組合分類算法的源代碼注釋質(zhì)量評估方法
    基于貝葉斯分類器的中文文本分類
    基于蟻群智能算法的研究文本分類
    基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
    美女国产视频在线观看| 亚洲av日韩在线播放| 人体艺术视频欧美日本| 亚洲精品日韩av片在线观看| 日本av手机在线免费观看| 中文乱码字字幕精品一区二区三区| 99热这里只有精品一区| 人人妻人人爽人人添夜夜欢视频 | 欧美一级a爱片免费观看看| 一个人看视频在线观看www免费| 两个人的视频大全免费| 成人国产麻豆网| 九色成人免费人妻av| 久久国内精品自在自线图片| 久久久久久久亚洲中文字幕| 国产高潮美女av| 18禁裸乳无遮挡动漫免费视频 | 三级国产精品欧美在线观看| 久久久国产一区二区| 欧美日韩国产mv在线观看视频 | 网址你懂的国产日韩在线| 国产精品无大码| 狂野欧美激情性xxxx在线观看| 国产老妇伦熟女老妇高清| 涩涩av久久男人的天堂| 亚洲第一区二区三区不卡| 亚洲怡红院男人天堂| 国精品久久久久久国模美| 国产亚洲一区二区精品| 日日摸夜夜添夜夜添av毛片| 日韩欧美精品v在线| 国产精品爽爽va在线观看网站| 人妻少妇偷人精品九色| 国产精品伦人一区二区| 国产老妇伦熟女老妇高清| 国产综合懂色| 99热这里只有是精品在线观看| 久久久久精品性色| 久久久久国产精品人妻一区二区| 欧美老熟妇乱子伦牲交| 91aial.com中文字幕在线观看| 国产视频首页在线观看| 啦啦啦啦在线视频资源| 看免费成人av毛片| 美女国产视频在线观看| 男人爽女人下面视频在线观看| 又黄又爽又刺激的免费视频.| 国产精品一区二区三区四区免费观看| 亚洲怡红院男人天堂| 美女内射精品一级片tv| 黄色欧美视频在线观看| 午夜福利在线在线| 噜噜噜噜噜久久久久久91| 久久精品国产亚洲网站| 久久久精品免费免费高清| 国产精品一区二区性色av| 免费不卡的大黄色大毛片视频在线观看| 最近中文字幕高清免费大全6| 一级黄片播放器| 人妻 亚洲 视频| 永久免费av网站大全| 国产成人免费观看mmmm| 视频中文字幕在线观看| 成人亚洲精品av一区二区| 国产伦在线观看视频一区| 久久久午夜欧美精品| 嫩草影院精品99| 欧美xxxx性猛交bbbb| 99久久精品一区二区三区| 日韩欧美 国产精品| 亚洲精品色激情综合| 热99国产精品久久久久久7| 又黄又爽又刺激的免费视频.| 精品熟女少妇av免费看| 97超视频在线观看视频| 国产黄色视频一区二区在线观看| 精品少妇黑人巨大在线播放| 日韩精品有码人妻一区| 欧美xxxx黑人xx丫x性爽| 亚洲av在线观看美女高潮| 在线a可以看的网站| 亚洲伊人久久精品综合| 免费观看无遮挡的男女| 在线观看人妻少妇| 欧美精品人与动牲交sv欧美| 一级二级三级毛片免费看| 亚洲精品中文字幕在线视频 | 91精品伊人久久大香线蕉| 亚洲av不卡在线观看| 欧美人与善性xxx| 国产精品偷伦视频观看了| 在线观看美女被高潮喷水网站| 成人鲁丝片一二三区免费| 91精品一卡2卡3卡4卡| 国产极品天堂在线| 超碰av人人做人人爽久久| 蜜桃亚洲精品一区二区三区| 波野结衣二区三区在线| 一级片'在线观看视频| 国产黄色视频一区二区在线观看| 成人高潮视频无遮挡免费网站| 久久精品国产自在天天线| 国产精品久久久久久av不卡| 最近最新中文字幕大全电影3| 一级毛片黄色毛片免费观看视频| 亚洲精品乱久久久久久| 免费在线观看成人毛片| 精品少妇黑人巨大在线播放| 亚洲一级一片aⅴ在线观看| 禁无遮挡网站| 免费av观看视频| 日韩av不卡免费在线播放| 我要看日韩黄色一级片| 亚洲国产成人一精品久久久| 欧美日韩一区二区视频在线观看视频在线 | 男女啪啪激烈高潮av片| 欧美性感艳星| 中文字幕制服av| 三级经典国产精品| 精品久久久久久久久av| 美女视频免费永久观看网站| 岛国毛片在线播放| 久久人人爽人人爽人人片va| 天堂俺去俺来也www色官网| 99re6热这里在线精品视频| 亚洲欧洲国产日韩| 久久久久精品性色| 欧美人与善性xxx| 国产 一区精品| 亚洲伊人久久精品综合| 成人美女网站在线观看视频| 99热6这里只有精品| 日韩一区二区视频免费看| 成人亚洲精品一区在线观看 | 性色avwww在线观看| 国产中年淑女户外野战色| 丝瓜视频免费看黄片| 久久久欧美国产精品| 日本-黄色视频高清免费观看| 欧美bdsm另类| 国产视频首页在线观看| 免费日韩欧美在线观看| 久久久久久人妻| 国产精品二区激情视频| 人成视频在线观看免费观看| 亚洲国产av新网站| 多毛熟女@视频| svipshipincom国产片| 亚洲成人手机| 久久久久久久大尺度免费视频| 岛国毛片在线播放| 国产男人的电影天堂91| 国产精品国产三级国产专区5o| 亚洲国产日韩一区二区| av网站在线播放免费| 性色av一级| 女性生殖器流出的白浆| 国产亚洲午夜精品一区二区久久| 狠狠精品人妻久久久久久综合| 伦理电影大哥的女人| 久久久亚洲精品成人影院| 亚洲国产精品成人久久小说| 国产亚洲精品第一综合不卡| 国产探花极品一区二区| 久久天躁狠狠躁夜夜2o2o | 日韩一本色道免费dvd| 性少妇av在线| 免费观看性生交大片5| 啦啦啦啦在线视频资源| 男女床上黄色一级片免费看| 国产免费福利视频在线观看| 十分钟在线观看高清视频www| 热re99久久国产66热| 欧美 日韩 精品 国产| 蜜桃在线观看..| 麻豆av在线久日| 日本猛色少妇xxxxx猛交久久| 又黄又粗又硬又大视频| 久久精品国产a三级三级三级| 久久天堂一区二区三区四区| 国产精品秋霞免费鲁丝片| 免费日韩欧美在线观看| 成人免费观看视频高清| 久久久久视频综合| 韩国av在线不卡| 伦理电影大哥的女人| 欧美日韩亚洲国产一区二区在线观看 | 亚洲五月色婷婷综合| 国产精品麻豆人妻色哟哟久久| 看免费成人av毛片| 婷婷色麻豆天堂久久| 777米奇影视久久| 不卡av一区二区三区| 亚洲图色成人| 九草在线视频观看| 街头女战士在线观看网站| www.熟女人妻精品国产| 亚洲精品国产av成人精品| 国产精品久久久久久久久免| 久热这里只有精品99| 国产精品久久久久久人妻精品电影 | 国产成人系列免费观看| 久久久久久久久久久免费av| 少妇被粗大猛烈的视频| 夫妻午夜视频| 久久97久久精品| 九色亚洲精品在线播放| 国产精品一二三区在线看| 久久天堂一区二区三区四区| 天天躁夜夜躁狠狠久久av| 综合色丁香网| 午夜福利乱码中文字幕| 桃花免费在线播放| 中文字幕亚洲精品专区| 麻豆av在线久日| 亚洲婷婷狠狠爱综合网| 久久久久精品人妻al黑| 亚洲欧洲精品一区二区精品久久久 | 精品人妻熟女毛片av久久网站| 国产一区亚洲一区在线观看| 久久精品国产a三级三级三级| 亚洲激情五月婷婷啪啪| 高清欧美精品videossex| 亚洲成人国产一区在线观看 | 一级毛片我不卡| 亚洲精品一二三| 日韩制服骚丝袜av| 免费黄色在线免费观看| 亚洲人成77777在线视频| 成人18禁高潮啪啪吃奶动态图| 亚洲伊人色综图| 18在线观看网站| av电影中文网址| 黄片小视频在线播放| 狂野欧美激情性xxxx| 老司机靠b影院| 久久精品国产亚洲av高清一级| 最近中文字幕高清免费大全6| 精品视频人人做人人爽| 99久久精品国产亚洲精品| 国产乱来视频区| 人体艺术视频欧美日本| 久久韩国三级中文字幕| 国产不卡av网站在线观看| 日韩一卡2卡3卡4卡2021年| 精品少妇一区二区三区视频日本电影 | 午夜老司机福利片| 亚洲三区欧美一区| 久久免费观看电影| 亚洲精品日本国产第一区| 久久鲁丝午夜福利片| 一边亲一边摸免费视频| 国产精品麻豆人妻色哟哟久久| 观看av在线不卡| 中文乱码字字幕精品一区二区三区| 不卡视频在线观看欧美| 国产亚洲最大av| 涩涩av久久男人的天堂| 一区二区av电影网| 777久久人妻少妇嫩草av网站| 国产高清不卡午夜福利| 亚洲,一卡二卡三卡| 久久精品熟女亚洲av麻豆精品| bbb黄色大片| 亚洲欧美激情在线| 男女边摸边吃奶| 亚洲国产最新在线播放| 19禁男女啪啪无遮挡网站| 男女高潮啪啪啪动态图| 乱人伦中国视频| 国产一区二区三区av在线| 五月天丁香电影| 久久精品人人爽人人爽视色| av国产精品久久久久影院| 久久精品aⅴ一区二区三区四区| 99热网站在线观看| 九九爱精品视频在线观看| 亚洲精品日韩在线中文字幕| 九色亚洲精品在线播放| 久久精品国产亚洲av高清一级| 中文字幕高清在线视频| 亚洲,欧美,日韩| 亚洲综合色网址| 18禁动态无遮挡网站| 亚洲激情五月婷婷啪啪| 国产精品99久久99久久久不卡 | 狂野欧美激情性bbbbbb| 亚洲av日韩在线播放| 亚洲国产欧美网| 一本一本久久a久久精品综合妖精| 国产精品免费大片| 日韩视频在线欧美| 日韩大片免费观看网站| 老熟女久久久| 久久这里只有精品19| 欧美亚洲日本最大视频资源| 中文欧美无线码| 国产精品99久久99久久久不卡 | 国产亚洲av高清不卡| 欧美日韩一区二区视频在线观看视频在线| 黄色毛片三级朝国网站| 精品一品国产午夜福利视频| 欧美日韩一区二区视频在线观看视频在线| 深夜精品福利| 一区二区三区精品91| 亚洲av电影在线观看一区二区三区| 老司机深夜福利视频在线观看 | 国产精品秋霞免费鲁丝片| 亚洲精品国产av成人精品| 午夜免费观看性视频| 免费观看人在逋| 亚洲国产中文字幕在线视频| 亚洲欧美中文字幕日韩二区| avwww免费| 欧美在线一区亚洲| 亚洲国产欧美在线一区| 九色亚洲精品在线播放| 国产欧美日韩一区二区三区在线| 国产不卡av网站在线观看| 免费不卡黄色视频| 侵犯人妻中文字幕一二三四区| 岛国毛片在线播放| 777米奇影视久久| 校园人妻丝袜中文字幕| 国产成人系列免费观看| 国产有黄有色有爽视频| 亚洲国产精品一区三区| 国产精品蜜桃在线观看| 51午夜福利影视在线观看| 国产97色在线日韩免费| 国产1区2区3区精品| av在线老鸭窝| 亚洲精品,欧美精品| 精品一区二区三区av网在线观看 | 久热这里只有精品99| 免费女性裸体啪啪无遮挡网站| 国产精品人妻久久久影院| 九色亚洲精品在线播放| 女人久久www免费人成看片| 国产男女内射视频| 国产日韩欧美视频二区| 欧美变态另类bdsm刘玥| 在线观看免费午夜福利视频| 日韩免费高清中文字幕av| 男女无遮挡免费网站观看| 亚洲精品视频女| 综合色丁香网| tube8黄色片| 视频在线观看一区二区三区| 日本av手机在线免费观看| 国产精品久久久av美女十八| 亚洲色图 男人天堂 中文字幕| 国产1区2区3区精品| av线在线观看网站| 国产免费福利视频在线观看| av一本久久久久| 男人舔女人的私密视频| 天堂中文最新版在线下载| 国产高清国产精品国产三级| 久久人人97超碰香蕉20202| 亚洲七黄色美女视频| 男女高潮啪啪啪动态图| 97在线人人人人妻| 在线天堂最新版资源| www.熟女人妻精品国产| 亚洲av在线观看美女高潮| 亚洲欧美一区二区三区黑人| 久久久久人妻精品一区果冻| 精品人妻一区二区三区麻豆| 国产精品偷伦视频观看了| 我要看黄色一级片免费的| 中文字幕另类日韩欧美亚洲嫩草| 色婷婷久久久亚洲欧美| 久久免费观看电影| 建设人人有责人人尽责人人享有的| 亚洲精品视频女| 秋霞在线观看毛片| 久久99精品国语久久久| 欧美成人精品欧美一级黄| 99香蕉大伊视频| 亚洲精品国产av蜜桃| av福利片在线| 伊人久久大香线蕉亚洲五| 亚洲国产av新网站| 国产成人系列免费观看| √禁漫天堂资源中文www| 在线观看免费视频网站a站| 亚洲国产中文字幕在线视频| 宅男免费午夜| 国精品久久久久久国模美| 国产精品.久久久| 午夜日韩欧美国产| 欧美xxⅹ黑人| 一二三四在线观看免费中文在| 电影成人av| 欧美日韩av久久| 亚洲激情五月婷婷啪啪| 超碰97精品在线观看| 69精品国产乱码久久久| 国产乱人偷精品视频| 99久久精品国产亚洲精品| 波多野结衣av一区二区av| 国产男人的电影天堂91| 午夜免费男女啪啪视频观看| 亚洲情色 制服丝袜| 高清视频免费观看一区二区| 亚洲 欧美一区二区三区| 女性生殖器流出的白浆| 亚洲欧美一区二区三区久久| 亚洲第一区二区三区不卡| av女优亚洲男人天堂| 亚洲精品自拍成人| 精品国产超薄肉色丝袜足j| av免费观看日本| 久久久久久人人人人人| 国产97色在线日韩免费| 午夜免费观看性视频| 久久久久人妻精品一区果冻| 19禁男女啪啪无遮挡网站| 99久久综合免费| 中文字幕另类日韩欧美亚洲嫩草| 欧美日韩av久久| 亚洲人成电影观看| 美女视频免费永久观看网站| 婷婷色麻豆天堂久久| 不卡av一区二区三区| 欧美日本中文国产一区发布| 免费av中文字幕在线| 国产亚洲精品第一综合不卡| 免费在线观看黄色视频的| 中文乱码字字幕精品一区二区三区| 日韩熟女老妇一区二区性免费视频| 国产视频首页在线观看| 无遮挡黄片免费观看| 午夜日本视频在线| 国产精品免费大片| www.自偷自拍.com| 中文欧美无线码| a级毛片黄视频| 波野结衣二区三区在线| 久久久久人妻精品一区果冻| 国产xxxxx性猛交| 精品一区二区免费观看| 成年人午夜在线观看视频| 国产黄色视频一区二区在线观看| 欧美精品一区二区免费开放| 国产在线一区二区三区精| 各种免费的搞黄视频| 亚洲国产看品久久| 青春草亚洲视频在线观看| 成年人免费黄色播放视频| 丰满少妇做爰视频| 精品国产一区二区三区久久久樱花| 我要看黄色一级片免费的| a级毛片在线看网站| 亚洲精品国产区一区二| 99久久精品国产亚洲精品| 美女中出高潮动态图| 久久ye,这里只有精品| 中文字幕人妻丝袜一区二区 | 不卡视频在线观看欧美| 美国免费a级毛片| 国产福利在线免费观看视频| 妹子高潮喷水视频| 亚洲av男天堂| 亚洲国产毛片av蜜桃av| 久久ye,这里只有精品| 九草在线视频观看| 免费在线观看视频国产中文字幕亚洲 | 纯流量卡能插随身wifi吗| 国产一区二区在线观看av| 亚洲欧美色中文字幕在线| 国产视频首页在线观看| 看十八女毛片水多多多| www日本在线高清视频| 欧美亚洲 丝袜 人妻 在线| 国产精品蜜桃在线观看| 日韩大片免费观看网站| 久热这里只有精品99| 久久99热这里只频精品6学生| 黑丝袜美女国产一区| 9热在线视频观看99| 免费人妻精品一区二区三区视频| 国产爽快片一区二区三区| 精品午夜福利在线看| 黄片小视频在线播放| 丝袜美足系列| 日韩av不卡免费在线播放| 国产成人欧美| xxx大片免费视频| 18禁国产床啪视频网站| 99久久99久久久精品蜜桃| 制服丝袜香蕉在线| 国产无遮挡羞羞视频在线观看| 性少妇av在线| 国产成人午夜福利电影在线观看| 毛片一级片免费看久久久久| 美女大奶头黄色视频| 亚洲av综合色区一区| 色吧在线观看| 赤兔流量卡办理| 久久青草综合色| 久久人妻熟女aⅴ| 国产黄色视频一区二区在线观看| 精品国产乱码久久久久久小说| 巨乳人妻的诱惑在线观看| 黄片播放在线免费| 欧美日韩亚洲综合一区二区三区_| 亚洲精品第二区| 久久久精品国产亚洲av高清涩受| 80岁老熟妇乱子伦牲交| 91精品伊人久久大香线蕉| 欧美精品一区二区大全| 午夜精品国产一区二区电影| 免费久久久久久久精品成人欧美视频| 啦啦啦 在线观看视频| 老司机影院成人| 亚洲天堂av无毛| 日日啪夜夜爽| 中国国产av一级| 美女脱内裤让男人舔精品视频| 亚洲精品成人av观看孕妇| 99热国产这里只有精品6| 搡老岳熟女国产| 我的亚洲天堂| 亚洲国产精品一区二区三区在线| 黄色 视频免费看| 亚洲一级一片aⅴ在线观看| 黄片小视频在线播放| av电影中文网址| 免费人妻精品一区二区三区视频| 日本91视频免费播放| 久久热在线av| 亚洲第一区二区三区不卡| 亚洲成人一二三区av| 各种免费的搞黄视频| 中文字幕人妻丝袜一区二区 | 在线观看免费日韩欧美大片| 免费黄频网站在线观看国产| 国产成人av激情在线播放| 免费女性裸体啪啪无遮挡网站| 免费看av在线观看网站| 成年女人毛片免费观看观看9 | 免费黄色在线免费观看| 久久国产精品男人的天堂亚洲| 亚洲一级一片aⅴ在线观看| 久久久国产欧美日韩av| 精品午夜福利在线看| 国产av一区二区精品久久| 免费av中文字幕在线| 国产不卡av网站在线观看| 日韩成人av中文字幕在线观看| 国产精品二区激情视频| 欧美日韩视频高清一区二区三区二| 99re6热这里在线精品视频| 91精品伊人久久大香线蕉| 夫妻性生交免费视频一级片| 2021少妇久久久久久久久久久| 成人亚洲欧美一区二区av| 亚洲自偷自拍图片 自拍| 成人毛片60女人毛片免费| 成年人午夜在线观看视频| 日韩av不卡免费在线播放| 亚洲一区中文字幕在线| 国产成人精品久久二区二区91 | 男人舔女人的私密视频| 一级毛片 在线播放| 精品人妻一区二区三区麻豆| 国产精品免费大片| 国产伦理片在线播放av一区| 日本爱情动作片www.在线观看| 岛国毛片在线播放| 丰满少妇做爰视频| 纵有疾风起免费观看全集完整版| 黄色视频在线播放观看不卡| 色精品久久人妻99蜜桃| 热re99久久精品国产66热6| 亚洲一卡2卡3卡4卡5卡精品中文| 天天躁夜夜躁狠狠躁躁| 日日撸夜夜添| 久久狼人影院| 黑人猛操日本美女一级片| 久久毛片免费看一区二区三区| 久久综合国产亚洲精品| 色94色欧美一区二区| 亚洲婷婷狠狠爱综合网| 亚洲一码二码三码区别大吗| 97人妻天天添夜夜摸| 街头女战士在线观看网站| www.自偷自拍.com| 大码成人一级视频| 国产一卡二卡三卡精品 | 亚洲av综合色区一区| 精品一区二区免费观看| 日韩精品免费视频一区二区三区| 亚洲国产精品一区三区| 亚洲av日韩精品久久久久久密 | 人人澡人人妻人| 夫妻性生交免费视频一级片| 久久久久精品性色| 国产 一区精品| 精品亚洲成国产av| 激情五月婷婷亚洲| 国产欧美亚洲国产| 日本欧美国产在线视频| 亚洲av国产av综合av卡| 亚洲精品国产av蜜桃| 精品午夜福利在线看| 亚洲,欧美精品.| 91精品伊人久久大香线蕉| 天天躁夜夜躁狠狠久久av| 久久久久久人妻| 男女边吃奶边做爰视频| 免费在线观看完整版高清| 亚洲成人手机|