• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種針對 BERT 模型的多教師蒸餾方案

    2024-05-17 00:00:00石佳來郭衛(wèi)斌

    摘要:在傳統(tǒng)的知識蒸餾中,若教師、學(xué)生模型的參數(shù)規(guī)模差距過大,則會出現(xiàn)學(xué)生模型無 法學(xué)習(xí)較大教師模型的負(fù)面結(jié)果。為了獲得在不同任務(wù)上均擁有較好表現(xiàn)的學(xué)生模型,深入研 究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點,提出了一種新型的來自 Transformers 的雙 向編碼器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教 師蒸餾方案,即使 用 BERT、魯棒優(yōu)化 的 BERT 方 法 ( Robustly optimized BERT approach, RoBERTa)、語言理解的廣義自回歸預(yù)訓(xùn)練模型(XLNET)等多個擁有 BERT 結(jié)構(gòu)的教師模型對 其進(jìn)行蒸餾,同時修改了對教師模型中間層知識表征的蒸餾方案,加入了對 Transformer 層的 蒸餾。該蒸餾方案在通用語言理解評估(General Language Understanding Evaluation,GLUE) 中的多個數(shù)據(jù)集上的實驗結(jié)果表明,最終蒸餾實驗的結(jié)果較為理想,可以保留教師模型 95.1% 的準(zhǔn)確率。

    關(guān)鍵詞:BERT;知識蒸餾;多教師蒸餾;Transformer 蒸餾;自然語言理解

    中圖分類號:TP391.1

    文獻(xiàn)標(biāo)志碼:A

    Devlin 等[1] 在 2018 年提出的 BERT(Bidirectional Enoceder Respresentations from Transformers)模型在 自然語言處理(Nature Language Processing, NLP)方 面的研究成果顯著,堪稱 NLP 研究的里程碑。此后 學(xué)者們不斷提出對 BERT 模型進(jìn)行改進(jìn),包括引入傳 統(tǒng)單向語言模型(LM)方式和 seq2seq 訓(xùn)練的單向語 言模型(UNILM) [2]、將 BERT 中 Mask 隨機(jī) token 改 進(jìn)為 Mask 隨機(jī)實體或詞組的 Ernie-baidu 模型[3] 等, 此類基于 BERT 的模型均在自然語言處理方面發(fā)揮 了不錯的表現(xiàn)。但是,這些模型在具有極強(qiáng)的運(yùn)算 能力的前提下,參數(shù)規(guī)模龐大,推理周期長,其參數(shù) 數(shù)目往往超過 1000 億。如何在存儲空間有限的場 合(比如在移動終端)中,有效地實現(xiàn)這種預(yù)先學(xué)習(xí) 的方法,并使之具有一定的計算能力,成為學(xué)者們一 個新的研究方向。許多學(xué)者提出了不少有效的方 法,其中,最受歡迎的方法就是“知識蒸餾”。該方法 一般由大型的教師模型和小型的學(xué)生模型組成,在 蒸餾過程中,學(xué)生不僅要從文本樣本的硬標(biāo)簽中學(xué) 習(xí),還要從教師模型中學(xué)習(xí)。最初,基于 BERT 模式 的蒸餾主要是以一位老師和一位學(xué)生的方式來進(jìn) 行,近年來,眾多學(xué)者也進(jìn)行了大量的多教師蒸餾策略。

    在多教師蒸餾策略中,由不同的教師模型為學(xué) 生模型提供不同的“見解” [4] ,學(xué)生模型可以從不同的 角色模型中獲取不同的知識表征以獲得更佳的表 現(xiàn)。但是傳統(tǒng)的多教師蒸餾中,僅使用教師模型最 后一層的輸出進(jìn)行蒸餾,若教師模型過于復(fù)雜,學(xué)生 模型則有可能會因為無法捕捉教師模型中更細(xì)粒度 的知識而無法接近教師模型[5] ,甚至?xí)霈F(xiàn)學(xué)生模型 在數(shù)據(jù)的某些部分過度擬合的問題。為了解決以上 問題,在蒸餾時提取教師模型中間層的知識,除了教 師預(yù)測層外 ,還讓學(xué)生模型從教師模型中間 的 Transformer 層中學(xué)習(xí)知識,整體的蒸餾函數(shù)包括了 預(yù)測層的蒸餾。

    本文選用 BERT[1]、RoBERT[6]、XLNET[7] 3 個教師模型,以及 3 層 BERT 的學(xué)生模型的多教師蒸餾模 型,并修改了蒸餾損失函數(shù),新的蒸餾損失函數(shù)包括 對教師模型的預(yù)測層、隱藏層、注意力層以及嵌入層 的蒸餾。在 GLUE[8] 任務(wù)的部分?jǐn)?shù)據(jù)集上與其他常 見的蒸餾方案進(jìn)行了對比實驗,本文方案在結(jié)果上 得到有效的提升。

    1""" 知識蒸餾相關(guān)工作

    1.1 知識蒸餾方案

    Hinton 等[9] 認(rèn)為,在預(yù)訓(xùn)練階段大量的參數(shù)可 以幫助模型更好地獲取樣本的知識表征,但是在預(yù) 測時則不需要過多的參數(shù)。為了減少模型的計算成 本,本文提出了基于教師-學(xué)生架構(gòu)的知識蒸餾模型, 通過知識蒸餾的方法訓(xùn)練得到性能相近、結(jié)構(gòu)緊湊 的學(xué)生模型。在眾多深度學(xué)習(xí)領(lǐng)域中,知識蒸餾都 可以得到不錯的效果。

    Hinton 等的模型蒸餾僅對教師模型的預(yù)測層輸 出進(jìn)行蒸餾,工程師們則關(guān)心教師模型的輸入和輸 出,因此教師模型很可能會出現(xiàn)過擬合的負(fù)面情 況。為了解決這個問題,Sun 等[10] 提出了一種“耐心 蒸餾”(Patient Knowledge Distillation, PKD)策略,旨 在使學(xué)生模型除了從教師模型最后一層學(xué)習(xí)外,還 讓其學(xué)習(xí)教師模型的中間層,從而使教師模型中間 層的知識表征能較好地轉(zhuǎn)移到學(xué)生模型中。然而 PKD 對 中 間 層 的 蒸 餾 過 于 簡 單 , 忽 略 了 每 一 層 Transformer 內(nèi)部的知識內(nèi)容。本文在此基礎(chǔ)上對每一 層 Transformer 層的隱藏態(tài)和注意力矩陣進(jìn)行了蒸餾。

    1.2 多教師蒸餾方案

    在常見的模型蒸餾方法中,多采用單教師-單學(xué) 生的架構(gòu),然而 Cho 等[11] 的研究發(fā)現(xiàn),在知識蒸餾過 程中并不是性能越卓越的教師模型就一定可以蒸餾 出更好的學(xué)生模型,這與我們的直觀感受相悖。本 文采用多個基于 BERT 的教師模型,搭建一套多教師 蒸餾模型,為學(xué)生模型尋找更好的蒸餾架構(gòu)。

    Fukuda 等[12] 提出的多教師蒸餾方案主張在蒸 餾過程中直接使用多個教師,并提出了兩種多教師 蒸餾的方案:(1)通過在小批量級別切換教師模型標(biāo) 簽來訓(xùn)練學(xué)生模型;(2)學(xué)生模型根據(jù)來自不同教師 分布的多個信息流進(jìn)行訓(xùn)練。Liu 等[13] 提出將多個 教師的軟標(biāo)簽與可學(xué)習(xí)權(quán)重相結(jié)合,提取數(shù)據(jù)示例 之間的結(jié)構(gòu)知識,并傳遞中間層表示,使每個教師負(fù) 責(zé)學(xué)生網(wǎng)絡(luò)中的特定層。Yang 等[14] 提出了一種多 教師兩階段蒸餾的方法,針對機(jī)器問答任務(wù),讓學(xué)生 模型在預(yù)訓(xùn)練階段與微調(diào)階段均進(jìn)行蒸餾訓(xùn)練。

    多教師學(xué)習(xí)是通過利用多個教師模型提高學(xué)生 模型在單個任務(wù)上的性能。多教師蒸餾方法核心的 設(shè)計在于多個教師軟標(biāo)簽、中間層知識的組合策 略。本文在針對 BERT 的多教師蒸餾架構(gòu)中,對每一 個教師模型的蒸餾都新增了針對 Transformer 的蒸 餾,可以幫助學(xué)生模型獲取所有教師模型中更細(xì)粒 度的知識,為學(xué)生模型提供更豐富的“見解”,以獲得 更佳的表現(xiàn)。

    2""" 多教師蒸餾模型

    多個教師模型蒸餾到單個學(xué)生模型可以傳遞多 種知識,多教師蒸餾的優(yōu)勢在于每個教師模型的輸 出都不同,學(xué)生模型可以學(xué)習(xí)到不同教師模型之間 的差異,提升預(yù)測的泛化能力[15]。對于傳統(tǒng)的多教師 蒸餾工作,一般將對教師模型最后一層平均之后的 結(jié)果作為指導(dǎo)學(xué)生訓(xùn)練的信息,即使學(xué)生模型與教 師模型軟標(biāo)簽緊密匹配,其內(nèi)部表現(xiàn)也可能有很大 不同,這種內(nèi)部不匹配可能會使學(xué)生模型泛化能力 的提升變得有限[16] ,同時還伴隨著過擬合的風(fēng)險[10]。 BERT 模型是由 Transformer 構(gòu)建而成,它可以通過 自注意力機(jī)制獲取輸入 token 之間的長期依賴關(guān)系, 在多教師蒸餾中新增對每個教師模型的 Transformer 的蒸餾,在這種情況下,學(xué)生模型的中間層可以保留 教師模型中間層的語言行為。

    本文的多教師蒸餾模型由多個經(jīng)過預(yù)訓(xùn)練的教 師模型同時對單個學(xué)生模型進(jìn)行蒸餾,整體架構(gòu)如 圖 1 所示。對于擁有 BERT 結(jié)構(gòu)的教師模型與學(xué)生 模型來說,嵌入層和預(yù)測層均可以直接采用一對一的 層映射方式,每個 BERT 模型都擁有多個 Transformer 中間層,而通常來說教師模型的中間層數(shù)量是學(xué)生 模型的數(shù)倍。Clark 等[17] 的研究結(jié)果表明,BERT 構(gòu) 建的語言知識從模型網(wǎng)絡(luò)的底部到頂部逐漸變得復(fù) 雜,由于模型建立在底部表示之上,因此本文以自下 而上的方式逐步提取與內(nèi)部表示匹配的知識。對于 多層的 Transformer,本文將模仿 BERT-PKD 的跨層 指定映射方式進(jìn)行跨層映射,如圖 2 所示。文獻(xiàn) [18-19] 的研究表明,Transformer 中的注意力層包括了豐富 的語法、指代等文本知識。李宜儒等[20] 的研究表明, 對師生間的注意力進(jìn)行蒸餾有利于提高學(xué)生模型的 準(zhǔn)確率。因此 Transformer 層的蒸餾又是基于注意力 和隱藏狀態(tài)的蒸餾,每個學(xué)生注意力層/隱藏層可以 從指定的教師注意力層/隱藏層中學(xué)習(xí)知識。整體來 說本實驗的蒸餾損失函數(shù)包括了嵌入層蒸餾損失函 數(shù)、Transformer層的蒸餾損失函數(shù)和預(yù)測層蒸餾損失函數(shù),其中 Transformer 層的蒸餾又包括了隱藏層 的蒸餾以及對注意力層的蒸餾。

    2.1 預(yù)測層損失函數(shù)

    學(xué)生模型和教師模型都會在每個樣本上產(chǎn)生一 個關(guān)于類別標(biāo)簽的分布信息,軟標(biāo)簽損失函數(shù)的計 算就是計算這兩個分布之間的相似性。假設(shè)使用 K 個教師模型進(jìn)行實驗,則需要計算學(xué)生模型預(yù)測層 輸出和 K 個教師模型預(yù)測輸出的交叉熵(CE),預(yù)測 層損失函數(shù)(Lpredict ")如式 (1) 所示。

    其中:z T k 表示第 k 個教師模型預(yù)測的 logits 值; z表 示學(xué)生模型預(yù)測的 logits 值 ;使用 softmax 函數(shù)將 logits 值 zi 映射到概率向量 pi 中,這樣的映射可以使 每個映射的值和為 1; 表示蒸餾時的溫度參數(shù),溫 度越高可以使概率分布曲線越“平滑”,即淡化各個標(biāo) 簽之間預(yù)測值的差異。

    2.2 隱藏層損失函數(shù)

    針對 Transformer 層的蒸餾包括隱藏層(FFN 之 后)和注意力層的蒸餾[21]。學(xué)生和教師模型 Transformer 層之間的映射將模仿耐心蒸餾跨層映射的方式進(jìn)行 映射。假設(shè)教師模型擁有 M 層 Transformer,學(xué)生模 型擁有 N 層 Transformer,那么需要從教師模型中選 擇 N 層 Transformer 層進(jìn)行蒸餾,則學(xué)生模型將會從 教師模型的每 l 層中學(xué)習(xí)。例如對于存在的 3 個教 師模型,且每個教師模型均擁有 11 層 Transformer 中 間層(除了最后一層 Transformer 層直接與預(yù)測層相 連 接 , 不 計 作 中 間 層 ) , 學(xué) 生 模 型 擁 有 3 層 Transformer 中間層,指定學(xué)生模型第 1 層從每個教 師模型第 4 層中學(xué)習(xí)、學(xué)生模型第 2 層從每個教師 模型第 8 層中學(xué)習(xí)、學(xué)生模型第 3 層從每個教師模 型第 12 層中學(xué)習(xí)。

    多教師蒸餾中 Transformer 層的跨層映射策略如 圖3 所示。學(xué)生模型與第k 個教師模型中間Transformer 層的映射函數(shù)記為 ,表示第 k 個教師模型的第 n 層與學(xué)生模型的第 m 層相互映射。除了 Transfor[1]mer 層以外,將 0 設(shè)置為嵌入層的索引,將 M+1 和 N+1 分別設(shè)置為教師模型、學(xué)生模型預(yù)測層的索引,相應(yīng)的層映射定義為0=g,(O)和N+l= g4(M+ l)。

    學(xué)生模型第ü層的隱藏態(tài)(H)可以表示為H∈ Rd,其中標(biāo)量d表示模型的隱藏大小,1是輸入文本的長度。第k個教師模型的第j層的隱藏態(tài)(H )可以表示為eRId,其中標(biāo)量d表示第k 個教師模型的隱藏態(tài)大小。使用 代表一個線 性變換參數(shù),將學(xué)生的隱藏態(tài)轉(zhuǎn)換為與教師網(wǎng)絡(luò)狀 態(tài)相同的空間。那么學(xué)生模型第 i 層隱藏層到第 k 個教師的第 j 層隱藏層之間的距離 ( ) 可以用 式 (2) 表示,其中均方誤差(MSE)表示教師模型和學(xué) 生模型詞嵌入之間的“距離”,并通過最小化它來提升 學(xué)生模型性能。

    3""" 實驗設(shè)置與結(jié)果分析

    3.1 實驗設(shè)置

    GLUE[8] 是一個針對自然語言理解的多任務(wù)的 基準(zhǔn)和分析平臺,由紐約大學(xué)、華盛頓大學(xué)等機(jī)構(gòu)所創(chuàng) 建,近年來流行的 NLP 模型例如 BERT[1]、RoBERTa[6]、 XLNET[7] 等都會在此基準(zhǔn)上進(jìn)行測試,同時 GLUE 也 是知識蒸餾模型 BERT-PKD[8]、DistillBERT[23] 等所 選用的實驗數(shù)據(jù)集。本實驗數(shù)據(jù)集選用 GLUE[8] 中 的部分公開數(shù)據(jù)集 QNLI、MNLI和 SST-2 作為本實 驗的數(shù)據(jù)集,在上述數(shù)據(jù)集中對模型的處理效果進(jìn) 行了檢驗。在 QNLI 數(shù)據(jù)集中,要求模型要判定問題 與語句之間的包含關(guān)系,其結(jié)論有包含與不包含兩 種情況,是二分類問題。QNLI 包含 104 743 個培訓(xùn) 集合、5 463 個發(fā)展集合和 5 461 個測試集合。在 SST-2 中,模型要判定輸入的語篇包含了積極的情緒 還是消極的情緒,這也是一種二分類問題,包含了訓(xùn) 練集 67 350 個,開發(fā)集 873 個,驗證集 821 個。在 MNLI 中,模型被輸入一個句子對,包括了前提語句 與假設(shè)語句,該模型需要基于輸入內(nèi)容,判斷二者的 關(guān)系是屬于假定、假定沖突或是中立中的哪一種,這 屬于三分類問題。由于 MNLI 是一種包含多種類型的文字,因此它被分成了 matched 和 mismatched 兩種 類型,其中 matched 表示訓(xùn)練和測試集具有相同的資 料源,而 mismatched 是不相容的;本論文選取的資料 集包含 392 702 個培訓(xùn)集、9 815 個開發(fā)集 dev-matched 和 9 796 個 test-matched。

    訓(xùn)練時如何確定學(xué)習(xí)率等超參數(shù)十分關(guān)鍵,訓(xùn) 練開始時使用較大的學(xué)習(xí)率可以使模型更快地接近 局部或全局最優(yōu)解,但是在訓(xùn)練后期會有較大波動, 甚至出現(xiàn)損失函數(shù)的值圍繞最小值徘徊,難以達(dá)到 最優(yōu)的情況。本實驗使用網(wǎng)格搜索法調(diào)整超參數(shù), 由于存在許多超參數(shù)組合,因此首先對學(xué)習(xí)率和式 (9) 中的權(quán)重 α 進(jìn)行網(wǎng)格搜索,將學(xué)習(xí)率在{ }中調(diào)整 ,式 (9) 中 α 的取值在{0.1, 0.2, 0.5}之間調(diào)整。固定學(xué)習(xí)率和式 (9) 中 α 這兩個 超參數(shù)的值,再對其他超參數(shù)的值進(jìn)行調(diào)整,將蒸餾 溫度 取值在{1, 5, 10}之間調(diào)整。按照顯存容量將 批量樣本容量 bath size 設(shè)置為 32,最多對數(shù)據(jù)進(jìn)行 4 輪訓(xùn)練。

    3.2 多教師蒸餾結(jié)果

    為 了 方 便 蒸 餾 時 進(jìn) 行 跨 層 映 射 , 選 用 了 BERT12、RoBERTa12、XLNet12 作為教師模型,選用的 教師模型都是 12 層基于 BERT 的預(yù)訓(xùn)練好的模型, 教師模型選擇的理由如下:(1)所選的每個教師模型 均 12 層,由 Transformer 構(gòu)建而成,結(jié)構(gòu)相似。(2)所 選的每個教師模型中包含的參數(shù)數(shù)量在 1.1 億左右, 教師模型的大小相似。在每個數(shù)據(jù)集中,均使用不 同的隨機(jī)種子微調(diào) 3 個教師模型。各個教師模型在 每個數(shù)據(jù)集上的表現(xiàn)如表 1 所示,各個數(shù)據(jù)集中均用 推斷準(zhǔn)確率表示結(jié)果。

    選取的學(xué)生模型 BERT3 是以選取的 BERT12 模 型的前三層的參數(shù)作為初始值 ,學(xué)生模型擁 有 0.45 億參數(shù),再用前文中基于 Transformer 的知識蒸 餾框架對學(xué)生模型進(jìn)行蒸餾,以驗證教師模型的數(shù) 量與蒸餾的關(guān)系。

    表 1 結(jié)果顯示教師模型在 3 個數(shù)據(jù)集中的平均 推斷準(zhǔn)確率為 89.4%,而學(xué)生模型在 3 個相同數(shù)據(jù)集 中的平均推斷準(zhǔn)確率為 85.0%(表 2)。學(xué)生模型的推 斷準(zhǔn)確率在保留了各個教師模型平均推斷準(zhǔn)確率 (95.1%)的同時,參數(shù)規(guī)模只占用了教師模型平均參 數(shù)規(guī)模的 41.5%。同時也可以看到不同教師模型所 “擅長”的領(lǐng)域也不同,RoBERTa12 教師模型是在 BERT 模型的基礎(chǔ)上采用更大的預(yù)訓(xùn)練語料進(jìn)行訓(xùn)練而得 到的模型 ,因此在各個數(shù)據(jù)集上的表現(xiàn)均優(yōu) 于 BERT 模型,在同屬于二分任務(wù)的 QNLI、SST-2 數(shù)據(jù) 集中的表現(xiàn)在所有教師模型中最優(yōu)。而 XLNET12 教 師 模 型 使 用 了 Transformer-XL 中 的 段 循 環(huán) (Segment" Recurrence" Mechanism)、 相 對 位 置 編 碼 (Relative Positional Encoding) 進(jìn)行優(yōu)化,在長文本問 題中可以有更好的表現(xiàn),在屬于三分任務(wù)的 MNLI 數(shù) 據(jù)集中表現(xiàn)最優(yōu)。

    3.3 不同蒸餾模型對比

    為了驗證本文多教師蒸餾方案的有效性,本實 驗還選取了 Sun 等[10] 提出的 BERT-PKD、Sanh 等[23] 提出的 DistilBERT 作為單教師模型的 baseline 模型 進(jìn)行了對比,其中 BERT-PKD 對比了選用跨層映射 的 BERT-PKD(skip) 版 與 選 用 尾 層 映 射 的 BERT[1]PKD(last) 兩個版本。所有 的 baseline 模型均采 用 BERT12 模型作為教師模型,并采用 BERT3 模型作為 學(xué)生模型,在 QNLI、SST-2、MNLI 數(shù)據(jù)集中進(jìn)行實 驗,不同蒸餾模型的學(xué)生模型性能對比結(jié)果如表 2 所 示??梢钥闯霰疚牡恼麴s方案(BERT12+ RoBERTa12+ XLNET12)在選取的 3 個數(shù)據(jù)集中均優(yōu)于常見的對比 蒸餾模型。此外還可以看出,在蒸餾時,教師模型在 某一特定任務(wù)中的優(yōu)秀性能,可以很好地傳遞給學(xué) 生模型。例如在 SST-2 的情感分類任務(wù)中,本文實驗 方案的推斷準(zhǔn)確率明顯高于其他的 baseline 模型,比 BERT-PKD(last) 的推斷準(zhǔn)確率提高 5.4%,有了非常 大的提升,是因為本文提供的多教師模型可以讓學(xué) 生模型在知識獲取上就獲得更大的優(yōu)勢。

    3.4 相同教師模型、不同蒸餾損失函數(shù)的模型對比 為了驗證蒸餾時對 Transformer 層中的知識進(jìn)行 提取這一策略的有效性,本文同時還設(shè)立了多教師 蒸餾 baseline 模型,分別選取了只從教師預(yù)測層中學(xué) 習(xí) 知 識 的 OKD(Original" Knowledge" Distillation) 和 PKD。以上 baseline 模型與本文模型一樣,同樣選取 BERT12、RoBERTa12、XLNET12 作為教師模型,將本 文采用的從 Transformer 層中提取知識的蒸餾方案記 作 TKD(Transformer Knowledge Distillation),實驗結(jié) 果如表 3 所示。

    從橫向進(jìn)行比較,可以看到在固定教師模型的 數(shù)量,以及類型相同的情況下,對 Transformer 層的知 識蒸餾可以在一定程度上提升其對學(xué)生模型的性 能。例如在共同選用 BERT12、RoBERTa12、XLNET12 3 個教師模型的情況下,OKD 模型在本實驗所選的 任務(wù)中的性能均不如 TKD 模型的性能好,差別最大的 是在 QNLI 數(shù)據(jù)集中,二者推斷準(zhǔn)確率最高相差 2.6%。

    但是,這種現(xiàn)象在更加復(fù)雜的任務(wù)中并不明顯, 在 MNLI 數(shù)據(jù)集中,甚至出現(xiàn)了 TKD 被 PKD 反超的 情況,盡管推斷準(zhǔn)確率只高出了 0.2%。這種現(xiàn)象的 原因可以理解為更多的教師模型已經(jīng)為學(xué)生模型提 供了非常豐富的知識,再加上學(xué)生模型和教師模型 之間的參數(shù)規(guī)模比較大,因而 BERT3 學(xué)生模型捕捉 教師模型中間知識的能力并不是很好。

    4""" 結(jié)束語

    本文針對傳統(tǒng)多教師蒸餾只蒸餾教師模型預(yù)測 層而忽略中間層表達(dá)的問題,提出了針對 BERT 模型 的多教師蒸餾方法,同時修改了傳統(tǒng)的蒸餾損失函 數(shù),新增了對 Transformer 中間層的知識的提取。實 驗選用預(yù)訓(xùn)練好的 BERT12、 RoBERTa12、 XLNET12 作為教師模型,BERT3 作為學(xué)生模型,實驗結(jié)果證明 學(xué)生模型可以很好地保留教師模型的性能,保留了 教師模型平均 95.1% 的準(zhǔn)確率。同時學(xué)生模型的參 數(shù)規(guī)模更加緊湊,只占用教師模型平均參數(shù)規(guī)模的 41.5%。與常見的蒸餾模型進(jìn)行了對比,在所選的數(shù) 據(jù)集中,本文提出的方法均獲得了最佳成績。 本文很好地驗證了從 Transformer 層中提取知識 這一策略在蒸餾實驗中的有效性。Transformer的蒸 餾可以協(xié)調(diào)對多個教師中間層知識表征的學(xué)習(xí),有 效提升學(xué)生模型的性能。

    參考文獻(xiàn):

    DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-train[1]ing of" deep" bidirectional" transformers" for" language"" under[1]standing[C]//Proceedings" of" the" 2019" Conference" of" the North American" Chapter" ofthe" Association" for"" Computa[1]tional Linguistics:" Human" Language" Technologies."" Min[1]neapolis: ACL Press, 2019: 4171-4186.

    DONG" L," YANG" N," WANG" W, et al." Unified" language model" pre-training" for" natural" language" understanding" and generation[J]." Advances" in" Neural" Information" Processing Systems, 2019, 32(1): 3179-3191.

    YU S, Wang S H, YUKUN L, et al. Ernie: Enhanced rep[1]resentation" through" knowledge" integration[C]//Proceedings of" the" AAAI" Conference" on" Artificial" Intelligence." [s.l.]: AAAI Press, 2020: 8968-8975.

    SHEN C, WANG X, SONG J, et al. Amalgamating know[1]ledge" towards" comprehensive" classification[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence. Honolulu: AAAI Press, 2019: 3068-3075.

    ILICHEV" A," SOROKIN" N," PIONTKOVSKAYA" I, et al. Multiple" teacher" distillation" for" robust" and" greener models[C]//Proceedings of the International Conference on Recent" Advances" in" Natural" Language" Processing." New York: RANLP, 2021: 601-610.

    LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized" BERT" pretraining" approach[J]." ArXiv," 2019, 1907: 1169.

    YANG" Z" L," DAI" Z" L," CARBONELL" J" G, et al." XLNet: Generalized autoregressive pretraining for language under[1]standing[C]//Advances" in" Neural" Information" Processing Systems 32 Annual Conference on Neural Information Pro[1]cessing Systems. Canada: NeurIPS, 2019: 5754-5764.

    WANG A, SINGH A, MICHAEL J, et al. GLUE: A multi[1]task benchmark and analysis platform for natural language understanding[C]//Proceedings of the 7th International Con[1]ference on" Learning" Representations" Proceedings" of"" Ma[1]chine Learning Research. [s.l.]: ICLR Press, 2019: 1-20.

    HINTON G, VINYALS O, DEAN J. Distilling the know[1]ledge in a neural network[J]. Journal of Machine Learning Research, 2016, 17(1): 2435-2445.

    SUN S Q, CHENG Y, GEN Z, et al. Patient knowledge dis[1]tillation" for" BERT" model" compression[C]//Proceedings" of the 2019 Conference on Empirical Methods in Natural Lan[1]guage Processing" and" the" 9th" International" Joint"" Confer- ence" on" Natural" Language" Processing." Hong" Kong: EMNLP-IJCNLP, 2019: 4322-4331.

    CHO J H, HARIHARAN B. On the efficacy of knowledge distillation[C]//Proceedings" of" the" IEEE/CVF" International Conference on Computer Vision. Seoul: IEEE Press, 2019: 4794-4802.

    FUKUDA T, KURATA G. Generalized knowledge distilla[1]tion" from" an" ensemble" of" specialized" teachers" leveraging Unsupervised neural clustering[C]//ICASSP 2021 IEEE In[1]ternational" Conference" on" Acoustics" Speech" and" Signal Processing (ICASSP). [s.l.]: IEEE Press, 2021: 6868-6872.

    LIU X, HE P, CHEN W, et al. Improving multi-task deep neural networks via knowledge distillation for natural lan[1]guage understanding[C]//IEEE International Conference on Acoustics Speech" and" Signal" Processing" (ICASSP)."" Bar[1]celona: IEEE Press, 2020: 7419-7423.

    YANG Z, SHOU L, GONG M, et al. Model compression with two-stage multi-teacher knowledge distillation for web question answering system[C]//Proceedings of the 13th In[1]ternational" Conference" on" Web" Search" and" Data" Mining. Houston: ACM Press, 2020: 690-698.

    TRAN" L," VEELING" B" S," ROTH" K, et al. Hydra:"" Pre[1]serving" ensemble" diversity" for" model" distillation[C]//Pro[1]ceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). [s.l.]: ACL Press, 2021: 4093-4107.

    AGUILAR G, LING Y, ZHANG Y, YAO B, et al. Know[1]ledge distillation from internal representations[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence.

    New York: AAAI Press, 2020: 7350-7357 CLARK K, KHANDELWAL U, LEVY O, et al. What does bert" look" at?" An" analysis" of" bert's" attention[C]//Proceed[1]ings of the 2019 ACL Workshop Blackbox NLP Analyzing and Interpreting Neural Networks for NLP. Florence: ACL Press, 2019: 276-286.

    VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all" you" need[J]." Advances" in" Neural" Information"" Pro[1]cessing Systems, 2017, 30: 5998-6008.

    MICHEL" P," LEVY" O," NEUBIG" G.nbsp; Are" sixteen" heads really better than one?[J]. Advances in Neural Information Processing Systems, 2019, 32: 219-234.

    李宜儒, 羅健旭. 一種基于師生間注意力的AD診斷模 型[J]. 華東理工大學(xué)學(xué)報(自然科學(xué)版), 2022, 49(3): 1-6.

    ADRIANA R, NICOLAS B, SAMIRA E K, et al. FitNets: Hints for thin deep nets[C]//3rd International Conference on Learning" Representations." New" York:" ICLR" Press," 2015: 191-207.

    CLARK K, LUONG M T, LE Q V, et al. ELECTRA: Pre[1]training text encoders as discriminators rather than generat[1]ors[C]// 8th" International" Conference" on" Learning" Repres[1]entations. New York: ICLR, 2020: 276-286.

    SANH V, DEBUT L, CHAUMOND J, et al. DistilBERT, a distilled" version" of" BERT:" Smaller," faster," cheaper" and lighter[C]//Proceedings of the 2020 Conference on Empiri[1]cal" Methods" in" Natural" Language" Processing" (EMNLP). [s.l.]:" Association" for" Computational" Linguistics" Press, 2022: 7701-7711.

    欧美成人精品欧美一级黄| 久久久色成人| 国产黄a三级三级三级人| 中文欧美无线码| 人体艺术视频欧美日本| 亚洲丝袜综合中文字幕| 国产单亲对白刺激| 国语对白做爰xxxⅹ性视频网站| 久久精品国产鲁丝片午夜精品| 一级毛片我不卡| 久久精品综合一区二区三区| 婷婷色麻豆天堂久久| 大香蕉久久网| 亚洲无线观看免费| 看黄色毛片网站| 国产成人精品福利久久| 大话2 男鬼变身卡| av免费观看日本| 天堂√8在线中文| 欧美zozozo另类| 美女cb高潮喷水在线观看| 性色avwww在线观看| 最近手机中文字幕大全| 精品人妻熟女av久视频| 亚洲最大成人手机在线| 成人av在线播放网站| 晚上一个人看的免费电影| 国产伦精品一区二区三区四那| 插逼视频在线观看| 中文字幕av成人在线电影| 只有这里有精品99| 久久久久久久久大av| 激情五月婷婷亚洲| 国精品久久久久久国模美| 性色avwww在线观看| 99热6这里只有精品| 嘟嘟电影网在线观看| 观看免费一级毛片| 高清视频免费观看一区二区 | av一本久久久久| 亚洲欧美日韩卡通动漫| 男人和女人高潮做爰伦理| 国产一级毛片在线| 国产日韩欧美在线精品| 午夜视频国产福利| 人人妻人人澡人人爽人人夜夜 | 国产亚洲午夜精品一区二区久久 | 久久99热这里只频精品6学生| 一级毛片我不卡| 一级黄片播放器| 又爽又黄无遮挡网站| 免费看日本二区| 高清在线视频一区二区三区| 国产伦精品一区二区三区四那| av在线亚洲专区| 国产成人精品福利久久| 三级经典国产精品| 午夜福利网站1000一区二区三区| 精品国产一区二区三区久久久樱花 | 中文字幕久久专区| av在线亚洲专区| 国产有黄有色有爽视频| 2021天堂中文幕一二区在线观| 亚洲av免费在线观看| 18禁在线无遮挡免费观看视频| 国产久久久一区二区三区| 成人亚洲精品一区在线观看 | 大陆偷拍与自拍| 国产伦精品一区二区三区视频9| 丝袜美腿在线中文| av线在线观看网站| 亚洲欧美精品自产自拍| 中国国产av一级| 国产乱来视频区| 亚洲国产日韩欧美精品在线观看| 少妇被粗大猛烈的视频| 国模一区二区三区四区视频| 亚洲丝袜综合中文字幕| 久久国产乱子免费精品| 欧美日韩国产mv在线观看视频 | 欧美高清性xxxxhd video| 一个人看的www免费观看视频| 久久这里只有精品中国| 精品欧美国产一区二区三| 天堂网av新在线| 纵有疾风起免费观看全集完整版 | 真实男女啪啪啪动态图| 久久久亚洲精品成人影院| 亚洲精品国产成人久久av| 麻豆乱淫一区二区| 伦理电影大哥的女人| 久久久成人免费电影| 日韩欧美精品免费久久| a级一级毛片免费在线观看| 日韩人妻高清精品专区| 午夜亚洲福利在线播放| 亚洲国产成人一精品久久久| 日本-黄色视频高清免费观看| 亚洲18禁久久av| 午夜爱爱视频在线播放| 97超碰精品成人国产| 欧美日韩在线观看h| 久久精品久久精品一区二区三区| 伊人久久国产一区二区| 久久久亚洲精品成人影院| 成人漫画全彩无遮挡| 免费看日本二区| 亚洲色图av天堂| 免费av毛片视频| 亚洲四区av| 99久久精品一区二区三区| 婷婷色麻豆天堂久久| 综合色丁香网| videos熟女内射| 人妻夜夜爽99麻豆av| 91久久精品国产一区二区三区| 国产亚洲一区二区精品| 午夜免费观看性视频| 熟妇人妻久久中文字幕3abv| 伊人久久精品亚洲午夜| 天堂俺去俺来也www色官网 | 国产精品麻豆人妻色哟哟久久 | 亚洲熟妇中文字幕五十中出| 夫妻午夜视频| 最近中文字幕高清免费大全6| 国模一区二区三区四区视频| 精品人妻熟女av久视频| 久久久久久久大尺度免费视频| 在线观看人妻少妇| 久久精品熟女亚洲av麻豆精品 | 亚洲一级一片aⅴ在线观看| 国产亚洲最大av| 日韩av在线大香蕉| 一级黄片播放器| 成年女人在线观看亚洲视频 | 一级二级三级毛片免费看| 如何舔出高潮| 边亲边吃奶的免费视频| 校园人妻丝袜中文字幕| 亚洲av成人精品一区久久| 久久久亚洲精品成人影院| 舔av片在线| 午夜爱爱视频在线播放| 成人鲁丝片一二三区免费| 亚洲国产欧美在线一区| 一级毛片久久久久久久久女| 国产麻豆成人av免费视频| a级一级毛片免费在线观看| 寂寞人妻少妇视频99o| 国产黄色免费在线视频| 五月玫瑰六月丁香| 国产精品久久久久久av不卡| 91精品国产九色| 亚洲性久久影院| 男人舔奶头视频| 国产精品爽爽va在线观看网站| 日本av手机在线免费观看| 最近手机中文字幕大全| 国产片特级美女逼逼视频| 国产一级毛片在线| 九九爱精品视频在线观看| 特级一级黄色大片| 午夜日本视频在线| 亚洲av成人精品一二三区| 免费看美女性在线毛片视频| 久久久久九九精品影院| 蜜桃亚洲精品一区二区三区| 国产伦在线观看视频一区| 日本wwww免费看| 亚洲av免费高清在线观看| 日日摸夜夜添夜夜添av毛片| 97超视频在线观看视频| 亚洲精品中文字幕在线视频 | 免费播放大片免费观看视频在线观看| 狂野欧美白嫩少妇大欣赏| 少妇熟女aⅴ在线视频| 亚洲av免费在线观看| 日韩一区二区三区影片| 老司机影院毛片| 久久久久久国产a免费观看| 国产精品伦人一区二区| 两个人的视频大全免费| 色播亚洲综合网| 成年女人在线观看亚洲视频 | 色播亚洲综合网| 国产色婷婷99| 久久这里只有精品中国| 亚洲一区高清亚洲精品| 男的添女的下面高潮视频| 免费观看性生交大片5| 久久久久久久亚洲中文字幕| 少妇被粗大猛烈的视频| 久久精品国产亚洲网站| 亚洲成人av在线免费| 色综合站精品国产| 又爽又黄a免费视频| 男人舔奶头视频| 亚洲婷婷狠狠爱综合网| 欧美人与善性xxx| 菩萨蛮人人尽说江南好唐韦庄| 国产美女午夜福利| .国产精品久久| 激情五月婷婷亚洲| 国产成人精品一,二区| 国产午夜精品久久久久久一区二区三区| 丰满少妇做爰视频| 91狼人影院| 久久久久久久久久黄片| 亚洲久久久久久中文字幕| 一区二区三区高清视频在线| 97热精品久久久久久| 人人妻人人看人人澡| 日韩中字成人| 国产精品美女特级片免费视频播放器| 在线天堂最新版资源| 成人漫画全彩无遮挡| 国产亚洲av片在线观看秒播厂 | 国产精品一区www在线观看| 久久鲁丝午夜福利片| 中文精品一卡2卡3卡4更新| 亚洲一区高清亚洲精品| 国产乱人视频| 亚洲高清免费不卡视频| 日韩在线高清观看一区二区三区| 精品午夜福利在线看| 久热久热在线精品观看| 久久热精品热| 午夜福利视频1000在线观看| 国产黄片美女视频| 舔av片在线| 日本一本二区三区精品| 日韩不卡一区二区三区视频在线| 秋霞在线观看毛片| 边亲边吃奶的免费视频| 美女cb高潮喷水在线观看| 亚洲在久久综合| 亚洲熟妇中文字幕五十中出| 中文字幕人妻熟人妻熟丝袜美| 黄片无遮挡物在线观看| 简卡轻食公司| 国产男女超爽视频在线观看| 久久97久久精品| 秋霞伦理黄片| 亚洲av福利一区| 久久久久久久国产电影| 久久国产乱子免费精品| 99热这里只有是精品在线观看| 免费观看在线日韩| 亚洲婷婷狠狠爱综合网| 精品酒店卫生间| 91久久精品国产一区二区三区| 最近最新中文字幕大全电影3| 亚洲精品第二区| 一个人看的www免费观看视频| or卡值多少钱| 国产伦精品一区二区三区四那| 最新中文字幕久久久久| 成人av在线播放网站| av天堂中文字幕网| 偷拍熟女少妇极品色| 啦啦啦韩国在线观看视频| 搡女人真爽免费视频火全软件| 免费在线观看成人毛片| 大话2 男鬼变身卡| 国产亚洲av嫩草精品影院| 久久鲁丝午夜福利片| 激情五月婷婷亚洲| 日本三级黄在线观看| 国产黄频视频在线观看| 麻豆乱淫一区二区| 1000部很黄的大片| 国产精品熟女久久久久浪| 色综合色国产| 69人妻影院| 免费av观看视频| xxx大片免费视频| 直男gayav资源| 哪个播放器可以免费观看大片| 乱系列少妇在线播放| 国产av码专区亚洲av| 久久99热这里只频精品6学生| 少妇的逼水好多| 97超视频在线观看视频| 亚洲av在线观看美女高潮| 亚洲成人精品中文字幕电影| 三级国产精品片| 中文天堂在线官网| 国产精品久久久久久精品电影小说 | 嘟嘟电影网在线观看| 男女边摸边吃奶| 久久久色成人| 亚洲av日韩在线播放| 欧美日韩国产mv在线观看视频 | 日日摸夜夜添夜夜添av毛片| 搡老乐熟女国产| 免费观看精品视频网站| 亚洲av成人av| 国产淫语在线视频| 日韩av免费高清视频| 日日啪夜夜爽| 美女国产视频在线观看| 亚洲国产精品国产精品| 九九久久精品国产亚洲av麻豆| 国产单亲对白刺激| 国产 一区精品| 国产中年淑女户外野战色| 午夜福利网站1000一区二区三区| 国产老妇伦熟女老妇高清| 亚洲成人av在线免费| 国产免费视频播放在线视频 | xxx大片免费视频| 狠狠精品人妻久久久久久综合| 永久免费av网站大全| 青春草亚洲视频在线观看| 久久久a久久爽久久v久久| 亚洲怡红院男人天堂| 亚洲国产成人一精品久久久| 免费观看a级毛片全部| 麻豆乱淫一区二区| 亚洲真实伦在线观看| 熟女人妻精品中文字幕| 久久久久久九九精品二区国产| 禁无遮挡网站| 欧美xxⅹ黑人| 在线 av 中文字幕| 欧美日韩一区二区视频在线观看视频在线 | 国产国拍精品亚洲av在线观看| av黄色大香蕉| 国产成人免费观看mmmm| 久久久a久久爽久久v久久| 亚洲伊人久久精品综合| 老师上课跳d突然被开到最大视频| 又大又黄又爽视频免费| 狠狠精品人妻久久久久久综合| 美女大奶头视频| 久久99热6这里只有精品| 国产黄色免费在线视频| 久久99热6这里只有精品| 亚洲精品视频女| 人妻少妇偷人精品九色| 国产乱人视频| 99热全是精品| 婷婷色麻豆天堂久久| 国产麻豆成人av免费视频| 久久久久久九九精品二区国产| 在线 av 中文字幕| 国产精品综合久久久久久久免费| 最近2019中文字幕mv第一页| 亚洲精品久久久久久婷婷小说| 亚洲人与动物交配视频| 亚洲av中文av极速乱| 精品人妻熟女av久视频| 日日啪夜夜撸| 超碰97精品在线观看| 免费看a级黄色片| 少妇熟女欧美另类| 日本与韩国留学比较| 青春草国产在线视频| 神马国产精品三级电影在线观看| 99热全是精品| 国产 一区精品| 免费看av在线观看网站| 少妇被粗大猛烈的视频| 99久久人妻综合| 久久99热这里只有精品18| av线在线观看网站| 亚洲伊人久久精品综合| 男女那种视频在线观看| 国产精品一区二区三区四区久久| 日韩一区二区视频免费看| 少妇的逼好多水| 日韩视频在线欧美| 久久精品综合一区二区三区| 91精品一卡2卡3卡4卡| 狂野欧美激情性xxxx在线观看| 少妇的逼水好多| or卡值多少钱| 不卡视频在线观看欧美| 男女视频在线观看网站免费| 夫妻性生交免费视频一级片| 好男人视频免费观看在线| 最近中文字幕2019免费版| 亚洲va在线va天堂va国产| 欧美区成人在线视频| 午夜免费激情av| 夜夜看夜夜爽夜夜摸| 禁无遮挡网站| 精品人妻偷拍中文字幕| 久久人人爽人人片av| 久久99精品国语久久久| 中文字幕亚洲精品专区| 美女国产视频在线观看| 精品一区二区三卡| 国产精品三级大全| 日日摸夜夜添夜夜添av毛片| 成人午夜高清在线视频| 国产老妇女一区| 婷婷色综合www| 午夜福利在线观看免费完整高清在| 国产亚洲精品久久久com| 国产精品久久久久久久电影| 欧美zozozo另类| 国产亚洲av片在线观看秒播厂 | 亚洲天堂国产精品一区在线| 汤姆久久久久久久影院中文字幕 | 人妻制服诱惑在线中文字幕| 亚洲av电影在线观看一区二区三区 | 亚洲精品成人av观看孕妇| 美女脱内裤让男人舔精品视频| 精品一区在线观看国产| 欧美 日韩 精品 国产| 成人毛片60女人毛片免费| 欧美日韩国产mv在线观看视频 | 能在线免费看毛片的网站| 亚洲,欧美,日韩| 97在线视频观看| av在线老鸭窝| 精品一区二区免费观看| 特大巨黑吊av在线直播| 婷婷色麻豆天堂久久| 男人爽女人下面视频在线观看| 成人亚洲欧美一区二区av| 亚洲欧美日韩卡通动漫| 尾随美女入室| 少妇的逼好多水| 亚洲av免费在线观看| 亚洲国产成人一精品久久久| 日韩一本色道免费dvd| 久久午夜福利片| 色5月婷婷丁香| 听说在线观看完整版免费高清| 成人一区二区视频在线观看| 国产亚洲91精品色在线| 日韩视频在线欧美| 精品国产三级普通话版| 青春草国产在线视频| 精品一区二区三区人妻视频| 国模一区二区三区四区视频| 国产成人精品福利久久| 一级二级三级毛片免费看| 亚洲在线观看片| 国产精品一及| 亚洲成人久久爱视频| 亚洲av日韩在线播放| 男人爽女人下面视频在线观看| 两个人的视频大全免费| 中文乱码字字幕精品一区二区三区 | 麻豆久久精品国产亚洲av| 亚洲婷婷狠狠爱综合网| 亚洲性久久影院| 视频中文字幕在线观看| 熟妇人妻久久中文字幕3abv| 淫秽高清视频在线观看| 国产欧美日韩精品一区二区| 久久久久久伊人网av| 91精品国产九色| 国产黄频视频在线观看| 日韩亚洲欧美综合| 一级毛片黄色毛片免费观看视频| 男女视频在线观看网站免费| 黄色配什么色好看| 国产综合精华液| 天堂av国产一区二区熟女人妻| 汤姆久久久久久久影院中文字幕 | 国产午夜精品一二区理论片| 日韩视频在线欧美| 亚洲激情五月婷婷啪啪| 国产老妇伦熟女老妇高清| 亚洲欧美一区二区三区黑人 | 欧美zozozo另类| 欧美人与善性xxx| 国产精品爽爽va在线观看网站| av在线亚洲专区| 亚洲欧洲日产国产| 日韩电影二区| 丰满人妻一区二区三区视频av| 久久久久久久国产电影| 日韩欧美 国产精品| 最近2019中文字幕mv第一页| 男女边摸边吃奶| 国产黄色视频一区二区在线观看| 免费观看在线日韩| 日韩欧美精品免费久久| 三级男女做爰猛烈吃奶摸视频| av在线天堂中文字幕| 97超碰精品成人国产| 久久99热这里只频精品6学生| 免费观看精品视频网站| 亚洲国产欧美在线一区| 中文字幕久久专区| xxx大片免费视频| 十八禁国产超污无遮挡网站| 七月丁香在线播放| 久久久a久久爽久久v久久| 一级片'在线观看视频| 欧美一级a爱片免费观看看| 亚洲自偷自拍三级| 成人一区二区视频在线观看| xxx大片免费视频| 最近最新中文字幕大全电影3| 精品久久久久久电影网| 久久久久久久久久久丰满| 成人国产麻豆网| 国产久久久一区二区三区| 又大又黄又爽视频免费| 欧美日韩亚洲高清精品| 亚洲精品日韩av片在线观看| 欧美丝袜亚洲另类| 久久久午夜欧美精品| 午夜激情欧美在线| 男女啪啪激烈高潮av片| 乱系列少妇在线播放| 一区二区三区高清视频在线| 人妻少妇偷人精品九色| 97人妻精品一区二区三区麻豆| 国产 一区 欧美 日韩| 最近视频中文字幕2019在线8| 免费无遮挡裸体视频| 亚洲精品日本国产第一区| 美女大奶头视频| 亚洲av成人精品一区久久| 国产精品女同一区二区软件| 欧美日韩一区二区视频在线观看视频在线 | 午夜福利视频精品| 国产爱豆传媒在线观看| 中文字幕免费在线视频6| 2018国产大陆天天弄谢| 大香蕉久久网| 亚洲欧美一区二区三区国产| 婷婷六月久久综合丁香| 午夜免费男女啪啪视频观看| 能在线免费看毛片的网站| 午夜福利在线在线| 亚洲天堂国产精品一区在线| 一级二级三级毛片免费看| 在线天堂最新版资源| 国产视频内射| 日韩三级伦理在线观看| 国产成人freesex在线| 国产精品嫩草影院av在线观看| 黄片无遮挡物在线观看| 精品久久久噜噜| 日韩成人av中文字幕在线观看| 亚洲第一区二区三区不卡| 亚洲一区高清亚洲精品| 亚洲国产欧美在线一区| 岛国毛片在线播放| 乱系列少妇在线播放| 久久这里只有精品中国| 人人妻人人看人人澡| av国产久精品久网站免费入址| 亚洲av国产av综合av卡| 高清在线视频一区二区三区| 美女xxoo啪啪120秒动态图| 九九在线视频观看精品| 国产单亲对白刺激| 又粗又硬又长又爽又黄的视频| 岛国毛片在线播放| 51国产日韩欧美| www.色视频.com| 亚洲无线观看免费| 精品欧美国产一区二区三| 少妇被粗大猛烈的视频| 午夜视频国产福利| 最后的刺客免费高清国语| av播播在线观看一区| 亚洲在线观看片| 丝袜美腿在线中文| 日韩精品青青久久久久久| 中文在线观看免费www的网站| 亚洲av一区综合| 身体一侧抽搐| 亚洲精品国产av蜜桃| 男女边吃奶边做爰视频| 黄色日韩在线| 国产69精品久久久久777片| 五月玫瑰六月丁香| 伦理电影大哥的女人| 秋霞在线观看毛片| 久久久久久久久久黄片| 大香蕉久久网| 久久精品国产亚洲网站| 国产一区亚洲一区在线观看| 国产精品一区二区三区四区免费观看| 亚洲欧美一区二区三区国产| 一级毛片 在线播放| 内射极品少妇av片p| 国产精品久久久久久精品电影小说 | 人人妻人人澡人人爽人人夜夜 | 男的添女的下面高潮视频| 久久久久久久久久久丰满| 久久综合国产亚洲精品| 国产精品一区二区性色av| 高清毛片免费看| av在线天堂中文字幕| 国产免费一级a男人的天堂| 成年av动漫网址| 舔av片在线| 成人毛片60女人毛片免费| 色尼玛亚洲综合影院| 午夜亚洲福利在线播放| 22中文网久久字幕| 在线观看人妻少妇| 女人十人毛片免费观看3o分钟| 神马国产精品三级电影在线观看| 99热这里只有是精品50| 男女视频在线观看网站免费| 日本与韩国留学比较| 久久精品熟女亚洲av麻豆精品 | 99久久九九国产精品国产免费| 非洲黑人性xxxx精品又粗又长| 国产精品人妻久久久影院| 一个人看的www免费观看视频| 欧美3d第一页| 麻豆国产97在线/欧美|