• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向自然語言處理任務(wù)的預(yù)訓(xùn)練模型綜述

    2021-07-02 00:35:18劉睿珩岳增營(yíng)
    計(jì)算機(jī)應(yīng)用 2021年5期
    關(guān)鍵詞:文本語言信息

    劉睿珩,葉 霞,岳增營(yíng)

    (火箭軍工程大學(xué)作戰(zhàn)保障學(xué)院,西安 710025)

    (*通信作者電子郵箱1197165894@qq.com)

    0 引言

    自然語言處理(Natural Language Processing,NLP)的研究結(jié)合了人工智能、語言學(xué)和數(shù)學(xué)等領(lǐng)域的相關(guān)知識(shí),旨在讓機(jī)器能夠理解人類的語言。近年來,隨著人工智能領(lǐng)域飛速發(fā)展,特別是在深度學(xué)習(xí)技術(shù)的支持下,NLP的發(fā)展取得了巨大的進(jìn)步,其任務(wù)的劃分也更加細(xì)致,如詞性標(biāo)注、文本分類、情感分析、機(jī)器翻譯、共指消解等。在這些任務(wù)中,預(yù)訓(xùn)練技術(shù)的發(fā)展起到了至關(guān)重要的作用。

    預(yù)訓(xùn)練模型為解決深度神經(jīng)網(wǎng)絡(luò)中大規(guī)模參數(shù)學(xué)習(xí)問題提供了一種有效的方案,這種方法最早使用在計(jì)算機(jī)視覺(Computer Vision,CV)領(lǐng)域,其核心思想是先在大數(shù)據(jù)集上對(duì)深層次的神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練得到模型參數(shù),然后將這些訓(xùn)練好的模型運(yùn)用到各種具體的下游任務(wù)以避免從頭開始訓(xùn)練并且減少對(duì)標(biāo)注數(shù)據(jù)的需要,結(jié)果表明,模型的性能得到了顯著提高。隨著NLP 領(lǐng)域研究的不斷深入,在大型語料庫上進(jìn)行預(yù)訓(xùn)練也被證明能夠有助于下游任務(wù)。

    預(yù)訓(xùn)練技術(shù)在本質(zhì)上運(yùn)用了遷移學(xué)習(xí)[1]的思想,將在相關(guān)領(lǐng)域數(shù)據(jù)集中學(xué)習(xí)到的先驗(yàn)語言知識(shí),遷移到目標(biāo)領(lǐng)域,以改進(jìn)不同目標(biāo)任務(wù)的學(xué)習(xí)效果。在現(xiàn)代自然語言處理任務(wù)中,用大規(guī)模語料庫進(jìn)行無監(jiān)督訓(xùn)練得到的詞的分布式表示[2-3]被廣泛使用,其中以Word2Vec(Word to Vector)[2]為典型代表的方法實(shí)現(xiàn)了在低維條件下用稠密向量對(duì)詞進(jìn)行表示,降低了計(jì)算成本的同時(shí)提高了表示精度。但是這種方法僅對(duì)詞進(jìn)行單個(gè)全局表示,提取淺層文本表征,卻忽略了它們的上下文,因此無法在不同語境下對(duì)詞的句法和語義特征進(jìn)行有效表示。隨后ELMo(Embeddings from Language Model)[4]采用雙向長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)對(duì)語言模型實(shí)現(xiàn)了基于上下文的詞嵌入表示,并顯著提高了模型在下游任務(wù)的性能。直到Google 在Transformer[5]中引入了注意力機(jī)制,為之后的 BERT(Bidirectional Encoder Representations from Transformers)[6]和GPT(Generative Pre-Training)[7]等深層次預(yù)訓(xùn)練模型的出現(xiàn)奠定了重要基礎(chǔ),使得預(yù)訓(xùn)練技術(shù)的發(fā)展迎來了一個(gè)高潮。自此,NLP 任務(wù)已經(jīng)越來越離不開預(yù)訓(xùn)練技術(shù)。

    1 文本特征提取技術(shù)的發(fā)展

    預(yù)訓(xùn)練技術(shù)是利用大型語料庫學(xué)習(xí)通用語義表示的新方法,其核心離不開語義表示技術(shù)的發(fā)展。傳統(tǒng)的基于詞袋模型的文本特征提取方法,如One-Hot 編碼對(duì)詞進(jìn)行符號(hào)化處理,即用數(shù)字編碼來表示詞語,在其向量表示中只有一個(gè)維度上的值為1,其余各維均是0。該方法雖然能夠簡(jiǎn)單穩(wěn)定地提取詞特征,但無法表示詞與詞之間的相對(duì)位置關(guān)系,并且產(chǎn)生很高的詞向量維數(shù)導(dǎo)致表示非常稀疏,同時(shí)還無法涵蓋有效的語義信息,不能體現(xiàn)詞之間的語義相似度;n-gram 算法和共現(xiàn)矩陣的出現(xiàn)雖然緩解了區(qū)分詞序的問題,但還是面臨著維數(shù)災(zāi)難所帶來的計(jì)算量過大的困擾。隨著統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)模型在自然語言處理任務(wù)中的應(yīng)用,分布式假說為進(jìn)一步優(yōu)化文本特征提取方法提供了新的理論基礎(chǔ),通過結(jié)合神經(jīng)網(wǎng)絡(luò)和語言模型,詞的分布式表示使得許多NLP 任務(wù)取得了巨大的突破。

    本章將文本特征提取技術(shù)的發(fā)展大致劃分為兩個(gè)階段:詞級(jí)表示和文檔級(jí)表示,不同之處在于其產(chǎn)生的詞向量是否能夠根據(jù)上下文語境的變化而動(dòng)態(tài)改變。

    1.1 詞級(jí)表示

    詞級(jí)表示作為一種詞的分布式表示方法,通過描述目標(biāo)詞與其鄰近詞之間的關(guān)系從而建立模型,從而包含更加豐富的語義信息。

    為解決One-Hot 編碼產(chǎn)生的維度災(zāi)難等諸多問題,起初的做法是設(shè)計(jì)一個(gè)窗口,根據(jù)窗口大小羅列出所有單詞的組合關(guān)系;然后統(tǒng)計(jì)每個(gè)組合關(guān)系在語料庫中出現(xiàn)的次數(shù);最終通過一個(gè)矩陣來存儲(chǔ)單詞之間的共現(xiàn)關(guān)系。由于共現(xiàn)矩陣的維度依然受到語料庫中句子長(zhǎng)度的影響,因此考慮采用奇異值分解(Singular Value Decomposition,SVD)的方法對(duì)遍歷語料庫后得到的共現(xiàn)矩陣進(jìn)行處理,通過選擇部分奇異向量提取子矩陣,從而實(shí)現(xiàn)維度的降低。但這種方法也面臨著許多問題:一方面,共現(xiàn)矩陣的維度往往會(huì)隨著語料庫大小的變化而變化,不易進(jìn)行統(tǒng)一處理;另一方面,由于語料庫中的大部分詞并不存在共現(xiàn)關(guān)系,從而導(dǎo)致共現(xiàn)矩陣非常稀疏,而SVD方法的計(jì)算復(fù)雜度一般較高,使得處理矩陣的效率十分低下。

    神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model,NNLM)[8]將語言模型與神經(jīng)網(wǎng)絡(luò)相結(jié)合。一方面,通過n-gram 方法對(duì)輸入語言模型的長(zhǎng)文本信息進(jìn)行簡(jiǎn)化處理,使得在對(duì)條件概率進(jìn)行估算時(shí),忽略距離長(zhǎng)度大于n的詞信息。同時(shí),不同于傳統(tǒng)語言模型,它在詞語表示上采用低維詞向量來代替One-Hot 向量,因此當(dāng)遇到語義相近的上文信息時(shí),該模型依然能夠?qū)δ繕?biāo)詞進(jìn)行相似的預(yù)測(cè)。另一方面,該方法將各詞詞向量按照順序進(jìn)行拼接,并直接送入前饋神經(jīng)網(wǎng)絡(luò),保留了一定的順序信息。

    由于NNLM 在前饋神經(jīng)網(wǎng)絡(luò)中使用了全連接結(jié)構(gòu),因此只能處理定長(zhǎng)的文本信息。針對(duì)此問題,循環(huán)神經(jīng)網(wǎng)絡(luò)語言模 型(Recurrent Neural Network based Language Model,RNNLM)[9-10]不再使用n-gram 方法對(duì)語言模型進(jìn)行簡(jiǎn)化,而是采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)替代前饋神經(jīng)網(wǎng)絡(luò),并直接優(yōu)化語言模型條件概率。在預(yù)測(cè)目標(biāo)詞時(shí)通過迭代的方式獲取所有上文信息,使得模型能夠處理長(zhǎng)度變化的文本序列。除此之外,該方法相較于NNLM 還能夠獲取更為豐富的上文信息。

    在之前的研究中,由于語言模型的引入,神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)始終為預(yù)測(cè)詞概率分布最大化,因此詞向量?jī)H僅是一種副產(chǎn)物。不同于NNLM 和RNNLM 的方法,C&W 模型[11]不再采用語言模型的條件概率思想,而是直接以學(xué)習(xí)和優(yōu)化詞向量為目標(biāo),為了更快地得到詞向量,該方法根據(jù)短語出現(xiàn)的頻率,通過打分的方式評(píng)價(jià)每一個(gè)n元短語,并最大化正例和反例的得分差。因此,避免了復(fù)雜的條件概率和歸一化計(jì)算,具有更低的時(shí)間計(jì)算復(fù)雜度。Word2Vec 在前期工作的基礎(chǔ)上,采用分布式思想并利用淺層神經(jīng)網(wǎng)絡(luò)從大規(guī)模無標(biāo)注數(shù)據(jù)集中學(xué)習(xí)詞向量表示,在縮短了計(jì)算時(shí)間的同時(shí)獲得了更好的句法規(guī)則和細(xì)粒度語義。該方法主要包含Continuous Bag-Of-Words(CBOW)和Skip-Gram(SG)兩種算法,如圖1所示。

    圖1 Word2Vec模型結(jié)構(gòu)Fig.1 Structure of Word2Vec model

    CBOW 采用了類似NNLM 的方法,其核心思想是根據(jù)中心詞附近的上下文詞來預(yù)測(cè)中心詞的詞向量,即先輸入上下文詞向量,然后在中間層進(jìn)行簡(jiǎn)單的向量求和,最后再輸出最有可能的詞向量。SG 與CBOW 類似,是根據(jù)中心詞來預(yù)測(cè)其周圍上下文詞的詞向量。與之前基于神經(jīng)網(wǎng)絡(luò)的模型相比,這兩種算法簡(jiǎn)化了模型架構(gòu)中的隱藏層,大大提高了模型的計(jì)算速率,除此之外,在預(yù)測(cè)目標(biāo)詞時(shí)兩種算法還融入了周圍詞語的信息,考慮了上下文環(huán)境。

    在訓(xùn)練方法上,為解決輸出層Softmax 計(jì)算開銷過大問題,采取了負(fù)采樣(Negative Sampling)和層級(jí)Softmax(Hierarchical Softmax)[12]兩種方式。負(fù)采樣方法結(jié)合了C&W模型中建立負(fù)樣本和基于向量的逆語言模型(inverse vector Log-Bilinear Language model,ivLBL)[13]中的噪聲對(duì)比評(píng)估方法。首先通過計(jì)算與中心詞的余弦相似度,從上下文中確定正樣本;然后在語料庫中根據(jù)詞頻從非上下文中選取負(fù)樣本,最后設(shè)計(jì)了一個(gè)最優(yōu)函數(shù),使正樣本似然函數(shù)達(dá)到最大的同時(shí),負(fù)樣本似然函數(shù)達(dá)到最小,通過利用這種負(fù)采樣方法產(chǎn)生的新數(shù)據(jù)集,使得歸一化概率分布的計(jì)算得到了大幅簡(jiǎn)化。由于傳統(tǒng)的Softmax 函數(shù)在對(duì)歸一化項(xiàng)進(jìn)行處理時(shí)需要計(jì)算每個(gè)分量的值,因此占用了大量的計(jì)算資源,層級(jí)Softmax[12]本質(zhì)上作為一種近似于Softmax 的方法,通過構(gòu)造一種類似于哈夫曼樹的結(jié)構(gòu),減少了每個(gè)分量概率值的計(jì)算次數(shù),降低計(jì)算復(fù)雜度的量級(jí),從而節(jié)約了計(jì)算時(shí)間。

    Word2Vec 實(shí)現(xiàn)了詞向量的低維稠密表示,不僅包含了更豐富的語義信息,同時(shí)還具有較高的計(jì)算速率,有效地提升下游任務(wù)的性能,此后很多模型都受到了它的啟發(fā),如用于文本分類和詞向量生成的Fast-Text[14],它除了能在保持高精度的條件下快速實(shí)現(xiàn)文本分類,還能完成詞向量學(xué)習(xí)任務(wù)。該模型采用一種類似于CBOW 的模型架構(gòu),利用上下文信息來預(yù)測(cè)標(biāo)簽,但其不同之處在于,Word2Vec 中的每個(gè)單詞擁有一個(gè)獨(dú)立的詞向量表示,在處理稀有詞和生詞時(shí),語料庫中的相關(guān)詞語信息便很少或者不存在,因此對(duì)于這類詞向量的生成存在困難,而Fast-Text 通過采用n-gram 的方法可以從其他單詞的共享部分中構(gòu)造稀有詞或者生詞的詞向量表示,同時(shí)這種關(guān)聯(lián)相鄰詞語的方法還能在模型訓(xùn)練時(shí)融入詞序信息,從而提升詞向量的表示效果。為了提升模型的運(yùn)算效率,F(xiàn)ast-Text 同樣采用層級(jí)Softmax 的方法對(duì)標(biāo)簽進(jìn)行編碼,以減少模型預(yù)測(cè)的標(biāo)簽數(shù)量。

    雖然Word2Vec在預(yù)測(cè)中心詞時(shí)能夠考慮到上下文環(huán)境,但是這種上下文信息僅僅是局部的,很難結(jié)合文本的全局特征。針對(duì)這個(gè)問題,不同于基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的模型,GloVe(Global Vectors for word representation)[3]采用基于矩陣的統(tǒng)計(jì)建模方法,首先遍歷整個(gè)語料庫得到共現(xiàn)矩陣以表示詞與詞之間的相關(guān)性;然后在對(duì)共現(xiàn)矩陣進(jìn)行降維重構(gòu)時(shí),只考慮共現(xiàn)次數(shù)非零的元素,同時(shí)在任務(wù)設(shè)計(jì)上對(duì)矩陣中的行和列加入了偏移項(xiàng),并通過設(shè)計(jì)加權(quán)函數(shù)遏制低頻共現(xiàn)詞產(chǎn)生的噪聲影響。相較于Word2Vec,該方法的速度更快,并且由于結(jié)合了全局文本特征,產(chǎn)生的詞向量表示能夠包含更多的語義信息,如表1 所示,GloVe 在單詞類比、命名實(shí)體識(shí)別、單詞相似性判斷等任務(wù)上與三種在共現(xiàn)矩陣降維上采取不同策略的SVD方法,以及Word2Vec中的兩種方法相比有明顯的提升。

    表1 GloVe與其他模型在不同任務(wù)上的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.1 Experimental results comparison of GloVe and other models on different tasks unit:%

    詞級(jí)表示的方法在大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練得到詞向量,從而提升了模型在下游任務(wù)的表現(xiàn);但這種預(yù)訓(xùn)練過程往往可以看作是一種對(duì)語料進(jìn)行的預(yù)處理,僅能獲得詞與詞之間的淺層關(guān)系。同時(shí),這種方式得到的詞向量始終是固定不變的,無法根據(jù)不同的下游任務(wù)進(jìn)行靈活改變,也不能處理遇到新詞和一詞多義情況,缺乏針對(duì)性??梢钥闯?,詞級(jí)表示方法包含的語義信息十分有限。

    1.2 文檔級(jí)表示

    文檔級(jí)語義表示超越了詞級(jí)范疇,通過輸入整個(gè)句子或文檔序列,在語言模型上進(jìn)行預(yù)訓(xùn)練,根據(jù)不同語境動(dòng)態(tài)地提取文本序列的句法規(guī)則和語義特征。

    假設(shè)一個(gè)語料庫中的文本表示為(t1,t2,…,tN),用詞級(jí)表示方法可以得到文本序列中每個(gè)ti對(duì)應(yīng)的向量,而文檔級(jí)表示方法就是將每個(gè)與輸入的整個(gè)序列通過函數(shù)f相關(guān)聯(lián)求得,即:

    文檔級(jí)表示方法不僅利用了詞級(jí)表示生成的詞向量,還將預(yù)訓(xùn)練技術(shù)運(yùn)用于更復(fù)雜的語言模型,獲取更高級(jí)的語義表示,如ELMo、GPT、BERT 等都采用了這種思想。采用文檔級(jí)表示方法的預(yù)訓(xùn)練模型,在文本分類、問答系統(tǒng)、摘要生成等眾多NLP 任務(wù)上取得了突破性效果,如今這種方法也成為了研究預(yù)訓(xùn)練技術(shù)的一種主流趨勢(shì)。

    從文檔級(jí)表示內(nèi)容的范圍上看,還可以將其大致劃分為局部文本信息和全局文本信息。

    1.2.1 局部文本信息

    一般是通過捕獲局部上下文信息生成詞向量表示,典型的預(yù)訓(xùn)練技術(shù)主要采用語言模型的方法。在提取語言特征時(shí),大多基于以下技術(shù):卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)等。

    CNN 能夠結(jié)合文本序列位置信息,通過池化層獲取最有用的文本且訓(xùn)練速度較快,但其獲取信息能力的大小取決于卷積核窗口長(zhǎng)度,因此捕獲能力有限,只適用于局部文本[15],不能很好地解決長(zhǎng)期依賴問題,而且池化操作不利于序列位置信息的傳遞。RNN 根據(jù)時(shí)間序列逐詞處理文本信息,通過隱藏節(jié)點(diǎn)來傳遞前文短期記憶,其結(jié)構(gòu)簡(jiǎn)單、符合語言習(xí)慣,天然適合NLP 任務(wù),但該結(jié)構(gòu)在訓(xùn)練長(zhǎng)序列文本時(shí)很容易出現(xiàn)梯度消失或梯度爆炸現(xiàn)象,優(yōu)化較為困難。除此之外,RNN在計(jì)算過程中,當(dāng)前節(jié)點(diǎn)的計(jì)算必須依賴于前一個(gè)時(shí)間序列的隱藏節(jié)點(diǎn),不便于并行計(jì)算,導(dǎo)致效率低下。LSTM 和GRU(Gated Recurrent Unit)[16]則通過引入門控機(jī)制緩解了梯度消失和長(zhǎng)期依賴問題,但其本質(zhì)上還是基于RNN 的序列結(jié)構(gòu),很多問題并不能得到徹底解決。

    為捕獲上下文信息,很多模型采用雙向RNN[17]或雙向LSTM 結(jié)構(gòu),最終合并正向和反向結(jié)果。如ELMo 就是使用兩層雙向LSTM 用于編碼上下文以捕獲句法和語義特征,其結(jié)構(gòu)如圖2 所示,左側(cè)雙層LSTM 表示前向編碼器,按照從左至右的順序輸入上文預(yù)測(cè)下文;右側(cè)雙層LSTM 代表逆向編碼器,由右至左輸入下文預(yù)測(cè)上文,以此獲取上下文特征。預(yù)訓(xùn)練階段,ELMo利用語言模型獲得詞向量表示;在下游任務(wù)中,根據(jù)不同的上下文語境調(diào)整先前獲得的詞向量,以提高其準(zhǔn)確性和適應(yīng)能力。通過將預(yù)訓(xùn)練技術(shù)運(yùn)用于語言模型,有效地應(yīng)對(duì)了同一詞語在不同上下文場(chǎng)景中的一詞多義問題。

    圖2 ELMo模型結(jié)構(gòu)Fig.2 Structure of ELMo model

    ELMo能夠獲得不同語義場(chǎng)景下的詞向量表示,在問答系統(tǒng)、文本蘊(yùn)涵和情感分析等6個(gè)NLP 任務(wù)上有出色的表現(xiàn);同時(shí)這種先在大規(guī)模未標(biāo)記語料庫上進(jìn)行無監(jiān)督預(yù)訓(xùn)練,再對(duì)下游任務(wù)進(jìn)行特征提取的兩段式方法也為后續(xù)的相關(guān)研究打開了思路。

    由于ELMo 采用LSTM 架構(gòu),仍然存在計(jì)算效率低下等問題。除此之外,這種雙向模型的結(jié)果往往是通過聯(lián)合疊加正向和反向兩次單向過程得到的,無法同時(shí)獲取上下文信息。因此,通過局部上下文獲取的信息始終有限,容易產(chǎn)生局部誤差。

    1.2.2 全局文本信息

    不同于順序計(jì)算的思想,Attention 機(jī)制[17]為獲取全局文本信息提供了一種新思路,通過計(jì)算目標(biāo)詞與源文本每個(gè)詞之間的相似度作為權(quán)重系數(shù),對(duì)其進(jìn)行加權(quán)求和表示詞向量,實(shí)現(xiàn)關(guān)注和提取上下文重點(diǎn)信息。此類方法主要以Transformer為典型代表。

    Transformer 在Attention 的基礎(chǔ)上統(tǒng)一了目標(biāo)詞與源文本,提出Self-Attention 結(jié)構(gòu),并將疊加的Self-Attention 結(jié)構(gòu)與Multi-Head Attention 機(jī)制結(jié)合,能夠同時(shí)獲取上下文信息,解決了長(zhǎng)期依賴問題,還具備了并行計(jì)算的關(guān)鍵能力,在一定程度上證明了增加模型參數(shù)規(guī)??梢蕴嵘P托Ч?。因此這種架構(gòu)被之后的預(yù)訓(xùn)練模型廣泛使用,以對(duì)NLP 任務(wù)進(jìn)行更深層次的探究。雖然Transformer 解決了長(zhǎng)期依賴問題,在能夠獲取更多語義信息的同時(shí)還實(shí)現(xiàn)了并行計(jì)算;但是,隨著文本序列長(zhǎng)度的增加,全連接Attention 機(jī)制所需要的計(jì)算成本也越來越高。

    為降低Transformer 處理長(zhǎng)文本序列時(shí)的計(jì)算復(fù)雜度,多項(xiàng)研究提出了自己的改進(jìn)方法:Transformer-XL[18]在原模型的基礎(chǔ)上,引入了相對(duì)位置編碼以及分段RNN機(jī)制;Reformer[19]改進(jìn)了Transformer 中的Multi-Head Attention 機(jī)制,提出基于局 部 敏 感 哈 希(Locality Sensitive Hashing,LSH)的Self-Attention,并引入了RevNet(Reversible Residual Network)架構(gòu)[20];Longformer[21]提出一種由局部和全局兩個(gè)部分構(gòu)成的稀疏Self-Attention 結(jié)構(gòu)??傊琓ransformer 為預(yù)訓(xùn)練模型的底層架構(gòu)注入了強(qiáng)大的動(dòng)力,將文本特征提取提升到了一個(gè)新高度,同時(shí)也為之后的預(yù)訓(xùn)練模型的發(fā)展指明了一條新的道路,如GPT、BERT等都是其受益者。

    GPT 是一個(gè)典型基于單向Transformer 的預(yù)訓(xùn)練模型,其結(jié)構(gòu)如圖3 所示。首先,它驗(yàn)證了以多層Transformer 作為核心架構(gòu)進(jìn)行特征提取的效果要明顯優(yōu)于基于RNN 的序列結(jié)構(gòu),并證明了其在無監(jiān)督預(yù)訓(xùn)練任務(wù)上的性能;其次,該方法采用單向語言模型作為訓(xùn)練目標(biāo)任務(wù),通過上文信息來預(yù)測(cè)下文。與ELMo 的兩段式不同,它提出了一種半監(jiān)督學(xué)習(xí)方法,即先在大規(guī)模無標(biāo)記語料庫上進(jìn)行無監(jiān)督訓(xùn)練,在下游任務(wù)上,沒有進(jìn)行特征提取,而是以最后一層的詞向量作為后續(xù)任務(wù)的輸入并利用少量標(biāo)注語料進(jìn)行有監(jiān)督訓(xùn)練微調(diào)。同時(shí)它還為不同下游任務(wù)提出了統(tǒng)一的模型框架,僅需根據(jù)特定任務(wù)對(duì)輸入數(shù)據(jù)進(jìn)行相應(yīng)的轉(zhuǎn)換,避免了針對(duì)不同任務(wù)而設(shè)計(jì)復(fù)雜的下游模型。

    圖3 GPT模型結(jié)構(gòu)Fig.3 GPT model structure

    GPT 在 GLUE(General Language Understanding Evaluation)[22]的多個(gè)NLP 任務(wù)中均取得了state-of-the-art 結(jié)果,并且在小數(shù)據(jù)集上也表現(xiàn)出色。但其采用的單向的語言模型未能發(fā)揮出Transformer 的最佳效果,從一定程度上也制約著其性能的進(jìn)一步提升。

    BERT被Google部署到搜索引擎上以改進(jìn)搜索效果,其結(jié)構(gòu)如圖4 所示。它由多個(gè)雙向Transformer 編碼器層堆疊組成全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在嵌入時(shí)涵蓋了詞類、句法和位置等信息。相較于GPT 的單向語言模型,BERT 采用雙向方法,能夠從真正意義上同時(shí)捕獲上下文語境信息。

    圖4 BERT模型結(jié)構(gòu)Fig.4 BERT model structure

    BERT 采用與GPT 相同的“預(yù)訓(xùn)練+微調(diào)”兩段式思路。預(yù)訓(xùn)練主要包含Masked Language Modeling(MLM)和Next Sentence Prediction(NSP)兩個(gè)半監(jiān)督任務(wù)。MLM 類似于完形填空,隨機(jī)遮蓋住輸入的文本序列,然后利用其他序列的句法規(guī)則和語義信息預(yù)測(cè)這些詞。由于在微調(diào)階段不會(huì)對(duì)輸入文本進(jìn)行遮蓋操作,因此會(huì)引起預(yù)訓(xùn)練和微調(diào)階段的不一致性,為緩解這個(gè)問題,在選取的15%遮蓋詞中,對(duì)其中80%的詞進(jìn)行真正的遮蓋,10%的詞進(jìn)行隨機(jī)替換,最后10%的詞保持不變。由于從詞粒度上無法判斷兩個(gè)句子之間的關(guān)系,NSP任務(wù)從句子層面預(yù)測(cè)兩個(gè)輸入是否相鄰。在該任務(wù)中,通過隨機(jī)抽取文檔中兩個(gè)相鄰句子構(gòu)建正樣本,而負(fù)樣本則隨機(jī)抽取不相鄰的句子。文獻(xiàn)[23]研究表明,BERT 通過預(yù)訓(xùn)練,有助于微調(diào)下游任務(wù)時(shí)找到更寬、更平坦的區(qū)域,且泛化誤差較小。因此,在處理過擬合問題上表現(xiàn)更好。

    預(yù)訓(xùn)練模型BERT一經(jīng)推出,就刷新了11項(xiàng)NLP任務(wù),取得state-of-the-art結(jié)果,表2給出了BERT[6]與其他模型在GLUE任務(wù)上的實(shí)驗(yàn)對(duì)比,共包括9 個(gè)自然語言理解(Natural Language Understanding,NLU)任務(wù),結(jié)果表明,采用全局文本信息方法的性能明顯優(yōu)于局部文本信息的方法??梢哉fBERT 是集前期研究成果大成之作,“預(yù)訓(xùn)練+微調(diào)”的兩段式方法也成為處理大多數(shù)NLP 任務(wù)的主流方式,從一定意義上看,BERT開啟了NLP領(lǐng)域的一個(gè)新時(shí)代。

    表2 不同模型在GLUE任務(wù)上的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.2 Experimental results comparison of different models on GLUE tasks unit:%

    2 預(yù)訓(xùn)練模型研究現(xiàn)狀

    BERT 的問世引起了NLP 界的一股熱潮,憑借其出色的性能和良好的泛化能力,它的各種變體也提升了很多任務(wù)的效果。除此之外,以XLNet 為典型代表的模型也提出了與BERT 不同的思路。本章主要從預(yù)訓(xùn)練階段目標(biāo)任務(wù)和下游應(yīng)用出發(fā),對(duì)當(dāng)前典型預(yù)訓(xùn)練模型進(jìn)行梳理和分析,旨在理清預(yù)訓(xùn)練模型的發(fā)展現(xiàn)狀。

    2.1 預(yù)訓(xùn)練階段目標(biāo)任務(wù)

    從預(yù)訓(xùn)練階段目標(biāo)任務(wù)的數(shù)量出發(fā),可以將預(yù)訓(xùn)練模型大致分為兩類:基于單任務(wù)和基于多任務(wù)。

    2.1.1 基于單任務(wù)

    單任務(wù)指在預(yù)訓(xùn)練階段只采用一個(gè)目標(biāo)任務(wù),一般基于以下幾種方法:基于自回歸語言模型(Language Model,LM)、基于降噪自動(dòng)編碼器(Denoising AutoEncoder,DAE)和基于多流機(jī)制。

    1)基于LM。

    自回歸語言模型是處理NLP任務(wù)時(shí)經(jīng)常使用的一種經(jīng)典概率模型,其本質(zhì)上是概率回歸。給定一個(gè)文本序列X1:T=[X1,X2,…,XT],其聯(lián)合概率分布P(X1:T)可分解為:

    式中X0表示初始序列。

    傳統(tǒng)的自回歸語言模型往往是自左向右來考慮被預(yù)測(cè)詞之間的相關(guān)性,它符合人類語言習(xí)慣,因此天然適合處理自然語言生成(Natural Language Generation,NLG)任務(wù)。在預(yù)訓(xùn)練過程中,ELMo 通過兩個(gè)反向的雙層LSTM 分別從正向和逆向來預(yù)測(cè)上下文信息,巧妙地彌補(bǔ)自回歸語言模型單向處理文本序列的缺陷。

    與ELMo 類似,ULMFiT(Universal Language Model Fine-Tuning)[25]也選擇語言模型作為目標(biāo)任務(wù),采用了更高效的三層AWD-LSTM(ASGD(Average Stochastic Gradient Descent)Weight-Dropped LSTM)[26]架構(gòu),通過引入正則化手段和針對(duì)目標(biāo)語言模型定制微調(diào)策略,結(jié)合差異精調(diào)、傾斜三角率和逐層解凍等方法進(jìn)一步提升了語言模型的性能,降低了多個(gè)文本分類任務(wù)18%~24%的錯(cuò)誤率。

    SiATL(Single-step Auxiliary loss Transfer Learning)[27]針對(duì)ELMo 和ULMFiT 預(yù)訓(xùn)練計(jì)算成本過高的問題,在構(gòu)建語言模型時(shí)依然采用更簡(jiǎn)單的兩層LSTM 結(jié)構(gòu),提出輔助語言模型,將訓(xùn)練負(fù)擔(dān)轉(zhuǎn)移到下游任務(wù),使得對(duì)特定任務(wù)微調(diào)時(shí)也能訓(xùn)練更新預(yù)訓(xùn)練模型參數(shù),在優(yōu)化策略上,采用序貫解凍的方法,隨著訓(xùn)練批次的增加逐漸解凍不同層的參數(shù),直至模型最終收斂。相較于ULMFiT,SiATL 在文本分類任務(wù)上表現(xiàn)出更好的性能。

    與前幾種方法不同,GPT系列[7,28-29]均采用單向的Transformer 架構(gòu)建立語言模型,在處理文本的長(zhǎng)距離依賴問題和并行計(jì)算上相較于LSTM 有著更好地表現(xiàn)。同時(shí),該系列模型主要在模型和訓(xùn)練數(shù)據(jù)規(guī)模上進(jìn)行了改進(jìn),其細(xì)節(jié)對(duì)比如表3所示。

    表3 GPT系列模型細(xì)節(jié)對(duì)比Tab.3 Detail comparison of GPT model series

    但是,從聯(lián)合概率分布的分解公式中可以看出,自回歸語言模型只能按照序列順序?qū)ξ谋具M(jìn)行自左向右或自右向左的單向分解,盡管ELMo 提出了雙向結(jié)構(gòu),但其本質(zhì)上還是兩個(gè)單向LSTM 的拼接,仍無法同時(shí)獲取上下文表征。而上下文信息對(duì)NLU 任務(wù)非常重要,自回歸語言模型不能很好滿足這一需求。

    2)基于DAE。

    不同于概率密度估計(jì),DAE采用了一種“填空”的思想,先破壞輸入文本序列再訓(xùn)練模型進(jìn)行恢復(fù)。

    對(duì)于同一個(gè)文本序列,采用DAE 方法時(shí),其聯(lián)合概率分布P(X1:T)可近似表示為:

    式中:如果當(dāng)前序列被預(yù)測(cè),則mt=1,否則mt=0;表示原始文本被替換后的輸入。

    目前基于DAE 方法主要以BERT 提出的MLM 為代表,即在文本序列中加入噪聲MASK 進(jìn)行遮蓋,再訓(xùn)練模型去預(yù)測(cè)這些被遮蓋的序列,配合Transformer 架構(gòu),MLM 在NLU 任務(wù)中取得了顯著的效果,但這種“填空”結(jié)構(gòu)不能像自回歸語言模型那樣適合處理NLG 任務(wù)。針對(duì)這一問題,MASS(Masked Sequence to Sequence pre-training)[30]在預(yù)訓(xùn)練目標(biāo)上引入“編碼器-解碼器”結(jié)構(gòu),對(duì)BERT 和傳統(tǒng)語言模型框架進(jìn)行統(tǒng)一,編碼器采用改進(jìn)MLM 機(jī)制來隨機(jī)遮蓋連續(xù)的單詞片段,解碼器則對(duì)這些片段進(jìn)行預(yù)測(cè),最終通過對(duì)編碼器和解碼器的聯(lián)合訓(xùn)練來提高對(duì)語言的建模能力,在英語-法語翻譯任務(wù)上的BLEU(BiLingual Evaluation Understudy)分?jǐn)?shù)達(dá)到了37.5。值得注意的是,MASS還具有一個(gè)統(tǒng)一的預(yù)訓(xùn)練框架,在MLM 過程中,當(dāng)遮蓋詞的數(shù)量為1 或?yàn)檎麄€(gè)輸入序列時(shí),MASS 分別與BERT和GPT等價(jià)。

    為更好地統(tǒng)一NLU 和NLG 任務(wù),T5(Text-to-Text Transfer Transformer)[31]在預(yù)訓(xùn)練目標(biāo)任務(wù)中也采用“編碼器-解碼器”結(jié)構(gòu),但與MASS 不同的是,T5 對(duì)模型架構(gòu)、語料庫、掩碼機(jī)制、訓(xùn)練策略等多個(gè)方面進(jìn)行了全面詳細(xì)的對(duì)比分析,證明了MLM機(jī)制的優(yōu)勢(shì),在英語-法語翻譯任務(wù)中的BLEU分?jǐn)?shù)達(dá)到了43.4%,相較于MASS提升了5.9%。

    同樣為提高預(yù)訓(xùn)練模型在NLG 任務(wù)上的表現(xiàn),BART(Bidirectional and Auto-Regressive Transformers)[32]采 用DAE的方法設(shè)計(jì)了“序列-序列”預(yù)訓(xùn)練模型。為了在結(jié)合上下文語境信息的同時(shí)仍能適應(yīng)序列生成任務(wù),該模型提出了基于Transformer 的雙向編碼器和自回歸解碼器融合架構(gòu),在預(yù)訓(xùn)練過程中首先使用任意噪聲函數(shù)破壞文本,然后經(jīng)過雙向編碼器處理后送入自回歸解碼器預(yù)測(cè)原始文本。最終BART 不僅在多個(gè)文本生成類任務(wù)上取得了最優(yōu)的結(jié)果,而且在文本理解類任務(wù)上也與XLNet等模型相當(dāng)。

    對(duì)于BERT 中NSP 任務(wù)的效果,很多研究提出了質(zhì)疑[23,33-35],RoBERTa[35]放棄了NSP,僅使用動(dòng)態(tài)優(yōu)化的MLM 作為預(yù)訓(xùn)練任務(wù),與MASS和T5所采用的靜態(tài)遮蓋不同,在每次迭代訓(xùn)練過程中,它的遮蓋對(duì)象是動(dòng)態(tài)變化的。RoBERTa 還配合采用更大的batch size、擴(kuò)大訓(xùn)練規(guī)模、延長(zhǎng)訓(xùn)練時(shí)間等方法來提升模型效果,在GLUE任務(wù)上超越了BERT和XLNet。

    基于DAE 方法雖然彌補(bǔ)了自回歸語言模型不能同時(shí)獲取上下文信息的缺陷,但也帶來一些問題,比如不適應(yīng)NLG任務(wù),而且MLM 方法在預(yù)訓(xùn)練時(shí)人為添加了MASK,而微調(diào)時(shí)它又不存在于實(shí)際數(shù)據(jù)中,造成兩個(gè)階段的不一致。除此之外,隨機(jī)選取部分序列進(jìn)行MASK 還可能會(huì)忽略被MASK序列之間存在的語義關(guān)聯(lián)。

    3)基于多流機(jī)制。

    通過對(duì)前期工作中自回歸語言模型和降噪自動(dòng)編碼兩種方法的研究,XLNet 在融合了兩者優(yōu)點(diǎn)的同時(shí)避開其缺陷。并且為了更好地處理長(zhǎng)文本問題,XLNet 采用了Transformer-XL架構(gòu)。針對(duì)BERT 中的MLM 機(jī)制引起的不一致問題,在單向自回歸語言模型上同時(shí)獲取上下文信息,XLNet 針對(duì)預(yù)訓(xùn)練階段設(shè)計(jì)了排列語言模型(Permuted Language Model,PLM)。從廣義上看,PLM 也是一種自回歸語言模型,單向地進(jìn)行語言建模,但通過雙流自注意力機(jī)制,它融入了雙向語言模型的優(yōu)勢(shì)。其思想是首先對(duì)被預(yù)測(cè)詞的位置進(jìn)行固定;然后隨機(jī)排列組合剩下的詞語,使得被預(yù)測(cè)詞的下文也能被排列到其上文位置;最終通過下文信息來預(yù)測(cè)上文。

    在PLM 實(shí)現(xiàn)上,XLNet 通過雙流自注意力機(jī)制,類似于MLM 機(jī)制中的MASK 過程,引入Query 流對(duì)輸入文本中預(yù)測(cè)單詞的進(jìn)行遮蓋,不同于MLM 機(jī)制中顯式地對(duì)輸入序列中的部分單詞進(jìn)行隨機(jī)MASK 操作,XLNet 在文本特征提取器內(nèi)部,即Transformer-XL 中進(jìn)行隱式的MASK 操作,使得被MASK 的單詞在預(yù)測(cè)時(shí)不發(fā)揮作用,從而有效緩解了MLM 機(jī)制中預(yù)訓(xùn)練與微調(diào)階段的不一致問題。XLNet 在長(zhǎng)文本閱讀理解任務(wù)中取得了顯著效果,如表2 所示,在GLUE 任務(wù)上的性能超越了BERT 等其他模型。

    受到XLNet 雙流自注意力機(jī)制的啟發(fā),百度提出了基于多流預(yù)訓(xùn)練技術(shù)的語言生成模型ERNIE-GEN[36]。其采用基于Transformer 的“編碼器-解碼器”框架,考慮到傳統(tǒng)的“序列-序列”模型往往采用逐字符的學(xué)習(xí)范式,一方面在進(jìn)行預(yù)測(cè)時(shí)容易過度依賴于上一個(gè)詞;另一方面逐字符生成也與人類基于實(shí)體和短語的寫作思考方法不一致。因此,ERNIEGEN 率先引入了Span-by-Span 生成流以改進(jìn)語義單元生成效果,在訓(xùn)練時(shí)不僅僅只預(yù)測(cè)一個(gè)字符,而是預(yù)測(cè)一個(gè)完整的語義片段。除此之外,它還設(shè)計(jì)了Contextual流來建模語言單元的上文信息,并通過Mulit-flow Attention 機(jī)制來進(jìn)行多流的聯(lián)合學(xué)習(xí)。針對(duì)“序列-序列”生成模型面臨的曝光偏差問題,ERNIE-GEN 提出了填充生成和噪聲感知機(jī)制,以減小訓(xùn)練和解碼生成之間的差異。最終用更少的參數(shù)和數(shù)據(jù),在多個(gè)生成任務(wù)上取得了state-of-the-art效果。

    與ERNIE-GEN 相似,針對(duì)傳統(tǒng)語言模型無法捕捉長(zhǎng)距離依賴問題,微軟提出了語言生成模型ProphetNet[37]。該方法采用基于n-gram 的多流機(jī)制,能夠同時(shí)對(duì)不同語義粒度的文本信息進(jìn)行建模,不同于傳統(tǒng)“序列-序列”結(jié)構(gòu)每次只能預(yù)測(cè)下一個(gè)字符,ProphetNet 能夠同時(shí)預(yù)測(cè)未來更遠(yuǎn)的n個(gè)字符,以防止模型在預(yù)測(cè)時(shí)過于依賴距離較近的文本信息,避免局部相關(guān)的過擬合現(xiàn)象。表4 給出了兩者在SQuAD(Stanford Question Answering Dataset)數(shù)據(jù)集[38]上進(jìn)行問題生成任務(wù)的實(shí)驗(yàn)對(duì)比,可以看出兩種方法在不同任務(wù)上的表現(xiàn)相當(dāng)。

    表4 ERNIE-GEN與ProphetNet的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab.4 Experimental results comparison of ERNIE-GEN and ProphetNet unit:%

    以XLNet為代表的PLM方法融合文本生成和獲取上下文信息的優(yōu)勢(shì),既彌補(bǔ)了MLM 的缺陷,又保持了語言模型的優(yōu)勢(shì),兼顧了NLG 和NLU 任務(wù),適用的范圍更廣,啟發(fā)了后續(xù)的研究。

    2.1.2 基于多任務(wù)

    多任務(wù)指在預(yù)訓(xùn)練階段采用多個(gè)目標(biāo)任務(wù)聯(lián)合訓(xùn)練,與單任務(wù)相比,多任務(wù)往往帶來更加復(fù)雜的模型結(jié)構(gòu),但能進(jìn)一步提升模型的性能。其中一個(gè)典型代表BERT 的預(yù)訓(xùn)練過程就包含了MLM 和NSP 兩個(gè)任務(wù),除此之外,針對(duì)模型壓縮、高效計(jì)算、多任務(wù)學(xué)習(xí)等問題,很多研究在此基礎(chǔ)上進(jìn)行了一系列優(yōu)化,表5給出了不同模型在GLUE任務(wù)上的實(shí)驗(yàn)對(duì)比。

    表5 基于多目標(biāo)任務(wù)的預(yù)訓(xùn)練模型實(shí)驗(yàn)結(jié)果對(duì)比Tab.5 Experimental results comparison of pre-trained models based on multi-objective task

    ALBERT(A Lite BERT)[33]為簡(jiǎn)化BERT參數(shù)規(guī)模:一方面考慮到詞向量的維度可以不必與隱藏層的維度保持一致,因此對(duì)詞嵌入?yún)?shù)進(jìn)行因式分解,通過降低詞嵌入維度來減少參數(shù)量;與此同時(shí),由于BERT 中各層參數(shù)獨(dú)立且不共享,ALBERT 通過共享各全連接層和注意力層參數(shù),明顯減少了隱藏層參數(shù)量。另一方面,ALBERT 提出新的目標(biāo)任務(wù),即句子順序預(yù)測(cè)(Sentence Order Prediction,SOP)來替代BERT 中的NSP 任務(wù),相比于NSP,SOP 任務(wù)主要針對(duì)句子間的連貫性問題并且更為復(fù)雜。最終ALBERT 在保持甚至提高模型性能的條件下有效壓縮了模型。

    原始的BERT 采取隨機(jī)遮蓋最小單元的方法,但這種做法往往會(huì)割裂一個(gè)完整詞匯的語義信息。SpanBERT[34]的改進(jìn)主要體現(xiàn)在MLM 機(jī)制的遮蓋方式上,對(duì)隨機(jī)相鄰的連續(xù)詞而不是單個(gè)詞進(jìn)行MASK,在選擇遮蓋長(zhǎng)度時(shí),首先從幾何分布中進(jìn)行采樣得到分詞的長(zhǎng)度,然后從中進(jìn)行隨機(jī)均勻選擇。除此之外,SpanBERT 將NSP 替換為Span-Boundary Objective(SBO)任務(wù),訓(xùn)練模型僅通過邊界詞來預(yù)測(cè)遮蓋部分的內(nèi)容。最終該模型在問答、共指消解等NLP 任務(wù)中均取得了顯著的效果。

    微軟提出的UNILM(Unified pre-trained Language Model)[39]采用BERT 中MLM 機(jī)制的思想,在預(yù)訓(xùn)練時(shí)設(shè)計(jì)了單向和雙向語言模型以及“序列-序列”語言模型三個(gè)目標(biāo)函數(shù),并分別進(jìn)行相應(yīng)的MASK 操作,然后與NSP 任務(wù)聯(lián)合建模同時(shí)共享一個(gè)Transformer 框架。UNILM 還在不同目標(biāo)函數(shù)上共享網(wǎng)絡(luò)參數(shù),避免了結(jié)果過擬合于單一的語言模型。在“序列-序列”語言模型的推動(dòng)下,UNILM 不僅能靈活處理NLG 任務(wù)還能適應(yīng)NLU 任務(wù)。其改進(jìn)模型UNILMv2[40]引入XLNet 中的PLM,提出了偽掩蔽語言模型(Pseudo-Masked Language Model,PMLM),將自編碼和部分自回歸方法統(tǒng)一于預(yù)訓(xùn)練目標(biāo)任務(wù)的語言模型,其中通過自編碼方法進(jìn)行傳統(tǒng)的MASK操作,以學(xué)習(xí)被遮蓋詞與上下文之間的關(guān)系;同時(shí)為學(xué)習(xí)被遮蓋詞之間的關(guān)系,采用PLM 中基于部分自回歸偽掩碼的思想。這種結(jié)合類似于多流自注意力機(jī)制進(jìn)行聯(lián)合建模的方式,在PLM 中實(shí)現(xiàn)了連續(xù)詞的預(yù)測(cè),相較于BERT、XLNet 和RoBERTa在多個(gè)任務(wù)中取得了更好的效果。

    同樣是微軟提出的MPNet[41]發(fā)現(xiàn)PLM雖然近似實(shí)現(xiàn)了雙向LM 功能,但從單個(gè)因式分解過程的細(xì)節(jié)上看,被預(yù)測(cè)的序列依然只能關(guān)注到它前面的序列,無法看到完整的序列和位置信息。為彌補(bǔ)這一缺陷,MPNet 在預(yù)訓(xùn)練時(shí)結(jié)合MLM 與PLM的優(yōu)勢(shì),采用聯(lián)合建模的方式,通過在被預(yù)測(cè)序列中加入位置補(bǔ)償信息,進(jìn)一步減少了預(yù)訓(xùn)練和微調(diào)過程之間的差異。

    ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[42]針對(duì)MLM機(jī)制提出了Replaced Token Detection(RTD)任務(wù),將生成式轉(zhuǎn)化為了判別式任務(wù),采用替換而不是掩蓋的方法破壞輸入。在訓(xùn)練時(shí)引入類似對(duì)抗學(xué)習(xí)的思想,先通過基于Transformer 的生成器對(duì)遮蓋的序列進(jìn)行預(yù)測(cè),再將預(yù)測(cè)結(jié)果輸入到判別器中,從而訓(xùn)練模型去判斷每一個(gè)詞是否被生成器替換過。ELECTRA 進(jìn)一步提升了預(yù)訓(xùn)練模型的學(xué)習(xí)效率,在提高了模型性能的同時(shí)大幅降低了計(jì)算成本。

    2.2 預(yù)訓(xùn)練模型應(yīng)用

    預(yù)訓(xùn)練模型在NLP 任務(wù)上的應(yīng)用采用知識(shí)遷移的思想,如圖5 所示,將預(yù)訓(xùn)練模型在語料庫中學(xué)習(xí)到的知識(shí),有效地運(yùn)用于下游任務(wù)。

    圖5 遷移學(xué)習(xí)Fig.5 Transfer learning

    為了提升運(yùn)用的效果,避免過擬合或?yàn)?zāi)難性遺忘等問題,針對(duì)不同的任務(wù)還必須選擇合適的語料庫、預(yù)訓(xùn)練模型架構(gòu)以及微調(diào)策略。如Google 提出的T5 根據(jù)遷移學(xué)習(xí)的思想,將所有語言問題統(tǒng)一于一個(gè)Text-to-Text 框架,并從預(yù)訓(xùn)練目標(biāo)任務(wù),架構(gòu)設(shè)計(jì)、語料庫選擇和遷移方法等多個(gè)因素出發(fā)進(jìn)行了系統(tǒng)的研究,同時(shí)還提出Colossal Clean Crawled Corpus(C4)作為一種更高質(zhì)量的語料庫以此來提高下游任務(wù)性能。

    對(duì)于訓(xùn)練數(shù)據(jù)的篩選,Ruder 等[43]引入貝葉斯優(yōu)化方法,從多個(gè)數(shù)據(jù)源進(jìn)行選擇,有效提高了訓(xùn)練質(zhì)量,還分析了該方法在不同模型、領(lǐng)域和任務(wù)上的魯棒性;GPT 2.0/3.0[28-29]在更寬領(lǐng)域和更大規(guī)模的高質(zhì)量語料庫上進(jìn)行預(yù)訓(xùn)練,同時(shí)加入了更多的模型參數(shù),甚至不需要進(jìn)行微調(diào)就可以直接應(yīng)用到下游任務(wù)。

    預(yù)訓(xùn)練模型在具體下游任務(wù)的應(yīng)用主要靠特征提取或微調(diào)來實(shí)現(xiàn)。特征提取時(shí)預(yù)訓(xùn)練模型的參數(shù)被固定,因此可以減少下游任務(wù)的計(jì)算,但需要針對(duì)具體任務(wù)設(shè)計(jì)特定的模型結(jié)構(gòu);微調(diào)方法將通用的預(yù)訓(xùn)練模型應(yīng)用于不同的下游任務(wù),通過具體的任務(wù)進(jìn)一步更新預(yù)訓(xùn)練模型參數(shù),更好地發(fā)揮預(yù)訓(xùn)練模型的普適作用,因此較為常用。Peters 等[44]通過對(duì)ELMo 和BERT 的研究發(fā)現(xiàn),預(yù)訓(xùn)練任務(wù)與下游目標(biāo)任務(wù)的相似性在對(duì)特征提取或者微調(diào)方式的選擇上有較大影響。實(shí)驗(yàn)表明,當(dāng)下游任務(wù)為序列標(biāo)記或句子對(duì)任務(wù)時(shí),ELMo 更適合于采用特征提取的方法,而BERT則更適合微調(diào)。

    按照預(yù)訓(xùn)練模型在下游任務(wù)的使用策略,將預(yù)訓(xùn)練模型大致分為四類:基于單任務(wù)/多任務(wù)微調(diào)、輔助微調(diào)下游任務(wù)、進(jìn)一步預(yù)訓(xùn)練和其他策略,表6給出了它們的實(shí)驗(yàn)對(duì)比。

    表6 不同微調(diào)策略下的預(yù)訓(xùn)練模型實(shí)驗(yàn)結(jié)果對(duì)比Tab.6 Experimental results comparison of pre-trained models based on different fine-tuning strategies

    1)基于單任務(wù)/多任務(wù)微調(diào)。

    單任務(wù)微調(diào)是大多數(shù)模型所采用的微調(diào)方式,可以理解為讓預(yù)訓(xùn)練模型在有監(jiān)督數(shù)據(jù)集上訓(xùn)練單個(gè)特定任務(wù);而多任務(wù)微調(diào)往往采用多任務(wù)學(xué)習(xí)的方法共享多個(gè)相關(guān)任務(wù)之間有價(jià)值的信息,提高模型在不同任務(wù)上的泛化能力。

    微軟提出的MT-DNN[46]在微調(diào)時(shí)引入了多任務(wù)學(xué)習(xí)的方法,以BERT 作為底層共享的文本特征提取模塊,從每個(gè)批次中隨機(jī)選擇一個(gè)任務(wù)進(jìn)行訓(xùn)練,一方面彌補(bǔ)了部分下游任務(wù)標(biāo)記數(shù)據(jù)不足的缺陷;另一方面可以減輕模型在特定任務(wù)上的過擬合現(xiàn)象。MT-DNN實(shí)現(xiàn)了超越了BERT的性能,進(jìn)一步證明了多任務(wù)學(xué)習(xí)的微調(diào)效果和泛化能力。不同于MT-DNN在微調(diào)過程中引入多任務(wù)學(xué)習(xí)的方法,ERNIE 2.0[47]為了進(jìn)一步提取文本語料中的語義、語法和詞匯信息,采用增量學(xué)習(xí)的思想,在保留已學(xué)習(xí)知識(shí)記憶的基礎(chǔ)上,繼續(xù)從新數(shù)據(jù)中學(xué)習(xí)有用信息。在預(yù)訓(xùn)練時(shí)定義了詞匯、語法、語義等三個(gè)層級(jí)上的任務(wù),并采用多任務(wù)學(xué)習(xí)機(jī)制全面提取語料庫中的先驗(yàn)知識(shí)。在中文和英文場(chǎng)景任務(wù)下的效果都明顯優(yōu)于BERT。Stickland 等[45]受到CV多任務(wù)學(xué)習(xí)和“residual adapter modules[50]”的啟發(fā),在BERT中設(shè)計(jì)添加了一種基于多頭注意力機(jī)制的投影注意層(Projected Attention Layers,PAL),實(shí)現(xiàn)高度的參數(shù)共享,在文本蘊(yùn)含任務(wù)上的表現(xiàn)超越了BERT 和MT-DNN。

    2)輔助微調(diào)下游任務(wù)。

    通常是在微調(diào)時(shí)利用預(yù)訓(xùn)練階段的目標(biāo)任務(wù)或設(shè)計(jì)新的模塊來防止災(zāi)難性遺忘,提高模型性能。如Yang等[51]提出微調(diào)時(shí)結(jié)合預(yù)訓(xùn)練模型的多層而不是頂層特征來豐富信息表示的方法。

    SiATL 在微調(diào)時(shí)將預(yù)訓(xùn)練階段的語言模型作為輔助目標(biāo)函數(shù),并與特定任務(wù)的優(yōu)化函數(shù)相結(jié)合,從而設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的目標(biāo)函數(shù),可近似表示為:

    式中,μ為指數(shù)衰減系數(shù),其用途在于隨著后期訓(xùn)練次數(shù)的迭代增加,通過減小輔助語言模型LLM的影響力來提升任務(wù)目標(biāo)函數(shù)LTASK對(duì)總目標(biāo)函數(shù)L的主導(dǎo)作用。

    這種方法既能利用語言模型捕獲的語法規(guī)則,又能提升模型對(duì)特定任務(wù)的適應(yīng)能力,并且有效緩解了災(zāi)難性遺忘問題。最終SiATL 在不同的文本分類任務(wù)上取得了優(yōu)于ULMFiT 的結(jié)果。GPT 也在對(duì)下游任務(wù)進(jìn)行微調(diào)時(shí)也采用了與SiATL 相同的思路,不僅能夠改善模型對(duì)已學(xué)到知識(shí)產(chǎn)生遺忘的現(xiàn)象,還能提升模型收斂速度和精度。

    Houlsby 等[48]在預(yù)訓(xùn)練的各層之間添加Adaptor 模塊,當(dāng)對(duì)不同的任務(wù)進(jìn)行微調(diào)時(shí),僅需調(diào)整Adaptor模塊中的少量參數(shù),而模型的大部分參數(shù)保持不變,實(shí)現(xiàn)了高度參數(shù)共享,有效提高了預(yù)訓(xùn)練模型針對(duì)不同任務(wù)的微調(diào)效率。

    3)進(jìn)一步預(yù)訓(xùn)練。

    一般是在預(yù)訓(xùn)練和微調(diào)兩階段之間在不同語料庫上進(jìn)行額外的預(yù)訓(xùn)練以提升預(yù)訓(xùn)練模型的穩(wěn)健性和泛化能力,如Gururangan 等[52]提出了領(lǐng)域適應(yīng)性和任務(wù)適應(yīng)性訓(xùn)練。ERNIE(Enhanced Representation through knowledge Integration)[53]在對(duì)預(yù)訓(xùn)練過程中的遮蓋詞進(jìn)行預(yù)測(cè)時(shí)采用了知識(shí)增強(qiáng)的方法,并引入實(shí)體級(jí)和短語級(jí)信息,以學(xué)習(xí)更豐富的語義知識(shí)。與此同時(shí),通過在由百度貼吧對(duì)話數(shù)據(jù)構(gòu)成的語料庫上進(jìn)一步預(yù)訓(xùn)練,能夠?qū)W習(xí)到對(duì)話中的隱式關(guān)系,增強(qiáng)模型學(xué)習(xí)不同語義表示的能力,最終在自然語言推理、語義相似度、情感分析等多個(gè)中文NLP任務(wù)中都取得了顯著的效果。ELMo將預(yù)訓(xùn)練模型在特定任務(wù)上進(jìn)一步訓(xùn)練,再應(yīng)用于最終任務(wù),有效提升了其性能。ULMFiT 也采用了逐層解凍、差異精調(diào)和傾斜三角學(xué)習(xí)率的方法優(yōu)化在特定任務(wù)上進(jìn)行額外的預(yù)訓(xùn) 練。Phang 等[49]設(shè)計(jì)STILTs(Supplementary Training on Intermediate Labeled-data Tasks),發(fā)現(xiàn)額外的有監(jiān)督訓(xùn)練能夠有效提升下游任務(wù)的穩(wěn)健性。受到STILTs的啟發(fā),He等[54]提出了QUASE(Question-Answer driven Sentence Encoding)框架,針對(duì)目標(biāo)任務(wù)單句或多句的輸入類型,利用問答(Question Answering,QA)數(shù)據(jù)集對(duì)模型做進(jìn)一步預(yù)訓(xùn)練,以提高最終下游任務(wù)的效果。

    4)其他策略。

    主要表現(xiàn)為非微調(diào)的方式,如特征提取。在特征提取中,特征提取的難度隨著訓(xùn)練任務(wù)與下游目標(biāo)任務(wù)相似性減小而增大。但GPT 2.0/3.0 在上游任務(wù)中通過利用大規(guī)模高質(zhì)量語料庫進(jìn)行無監(jiān)督訓(xùn)練能夠緩解這一問題。

    GPT 2.0 的基本結(jié)構(gòu)與GPT 相似,其改進(jìn)一方面主要體現(xiàn)在數(shù)據(jù)質(zhì)量的提升,在高質(zhì)量、寬泛的海量數(shù)據(jù)上進(jìn)行無監(jiān)督訓(xùn)練;另一方面不再為特定任務(wù)設(shè)計(jì)微調(diào)流程,并且無監(jiān)督地進(jìn)行下游任務(wù),最終刷新了7 大數(shù)據(jù)集的state-of-the-art 結(jié)果。GPT 3.0 依舊延續(xù)舊版本中單向語言模型結(jié)構(gòu),進(jìn)一步擴(kuò)大模型和數(shù)據(jù)規(guī)模,采取無監(jiān)督的學(xué)習(xí)方式且無須微調(diào)。GPT 3.0 在Zero-Shot、One-Shot 和Few-Shot 三種樣本條件下探究了模型規(guī)模對(duì)其表現(xiàn)的影響,最終結(jié)果表現(xiàn)出強(qiáng)大的泛化能力。在一些任務(wù)中的效果達(dá)到甚至超越了最新的采用微調(diào)方式的模型。

    3 面臨的主要挑戰(zhàn)與展望

    3.1 面臨的主要挑戰(zhàn)

    近年來,以BERT、XLNet 為典型代表的一系列預(yù)訓(xùn)練模型在NLP 任務(wù)上取得了豐碩的成果,在證實(shí)了預(yù)訓(xùn)練技術(shù)重要意義的同時(shí)也面臨著困難與挑戰(zhàn)。

    1)計(jì)算成本高。

    隨著Transformer 的廣泛應(yīng)用,通過深度預(yù)訓(xùn)練可以得到越來越高層次的文本信息,但這也使得預(yù)訓(xùn)練模型的規(guī)模呈現(xiàn)普遍增長(zhǎng)的趨勢(shì),最具有代表性的BERT 的base 版本包含約1.08億個(gè)參數(shù),xlarge版本達(dá)到了12.7億個(gè)參數(shù),這種現(xiàn)象到GPT 3.0 達(dá)到了高峰,采用1 750 億個(gè)參數(shù)和45 TB 的訓(xùn)練數(shù)據(jù)。模型擴(kuò)大對(duì)計(jì)算設(shè)備提出了更高的要求,如何降低高昂的計(jì)算成本是今后面對(duì)的主要問題之一。

    2)魯棒性差。

    深層次的神經(jīng)網(wǎng)路由于其線性特點(diǎn),容易受到對(duì)抗性輸入的攻擊[55]。盡管預(yù)訓(xùn)練模型在不同NLP 任務(wù)上表現(xiàn)出色,但它們大多采用深層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),因此也存在魯棒性差的問題。對(duì)抗性攻擊作為檢驗(yàn)?zāi)P汪敯粜缘氖侄?,最早在CV領(lǐng)域被廣泛應(yīng)用,但由于文本不同于圖像,一個(gè)字的變化就可能改變整句話所表達(dá)的含義。針對(duì)文本對(duì)抗攻擊的研究起步較慢,Jin 等[56]使用對(duì)抗文本攻擊了許多現(xiàn)有模型后發(fā)現(xiàn),它們的性能都發(fā)生了急劇下降。因此,提高預(yù)訓(xùn)練模型的魯棒性也是今后一個(gè)亟待解決的問題。

    3)語義理解不足。

    預(yù)訓(xùn)練語言模型究竟有沒有真正學(xué)到語言的真正意義,還是僅僅學(xué)到了一種“形式”?Bender等[57]敲響了警鐘。盡管很多模型在各類數(shù)據(jù)集上都有出色的表現(xiàn),有的已經(jīng)逼近甚至超過人類水平,但從文本對(duì)抗攻擊可以看出,這種表現(xiàn)是脆弱的。僅依靠語料的學(xué)習(xí)忽略了人們使用語言時(shí)的交際意圖[57],雖然能提取到一些有用的信息,但卻是不完整的,并不符合人類使用語言的真正目的。

    3.2 展望

    在未來的研究中,預(yù)訓(xùn)練模型勢(shì)必將會(huì)給NLP 領(lǐng)域的發(fā)展帶來更多的驚喜,通過對(duì)預(yù)訓(xùn)練模型的歸納和總結(jié),對(duì)其未來發(fā)展指出了以下幾個(gè)可能的趨勢(shì)。

    1)精簡(jiǎn)和改進(jìn)模型。

    為降低預(yù)訓(xùn)練計(jì)算成本,以BERT 為對(duì)象展開了很多研究,融合了參數(shù)共享、知識(shí)蒸餾等多種方法,如ALBERT、TinyBERT[58]等,能在保持性能的前提下,通過共享參數(shù)和知識(shí)蒸餾等方法,大幅降低參數(shù)規(guī)模,提升訓(xùn)練效率,那么在未來具有一定計(jì)算能力的邊緣設(shè)備能否也具有預(yù)訓(xùn)練能力?除此之外,多模態(tài)技術(shù)為設(shè)計(jì)強(qiáng)大的預(yù)訓(xùn)練模型提供了一個(gè)思路,除了文本之外,可以結(jié)合視頻、圖片、語音等多個(gè)領(lǐng)域的信息復(fù)現(xiàn)人類使用語言的情景,提高模型的語義理解能力,如ERNIE-ViL[59]等。同時(shí),在繼Transformer、BERT 后,未來能否提出新的具有革新意義的模型架構(gòu)也非常值得關(guān)注。

    2)提高模型穩(wěn)健性。

    對(duì)抗性訓(xùn)練是提高預(yù)訓(xùn)練模型魯棒性的關(guān)鍵手段,如采用化攻為守的方法,利用對(duì)抗樣本訓(xùn)練模型。Goodfellow[60]和Madry等[61]針對(duì)文本對(duì)抗訓(xùn)練方法展開研究,Zhu等[62]也在前期研究的基礎(chǔ)上,提出了對(duì)抗訓(xùn)練算法FreeLB(Free Large-Batch)。魯棒性是當(dāng)前預(yù)訓(xùn)練模型面臨的重要問題之一,想必在未來還會(huì)出現(xiàn)更多的方法來增強(qiáng)模型的穩(wěn)健性。

    3)優(yōu)化評(píng)價(jià)體系。

    隨著NLP 領(lǐng)域技術(shù)的快速發(fā)展,很多評(píng)測(cè)體系已經(jīng)不能滿足當(dāng)前模型的需求而進(jìn)行了相應(yīng)的改進(jìn)。如用于機(jī)器閱讀理解的問答數(shù)據(jù)集SQUAD 2.0[63]和多任務(wù)的NLU 基準(zhǔn)與分析平臺(tái)SuperGLUE[64]等都增加了更為復(fù)雜的任務(wù),旨在能夠推動(dòng)更強(qiáng)大的模型誕生。Ribeiro 等[65]還提出了全新的評(píng)測(cè)方式CHECKLIST,不再對(duì)已有數(shù)據(jù)進(jìn)行測(cè)試集和訓(xùn)練集的簡(jiǎn)單地劃分,而是能夠從各個(gè)任務(wù)層面,對(duì)模型進(jìn)行全面的評(píng)測(cè)。評(píng)價(jià)標(biāo)準(zhǔn)指引著領(lǐng)域的發(fā)展方向,因此,未來評(píng)價(jià)體系的建設(shè)也顯得尤為重要。

    4 結(jié)語

    本文主要對(duì)NLP任務(wù)中預(yù)訓(xùn)練模型的發(fā)展和研究現(xiàn)狀進(jìn)行了簡(jiǎn)要概述。從文本特征提取技術(shù)上看,預(yù)訓(xùn)練模型的發(fā)展主要以上下文信息的捕獲能力為核心,經(jīng)歷了由簡(jiǎn)單到復(fù)雜、由局部到全局、由單向到雙向的發(fā)展歷程。目前,主流的文本特征提取技術(shù)以RNN、CNN 和Transformer 為代表,其中Transformer在眾多任務(wù)中顯現(xiàn)出優(yōu)勢(shì),具有較大的發(fā)展?jié)摿?。從預(yù)訓(xùn)練模型的階段任務(wù)和應(yīng)用手段上看,其目標(biāo)任務(wù)主要以自回歸語言模型、降噪自動(dòng)編碼器和多流機(jī)制為典型代表,通過對(duì)不同方法的改進(jìn)和融合來達(dá)到取長(zhǎng)補(bǔ)短的目的。在應(yīng)用手段上,主要面臨著災(zāi)難性遺忘和過擬合等問題,在引入多任務(wù)學(xué)習(xí)、輔助微調(diào)函數(shù)和進(jìn)一步預(yù)訓(xùn)練等方法后得到了顯著改善。總而言之,目前預(yù)訓(xùn)練技術(shù)已經(jīng)在自然語言處理問題上取得了不可忽視的成就,具有廣闊的應(yīng)用領(lǐng)域和前景。

    猜你喜歡
    文本語言信息
    語言是刀
    文苑(2020年4期)2020-05-30 12:35:30
    在808DA上文本顯示的改善
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    讓語言描寫搖曳多姿
    訂閱信息
    中華手工(2017年2期)2017-06-06 23:00:31
    累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    我有我語言
    展會(huì)信息
    如何快速走進(jìn)文本
    国产精品1区2区在线观看.| 国产成年人精品一区二区| 丰满人妻熟妇乱又伦精品不卡| 午夜免费成人在线视频| av在线老鸭窝| 欧美成人性av电影在线观看| 一进一出好大好爽视频| 久久国产精品影院| 脱女人内裤的视频| 国产麻豆成人av免费视频| a级毛片a级免费在线| 91av网一区二区| 成人国产综合亚洲| av在线老鸭窝| 亚洲国产色片| 偷拍熟女少妇极品色| 久久这里只有精品中国| 国产精品一区二区性色av| 国产精品不卡视频一区二区 | 婷婷亚洲欧美| 精品久久久久久久久久久久久| 亚洲av熟女| 日本精品一区二区三区蜜桃| 国产精品久久久久久亚洲av鲁大| 少妇熟女aⅴ在线视频| 99热6这里只有精品| 狠狠狠狠99中文字幕| 亚洲av美国av| 国产男靠女视频免费网站| 网址你懂的国产日韩在线| 亚洲三级黄色毛片| 国产成人a区在线观看| 狂野欧美白嫩少妇大欣赏| 亚洲人成电影免费在线| 久久久色成人| 99久国产av精品| 欧美3d第一页| 亚洲欧美日韩高清专用| 久久精品国产99精品国产亚洲性色| 中文字幕精品亚洲无线码一区| 色播亚洲综合网| 成人特级av手机在线观看| 精品一区二区免费观看| 免费看a级黄色片| 永久网站在线| 国产毛片a区久久久久| 天堂av国产一区二区熟女人妻| 午夜福利成人在线免费观看| 成人av在线播放网站| 日本 欧美在线| 成人性生交大片免费视频hd| 一级黄片播放器| 国产精华一区二区三区| 制服丝袜大香蕉在线| 亚洲内射少妇av| www.色视频.com| 日韩成人在线观看一区二区三区| av在线蜜桃| 三级男女做爰猛烈吃奶摸视频| 日本三级黄在线观看| 性插视频无遮挡在线免费观看| 久久人人精品亚洲av| 999久久久精品免费观看国产| 久久久久国产精品人妻aⅴ院| 少妇的逼水好多| 国产aⅴ精品一区二区三区波| 国产精品久久久久久久久免 | 最近在线观看免费完整版| 亚洲七黄色美女视频| 亚洲av日韩精品久久久久久密| 欧美午夜高清在线| 亚洲国产精品999在线| 亚洲内射少妇av| a在线观看视频网站| 国产精品久久电影中文字幕| 国产伦精品一区二区三区四那| 91在线观看av| 色哟哟哟哟哟哟| 精品国产三级普通话版| 日韩欧美一区二区三区在线观看| av国产免费在线观看| 久久精品人妻少妇| 日本成人三级电影网站| 亚洲av五月六月丁香网| 少妇的逼水好多| 国产色爽女视频免费观看| 亚洲第一欧美日韩一区二区三区| 国产美女午夜福利| 桃红色精品国产亚洲av| 日本 欧美在线| 51午夜福利影视在线观看| 国产精品精品国产色婷婷| 久久久久久国产a免费观看| 国产精品久久视频播放| 国内久久婷婷六月综合欲色啪| 国产高清三级在线| 国产精品98久久久久久宅男小说| 美女免费视频网站| 国产精品一区二区三区四区久久| 性插视频无遮挡在线免费观看| 能在线免费观看的黄片| 免费在线观看成人毛片| 成年女人毛片免费观看观看9| 淫妇啪啪啪对白视频| 免费一级毛片在线播放高清视频| 乱人视频在线观看| 亚洲人成网站在线播| 国产av一区在线观看免费| 99精品在免费线老司机午夜| 亚洲不卡免费看| 蜜桃亚洲精品一区二区三区| 在线免费观看的www视频| 97超视频在线观看视频| 亚洲内射少妇av| 婷婷色综合大香蕉| 午夜福利在线观看免费完整高清在 | 99久久精品热视频| 亚洲成人中文字幕在线播放| 日韩欧美国产一区二区入口| 两个人的视频大全免费| 亚洲成人免费电影在线观看| 国产乱人伦免费视频| 亚洲无线观看免费| 国产伦精品一区二区三区四那| 男女那种视频在线观看| 欧洲精品卡2卡3卡4卡5卡区| 免费看日本二区| 国产视频内射| 午夜激情福利司机影院| 午夜精品久久久久久毛片777| 久久性视频一级片| 97热精品久久久久久| 成人午夜高清在线视频| 超碰av人人做人人爽久久| a级毛片a级免费在线| 久久人人爽人人爽人人片va | 亚洲精华国产精华精| 精品无人区乱码1区二区| 亚洲精品久久国产高清桃花| 一个人观看的视频www高清免费观看| 国产精品女同一区二区软件 | 亚洲熟妇熟女久久| 天堂动漫精品| 免费电影在线观看免费观看| 国产伦精品一区二区三区视频9| 亚洲成人中文字幕在线播放| 日韩成人在线观看一区二区三区| 亚洲真实伦在线观看| 欧美+亚洲+日韩+国产| 欧美一区二区精品小视频在线| 成年女人看的毛片在线观看| 欧美区成人在线视频| 精品国内亚洲2022精品成人| 亚洲欧美日韩卡通动漫| 69人妻影院| 免费人成视频x8x8入口观看| 成人午夜高清在线视频| 搡老妇女老女人老熟妇| 美女xxoo啪啪120秒动态图 | 美女被艹到高潮喷水动态| 国内精品久久久久精免费| 国产色婷婷99| 午夜精品一区二区三区免费看| 精品久久久久久久久久免费视频| 国产高清三级在线| 国产成人a区在线观看| 亚洲欧美日韩高清在线视频| 亚洲欧美日韩高清在线视频| 亚洲欧美日韩高清在线视频| 国产色婷婷99| 日日夜夜操网爽| 少妇的逼水好多| netflix在线观看网站| 国产亚洲精品av在线| 91九色精品人成在线观看| 91狼人影院| 欧美精品啪啪一区二区三区| 日韩精品中文字幕看吧| 日韩精品中文字幕看吧| 网址你懂的国产日韩在线| 在线a可以看的网站| 久久精品91蜜桃| 亚洲中文字幕一区二区三区有码在线看| 亚洲av二区三区四区| 看十八女毛片水多多多| 波野结衣二区三区在线| 九九在线视频观看精品| 全区人妻精品视频| 精品一区二区三区人妻视频| 欧美三级亚洲精品| 成人特级黄色片久久久久久久| av天堂中文字幕网| 成年女人看的毛片在线观看| 两个人的视频大全免费| 国产精品久久久久久亚洲av鲁大| 国产三级在线视频| av在线观看视频网站免费| 在线观看av片永久免费下载| 亚洲真实伦在线观看| 午夜福利在线在线| 成人三级黄色视频| 一区福利在线观看| 色吧在线观看| 精品久久国产蜜桃| 99国产综合亚洲精品| 国产高清有码在线观看视频| 亚洲五月天丁香| 给我免费播放毛片高清在线观看| av女优亚洲男人天堂| 亚洲欧美激情综合另类| 亚洲欧美精品综合久久99| 久久伊人香网站| 高潮久久久久久久久久久不卡| 亚洲中文日韩欧美视频| 久久久久久久久久成人| 婷婷精品国产亚洲av| 动漫黄色视频在线观看| 91午夜精品亚洲一区二区三区 | 欧美+亚洲+日韩+国产| 少妇人妻一区二区三区视频| 久久婷婷人人爽人人干人人爱| 日韩欧美三级三区| 久久久久久国产a免费观看| 一级毛片久久久久久久久女| 久久亚洲真实| 欧美乱妇无乱码| 免费在线观看亚洲国产| 精品午夜福利视频在线观看一区| 色av中文字幕| 成人美女网站在线观看视频| 免费av观看视频| 欧美不卡视频在线免费观看| 动漫黄色视频在线观看| 国产精品久久久久久亚洲av鲁大| www日本黄色视频网| 亚州av有码| 18禁在线播放成人免费| 午夜福利在线观看吧| 国产人妻一区二区三区在| 成年女人毛片免费观看观看9| 日韩欧美国产在线观看| 午夜视频国产福利| 人妻制服诱惑在线中文字幕| 夜夜看夜夜爽夜夜摸| 人人妻,人人澡人人爽秒播| 亚洲美女视频黄频| 亚洲内射少妇av| 亚洲av第一区精品v没综合| 一本久久中文字幕| 国产日本99.免费观看| 丰满人妻熟妇乱又伦精品不卡| 可以在线观看毛片的网站| 一本综合久久免费| 中文字幕久久专区| 岛国在线免费视频观看| 国产91精品成人一区二区三区| 欧美黄色片欧美黄色片| 国产不卡一卡二| 亚洲av成人av| 乱人视频在线观看| 成人无遮挡网站| 国产麻豆成人av免费视频| 色综合欧美亚洲国产小说| 精品一区二区三区av网在线观看| 在线观看舔阴道视频| 免费av不卡在线播放| 人妻夜夜爽99麻豆av| 久久国产乱子免费精品| 精品一区二区免费观看| 九九热线精品视视频播放| 欧美成人a在线观看| 国产美女午夜福利| 亚洲不卡免费看| 看黄色毛片网站| 精品不卡国产一区二区三区| 亚洲精品在线观看二区| 黄色女人牲交| 亚洲性夜色夜夜综合| 中国美女看黄片| aaaaa片日本免费| 国产 一区 欧美 日韩| 亚洲一区二区三区不卡视频| 日本黄色视频三级网站网址| 国产午夜精品久久久久久一区二区三区 | 在线观看av片永久免费下载| 亚洲片人在线观看| 久久久久久大精品| www.www免费av| 欧美中文日本在线观看视频| 亚洲在线观看片| 国产毛片a区久久久久| 日韩免费av在线播放| 久久99热这里只有精品18| 国产精品精品国产色婷婷| a在线观看视频网站| 一级av片app| 美女被艹到高潮喷水动态| .国产精品久久| 村上凉子中文字幕在线| 在线免费观看的www视频| 最近中文字幕高清免费大全6 | 精品午夜福利在线看| 成人午夜高清在线视频| 狂野欧美白嫩少妇大欣赏| 精品人妻一区二区三区麻豆 | 午夜影院日韩av| 国产av不卡久久| 一区二区三区免费毛片| 欧美黄色淫秽网站| 日日夜夜操网爽| 国产精品亚洲一级av第二区| 精品久久久久久,| 女生性感内裤真人,穿戴方法视频| 中亚洲国语对白在线视频| 欧美黄色淫秽网站| 欧美最黄视频在线播放免费| 免费av不卡在线播放| 久久国产乱子伦精品免费另类| 床上黄色一级片| www.www免费av| 亚洲av不卡在线观看| 欧美日本视频| 麻豆久久精品国产亚洲av| 国产免费av片在线观看野外av| 听说在线观看完整版免费高清| 精品欧美国产一区二区三| 精品99又大又爽又粗少妇毛片 | 免费人成在线观看视频色| 麻豆成人av在线观看| 3wmmmm亚洲av在线观看| 黄色视频,在线免费观看| 简卡轻食公司| 亚洲人成网站高清观看| 一个人看的www免费观看视频| 亚洲自拍偷在线| 久久久久久大精品| 1024手机看黄色片| 中文在线观看免费www的网站| 欧美日韩瑟瑟在线播放| 99国产极品粉嫩在线观看| 哪里可以看免费的av片| 亚洲五月婷婷丁香| 国产精品永久免费网站| 成人高潮视频无遮挡免费网站| 日本五十路高清| 有码 亚洲区| 日本一二三区视频观看| 成人亚洲精品av一区二区| 亚洲精品在线美女| 90打野战视频偷拍视频| 桃色一区二区三区在线观看| 免费av不卡在线播放| 高清日韩中文字幕在线| 两人在一起打扑克的视频| 在线观看66精品国产| 久久久成人免费电影| 日韩 亚洲 欧美在线| 国产精品亚洲一级av第二区| 观看美女的网站| 欧美一级a爱片免费观看看| 色噜噜av男人的天堂激情| 能在线免费观看的黄片| 国产精品亚洲美女久久久| 黄色女人牲交| 午夜精品在线福利| 成人永久免费在线观看视频| 香蕉av资源在线| 亚洲黑人精品在线| 毛片一级片免费看久久久久 | 精品欧美国产一区二区三| 男女下面进入的视频免费午夜| 亚洲经典国产精华液单 | 日韩高清综合在线| 给我免费播放毛片高清在线观看| 桃色一区二区三区在线观看| 国产精品久久久久久精品电影| 俄罗斯特黄特色一大片| 午夜激情福利司机影院| 脱女人内裤的视频| 三级国产精品欧美在线观看| 一进一出好大好爽视频| 毛片一级片免费看久久久久 | 久久精品影院6| 嫁个100分男人电影在线观看| 欧美3d第一页| 日韩大尺度精品在线看网址| 精品不卡国产一区二区三区| 91麻豆精品激情在线观看国产| 日韩av在线大香蕉| 国产精品亚洲av一区麻豆| 赤兔流量卡办理| 亚洲精品在线美女| 亚洲激情在线av| 久久午夜福利片| 国产成人啪精品午夜网站| 欧美日韩瑟瑟在线播放| 精品久久久久久,| 在线观看美女被高潮喷水网站 | 欧美中文日本在线观看视频| 男人舔女人下体高潮全视频| 久久亚洲真实| 狠狠狠狠99中文字幕| 国产日本99.免费观看| 亚洲天堂国产精品一区在线| 国产午夜精品论理片| 欧美日韩黄片免| 久久精品国产清高在天天线| 欧美激情在线99| 午夜激情福利司机影院| 亚洲av中文字字幕乱码综合| 精品一区二区三区视频在线观看免费| 黄色女人牲交| 国产伦人伦偷精品视频| 成年人黄色毛片网站| 亚洲精品乱码久久久v下载方式| 9191精品国产免费久久| 亚洲人成网站在线播放欧美日韩| eeuss影院久久| 亚洲av一区综合| 日本撒尿小便嘘嘘汇集6| 天堂av国产一区二区熟女人妻| 婷婷精品国产亚洲av| 国产高清激情床上av| 男女之事视频高清在线观看| 成年女人毛片免费观看观看9| 亚洲国产日韩欧美精品在线观看| 久久欧美精品欧美久久欧美| 久久精品综合一区二区三区| 在现免费观看毛片| 国产av一区在线观看免费| 国产乱人伦免费视频| 久久精品国产自在天天线| 淫秽高清视频在线观看| 一进一出抽搐动态| 国产精品电影一区二区三区| 国产精品综合久久久久久久免费| 久久精品影院6| 一本一本综合久久| 老女人水多毛片| 黄色一级大片看看| 亚洲精品成人久久久久久| 女生性感内裤真人,穿戴方法视频| 久久久色成人| 国产成人a区在线观看| 亚洲 欧美 日韩 在线 免费| 九九久久精品国产亚洲av麻豆| 99久久无色码亚洲精品果冻| 一卡2卡三卡四卡精品乱码亚洲| 99久久99久久久精品蜜桃| 日韩欧美国产一区二区入口| 国产av不卡久久| 真人一进一出gif抽搐免费| 久久久久久久亚洲中文字幕 | 悠悠久久av| 国产av不卡久久| 在现免费观看毛片| 丁香六月欧美| 精品一区二区三区视频在线观看免费| 亚洲熟妇熟女久久| 熟女人妻精品中文字幕| 色av中文字幕| 两性午夜刺激爽爽歪歪视频在线观看| 亚洲真实伦在线观看| 免费看美女性在线毛片视频| 免费看日本二区| 特级一级黄色大片| 成人三级黄色视频| 成人午夜高清在线视频| 亚洲精品乱码久久久v下载方式| 亚洲色图av天堂| 亚洲av.av天堂| 午夜福利在线观看吧| 黄色丝袜av网址大全| 在线a可以看的网站| 窝窝影院91人妻| 国产免费一级a男人的天堂| a级毛片免费高清观看在线播放| 久久99热6这里只有精品| 亚洲va日本ⅴa欧美va伊人久久| 国产精品av视频在线免费观看| 国产精华一区二区三区| 啦啦啦观看免费观看视频高清| 中文字幕av成人在线电影| 露出奶头的视频| 亚洲精品乱码久久久v下载方式| 国产极品精品免费视频能看的| 亚洲精品粉嫩美女一区| 热99re8久久精品国产| 成人永久免费在线观看视频| avwww免费| 亚洲成av人片免费观看| 亚洲中文日韩欧美视频| eeuss影院久久| 男插女下体视频免费在线播放| 啦啦啦韩国在线观看视频| 自拍偷自拍亚洲精品老妇| а√天堂www在线а√下载| 成人亚洲精品av一区二区| 身体一侧抽搐| 欧美一区二区亚洲| 亚洲男人的天堂狠狠| 永久网站在线| 18禁在线播放成人免费| 老司机午夜福利在线观看视频| 日韩中文字幕欧美一区二区| a级毛片免费高清观看在线播放| 免费看日本二区| 亚洲中文字幕一区二区三区有码在线看| 精品久久国产蜜桃| 亚洲精品456在线播放app | 99久久久亚洲精品蜜臀av| 我的女老师完整版在线观看| 男女视频在线观看网站免费| 老司机午夜十八禁免费视频| 欧美激情国产日韩精品一区| 五月伊人婷婷丁香| 午夜福利视频1000在线观看| 日韩大尺度精品在线看网址| 精品人妻1区二区| 免费人成视频x8x8入口观看| 国产 一区 欧美 日韩| 国产高潮美女av| 色播亚洲综合网| 国产成+人综合+亚洲专区| АⅤ资源中文在线天堂| 日本在线视频免费播放| 国产真实伦视频高清在线观看 | 国模一区二区三区四区视频| 亚洲一区二区三区不卡视频| 国产精品三级大全| www.熟女人妻精品国产| 婷婷色综合大香蕉| 久久久久性生活片| 中文字幕av成人在线电影| 免费观看的影片在线观看| 激情在线观看视频在线高清| 我要看日韩黄色一级片| 免费观看精品视频网站| www.色视频.com| 色av中文字幕| 精品人妻视频免费看| 国内精品久久久久久久电影| 午夜福利在线观看免费完整高清在 | 99久久成人亚洲精品观看| 少妇被粗大猛烈的视频| 午夜激情福利司机影院| 成人av一区二区三区在线看| 日本 欧美在线| 亚洲va日本ⅴa欧美va伊人久久| 综合色av麻豆| 可以在线观看毛片的网站| 日韩欧美三级三区| 日本三级黄在线观看| 国产三级在线视频| 日本撒尿小便嘘嘘汇集6| 嫩草影视91久久| 一本一本综合久久| 中文亚洲av片在线观看爽| 午夜福利在线观看吧| 99久久九九国产精品国产免费| 乱人视频在线观看| 9191精品国产免费久久| or卡值多少钱| 看片在线看免费视频| 五月玫瑰六月丁香| 国产在视频线在精品| 国产精品久久久久久精品电影| 在现免费观看毛片| 一个人看的www免费观看视频| 亚洲av第一区精品v没综合| 91九色精品人成在线观看| a级毛片a级免费在线| 真人做人爱边吃奶动态| 十八禁网站免费在线| 日韩欧美国产在线观看| 丰满的人妻完整版| 亚洲男人的天堂狠狠| av欧美777| 精品日产1卡2卡| 亚洲自拍偷在线| 欧美3d第一页| 亚洲国产精品sss在线观看| 国产真实乱freesex| 亚洲中文字幕日韩| 久久久久九九精品影院| 国产视频一区二区在线看| 18禁裸乳无遮挡免费网站照片| 欧美日韩综合久久久久久 | 国产精品一区二区性色av| 午夜免费成人在线视频| 真人一进一出gif抽搐免费| 永久网站在线| 午夜精品在线福利| 日本黄色视频三级网站网址| 色精品久久人妻99蜜桃| 在线十欧美十亚洲十日本专区| 亚洲七黄色美女视频| 伊人久久精品亚洲午夜| 日本免费a在线| 搡老熟女国产l中国老女人| 亚洲av日韩精品久久久久久密| 脱女人内裤的视频| 变态另类丝袜制服| 国产激情偷乱视频一区二区| 久久久久久大精品| 欧美日本视频| 超碰av人人做人人爽久久| 国产成+人综合+亚洲专区| 性色av乱码一区二区三区2| 日韩国内少妇激情av| 一夜夜www| 99久久九九国产精品国产免费| 性插视频无遮挡在线免费观看| 欧美最新免费一区二区三区 | 日韩亚洲欧美综合|