謝劍輝
摘 要:BERT、ULMFiT等模型均采用了預(yù)訓(xùn)練聯(lián)合微調(diào)的架構(gòu),能夠更深刻的解讀語句內(nèi)涵,其在微調(diào)整階段表現(xiàn)出快捷、有效等特征,且模型的泛化性進(jìn)一步增強(qiáng),逐漸演變成自然語言處理領(lǐng)域中的最強(qiáng)、最新穎模型。文章在介紹BERT模型的基礎(chǔ)上,基于簡易的遷徙學(xué)習(xí)策略,將該模型用于中文輿情文本分類領(lǐng)域中,在比較中證實BERT模型的優(yōu)越性。
關(guān)鍵詞:文本分類;BERT;網(wǎng)絡(luò)輿情
在很長的一段時間內(nèi),自然語言處理(NLP)為人工智能領(lǐng)域中研究的重點、熱點,其面對的是繁雜多變的自然語言,希望基于精致的數(shù)學(xué)模型深度解讀語句內(nèi)涵,進(jìn)而實現(xiàn)人和機(jī)器之間的自然交互。2018年年末,谷歌團(tuán)隊對外發(fā)布了以雙向Transformer預(yù)訓(xùn)練語言模型(BERT),通過查閱相關(guān)文獻(xiàn)資料后發(fā)現(xiàn)[1],BERT用于中文NLP的研究處于早期探索階段,輿情數(shù)據(jù)類別劃分是該領(lǐng)域研究的熱點之一,若能利用一種較科學(xué)、完善模型,微調(diào)現(xiàn)存模型,則可早短期能提升對任務(wù)運作需求的適用度,優(yōu)化研究工作質(zhì)量。本文主要探究BERT模型在輿情文本分類任務(wù)執(zhí)行中的訓(xùn)練成效。
1、 BERT模型介紹
從本質(zhì)上分析,BERT語言模型就是 Transformer 模型的編碼器部分。于在BERT的論文內(nèi),科研人員共計訓(xùn)練了兩個BERT模型,即BERTBASE和BERTLARGE,參數(shù)量不同是以上兩個模型的主要區(qū)別,前者持有12個多頭自注意力層(L=12),各層均分布12個頭(A=12)中間向量維度768(H =768);參數(shù)量有110M。BERTLARGE有24個多頭自注意力層(L=24)各層有16個頭(A= 16),中間向量維度是1024(H = 1024),參數(shù)量340M。既往在諸多測試中,BERTLARGE的結(jié)果均優(yōu)于BERTBASE,這提示在預(yù)訓(xùn)練任務(wù)和模型結(jié)構(gòu)等同時,參數(shù)提高取得的成效是極為顯著的。
1.1輸入處理
BERT作為語言模型需面對眾多任務(wù),督促要謹(jǐn)慎采用BERT進(jìn)行輸入處理,基于詞向量增設(shè)位置向量,還需添加段落向量以應(yīng)對一些和句子對相關(guān)的問題。圖1 為該過程的可視化圖[2]。
可以觀察到,一個特別表示被加入到序列首位,針對部分句子或句子對分類任務(wù),該標(biāo)識的最后輸出即是整個句子或句子對的表象特征。針對其他類型的任務(wù),該標(biāo)識盡管參與了序列編碼過程,但最后輸出情況不被重視。BERT能夠依照圖1所示的形式對句子對行“打包”處理,形成單一句子再做處置,且使用特殊標(biāo)識[SEP]分隔句子、整合段向量,進(jìn)而使模型精確區(qū)分兩個不同的句子。
1.2預(yù)訓(xùn)練
(1)預(yù)測遮蔽詞
BERT模型采用的是雙向編碼器,綜合考慮前文以及后文詞,且在多層注意力機(jī)制的作用下,促使從第二個層面開始,各此的編碼均能捕獲到所有詞的信息。為更嚴(yán)格的訓(xùn)練語言模型,創(chuàng)設(shè)新的預(yù)訓(xùn)練法——遮蔽詞語言模型訓(xùn)練。在該訓(xùn)練內(nèi),特殊標(biāo)識[MASK]會隨機(jī)取代輸入序列內(nèi)的元素,借此方式屏蔽某一詞于層次編碼階段的所有信息。
(2)判斷下一句
很重關(guān)鍵的下游任務(wù)運作階段均需深度解讀不同句子對之間的關(guān)聯(lián)性,比如語義類似度、翻譯質(zhì)量測評等。若只應(yīng)用遮蔽詞訓(xùn)練形式,則難以保證模型能精確捕獲句子對的關(guān)系,故而需基于另一種預(yù)訓(xùn)練任務(wù)去強(qiáng)化模型在該方面的能力。預(yù)測一個句子是不是銜接另一個句子的下一句,實質(zhì)上便是下一句判斷任務(wù)。該任務(wù)的達(dá)成過程較為簡易:經(jīng)語料庫內(nèi)提取任一語句A,并捕獲其下一句B,基于50%的概率用B將語料庫內(nèi)無關(guān)聯(lián)的句子C取代。
1.3微調(diào)
基于BERT模型能夠有效落實多樣化的NLP任務(wù)。而在面對不同NLP任務(wù)的處理需求時,無需調(diào)整BERT模型的內(nèi)部結(jié)構(gòu),其只需要將指定的網(wǎng)絡(luò)層添加至最后編碼層上即可滿足任務(wù)處理要求,這在很大程度上也為BERT模型在處理眾多任務(wù)階段遷徙學(xué)習(xí)創(chuàng)造便利條件。
在處理不同的下游任務(wù)時,BERT模型會作出微調(diào)整。比如,針對句子對分類任務(wù)而言,可以將這兩個句子拼接成一個長句,而后依照上文闡述的方法處理后進(jìn)行輸入,也可以對句子開頭部位的特別標(biāo)識[CLS]作出編碼處理后,將獲得的向量設(shè)為語句表征。而若面對的是類似于智能問答任務(wù)時,要可以忽視特別標(biāo)識[CLS]產(chǎn)出的編碼結(jié)果,也可以采用和單詞相配套的編碼結(jié)果去判斷準(zhǔn)確答案的起始、終止位置[3]。
綜合如上論述的內(nèi)容,我們發(fā)現(xiàn)BERT模型應(yīng)用過程表現(xiàn)出較高的靈活度,可以結(jié)余不同的任務(wù)需求整頓差異性的輸出策略。盡管全部參數(shù)需要參與到微調(diào)整過程,但事實上其于預(yù)測訓(xùn)練環(huán)節(jié)成熟度就已抵達(dá)較高水平了,可以較精準(zhǔn)的捕獲語句的抽象特征,故而微調(diào)操作等同提升BERT模型應(yīng)對不同人物的速度與準(zhǔn)確度。
2、 BERT模型的訓(xùn)練
筆者在研究階段,將全銜接網(wǎng)絡(luò)添加至BERT模型的輸出結(jié)果上,并且聯(lián)合使用softma作為分類器。選定的訓(xùn)練數(shù)據(jù)是微博輿情數(shù)據(jù),數(shù)據(jù)集共計有10大類,涵蓋民生、文化、娛樂、體育、財經(jīng)、房地產(chǎn)、汽車、教育、科技、軍事。對應(yīng)的樣本數(shù)依次為2116、、2258、6043、6192、4640、2102、5935、4505、5740、2780。
本模型的Fine-turning于Tesla K80 GPU內(nèi)完成訓(xùn)練,一輪訓(xùn)練活動歷史大概為6min。表1是BERT模型后的記錄情況[4]。
筆者針對本次研究中模型訓(xùn)練結(jié)果和楊艷等[5]提出的文本分類模型進(jìn)行比較分析,采用雙向LSTM銜接卷尺神經(jīng)網(wǎng)絡(luò)(CNN),設(shè)定CNN的一維卷積核長為3,卷積核數(shù)是64,最大值池化層與softmax 銜接并作為分類器。表2是模型訓(xùn)練期間數(shù)據(jù)的記錄情況[5]。
對比表1、2內(nèi)數(shù)據(jù)信息整體分析后,發(fā)現(xiàn)BERT模型訓(xùn)練時在準(zhǔn)確率、召回率指標(biāo)上均優(yōu)于基于LSTM銜接CNN模型的訓(xùn)練結(jié)果,這可能是因為BERT對句子長距離特征持有更強(qiáng)的捕獲能力,且確保了被捕獲語言特征的相對完整性與多樣性。
3、 結(jié)束語
BERT模型基于特有的雙向編碼,在各層內(nèi)部均形成了雙向邏輯關(guān)系,能夠完成十余個語言處理領(lǐng)域的任務(wù),利用BooksCorps、英文維基百科量大語料庫,靈活的遷徙到下游各個任務(wù)內(nèi),接受以字作為embedding的輸入結(jié)果,單難以完全規(guī)避部分語義信息遺失的問題。這提示在后續(xù)研究中,應(yīng)加大BERT 的 Transformer構(gòu)思的參考力度,訓(xùn)練出對詞語有強(qiáng)大動態(tài)編碼能力的模型,進(jìn)而最大限度的強(qiáng)化語義闡述與特征提取能力。
參考文獻(xiàn):
[1]龔韶,劉興均.網(wǎng)絡(luò)輿情安全監(jiān)測語義識別研究綜述[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2019,14(07):52-57.
[2]顧凌云.基于多注意力的中文命名實體識別[J].信息與電腦(理論版),2019,41(09):41-44+48.
[3]朱昶勝,孫欣,馮文芳.基于R語言的網(wǎng)絡(luò)輿情對股市影響研究[J].蘭州理工大學(xué)學(xué)報,2018,44(04):103-108.
[4]王璟琦,李銳,吳華意.基于空間自相關(guān)的網(wǎng)絡(luò)輿情話題演化時空規(guī)律分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(02):64-73.
[5]楊艷,徐冰,楊沐昀,等.一種基于聯(lián)合深度學(xué)習(xí)模型的情感分類方法[J].山東大學(xué)學(xué)報(理學(xué)版),2017,52(09):19-25.