陳麗春
(西安音樂學(xué)院 圖書館,陜西西安 710061)
隨著圖書數(shù)量的急劇增加,人工分類效率低,易錯(cuò)分類[1]??焖偾覝?zhǔn)確地區(qū)分圖書類別有助于館方管理和方便讀者查閱[2]。
機(jī)器學(xué)習(xí)方法[3-4]無法確保獲取特征的準(zhǔn)確性。文獻(xiàn)[5]提出了基于CNN 網(wǎng)絡(luò)的分類模型,Word2vec無法表示多義詞。文獻(xiàn)[6]提出了BERT-BiLSTM 混合方法,BiLSTM 模塊僅能捕捉文本序列信息。文獻(xiàn)[7]提出了ALBERT-CRNN 模型,提升了文本分類性能。文獻(xiàn)[8]提出了BERT-BiGRU-AT 模型,軟注意力能關(guān)注到重點(diǎn)詞語。
該文采用ERNIE2.0 提取動(dòng)態(tài)文本特征矩陣;構(gòu)建多尺度網(wǎng)絡(luò)以捕獲不同層次的情感語義;軟注意力負(fù)責(zé)識(shí)別關(guān)鍵情感特征。
通過結(jié)合預(yù)訓(xùn)練模型ERNIE2.0、多尺度網(wǎng)絡(luò)和軟注意力機(jī)制三者的特點(diǎn),從文本特征表示和特征學(xué)習(xí)等方面提升模型整體性能表現(xiàn),最后由線性層輸出圖書類別。分類模型整體結(jié)構(gòu)如圖1 所示。
預(yù)訓(xùn)練模型ERNIE2.0[9]采用持續(xù)性多任務(wù)的增量學(xué)習(xí)策略,結(jié)合詞的上下文語境學(xué)習(xí)到動(dòng)態(tài)語言表征,有效捕捉詞匯、句法和語義信息,增強(qiáng)模型語義理解能力。模型結(jié)構(gòu)如圖2 所示。
圖2 ERNIE2.0模型結(jié)構(gòu)
其中,Trans 表示Transformer 編碼器,主要由自注意力機(jī)制[10]和前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成。輸入向量E=(E1,E2,E,…,En)由字向量、位置向量和分句向量相加而成,Et表示第t個(gè)詞的向量表示,起始位置為句字整體語義向量[CLS]。字向量為句子中每個(gè)詞通過查詢?cè)~匯表對(duì)應(yīng)序列表示得到,不存在的則用[UNK]替代;位置向量的加入是為了彌補(bǔ)Transformer編碼器無法捕捉時(shí)序信息;該文圖書類型識(shí)別為單句分類任務(wù),因此分句向量全為0,表示第一句。輸入向量E經(jīng)多層編碼器捕捉每個(gè)詞在具體上下文語境的動(dòng)態(tài)含義,生成特定的語義表征向量T=(T1,T2,Tt,…,Tn),Tt表示第t個(gè)詞的動(dòng)態(tài)詞向量表征,作為多尺度網(wǎng)絡(luò)的輸入。
多尺度網(wǎng)絡(luò)由有序神經(jīng)元長(zhǎng)短時(shí)記憶ONLSTM[11]和多尺度卷積神經(jīng)網(wǎng)絡(luò)MCNN 構(gòu)成。ONLSTM 負(fù)責(zé)捕捉文本中上下文序列信息和層級(jí)結(jié)構(gòu)特征。MCNN 模塊通過不同大小的卷積核對(duì)文本特征矩陣進(jìn)行卷積操作,獲取詞和短語級(jí)別的局部語義特征。
傳統(tǒng)的循環(huán)模型如LSTM[12]只能學(xué)習(xí)到文本的語義特征,無法提取句子內(nèi)部的層級(jí)結(jié)構(gòu)信息,ONLSTM 模型將神經(jīng)元經(jīng)過特定排序后,利用神經(jīng)元的順序和層級(jí)差異特點(diǎn)以提取句子的語法結(jié)構(gòu)信息。主要計(jì)算過程如式(1)-(4)所示。
其中,σ代表sigmoid 函數(shù);ft、it和ot分別表示遺忘門、輸入門和輸出門;xt為當(dāng)前輸入信息。W和U為可學(xué)習(xí)的權(quán)重參數(shù)矩陣,b為偏置項(xiàng)。權(quán)重參數(shù)矩陣中存放著每個(gè)要素關(guān)聯(lián)的實(shí)際值,是神經(jīng)網(wǎng)絡(luò)的主要優(yōu)化目標(biāo)。權(quán)重參數(shù)矩陣W和U采用Xavier均勻化方式進(jìn)行隨機(jī)初始化,通過保持輸入和輸出的方差一致以避免梯度消失和爆炸問題[13]。
MCNN 模塊負(fù)責(zé)提取不同尺度下的文本局部語義。設(shè)置不同大小的卷積核心進(jìn)行局部信息抽取,采用最大池化策略選取重點(diǎn)特征,得到多尺度局部語義特征C。計(jì)算過程如式(10)、(11)所示。
其中,w表示卷積核;m代表滑動(dòng)窗口大??;?為卷積操作;Ti:i+m-1表示T中第i到i+m-1 行故障文本向量。該文設(shè)置卷積核為(2,3,4),得到局部語義特征c2、c3和c4。卷積操作過程如圖3 所示。
圖3 卷積操作過程
軟注意力層負(fù)責(zé)計(jì)算多尺度卷積操作輸出特征向量Ci的相應(yīng)權(quán)重大小ai,加權(quán)求和后得到整體的注意力特征V。其計(jì)算過程如式(12)-(14)所示。
分類層通過全連接神經(jīng)網(wǎng)絡(luò)將注意力特征V映射到實(shí)例分類空間,得到分類概率P,Top 函數(shù)取每行最大概率對(duì)應(yīng)標(biāo)簽為圖書類型結(jié)果Result,過程如式(15)、(16)所示。
為驗(yàn)證模型在圖書館文本分類任務(wù)上的有效性,采用清華大學(xué)提供的文本分類數(shù)據(jù)集[14]以及構(gòu)建了新的圖書館文本分類數(shù)據(jù)集,將兩者合并得到更全面的圖書館文本數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)集共有20個(gè)類別,樣本訓(xùn)練標(biāo)簽為當(dāng)前樣本類型,由人工進(jìn)行逐條標(biāo)記。訓(xùn)練內(nèi)容為圖書名稱和摘要描述,采用符號(hào)“ ”與標(biāo)簽隔開。按照8∶1∶1 劃分訓(xùn)練集、測(cè)試集和驗(yàn)證集。數(shù)據(jù)集詳情如表1 所示。
表1 數(shù)據(jù)集詳情
實(shí)驗(yàn)采用評(píng)價(jià)指標(biāo)準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 分?jǐn)?shù),具體計(jì)算過程如式(17)-(20)所示。
其中,TP 表示預(yù)測(cè)正確的正面樣本數(shù)量,TN 表示預(yù)測(cè)正確的負(fù)面樣本數(shù)量,F(xiàn)P 表示預(yù)測(cè)錯(cuò)誤的正面樣本數(shù)量,F(xiàn)N 表示預(yù)測(cè)錯(cuò)誤的負(fù)面樣本數(shù)量。
模型訓(xùn)練參數(shù)會(huì)影響分類性能,經(jīng)多次實(shí)驗(yàn)調(diào)整參數(shù)后得到最優(yōu)參數(shù)設(shè)定如下:ONLSTM 隱藏層單元數(shù)為256 個(gè),層數(shù)為2;為防止訓(xùn)練過擬合,設(shè)置隨機(jī)失活系數(shù)為0.4;軟注意力維度為512。MCNN模塊卷積核大小為(2,3,4),特征圖數(shù)量為100。該文實(shí)驗(yàn)軟硬件環(huán)境如表2 所示。
表2 實(shí)驗(yàn)環(huán)境
采用結(jié)合RAdam[15]和LookAhead[16]策略的優(yōu)化器Ranger 自動(dòng)調(diào)整學(xué)習(xí)率大小,通過預(yù)熱操作抵消過度方差問題,提升模型訓(xùn)練效果。綜合訓(xùn)練參數(shù)設(shè)置如表3 所示。
表3 綜合訓(xùn)練參數(shù)
為全方位驗(yàn)證該文模型的有效性,分別從詞向量效果對(duì)比、消融實(shí)驗(yàn)和與近期表現(xiàn)優(yōu)秀模型對(duì)比3 個(gè)方面開展實(shí)驗(yàn),并對(duì)比不同優(yōu)化器的性能以及卷積核大小對(duì)分類準(zhǔn)確率的影響。固定隨機(jī)數(shù)種子,避免隨機(jī)誤差對(duì)結(jié)果產(chǎn)生影響,采用10 次冷啟動(dòng)實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果。模型實(shí)驗(yàn)結(jié)果對(duì)比如表4 所示。
表4 模型實(shí)驗(yàn)結(jié)果
由表4 結(jié)果可知,該文模型ERNIE2.0-MSNAT 準(zhǔn)確率達(dá)到97.85%,高于實(shí)驗(yàn)對(duì)比的優(yōu)秀模型,較BERT-BiLSTM、ALBERT-CRNN 和BERTBiGRU-AT 準(zhǔn)確率分別提升了2.48%、2.43%和1.53%,證明了ERNIE2.0、多尺度網(wǎng)絡(luò)和軟注意力模塊三者結(jié)合的有效性,能夠提升圖書館文本分類性能。
為驗(yàn)證ERNIE2.0 模型提取文本動(dòng)態(tài)特征向量的有效性,采用Word2vec[17]和BERT[18]詞向量模型作為對(duì)比實(shí)驗(yàn),結(jié)果表明,ERNIE2.0 用作詞嵌入層效果更佳,較Word2vec-MSN 和BERT-MSN 模型準(zhǔn)確率分別提升了2.29%和0.73%,表明ERNIE2.0 通過持續(xù)增量多任務(wù)學(xué)習(xí)策略能夠?qū)W習(xí)到語義表示更為準(zhǔn)確的詞向量表征,解決一詞多義問題。
設(shè)置消融實(shí)驗(yàn)以驗(yàn)證每個(gè)模塊對(duì)整體性能的貢獻(xiàn)程度,與單一特征抽取模型ERNIE2.0-ONLSTM 和ERNIE2.0-MCNN相比,多尺度模型準(zhǔn)確率分別提高了0.93%和0.79%,證明了ONLSTM 和MCNN 模塊通過捕捉不同層次的語義特征,增強(qiáng)模型特征捕捉的完整性。
為驗(yàn)證不同優(yōu)化器的訓(xùn)練效果,分別采用Adam、RAdam、LookAhead 與Ranger 進(jìn)行實(shí)驗(yàn)對(duì)比。各個(gè)優(yōu)化器在驗(yàn)證集上的準(zhǔn)確率變化如圖4 所示。
圖4 優(yōu)化器性能對(duì)比圖
由圖4 結(jié)果得知,優(yōu)化器Ranger 訓(xùn)練過程準(zhǔn)確率穩(wěn)定上升,模型分類性能表現(xiàn)最佳,優(yōu)于對(duì)比的其他優(yōu)化策略。RAadm 作為Adam 的增強(qiáng)版,能夠自動(dòng)調(diào)整學(xué)習(xí)率大小并加入了預(yù)熱策略,訓(xùn)練效果優(yōu)于Adam。
卷積核數(shù)目過多會(huì)增加模型參數(shù)量,但對(duì)性能提高無明顯幫助。設(shè)置MCNN 模塊卷積核數(shù)量為3,分別采用(2,3,4)、(2,3,5)、(2,4,5)和(3,4,5)卷積核組合進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖5 所示。
圖5 卷積核大小性能對(duì)比圖
由圖5 可知,當(dāng)卷積組合為(2,3,4)時(shí),模型準(zhǔn)確率最高,參數(shù)設(shè)定需要根據(jù)不同任務(wù)進(jìn)行相應(yīng)調(diào)整[19-21]。
針對(duì)圖書館文本分類任務(wù),提出了結(jié)合ERNIE2.0和多尺度網(wǎng)絡(luò)的數(shù)字圖書館文本分類模型。ERNIE2.0模型結(jié)合當(dāng)前詞的具體上下文獲取動(dòng)態(tài)向量表征,提升了詞向量語義表達(dá)的準(zhǔn)確性,應(yīng)用效果優(yōu)于BERT 和Word2vec;多尺度網(wǎng)絡(luò)通過整合局部語義和全局序列特征,增強(qiáng)模型捕捉特征的全面性,通過消融實(shí)驗(yàn)證明多尺度網(wǎng)絡(luò)優(yōu)于單一網(wǎng)絡(luò),軟注意力機(jī)制作為通用模塊能有效提升模型分類性能。通過實(shí)驗(yàn)證明了ERNIE2.0-MSN-AT 模型的優(yōu)異性能,能準(zhǔn)確區(qū)分圖書文本類別。