張駿強(qiáng) 高尚兵 蘇睿 李文婷
摘要
在對化工領(lǐng)域類文本進(jìn)行分類任務(wù)時(shí),由于文本的專業(yè)性以及復(fù)雜多樣性,僅僅依靠現(xiàn)有的詞向量表征方式,很難對其中的專業(yè)術(shù)語以及其他化工領(lǐng)域內(nèi)相關(guān)字詞的語義進(jìn)行充分表征,從而導(dǎo)致分類任務(wù)的準(zhǔn)確率不高.本文提出一種融合多粒度動態(tài)語義表征的文本分類模型,首先在詞嵌入層使用動態(tài)詞向量表征語義信息并引入對抗擾動,使得詞向量具有更好的表征能力,然后利用多頭注意力機(jī)制進(jìn)行詞向量權(quán)重分配,獲得帶有關(guān)鍵語義信息的文本表示,最后使用提出的多尺度殘差收縮深層金字塔形的卷積神經(jīng)網(wǎng)絡(luò)與混合注意力膠囊雙向LSTM網(wǎng)絡(luò)模型分別提取不同粒度的文本表示,融合后對得到的最終文本表示進(jìn)行分類.實(shí)驗(yàn)結(jié)果表明,相比于現(xiàn)有模型,所提出的模型使用不同詞向量表示時(shí),在化工領(lǐng)域文本數(shù)據(jù)集上F1-Score最高可達(dá)84.62%,提升了0.38~5.58個(gè)百分點(diǎn);在公開中文數(shù)據(jù)集THUCNews和譚松波酒店評論數(shù)據(jù)集ChnSentiCorp上進(jìn)行模型泛化性能評估,模型也有較好表現(xiàn).
關(guān)鍵詞文本分類;對抗擾動;多粒度;多頭注意力機(jī)制;深度殘差收縮;預(yù)訓(xùn)練語言模型
中圖分類號
TP391;TQ072
文獻(xiàn)標(biāo)志碼
A
收稿日期
2022-01-12
資助項(xiàng)目
國家重點(diǎn)研發(fā)計(jì)劃(2018YFB1004904);江蘇省“六大人才高峰”資助項(xiàng)目(XYDXXJS-011);江蘇省“333工程”資助項(xiàng)目(BRA2016454);江蘇省教育廳重大研究項(xiàng)目(18KJA520001);淮陰工學(xué)院研究生科技創(chuàng)新計(jì)劃項(xiàng)目(HGYK202121)
作者簡介張駿強(qiáng),男,碩士生,研究方向?yàn)閿?shù)據(jù)挖掘與推薦系統(tǒng).zhangjq0906@hyit.edu.cn
高尚兵(通信作者),男,博士,教授,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘與模式識別.gaoshangbing@hyit.edu.cn
0 引言
化工業(yè)屬于國民經(jīng)濟(jì)基礎(chǔ)產(chǎn)業(yè)之一,它在中國近現(xiàn)代工業(yè)的發(fā)展中占據(jù)著極為重要的地位,其制造出來的各種產(chǎn)品滲透在人們生活的方方面面中.新冠疫情的出現(xiàn)使得本就不景氣的傳統(tǒng)工業(yè)經(jīng)濟(jì)效益下滑加?。?],而互聯(lián)網(wǎng)行業(yè)受其影響相對較小,各行各業(yè)的海量信息以文本、圖像、音頻等方式被呈現(xiàn)在其中.通過新興的計(jì)算機(jī)技術(shù)對互聯(lián)網(wǎng)上海量的資源加以分析,挖掘其蘊(yùn)含的內(nèi)在價(jià)值,從而反哺傳統(tǒng)工業(yè),具有重大的現(xiàn)實(shí)意義.
化工領(lǐng)域文本涉及到化學(xué)這一自然科學(xué),相比于其他僅涉及人文科學(xué)的文本數(shù)據(jù),化工領(lǐng)域文本數(shù)據(jù)有著更高的專業(yè)程度,這使得對該領(lǐng)域相關(guān)人員專業(yè)水平要求很高,化工文本理解學(xué)習(xí)成本也較大.
對于化工領(lǐng)域內(nèi)的從業(yè)人員而言,可以依據(jù)其經(jīng)驗(yàn)以及專業(yè)知識對領(lǐng)域內(nèi)化工產(chǎn)品文本所屬衍生領(lǐng)域進(jìn)行分類.而對于計(jì)算機(jī)而言,采用自然語言處理的方式對化工產(chǎn)品文本進(jìn)行區(qū)別分類具有更大的可行性與便捷性.
目前針對文本分類的算法,使用的詞向量大多還是基于Word2Vec[2]等模型訓(xùn)練靜態(tài)詞向量,而現(xiàn)如今很多有隱含價(jià)值的文本越來越趨向于碎片化,其上下文之間往往不具備很緊密的邏輯關(guān)系,靜態(tài)詞向量并不能很好地根據(jù)字詞的上下文去變化,語義表達(dá)能力較弱[3],這使得文本分類精度受到極大影響,預(yù)訓(xùn)練語言模型[4]的出現(xiàn)很好地緩解了這個(gè)問題.Google于2018年提出了一種基于Transformer結(jié)構(gòu)的雙向編碼表示模型 (Bidirectional Encoder Representation from Transformers,BERT)[5],該模型的出現(xiàn)使得詞向量模型的泛化能力進(jìn)一步增強(qiáng),并在文本分類領(lǐng)域做出了巨大的貢獻(xiàn).Lan等[6]通過矩陣分解以及共享參數(shù)的方法在僅僅損失小部分模型性能的基礎(chǔ)上,進(jìn)一步地減少了BERT模型的參數(shù)量.Yang等[7]通過將單詞隨機(jī)打亂詞序從而實(shí)現(xiàn)上下文雙向編碼,進(jìn)一步提升了模型性能.雖然BERT等預(yù)訓(xùn)練語言模型性能表現(xiàn)優(yōu)秀,但該模型并不是針對中文領(lǐng)域文本所設(shè)計(jì)的預(yù)訓(xùn)練模型,也沒有對中文領(lǐng)域文本特點(diǎn)進(jìn)行針對性優(yōu)化.因此,Cui等[8]提出一種新的中文預(yù)訓(xùn)練語言模型(MLM as correction BERT,MacBERT),并在相關(guān)中文自然語言處理任務(wù)中取得了較好成績.
針對化工領(lǐng)域產(chǎn)品文本這一種類特殊的文本數(shù)據(jù),本文總結(jié)了以下幾個(gè)特點(diǎn):1)文本專業(yè)性強(qiáng),文本中包含有大量化學(xué)專業(yè)術(shù)語名詞,主流分詞方式缺乏化學(xué)名詞詞庫,而人工理解文本進(jìn)行分類成本較高,要求進(jìn)行分類的人員有較高的相關(guān)知識水平;2)文本類別較多,例如本文所統(tǒng)計(jì)的化工領(lǐng)域內(nèi)產(chǎn)品文本就涵蓋有有機(jī)原料、化工試劑、化工中間體、化學(xué)礦、無機(jī)化工、農(nóng)業(yè)化工、涂料油漆、聚合物、染料、食品添加劑、生物化工等17個(gè)類別,這也增加了文本分類難度;3)文本規(guī)范性差,文本中的化學(xué)名詞由數(shù)字、中文、英文、符號組合,是文本中的重要局部特征之一,總體是一種交替間隔出現(xiàn)的趨勢;4)文本篇幅長且關(guān)鍵特征呈現(xiàn)碎片化分布,化工產(chǎn)品文本主要有CAS號、產(chǎn)品描述、形狀特征以及包裝方式等字段內(nèi)容構(gòu)成,通常文本篇幅較長,但是字段之間聯(lián)系較少,邏輯性弱;5)文本含噪聲比例高,化工產(chǎn)品文本中會存在部分文本攜帶同廠家生產(chǎn)的其他類型化工產(chǎn)品廣告推廣,但是這些廣告文本內(nèi)容與其類別內(nèi)的其他產(chǎn)品關(guān)鍵特征相似度高,這使得噪聲文本很難被常規(guī)清洗手段去除.
現(xiàn)有的文本分類方法大多還是針對通用領(lǐng)域文本,其中包含的領(lǐng)域?qū)I(yè)字詞往往較少,這導(dǎo)致分類方法在詞向量建模階段就不能很好地表達(dá)語義信息,進(jìn)而在后續(xù)使用傳統(tǒng)網(wǎng)絡(luò)模型進(jìn)行文本特征提取時(shí),會產(chǎn)生諸多問題.一方面,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)只能提取局部特征,由于化工文本邏輯性不強(qiáng),并且分布呈現(xiàn)碎片化,這使得CNN提取到的局部特征往往不夠全面,并且無法很好利用化工長文本中蘊(yùn)含的全局語義信息.另一方面,傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體雖然能提取全局特征信息,但由于化工文本含噪聲比例高,這會使得提取到的全局特征受到影響.因此,如今傳統(tǒng)的特征提取方法已經(jīng)無法很好地適應(yīng)專業(yè)領(lǐng)域文本的分類任務(wù),亟需針對化工領(lǐng)域產(chǎn)品特點(diǎn)設(shè)計(jì)一種專業(yè)性強(qiáng)的文本分類方法.
為了準(zhǔn)確、高效地對化工產(chǎn)品文本特征進(jìn)行表征,有效獲取化工文本特征語義信息,針對現(xiàn)有文本分類方法應(yīng)用在化工文本分類任務(wù)效果欠佳的問題,本文提出一種融合多粒度動態(tài)語義表征的文本分類模型.本文貢獻(xiàn)可總結(jié)為以下三點(diǎn):
1)由于化工文本具有較強(qiáng)專業(yè)性以及復(fù)雜多樣性,僅僅依靠現(xiàn)有的詞向量表征方式,很難對其中的專業(yè)術(shù)語以及其他化工領(lǐng)域內(nèi)相關(guān)字詞的語義進(jìn)行充分表征,從而導(dǎo)致分類任務(wù)準(zhǔn)確率不高.針對這一問題,本文提出了一種融合多粒度動態(tài)語義表征的文本分類模型.該模型受對抗訓(xùn)練思想啟發(fā),將對抗擾動引入動態(tài)詞向量訓(xùn)練過程中,進(jìn)一步提升化工詞向量表征能力,使用多頭自注意力更好地突出化工專業(yè)名詞特征的權(quán)重,并針對下游分類任務(wù)提出了一種多尺度殘差收縮深層金字塔形的卷積神經(jīng)網(wǎng)絡(luò)和混合注意力雙向LSTM膠囊網(wǎng)絡(luò)模型進(jìn)行化工文本深度特征提取,有效提升了化工領(lǐng)域文本分類任務(wù)的準(zhǔn)確性.
2)針對化工長文本含噪比例高,從而會導(dǎo)致文本特征提取困難的問題,提出MSRS-DPCNN模型應(yīng)用于文本分類任務(wù)下游.通過將深度殘差收縮網(wǎng)絡(luò)中的注意力機(jī)制與軟閾值機(jī)制引入到DPCNN模型[9]的殘差連接中,減少化工文本中噪聲對特征提取的影響,增強(qiáng)模型對噪聲的抑制能力,使得模型對于含噪聲比例較高的化工領(lǐng)域文本樣本具有較好的魯棒性.實(shí)驗(yàn)表明該模型可以有效提取含噪化工文本中的長距離關(guān)鍵依賴信息.
3)考慮到對于邏輯性差、結(jié)構(gòu)性弱的化工文本,其空間語義信息本就包含較少,而MSRS-DPCNN模型在池化的過程中又無法有效提取化工文本結(jié)構(gòu)空間語義信息,從而導(dǎo)致模型分類效果差的問題,提出HAC-BiLSTM模型,引入膠囊網(wǎng)絡(luò)增強(qiáng)空間語義信息提取能力,并通過去除原膠囊網(wǎng)絡(luò)中卷積特征提取模塊,改用可以更好保留化工長文本上下文語義特征的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)特征提取模塊,使得HAC-BiLSTM保留空間語義信息能力得到進(jìn)一步提升,最終實(shí)現(xiàn)對整個(gè)化工文本上下文空間語義信息的高效提?。?/p>
1 相關(guān)工作
深度學(xué)習(xí)技術(shù)的迅猛發(fā)展使得神經(jīng)網(wǎng)絡(luò)模型在自然語言處理任務(wù)的許多應(yīng)用領(lǐng)域中都有極佳表現(xiàn),因而逐漸受到研究學(xué)者們的關(guān)注,大量基于神經(jīng)網(wǎng)絡(luò)的算法被應(yīng)用在文本分類等任務(wù)上.
Kim[10]提出TextCNN通過對文本表示進(jìn)行一維卷積的形式來獲取句子中的多尺度特征表示信息,只使用了一層卷積與一層最大池化,最后通過全連接層輸出分類.盡管該模型對文本表示的淺層特征的提取性能很強(qiáng),但由于隱藏層太淺,仍然不足以提取出更高層特征,并且也沒有解決CNN模型的通病,即模型無法充分獲取上下文語義信息.Zeng等[11]使用深層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語義特征提取,充分利用卷積深度捕捉文本語義信息,該方法摒棄了傳統(tǒng)特征抽取環(huán)節(jié)中對各種處理工具的依賴,從而帶來了文本分類在準(zhǔn)確性上的提升.Liu等[12]提出了一個(gè)基于RNN的多任務(wù)結(jié)構(gòu),多任務(wù)結(jié)構(gòu)由三個(gè)包含多層LSTM(Long Short-Term Memory)的模型組成,克服了CNN由于感受野大小固定,很難完全采集到文本的所有信息的缺點(diǎn),并且多個(gè)多層LSTM也能較好地提取深層語義特征.Yang等[13]提出一種基于分層注意力的網(wǎng)絡(luò)模型,在詞級編碼和句子級編碼的過程中引入注意力機(jī)制,充分考慮到了文本之間的相關(guān)性,最終模型效果均超過LSTM、TextCNN等模型.
考慮到卷積結(jié)構(gòu)抽取特征的過程中會丟失大量空間信息,且無法關(guān)注到語序結(jié)構(gòu)對字詞之間的影響,Sabour等[14]提出采用膠囊網(wǎng)絡(luò)大量保留空間要素信息.賈旭東等[15]將可以融合多通道特征的多頭注意力機(jī)制引入到膠囊網(wǎng)絡(luò)中進(jìn)行文本分類,通過該機(jī)制編碼文本中的字詞間依賴關(guān)系,獲取長距離詞間關(guān)聯(lián)信息,驗(yàn)證了多頭注意力機(jī)制以及膠囊網(wǎng)絡(luò)在文本分類任務(wù)上的可行性.林悅等[16]將膠囊網(wǎng)絡(luò)引入到跨領(lǐng)域文本分類中,設(shè)計(jì)了額外的膠囊網(wǎng)絡(luò)層輔助目標(biāo)領(lǐng)域的適應(yīng),有效提高了跨領(lǐng)域情感分類任務(wù)精度.
然而上述這些算法大多還是基于傳統(tǒng)靜態(tài)詞向量的文本分類方法,靜態(tài)詞向量無法很好適應(yīng)語境變化帶來的語義變化,語義表達(dá)過于死板,單純的靜態(tài)詞向量表征方式已經(jīng)無法滿足文本分類的要求.因此基于動態(tài)詞向量的分類方法逐漸受到研究者們的關(guān)注,Li等[17]提出一種基于BERT和特征融合的文本自動分類方法.該方法通過BERT預(yù)訓(xùn)練模型生成具有更豐富語境信息的動態(tài)詞向量,然后用特征融合的方法充分利用CNN提取局部特征以及BiLSTM利用內(nèi)存進(jìn)行鏈接的優(yōu)勢,來更好地表征文本的語義信息,從而提高中文文本分類任務(wù)的準(zhǔn)確性.
對抗訓(xùn)練[18]最早于2015年被提出并應(yīng)用在圖像領(lǐng)域.研究發(fā)現(xiàn),通過向圖像樣本[19]中添加微小擾動得到對抗樣本,使得模型經(jīng)過訓(xùn)練修復(fù)擾動產(chǎn)生的誤差,從而可以使得模型魯棒性有所提升.鑒于文本數(shù)據(jù)不同于圖像數(shù)據(jù),是一種離散型數(shù)據(jù),Miyato等[20]提出將對抗訓(xùn)練的思想應(yīng)用在文本模型的詞嵌入層上,實(shí)驗(yàn)結(jié)果表明,在多個(gè)任務(wù)中都使得模型的性能得到提升.受此啟發(fā),本文將對抗擾動同樣加入到詞嵌入層中,不同于傳統(tǒng)靜態(tài)詞向量,而是加入到動態(tài)詞向量中,文本表示可以始終隨著模型訓(xùn)練而調(diào)優(yōu),使得文本表示的魯棒性得到提高.
深度殘差收縮網(wǎng)絡(luò)[21]繼承了殘差收縮網(wǎng)絡(luò)的優(yōu)點(diǎn),同時(shí)集成了注意力機(jī)制與軟閾值化,被廣泛應(yīng)用于圖像領(lǐng)域進(jìn)行樣本降噪.由于化工領(lǐng)域產(chǎn)品文本具有噪聲比例高的特性,本文將深度殘差收縮網(wǎng)絡(luò)加入到下游卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,抑制噪聲文本對于模型分類產(chǎn)生的不利影響.
綜上,考慮到化工領(lǐng)域文本的特殊背景,單一種類的神經(jīng)網(wǎng)絡(luò)使用靜態(tài)詞向量進(jìn)行文本表示的不能充分表征文本信息,這些網(wǎng)絡(luò)結(jié)構(gòu)無法很好地在化工領(lǐng)域文本分類任務(wù)中發(fā)揮作用.
提高化工領(lǐng)域文本分類任務(wù)精度的關(guān)鍵在于如何有效地考慮到因?yàn)槠涮厥忸I(lǐng)域背景而與常規(guī)領(lǐng)域文本之間產(chǎn)生的數(shù)據(jù)差異鴻溝.本文利用對抗擾動與動態(tài)詞向量對文本信息的強(qiáng)表征能力,降低模型在預(yù)處理詞向量建模過程中無法有效處理專業(yè)名詞而帶來的負(fù)面影響,同時(shí)構(gòu)建深度模型結(jié)構(gòu)提取長距離關(guān)鍵依賴關(guān)系,并應(yīng)用深度殘差結(jié)構(gòu)抑制化工文本噪聲,使用提出的混合注意力的雙向LSTM結(jié)合動態(tài)路由膠囊網(wǎng)絡(luò)結(jié)構(gòu)提取保留全局空間語義信息,從而得到融合了長距離依賴局部關(guān)鍵信息和全局空間語義信息的多粒度特征表達(dá),有效解決化工領(lǐng)域文本分類準(zhǔn)確率低的問題.
2 融合多粒度動態(tài)語義表征的文本分類模型
本文提出的融合多粒度動態(tài)語義表征的文本分類模型主要由生成動態(tài)對抗詞嵌入的MacBERT、進(jìn)行權(quán)重強(qiáng)化調(diào)整的多頭自注意力模型、進(jìn)行關(guān)鍵語義信息深度抽取的MSRS-DPCNN模型、構(gòu)建全局空間語義要素的HAC-BiLSTM模型、特征融合層和輸出層構(gòu)成.其模型結(jié)構(gòu)如圖1所示,下面將對各層進(jìn)行詳細(xì)闡述.
2.1 動態(tài)對抗詞嵌入生成
考慮到由于化工領(lǐng)域文本專業(yè)性較強(qiáng)、文本篇幅長且詞間邏輯聯(lián)系性較差的特點(diǎn),傳統(tǒng)靜態(tài)詞向量很難充分捕捉到化工領(lǐng)域字詞間的各種語義聯(lián)系,進(jìn)而無法有效地表征化工領(lǐng)域文本的語義信息.因此,模型采用MacBERT模型生成動態(tài)詞向量,并且在詞向量動態(tài)訓(xùn)練過程中加入對抗擾動,進(jìn)一步提升生成的化工文本詞向量的魯棒性以及表征能力,由此生成動態(tài)對抗詞嵌入.MacBERT模型是在BERT基礎(chǔ)上提出的一種用于中文文本的預(yù)訓(xùn)練語言模型,該模型同樣采用雙向Transformer結(jié)構(gòu).為了提升動態(tài)詞向量的表征能力,在詞向量訓(xùn)練過程中加入對抗擾動[22],具體過程如下所示:
設(shè)輸入文本序列矩陣為X={x 1,x 2,…,x l(X)},l(X)為X中序列長度,輸入預(yù)訓(xùn)練好的MacBERT進(jìn)行向量化處理.模型對X進(jìn)行tokenization分詞并轉(zhuǎn)化為向量,然后混合句子編碼和位置編碼輸入到transformer中,在此過程中疊加對抗擾動進(jìn)行計(jì)算.對抗擾動計(jì)算公式具體如下:
Δx=·g‖g‖ 2,? (1)
x=x+Δx,? (2)
g= xL(x,y;θ),? (3)
式(1)中Δx表示擾動值,‖·‖ 2表示計(jì)算2范數(shù),g表示求解的梯度,表示權(quán)重參數(shù),用于控制產(chǎn)生大對抗擾動的幅度;式(2)表示對抗樣本的建立;式(3)中L表示預(yù)訓(xùn)練語言模型的損失, x表示對損失函數(shù)求偏導(dǎo),x表示添加過擾動后的迭代輸入,y表示真實(shí)標(biāo)簽,θ表示模型參數(shù).
最終經(jīng)過對抗訓(xùn)練后的詞向量序列S={s 1,s 2,…,s n,…,s l(X)},s n是第n個(gè)文本的輸出向量表示.
2.2 權(quán)重強(qiáng)化調(diào)整
注意力機(jī)制最早在機(jī)器翻譯任務(wù)領(lǐng)域取得成功[23].為了進(jìn)一步地優(yōu)化所生成的詞向量對化工領(lǐng)域文本的語義表征能力,詞向量通過注意力機(jī)制對字詞權(quán)重進(jìn)行重新分配,從而獲得化工文本字詞在全局上的深層語義信息,緩解化工文本字段間聯(lián)系性差、邏輯性弱的問題.多頭注意力機(jī)制通過線性變換、分割操作、多頭線性投影、子空間注意力計(jì)算以及最后的拼接五個(gè)操作,實(shí)現(xiàn)對不同子空間中提取的關(guān)鍵特征進(jìn)行交互,更好地關(guān)注化工文本中更為重要的語義信息,模型結(jié)構(gòu)如圖2所示.
文本序列經(jīng)過訓(xùn)練語言模型向量化處理后生成的動態(tài)詞向量,依舊可以進(jìn)一步提取語義特征.為了使動態(tài)詞向量在往后的模型訓(xùn)練過程中獲取除去上游預(yù)訓(xùn)練語言模型以外的模型歸納偏置,繼續(xù)使用多頭注意力機(jī)制二次強(qiáng)化調(diào)整詞向量之間的權(quán)重.
輸出詞向量M 0已經(jīng)進(jìn)一步加強(qiáng)了對化工文本中關(guān)鍵特征的權(quán)重,將其和動態(tài)詞向量S進(jìn)行殘差連接得到最終輸出的詞向量序列E:
E=M 0+S.? (4)
2.3 關(guān)鍵語義信息深度抽取
化工領(lǐng)域長文本含噪比例較高,僅僅通過一般的淺層卷積結(jié)構(gòu)很難在充分摒除噪聲影響的同時(shí)提取到長文本特征以及上下文語義間的聯(lián)系.為此本文提出一種多尺度殘差收縮深層金字塔形的卷積神經(jīng)網(wǎng)絡(luò)模型(Multi-Scale Residual Shrinkage Deep Pyramid Convolutional Neural Networks,MSRS-DPCNN),通過不斷加深卷積網(wǎng)絡(luò)深度,在抑制噪聲的同時(shí)對化工詞向量序列中的長距離依賴關(guān)鍵信息進(jìn)行有效抽取,模型結(jié)構(gòu)如圖3所示,其中k為輸入詞向量維度.
MSRS-DPCNN模型考慮到化工文本詞間聯(lián)系弱進(jìn)而會導(dǎo)致語義連貫性差的問題,所以模型在初始進(jìn)行卷積時(shí),進(jìn)行了不同尺度的卷積拼接操作,用以獲得更多尺度的特征信息,增強(qiáng)詞間語義聯(lián)系,囊括更多語義信息.具體公式如下:
c i=f(W 1·E+b 1),? (5)
C=concat(c 1,c 2,…,c i),? (6)
其中,c i表示第i個(gè)卷積操作的輸出,E表示輸入向量序列,C表示多種卷積尺度的拼接操作最終輸出結(jié)果.
同時(shí),為了增強(qiáng)模型對化工文本中噪聲的抵抗能力,模型在殘差連接之間使用了改進(jìn)的殘差收縮模塊 (Residual Shrinkage Building Unit with Channel-Wise thresholds,RSBU-CW)[21].RSBU-CW模型結(jié)構(gòu)如圖4所示.
RSBU-CW利用注意力機(jī)制來生成軟閾值函數(shù)所需的閾值,實(shí)現(xiàn)對化工文本中噪聲的弱化乃至消除處理.逐通道閾值化使得其能更好關(guān)注不同通道中的重要特征,而軟閾值化是信號降噪處理中的常用算法.通過軟閾值化機(jī)制收縮輸入的特征,當(dāng)特征值低于注意力機(jī)制生成的閾值時(shí),可以認(rèn)為這部分特征即為噪聲,對這部分特征進(jìn)行置零消除,其他部分特征會得到保留,通過這種方式可以實(shí)現(xiàn)對輸入特征向量的降噪處理,其公式如下:
y=x-τ, x>τ,
0,-τ≤x≤τ,
x+τ,x<-τ,? (7)
式(7)中x表示輸入特征向量,y表示輸出特征向量,τ為不同特征向量下注意力機(jī)制產(chǎn)生的自適應(yīng)閾值.
最后得到MSRS-DPCNN模型的輸出向量M DP.
2.4 全局空間語義要素構(gòu)建
在進(jìn)行文本特征提取的過程中,考慮到上下文語義信息對于篇幅較長的化工文本尤為重要,依靠單一卷積結(jié)構(gòu)只能關(guān)注到局部關(guān)鍵特征,并且在池化的過程中還會丟失大量的空間語義信息,反映到文本序列中就是詞的上下文位置順序等空間信息丟失.而化工文本本身蘊(yùn)含的空間信息就少,因此如何有效捕捉這些信息對于提升化工文本分類精度就顯得更為關(guān)鍵.而前人的工作中也驗(yàn)證了膠囊網(wǎng)絡(luò)可以有效保留特征空間結(jié)構(gòu)信息[24],因此,本文提出了一種混合注意力膠囊雙向LSTM模型(Hybrid Attention Capsule Bidirectional LSTM network model,HAC-BiLSTM).其模型結(jié)構(gòu)如圖5所示.
通過BiLSTM與注意力機(jī)制捕獲化工文本中隱含的全局語義信息并對關(guān)鍵信息權(quán)重進(jìn)行加強(qiáng),彌補(bǔ)卷積結(jié)構(gòu)無法充分關(guān)注上下文信息的缺點(diǎn).同時(shí),由于上文構(gòu)建的MSRS-DPCNN模型進(jìn)行的卷積和池化操作會丟失了大量空間語序結(jié)構(gòu)信息,因此在HAC-BiLSTM模型中構(gòu)建了膠囊網(wǎng)絡(luò)模型,用以保留并獲取相關(guān)文本的空間要素信息.
2.4.1 全局語義信息構(gòu)建
為了有效獲取化工長文本中的上下文語義信息,模型選擇BiLSTM對輸入進(jìn)行雙向的特征計(jì)算,相比于傳統(tǒng)LSTM結(jié)構(gòu),BiLSTM很好地解決了序列化處理輸入而無法有效地獲取上下文信息的問題[25],然后將得到的正反雙向隱層狀態(tài)序列表示H i={h i0,h i1,…,h i(n-1)},H′ i={h′ i0,h′ i1,…,h′ i(n-1)}合并拼接得到h t,隨后送入激活函數(shù)中,得到輸出特征向量.
2.4.2 全局語義注意力權(quán)重
由于BiLSTM在對化工文本特征提取過程中仍然會存在一定程度上的梯度彌散以及上下文語義不充分的問題,模型將對BiLSTM輸出進(jìn)行進(jìn)一步地注意力加權(quán)操作,提高關(guān)鍵特征的權(quán)重,詳細(xì)計(jì)算過程如下所示,最終得到輸出的特征向量為V att.
h′ n=tanh(W 2h t+b 2),? (8)
a n=exp(h′ nW 3)∑Nj=1h′ nW 3,? (9)
V att=∑Nn=1a nh t,? (10)
其中,h t是BiLSTM的輸出詞向量,W 2和b 2分別是權(quán)重矩陣和偏置,h′ n 為經(jīng)過tanh激活函數(shù)處理后的詞向量,W 3為權(quán)重矩陣,a n詞注意力概率權(quán)重分布,即詞的重要性信息,V att表示經(jīng)過詞的加權(quán)平均后的詞向量特征表示.
2.4.3 全局語義空間要素
考慮到MSRS-DPCNN模型在使用卷積模塊對化工文本進(jìn)行深度特征提取時(shí)會丟失大量空間信息,本文引入改進(jìn)的膠囊網(wǎng)絡(luò)緩解這一問題.本文模型丟棄了原膠囊網(wǎng)絡(luò)中的卷積層轉(zhuǎn)而使用BiLSTM進(jìn)行底層特征抽取,BiLSTM可以充分建模上下文全局語義信息,即可以關(guān)注到某個(gè)字詞在整句話中的位置語序關(guān)系.膠囊網(wǎng)絡(luò)最先被應(yīng)用于圖像領(lǐng)域,局部關(guān)鍵信息相對來說更為重要,因此會選擇使用卷積對文本建模提取特征.這使得膠囊網(wǎng)絡(luò)在被應(yīng)用于自然語言處理領(lǐng)域時(shí),只能關(guān)注到某個(gè)字詞在局部一段話中的相對特征信息,很難獲取全局語義信息,而在文本特征中上下文語序信息(全局信息)是十分重要的,因此本文模型局部關(guān)鍵信息由上文的MSRS-DPCNN模型抽取,使用BiLSTM代替膠囊網(wǎng)絡(luò)中的卷積進(jìn)行特征提取,從而使得文本空間語序要素可以進(jìn)一步被保留.
膠囊網(wǎng)絡(luò)由主膠囊層與數(shù)字膠囊層構(gòu)成,層間通過動態(tài)路由算法進(jìn)行聯(lián)系.設(shè)抽取到的特征為B i,則膠囊網(wǎng)絡(luò)的輸出為V cap.具體計(jì)算過程如下:
首先,膠囊網(wǎng)絡(luò)為了更好地保留空間要素,選擇使用矢量輸出代替?zhèn)鹘y(tǒng)卷積操作中的標(biāo)量輸出.主膠囊層的計(jì)算如式(11)所示,u i表示第i個(gè)通過卷積操作生成的膠囊向量,實(shí)現(xiàn)將B i特征映射到u i的過程.
u i=squash(W 3·B i+b 3).? (11)
其次,為了獲得分類運(yùn)算所需的概率預(yù)測向量,膠囊網(wǎng)絡(luò)通過一個(gè)squash擠壓函數(shù)實(shí)現(xiàn)對向量的壓縮,由此即開始動態(tài)路由的計(jì)算,詳細(xì)計(jì)算過程如式(12)至式(16)所示:
v j=squash(s j)=‖s j‖21+‖s j‖2s j‖s j‖,? (12)
式(11)與式(12) 中squash表示擠壓函數(shù).在式(11)中利用擠壓函數(shù)對向量s j進(jìn)行壓縮,規(guī)范其長度,使得v j始終保持在(0,1)之間,從而可以根據(jù)v j進(jìn)行概率判斷.
s j=∑ic ij j|i,? (13)
s j的計(jì)算需要對預(yù)測向量 j|i進(jìn)行加權(quán)求和,并計(jì)算膠囊層i總輸入s j,耦合系數(shù)c ij與預(yù)測向量 j|i的計(jì)算方法為
c ij=exp(b ij)∑kexp(b ik), (14)
j|i=W ju i,? (15)
式(15)中預(yù)測向量 j|i由主膠囊層的輸出u i經(jīng)過權(quán)重矩陣W j加權(quán)計(jì)算得到;式(14) 中待更新權(quán)重b ij的計(jì)算公式為
b ij=b ij+ j|iv j,? (16)
b ij經(jīng)過預(yù)測向量 j|i與輸出向量v j一致性計(jì)算迭代更新.
2.5 特征融合
利用集成學(xué)習(xí)的方式,將MSRS-DPCNN模型提取局部關(guān)鍵特征以及部分長距離依賴特征與HAC-BiLSTM模型提取的全局上下文語義關(guān)系特征進(jìn)行特征融合,如式(17)與(18)所示:
V HAC=V att+V cap,? (17)
G=concat(M DP,V HAC),? (18)
其中:V cap與V att為HAC-BiLSTM模型提取的兩種全局語義信息,融合后得到V HAC為HAC-BiLSTM模型輸出的向量;M DP為MS-DPCNN模型輸出的特征向量,與V HAC拼接后得到特征融合層的輸出向量G.
2.6 輸出
將前面通過特征融合得到的特征向量輸入全連接層進(jìn)行調(diào)整得到H:
H=liner(G),? (19)
隨后傳入softmax層進(jìn)行分類,得到最終分類結(jié)果.
3 實(shí)驗(yàn)過程與分析
3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)
本文模型基于Pytorch 1.6實(shí)現(xiàn),運(yùn)行環(huán)境為Ubuntu 18.04.3,GPU為1塊Tesla V100(16 GB),編程語言為Python 3.7.
化工領(lǐng)域產(chǎn)品數(shù)據(jù)收集自中國化工制造網(wǎng)(http://www.chemmade.com)、化工產(chǎn)品網(wǎng)(http://www.chemcp.com)以及蓋德化工網(wǎng)(https://china.guidechem.com)等國內(nèi)幾家較大的化工化學(xué)類交易平臺的化工產(chǎn)品信息,共包含有221 216條帶有標(biāo)簽的化工領(lǐng)域產(chǎn)品文本數(shù)據(jù),平均文本長度261.43字,標(biāo)簽種類分為17種,樣本類別之間數(shù)量比例分布不均衡,最高達(dá)到130∶1.文本數(shù)據(jù)涵蓋了主要化工產(chǎn)品分布領(lǐng)域,包括有機(jī)原料、化工試劑、化工中間體、化學(xué)礦、無機(jī)化工、農(nóng)業(yè)化工、涂料油漆、聚合物、染料、食品添加劑、生物化工、香精、膠粘劑、日用化工、催化劑以及植物提取物.
上述數(shù)據(jù)按照6∶2∶2的比例切分為訓(xùn)練集、驗(yàn)證集以及測試集,數(shù)據(jù)集的數(shù)據(jù)格式如表1所示.
為了對模型進(jìn)行泛化性評估,額外在THUCNews和ChnSentiCorp兩個(gè)中文公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).三個(gè)數(shù)據(jù)集詳細(xì)信息如表2所示.
THUCNews(http://thuctc.thunlp.org)隨機(jī)抽取20萬條數(shù)據(jù),涉及財(cái)經(jīng)、房產(chǎn)、股票、教育、科技、社會、時(shí)政、體育、游戲、娛樂共計(jì)10個(gè)類別,每個(gè)類別2萬條,平均數(shù)據(jù)長度22.34字,屬于短文本數(shù)據(jù)集;ChnSentiCorp(https://github.com/SophonPlus/ChineseNlpCorpus)是酒店評論數(shù)據(jù)集,一共分為正面和負(fù)面2個(gè)評價(jià)類別7 765條數(shù)據(jù),其中,正面評價(jià)5 322條,負(fù)面評價(jià)2 443條,平均數(shù)據(jù)長度128.52字,屬于長文本數(shù)據(jù)集.
3.2 數(shù)據(jù)預(yù)處理
具體的數(shù)據(jù)預(yù)處理主要包括以下幾個(gè)步驟:
1)數(shù)據(jù)集清洗.此步驟主要包括去除重復(fù)出現(xiàn)的無意義字詞(例如:啊、呃、呢、用途、性狀、外觀等)、去除多余空白、去除回車換行符和制表符以及繁簡體的統(tǒng)一.
2)選擇性中文分詞.將數(shù)據(jù)集進(jìn)行分詞用于生成靜態(tài)詞向量,對所清洗好的中文領(lǐng)域數(shù)據(jù)集利用jieba(https://github.com/fxsjy/jieba)分詞工具進(jìn)行中文分詞,此處選用的停用詞表為哈爾濱工業(yè)大學(xué)停用詞表.
3.3 實(shí)驗(yàn)參數(shù)設(shè)置
具體參數(shù)設(shè)置如表3所示.
3.4 評價(jià)指標(biāo)
本文分別采用精確率(Precision,P)、準(zhǔn)確率(Accuracy,A)以及F1值作為評價(jià)指標(biāo)用以對模型的分類效果進(jìn)行評價(jià).
精確率指的是在所有預(yù)測為正例的樣本中,預(yù)測正確的樣本所占的比例,主要用于驗(yàn)證特征提取效果和計(jì)算F1值,計(jì)算公式為
P=TPTP+FP.? (20)
準(zhǔn)確率指模型預(yù)測正確樣本數(shù)占樣本總數(shù)的比例,計(jì)算公式為
A=TP+TNTP+TN+FP+FN. (21)
召回率(Recall,R)指在所有真實(shí)為正例的樣本中預(yù)測正確的樣本所占的比例,計(jì)算公式為
R=TPTP+FN.? (22)
F1值用于結(jié)合精確率和召回率,對模型效果進(jìn)行綜合評價(jià),計(jì)算公式為
F1=2×P×RP+R.? (23)
其中:TP為真正例,表示實(shí)際為正例且預(yù)測為正例;FP為假正例,表示實(shí)際為負(fù)例但預(yù)測為正例;TN為真負(fù)例,表示實(shí)際為負(fù)例且預(yù)測為負(fù)例;FN表示假負(fù)例,表示實(shí)際為正例但預(yù)測為負(fù)例.
3.5 實(shí)驗(yàn)結(jié)果分析
3.5.1 模型有效性評估
為了驗(yàn)證提出的模型在化工領(lǐng)域產(chǎn)品數(shù)據(jù)集上的有效性,本文將模型與TextCNN[10]、DPCNN[9]、BiLSTM[12]、Capsule Network[26]四個(gè)基線模型以及三個(gè)多階段模型進(jìn)行了實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果如表4所示.
從表4可以看出,針對化工領(lǐng)域類文本數(shù)據(jù),使用動態(tài)詞向量能更好地提取文本表示,從而有效提高模型性能.本文模型在使用動態(tài)詞向量的情況下相比于僅使用靜態(tài)詞向量,F(xiàn)1-Score值分別上升了9.91和10.42個(gè)百分點(diǎn),和僅使用MacBERT中文預(yù)訓(xùn)練語言模型相比F1-Score上升了0.38個(gè)百分點(diǎn).在多階段模型中加入膠囊網(wǎng)絡(luò)可以一定程度上提升模型性能,可能原因是化工類文本邏輯性較弱且碎片化分布,單靠BiLSTM提取全局語義信息,無法兼顧到局部碎片化文本中的語序信息,而加入膠囊網(wǎng)絡(luò)可以有效彌補(bǔ)這一點(diǎn).相較于原始MacBERT模型,三種多階段基線模型性能均出現(xiàn)不同程度下降,并且下接網(wǎng)絡(luò)越簡單,模型性能下降越顯著.可能原因是預(yù)訓(xùn)練語言模型參數(shù)量過多,而下接的網(wǎng)絡(luò)由于參數(shù)量較小并且僅僅是簡單的模型拼接,并未考慮到不同下接模型特征提取方式的優(yōu)缺點(diǎn),以及特殊領(lǐng)域數(shù)據(jù)背景對模型性能產(chǎn)生的影響[28],故對接后很難充分發(fā)揮前者的優(yōu)異性能,甚至?xí)a(chǎn)生干擾,導(dǎo)致模型性能下降.
同時(shí),從表4數(shù)據(jù)可知,相較于幾組基線模型,本文構(gòu)建的模型在評價(jià)指標(biāo)上均達(dá)到最優(yōu),在使用靜態(tài)詞向量時(shí),本文模型較單階段基線模型中最優(yōu)模型F1-Score分別提升了5.58個(gè)百分點(diǎn)和3.73個(gè)百分點(diǎn).在使用動態(tài)詞向量時(shí),本文模型較多階段基線模型中最優(yōu)模型提升了0.89個(gè)百分點(diǎn).可以看出本文構(gòu)建的模型可以更好地適應(yīng)化工領(lǐng)域文本分類任務(wù),并提升分類任務(wù)精度.
為了更有效地說明模型各部分的作用,進(jìn)行了模型消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示.其中α代表詞消融對抗擾動機(jī)制,β代表消融多頭注意力機(jī)制,γ代表消融MSRS-DPCNN模型,δ代表消融HAC-BiLSTM模型,δ*代表在消融HAC-BiLSTM模型基礎(chǔ)上繼續(xù)對降噪模塊RSBU-CW進(jìn)行消融的模型.
通過表5實(shí)驗(yàn)數(shù)據(jù)可知,第1組消融對抗擾動機(jī)制使得模型F1-Score下降0.64個(gè)百分點(diǎn),模型性能出現(xiàn)較大幅度下降,主要原因可能是該機(jī)制可以提高模型魯棒性,降低過擬合風(fēng)險(xiǎn),而本文構(gòu)建的化工領(lǐng)域文本分類模型模塊較多,參數(shù)量較大,因此消融了可以提升模型魯棒性的對抗擾動機(jī)制會讓模型性能下降較大.第2組消融多頭注意力機(jī)制使得模型F1-Score下降0.45個(gè)百分點(diǎn),多頭注意力機(jī)制可以進(jìn)一步優(yōu)化上一層生成的詞向量對化工領(lǐng)域文本的語義表征能力,因此消融該部分同樣會對模型性能產(chǎn)生影響.第3組消融了MSRS-DPCNN模型使得模型F1-Score下降0.68個(gè)百分點(diǎn).由于該模型負(fù)責(zé)對化工長文本進(jìn)行深度特征提取,屬于重要的特征提取模塊,因此消融該部分同樣對模型整體性能產(chǎn)生較大影響.第4組先是對HAC-BiLSTM模型進(jìn)行消融實(shí)驗(yàn),模型F1-Score下降1.01個(gè)百分點(diǎn),在此基礎(chǔ)上繼續(xù)對MSRS-DPCNN模型中的降噪模塊進(jìn)行消融,模型F1-Score繼續(xù)下降0.29個(gè)百分點(diǎn),模型整體性能出現(xiàn)大幅下降,這表示該部分模型提取的上下文語義信息以及構(gòu)建的空間語序等結(jié)構(gòu)信息,對進(jìn)行化工領(lǐng)域這類特殊背景的文本分類有著至關(guān)重要的地位,同時(shí)降噪模塊也在一定程度上起到了抑制文本中噪聲干擾的能力.
綜上所述,本文提出的融合多粒度動態(tài)語義表征的文本分類模型對于化工領(lǐng)域文本分類任務(wù)有較好的性能表現(xiàn),通過抽取關(guān)鍵語義信息、全局語義信息以及空間要素這些不同粒度的語義表征可以有效提升分類任務(wù)精度.
3.5.2 模型泛化性評估
為了驗(yàn)證模型在中文文本分類任務(wù)上的泛化性能,本文在THUCNews和ChnSentiCorp兩個(gè)中文公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如表6、表7所示.
從表6中數(shù)據(jù)可知,本文提出的模型在THUCNews數(shù)據(jù)集上性能略低于MacBERT模型,主要原因是本文模型針對化工領(lǐng)域文本進(jìn)行了針對性設(shè)計(jì).THUCNews數(shù)據(jù)集與化工領(lǐng)域文本特性相差過大,屬于短文本,所含關(guān)鍵特征較少,并且本文所構(gòu)建的MacBERT模型下接結(jié)構(gòu)較為復(fù)雜,對較短的文本會產(chǎn)生語義過度解讀,同時(shí)其中的降噪機(jī)制亦會對短文本中特征的提取有一定抑制,因此本文提出模型相比較于單純使用預(yù)訓(xùn)練語言模型性能有一定下降.而在消融預(yù)訓(xùn)練語言模型僅使用靜態(tài)詞向量時(shí),本文提出的下接結(jié)構(gòu)可以有效提升模型性能,相比于最優(yōu)基線模型提升了0.34個(gè)百分點(diǎn),這表明模型在使用靜態(tài)詞向量時(shí)的下接結(jié)構(gòu)在短文本數(shù)據(jù)集上可以擁有的良好泛化性能.
而對于ChnSentiCorp數(shù)據(jù)集,從表7可以看出,本文構(gòu)建的模型即使是在使用靜態(tài)詞向量的情況下,準(zhǔn)確率和F1-Score分別提升1.35和1.31個(gè)百分點(diǎn).與其他三個(gè)多階段模型相比,準(zhǔn)確率和F1-Score分別提升0.45和0.60個(gè)百分點(diǎn),模型性能提升較明顯,主要是由于ChnSentiCorp數(shù)據(jù)集與化工領(lǐng)域數(shù)據(jù)集都屬于長文本數(shù)據(jù)集,而本文構(gòu)建的網(wǎng)絡(luò)可以很好地提取長文本中的特征,因而模型性能表現(xiàn)較好.
從三個(gè)多階段模型在兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以看出,膠囊網(wǎng)絡(luò)在長文本數(shù)據(jù)集上可以發(fā)揮出更好的優(yōu)勢.加入膠囊網(wǎng)絡(luò)的多階段模型在ChnSentiCorp數(shù)據(jù)集上的F1-Score指標(biāo)比THUCNews數(shù)據(jù)集提升0.19個(gè)百分點(diǎn),可能是因?yàn)殚L文本中字詞的空間結(jié)構(gòu)(語序)信息更豐富,從而使得效果提升更為明顯.
綜合在兩個(gè)數(shù)據(jù)集上以及與七個(gè)基線模型的實(shí)驗(yàn)對比結(jié)果,本文提出的模型在與化工領(lǐng)域數(shù)據(jù)集相似數(shù)據(jù)特點(diǎn)的長文本數(shù)據(jù)集上具有較好泛化性能,在短文本數(shù)據(jù)集上使用靜態(tài)詞向量時(shí)也擁有較好表現(xiàn).
3.5.3 不同文本長度對模型性能影響
為了探究不同化工文本長度對模型性能的影響,本文進(jìn)行了實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果如圖6所示.
從圖6可以看出,不同文本長度對模型性能有較大的影響.?dāng)?shù)據(jù)集的平均長度為261.43字,實(shí)驗(yàn)結(jié)果表明當(dāng)數(shù)據(jù)長度在128字時(shí)模型性能最佳.經(jīng)過對數(shù)據(jù)集分析后發(fā)現(xiàn),化工產(chǎn)品數(shù)據(jù)集文本長度中位數(shù)為148字,文本長度最長為1 946字,最短為27字,文本長度在區(qū)間[1,128]與[129,256]之間的比例達(dá)到2.02∶1.因此,文本長度超過148字時(shí)會使得大量的短文本數(shù)據(jù)被過度填充,低于148字時(shí)會使得文本數(shù)據(jù)過度截?cái)?,因而在文本長度選擇位于中位數(shù)148字附近的128字時(shí)模型性能最佳準(zhǔn)確率達(dá)到84.79%,F(xiàn)1-Score達(dá)到84.62%.
4 結(jié)束語
本文描述了融合多粒度動態(tài)語義表征的文本分類模型研究,針對化工領(lǐng)域產(chǎn)品文本這類特定領(lǐng)域的文本數(shù)據(jù),將MacBERT預(yù)訓(xùn)練語言模型作用在分類任務(wù)上游用以獲取句子的動態(tài)詞向量,并在其中引入對抗訓(xùn)練思想,增加文本表征的魯棒性.借助多頭注意力機(jī)制對文本表征二次權(quán)重調(diào)整,在任務(wù)下游利用帶有抑制噪聲文本數(shù)據(jù)能力的MSRS-DPCNN模型以及可以有效提取全局語義信息和空間要素的HAC-BiLSTM模型對預(yù)訓(xùn)練模型輸出的詞向量進(jìn)行深度特征提取,輸入分類器進(jìn)行分類.將本文提出的模型與其他幾種神經(jīng)網(wǎng)絡(luò)分類算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,在兩個(gè)公開數(shù)據(jù)集中本方法對長文本分類任務(wù)有較好表現(xiàn),較深的神經(jīng)網(wǎng)絡(luò)使得模型具有提取長距離語義依賴能力,但對于短文本,較深的網(wǎng)絡(luò)會導(dǎo)致性能過剩,反而效果不佳;在化工領(lǐng)域的中文化工產(chǎn)品數(shù)據(jù)集中,本方法優(yōu)于幾個(gè)基線模型,提高了分類的準(zhǔn)確性.
盡管本文提出的模型在準(zhǔn)確性上優(yōu)于其他分類方法,但由于領(lǐng)域類文本相對專業(yè)且往往文本數(shù)據(jù)構(gòu)成復(fù)雜,這使得構(gòu)建的模型通用性不強(qiáng),只能針對某一領(lǐng)域的特定任務(wù).未來可以通過在領(lǐng)域類中文本預(yù)處理的過程中引入領(lǐng)域?qū)I(yè)術(shù)語庫對文本進(jìn)行規(guī)范化從而整體提升數(shù)據(jù)集質(zhì)量,以及通過領(lǐng)域知識遷移等方式降低數(shù)據(jù)對模型的要求,使得模型的通用性和泛化性得到提升,從而可以應(yīng)用到更多領(lǐng)域中.
參考文獻(xiàn)
References
[1] 李海洋,趙國偉.2020年中國石油和化學(xué)工業(yè)經(jīng)濟(jì)運(yùn)行報(bào)告[J].現(xiàn)代化工,2021,41(3):251-253
LI Haiyang,ZHAO Guowei.China petroleum and chemical industry economic operation report 2020[J].Modern Chemical Industry,2021,41(03):251-253
[2] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv e-print,2013,arXiv:1301.3781
[3] Liu W K,Xiao J E,Hong M.Comparison on feature selection methods for text classification[C]//Proceedings of the 2020 4th International Conference on Management Engineering,Software Engineering and Service Sciences,2020:82-86
[4] 陳德光,馬金林,馬自萍,等.自然語言處理預(yù)訓(xùn)練技術(shù)綜述[J].計(jì)算機(jī)科學(xué)與探索,2021,15(8):1359-1389
CHEN Deguang,MA Jinlin,MA Ziping,et al.Review of pre-training techniques for natural language processing[J].Journal of Frontiers of Computer Science & Technology,2021,15(8):1359-1389
[5] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019:4171-4186
[6] Lan Z Z,Chen M D,Goodman S,et al.ALBERT:a lite BERT for self-supervised learning of language representations[J].arXiv e-print,2019,arXiv:1909.11942
[7] Yang Z L,Dai Z H,Yang Y M,et al.XlNet:generalized auto-regressive pretraining for language understanding[C]//Advances in Neural Information Processing Systems,2019:5754-5764
[8] Cui Y M,Che W X,Liu T,et al.Revisiting pre-trained models for Chinese natural language processing[C]//Findings of the Association for Computational Linguistics,2020:657-668
[9] Johnson R,Zhang T.Deep pyramid convolutional neural networks for text categorization[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers),2017:562-570
[10] Kim Y.Convolutional neural networks for sentence classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP),2014:1746-1751
[11] Zeng D J,Liu K,Lai S W,et al.Relation classification via convolutional deep neural network[C]//Proceedings of COLING 2014,the 25th International Conference on Computational Linguistics:Technical Papers,2014:2335-2344
[12] Liu P F,Qiu X P,Huang X J.Recurrent neural network for text classification with multi-task learning [C]//Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence,2016:2873-2879
[13] Yang Z C,Yang D Y,Dyer C,et al.Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2016:1480-1489
[14] Sabour S,F(xiàn)rosst N,Hinton G E.Dynamic routing between capsules[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems,2017:3856-3866
[15] 賈旭東,王莉.基于多頭注意力膠囊網(wǎng)絡(luò)的文本分類模型[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,60(5):415-421
JIA Xudong,WANG Li.Text classification model based on multi-head attention capsule neworks[J].Journal of Tsinghua University (Science and Technology),2020,60(5):415-421
[16] 林悅,錢鐵云.基于膠囊網(wǎng)絡(luò)的跨領(lǐng)域情感分類方法[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,11(3):286-294
LIN Yue,QIAN Tieyun.Cross-domain sentiment classification by capsule network[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(3):286-294
[17] Li W T,Gao S B,Zhou H,et al.The automatic text classification method based on BERT and feature union[C]//2019 IEEE 25th International Conference on Parallel and Distributed Systems.December 4-6,2019,Tianjin,China.IEEE,2019:774-777
[18] Goodfellow I J,Shlens J,Szegedy C.Explaining and harnessing adversarial examples[C]//3rd International Conference on Learning Representations,ICLR 2015-Conference Track Proceedings,2015
[19] 黃菲,高飛,朱靜潔,等.基于生成對抗網(wǎng)絡(luò)的異質(zhì)人臉圖像合成:進(jìn)展與挑戰(zhàn)[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,11(6):660-681
HUANG Fei,GAO Fei,ZHU Jingjie,et al.Heterogeneous face synthesis via generative adversarial networks:progresses and challenges[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2019,11(6):660-681
[20] Miyato T,Dai A M,Goodfellow I.Adversarial training methods for semi-supervised text classification[J].arXiv e-print,2016,arXiv:1605.07725
[21] Zhao M H,Zhong S S,F(xiàn)u X Y,et al.Deep residual shrinkage networks for fault diagnosis[J].IEEE Transactions on Industrial Informatics,2020,16(7):4681-4690
[22] Huang S,Papernot N,Goodfellow I,et al.Adversarial attacks on neural network policies[J].arXiv e-print,2017,arXiv:1702.02284
[23] Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[J].arXiv e-print,2014,arXiv:1409.0473
[24] 倪斌,陸曉蕾,童逸琦,等.膠囊神經(jīng)網(wǎng)絡(luò)在期刊文本分類中的應(yīng)用[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2021,57(5):750-756
NI Bin,LU Xiaolei,TONG Yiqi,et al.Automated journal text classification based on capsule neural network[J].Journal of Nanjing University (Natural Science),2021,57(5):750-756
[25] Sachan D S,Zaheer M,Salakhutdinov R.Revisiting LSTM networks for semi-supervised text classification via mixed objective function[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:6940-6948
[26] Yang M,Zhao W,Ye J B,et al.Investigating capsule networks with dynamic routing for text classification[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels,Belgium.Stroudsburg,PA,USA:Association for Computational Linguistics,2018:3110-3119
[27] Pennington J,Socher R,Manning C.Glove:global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha,Qatar.Stroudsburg,PA,USA:Association for Computational Linguistics,2014:1532-1543
[28] 范紅杰,李雪冬,葉松濤.面向電子病歷語義解析的疾病輔助診斷方法[J].計(jì)算機(jī)科學(xué),2022,49(1):153-158
FAN Hongjie,LI Xuedong,YE Songtao.Aided disease diagnosis method for EMR semantic analysis[J].Computer Science,2022,49(1):153-158
Text classification model incorporating multi-granularity
dynamic semantic representation
ZHANG Junqiang1 GAO Shangbing1 SU Rui1 LI Wenting1
1School of Computer and Software Engineering/Jiangsu Internet of Things Mobile Interconnection
Technology Engineering Laboratory,Huaiyin Institute of Technology,Huaian 223003
Abstract
The widely used word vector representation is incapable of fully representing the specialized texts and phrases in sphere of highly specialized chemical industry,which were quite professional and complex,resulting in the low accuracy of classification.Here,we propose a text classification model incorporating multi-granularity dynamic semantic representation.First,the adversarial perturbation was introduced into the word embedding layer of the model to enhance the ability of dynamic word vectors to represent the semantics.Then the word vector weights were redistributed by a multi-headed attention mechanism to obtain a better textual representation of key semantic information.Finally,text representations of different granularities were extracted through the proposed multi-scale residual shrinkage deep pyramidal convolutional neural network (MSRS-DPCNN) and hybrid attention capsule bidirectional LSTM (HAC-BiLSTM) network model,which were then fused for classification.The experimental results showed that the proposed model achieved an F1-score up to 84.62% on the chemical domain text dataset when using different word vector representations,an improvement of 0.38-5.58 percentage points compared with existing models.The model also had pretty good generalization performance on the publicly available Chinese dataset THUCNews and the Tan Songbo hotel review dataset ChnSentiCorp.
Key words text classification;adversarial perturbation;multi-granularity;multi-head attention mechanism;deep residual shrinkage;pre-trained language models