王德志 梁俊艷
1(華北科技學(xué)院計(jì)算機(jī)學(xué)院 河北 廊坊 065201) 2(華北科技學(xué)院圖書館 河北 廊坊 065201)
文本數(shù)據(jù)多目標(biāo)分類中,神經(jīng)網(wǎng)絡(luò)模型一般是基于經(jīng)典的多層感知器(Multilayer Perceptron,MLP)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[1-2]。通過對(duì)這些網(wǎng)絡(luò)進(jìn)行修改和優(yōu)化,構(gòu)建各種不同應(yīng)用領(lǐng)域的文本分析神經(jīng)網(wǎng)絡(luò)模型。所有的神經(jīng)網(wǎng)絡(luò)模型均需要對(duì)輸入的文本數(shù)據(jù)進(jìn)行預(yù)處理,把文本數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù)然后進(jìn)行處理。而在文本數(shù)據(jù)轉(zhuǎn)換為向量的研究中,主要集中在詞向量模型上[3]。谷歌公司基于詞袋模型原理于2013年發(fā)布了Word2vec模型,它是將詞表征為實(shí)數(shù)值向量的高效工具, 利用深度學(xué)習(xí)的思想,通過大量數(shù)據(jù)訓(xùn)練,把對(duì)應(yīng)文本中詞處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度[4-5]。2014年斯坦福大學(xué)學(xué)者提出了基于全局矩陣分解方法(Matrix Factorization)和局部文本框捕捉方法的GloVe模型,該模型利用了全局詞共現(xiàn)矩陣中的非零數(shù)據(jù)來訓(xùn)練,而不是只用了某詞的局部窗口信息。Facebook于2016年開源了基于CBOW模型原理的利用上下文來預(yù)測(cè)文本的類別的詞向量與文本分類模型工具fastText,其典型應(yīng)用場(chǎng)景是帶監(jiān)督的文本分類問題。fastText結(jié)合了自然語言處理和機(jī)器學(xué)習(xí)中最成功的理念,使用詞袋、n-gram袋表征語句和子字信息,并通過隱藏表征在類別間共享信息,從而提升自然語言情感分類的準(zhǔn)確性和速度[6]。ELMo模型是AllenNLP在2018年8月發(fā)布的一個(gè)上下文無關(guān)模型,其是一種雙層雙向的 LSTM 結(jié)構(gòu)[7]。2018年10月,谷歌公司發(fā)布了基于所有層中的左、右語境進(jìn)行聯(lián)合調(diào)整來預(yù)訓(xùn)練深層雙向表征的新語言表示模型BERT,其特點(diǎn)是可以更長(zhǎng)的捕捉句子內(nèi)詞與詞之間的關(guān)系,從而提升文本預(yù)測(cè)的準(zhǔn)確性[8-9]。這些模型都實(shí)現(xiàn)了文本分詞的向量化,從不同的角度對(duì)詞語進(jìn)行了量化。但是,這些通用詞向量模型在相同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中能否體現(xiàn)出相同的性能,尚缺少對(duì)比分析。
Word2vec詞向量可以基于連續(xù)詞袋模型(CBOW)和跳字模型(skip-gram)獲得。其中CBOW模型是基于上下文來預(yù)測(cè)當(dāng)前的詞,而skip-gram是基于當(dāng)前的詞來預(yù)測(cè)上下文的詞,適用于大型語料庫(kù)中。在skip-gram模型中,通過給定的單詞wt來計(jì)算出上下文Swt=(wt-k,…,wt-1,wt+1,…,wt+k)。其中k表示上下文中單詞的數(shù)量,k≤n,n為文本的大小,則c-skip-n-gram模型為:
(1)
式中:c表示當(dāng)前詞所在上下文的長(zhǎng)短;n表示訓(xùn)練文本的數(shù)量。其訓(xùn)練目標(biāo)函數(shù)采用最大平均對(duì)數(shù)函數(shù),表示為:
(2)
利用上述公式進(jìn)行模型訓(xùn)練,當(dāng)樣本誤差最小時(shí),訓(xùn)練得到的每個(gè)單詞的輸入到隱藏層權(quán)值參數(shù)值就是該輸入詞的詞向量。
GloVe模型是一種基于詞共現(xiàn)矩陣的詞向量表示方法。在共現(xiàn)矩陣X中,坐標(biāo)為(i,j)處的值xij表示目標(biāo)詞wi與語料庫(kù)中上下文中詞wj共同出現(xiàn)的次數(shù),因此X為全局非零矩陣。GloVe模型采用最小二乘法作為訓(xùn)練損失函數(shù),其表示如下:
(3)
(4)
式中:N為詞典的大小,wi和wj表示詞i和j的向量。bi和bj為矩陣X中i行和j列的偏移值。P(x)為加權(quán)函數(shù),實(shí)現(xiàn)對(duì)訓(xùn)練中的低頻詞進(jìn)行系數(shù)衰減操作,從而減少由于低頻詞造成的誤差。在式(4)中β為常量,根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),一般為0.75。
fastText模型采用類似CBOW方法,采用三層網(wǎng)絡(luò)結(jié)構(gòu),即輸入層、隱層和輸出層。其中輸入層輸入的不是簡(jiǎn)單的單詞數(shù)據(jù),而是對(duì)單詞進(jìn)行深一步的分詞結(jié)構(gòu)。設(shè)分析文本為S,其由n個(gè)單詞構(gòu)成S={w1,w2,…,wn}。則輸入的第t個(gè)詞wt被進(jìn)一步分解為k個(gè)子詞wt={c1,c2,…,ck},則最終輸入的訓(xùn)練文本為:
(5)
該模型輸出為文本的標(biāo)簽。在做輸出時(shí)模型采用分層Softmax,使用哈夫曼編碼對(duì)標(biāo)簽進(jìn)行處理,從而極大地降低了運(yùn)算的復(fù)雜度。
模型的目標(biāo)函數(shù)如式(6)所示。式中:N為語料庫(kù)數(shù)量;yn為第n個(gè)輸入文本對(duì)應(yīng)的類別;f(x)為softmax損失函數(shù);xn為文本的歸一化處理值;A和B為權(quán)重矩陣。最終訓(xùn)練得到輸入層到隱藏的權(quán)重參數(shù)就是分詞向量。
(6)
ELMo采用雙向LSTM神經(jīng)網(wǎng)絡(luò)模型,其由一個(gè)向前和一個(gè)向后的LSTM模型構(gòu)成,目標(biāo)函數(shù)就是取這兩個(gè)模型的最大似然數(shù)。其中,向前LSTM結(jié)構(gòu)為:
(7)
反向LSTM結(jié)構(gòu)為:
(8)
目標(biāo)函數(shù)為:
(9)
ELMo首先通過訓(xùn)練此模型完成一定的任務(wù),達(dá)到要求,然后就可以利用輸入特定詞,通過上述公式獲得詞向量,即把雙向LSTM模型的每一個(gè)中間的權(quán)重進(jìn)行求和,最終就得到詞向量。
BERT模型采用類似ELMo結(jié)構(gòu),采用雙向模型。但是它所使用不是LSTM模型,而是Transformer編碼器模型,其目標(biāo)函數(shù)為:
P=F(wi|w1,…,wi-1,wi+1,…,wn)
(10)
BERT與傳統(tǒng)的注意力模型的區(qū)別在于,它采用直接連接注意力機(jī)制。通過多層注意力結(jié)構(gòu),實(shí)現(xiàn)多頭注意力能力。
為實(shí)現(xiàn)文本多目標(biāo)分類目的,本文采用微博災(zāi)害數(shù)據(jù)集為研究對(duì)象。微博災(zāi)害數(shù)據(jù)集來自于CrisisNLP網(wǎng)站。其提供了2013年到2015年的2萬多條條災(zāi)害相關(guān)的微博數(shù)據(jù),并對(duì)微博數(shù)據(jù)進(jìn)行了分類標(biāo)注。為了實(shí)現(xiàn)利用各類通用詞向量模型對(duì)相同災(zāi)害數(shù)據(jù)集處理結(jié)果輸出格式的標(biāo)準(zhǔn)化,針對(duì)5種常用詞向量模型,采用離線詞向量數(shù)據(jù)集和詞向量生成網(wǎng)絡(luò)兩種模式處理災(zāi)害數(shù)據(jù)集中的關(guān)鍵詞。其中,針對(duì)Word2vec、GloVe和fastTest三個(gè)模型采用官方提供的基于大量新聞信息訓(xùn)練模型生成的通用詞向量數(shù)據(jù)集。通過查詢常用詞向量數(shù)據(jù)集的形式,在此數(shù)據(jù)集中查詢提取出災(zāi)害數(shù)據(jù)集中對(duì)應(yīng)的關(guān)鍵詞的向量值,并進(jìn)行存儲(chǔ)。對(duì)于ELMo和BERT模型,由于沒有常用詞向量數(shù)據(jù)集,因此采用官方訓(xùn)練好的模型參數(shù)構(gòu)建詞向量神經(jīng)網(wǎng)絡(luò)模型,然后對(duì)災(zāi)害數(shù)據(jù)集中的關(guān)鍵詞利用此神經(jīng)網(wǎng)絡(luò)生成對(duì)應(yīng)的詞向量值,并進(jìn)行存儲(chǔ)。為了實(shí)現(xiàn)標(biāo)準(zhǔn)化對(duì)比,5類模型最終生成的每個(gè)關(guān)鍵詞的詞向量維度為(1,300)。如果詞向量達(dá)不到此維度,則數(shù)據(jù)進(jìn)行補(bǔ)零處理,從而保證所有模型處理完后每個(gè)關(guān)鍵詞都具有(1,300)維度。
針對(duì)微博災(zāi)害數(shù)據(jù)集的詞向量維度和多目標(biāo)分類要求,基于四種經(jīng)典模型(MLP、CNN、RNN和LSTM)分別設(shè)計(jì)四種多目標(biāo)分類模型。
MLP模型采用三層結(jié)構(gòu),輸入層節(jié)點(diǎn)數(shù)目由詞向量維度及博文中詞個(gè)數(shù)構(gòu)成,如式(11)所示。
N=K×MK=LwordM=max(count(textword))
(11)
式中:K代表詞向量維度采用固定值,根據(jù)分詞模型確定,M由博文中分詞的數(shù)量確定。根據(jù)微博災(zāi)害數(shù)據(jù)詞向量數(shù)據(jù)集的維度,MLP輸入層為(1,50×300)個(gè)神經(jīng)元,中間層為(1,256)個(gè)神經(jīng)元,輸出層為(1,6)個(gè)神經(jīng)元。
輸出層函數(shù)采用softmax函數(shù),如式(12)所示,隱層輸出函數(shù)f2采用sigmoid函數(shù),w1和w2分別表示輸入層到隱層的全連接網(wǎng)絡(luò)權(quán)重和隱層到輸出層的權(quán)重。
f(X)=softmax(b2+w2(f2(w1X+b1)))
(12)
f2(a)=1/(1+e-a)
(13)
為了提升模型的泛化能力,設(shè)計(jì)模型的Dropout正則化參數(shù)為0.35,最終輸出層為(1,6)。
為了保障模型的運(yùn)行效率,根據(jù)在災(zāi)害數(shù)據(jù)集的數(shù)量和詞向量維度,CNN模型采用具有2層卷積層的一維卷積模型結(jié)構(gòu),如圖1所示。模型中卷積層為2層,卷積單元維度為(3,1)結(jié)構(gòu),輸出結(jié)果為Conv1D_1-out和Conv1D_2-out。最大池化層單元維度為(2,1)結(jié)構(gòu),輸出結(jié)果為MaxPooling_1-out和MaxPooling_2-out。在第2層最大池化層后是平鋪層(Flatten-out)和隱藏層(Dense-out),最后為輸出層(out-data)。
圖1 卷積神經(jīng)網(wǎng)絡(luò)
根據(jù)微博災(zāi)害數(shù)據(jù)詞向量數(shù)據(jù)集的維度,CNN輸入層維度為(50,300)結(jié)構(gòu), 兩個(gè)卷積層激活函數(shù)采用“ReLU”函數(shù),輸出層激活函數(shù)采用“sigmoid”函數(shù),優(yōu)化器采用“Adam”。
循環(huán)神經(jīng)網(wǎng)絡(luò)采用序列式結(jié)構(gòu),當(dāng)前單元的計(jì)算結(jié)果與前一個(gè)周期的單元結(jié)果建立關(guān)聯(lián)關(guān)系,獲得新的結(jié)果,同時(shí)為一個(gè)周期的單元結(jié)果提供輸入。如此循環(huán)構(gòu)成遞歸神經(jīng)網(wǎng)絡(luò)模型。RNN采用m對(duì)n結(jié)構(gòu),如圖2所示。
圖2 遞歸神經(jīng)網(wǎng)絡(luò)模型
根據(jù)微博災(zāi)害數(shù)據(jù)詞向量數(shù)據(jù),輸入層維度為(1,6),隱藏層維度為(1,256)結(jié)構(gòu),輸出層維度為(1,6)結(jié)構(gòu)。隱藏層激活函數(shù)采用“ReLU”函數(shù),輸出層激活函數(shù)采用“sigmoid”函數(shù),優(yōu)化器采用“Adam”。為保證模型的泛化性,避免過擬合發(fā)生,Dropout正則化參數(shù)為0.35。
長(zhǎng)短期記憶網(wǎng)絡(luò)主要為解決RNN網(wǎng)絡(luò)無長(zhǎng)期記憶能力問題而提出。其主體結(jié)構(gòu)與RNN網(wǎng)絡(luò)相同,但是為實(shí)現(xiàn)對(duì)數(shù)據(jù)的長(zhǎng)期記憶,在LSTM神經(jīng)網(wǎng)絡(luò)中,每一個(gè)神經(jīng)元相當(dāng)于一個(gè)記憶細(xì)胞,通過輸入閘門、遺忘閘門和輸出閘門實(shí)現(xiàn)控制記憶細(xì)胞狀態(tài)的功能,如圖3所示。
圖3 長(zhǎng)短期記憶網(wǎng)絡(luò)神經(jīng)元結(jié)構(gòu)圖
根據(jù)微博災(zāi)害數(shù)據(jù)詞向量數(shù)據(jù),輸入層維度為(1,32)。隱藏層維度為(1,256)結(jié)構(gòu)。輸出層維度為(1,6)結(jié)構(gòu)。隱藏層激活函數(shù)采用“ReLU”函數(shù)。輸出層激活函數(shù)采用“sigmoid”函數(shù)。優(yōu)化器采用“Adam”。
本實(shí)驗(yàn)進(jìn)行了5個(gè)通用詞向量模型在4個(gè)多目標(biāo)分類模型中的對(duì)比分析。實(shí)驗(yàn)中共使用21 125條微博數(shù)據(jù),其中70%用來進(jìn)行模型訓(xùn)練,30%用來模型測(cè)試。
圖4展示W(wǎng)ord2vec模型在不同分類模型中的處理結(jié)果。可以看出,準(zhǔn)確率最高為L(zhǎng)TSM,CNN和MLP接近,最低為RNN。RNN出現(xiàn)了過擬合現(xiàn)象。CNN準(zhǔn)確率波動(dòng)較大。RNN在后半程的迭代周期,準(zhǔn)確率提升明顯。
圖4 Word2vec模型結(jié)果
圖5展示GloVe模型在不同多目標(biāo)分類模型中的處理結(jié)果??梢钥闯觯珿loVe模型數(shù)據(jù)在CNN與MLP中性能接近,LSTM次之,RNN最低,RNN模型波動(dòng)較大。LSTM在最后迭代周期準(zhǔn)確率有提升。
圖5 GloVe模型結(jié)果
圖6展示了fastText模型在不同多目標(biāo)分類模型中的處理結(jié)果。可以看出, CNN具有較高的測(cè)試準(zhǔn)確率。其他三種模型準(zhǔn)確率相似。MLP和LSTM出現(xiàn)了過擬合現(xiàn)象,準(zhǔn)確率變化不大。RNN具有明顯的波動(dòng)性。
圖6 fastText模型結(jié)果
圖7展示了BERT模型在不同多目標(biāo)分類模型中的處理結(jié)果。可以看出,BERT模型數(shù)據(jù)在RNN和LSTM中沒有出現(xiàn)過擬合現(xiàn)象。在測(cè)試準(zhǔn)確性方面,RNN的結(jié)果是最低的。CNN據(jù)具有較好的線性增長(zhǎng)和收斂性。
圖7 BERT模型結(jié)果
圖8展示了ELMo模型在不同多目標(biāo)分類模型中的處理結(jié)果??梢钥闯?,ELMo模型數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練方面都出現(xiàn)過早收斂問題,測(cè)試數(shù)據(jù)的準(zhǔn)確率基本相同,區(qū)分度不是很大。其中LSTM表現(xiàn)的數(shù)據(jù)變化最不大,沒有明顯的線性變化過程。
圖8 ELMo模型結(jié)果
通過上述模型的分析,可以看出相同的通用詞向量模型,在不同的多目標(biāo)分類模型中的結(jié)果是不一樣的,其中以Word2vec模型表現(xiàn)為最好,GloVe和fastText模型具有相似的表現(xiàn),BERT模型在LSTM模型數(shù)據(jù)表現(xiàn)較理想。ELMo模型在相同神經(jīng)網(wǎng)絡(luò)初始參數(shù)條件下出現(xiàn)了過早收斂現(xiàn)象,測(cè)試數(shù)據(jù)性能變化不大。
圖9展示了4種分詞模型在MLP模型中的訓(xùn)練結(jié)果比較??梢钥闯觯鼸LMo模型外,其他的訓(xùn)練數(shù)據(jù)較早地出現(xiàn)過擬合和現(xiàn)象。在測(cè)試數(shù)據(jù)方面,Word2vec的準(zhǔn)確率遠(yuǎn)遠(yuǎn)高于其他4種模型。而ELMo的測(cè)試準(zhǔn)確率是最低的。
圖9 MLP模型結(jié)果
圖10展示了4種分詞模型在CNN模型中的訓(xùn)練結(jié)果比較??梢钥闯?,BERT和GloVe都出現(xiàn)了過擬合現(xiàn)象。BERT、fastText和GloVe的訓(xùn)練數(shù)據(jù)準(zhǔn)確率保持了較好的線性增長(zhǎng)。在測(cè)試準(zhǔn)確率方面,Word2vec具有最高的準(zhǔn)確率,ELMo準(zhǔn)確率最低,BERT和GloVe具有相似的準(zhǔn)確率。
圖10 CNN模型結(jié)果
圖11展示了4種分詞模型在RNN模型中的訓(xùn)練結(jié)果比較。除GloVe外,其他4種模型數(shù)據(jù)都沒有出現(xiàn)明顯的過擬合現(xiàn)象,尤其是ELMo、BERT和fastText模型具有相似的訓(xùn)練數(shù)據(jù)。GloVe雖然訓(xùn)練數(shù)據(jù)有一定的線性變化,但是測(cè)試數(shù)據(jù)卻出現(xiàn)了下降的現(xiàn)象,說明出現(xiàn)了一定的過擬合現(xiàn)象。
圖11 RNN模型結(jié)果
圖12展示了4種分詞模型在LSTM模型中的訓(xùn)練結(jié)果比較。BERT模型訓(xùn)練數(shù)據(jù)準(zhǔn)確率有一定的線性增長(zhǎng),但是測(cè)試準(zhǔn)確率卻出現(xiàn)了下降,說明出現(xiàn)了過擬合現(xiàn)象。而其他4種模型訓(xùn)練數(shù)據(jù)準(zhǔn)確率收斂較快,沒有明顯的線性增長(zhǎng)。其中fastText與ELMo數(shù)據(jù)具有類似的訓(xùn)練結(jié)果數(shù)據(jù)。
圖12 LSTM模型結(jié)果
通過上述分析可以看出,在MLP和CNN模型中,不同的分詞模型具有不同的性能參數(shù),雖然有些模型出現(xiàn)了過擬合現(xiàn)象,但是還保持較高的測(cè)試準(zhǔn)確率。而RNN和LSTM模型,隨著沒有出現(xiàn)過擬合現(xiàn)象,但是模型的準(zhǔn)確率數(shù)據(jù)收斂較快,跟后期訓(xùn)練的迭代周期關(guān)系不大。而其中fastText和ELMo兩種模型RNN和LSTM中具有相似的結(jié)果。
圖13和圖14展示了不同自然語言分析模型的訓(xùn)練時(shí)間和最后測(cè)試數(shù)據(jù)的準(zhǔn)確率。從訓(xùn)練時(shí)間上分析,Word2vec用時(shí)最長(zhǎng),GloVe模型用時(shí)最短。從測(cè)試數(shù)據(jù)結(jié)果分析,Word2vec模型準(zhǔn)確率最高,ELMo模型準(zhǔn)確率最低。Word2vec模型用的訓(xùn)練時(shí)間最長(zhǎng),同時(shí)其測(cè)試數(shù)據(jù)準(zhǔn)確率也是最高的。用時(shí)較少的是ELMo模型,但是其準(zhǔn)確率在各個(gè)模型中變化不大,也是較小的。Word2vec模型在LSTM模型中測(cè)試數(shù)據(jù)獲得實(shí)驗(yàn)的最高準(zhǔn)確率,達(dá)到了0.934 8,而且模型訓(xùn)練時(shí)間也遠(yuǎn)遠(yuǎn)小于MLP時(shí)間,略高于CNN模型。RNN模型雖然具有較短的訓(xùn)練時(shí)間,但是各個(gè)詞分類模型在RNN上的表現(xiàn)不是很理想,一般都低于LSTM模型效果。
圖13 模型訓(xùn)練時(shí)間
圖14 測(cè)試數(shù)據(jù)結(jié)果
為驗(yàn)證模型在不同分類樣本中的正確情況,對(duì)實(shí)驗(yàn)數(shù)據(jù)除準(zhǔn)確率外也進(jìn)行了精確率、召回率和F1值計(jì)算。其中精確率和召回率采用加權(quán)平均法,如式(14)和式(15)所示。
(14)
(15)
式中:αi為不同分類樣本占總樣本的比例;N為分類總數(shù),在本實(shí)驗(yàn)中共有6個(gè)分類。根據(jù)精確率和準(zhǔn)確率計(jì)算了F1值,如式(16)所示,綜合評(píng)價(jià)了模型的性能。實(shí)驗(yàn)結(jié)果如表1所示。
F1=2×(PR×Rec)/(PR+Rec)
(16)
表1 精確率、召回率和F1值比較
可以看出,各詞向量模型在CNN模型上的分類結(jié)果精確率和準(zhǔn)確率較高,差異不大,F(xiàn)1值較高。而各模型在RNN上F1值較小,主要是由于精確率較低造成的。相同詞向量模型在不同的分類模型中,一般F1值較低對(duì)應(yīng)的準(zhǔn)確率也較低,其中以RNN和LSTM表現(xiàn)較為明顯,主要是由于精確率較低造成的,其中以fastText在RNN上F1值最低。
為了進(jìn)行對(duì)比分析,本實(shí)驗(yàn)過程也在斯坦福情感樹銀行數(shù)據(jù)集(Stanford-Sentiment-Treebank)和亞馬遜評(píng)論數(shù)據(jù)庫(kù)(Amazon Review Dataset)進(jìn)行了驗(yàn)證,取得了相似的結(jié)果。但是準(zhǔn)確率等指標(biāo)相對(duì)微博災(zāi)害數(shù)據(jù)集較低,區(qū)分度不明顯??赡茉蚴俏⒉?zāi)害數(shù)據(jù)集上各分類數(shù)據(jù)分布較均勻,同時(shí)在文本隱含信息中具有較高的相似性。而另外兩個(gè)數(shù)據(jù)集通用性較強(qiáng),文本隱含信息過多,分類結(jié)果不理想。
綜上所述,從綜合效果上看,Word2vec詞向量模型在LSTM網(wǎng)絡(luò)模型中表現(xiàn)出了最佳的性能。這可能有三方面的原因。首先,在災(zāi)害數(shù)據(jù)集的預(yù)處理中,采用了基于詞頻的關(guān)鍵詞提取。這導(dǎo)致降低了分詞之間的上下文聯(lián)系,從而導(dǎo)致基于上下文關(guān)系的詞向量模型性能的下降,如fastText和ELMo模型。其次,由于LSTM神經(jīng)網(wǎng)絡(luò)模型具有長(zhǎng)時(shí)記憶功能,通過迭代訓(xùn)練,能夠發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)集中的共同屬性。因此,在特定領(lǐng)域數(shù)據(jù)集方面,對(duì)具有相同特點(diǎn)文本學(xué)習(xí)能夠體現(xiàn)出更好的性能。最后,就是Word2vec詞向量模型網(wǎng)絡(luò)體現(xiàn)結(jié)構(gòu)特點(diǎn),Word2vec沒有過多依賴上下文的關(guān)系進(jìn)行詞分量,而是更多依靠多維度的信息描述方法。雖然過多的維度描述導(dǎo)致了詞向量數(shù)據(jù)存儲(chǔ)規(guī)模的增大,降低了處理速度,但是它具有更強(qiáng)的通用性,因此,在分詞上下文關(guān)系較弱的自然文本分析中能夠體現(xiàn)出更好的性能。
本文基于微博災(zāi)害數(shù)據(jù)集,對(duì)五種通用詞向量模型在文本多目標(biāo)分類中進(jìn)行了比較分析。設(shè)計(jì)了MLP、CNN、RNN和LSTM多目標(biāo)分類模型。通過實(shí)驗(yàn)分析了五種通用詞向量模型在不同分類模型中的特點(diǎn)。實(shí)驗(yàn)結(jié)果表明,Word2vec模型網(wǎng)絡(luò)體系結(jié)構(gòu)由于提供了更多的文本隱含信息,因此在微博災(zāi)害數(shù)據(jù)集情感分類中具有較高的準(zhǔn)確性。下一步工作可以針對(duì)不同通用詞向量模型設(shè)計(jì)特殊的神經(jīng)網(wǎng)絡(luò)模型,提升多目標(biāo)分類的準(zhǔn)確率。