韓 廣,卜 桐,王明明,鄭海青,孫曉云,金 龍
(1.石家莊鐵道大學(xué) 電氣與電子工程學(xué)院,河北 石家莊 050000;2.國(guó)家鐵路局 裝備技術(shù)中心, 北京 100844)
鐵路作為國(guó)家重要的基礎(chǔ)設(shè)施和關(guān)鍵性民生工程,有力地促進(jìn)了社會(huì)和經(jīng)濟(jì)的發(fā)展。為確保鐵路運(yùn)輸安全,鐵路行業(yè)積累了大量鐵路行車安全主題的業(yè)務(wù)信息,這些信息數(shù)據(jù)多采用文本、語(yǔ)音、圖像等非結(jié)構(gòu)化數(shù)據(jù)儲(chǔ)存[1]。其中,文本是鐵路事故分類的主要手段,為后續(xù)進(jìn)行適當(dāng)?shù)奶幚硖峁┮罁?jù)。但是,目前鐵路事故主要由人工進(jìn)行定級(jí),受主觀因素影響較大,其等級(jí)分類的準(zhǔn)確性有待提高。
近年來(lái),學(xué)者們針對(duì)鐵路事故文本展開了分析和研究。楊蘭[2]通過(guò)設(shè)計(jì)事故樹對(duì)黑龍江“1.28”道口事故進(jìn)行原因分析,提出了預(yù)防道口事故的措施;上官偉等[3]采用基于粒子群優(yōu)化的支持向量機(jī)算法對(duì)列控車載設(shè)備的故障進(jìn)行分類;鐘志旺等[4]提出了基于主題模型和支持向量機(jī)的道岔設(shè)備故障特征提取與診斷方法?;谏鲜鲅芯浚F路事故文本分類存在兩個(gè)挑戰(zhàn)亟待解決:①由于事故類型、描述人員的差異,使得文本的長(zhǎng)度、敘述有較大的差異性;②鐵路事故文本中含有大量專業(yè)詞語(yǔ),如軌道電路紅光帶、受電弓等,直接影響分詞效率和分類準(zhǔn)確率。
采用智能方法解決文本分類問(wèn)題是目前的研究熱點(diǎn)。Bengio等[5]創(chuàng)建了三層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型,并率先應(yīng)用到自然語(yǔ)言處理的任務(wù)中。循環(huán)型神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[6-7]越來(lái)越多地應(yīng)用到文本分類中。其中,因?yàn)樵诰徑馓荻缺▎?wèn)題上表現(xiàn)出色,長(zhǎng)短時(shí)記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)在文本分類問(wèn)題中得到了較為廣泛的應(yīng)用[8]。
針對(duì)文本問(wèn)題的特征提取,目前最常見的方法是將詞語(yǔ)轉(zhuǎn)化為向量。Tai等[9]將LSTM模型應(yīng)用于樹狀語(yǔ)句拓?fù)浣Y(jié)構(gòu),提高了分類精度。杜修明等[10]分析了電網(wǎng)故障案例文本,使用雙向LSTM(Bidirectional LSTM,BiLSTM)網(wǎng)絡(luò)取得了良好的分類結(jié)果。研究表明,在詞向量特征提取方法中采用多通道的形式,是提升文本特征提取效率的有效手段之一??笛愕萚11]采用雙通道詞向量訓(xùn)練方式,實(shí)驗(yàn)結(jié)果表明雙通道策略優(yōu)于單通道策略。Du等[12]采用多通道KNN文本分類,保證了文本較高的準(zhǔn)確性。
文本以詞向量形式輸入網(wǎng)絡(luò)時(shí)的長(zhǎng)度是固定的,而由于文本本身長(zhǎng)短不一的特性,使得在處理長(zhǎng)文本時(shí),一部分詞向量將被舍去;在處理短文本時(shí),則需要擴(kuò)充零向量,相當(dāng)于添加了無(wú)用信息和網(wǎng)絡(luò)負(fù)擔(dān)。因此,對(duì)于長(zhǎng)度差異性大的鐵路行車事故文本,擴(kuò)充和舍去詞向量都會(huì)影響文本分類的準(zhǔn)確性。句子同樣可以作為一個(gè)整體進(jìn)行特征提取,構(gòu)成句向量。王亞珅等[13]提出概念化句嵌入模型,Guo等[14]基于詞向量信息生成句向量,均在文本分類中取得了良好結(jié)果。李心蕾等[15]研究表明,針對(duì)新浪微博這一類短文本分類問(wèn)題,句向量的特征提取效果要劣于詞向量。而針對(duì)長(zhǎng)文本問(wèn)題,李云紅等[16]使用單一句向量提取特征,取得良好結(jié)果。鐵路事故文本具有敘述長(zhǎng)短不一的特點(diǎn),上述研究為本文結(jié)合詞向量和句向量?jī)煞N方法進(jìn)行特征提取,提供了研究依據(jù)。
鐵路事故文本分類中關(guān)鍵詞對(duì)于等級(jí)的劃分有重要影響,引入注意力機(jī)制,將有效提升文本識(shí)別效率。注意力機(jī)制是受到人類在觀察和思考過(guò)程中目光隨著感興趣區(qū)域發(fā)生移動(dòng)的思想啟發(fā),目前在三維動(dòng)作識(shí)別[17]、家庭活動(dòng)識(shí)別[18]、社區(qū)問(wèn)答文本識(shí)別[19]、視頻-腦電交互協(xié)同情感識(shí)別[20]、機(jī)器翻譯[21]等領(lǐng)域得到廣泛應(yīng)用。相對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)模型,注意力機(jī)制可改善計(jì)算量以及精度,因此在自然語(yǔ)言處理領(lǐng)域應(yīng)用廣泛。
綜上,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)因其結(jié)構(gòu)優(yōu)勢(shì),可以兼顧前后兩個(gè)方向的特征,適合于文本的上下文關(guān)系提??;詞向量和句向量雙通道可以有效解決文本長(zhǎng)短不一、差異性大的問(wèn)題,提高樣本的利用程度和分類準(zhǔn)確率。所以本文設(shè)計(jì)了雙通道雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行鐵路行車事故文本分類。首先,針對(duì)鐵路事故文本專有詞匯,基于鐵路專用設(shè)備產(chǎn)品數(shù)據(jù)庫(kù),構(gòu)建“鐵路行車事故詞庫(kù)”,提高分詞和特征的提取效率。然后,針對(duì)鐵路事故文本長(zhǎng)短不一、文本長(zhǎng)度差異性大的特點(diǎn),設(shè)計(jì)同時(shí)使用詞向量和句向量的雙通道雙向LSTM網(wǎng)絡(luò)模型。
從成都、廣州等7個(gè)鐵路局提供的文本信息,獲取了鐵路行車事故情況。從中可知,因違反規(guī)章制度、勞動(dòng)紀(jì)律,技術(shù)設(shè)備不良及其他原因,在鐵路行車中造成人員傷亡、設(shè)備損害、經(jīng)濟(jì)損失、影響正常行車或危及行車安全的,均構(gòu)成鐵路行車事故。本文針對(duì)日常發(fā)生較多的鐵路行車一般事故類別展開研究。根據(jù)《鐵路行車事故處理規(guī)則》[22],鐵路行車中一般事故分類依據(jù)見表1。
表1 鐵路行車中一般事故分類依據(jù)
在常規(guī)詞庫(kù)下,專有詞“軌道電路紅光帶”會(huì)被分為“軌道電路紅光帶”,不僅造成專有詞匯拆分,也增加了詞向量維度;“×?xí)r×分銷記”會(huì)被誤分為“×?xí)r×分銷記”,錯(cuò)誤分詞“分銷記”與正確分詞“分銷記”所表達(dá)的意思完全不同。因此,要有效提升鐵路專業(yè)詞匯的分詞準(zhǔn)確性,有必要構(gòu)建鐵路行車事故詞庫(kù)。本文結(jié)合GB/T 8568—2013《鐵路行車組織詞匯》[23]和項(xiàng)目研究中收集到的文本,構(gòu)建了“鐵路行車事故詞庫(kù)”。
首先,考慮到文本中客運(yùn)線名稱和鐵路工作機(jī)構(gòu)均為固定名詞,且存在廣泛,設(shè)計(jì)了鐵路客運(yùn)線名詞庫(kù)和鐵路用語(yǔ)詞庫(kù),豐富常用詞典。這兩部分內(nèi)容在詞庫(kù)中占有很大比例。其次,電氣化鐵路詞庫(kù)由供電段負(fù)責(zé)的電氣化鐵路牽引供電、鐵路運(yùn)輸信號(hào)供電、電力設(shè)備等方面詞語(yǔ)構(gòu)成;鐵路信號(hào)詞庫(kù)由電務(wù)段或工務(wù)段負(fù)責(zé)的信號(hào)設(shè)備、轉(zhuǎn)轍機(jī)及道岔等詞語(yǔ)構(gòu)成。最后,建立鐵路詞匯詞庫(kù),結(jié)合鐵路行車事故文本發(fā)現(xiàn)的稀有專用詞語(yǔ),實(shí)現(xiàn)整體詞庫(kù)的補(bǔ)充。
“鐵路行車事故詞庫(kù)”見表2,由電氣化鐵路詞庫(kù)、鐵路信號(hào)詞庫(kù)、鐵路客運(yùn)線名詞庫(kù)、鐵路用語(yǔ)詞庫(kù)、鐵路詞匯詞庫(kù)等二級(jí)詞庫(kù)組成,有效提高了鐵路事故文本在中文分詞階段的準(zhǔn)確性。
表2 鐵路行車事故詞庫(kù)
兩段典型事故詞語(yǔ)標(biāo)注見圖1。
圖1 兩段典型事故詞語(yǔ)標(biāo)注
鐵路行車事故文本分類總體模型見圖2。
圖2 鐵路行車事故文本分類總體模型
由于中文文本沒(méi)有間斷,所以需要對(duì)文本進(jìn)行分詞處理。本文使用Jieba分詞的精確模式,將句子依靠詞典精確地切開,使用構(gòu)建的“鐵路行車事故詞庫(kù)”提高分詞準(zhǔn)確率;再使用停用詞處理來(lái)降低維度和去噪;之后使用Google開源代碼詞語(yǔ)轉(zhuǎn)向量(Word to Vector,Word2vec)和句子轉(zhuǎn)向量(Sentence to Vector,Sent2vec)來(lái)獲得文本的詞向量表達(dá)和句向量表達(dá)。
句向量的兩種訓(xùn)練方式是PV-DM (Distributed Memory model of Paragraph Vectors)和PV-DBOW (Distributed Bag of words of Paragraph Vector)。Sent2vec在句向量輸入時(shí)增添了Paragraph vector,在文本滑動(dòng)訓(xùn)練中Paragraph vector是共享的,因此,Paragraph vector所表達(dá)的句子思想會(huì)更加精確。
句向量模型不需要規(guī)定句子長(zhǎng)度,能夠解決詞向量面臨的長(zhǎng)度選擇問(wèn)題??墒牵瑔为?dú)使用句向量,其表示的信息會(huì)少于詞向量,導(dǎo)致分類精度降低。因此,針對(duì)鐵路事故文本長(zhǎng)短差異性大的問(wèn)題,本文將采用詞向量和句向量相結(jié)合的方法。
LSTM是一種特殊的RNN結(jié)構(gòu),包括門控單元和細(xì)胞儲(chǔ)存單元,用來(lái)控制數(shù)據(jù)傳播。其中門控單元由輸入門it、遺忘門ft、輸出門ot和細(xì)胞候選gt組成,其方程表達(dá)式為
it=σ(WiXt+Riht-1+bi)
(1)
ft=σ(WfXt+Rfht-1+bf)
(2)
ot=σ(WoXt+Roht-1+bo)
(3)
gt=tanh(WgXt+Rght-1+bg)
(4)
式中:Wi、Wf、Wo、Wg為輸入權(quán)重矩陣;Ri、Rf、Ro、Rg為循環(huán)權(quán)重矩陣;bi、bf、bo、bg為偏置權(quán)重;Xt為當(dāng)前詞向量輸入;ht-1為L(zhǎng)STM在t-1時(shí)的輸出;σ(·)為sigmoid激活函數(shù);tanh(·)為tanh激活函數(shù)。LSTM單細(xì)胞結(jié)構(gòu)見圖3。
圖3 LSTM單細(xì)胞結(jié)構(gòu)
LSTM第t時(shí)刻的細(xì)胞狀態(tài)cellt和輸出ht為
cellt=ft?cellt-1+it?gt
(5)
ht=ot?tanh(cellt)
(6)
式中:?為逐點(diǎn)乘積。
圖4 LSTM細(xì)胞連接和BiLSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
BiLSTM有效地融合了上下文信息,但卻無(wú)法凸顯文中的關(guān)鍵信息。注意力機(jī)制利用權(quán)重反映特征序列的相關(guān)性,可以讓模型更專注于查找出與當(dāng)前分類更有相關(guān)性的輸入信息。本文采用靜態(tài)注意力模型,通過(guò)計(jì)算一次加權(quán)α和輸入向量得到整個(gè)句子的向量表示。靜態(tài)注意力模型見圖5。
圖5 結(jié)合靜態(tài)注意力機(jī)制的LSTM模型
靜態(tài)注意力機(jī)制(自注意力機(jī)制)對(duì)LSTM輸出的隱層向量表達(dá)進(jìn)行加權(quán)求和計(jì)算,其中權(quán)重的大小表示每個(gè)詞或句子的重要程度,其表達(dá)式為
(7)
(8)
(9)
在模型中,詞向量通道的輸出為序列模式,句向量通道的輸出為最后時(shí)刻的輸出。詞向量經(jīng)過(guò)靜態(tài)注意力機(jī)制的特征提取后,將與句向量具有相同維度,進(jìn)而作為Softmax函數(shù)的歸一化輸入,最終計(jì)算得到一個(gè)n維向量(n為標(biāo)簽數(shù)目),每個(gè)維度對(duì)應(yīng)一個(gè)標(biāo)簽的概率,其計(jì)算公式為
yi=Softmax(Wcct+bc)
(10)
式中:Wc為歸一化權(quán)重向量;bc為歸一化偏置;yi為標(biāo)簽概率。
在鐵路行車事故文本分類中,采用交叉熵?fù)p失函數(shù)會(huì)在準(zhǔn)確性和收斂性上優(yōu)于最小二乘損失函數(shù)。交叉熵函數(shù)計(jì)算公式為
(11)
式中:E為交叉熵?fù)p失值;Ti為真實(shí)樣本類別;Yi為預(yù)測(cè)樣本類別。
本文使用L2正則化梯度防止過(guò)擬合和梯度閾值策略防止梯度爆炸。在遇到較大斜率的懸崖結(jié)構(gòu)時(shí),梯度閾值也可以防止梯度改變較大參數(shù)值。L2正則化公式為
J=J0+λ‖ω‖22
(12)
式中:λ為正則化系數(shù);J為正則化梯度;J0為正則化初始梯度;ω為原始梯度。
本文使用Adam算法對(duì)BiLSTM網(wǎng)絡(luò)的輸入權(quán)重矩陣、循環(huán)權(quán)重矩陣和偏置權(quán)重矩陣,以及靜態(tài)注意力機(jī)制的權(quán)值和偏置進(jìn)行梯度更新。Adam算法是RMSProp和矩技術(shù)結(jié)合的增強(qiáng),其算法公式為
(13)
(14)
(15)
實(shí)驗(yàn)數(shù)據(jù)來(lái)自2019年1—10月間我國(guó)各鐵路局的鐵路行車事故文本。去除不能訓(xùn)練和樣本數(shù)目極少的事故文本,剩余共計(jì)432條文本。這些數(shù)據(jù)分別隸屬于10個(gè)等級(jí),其事故描述和相應(yīng)文本數(shù)目見表3。
表3 鐵路事故文本類型及描述
從表3中可以看出:D21是事故中最輕的一級(jí),發(fā)生次數(shù)也最多;C13和D3類別發(fā)生次數(shù)較少;鐵路設(shè)備的不規(guī)范操作會(huì)對(duì)人員造成傷害,因此,B1和B2類別發(fā)生次數(shù)也較多。不同事故類別的文本詞向量長(zhǎng)度分布見圖6,數(shù)據(jù)分析見表4。
圖6 不同事故類別文本詞向量長(zhǎng)度分布
從圖6和表4中可以看出,不同類型的事故,其文本詞向量長(zhǎng)度和波動(dòng)情況存在明顯的差異。
實(shí)驗(yàn)平臺(tái)基于Matlab 2019a,中文分詞和詞向量生成使用Pycharm軟件實(shí)現(xiàn)。實(shí)驗(yàn)環(huán)境設(shè)置見表5。
表5 實(shí)驗(yàn)環(huán)境
網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練的參數(shù)設(shè)置見表6。模型的參數(shù)是在訓(xùn)練過(guò)程中結(jié)合實(shí)驗(yàn)結(jié)果進(jìn)行反復(fù)調(diào)試得到的。經(jīng)過(guò)預(yù)實(shí)驗(yàn),當(dāng)詞向量長(zhǎng)度選擇為100個(gè)時(shí),網(wǎng)絡(luò)能夠在各類長(zhǎng)度的文本分類中取得綜合最優(yōu)的結(jié)果。
表6 參數(shù)設(shè)置
為了減少數(shù)據(jù)量少和樣本數(shù)量不平衡兩個(gè)問(wèn)題的影響,一方面在各次實(shí)驗(yàn)中隨機(jī)劃分訓(xùn)練樣本和測(cè)試樣本;另一方面,由于樣本維度較大,不適宜采用基于歐氏距離計(jì)算的過(guò)采樣方法,因此,選擇帶有放回的隨機(jī)抽樣過(guò)采樣方法進(jìn)行樣本擴(kuò)充。為了防止過(guò)度采樣導(dǎo)致的過(guò)擬合問(wèn)題,同時(shí)保留大類類別的屬性,少數(shù)類樣本數(shù)量均被擴(kuò)充至50個(gè)左右。
評(píng)價(jià)指標(biāo)選擇查準(zhǔn)率Precision、查全率Recall和綜合衡量指標(biāo)F1分?jǐn)?shù)。其中,查準(zhǔn)率是指分類器正確分類的樣本數(shù)與總樣本數(shù)之比,查全率是指被正確判定的正例占總正例的比重,二者相互制約。F1平衡了查準(zhǔn)率和查全率之間的關(guān)系,為了更直觀地展示分類情況,本文引入MacroF1進(jìn)行評(píng)估。MacroF1分?jǐn)?shù)計(jì)算出每一類查準(zhǔn)率和查全率的F1,最后將F1平均。各評(píng)價(jià)指標(biāo)計(jì)算為
(16)
(17)
(18)
(19)
式中:TP為真實(shí)標(biāo)簽為真,且預(yù)測(cè)標(biāo)簽也為真的數(shù)目;FP為真實(shí)標(biāo)簽為假,且預(yù)測(cè)標(biāo)簽中為真的數(shù)目;FN為真實(shí)標(biāo)簽為真,且預(yù)測(cè)標(biāo)簽為假的數(shù)目。
本文設(shè)計(jì)的對(duì)比實(shí)驗(yàn)包括3種傳統(tǒng)方法和5種模型結(jié)構(gòu)。3種傳統(tǒng)方法為:樸素貝葉斯、支持向量機(jī)SVM、未使用“鐵路行車事故詞庫(kù)”的SVM。5種模型結(jié)構(gòu)為:詞向量BiLSTM網(wǎng)絡(luò)(W-BiLSTM)、結(jié)合注意力機(jī)制的詞向量BiLSTM網(wǎng)絡(luò)(WA-BiLSTM)、句向量BiLSTM網(wǎng)絡(luò)(S-BiLSTM)、結(jié)合注意力機(jī)制的詞向量和句向量雙通道BiLSTM網(wǎng)絡(luò)(WA-S-BiLSTM)、未使用“鐵路行車事故詞庫(kù)”的WA-S-BiLSTM)。各方法實(shí)驗(yàn)結(jié)果對(duì)比見表7。表7中所有數(shù)據(jù)均為運(yùn)行10次的平均值,保留兩位小數(shù)表示。
從表7可以看出,結(jié)合了詞向量和句向量雙通道的WA-S-BiLSTM神經(jīng)網(wǎng)絡(luò)在識(shí)別精度上取得了明顯的提升,說(shuō)明本文所提出方法在鐵路行車事故分類中的有效性。根據(jù)實(shí)驗(yàn)結(jié)果,進(jìn)一步的在以下方面進(jìn)行分析。
表7 鐵路行車事故分類結(jié)果
(1)文本數(shù)據(jù)特征對(duì)傳統(tǒng)識(shí)別方法的影響
傳統(tǒng)方法(樸素貝葉斯、SVM)在進(jìn)行文本分類時(shí),只有D2類取得了優(yōu)秀的識(shí)別精度。結(jié)合表3和表4可以看出,D2類事故文本向量平均長(zhǎng)度較短(74.41),文本間波動(dòng)較小(25.54)。特別是,因D2類針對(duì)“調(diào)車脫軌”這一確定性事件,降低了訓(xùn)練的難度。
數(shù)據(jù)的樣本數(shù)量對(duì)傳統(tǒng)方法的識(shí)別精度存在影響。一方面,D21樣本量最大,效果較好;另一方面,C13、D3等事故,因?yàn)闃颖緮?shù)量小,傳統(tǒng)方法識(shí)別精度波動(dòng)很大。而對(duì)比樣本數(shù)量相接近的類別,詞向量平均長(zhǎng)度越短,傳統(tǒng)方法識(shí)別精度會(huì)相應(yīng)提高。
相對(duì)而言,WA-S-BiLSTM從結(jié)果上能夠降低數(shù)據(jù)量少和樣本數(shù)量不平衡帶來(lái)的影響,在不同數(shù)據(jù)量的樣本中均取得了滿意的識(shí)別精度。
(2)靜態(tài)注意力機(jī)制的有效性
對(duì)比W-BiLSTM和WA-BiLSTM,結(jié)合靜態(tài)注意力機(jī)制后,文本識(shí)別精度得到了提升,說(shuō)明靜態(tài)注意力機(jī)制有效提升了關(guān)鍵詞向量的特征提取效率。值得注意的是,引入靜態(tài)注意力機(jī)制后,提升最大的是D2和D3兩類的分類結(jié)果。結(jié)合樣本數(shù)據(jù)特點(diǎn),D2、D3的文本平均長(zhǎng)度較短,文本長(zhǎng)度波動(dòng)最小,更有利于靜態(tài)注意力機(jī)制發(fā)揮作用。
(3)詞向量與句向量的特征提取效果
因?yàn)殍F路行車事故文本的長(zhǎng)度總體波動(dòng)較大,因此在識(shí)別精度上,句向量的特征提取效果整體要優(yōu)于詞向量。而對(duì)于如B1、C13、D2、D3這幾類詞向量長(zhǎng)度較短、波動(dòng)也較小的類別,詞向量的特征提取效果相對(duì)更優(yōu)。而詞向量長(zhǎng)度波動(dòng)較大的類別,會(huì)對(duì)詞向量的特征提取造成很大的影響。
在結(jié)合了詞向量、句向量雙通道的特點(diǎn)之后,WA-S-BiLSTM有效地提升了各類別的識(shí)別精度。
(4)同類型文本敘述多樣性問(wèn)題
在所有類別中,D10是WA-S-BiLSTM方法的識(shí)別結(jié)果中F1指數(shù)最小的。從樣本數(shù)據(jù)特點(diǎn)分析,D10的樣本總數(shù)為29,詞向量平均長(zhǎng)度76.14,詞向量波動(dòng)28.25。究其原因,與違反勞動(dòng)紀(jì)律的形式多樣導(dǎo)致D10文本敘述多樣性強(qiáng)有關(guān)。在本文分析的10種類型的鐵路行車事故樣本中,D10類型樣本的敘述多樣性是最強(qiáng)的。
例1:“***客專***站始發(fā)的***次列車開車時(shí)聯(lián)系不到機(jī)車乘務(wù)員,***,影響本列。”
例2:“***線***次列車運(yùn)行至***處因車務(wù)人員擋道停車,***,影響貨車1列。”
上述兩例說(shuō)明了D10文本敘述中違反勞動(dòng)紀(jì)律形式的多樣性,這給提取訓(xùn)練樣本的特征造成了較大的困難,導(dǎo)致了識(shí)別精度的降低。
(5)“鐵路行車事故詞庫(kù)”的有效性
如前文所述,“鐵路行車事故詞庫(kù)”可以實(shí)現(xiàn)鐵路專用詞匯的準(zhǔn)確分詞。從表7中可以看出,使用“鐵路行車事故詞庫(kù)”之后,無(wú)論是傳統(tǒng)SVM方法還是本文提出的WA-S-BiLSTM方法,事故類別的分類精度均有明顯提升。
綜上,可以得出以下結(jié)論:
(1)針對(duì)鐵路行車事故文本存在明顯的文本長(zhǎng)度不一,文本長(zhǎng)度波動(dòng)大的特點(diǎn),結(jié)合詞向量在短文本、波動(dòng)小文本中的提取效果和句向量在長(zhǎng)文本、波動(dòng)大文本中的提取效果,本文提出了WA-S-BiLSTM方法,有效地提升了整體識(shí)別精度。
(2)在詞向量通道引入靜態(tài)注意力機(jī)制,能夠有效提升特征提取效率。特別是針對(duì)文本長(zhǎng)度較短、文本波動(dòng)較小的事故文本類別,效果更加明顯。
(3)樣本數(shù)據(jù)的數(shù)量和不平衡會(huì)對(duì)傳統(tǒng)方法識(shí)別精度造成很大影響。這些影響可以通過(guò)合理設(shè)計(jì)實(shí)驗(yàn)來(lái)降低。從實(shí)驗(yàn)結(jié)果來(lái)看,本文提出的WA-S-BiLSTM方法也有助于降低樣本數(shù)量對(duì)于識(shí)別精度的影響。
(4)鐵路行車事故文本中,存在敘述非常多樣化的類型,如何進(jìn)一步提升這一類文本的識(shí)別精度,是未來(lái)研究應(yīng)關(guān)注的一個(gè)方向。
針對(duì)鐵路行車事故文本的分類問(wèn)題,本文提出了基于LSTM網(wǎng)絡(luò)的事故文本分類模型。由于鐵路文本的專業(yè)性,在中文分詞階段就會(huì)造成大量的分詞誤差,為此本文構(gòu)建了“鐵路行車事故詞庫(kù)”;針對(duì)鐵路事故文本長(zhǎng)短不一的問(wèn)題,設(shè)計(jì)了詞向量和句子向量雙通道的分類模型結(jié)構(gòu);針對(duì)鐵路行車事故文本的詞向量特征提取效果,在詞向量通道中引入了靜態(tài)注意力機(jī)制,有效提升了鐵路事故文本重點(diǎn)詞語(yǔ)的特征提取效率。實(shí)驗(yàn)結(jié)果證明了本文所提出方法的有效性。同時(shí),在實(shí)驗(yàn)中發(fā)現(xiàn),樣本敘述的多樣性,以及文本向量長(zhǎng)、波動(dòng)大的小數(shù)量樣本均會(huì)對(duì)識(shí)別精度產(chǎn)生負(fù)面影響,這也是未來(lái)研究中應(yīng)進(jìn)一步解決的問(wèn)題。