陳 鋼
(長(zhǎng)三角信息智能創(chuàng)新研究院,安徽 蕪湖 241000)
政務(wù)熱線在推動(dòng)政府履職、滿足群眾需求、化解社會(huì)矛盾等方面發(fā)揮了重要作用[1]。近年來(lái),各地政府在推動(dòng)政務(wù)熱線數(shù)字化轉(zhuǎn)型中取得了一些成效,但在工單分類過(guò)程中還存在問(wèn)題[2]。接線員對(duì)于每個(gè)政務(wù)熱線工單需要選擇相應(yīng)的類型,而可選的工單類型通常多達(dá)幾百個(gè),造成工單分類環(huán)節(jié)費(fèi)時(shí)費(fèi)力。人工分類依賴于接線員對(duì)市民訴求內(nèi)容的準(zhǔn)確判斷和對(duì)不同工單類型的深入了解,導(dǎo)致工單分類的準(zhǔn)確率有待進(jìn)一步提升。隨著政務(wù)熱線受理的城市事件種類越來(lái)越龐雜、數(shù)量越來(lái)越多,研究快速、準(zhǔn)確的工單智能分類方法具有重要意義。
政務(wù)熱線工單文本需要向量化后才能作為模型的標(biāo)準(zhǔn)輸入,一般常用Word2vec、Glove等詞向量模型對(duì)預(yù)處理后的工單文本進(jìn)行向量化表示[3]。但這類模型無(wú)法關(guān)注到上下文的關(guān)聯(lián)信息,難以處理自然語(yǔ)言文本中一詞多義的情況,而包含大量先驗(yàn)知識(shí)的預(yù)訓(xùn)練語(yǔ)言模型可以有效解決這類問(wèn)題[4]。通常而言,政務(wù)熱線工單文本以敘事性描述為主,往往存在描述不清、要素不全等問(wèn)題。RoBERTa預(yù)訓(xùn)練語(yǔ)言模型在語(yǔ)言表義方面具有較好的優(yōu)勢(shì),可以更好實(shí)現(xiàn)中文詞的語(yǔ)義嵌入,卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)可以有效提取文本局部特征,雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit, BiGRU)可以有效獲取文本上下文依賴關(guān)系和全局結(jié)構(gòu)信息,Attention機(jī)制能夠凸顯文本的重要特征以便更好地提取關(guān)鍵信息,從而提高分類性能。
綜合上述模型優(yōu)勢(shì),本文提出一種融合RoBERTa和事件特征提取的政務(wù)熱線工單分類方法。首先,通過(guò)RoBERTa預(yù)訓(xùn)練語(yǔ)言模型獲取政務(wù)熱線工單文本的語(yǔ)義表征向量;其次,通過(guò)CNN和BiGRU分別對(duì)語(yǔ)義表征向量提取對(duì)應(yīng)的局部特征和全局特征,并利用Self-Attention機(jī)制對(duì)BiGRU輸出的隱藏狀態(tài)進(jìn)行處理,凸顯重要性高的語(yǔ)義特征;最后對(duì)Self-Attention和CNN拼接向量通過(guò)全連接網(wǎng)絡(luò)后輸入分類器,完成政務(wù)熱線工單分類。
文獻(xiàn)[5]利用TD-IDF對(duì)人工記錄的政務(wù)熱線工單進(jìn)行文本分析處理,提取原始數(shù)據(jù)中的時(shí)間、事件、地址以及用戶投訴的關(guān)鍵信息,以此為政府服務(wù)提供合理的意見(jiàn)建議。文獻(xiàn)[6]針對(duì)政務(wù)熱線數(shù)據(jù)提取核心關(guān)鍵詞,基于機(jī)器學(xué)習(xí)算法進(jìn)行主題模型訓(xùn)練和時(shí)空模型訓(xùn)練及數(shù)據(jù)優(yōu)化,實(shí)現(xiàn)了熱點(diǎn)事件、熱點(diǎn)區(qū)域的快速定位。文獻(xiàn)[7]以三亞市的12345熱線數(shù)據(jù)為研究對(duì)象,通過(guò)提取熱線數(shù)據(jù)記錄中的空間信息進(jìn)行地理編碼,結(jié)合熱線記錄的原始信息,刻畫(huà)市民來(lái)電的時(shí)間、空間和類別特征。
傳統(tǒng)機(jī)器學(xué)習(xí)方法完成工單分類的過(guò)程是:首先人工提取特征,然后將多個(gè)特征串聯(lián)起來(lái)組成一個(gè)高維度的特征向量,之后便可以使用傳統(tǒng)的機(jī)器學(xué)習(xí)的各種分類器,如樸素貝葉斯[8]、決策樹(shù)[9]、支持向量機(jī)[10]等完成工單分類。這種方法需要做大量的特征工程,特征的選取和分析方式復(fù)雜,可能會(huì)造成前端特征與后端任務(wù)的脫節(jié),導(dǎo)致前端花費(fèi)大量精力去構(gòu)思出來(lái)的特征可能根本與指定的任務(wù)不相關(guān)[11]。另一種是利用基于深度學(xué)習(xí)的文本分類技術(shù)[12]完成自動(dòng)的特征提取和分類任務(wù)。不同類型的工單在內(nèi)容描述上可能存在很大的相似性,單一的卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)模型均有其弊端,很難發(fā)現(xiàn)這種微小的差異,進(jìn)而較難作出正確的判斷。文獻(xiàn)[13]采用K-means算法對(duì)所提取的特征詞進(jìn)行聚類處理,利用LDA模型求取語(yǔ)義影響力作為特征詞的權(quán)重來(lái)完成95598工單分類。文獻(xiàn)[14]通過(guò)TF-IDF算法找出關(guān)鍵詞以及余弦相似度計(jì)算訓(xùn)練、測(cè)試文檔間的相似度,最后使用深度玻爾茲曼機(jī)對(duì)電力投訴工單進(jìn)行分類。文獻(xiàn)[15]基于預(yù)訓(xùn)練BERT模型提出了95598客服工單自動(dòng)分類的方法,設(shè)計(jì)了電力客服工單自動(dòng)分類的流程。
文獻(xiàn)[16]針對(duì)中文任務(wù)對(duì)RoBERTa模型進(jìn)行了改進(jìn),使用了針對(duì)中文的Whole Word Masking(WWM)訓(xùn)練策略,在不改變其他訓(xùn)練策略的基礎(chǔ)上,提升了RoBERTa模型在中文任務(wù)上的實(shí)驗(yàn)效果。文獻(xiàn)[17]引入了預(yù)訓(xùn)練模型RoBERTa-WWM,利用其生成含有先驗(yàn)知識(shí)的語(yǔ)義表示并依次輸入雙向長(zhǎng)短時(shí)記憶和條件隨機(jī)場(chǎng)模型,實(shí)現(xiàn)了面向中文電子病歷的命名實(shí)體識(shí)別。文獻(xiàn)[18]將RoBERTa-wwm-ext模型應(yīng)用于中國(guó)公開(kāi)法庭記錄的數(shù)據(jù)集上進(jìn)行非法行為與否的文本二分類任務(wù),并通過(guò)與4種不同的模型對(duì)比證明了該模型在準(zhǔn)確率和訓(xùn)練效率方面均為最優(yōu)。文獻(xiàn)[19]使用RoBERTa和互動(dòng)注意網(wǎng)絡(luò)得到上下文和部分詞的注意力矩陣,對(duì)產(chǎn)品評(píng)論的情感性進(jìn)行分析和分類,在中文數(shù)據(jù)集上準(zhǔn)確率較高。
政務(wù)熱線工單是接線員根據(jù)市民來(lái)電所記錄的文本信息,其要素為時(shí)間、地點(diǎn)、人物、事件。為了確定政務(wù)熱線工單類型,對(duì)文本中描述的事件特征提取至關(guān)重要。如果僅基于詞級(jí)語(yǔ)義而忽視句級(jí)別語(yǔ)義特征來(lái)處理政務(wù)熱線工單文本,只能關(guān)注到淺層文本信息,在事件主題的挖掘上會(huì)有較大的偏差。屬于不同類型的工單在文本信息描述上具有很多相似性,利用單一神經(jīng)網(wǎng)絡(luò)方法很難發(fā)現(xiàn)這種微小的差異,進(jìn)而較難作出正確的判斷。例如“占道停車”屬于交通道路類,而“占道修車”屬于街面秩序類。
政務(wù)熱線工單文本具有信息內(nèi)容簡(jiǎn)短、特征稀疏的顯著特點(diǎn)。RoBERTa模型針對(duì)BERT模型進(jìn)行了多項(xiàng)改進(jìn),在多項(xiàng)自然語(yǔ)言處理基線任務(wù)上刷新了最優(yōu)性能記錄,其適應(yīng)的下游任務(wù)與本文中任務(wù)對(duì)應(yīng)的問(wèn)題相匹配,可以用來(lái)對(duì)政務(wù)熱線工單文本進(jìn)行語(yǔ)義表征。CNN網(wǎng)絡(luò)在卷積和池化操作時(shí)會(huì)丟失政務(wù)熱線工單文本序列中詞匯的位置和順序信息,因此不能很好地捕捉工單文本的全局信息。循環(huán)神經(jīng)網(wǎng)絡(luò)無(wú)法解決長(zhǎng)時(shí)依賴問(wèn)題,且工單文本的重要特征也無(wú)法凸顯。雖然通過(guò)GRU網(wǎng)絡(luò)可以有效獲取序列化句子的層級(jí)特征,然而單從一個(gè)方向提取特征不能完整地表示整個(gè)句子的上下文特征。為此,本文采用BiGRU網(wǎng)絡(luò),分別從2個(gè)方向?qū)渥犹卣鬟M(jìn)行提取和組合。在BiGRU網(wǎng)絡(luò)中引入Self-Attention機(jī)制,使得BiGRU網(wǎng)絡(luò)在計(jì)算語(yǔ)義信息時(shí)根據(jù)其重要程度賦予不同的權(quán)重。如此,分類模型在保留政務(wù)熱線工單文本特征最有效信息的基礎(chǔ)上,能夠最大程度地解決信息冗余問(wèn)題,進(jìn)而優(yōu)化工單文本特征向量。
基于上述分析,本文提出的政務(wù)熱線工單分類模型主要由語(yǔ)言編碼層、特征提取層和分類層構(gòu)成,如圖1所示。該分類模型既可以凸顯出工單文本重要的局部特征,又可以更加充分地提取工單文本上下文的句法結(jié)構(gòu)和語(yǔ)義信息。
圖1 模型結(jié)構(gòu)
語(yǔ)義編碼層對(duì)預(yù)處理后的工單文本進(jìn)行語(yǔ)義信息提取,獲得具有上下文特征信息的語(yǔ)義表征向量。為了使RoBERTa模型適用于中文環(huán)境下的工單分類,使用哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的RoBERTa-wwm-ext作為文本特征提取模型并將經(jīng)過(guò)預(yù)處理后的工單文本序列X={x1,x2,…,xn}輸入其中。通過(guò)RoBERTa模型學(xué)習(xí)到每個(gè)詞對(duì)應(yīng)的表征向量X′={x′1,x′2,…,x′n},表征向量X′提取了政務(wù)熱線工單文本的上下文信息和詞本身的位置信息。文獻(xiàn)[20]指出BERT不同層的輸出對(duì)應(yīng)學(xué)習(xí)到的內(nèi)容有所不同,為了獲取最佳編碼效果,本文將RoBERTa模型12層Transformer編碼器模塊中若干層的編碼輸出進(jìn)行加權(quán)來(lái)得到上下文嵌入矩陣,將最終編碼結(jié)果輸入到特征提取層中。
文獻(xiàn)[21]將CNN-BiGRU模型運(yùn)用于事件觸發(fā)詞提取任務(wù)中。然而,句子中每個(gè)詞語(yǔ)的語(yǔ)義信息都有不同的貢獻(xiàn),BiGRU網(wǎng)絡(luò)難以從句子序列中捕獲重要語(yǔ)義信息。為此,本文提出一種基于CNN-BiGRU-Self-Attention的特征提取方法。首先通過(guò)CNN提取局部特征,其次利用BiGRU來(lái)獲取文本上下文語(yǔ)義信息得到全局特征,最后對(duì)全局特征運(yùn)用Self-Attetion后和局部特征進(jìn)行拼接作為分類層的輸入。特征提取層利用CNN與BiGRU-Self-Attention的融合網(wǎng)絡(luò)從文本時(shí)序和空間2個(gè)層次上提取政務(wù)熱線工單文本特征,優(yōu)化工單文本的特征表示,提升工單分類性能。
2.3.1 CNN
本文主要利用CNN的特性對(duì)工單文本中的每個(gè)詞提取局部特征形成語(yǔ)義特征向量,相當(dāng)于采用卷積核在輸入矩陣上滑動(dòng)進(jìn)行乘積求和的過(guò)程。將RoBERTa輸出的工單文本編碼向量S∈n×d(d表示編碼向量中的字向量維度,本文中字向量編碼維度為768維,n表示句子長(zhǎng)度)作為CNN的輸入序列并提取對(duì)應(yīng)的局部特征,以特征向量的形式輸出整句文本的語(yǔ)義特征,如圖2所示。
圖2 CNN局部特征提取
設(shè)定卷積核u∈kernel×kernel,kernel表示卷積核的大小,本文模型中取多個(gè)尺寸的卷積核進(jìn)行卷積,即kernel∈{2,3,4},相當(dāng)于使用2×2、3×3與4×4的卷積核對(duì)句子進(jìn)行卷積。對(duì)于輸入S,通過(guò)重復(fù)應(yīng)用卷積核u進(jìn)行卷積操作得到特征向量O=(o0,o1,…,on-kernel),向量O中元素oi的計(jì)算公式為:
oi=ReLU(u·Si:i+kernel-1)
(1)
其中i=0,1,2,…,n-kernel,(·)表示矩陣的點(diǎn)乘操作,Si:j表示矩陣S從i行到j(luò)行的子矩陣,即第i個(gè)字到第j個(gè)字的字向量矩陣,ReLU是激活函數(shù)。
完成卷積操作后,得到的每個(gè)特征向量O都被送到池化層以生成潛在的局部特征。本文采用最大池化策略對(duì)卷積層輸出結(jié)果進(jìn)行池化,其作用是捕獲卷積之后的最重要特征v,把一個(gè)變長(zhǎng)句子處理為固定長(zhǎng)度:
(2)
將卷積核掃描整個(gè)句子,可以得到包含局部特征信息的句子表征向量:
st=CNN(S,u)
(3)
由于本文中使用了2×2、3×3與4×4這3種不同寬度的卷積核進(jìn)行卷積,因而可以獲取工單文本在不同尺度上的文本局部特征。拼接各個(gè)卷積核的結(jié)果,得到整個(gè)句子的特征向量:
M=[st2,st3,st4]
(4)
其中M∈n×d,M中每行向量表示通過(guò)CNN所提到的局部特征。
2.3.2 BiGRU
在政務(wù)熱線工單特征提取中,當(dāng)前時(shí)間步長(zhǎng)的隱藏狀態(tài)與前一時(shí)刻和下一時(shí)刻相關(guān)聯(lián)。采用單向GRU網(wǎng)絡(luò)對(duì)文本序列建模時(shí),狀態(tài)總是由前向后傳遞,因此僅能獲取文本前文信息,難以獲取整個(gè)文本的上下文信息。BiGRU由前向GRU單元和后向GRU單元組成,利用2個(gè)并行通道,既能獲得正向的累積依賴信息,又能獲得反向的未來(lái)的累積依賴信息,提取的特征信息更加豐富。因此,本文使用BiGRU從工單文本表征向量中提取上下文信息,如圖3所示。
圖3 BiGRU網(wǎng)絡(luò)結(jié)構(gòu)
GRU可以通過(guò)門控機(jī)制選擇保存上下文信息來(lái)解決RNN梯度消失或爆炸的問(wèn)題。GRU單元由更新門和重置門組成,如圖4所示。
圖4 GRU單元結(jié)構(gòu)
對(duì)于時(shí)間t,GRU隱藏狀態(tài)計(jì)算公式如下:
rt=σ(wr·[ht-1,xt]+br)
(5)
zt=σ(wz·[ht-1,xt]+bz)
(6)
h′t=tanh(wh·[rt×ht-1,xt]+bh)
(7)
ht=(1-zt)×ht-1+zt×h′t
(8)
(9)
(10)
(11)
2.3.3 Self-Attention
Self-Attention機(jī)制是Attention機(jī)制的一種變體,利用Attention機(jī)制計(jì)算輸入特征中不同位置之間的權(quán)重,降低了對(duì)外部信息的依賴[22]。例如政務(wù)熱線工單文本“來(lái)電人反映保利時(shí)光印象小區(qū)旁邊高速正在擴(kuò)建,聲音太大,擾民。”屬于噪音污染,文本中“高速正在擴(kuò)建”“聲音太大”和“擾民”對(duì)于工單類型的識(shí)別具有很大幫助,在識(shí)別過(guò)程中可以加以高權(quán)重,而“保利時(shí)光印象小區(qū)”“旁邊”等字詞對(duì)工單類型的識(shí)別幫助較小,而且增加了識(shí)別難度,減弱了識(shí)別效果,因此可以給這些冗余實(shí)體加以較小的權(quán)重。同時(shí),借由Attention機(jī)制對(duì)關(guān)鍵信息的跳躍捕捉,提高關(guān)鍵信息的傳遞效率,使得Self-Attention機(jī)制更擅長(zhǎng)捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。
因此,在BiGRU網(wǎng)絡(luò)捕捉到上下文特征后,本文使用Self-Attention機(jī)制來(lái)提取工單文本句子中的重要信息,可以更好地為重要信息分配權(quán)重,將全局特征整合。融合Self-Attention機(jī)制后的BiGRU網(wǎng)絡(luò)能夠通過(guò)計(jì)算中間狀態(tài)與最終狀態(tài)之間的相關(guān)關(guān)系得到關(guān)于注意力的概率分布,減少了無(wú)效信息的影響,從而提高工單分類性能。
考慮Self-Attention機(jī)制無(wú)法從多個(gè)角度、多層次捕捉重要特征,需要使用多頭注意力機(jī)制。多頭注意力機(jī)制將輸入映射到多個(gè)向量空間并計(jì)算向量空間中字符的上下文表示,重復(fù)該過(guò)程幾次,最后將結(jié)果拼接在一起。多頭注意力機(jī)制可以有效擴(kuò)展模型對(duì)不同位置的感知能力,其計(jì)算公式如下:
m(h)=concat(score1(h),…,scoren(h))WO
(12)
其中h為BiGRU網(wǎng)絡(luò)的輸出,scorei為第i個(gè)Self-Attention機(jī)制的輸出,n為重復(fù)次數(shù),scorei計(jì)算方式如下:
scorei(h)=attention(hWiQ,hWiK,hWiV)
(13)
其中WiQ、WiK、WiV和WO為參數(shù)矩陣,用于將輸入h映射到不同的向量空間。參數(shù)矩陣大小分別為WiQ∈Rd×dQ,WiK∈Rd×dQ,WiV∈Rd×dV,WO∈RndV×d,其中d是BiGRU網(wǎng)絡(luò)的輸出向量維度,dQ和dV是向量空間維度。Attention的計(jì)算公式為:
(14)
將Vconcat輸入分類器中完成工單分類:
p=softmax(WVconcat+b)
(15)
其中W、b是可學(xué)習(xí)參數(shù),p是各類別的分類預(yù)測(cè)概率。使用正確類別的負(fù)對(duì)數(shù)似然作為訓(xùn)練損失函數(shù):
(16)
其中j是工單E的分類類別。
本文提出的政務(wù)熱線工單分類模型訓(xùn)練流程如圖5所示。首先通過(guò)對(duì)工單文本進(jìn)行分詞處理、去除停用詞以及合并同義詞后,構(gòu)建政務(wù)熱線工單數(shù)據(jù)集。然后將數(shù)據(jù)集按一定比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集用于模型訓(xùn)練,驗(yàn)證集通過(guò)不斷迭代更新模型性能,測(cè)試集用來(lái)評(píng)估模型性能。最后,使用模型進(jìn)行政務(wù)熱線工單分類。
圖5 分類模型訓(xùn)練流程圖
本文使用基于CUDA 11.0的深度學(xué)習(xí)框架pytorch 1.7.1構(gòu)建網(wǎng)絡(luò)模型,實(shí)驗(yàn)在內(nèi)存DDR4 64 GB,2.4 GHz Intel(R) Xeon(R) Silver 4210R CPU, NVIDIA GeForce GTX 3090的Ubuntu 18.04 LTS系統(tǒng)上進(jìn)行。
在整體網(wǎng)絡(luò)訓(xùn)練過(guò)程中,本文模型的超參數(shù)如表1所示。
表1 超參數(shù)設(shè)置
本文從2018年1月1日—2021年6月30日期間安徽省蕪湖市歷史政務(wù)熱線工單中挑選了60000條工單構(gòu)建了實(shí)驗(yàn)數(shù)據(jù)集,數(shù)據(jù)集描述如表2所示。數(shù)據(jù)集包含工單文本數(shù)據(jù)和對(duì)應(yīng)的工單類型,其中工單文本數(shù)據(jù)是蕪湖市市民訴求文本信息,工單類型是由業(yè)務(wù)人員根據(jù)工單文本內(nèi)容標(biāo)注所得。同時(shí),本文對(duì)60000條工單文本進(jìn)行了統(tǒng)計(jì)分析,工單文本長(zhǎng)度的均值為119.92個(gè)字,且95%的工單文本長(zhǎng)度在287個(gè)字以內(nèi)。
表2 數(shù)據(jù)集描述
為了驗(yàn)證選取RoBERTa若干層加權(quán)編碼的效果,本文對(duì)比了使用最后3層加權(quán)和使用原RoBERTa進(jìn)行工單分類的性能,實(shí)驗(yàn)結(jié)果如表3所示。不難看出,取RoBERTa最后3層輸出的加權(quán)求和結(jié)果作為工單文本語(yǔ)義編碼的效果稍微優(yōu)于使用原RoBERTa模型。對(duì)此實(shí)驗(yàn)結(jié)果而言,一個(gè)可行的解釋是:RoBERTa模型不同層傾向于學(xué)習(xí)不同類型的語(yǔ)言學(xué)信息,表層信息特征主要集中在底層網(wǎng)絡(luò),句法信息特征主要集中在中間層網(wǎng)絡(luò),語(yǔ)義信息特征主要集中在高層網(wǎng)絡(luò)。故此,本文選取RoBERTa模型最后3層的輸出向量加權(quán)作為語(yǔ)義編碼層的輸出。
表3 組合輸出實(shí)驗(yàn)結(jié)果
本文采用精確率(P)、召回率(R)和加權(quán)F1值(根據(jù)各類型工單所占比例進(jìn)行加權(quán))作為政務(wù)熱線工單分類性能的評(píng)價(jià)指標(biāo)。為驗(yàn)證本文政務(wù)熱線工單分類方法(為方便起見(jiàn),將其命名為WOC-FE)的性能,與多種基線方法進(jìn)行對(duì)比。文獻(xiàn)[8]、文獻(xiàn)[9]和文獻(xiàn)[10]在對(duì)文本進(jìn)行特征提取的基礎(chǔ)上分別采用樸素貝葉斯、決策樹(shù)和支持向量機(jī)的機(jī)器學(xué)習(xí)方法完成工單分類。文獻(xiàn)[23]使用經(jīng)過(guò)詞嵌入之后的詞向量作為輸入并經(jīng)過(guò)RNN網(wǎng)絡(luò)和池化層完成文本分類。文獻(xiàn)[24]使用基于單詞層面注意力機(jī)制的BiGRU模型和基于句子層面注意力機(jī)制的BiGRU模型提取文本多層面的特征進(jìn)行文本分類。實(shí)驗(yàn)對(duì)比結(jié)果如表4所示。
表4 基線對(duì)比結(jié)果
從表4中可以看出,本文提出的工單分類方法相較于其他基線方法在各項(xiàng)指標(biāo)上均取得了最優(yōu)效果,P、R和加權(quán)F1分別達(dá)到了82.24%、81.30%、80.77%。不難看出,基于傳統(tǒng)機(jī)器學(xué)習(xí)的工單分類(文獻(xiàn)[8]、文獻(xiàn)[9]和文獻(xiàn)[10])性能比基于深度學(xué)習(xí)(文獻(xiàn)[23]和文獻(xiàn)[24])和基于預(yù)訓(xùn)練語(yǔ)言模型(文獻(xiàn)[15])的工單分類性能要差。這是因?yàn)闄C(jī)器學(xué)習(xí)方法僅簡(jiǎn)單地對(duì)文本中的詞向量進(jìn)行加權(quán)平均,沒(méi)有提取文本更深層次的語(yǔ)義信息,而基于深度學(xué)習(xí)和預(yù)訓(xùn)練語(yǔ)言模型的分類方法可以獲取更深層次的語(yǔ)義信息從而得到更好的分類效果。
在基于深度學(xué)習(xí)的工單分類方法中,文獻(xiàn)[24]使用BiGRU作為文本提取模型來(lái)有效提取文本上下文信息,同時(shí)引入Attention機(jī)制來(lái)關(guān)注文本的不同層次特征,因此取得了比文獻(xiàn)[23]更好的效果,平均提升了2個(gè)百分點(diǎn)。相較于基于深度學(xué)習(xí)的分類方法,預(yù)訓(xùn)練語(yǔ)言BERT模型能夠更加有效地提取文本的上下文語(yǔ)義信息,因此文獻(xiàn)[15]相比文獻(xiàn)[24]在分類性能上平均提升了4個(gè)百分點(diǎn)。本文使用RoBERTa作為文本特征提取模型,并在此基礎(chǔ)上引入了基于CNN的局部特征提取和基于BiGRU-Self-Attention的全局特征提取,兼顧到了文本局部信息和上下文語(yǔ)義信息,充分發(fā)揮了各網(wǎng)絡(luò)的優(yōu)勢(shì),相比其他方法取得了更好的分類性能。
為了說(shuō)明特征提取層的有效性,本文定量比較了是否使用特征提取層的實(shí)驗(yàn)結(jié)果(將未使用特征提取層的方法命名為WOC),對(duì)比結(jié)果如表5所示。可以看出,WOC-FE方法的各項(xiàng)評(píng)價(jià)指標(biāo)均優(yōu)于WOC方法,這表明加入了特征提取層后能夠取得更好的分類性能。BiGRU通過(guò)前后2個(gè)方向獲取序列向量中的特征信息,可以更好地捕獲上下文信息。此外,將基于多窗口卷積的卷積神經(jīng)網(wǎng)絡(luò)融入BiGRU-Self-Attention模型,可以捕獲字符的向量序列表達(dá),對(duì)于獲取多層次語(yǔ)義信息具有較大幫助。工單文本中的各個(gè)字詞對(duì)上下文語(yǔ)義的影響因子不同,加入Self-Attention機(jī)制的方法可以給每個(gè)字詞分配不同的權(quán)重以便凸顯關(guān)鍵信息,分類效果可以獲得明顯提升。
表5 消融實(shí)驗(yàn)結(jié)果
圖6展示了特征提取層消融實(shí)驗(yàn)的驗(yàn)證集準(zhǔn)確率對(duì)比曲線??梢钥闯?,隨著迭代次數(shù)的增加,圖中曲線①逐漸超過(guò)曲線②,并穩(wěn)定在曲線②的上方,說(shuō)明了特征提取層可以提升政務(wù)熱線工單分類的準(zhǔn)確率。
圖6 消融實(shí)驗(yàn)準(zhǔn)確率對(duì)比
為了更加直觀有效地展示工單分類效果,圖7給出了實(shí)驗(yàn)結(jié)果的混淆矩陣熱力圖,圖中方格顏色深淺表示預(yù)測(cè)準(zhǔn)確率??梢钥吹?,對(duì)角線上的方格顏色較深,這表明本文所提出分類方法在所選的20種工單類別上的分類性能均較好。
圖7 混淆矩陣熱力圖
針對(duì)基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)對(duì)政務(wù)熱線工單分類存在的問(wèn)題,本文提出了一種基于組合神經(jīng)網(wǎng)絡(luò)的工單分類方法。該方法首先通過(guò)基于RoBERTa模型的語(yǔ)義編碼層獲取政務(wù)熱線工單文本中的語(yǔ)義表征向量,然后通過(guò)由CNN-BiGRU-Self-Attention定義的特征提取層獲取工單文本的局部特征和全局特征,并對(duì)全局特征進(jìn)行處理以凸顯重要性高的語(yǔ)義特征,最后將融合后的特征向量輸入分類器來(lái)完成工單分類?;€對(duì)比實(shí)驗(yàn)說(shuō)明了本文工單分類方法的有效性。政務(wù)熱線工單具有重要的數(shù)據(jù)價(jià)值,本文下一步工作是融合政府部門業(yè)務(wù)數(shù)據(jù)來(lái)完成工單的自動(dòng)分撥。