承孝敏,陳 鋼,陳健鵬,佘祥榮,毛 建
(1.長(zhǎng)三角信息智能創(chuàng)新研究院, 安徽 蕪湖 241000;2.中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院, 安徽 合肥 230026)
12345熱線在推動(dòng)政府履職、滿足群眾需求、化解社會(huì)矛盾等方面發(fā)揮著重要作用。12345熱線所沉淀的海量數(shù)據(jù)可以全面、及時(shí)、準(zhǔn)確地反映城市治理問(wèn)題,為數(shù)據(jù)驅(qū)動(dòng)的城市治理體系和治理能力現(xiàn)代化提供了基礎(chǔ)[1]。2021年1月6日,國(guó)務(wù)院辦公廳發(fā)布《關(guān)于進(jìn)一步優(yōu)化地方政務(wù)服務(wù)便民熱線的指導(dǎo)意見(jiàn)》(國(guó)辦發(fā)〔2020〕53號(hào)),指出要優(yōu)化政務(wù)熱線流程與資源配置,強(qiáng)化技術(shù)支撐,讓熱線接得更快、分得更準(zhǔn)、辦得更實(shí)。近年來(lái),各地政府在推動(dòng)12345熱線數(shù)字化轉(zhuǎn)型中取得了一些成效,但在事件分派過(guò)程中也存在一些問(wèn)題[2]。話務(wù)員對(duì)市民訴求分類的準(zhǔn)確判斷能力和對(duì)各政府部門(mén)職能了解的深入程度決定了事件分撥的質(zhì)量。然而,市民致電訴求的內(nèi)容長(zhǎng)短不一,大部分以敘事性描述為主,往往存在描述不清,要素不全等問(wèn)題。此外,話務(wù)員難以在對(duì)市民訴求充分理解的基礎(chǔ)上從幾十個(gè)處置部門(mén)中挑選正確的部門(mén)完成事件分撥,這就導(dǎo)致了人工事件分撥的準(zhǔn)確率不高,甚至造成大量的二次分撥。隨著12345熱線受理的事件數(shù)量越來(lái)越龐大,受理的事件類型越來(lái)越復(fù)雜,研發(fā)一種能夠準(zhǔn)確定位事件處置部門(mén)的分撥方法具有重要意義。
在業(yè)務(wù)上,單純利用12345熱線文本大數(shù)據(jù)難以實(shí)現(xiàn)城市事件的準(zhǔn)確分撥,將其與政府部門(mén)公開(kāi)數(shù)據(jù)(如“部門(mén)簡(jiǎn)介”數(shù)據(jù)、“三定”數(shù)據(jù)等)相結(jié)合,能夠?yàn)橛行Х峙沙鞘懈黝愂录峁┲?。而最能反映部門(mén)職責(zé)的“三定”數(shù)據(jù)(即定職能配置、定內(nèi)設(shè)機(jī)構(gòu)、定人員編制,主要包含機(jī)構(gòu)規(guī)格、主要職責(zé)、內(nèi)設(shè)機(jī)構(gòu)及其具體職責(zé)、人員編制和領(lǐng)導(dǎo)職數(shù)等方面內(nèi)容)因其與政府部門(mén)存在強(qiáng)相關(guān)性,將其加入到事件匹配任務(wù)中可以提高分撥準(zhǔn)確度。
在技術(shù)上,Word2Vec、Glove等詞向量模型往往無(wú)法關(guān)注到上下文的關(guān)聯(lián)信息,難以處理自然語(yǔ)言文本中一詞多義的情況,而預(yù)訓(xùn)練語(yǔ)言模型可以有效解決這類問(wèn)題[3]。同時(shí),相對(duì)于單向長(zhǎng)短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)[4],雙向LSTM(BiLSTM)[5]通過(guò)雙向語(yǔ)義編碼結(jié)構(gòu)獲取上下文信息,能夠更好地對(duì)12345熱線事件信息進(jìn)行提取。進(jìn)一步地,注意力(Attention)機(jī)制[6]可以更深層次地挖掘12345熱線事件和政府部門(mén)“三定”數(shù)據(jù)的關(guān)聯(lián)關(guān)系。
基于以上分析,本文面向12345熱線提出了一種基于強(qiáng)化關(guān)聯(lián)的事件分撥方法(RAVA): 首先對(duì)12345熱線事件文本中的事件內(nèi)容、事件觸發(fā)詞、事件地點(diǎn)等關(guān)鍵信息進(jìn)行提取并在此基礎(chǔ)上構(gòu)建事件畫(huà)像;然后將事件畫(huà)像輸入“三定”嵌入模塊,與政府部門(mén)“三定”職責(zé)進(jìn)行匹配,得到適用于該事件的“三定”職責(zé)列表并將其轉(zhuǎn)換為對(duì)應(yīng)部門(mén);最后對(duì)相關(guān)答案進(jìn)行重排序,輸出12345熱線事件的分撥部門(mén)。
本文的主要貢獻(xiàn)包括以下四個(gè)方面:
(1) 在“事件-部門(mén)”匹配任務(wù)中引入對(duì)責(zé)任部門(mén)的“三定”描述,并提出基于答案選擇(Answer Selection, AS)的“事件-三定”匹配模型,將“事件-部門(mén)”匹配的單目標(biāo)問(wèn)題轉(zhuǎn)化為“事件-三定-部門(mén)”的多階段問(wèn)題,利用“三定”職責(zé)描述提升事件分撥的準(zhǔn)確率。
(2) 提出基于強(qiáng)化關(guān)聯(lián)的注意力機(jī)制ARA并應(yīng)用到“事件-三定”匹配的答案選擇模型中,使得模型在計(jì)算事件與“三定”的匹配度過(guò)程中能更有效地從“三定”中選擇提取相關(guān)信息,提升對(duì)“事件-三定”的匹配預(yù)測(cè)成功率。
(3) 使用基于政務(wù)語(yǔ)料庫(kù)訓(xùn)練的BERT模型,有效地加入了政務(wù)領(lǐng)域的先驗(yàn)知識(shí),實(shí)現(xiàn)了對(duì)“三定” 職責(zé)和部門(mén)簡(jiǎn)介更為準(zhǔn)確的嵌入表示。
(4) 利用12345熱線歷史事件分撥結(jié)果構(gòu)建基于先驗(yàn)知識(shí)的重排序模型,以此計(jì)算“事件-部門(mén)”最終的匹配結(jié)果。
文獻(xiàn)[7]指出政務(wù)熱線應(yīng)為政府決策提供依據(jù)及數(shù)據(jù)支持,并以廣州12345政務(wù)熱線為例,探討如何通過(guò)政務(wù)熱線轉(zhuǎn)型來(lái)推動(dòng)智慧治理建設(shè)。文獻(xiàn)[8]基于適應(yīng)性結(jié)構(gòu)化理論構(gòu)建了12345熱線大數(shù)據(jù)質(zhì)量影響因素模型,并通過(guò)隨機(jī)森林算法進(jìn)行重要性評(píng)估。文獻(xiàn)[9]以北京市12345政務(wù)熱線的海量實(shí)時(shí)數(shù)據(jù)為例,分析了超大城市熱線問(wèn)政過(guò)程中的市民訴求和政府回應(yīng)之間的特征與二者之間的關(guān)系。文獻(xiàn)[10]以三亞市的12345熱線數(shù)據(jù)為研究對(duì)象,通過(guò)提取熱線數(shù)據(jù)記錄中的空間信息進(jìn)行地理編碼,結(jié)合熱線記錄的原始信息,刻畫(huà)市民來(lái)電的時(shí)間、空間和類別特征。文獻(xiàn)[11]利用TF-IDF對(duì)人工記錄的政務(wù)熱線工單進(jìn)行文本分析處理,提取原始數(shù)據(jù)中的時(shí)間、事件、地址以及用戶投訴的關(guān)鍵信息,以此為政府服務(wù)提供合理的意見(jiàn)、建議。文獻(xiàn)[12]針對(duì)政務(wù)熱線數(shù)據(jù)提取核心關(guān)鍵詞,基于機(jī)器學(xué)習(xí)算法進(jìn)行主題模型訓(xùn)練和時(shí)空模型訓(xùn)練及數(shù)據(jù)優(yōu)化,實(shí)現(xiàn)了對(duì)熱點(diǎn)事件、熱點(diǎn)區(qū)域的快速定位。
在12345熱線事件分撥處理流程中,除了事件發(fā)生的時(shí)間、地點(diǎn)與主體等基本要素信息,往往更需要關(guān)注與事件有關(guān)的觸發(fā)詞信息。因此,在本文的事件畫(huà)像中,重點(diǎn)考慮對(duì)事件描述中的關(guān)鍵信息的抽取,其主要通過(guò)從事件文本中提取與事件相關(guān)的特征來(lái)實(shí)現(xiàn)。文獻(xiàn)[13]提出了基于指針網(wǎng)絡(luò)的文本摘要提取方法,解決了序列到序列(Seq2Seq)模型中輸出端使用的詞匯表隨著輸入序列長(zhǎng)度變化而變化的問(wèn)題。文獻(xiàn)[14]提出一種端到端的序列標(biāo)注模型,用以完成事件檢測(cè)和事件元素角色分類任務(wù),不需要識(shí)別觸發(fā)詞,解決了事件抽取中存在的角色重疊和元素重疊的問(wèn)題。文獻(xiàn)[15]利用條件隨機(jī)場(chǎng)模型,對(duì)新冠肺炎疫情相關(guān)的微博新聞構(gòu)建出疫情事件畫(huà)像。文獻(xiàn)[16]采用實(shí)體關(guān)系抽取算法,并結(jié)合知識(shí)圖譜技術(shù),通過(guò)對(duì)金融相關(guān)事件的信息抽取構(gòu)建出金融大數(shù)據(jù)的事件畫(huà)像。文獻(xiàn)[17]提出了一種基于漢語(yǔ)詞性標(biāo)注結(jié)合注意力機(jī)制的中文社交網(wǎng)絡(luò)應(yīng)急事件畫(huà)像算法,該算法可以提取中文社交網(wǎng)絡(luò)緊急事件中的實(shí)體名稱,并利用該實(shí)體名稱描述緊急事件來(lái)構(gòu)建事件畫(huà)像。
答案選擇[18]作為自動(dòng)問(wèn)答的子任務(wù),已經(jīng)引起了廣泛的重視。文獻(xiàn)[19]使用CNN和LSTM技術(shù)作為編碼器,結(jié)合CRF在多個(gè)問(wèn)答對(duì)中預(yù)測(cè)出最佳問(wèn)答對(duì),充分利用了文本的上下文信息。文獻(xiàn)[20]提出了一種用于自動(dòng)答案選擇的混合注意力機(jī)制,可以將問(wèn)答對(duì)中信息量最大的部分對(duì)齊。文獻(xiàn)[21]提出了一種用于通用序列對(duì)模型的多層注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)可以為后續(xù)的編碼器層提供真實(shí)特征,旨在改進(jìn)表示學(xué)習(xí)過(guò)程。文獻(xiàn)[22]提出了一種層次注意力網(wǎng)絡(luò),利用輸入序列的語(yǔ)義特征和可組合性,將輸入文檔和知識(shí)庫(kù)中的知識(shí)充分融合。此外,最新研究表明: 文本生成技術(shù)本質(zhì)上可以用于答案選擇和生成[23]。文獻(xiàn)[24]描述了一種協(xié)作網(wǎng)絡(luò),聯(lián)合訓(xùn)練問(wèn)答模型和問(wèn)題生成模型,以提高答案選擇的性能。
廣義自回歸語(yǔ)言模型XLNet[25]克服了BERT的缺點(diǎn),其利用排列組合的原理實(shí)現(xiàn)了新的雙向編碼,具備更強(qiáng)大的語(yǔ)義表征能力。Liu等[26]通過(guò)對(duì)BERT的超參數(shù)和訓(xùn)練集大小進(jìn)行研究,提出了一種優(yōu)化的BERT訓(xùn)練方案,使用動(dòng)態(tài)遮掩策略得到的RoBERTa模型相比于之前的各類post-BERT方法,可以達(dá)到等同或者更優(yōu)的性能。在中文相關(guān)任務(wù)上,Cui等[27]針對(duì)中文任務(wù)對(duì)RoBERTa模型進(jìn)行了改進(jìn),使用了針對(duì)中文的Whole Word Masking(WWM)訓(xùn)練策略,在不改變其他訓(xùn)練策略的基礎(chǔ)上,提升了RoBERTa模型在中文任務(wù)上的實(shí)驗(yàn)效果。采用預(yù)訓(xùn)練語(yǔ)言模型學(xué)習(xí)到的詞向量比以往模型能獲得更多的上下文語(yǔ)義信息,充分挖掘預(yù)訓(xùn)練語(yǔ)言模型的潛力,成為研究人員目前的新工作[28]。
本文提出的面向12345熱線事件的分撥模型包括事件畫(huà)像模塊、“三定”嵌入模塊和答案重排序模塊三個(gè)組成部分,如圖1所示。首先將12345熱線事件的文本信息輸入到Bi-LSTM網(wǎng)絡(luò),對(duì)其中的上下文信息進(jìn)行編碼,將編碼后形成的表征向量送入指針生成網(wǎng)絡(luò)后產(chǎn)生事件描述向量和事件畫(huà)像。事件描述向量是由指針生成網(wǎng)絡(luò)的編碼器部分對(duì)表征向量進(jìn)行編碼與歸一化處理后所生成的包含一系列上下文信息的表征向量,其被送入“三定”嵌入模塊與“三定”職責(zé)編碼輸入進(jìn)行答案選擇匹配。事件畫(huà)像則是由解碼器部分將事件描述編碼向量解碼成對(duì)應(yīng)的事件關(guān)鍵信息。
圖1 事件分撥模型的結(jié)構(gòu)
在“三定”嵌入模塊中,本文采用針對(duì)事件領(lǐng)域知識(shí)微調(diào)(fine-tune)后的RoBERTa2RoBERTa模型(即基于RoBERTa的Seq2Seq模型)的編碼器部分對(duì)“三定”職責(zé)進(jìn)行編碼,將編碼后的“三定”職責(zé)向量與事件描述向量送入到注意力網(wǎng)絡(luò)中,生成對(duì)應(yīng)的注意力得分。將注意力得分分別與“三定”職責(zé)向量、事件描述向量相乘得到用于答案選擇的注意力向量表示,將其與部門(mén)簡(jiǎn)介編碼向量進(jìn)行拼接,并將拼接結(jié)果接入Softmax函數(shù)得到對(duì)應(yīng)的部門(mén)概率分布,最終通過(guò)重排序模塊輸出12345熱線事件的分撥部門(mén)。
12345熱線文本一般包括人、地、事、物和組織五大要素。12345熱線不但會(huì)分撥到市直部門(mén),而且還會(huì)分撥到區(qū)縣、街道等下一級(jí)責(zé)任部門(mén),事件分撥完成后由責(zé)任部門(mén)負(fù)責(zé)聯(lián)系來(lái)電人并為其訴求提供解決方案。事件分撥更加關(guān)注事件地點(diǎn)(通常由地名地址或者POI興趣點(diǎn)構(gòu)成)和事件觸發(fā)詞(事件發(fā)生的核心詞,多為動(dòng)詞或名詞)。事件地點(diǎn)確定了該事件所屬的管轄區(qū)域,事件觸發(fā)詞確定了該事件對(duì)應(yīng)的處置部門(mén)。表1展示了12345熱線事件內(nèi)容、地點(diǎn)信息和關(guān)鍵主題等信息。
表1 12345熱線示例
本文事件畫(huà)像的構(gòu)建主要依賴于事件關(guān)鍵信息,而12345熱線事件的部分關(guān)鍵信息沒(méi)有在事件描述中直接出現(xiàn),使得其事件關(guān)鍵信息獲取的任務(wù)不是簡(jiǎn)單的抽取任務(wù)。借鑒模板與插槽等通過(guò)固定序列的填空任務(wù)的方式,本文使用類似方式來(lái)進(jìn)行事件關(guān)鍵信息抽取?;诖耍疚氖褂弥羔樕删W(wǎng)絡(luò)來(lái)抽取事件的關(guān)鍵信息序列,以實(shí)現(xiàn)事件畫(huà)像的構(gòu)建。
指針生成網(wǎng)絡(luò)主要解決傳統(tǒng)Seq2Seq模型中輸出嚴(yán)重依賴輸入的問(wèn)題,突破了模型輸出端對(duì)詞匯表長(zhǎng)度的限制。指針生成網(wǎng)絡(luò)結(jié)合了傳統(tǒng)Seq2Seq模型和指針網(wǎng)絡(luò)的優(yōu)勢(shì),在生成新詞的同時(shí)也具備了從原文復(fù)制單詞的能力,并引入了覆蓋(Coverage)機(jī)制以改善生成新詞時(shí)的重復(fù)問(wèn)題,提高模型的表達(dá)能力,本文利用指針生成網(wǎng)絡(luò)構(gòu)建事件畫(huà)像的結(jié)構(gòu)如圖2所示。
圖2 指針生成網(wǎng)絡(luò)構(gòu)建事件畫(huà)像
需要說(shuō)明的是,BERT模型以單字編碼的形式對(duì)文本進(jìn)行特征提取,因而不能完全兼容分詞處理形式的事件描述。同時(shí),考慮到BERT模型的參數(shù)規(guī)模過(guò)大,其訓(xùn)練和推理速度相較于LSTM網(wǎng)絡(luò)較慢。因此,本文編碼器部分采用Bi-LSTM網(wǎng)絡(luò),從前后兩個(gè)方向?qū)斎氲男畔⑦M(jìn)行計(jì)算,有效地利用了上下文信息。輸入候選詞序列X={x1,x2,…,xn}(n為輸入序列的長(zhǎng)度)按照順序先輸入到嵌入層,將候選詞映射到高維向量上,然后再將處理好的序列輸入到編碼器中,得到每個(gè)序列的隱藏狀態(tài)集合E={e1,e2,…,en}。對(duì)第i個(gè)隱藏狀態(tài)ei(ei∈he,其中he為Bi-LSTM網(wǎng)絡(luò)隱藏向量維度)來(lái)說(shuō),由于采用的是Bi-LSTM網(wǎng)絡(luò),算法會(huì)從前往后和從后往前兩個(gè)方向進(jìn)行計(jì)算,得到的隱藏狀態(tài)ei會(huì)充分關(guān)聯(lián)上下文信息。同時(shí),對(duì)事件的編碼Vevent由編碼器的輸出向量求和得到,即解碼器部分采用單向LSTM結(jié)構(gòu),假設(shè)解碼器的輸入為Y={y1,y2,…,ym},(m為解碼器輸入序列個(gè)數(shù)),在解碼過(guò)程中,輸入序列按照順序先輸入到嵌入層,將輸入序列映射到高維向量上,得到每個(gè)輸入序列的詞向量表示,然后再將處理好的序列輸入到解碼器中,得到每個(gè)序列的隱藏狀態(tài)集合D={d1,d2,…,dm}。
為了使解碼器產(chǎn)生更合適的輸出,本文將注意力機(jī)制用在輸入序列上以將更重要的信息輸入至解碼器。同時(shí),引入覆蓋機(jī)制(coverage mechanism)來(lái)解決Seq2Seq模型生成重復(fù)文本的問(wèn)題,其具體如式(1)~式(3)所示。
Pvocab=softmax(V′(V[et,dt]+b)+b′)
(4)
其中,V,V′,b,b′均為可學(xué)習(xí)的參數(shù),et∈1×he,dt∈1×hd分別為編碼器與解碼器的表征向量,he與hd分別為編碼器與解碼器隱藏層的輸出維度。取Pvocab中當(dāng)前預(yù)測(cè)單詞w對(duì)應(yīng)的概率作為單詞的輸出概率,即P(w)=Pvocab(w)。此外,生成概率wg∈[0,1]的計(jì)算如式(5)所示。
wg=σ(W′1et+W′2dt+W′3xt+b)
(5)
其中,W′1,W′2,W′3和b是模型學(xué)習(xí)參數(shù)。經(jīng)過(guò)擴(kuò)充之后的單詞表,在時(shí)間步t的詞概率分布如式(6)所示。
(6)
“三定”嵌入模塊主要由ARA和部門(mén)簡(jiǎn)介編碼兩個(gè)部分構(gòu)成,ARA結(jié)構(gòu)如圖3所示。ARA以事件描述和“三定”職責(zé)的拼接為輸入,以相應(yīng)的注意力分布為輸出。在完成事件畫(huà)像后,事件描述被指針生成網(wǎng)絡(luò)的編碼器轉(zhuǎn)換為不定長(zhǎng)度的事件內(nèi)容語(yǔ)義編碼向量Vevent,以Vevent作為事件描述的輸入。
圖3 ARA結(jié)構(gòu)
對(duì)于“三定”職責(zé)輸入,本文采用政務(wù)相關(guān)領(lǐng)域知識(shí)語(yǔ)料對(duì)BERT預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行fine-tune,并使用fine-tune后的模型的編碼器對(duì)“三定”職責(zé)進(jìn)行編碼,得到相應(yīng)的語(yǔ)義編碼向量Vsanding。為了更完整地獲取二者的語(yǔ)義信息,對(duì)Vevent和Vsanding兩個(gè)向量進(jìn)行拼接,得到拼接后的“事件-三定”編碼作為注意力層的輸入,如式(7)所示。
Vconcat=concat(Vevent,Vsanding)
(7)
其中,concat為向量的左右拼接。
在注意力層,本文使用自注意力機(jī)制篩選拼接編碼Vconcat中的重要信息,如式(8)~式(10)所示。
其中,U∈dc×dc是一個(gè)可學(xué)習(xí)的注意力參數(shù)矩陣,dc是拼接向量Vconcat的長(zhǎng)度,βx和βy是在兩個(gè)維度上的聯(lián)合注意力分布,Max選取矩陣中包含最大化信息的行或列。注意到Mes應(yīng)盡可能多地包含事件內(nèi)容和“三定”職責(zé)之間的關(guān)聯(lián)信息,若使用Tanh作為激活函數(shù),矩陣中的元素mi∈Mes的取值會(huì)被壓縮在(-1,1)的區(qū)間范圍內(nèi),進(jìn)而導(dǎo)致Max(Mes)和向量中包含大量的1,元素之間的差距不明顯??紤]到softmax函數(shù)在差距較大的分布中對(duì)大數(shù)更為敏感,為了最大化保留拼接向量中的關(guān)聯(lián)信息,本文采用Leaky-ReLU進(jìn)行注意力矩陣的激活處理,如式(11)所示。
(11)
經(jīng)過(guò)激活處理后,注意力矩陣中正值權(quán)重被完整保留,負(fù)值權(quán)重不會(huì)被完全拋棄,而是被加以壓縮后予以保留,壓縮比例由系數(shù)ai決定。使用這樣的激活方式可以盡可能最大化保留注意力矩陣中的差異化信息,同時(shí)強(qiáng)化正向注意力的效果。由于構(gòu)成Mes的兩個(gè)輸入向量相同,因而Mes矩陣的整體學(xué)習(xí)目標(biāo)是更接近斜對(duì)稱矩陣,即:
(12)
在生成兩個(gè)方向上的注意力權(quán)重后,本文將拼接編碼和兩個(gè)注意力權(quán)重相乘,得到在兩個(gè)方向上的注意力得分向量,如式(13)、式(14)所示。
(13)
(14)
部門(mén)簡(jiǎn)介輸入部分同樣采用上述RoBERTa2RoBERTa模型的編碼器部分進(jìn)行編碼,得到相應(yīng)的語(yǔ)義編碼向量Vdepart,并將其與兩個(gè)注意力向量拼接后作為輸出結(jié)果輸入到全連接層,最終使用softmax函數(shù)輸出相應(yīng)的“事件-三定”匹配概率,如式(15)所示。
Pdep=softmax(concat(sx,sy,Vdepart))
(15)
Seq2Seq模型中常見(jiàn)生成結(jié)果重復(fù)的問(wèn)題,因而引入覆蓋機(jī)制來(lái)解決這一問(wèn)題。覆蓋機(jī)制作用于注意力機(jī)制上,以確保注意力機(jī)制在當(dāng)前的決定中能夠考慮到之前已有的決定,這樣可以有力地防止重復(fù)生成的情況出現(xiàn)。同時(shí)在損失函數(shù)中加入對(duì)應(yīng)的覆蓋損失懲罰項(xiàng),防止重復(fù)出現(xiàn)同一位置的單詞。在事件畫(huà)像模塊中,t時(shí)刻模型損失值可通過(guò)對(duì)目標(biāo)輸出單詞yt和覆蓋向量計(jì)算覆蓋損失求得:
(16)
(17)
根據(jù)輸出端的概率分布,取l個(gè)時(shí)間步范圍(l=21),將每個(gè)時(shí)間步內(nèi)最高概率的詞組成的序列作為該事件的標(biāo)簽,刻畫(huà)事件主要特征。值得注意的是,由于抽取的信息類型序列是固定的,因此同一類型中生成結(jié)果的先后順序并不影響整體損失函數(shù)的計(jì)算。
在“三定”嵌入模塊中,本文使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)對(duì)“事件-三定”匹配模型進(jìn)行訓(xùn)練,如式(18)所示。
(18)
其中,pi是事件三定匹配概率,zi是指示變量(0或1)。
本文采用聯(lián)合損失函數(shù)對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行優(yōu)化,最終的目標(biāo)函數(shù)是最小化以上兩個(gè)損失函數(shù),如式(19)所示。
L=λ1Levent+λ2LARA
(19)
12345熱線事件經(jīng)過(guò)模型處理后得到與所有“三定”職責(zé)描述匹配度的概率值列表,而后送入答案重排序模塊。由于一個(gè)部門(mén)包含多個(gè)職責(zé),因而需要以部門(mén)為標(biāo)準(zhǔn)對(duì)匹配結(jié)果進(jìn)行重排序以獲得最終輸出結(jié)果。本文答案重排序模塊對(duì)所有“事件-三定”匹配概率使用加權(quán)平均的方式進(jìn)行重排序,進(jìn)而完成部門(mén)選擇,具體過(guò)程如圖4所示。對(duì)于“三定”權(quán)重的選擇,本文使用基于事件先驗(yàn)知識(shí)的權(quán)重設(shè)定方案。
圖4 基于“三定”權(quán)重的最佳部門(mén)匹配
考慮到新事件的“三定”匹配概率分布服從歷史事件中“三定”匹配概率分布,本文針對(duì)各部門(mén)歷史事件進(jìn)行建模,構(gòu)建各部門(mén)歷史事件匹配概率分布模型,以此設(shè)定各部門(mén)“三定”權(quán)重。具體步驟如下:
Step 4重復(fù)步驟2和步驟3,直到得到所有“三定”的權(quán)重。
“三定”權(quán)重確定之后,答案重排序模塊對(duì)各部門(mén)“三定”職責(zé)描述匹配度的概率值進(jìn)行加權(quán)平均計(jì)算各部門(mén)的概率得分,最終選取得分最高的部門(mén)作為事件的最終分撥部門(mén)。
本文基于蕪湖市12345熱線真實(shí)事件的分撥案例構(gòu)建了實(shí)驗(yàn)數(shù)據(jù)集,包含“事件-部門(mén)”和“事件-三定”兩部分: “事件-部門(mén)”數(shù)據(jù)集根據(jù)12345真實(shí)事件分撥處理結(jié)果構(gòu)建,包含30個(gè)政府部門(mén)的30 000條對(duì)應(yīng)事件數(shù)據(jù);“事件-三定”數(shù)據(jù)集是由業(yè)務(wù)人員對(duì)“事件-部門(mén)”數(shù)據(jù)集中的30 000條數(shù)據(jù)依據(jù)實(shí)際處理結(jié)果手工標(biāo)注所得,共包括30 000條正樣本數(shù)據(jù)(匹配)和60 000條負(fù)樣本數(shù)據(jù)(不匹配)。數(shù)據(jù)集中包括30個(gè)政府部門(mén)的“三定”職責(zé)共355條,數(shù)據(jù)集描述如表2和表3所示。
表2 “事件-部門(mén)”數(shù)據(jù)集描述
表3 “事件-三定”數(shù)據(jù)集描述
為提升RoBERTa對(duì)政務(wù)領(lǐng)域的編碼效果,本文在實(shí)驗(yàn)過(guò)程中以RoBERTa-WWM[27]的默認(rèn)參數(shù)為基礎(chǔ),使用Seq2Seq模型與政務(wù)領(lǐng)域語(yǔ)料庫(kù)對(duì)RoBERTa模型進(jìn)行微調(diào)。使用微調(diào)后的模型對(duì)“三定”職責(zé)和部門(mén)介紹進(jìn)行語(yǔ)義表征,并將“三定”職責(zé)編碼與12345熱線事件文本編碼進(jìn)行拼接。在對(duì)12345熱線事件文本和“三定”職責(zé)文本進(jìn)行分析后,本文觀察到95%的事件文本長(zhǎng)度均在287個(gè)字以內(nèi),95%的三定職責(zé)文本均在187個(gè)字范圍內(nèi)。因此,在拼接時(shí)將12345熱線事件文本最大長(zhǎng)度設(shè)定為310,“三定”職責(zé)文本最大長(zhǎng)度設(shè)定為200,超出部分予以截?cái)?,長(zhǎng)度不足的使用[PAD]進(jìn)行填充,并在拼接結(jié)果首尾添加[CLS]標(biāo)識(shí)符,拼接后的整體序列長(zhǎng)度固定為510。
在整體網(wǎng)絡(luò)訓(xùn)練過(guò)程中,設(shè)置批處理大小為16,并使用學(xué)習(xí)率為10e-5的Adam優(yōu)化器作為模型的優(yōu)化方法,模型的整體參數(shù)如表4所示。
表4 參數(shù)設(shè)置
在訓(xùn)練階段,事件與“三定”進(jìn)行匹配,并進(jìn)一步通過(guò)“三定”與部門(mén)進(jìn)行關(guān)聯(lián),這樣就可以實(shí)現(xiàn)“事件-三定-部門(mén)”的對(duì)應(yīng)關(guān)系,因而訓(xùn)練時(shí)使用“事件-三定-部門(mén)簡(jiǎn)介”的方式訓(xùn)練模型;而在預(yù)測(cè)階段,同一部門(mén)的多條“三定”與其部門(mén)簡(jiǎn)介均存在對(duì)應(yīng)關(guān)系,可以生成多條“三定-部門(mén)簡(jiǎn)介”對(duì),因而在預(yù)測(cè)時(shí)將事件與所有的355個(gè)“三定-部門(mén)簡(jiǎn)介”對(duì)都進(jìn)行匹配,得到所有的匹配概率,最后利用重排序輸出最優(yōu)的匹配部門(mén)。
本文使用基于CUDA 11.0的深度學(xué)習(xí)框架Pytorch 1.7.1構(gòu)建網(wǎng)絡(luò)模型,實(shí)驗(yàn)在內(nèi)存DDR4 64 GB,2.4 GHz Intel(R) Xeon(R) Silver 4210R CPU,NVIDIA GeForce GTX 3090的Ubuntu 18.04 LTS系統(tǒng)上進(jìn)行。
3.4.1 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文所提事件分撥方法的有效性,將本文方法RAVA與多種基線方法進(jìn)行了對(duì)比,其中包括:
(1)基于文本分類的方法即通過(guò)將30個(gè)部門(mén)作為分類類別,對(duì)輸入事件文本直接進(jìn)行文本分類來(lái)完成分撥任務(wù)。
(2)基于答案選擇的方法即通過(guò)采用答案選擇的方式,以“三定”作為備選答案,將事件文本與“三定”文本進(jìn)行匹配,最后根據(jù)“三定”的匹配結(jié)果通過(guò)重排序確定最優(yōu)的事件分撥部門(mén)。
值得注意的是,由于在整個(gè)任務(wù)中“三定”匹配是作為中間任務(wù)引入的,如果將所有部門(mén)“三定”直接嵌入事件作為文本分類方法的輸入,往往會(huì)由于輸入過(guò)長(zhǎng)被截?cái)喽鵁o(wú)法獲得完整的“三定”語(yǔ)義信息。而如果將“三定”職責(zé)轉(zhuǎn)換為文檔向量后嵌入事件中,考慮到“事件-三定-部門(mén)”之間的關(guān)聯(lián)性,模型往往無(wú)法捕捉到最匹配的“三定”職責(zé)信息,而不匹配的“三定”職責(zé)信息會(huì)對(duì)模型的分類效果產(chǎn)生較大的負(fù)面影響,因此本文沒(méi)有將“三定”職責(zé)嵌入到文本分類基線方法的輸入中。本文使用前5個(gè)結(jié)果準(zhǔn)確度(P@5)、平均精度均值(MAP)、平均倒數(shù)排名(MRR)指標(biāo)來(lái)衡量“三定”嵌入模塊中答案選擇網(wǎng)絡(luò)的整體效果;使用Precision(精確率)、Recall(召回率)、F1值指標(biāo)來(lái)評(píng)價(jià)事件分撥的性能。P@5、MAP和MRR的計(jì)算如式(20)~式(22)所示。
(20)
其中,yi=(0,1)表示第i個(gè)分撥部門(mén)結(jié)果是否相關(guān)
(21)
其中,QR表示所有部門(mén),AP(q)表示對(duì)某一部門(mén)q的平均精確率。
(22)
其中,ki表示對(duì)每一個(gè)事件內(nèi)容第一個(gè)正確分撥部門(mén)結(jié)果所在的位置。
(1) 基于文本分類的方法
① HAN[29]: 使用基于單詞層面注意力機(jī)制的BiGRU模型和基于句子層面注意力機(jī)制的BiGRU模型提取12345熱線事件文本多層面的特征并進(jìn)行事件分撥。
② BERT-linear: 采用BERT模型提取12345熱線事件文本特征,使用線性分類器進(jìn)行事件分撥。
③ XLNet-linear: 采用XLNet模型提取12345熱線事件文本特征,使用線性分類器進(jìn)行事件分撥。
④ BERT-AGN[30]: S-Net模塊采用BERT提取12345熱線事件文本特征,V-Net模塊使用變分自編碼器提取12345熱線文本的統(tǒng)計(jì)信息,最終使用Adaptive Gate Network (AGN)模塊將文本的統(tǒng)計(jì)信息與文本的特征信息通過(guò)門(mén)控制機(jī)制融合起來(lái),完成熱線事件分撥。
(2) 基于答案選擇的方法
① ELECTRA-BiGRU-based[31]: 采用ELECTRA預(yù)訓(xùn)練模型對(duì)問(wèn)題答案對(duì)(QA-pairs)進(jìn)行編碼獲取語(yǔ)義表征向量,利用BiGRU獲取更精細(xì)的QA-pairs上下文信息,使用sigmoid函數(shù)完成“三定”匹配,最終對(duì)答案重排序?qū)崿F(xiàn)事件分撥。
② Siamese-based[32]: 通過(guò)兩個(gè)結(jié)構(gòu)相同且共享權(quán)重的編碼網(wǎng)絡(luò)對(duì)輸入進(jìn)行處理,并將兩者的輸出結(jié)果進(jìn)行拼接后接入分類器完成“三定”匹配,最終進(jìn)行答案重排序?qū)崿F(xiàn)事件分撥。
③ ABCNN-based[33]: 將注意力機(jī)制加入到基于寬卷積的CNN結(jié)構(gòu)中,在提取N-gram信息后計(jì)算注意力,而后經(jīng)過(guò)池化層后接入分類器完成“三定”匹配,最終對(duì)答案重排序?qū)崿F(xiàn)事件分撥。
④ BERT-BiGRU-based: 采用BERT模型問(wèn)題答案對(duì)(QA-pairs)進(jìn)行編碼獲取語(yǔ)義表征向量,利用BiGRU獲取更精細(xì)的QA-pairs上下文信息,使用sigmoid函數(shù)完成“三定”匹配,最終對(duì)答案重排序?qū)崿F(xiàn)事件分撥。
實(shí)驗(yàn)對(duì)比結(jié)果如表5所示。可以看出,RAVA方法在各項(xiàng)指標(biāo)的效果均優(yōu)于其他基線方法。RAVA方法相對(duì)于基于文本分類的分撥方法,在部門(mén)分撥的精確度上提高了6%到9%,在F1得分上則提高了5%到7%,有較為顯著的效果提升。這一結(jié)果表明: 將事件內(nèi)容與“三定”文本進(jìn)行關(guān)聯(lián)匹配后,再將事件分撥到部門(mén),有助于提升事件分撥的整體性能?;诖鸢高x擇的方法在事件分撥的性能上整體優(yōu)于基于文本分類的方法,相比于其他基于答案選擇的方法,本文提出的RAVA方法在整體分撥效果上有3%到5%的提升。在第一階段的“事件-三定”匹配任務(wù)上,RAVA方法的整體性能指標(biāo)有2%到3%的提升。例如,對(duì)比于ABCNN-based方法,RAVA方法在MAP指標(biāo)上提升了4.29%,這說(shuō)明基于self-attention機(jī)制的信息提取方法雖然能有效地從事件和“三定”中提取關(guān)鍵信息,但是基于強(qiáng)化關(guān)聯(lián)的ARA機(jī)制能更多地關(guān)注到事件與“三定”之間的關(guān)聯(lián)關(guān)系,有助于提升“事件-三定”的匹配效果。綜上所述,RAVA方法在多項(xiàng)指標(biāo)上取得了更好的分撥性能。
表5 實(shí)驗(yàn)對(duì)比結(jié)果
3.4.2 消融實(shí)驗(yàn)
為說(shuō)明本文提出的“三定”嵌入模塊和答案重排序模塊的有效性, 對(duì)這兩個(gè)模塊進(jìn)行了消融實(shí)驗(yàn)。
(1) 三定嵌入模塊消融實(shí)驗(yàn)
由于“三定”嵌入模塊包含兩個(gè)子模塊,因此對(duì)兩個(gè)子模塊進(jìn)行消融實(shí)驗(yàn):
① ARA子模塊: 移除ARA子模塊,在“三定”嵌入模塊中僅對(duì)“三定”輸入向量和事件輸入向量進(jìn)行拼接,其余部分不變。
② 部門(mén)簡(jiǎn)介嵌入子模塊: 移除部門(mén)簡(jiǎn)介嵌入子模塊,在“三定”嵌入模塊中僅使用ARA子模塊結(jié)果作為輸出,其余部分不變。
圖5展示了消融實(shí)驗(yàn)結(jié)果,其中RAVA是不做任何消融的分撥方法,without_ARA是消融ARA子模塊的分撥方法,without_Depart是消融部門(mén)簡(jiǎn)介嵌入子模塊的分撥方法。如圖5所示,without_ARA方法在多項(xiàng)指標(biāo)上均低于RAVA方法,平均下降2~4個(gè)百分點(diǎn)。這是因?yàn)锳RA模塊可以有效增強(qiáng)“三定”與事件之間的關(guān)聯(lián)信息,對(duì)于事件分撥性能的提升有較大幫助。同樣,without_Depart方法也在多項(xiàng)指標(biāo)上效果低于RAVA方法,平均下降2~4個(gè)百分點(diǎn)。這是因?yàn)榛谡?wù)語(yǔ)料庫(kù)進(jìn)行遷移訓(xùn)練的RoBERTa語(yǔ)言模型可以通過(guò)引入相關(guān)領(lǐng)域知識(shí)提升分撥方法的性能。上述消融實(shí)驗(yàn)說(shuō)明了本文提出的“三定”嵌入模塊對(duì)于事件分撥的有效性。
圖5 “三定”嵌入模塊消融實(shí)驗(yàn)結(jié)果
(2) 答案重排序模塊消融實(shí)驗(yàn)
答案重排序模塊僅對(duì)“事件-三定”的匹配結(jié)果進(jìn)行加權(quán)平均計(jì)算來(lái)確定最終分撥部門(mén),無(wú)法計(jì)算P@5、MAP、MRR指標(biāo),因此答案重排序模塊的消融實(shí)驗(yàn)僅采用Precision、Recall和F1指標(biāo)進(jìn)行評(píng)價(jià)。在消融實(shí)驗(yàn)過(guò)程中,移除重排序模塊,僅對(duì)“三定”嵌入模塊的輸出結(jié)果進(jìn)行求和處理,其余部分不變。
表6展示了答案重排序模塊的消融實(shí)驗(yàn)結(jié)果,其中without_Reorder是消融答案重排序模塊的分撥方法??梢?jiàn),RAVA方法在各項(xiàng)指標(biāo)上均超越了without_Reorder方法,平均超過(guò)兩個(gè)百分點(diǎn)。這是由于答案重排序模塊可以通過(guò)引入歷史分撥事件的先驗(yàn)知識(shí)來(lái)提升分撥性能。消融實(shí)驗(yàn)的結(jié)果說(shuō)明了本文提出的答案重排序模塊對(duì)于事件分撥的有效性。
表6 答案重排序模塊消融實(shí)驗(yàn)結(jié)果
3.4.3 ARA實(shí)例分析
在“三定”嵌入模塊中,本文引入了ARA機(jī)制計(jì)算注意力矩陣以盡可能保留拼接向量中包含的全部關(guān)聯(lián)信息。為了驗(yàn)證ARA機(jī)制對(duì)于捕獲事件描述與“三定”職責(zé)之間關(guān)聯(lián)的有效性,本文隨機(jī)抽樣了其中一個(gè)“事件-三定”拼接文本,給出了ARA機(jī)制中的注意力分布矩陣,如圖6和圖7所示。
圖6 注意力矩陣
圖7 “事件-三定”拼接文本示例
在圖6中,矩陣的顏色深淺表示對(duì)內(nèi)容的關(guān)注度高低,顏色越淺表示對(duì)這部分內(nèi)容的關(guān)注度越高。
根據(jù)前文所述,由于參與注意力權(quán)重矩陣計(jì)算的兩部分輸入均為拼接向量,因而最終的注意力矩陣越接近對(duì)稱矩陣,證明注意力權(quán)重參數(shù)矩陣U的學(xué)習(xí)效果越好。同時(shí),注意到包含有“三定”職責(zé)描述的文本在整個(gè)句子中獲得了較高的注意力權(quán)重,說(shuō)明了ARA機(jī)制在處理12345熱線事件描述時(shí)能有效關(guān)注到“三定”職責(zé)中包含的語(yǔ)義信息并給予較高的關(guān)注度,也說(shuō)明了“三定”嵌入對(duì)提升事件分撥的性能起到了重要的作用。
3.4.4 推理時(shí)間分析
RAVA模型對(duì)12345熱線事件分撥包含兩個(gè)串行過(guò)程: “事件-三定”匹配過(guò)程和答案重排序過(guò)程。在實(shí)驗(yàn)環(huán)境下,RAVA模型完成單個(gè)事件與“三定”的匹配所花費(fèi)的平均時(shí)間約為5.7e-03 s,實(shí)現(xiàn)答案重排序所花費(fèi)的平均時(shí)間約為1.0e-03 s。可見(jiàn),RAVA模型的推理速度為毫秒級(jí),因此能夠滿足日益增長(zhǎng)的12345熱線事件分撥需求。
本文面向12345熱線提出了一種基于強(qiáng)化關(guān)聯(lián)的事件分撥方法(RAVA): 首先對(duì)12345熱線事件文本中的事件主體、事件觸發(fā)詞、事件地點(diǎn)等關(guān)鍵信息進(jìn)行提取并在此基礎(chǔ)上構(gòu)建事件畫(huà)像;然后將事件畫(huà)像輸入“三定”嵌入模塊,與政府部門(mén)“三定”職責(zé)進(jìn)行匹配,得到適用于該事件的“三定”職責(zé)列表并將其轉(zhuǎn)換為對(duì)應(yīng)部門(mén);最后對(duì)相關(guān)答案進(jìn)行重排序,輸出12345熱線事件的分撥部門(mén)。在蕪湖市12345熱線數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了RAVA分撥方法在多項(xiàng)指標(biāo)上達(dá)到了較好的效果。同時(shí),消融實(shí)驗(yàn)也說(shuō)明了RAVA方法中“三定”嵌入模塊和答案重排序模塊的有效性。未來(lái)工作中,除了基于分撥正確的案例進(jìn)行學(xué)習(xí),將使用在線學(xué)習(xí)的方式,基于部分分撥錯(cuò)誤的案例進(jìn)行學(xué)習(xí),以持續(xù)提升RAVA方法的分撥性能。