胡容波 張廣發(fā) 王雅雯 方金云
(?中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190)
(??自然資源部信息中心 北京 100036)
(???中國(guó)科學(xué)院大學(xué) 北京 100190)
管理規(guī)則是法律法規(guī)、規(guī)章規(guī)定等政策文本的基本要素之一,是對(duì)各種權(quán)利、義務(wù)以及相關(guān)后果的具體規(guī)定。從政策文本中提取管理規(guī)則對(duì)政策沖突檢測(cè)[1]、政策智能檢索[2]、事項(xiàng)合規(guī)性檢查[3]、政務(wù)系統(tǒng)需求工程[4]等均具有重要意義。然而,識(shí)別、提取和形式化管理規(guī)則是一項(xiàng)知識(shí)密集型和勞動(dòng)密集型的任務(wù)[5]。為此,可以采用多階段的管理規(guī)則自動(dòng)抽取方法:(1)對(duì)政策文本自動(dòng)分類,識(shí)別目標(biāo)類別句子;(2)檢測(cè)目標(biāo)句子中是否存在管理規(guī)則以及判定規(guī)則類別;(3)對(duì)存在管理規(guī)則的政策文本句子根據(jù)規(guī)則類別抽取相應(yīng)的規(guī)則元素,最終形成規(guī)則庫(kù)。
此前的工作[6]探討了第1 階段任務(wù),可實(shí)現(xiàn)自然資源政策文本句子自動(dòng)分類(土地管理、礦產(chǎn)資源管理、海洋管理等)。本文聚焦于第2 階段任務(wù),選取礦產(chǎn)資源管理政策文本句子,對(duì)其中的命令類、禁止類、允許類、處罰類等管理規(guī)則進(jìn)行自動(dòng)檢測(cè)。
近年來(lái),法律智能[7]已成為研究熱點(diǎn),但主要是對(duì)法律文書(shū)、案件描述等進(jìn)行解析處理,以輔助開(kāi)展罪名預(yù)測(cè)、法條推薦、刑期預(yù)測(cè)等。目前直接針對(duì)政策文本進(jìn)行管理規(guī)則檢測(cè)的工作還不太多。自動(dòng)檢測(cè)政策文本中的管理規(guī)則是一個(gè)新興的自然語(yǔ)言處理(natural language processing,NLP)任務(wù),主要挑戰(zhàn)在于管理規(guī)則大多包含義務(wù)、許可、禁止等道義模態(tài)(deontic modality)[8],但以自然語(yǔ)言表達(dá)的道義模態(tài)常常存在模糊和歧義[9]。有些有明確的道義詞,有些有多個(gè)道義詞,有些則未出現(xiàn)道義詞;有些雖然出現(xiàn)了道義詞,但不一定具有道義指示含義;由于自然語(yǔ)言的復(fù)雜性,有些道義詞形式多變。如“對(duì)可以由本地方開(kāi)發(fā)的礦產(chǎn)資源,優(yōu)先合理開(kāi)發(fā)利用”中雖然有“可以”道義詞,但該管理規(guī)則在語(yǔ)義上并非允許類,而是命令類,但義務(wù)道義詞“應(yīng)該”并未出現(xiàn)。另外,根據(jù)礦產(chǎn)資源管理需求,本文將處罰類規(guī)則單獨(dú)提出,并將文本處理范圍從語(yǔ)言較為嚴(yán)謹(jǐn)?shù)姆蓴U(kuò)大到普通政策文件,進(jìn)一步增加了任務(wù)的挑戰(zhàn)性。
研究者已提出基于模式匹配[10]、基于傳統(tǒng)機(jī)器學(xué)習(xí)[11-12]以及基于深度學(xué)習(xí)[9,13]的政策文本規(guī)則檢測(cè)方法。近年來(lái),以基于轉(zhuǎn)換器的雙向編碼表征(bidirectional encoder representation from transformers,BERT)[14]為代表的預(yù)訓(xùn)練語(yǔ)言模型(pre-trained language model,PLM)在廣泛的下游任務(wù)中顯示出強(qiáng)大性能,已成為NLP 領(lǐng)域的主流模型之一。在政策文本規(guī)則檢測(cè)任務(wù)中,研究者也提出了基于BERT 模型的應(yīng)用[15],結(jié)果優(yōu)于其他已有模型。
BERT 模型的優(yōu)異性能既來(lái)源于帶有自注意力機(jī)制的多層雙向Transformer 編碼器,也來(lái)源于2 個(gè)新穎的在大規(guī)模語(yǔ)料上應(yīng)用的無(wú)監(jiān)督預(yù)訓(xùn)練任務(wù):掩碼語(yǔ)言模型(masked language model,MLM)和下一句預(yù)測(cè)(next sentence prediction,NSP)。其中,MLM 類似完形填空,可實(shí)現(xiàn)雙向語(yǔ)言建模,模型學(xué)習(xí)到的掩碼(mask)詞表示(representation)可以較為精準(zhǔn)地融合上下文語(yǔ)義信息。NSP 則使BERT 具備建模兩段文本間關(guān)系的能力。
然而,BERT 模型在預(yù)訓(xùn)練階段和下游任務(wù)微調(diào)階段的不一致性會(huì)影響B(tài)ERT 性能的發(fā)揮:一方面,預(yù)訓(xùn)練階段引入的[MASK]標(biāo)記在下游任務(wù)中并不會(huì)出現(xiàn),BERT 特意設(shè)計(jì)了3 種掩碼方式以降低這種不一致帶來(lái)的影響;另一方面,預(yù)訓(xùn)練階段BERT 模型輸出的[CLS]隱向量主要用于建模文本對(duì)之間的關(guān)系,而在下游其他句子級(jí)任務(wù)中進(jìn)行句子表示時(shí)通常也使用[CLS]隱向量。已有研究[16]表明,詞語(yǔ)頻率等帶來(lái)的詞嵌入偏差和對(duì)BERT 網(wǎng)絡(luò)層的低效利用導(dǎo)致[CLS]隱向量并不能很好地表示句子語(yǔ)義,但基于提示(prompt)的句子表示方法可以緩解這種嵌入偏差。
為此,本文提出基于BERT 提示的礦產(chǎn)資源管理規(guī)則檢測(cè)方法。該方法在不引入其他機(jī)制的情況下,通過(guò)改變模型輸入層和輸出分類層實(shí)現(xiàn)對(duì)BERT 模型特點(diǎn)的充分利用。在模型輸入層,構(gòu)建帶有[MASK]標(biāo)記的提示模板,如“應(yīng)該不得可以懲罰[MASK]:”,再將該提示模板與原始政策文本句子拼接后輸入BERT。提示模板雖然不是流暢的自然語(yǔ)言,但融入了管理規(guī)則道義模態(tài)知識(shí),可借助BERT 自身機(jī)制探測(cè)政策文本句子中與道義模態(tài)相關(guān)的信息。在分類輸出層,使用經(jīng)過(guò)多層Transformer 編碼、蘊(yùn)含豐富上下文語(yǔ)義信息的[MASK]隱向量進(jìn)行分類預(yù)測(cè)。在礦產(chǎn)資源管理規(guī)則數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在模型準(zhǔn)確率、宏平均F1值、加權(quán)平均F1值上均優(yōu)于其他基線方法。在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也顯示了該方法的有效性。
本文主要貢獻(xiàn)如下。
(1)提出構(gòu)建帶有[MASK]標(biāo)記和管理規(guī)則信息的提示模板,可以充分發(fā)揮掩碼語(yǔ)言模型的自編碼優(yōu)勢(shì),激發(fā)BERT 模型更好地提取與管理規(guī)則相關(guān)的文本特征。
(2)提出基于BERT 模型進(jìn)行管理規(guī)則檢測(cè)的新應(yīng)用模式,放棄使用[CLS] 隱向量而采用[MASK]隱向量進(jìn)行分類預(yù)測(cè)。由于未改變BERT的原始網(wǎng)絡(luò)結(jié)構(gòu),所提方法幾乎不增加計(jì)算量。
(3)在礦產(chǎn)資源管理規(guī)則數(shù)據(jù)集上的大量實(shí)驗(yàn)結(jié)果顯示,所提方法優(yōu)于其他基線方法,在模型穩(wěn)定性上也更具優(yōu)勢(shì)。在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也顯示該方法可以進(jìn)一步提升BERT 模型在相關(guān)下游任務(wù)中的性能。
本節(jié)詳細(xì)闡述與本文相關(guān)的研究工作,包括政策文本中管理規(guī)則檢測(cè)方法、BERT 模型應(yīng)用模式以及BERT 模型在分類任務(wù)中的標(biāo)簽嵌入方法。
已有的政策文本中管理規(guī)則檢測(cè)方法包括模式匹配、傳統(tǒng)機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)方法。文獻(xiàn)[9]比較了傳統(tǒng)機(jī)器學(xué)習(xí)方法與深度學(xué)習(xí)方法在法律規(guī)則(義務(wù)、禁止和許可)檢測(cè)上的性能,其采用的傳統(tǒng)機(jī)器學(xué)習(xí)方法包括邏輯回歸(logistic regression,LR)、支持向量機(jī)(support vector machines,SVM)、決策樹(shù)(decision trees,DT)、隨機(jī)森林(random forest,RF);深度學(xué)習(xí)方法包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)等,結(jié)果顯示深度學(xué)習(xí)模型性能更優(yōu),BiLSTM 取得了最高性能。文獻(xiàn)[15]比較了基于模式匹配、基于BiLSTM 以及基于BERT 的方法在法規(guī)規(guī)則(義務(wù)、禁止、許可)檢測(cè)上的性能。結(jié)果顯示,BERT 優(yōu)于基于模式匹配(需要人工構(gòu)建匹配模式,模式過(guò)少或過(guò)多都會(huì)影響性能,且通用性較差)和基于BiLSTM的方法,是目前在管理規(guī)則檢測(cè)任務(wù)上的最先進(jìn)方法。
本文在上述工作的基礎(chǔ)上,進(jìn)一步提出基于BERT 模型進(jìn)行管理規(guī)則檢測(cè)的新方法。另外,本文針對(duì)中文政策領(lǐng)域進(jìn)行研究,情形更為復(fù)雜,這方面的工作目前還較為欠缺。
以文本分類任務(wù)為例,目前對(duì)BERT 模型有2種典型的應(yīng)用模式。一種是基于微調(diào)(fine-tuning)[14]的方法,即在BERT 模型上增加額外的分類器,結(jié)合下游具體任務(wù)進(jìn)行微調(diào),這種模式在監(jiān)督任務(wù)上可取得優(yōu)異性能;另一種是基于提示學(xué)習(xí)(prompt-based learning)[17]的方法,即在輸入文本中插入帶有[MASK]標(biāo)記的提示模板,將分類問(wèn)題轉(zhuǎn)化為MLM 建模問(wèn)題。這種應(yīng)用模式在少樣本和零樣本場(chǎng)景中取得了更好的性能。然而,基于提示學(xué)習(xí)的方法對(duì)預(yù)訓(xùn)練模型的知識(shí)要求更高,同時(shí)需要進(jìn)行復(fù)雜的模板工程(prompt engineering)和答案工程(answer engineering),模型的性能受這些因素影響較大。
本文提出的方法是一種將2 種應(yīng)用模式進(jìn)行部分結(jié)合的方法,既可以充分利用MLM 建模的優(yōu)勢(shì),又避免了復(fù)雜的答案工程。
對(duì)標(biāo)簽信息的利用吸引了不少研究者的關(guān)注。文獻(xiàn)[18]通過(guò)在訓(xùn)練過(guò)程中計(jì)算實(shí)例和標(biāo)簽之間的相似性捕獲標(biāo)簽之間的語(yǔ)義重疊,生成更好的標(biāo)簽分布以取代原來(lái)的獨(dú)熱標(biāo)簽向量,最終提高分類性能。但該方法需要增加額外的標(biāo)簽編碼器、標(biāo)簽分布計(jì)算層等組件。
文獻(xiàn)[19]提出了一種更為簡(jiǎn)潔的標(biāo)簽嵌入方法,通過(guò)將標(biāo)簽文本與輸入文本拼接后一起送入BERT 模型進(jìn)行編碼,在不改變?cè)季幋a器結(jié)構(gòu)和增加其他機(jī)制的情況下,直接利用BERT 固有的自注意力機(jī)制實(shí)現(xiàn)標(biāo)簽信息與輸入文本的交互,增強(qiáng)文本的上下文表示,提高分類性能。然而,這是一種對(duì)標(biāo)簽信息的“硬嵌入”方法,分類性能受標(biāo)簽文本的影響較大。如果標(biāo)簽文本對(duì)不同類別數(shù)據(jù)的區(qū)分度不大,則增加標(biāo)簽信息后不僅不能增強(qiáng)文本表示,反而會(huì)破壞文本表示,從而導(dǎo)致精度降低。
本文提出的是一種對(duì)標(biāo)簽信息“軟嵌入”的方法,通過(guò)將不同管理規(guī)則有代表性的道義詞引入提示模板,借助BERT 模型的MLM 建模機(jī)制,可以更好地利用標(biāo)簽信息。
基于BERT 提示的礦產(chǎn)資源管理規(guī)則檢測(cè)方法并不改變BERT 模型的基本網(wǎng)絡(luò)結(jié)構(gòu),即保持BERT編碼層不變,主要改變是調(diào)整輸入層和分類輸出層。接下來(lái)將詳細(xì)介紹本文提出的模型與方法。
本研究任務(wù)屬于分類任務(wù),可形式化定義為:對(duì)于輸入的礦產(chǎn)資源政策文本句子x=(x1,x2,…,xn),預(yù)測(cè)其管理規(guī)則類別y∈y。其中,n為政策文本句子長(zhǎng)度,y為管理規(guī)則類別標(biāo)簽集合。
圖1為基于BERT提示的礦產(chǎn)資源管理規(guī)則檢測(cè)方法的整體框架,由輸入層、編碼層、分類輸出層構(gòu)成。其中,輸入層將政策文本句子使用提示模板包裝后輸入模型。編碼層為BERT 基本網(wǎng)絡(luò)結(jié)構(gòu),是由多個(gè)雙向Transformer 堆疊而成的深層神經(jīng)網(wǎng)絡(luò),可將輸入文本編碼為深層上下文語(yǔ)義表示。分類輸出層由Softmax 分類器構(gòu)成,用于輸出模型對(duì)政策文本句子中管理規(guī)則檢測(cè)的結(jié)果。
圖1 基于BERT 提示的礦產(chǎn)資源管理規(guī)則檢測(cè)方法整體框架
(1)輸入層。對(duì)于給定的礦產(chǎn)資源政策文本句子x,使用帶有[MASK]標(biāo)記,且融合了管理規(guī)則信息(代表性道義詞)的提示模板進(jìn)行包裝。如政策文本句子x為“勘查礦產(chǎn)資源,必須依法申請(qǐng)登記?!?提示模板為“應(yīng)該不得可以懲罰[MASK]:”,則輸入為
xp=[CLS] 應(yīng)該不得可以懲罰[MASK]:勘查礦產(chǎn)資源,必須依法申請(qǐng)登記。[SEP]
其中,[CLS]是BERT 模型專為分類任務(wù)設(shè)定的特殊標(biāo)記,[SEP]是文本序列之間的分隔標(biāo)記,[MASK]為提示模板中人為設(shè)計(jì)的掩碼標(biāo)記。
文本序列xp經(jīng)過(guò)分詞器分詞及映射,獲得每個(gè)標(biāo)記(分詞單元)的詞向量(token embedding)、塊向量(segment embedding)以及位置向量(position embedding),3 個(gè)向量相加得到每個(gè)標(biāo)記的輸入向量,拼接后得到整個(gè)文本序列xp的輸入向量v。
(2)編碼層。BERT 模型中的多層Transformer對(duì)輸入向量v進(jìn)行逐層編碼,通過(guò)多頭自注意力機(jī)制充分學(xué)習(xí)句子中每個(gè)詞之間的語(yǔ)義關(guān)聯(lián)[20],最終獲得政策文本句子的上下文語(yǔ)義表示h:
式中,h∈RN×d,為BERT 模型中最后一層Transformer 的輸出;其中,N為BERT 輸入文本的最大長(zhǎng)度,d為BERT 隱藏層維度。
如果僅輸出最后一層編碼結(jié)果,BERT 模型可分別輸出[CLS]標(biāo)記對(duì)應(yīng)的隱向量h[CLS]以及整個(gè)文本序列所有標(biāo)記對(duì)應(yīng)的隱向量h。其中,h[CLS]為h的首個(gè)分量經(jīng)過(guò)全連接層并使用tanh 函數(shù)激活后的結(jié)果,通常作為句子表示用于下游分類任務(wù)。
(3)分類輸出層。本文提出的方法放棄使用h[CLS]作為句子表示,而代之以[MASK]標(biāo)記對(duì)應(yīng)的隱向量h[MASK]。將h[MASK]作為分類輸出層的輸入,經(jīng)過(guò)Softmax 分類層,最后輸出政策文本句子中管理規(guī)則類別的概率分布p:
其中,p∈RK,W∈Rd×K為全連接層的權(quán)重矩陣,b∈RK為全連接層的偏置,K表示管理規(guī)則類別個(gè)數(shù)。
對(duì)于第i個(gè)樣本,取概率最大值所對(duì)應(yīng)的管理規(guī)則類別作為模型預(yù)測(cè)類別:
其中,pi為模型對(duì)第i個(gè)樣本的預(yù)測(cè)概率。
模型訓(xùn)練時(shí),以交叉熵?fù)p失作為模型優(yōu)化的目標(biāo)函數(shù):
其中,m為樣本個(gè)數(shù),表示第i個(gè)樣本在第j類上的真實(shí)結(jié)果,屬于該類為1,否則為0;表示模型對(duì)第i個(gè)樣本屬于第j類的預(yù)測(cè)概率。
本節(jié)詳細(xì)介紹對(duì)基于BERT 提示的礦產(chǎn)資源管理規(guī)則檢測(cè)方法的評(píng)估實(shí)驗(yàn),并給出相應(yīng)分析。
本文從此前工作[6]所構(gòu)建的自然資源政策文本分類數(shù)據(jù)集中選取業(yè)務(wù)類別為礦產(chǎn)資源管理的部分政策文本句子,由領(lǐng)域?qū)<疫M(jìn)行人工標(biāo)注,形成礦產(chǎn)資源管理規(guī)則數(shù)據(jù)集。其中,管理規(guī)則類別為:命令類規(guī)則、禁止類規(guī)則、允許類規(guī)則、處罰類規(guī)則、其他類規(guī)則。表1 為數(shù)據(jù)集統(tǒng)計(jì)信息。
表1 礦產(chǎn)資源管理規(guī)則數(shù)據(jù)集統(tǒng)計(jì)
本文對(duì)數(shù)據(jù)集中的每一類別樣本按6 ∶2 ∶2 的比例進(jìn)行劃分,組合成訓(xùn)練集、驗(yàn)證集、測(cè)試集。隨機(jī)劃分10 次,形成10 組數(shù)據(jù)集。對(duì)所有模型,在這10 組數(shù)據(jù)集上進(jìn)行10 次評(píng)估。
本文選擇以下用于管理規(guī)則檢測(cè)任務(wù)的典型方法及最新BERT 標(biāo)簽嵌入方法等進(jìn)行對(duì)比分析。
(1)SVM[21]:SVM 是傳統(tǒng)機(jī)器學(xué)習(xí)的代表性技術(shù)之一。文獻(xiàn)[9]在英文金融法規(guī)道義模態(tài)檢測(cè)上使用了該方法,在所比較的傳統(tǒng)機(jī)器學(xué)習(xí)方法中,SVM 性能較高。
(2)基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類學(xué)習(xí)(convolutional neural networks for text classification,TextCNN)[22]:TextCNN 的基本結(jié)構(gòu)由輸入層、卷積層(convolution layer)、池化層(pooling layer)、全連接層(fully connected layer)和輸出層構(gòu)成。文獻(xiàn)[9]在英文金融法規(guī)道義模態(tài)檢測(cè)上使用該方法取得了超越傳統(tǒng)機(jī)器學(xué)習(xí)方法的效果。
(3)BiLSTM[23]:在應(yīng)用于文本分類任務(wù)時(shí),BiLSTM 可以從2 個(gè)方向(從前往后、從后往前)對(duì)文本序列進(jìn)行編碼表示。文獻(xiàn)[9]在英文金融法規(guī)道義模態(tài)檢測(cè)上使用了該方法,在神經(jīng)網(wǎng)絡(luò)模型中取得了較高性能。
(4)BERT[14]:基于BERT 模型的常規(guī)微調(diào)方法,即輸入層的輸入為原始政策文本句子,分類輸出層將[CLS]隱向量作為分類器的輸入向量。文獻(xiàn)[15]在英文合同條款義務(wù)類、許可類、禁止類句子檢測(cè)任務(wù)上應(yīng)用了該方法,結(jié)果顯示BERT 性能明顯優(yōu)于BiLSTM。該方法也是此前管理規(guī)則檢測(cè)任務(wù)的最優(yōu)方法。
(5)BERT-label[19]:將標(biāo)簽信息融入BERT 的方法,即輸入層的輸入為管理規(guī)則各類別標(biāo)簽詞拼接原始政策文本句子組成的新文本序列,分類輸出層將[CLS]隱向量作為分類器的輸入向量。該方法可以利用標(biāo)簽嵌入提高BERT 在文本分類中性能。
(6)BERT-tfidf[19]:在BERT-label的基礎(chǔ)上,計(jì)算各類別語(yǔ)料分詞后的詞頻-逆文檔頻率(tf-idf)值,每個(gè)類別各取5 個(gè)tf-idf 值最高的分詞對(duì)標(biāo)簽詞進(jìn)行擴(kuò)展,輸入層拼接方法及分類輸出層與BERT-label相同。這是文獻(xiàn)[19]提出的進(jìn)一步優(yōu)化方法。
(7)BERT-提示[CLS]:輸入層的輸入為提示模板去掉“[MASK]:”后與原始政策文本句子拼接組成的新文本序列,分類輸出層將[CLS]隱向量作為分類器輸入向量。本方法專為檢驗(yàn)使用[CLS]隱向量和[MASK]隱向量進(jìn)行管理規(guī)則檢測(cè)的性能差異設(shè)計(jì)。
以上基于BERT 模型的方法分類輸出層均采用Softmax 分類器。
對(duì)于單個(gè)管理規(guī)則類別的檢測(cè)性能,采用F1值作為評(píng)價(jià)指標(biāo)。
其中,Ri、Pi、F1i分別表示第i類的召回率、精確率和F1值,TPi、FPi、FNi分別表示模型預(yù)測(cè)的第i類真正例、假正例、假負(fù)例個(gè)數(shù)。
對(duì)于模型整體性能,采用準(zhǔn)確率(accuracy)、宏平均F1值和加權(quán)平均F1值進(jìn)行評(píng)價(jià)。
SVM 模型使用word2vec 生成文本向量表示,核函數(shù)使用RBF,C=10,gamma 取默認(rèn)值。
TextCNN 及BiLSTM 模型使用文獻(xiàn)[24]開(kāi)源的中文詞向量(人民日?qǐng)?bào)Word+Character+Ngram 300d)進(jìn)行初始化。學(xué)習(xí)率(learning_rate) 為0.001,文本固定長(zhǎng)度(pad_size)為128,批大小(batch_size)為64。TextCNN 的卷積核大小設(shè)置為2、3、4,每個(gè)尺寸的卷積核數(shù)量為256,迭代次數(shù)(epoch)為20。BiLSTM 的隱藏層大小為384,epoch為60。
BERT 模型使用BERT-Base-Chinese 預(yù)訓(xùn)練模型,隱藏層大小為768,丟棄率(dropout)為0.1,batchsize 大小為32,pad_size 為128,選擇AdamW[25]作為優(yōu)化器,learning_rate 為0.000 05,epoch 為10。主實(shí)驗(yàn)提示模板為“應(yīng)該不得可以懲罰[MASK]”。
實(shí)驗(yàn)環(huán)境:操作系統(tǒng)為L(zhǎng)inux,CPU 為12 核Intel(R) Xeon(R) Gold 5320 CPU@2.20 GHz,內(nèi)存為32 GB,GPU 為1 塊RTX A4000,顯存為16 GB。
本文報(bào)告了基于BERT 提示的礦產(chǎn)資源管理規(guī)則檢測(cè)方法和其他基線方法在10 組隨機(jī)劃分的礦產(chǎn)資源管理規(guī)則數(shù)據(jù)集上的詳細(xì)測(cè)試性能(表2)。表中數(shù)值為各方法10 次評(píng)估的模型準(zhǔn)確率、宏平均F1值、加權(quán)平均F1值的平均值±標(biāo)準(zhǔn)差,粗體字表示較好結(jié)果??梢缘贸鋈缦陆Y(jié)論。
表2 BERT 提示方法與基線方法的對(duì)比實(shí)驗(yàn)結(jié)果
(1)總體上,基于CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的深度學(xué)習(xí)模型在管理規(guī)則檢測(cè)任務(wù)上的性能顯著優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法,這主要是因?yàn)閭鹘y(tǒng)機(jī)器學(xué)習(xí)方法捕獲政策文本語(yǔ)義的能力有限?;贐ERT 的方法又明顯優(yōu)于基于CNN、RNN 的方法,這主要得益于BERT 模型有更強(qiáng)大的雙向語(yǔ)言表征能力,可以有效捕獲政策文本句子中的道義模態(tài)特征。
(2)本文提出的BERT 提示方法在準(zhǔn)確率、宏平均F1值、加權(quán)平均F1值上均優(yōu)于已有方法。其中,BERT-提示[CLS]方法的性能不僅低于BERT 提示方法,還低于BERT 方法。這說(shuō)明即使是相同的提示信息,不同的利用方式甚至?xí)?duì)模型性能帶來(lái)完全不同的影響。同時(shí)說(shuō)明BERT 提示方法的有效性不僅來(lái)自于提示信息,也來(lái)自于對(duì)[MASK]隱向量的利用。
另外,所有方法的宏平均F1值均低于準(zhǔn)確率,說(shuō)明各方法對(duì)小樣本類別(禁止類、允許類、處罰類)的預(yù)測(cè)準(zhǔn)確性都低于相對(duì)多樣本類別(命令類、其他類)。但BERT 提示方法在宏平均F1值和準(zhǔn)確率上的差值最小,顯示BERT 提示方法處理樣本不均衡問(wèn)題的能力更強(qiáng)。
(3)將標(biāo)簽詞融入BERT 的方法(BERT-label)相對(duì)于常規(guī)BERT 方法幾乎沒(méi)有提升,僅在準(zhǔn)確率、加權(quán)平均F1值的方差上比BERT 方法略小,而在宏平均F1值上反而低于BERT 方法。這與標(biāo)簽詞(“命令類規(guī)則、禁止類規(guī)則、允許類規(guī)則、處罰類規(guī)則、其他類規(guī)則”)對(duì)管理規(guī)則的區(qū)分度不大有關(guān)。文獻(xiàn)[19]指出,如果標(biāo)簽詞對(duì)類別的區(qū)分度不足,則該方法可能會(huì)破壞文本表示而不是增強(qiáng)文本表示,從而導(dǎo)致分類精度降低。
(4)使用tf-idf 值較高的詞擴(kuò)展標(biāo)簽詞的方法(BERT-tfidf)也沒(méi)有獲得性能提升,反而在準(zhǔn)確率、加權(quán)平均F1值、宏平均F1值上均有不同程度下降。這些詞的加入顯然進(jìn)一步破壞了政策文本表示。該方法在應(yīng)用于情感極性分類任務(wù)時(shí)也有類似性能下降的情況[19]。
以上對(duì)比實(shí)驗(yàn)中,BERT 提示方法與其他基于BERT 的基線方法最大的區(qū)別在于使用不同的隱向量進(jìn)行分類預(yù)測(cè)。BERT 模型的自注意力機(jī)制以及預(yù)訓(xùn)練任務(wù)讓[CLS]隱向量擅長(zhǎng)捕捉句子級(jí)上下文信息,[MASK]隱向量擅長(zhǎng)捕捉標(biāo)記(詞)級(jí)上下文信息。文獻(xiàn)[16]指出,通過(guò)使用提示模板的方法來(lái)獲取BERT 中的句子表示可以避免嵌入偏差,并且能夠更好地利用BERT 中的網(wǎng)絡(luò)結(jié)構(gòu),從而可以在相關(guān)下游任務(wù)中獲得更好的性能。文獻(xiàn)[16]顯示BERT 模型的[CLS]隱向量與基于提示的[MASK]隱向量在語(yǔ)義相似度任務(wù)中性能不同,本文實(shí)驗(yàn)則顯示兩者在應(yīng)用于下游分類任務(wù)時(shí)也存在差異。合理構(gòu)建提示模板有助于[MASK]隱向量捕獲更多與具體任務(wù)相關(guān)的特征,因而有望進(jìn)一步提升BERT模型的分類性能。
為了探索不同提示模板對(duì)模型性能的影響,本文設(shè)計(jì)了多組硬提示(hard prompt)、軟提示(soft prompt)模板進(jìn)行實(shí)驗(yàn)。表3 列出其中有代表性的幾組實(shí)驗(yàn)結(jié)果。其中“[unused1]”、“[unused2]”、“[unused3]”為BERT-base 預(yù)訓(xùn)練模型詞匯表中預(yù)留的特殊標(biāo)記,準(zhǔn)確率為10 次評(píng)估結(jié)果的平均值,粗體字表示較好結(jié)果。
表3 使用不同提示模板實(shí)驗(yàn)結(jié)果
模板1 更符合自然語(yǔ)言的流暢性,但并未取得最高性能。模板2 只是將有代表性的道義詞進(jìn)行拼接,反而獲得較好結(jié)果。這些道義詞借助MLM 機(jī)制激發(fā)BERT 模型通過(guò)[MASK]隱向量更好地捕獲上下文中與規(guī)則類別相關(guān)的信息。模板3 的文字部分為標(biāo)簽詞,性能不及模板1,再次顯示標(biāo)簽詞對(duì)管理規(guī)則的區(qū)分度有限。模板4~6 為所謂軟提示模板,實(shí)驗(yàn)結(jié)果總體性能尚可,但并未取得最高性能。
這幾組提示模板的準(zhǔn)確率均高于常規(guī)BERT 方法,但如果提示模板構(gòu)建不當(dāng)也會(huì)導(dǎo)致準(zhǔn)確率不及BERT 方法。
本文實(shí)驗(yàn)數(shù)據(jù)集的樣本量較少。文獻(xiàn)[26]指出,BERT 模型中使用的優(yōu)化器(BertAdam)未進(jìn)行梯度偏差校正,導(dǎo)致BERT 模型在小數(shù)據(jù)集上的訓(xùn)練效率較低,模型不穩(wěn)定。AdamW[25]優(yōu)化器則可以對(duì)梯度偏差進(jìn)行校正,使模型訓(xùn)練時(shí)能更快收斂,性能更加穩(wěn)定。本文在礦產(chǎn)資源規(guī)則數(shù)據(jù)集上對(duì)BERT 方法和基于BERT 提示的方法分別使用2 種優(yōu)化器進(jìn)行實(shí)驗(yàn)對(duì)比。表4 為10 次評(píng)估結(jié)果的準(zhǔn)確率平均值。
表4 使用不同優(yōu)化器實(shí)驗(yàn)結(jié)果
可以看出,AdamW 優(yōu)化器為2 種方法都帶來(lái)了性能提升。其中,對(duì)BERT 方法的提升更為明顯。但是,即使采用BertAdam 優(yōu)化器,BERT 提示方法的準(zhǔn)確率也高于BERT 方法采用AdamW 優(yōu)化器的準(zhǔn)確率。這顯示BERT 提示方法在模型穩(wěn)定性上更具優(yōu)勢(shì)。
表5 顯示了BERT 方法與BERT 提示方法對(duì)礦產(chǎn)資源管理規(guī)則各類別的具體檢測(cè)性能,各指標(biāo)均為10 次評(píng)估結(jié)果的平均值。在礦產(chǎn)資源管理規(guī)則檢測(cè)上,無(wú)論是BERT 方法還是BERT 提示方法都具有較高性能。在使用BERT 提示方法后,所有類別的F1值均有提升,其中處罰類規(guī)則和允許類規(guī)則的F1值提升相對(duì)較大,分別提升1.03%和0.95%,命令類規(guī)則和其他類規(guī)則的F1值提升相對(duì)較小,分別提升0.33%和0.35%。
表5 2 種方法對(duì)不同類別管理規(guī)則實(shí)驗(yàn)結(jié)果對(duì)比(F1 值)
案例分析發(fā)現(xiàn),BERT 提示方法的有效性在語(yǔ)義特征較強(qiáng)、樣本數(shù)較少的類別上更為明顯。如“整合后形成的礦井只能有一套生產(chǎn)系統(tǒng),選用先進(jìn)開(kāi)采技術(shù)和先進(jìn)裝備,杜絕一礦多井或一礦多坑?!?由于“杜絕”一詞在樣例中不多,BERT 方法難以提取到相關(guān)特征,在多次評(píng)估中有時(shí)將其預(yù)測(cè)為允許類規(guī)則,有時(shí)將其預(yù)測(cè)為命令類規(guī)則,而B(niǎo)ERT提示方法則能將其正確預(yù)測(cè)為禁止類規(guī)則。再如“油氣探礦權(quán)人發(fā)現(xiàn)可供開(kāi)采的油氣資源的,在報(bào)告有登記權(quán)限的自然資源主管部門(mén)后即可進(jìn)行開(kāi)采?!?句子中的2 個(gè)“可”對(duì)管理規(guī)則類別的意義不同,BERT 方法將其錯(cuò)誤預(yù)測(cè)為命令類規(guī)則,BERT提示方法正確預(yù)測(cè)為允許類規(guī)則。
為進(jìn)一步驗(yàn)證BERT 提示方法的有效性,本文在公開(kāi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。管理規(guī)則檢測(cè)任務(wù)場(chǎng)景具有2 個(gè)主要特點(diǎn):(1)數(shù)據(jù)量不夠充足;(2)管理規(guī)則具有道義模態(tài),但道義詞存在缺失、模糊和歧義情形,需要深層語(yǔ)義理解。由于缺乏管理規(guī)則檢測(cè)公開(kāi)數(shù)據(jù)集,本文選擇與管理規(guī)則檢測(cè)場(chǎng)景相對(duì)接近的ChnSentiCorp 數(shù)據(jù)集[27]和垃圾短信檢測(cè)數(shù)據(jù)集[28]進(jìn)行實(shí)驗(yàn)。
本文重點(diǎn)對(duì)比了BERT 提示方法和常規(guī)BERT方法在分類任務(wù)上的性能,其中BERT 提示方法分別構(gòu)建硬提示、軟提示2 類提示模板。采用準(zhǔn)確率作為性能評(píng)估指標(biāo),準(zhǔn)確率為采用10 個(gè)隨機(jī)種子進(jìn)行10 次評(píng)估的平均值。
(1)ChnSentiCorp 數(shù)據(jù)集上的實(shí)驗(yàn)。該數(shù)據(jù)集為經(jīng)典的句子級(jí)情感分類數(shù)據(jù)集,訓(xùn)練集、開(kāi)發(fā)集、測(cè)試集大小分別為9600、1200、1200,包含積極、消極2 個(gè)類別。文獻(xiàn)[19]實(shí)驗(yàn)顯示,在此類情感極性分類任務(wù)上將標(biāo)簽信息融入BERT 的方法難以發(fā)揮作用。
表6 為在ChnSentiCorp 數(shù)據(jù)集上的評(píng)估結(jié)果,BERT 提示方法的準(zhǔn)確率均高于BERT 方法,其中軟提示模板帶來(lái)的提升更大。
表6 在ChnSentiCorp 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
(2)垃圾短信檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)。本文從“帶標(biāo)簽短信”中隨機(jī)采樣5000 個(gè)正常短信和5000個(gè)垃圾短信,按8 ∶1 ∶1 的比例劃分為訓(xùn)練集、開(kāi)發(fā)集、測(cè)試集。
表7 為在垃圾短信檢測(cè)數(shù)據(jù)集上的評(píng)估結(jié)果,BERT 提示方法的準(zhǔn)確率同樣高于BERT 方法,其中硬提示模板帶來(lái)的提升更大。但如果將提示模板改為“垃圾信息[MASK]:”,則準(zhǔn)確率只有0.988 40,反而略低于BERT 方法。這顯示需要合理構(gòu)建提示模板才能充分發(fā)揮BERT 提示方法的作用。
表7 在垃圾短信檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
在2 個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的BERT 提示方法依然有效。
本文提出了基于BERT 提示的礦產(chǎn)資源管理規(guī)則檢測(cè)新方法。該方法未改變BERT 的原始網(wǎng)絡(luò)結(jié)構(gòu),僅對(duì)模型輸入層和輸出分類層進(jìn)行改造,幾乎不增加計(jì)算量。通過(guò)引入帶有[MASK]標(biāo)記和管理規(guī)則信息的提示模板,一定程度上彌合了BERT 預(yù)訓(xùn)練和下游任務(wù)之間的不一致性,可以充分發(fā)揮掩碼語(yǔ)言模型的自編碼優(yōu)勢(shì),更好地利用標(biāo)簽信息。在分類輸出層,放棄使用 [CLS] 隱向量而采用[MASK]隱向量進(jìn)行分類預(yù)測(cè),可以激發(fā)BERT 模型更好地提取與管理規(guī)則相關(guān)的文本特征,從而進(jìn)一步提高檢測(cè)精度。在礦產(chǎn)資源管理規(guī)則數(shù)據(jù)集上的廣泛實(shí)驗(yàn)結(jié)果表明,本文所提方法優(yōu)于已有方法,而且在處理樣本不均衡問(wèn)題以及模型穩(wěn)定性上更具優(yōu)勢(shì)。在公開(kāi)數(shù)據(jù)集上的進(jìn)一步實(shí)驗(yàn)結(jié)果也顯示了本文方法的有效性,可以為相關(guān)工作提供參考和借鑒。