劉曉蒙 單清龍 周萌枝 張俊娜 朱 騫 楊閃閃
(1.同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司,北京 100000;2.山西同方知網(wǎng)數(shù)字出版技術(shù)有限公司,山西 太原 030000)
知識(shí)抽取(Knowledge Extraction)是對(duì)蘊(yùn)涵于文本文獻(xiàn)中的知識(shí)進(jìn)行識(shí)別、理解、篩選和格式化,從而把文本文獻(xiàn)中的各類(lèi)知識(shí)(包括常識(shí)知識(shí)、專(zhuān)家知識(shí)、行業(yè)領(lǐng)域知識(shí)等)抽取出來(lái),即基于給定的本體從文本中抽取與既定本體相匹配的知識(shí)內(nèi)容,并以一定形式存儲(chǔ)形成知識(shí)元庫(kù)。知識(shí)抽取是信息資源建設(shè)中的關(guān)鍵環(huán)節(jié),因此知識(shí)抽取在涉訴信訪案件知識(shí)庫(kù)構(gòu)建過(guò)程中發(fā)揮著舉足輕重的作用[1-2]。
目前知識(shí)抽取通常有兩種實(shí)現(xiàn)方法,一種是基于規(guī)則的知識(shí)元抽取方法[3],另一種是基于統(tǒng)計(jì)算法的知識(shí)元抽取方法[4-7]。其中基于規(guī)則的方法替換功能性較差且容易產(chǎn)生性能問(wèn)題;基于統(tǒng)計(jì)算法的方法,常用的有隱馬爾可夫HMM[8-9]、條件隨機(jī)場(chǎng)CRF[10-12]等序列標(biāo)注方法,通常對(duì)語(yǔ)料的依賴很強(qiáng),需要進(jìn)行大量的語(yǔ)料標(biāo)注。
然而標(biāo)注數(shù)據(jù),可以說(shuō)是AI模型訓(xùn)練里最艱巨的一項(xiàng)工作。自然語(yǔ)言處理的數(shù)據(jù)標(biāo)注更是需要投入大量人力。相對(duì)計(jì)算機(jī)視覺(jué)的圖像標(biāo)注,文本的標(biāo)注通常沒(méi)有準(zhǔn)確的標(biāo)準(zhǔn)答案,對(duì)句子理解也是因人而異,讓這項(xiàng)工作更是難上加難。
實(shí)驗(yàn)發(fā)現(xiàn),Bert在多個(gè)自然語(yǔ)言處理任務(wù)中,都能在極小的語(yǔ)料數(shù)據(jù)下帶來(lái)顯著的準(zhǔn)確率提升[13-16]。實(shí)驗(yàn)結(jié)果對(duì)比,Bert在極少的數(shù)據(jù)集上表現(xiàn)非常出色。
首先,在Bert向量模型的基礎(chǔ)上通過(guò)分析涉訴信訪案件的主要內(nèi)容和案件要素特點(diǎn)進(jìn)行方法設(shè)計(jì),提出方法Bert-PMC(基于Bert的篇章段落標(biāo)引方法),如圖1所示。
圖1
Bert-PMC利用Bert中文向量模型,將文書(shū)的篇章段落結(jié)構(gòu)劃分為多種特征類(lèi)別,以自然段落為單位對(duì)整篇文書(shū)所有段落構(gòu)建基于Bert的篇章段落多分類(lèi)模型。
在Bert向量模型的基礎(chǔ)上考慮涉訴信訪案件的案件要素特點(diǎn),并融合雙向遞歸神經(jīng)網(wǎng)絡(luò)BiLSTM和條件隨機(jī)場(chǎng)CRF,通過(guò)組合優(yōu)化設(shè)計(jì),提出方法Bert-BiLSTM-CRF(基于Bert-PMC+Bert-BiLSTMCRF的知識(shí)元自動(dòng)抽取方法),見(jiàn)圖1。
根據(jù)辦案知識(shí)框架,并結(jié)合涉訴信訪案件的案件要素特征,以句子為單位對(duì)整篇文書(shū)所有段落進(jìn)行知識(shí)元語(yǔ)料標(biāo)注。通過(guò)不斷地進(jìn)行參數(shù)組合調(diào)優(yōu),最終得到Bert-PMC和Bert-BiLSTM-CRF所有參數(shù)的最佳值。
本文實(shí)現(xiàn)的是一種基于Bert+BiLSTM+CRF的知識(shí)元抽取方法,綜合考慮知識(shí)元所在篇章段落的特征信息,先對(duì)涉訴信訪案件的篇章段落進(jìn)行多分類(lèi)獲取篇章段落的特征類(lèi)別,再根據(jù)不同類(lèi)別的篇章段落進(jìn)行差異性知識(shí)元抽取。
其中基于Bert的篇章段落標(biāo)引模型,是根據(jù)涉訴信訪案件的自然段進(jìn)行建模,自然段可包含一個(gè)或多個(gè)自然句。利用Bert向量模型,對(duì)涉訴信訪案件所有的自然段進(jìn)行分類(lèi)標(biāo)引,主要目的是為法律知識(shí)元的抽取段落進(jìn)行準(zhǔn)確定位,提高知識(shí)元的抽取準(zhǔn)確率。
其中基于Bert-BiLSTM-CRF的涉訴信訪案件知識(shí)元抽取模型,是根據(jù)涉訴信訪案件的自然句進(jìn)行建模,每一個(gè)自然句都是一個(gè)獨(dú)立完整的句子。由篇章段落標(biāo)引得到的自然段,在進(jìn)行知識(shí)元抽取時(shí)需先進(jìn)行分句,再對(duì)每一個(gè)自然句獨(dú)立進(jìn)行知識(shí)元抽取。再次利用Bert向量模型,再依次結(jié)合BiLSTM模型和CRF模型,集合多個(gè)算法優(yōu)勢(shì)對(duì)所有有效自然段的所有自然句進(jìn)行知識(shí)元抽取,提高知識(shí)元抽取準(zhǔn)確率。
方法實(shí)現(xiàn)共分為兩個(gè)階段:模型訓(xùn)練階段和知識(shí)元抽取階段。
圖2
圖3
1.模型訓(xùn)練階段
第一個(gè)階段是模型訓(xùn)練階段,根據(jù)Bert模型的特點(diǎn)和數(shù)據(jù)集的特征進(jìn)行基于Bert的篇章段落標(biāo)引模型和基于Bert+BiLSTM+CRF的知識(shí)元抽取模型設(shè)計(jì)和訓(xùn)練。
基于Bert的篇章段落標(biāo)引模型:
步驟一、通過(guò)分析涉訴信訪案件的主要內(nèi)容和案件要素特點(diǎn),將文書(shū)的篇章段落結(jié)構(gòu)劃分為7種特征類(lèi)別,以自然段落為單位對(duì)整篇文書(shū)所有段落進(jìn)行語(yǔ)料標(biāo)注。
步驟二、利用Bert中文向量模型(chinese_L-12_H-768_A-12),訓(xùn)練基于Bert的篇章段落標(biāo)引模型,主要的調(diào)控參數(shù)有輸入向量的最大長(zhǎng)度max_seq_length、訓(xùn)練批量大小train_batch_size、學(xué)習(xí)率learning_rate和訓(xùn)練輪次num_train_epochs。
基于Bert+BiLSTM+CRF的知識(shí)元抽取模型:
步驟一、根據(jù)辦案知識(shí)框架,并結(jié)合涉訴信訪案件的案件要素特征,以句子為單位對(duì)整篇文書(shū)所有段落進(jìn)行知識(shí)元語(yǔ)料標(biāo)注:
步驟二、利用Bert中文向量模型(chinese_L-12_H-768_A-12),訓(xùn)練基于Bert-BiLSTM-CRF的知識(shí)元抽取模型,主要的調(diào)控參數(shù)有輸入向量的最大長(zhǎng)度max_seq_length、訓(xùn)練批量大小train_batch_size、學(xué)習(xí)率learning_rate和訓(xùn)練輪次num_train_epochs、LSTM的隱含單元個(gè)數(shù)lstm_size、LSTM的層數(shù)num_layers、droupout_rate等。
2.知識(shí)元抽取階段
第二個(gè)階段是知識(shí)元抽取階段,依次調(diào)用訓(xùn)練好的基于Bert的篇章段落標(biāo)引模型和基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取模型進(jìn)行法律知識(shí)元抽取。
步驟一、輸入一篇涉訴信訪案件,整篇文書(shū)以自然段為單位作為Bert模型輸入向量進(jìn)行篇章段落標(biāo)引,獲取所有自然段的篇章段落特征。
步驟二、根據(jù)知識(shí)框架和篇章段落結(jié)構(gòu)特點(diǎn),得到整篇文書(shū)最終有意義的目標(biāo)抽取段落,其他非目標(biāo)段落不再繼續(xù)下一步的知識(shí)元抽取。
步驟三、對(duì)于所有目標(biāo)抽取段落,以句子為單位作為Bert-BiLSTM-CRF模型的輸入向量進(jìn)行知識(shí)元序列標(biāo)注,最終得到目標(biāo)抽取段落的知識(shí)元。
圖1中,Paragraph代表涉訴信訪案件中自然段落,可包含一個(gè)或多個(gè)語(yǔ)句;篇章段落標(biāo)引模型的輸入向量為一句或多句的自然段,Sentence是自然段Paragraph分句之后完整句子;知識(shí)元抽取模型的輸入向量為獨(dú)立的句子。
本文提出的知識(shí)元抽取方法能夠在極小的語(yǔ)料數(shù)據(jù)下帶來(lái)很好的知識(shí)元抽取準(zhǔn)確率。本文在Bert向量模型的基礎(chǔ)上不僅融合了涉訴信訪案件篇章段落結(jié)構(gòu)特點(diǎn),更融合了雙向遞歸神經(jīng)網(wǎng)絡(luò)BiLSTM的長(zhǎng)短記憶優(yōu)勢(shì)和條件隨機(jī)場(chǎng)CRF轉(zhuǎn)移矩陣可規(guī)避非法標(biāo)注優(yōu)勢(shì),獲得了較好的知識(shí)元抽取準(zhǔn)確性。
從實(shí)驗(yàn)結(jié)果中可以看出,Bert-PMC獲得了較好的標(biāo)引準(zhǔn)確率,Bert-BiLSTM-CRF也獲得了較好的知識(shí)元抽取準(zhǔn)確率,能夠適應(yīng)實(shí)際項(xiàng)目的需求。
本文通過(guò)基于Bert的案件要素劃分方法和基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法,利用法律裁判文書(shū)或起訴文書(shū)的段落案件要素特點(diǎn),對(duì)整篇文書(shū)所有段落進(jìn)行特征建模,根據(jù)行業(yè)特點(diǎn)與應(yīng)用需求,將知識(shí)元與案件要素特征建立關(guān)聯(lián),再基于篇章段落特征進(jìn)行法律知識(shí)元抽取。由于Bert模型能在極小的語(yǔ)料標(biāo)注集上獲得較好的效果,該方法大大削弱了標(biāo)注語(yǔ)料集對(duì)知識(shí)元抽取的制約。
BiLSTM為雙向LSTM層,負(fù)責(zé)自動(dòng)提取句子的特征;CRF層,進(jìn)行句子集的序列標(biāo)注,在解碼過(guò)程中使用動(dòng)態(tài)的Viterbi算法來(lái)求解最優(yōu)路徑。雖然BiLSTM加上Softmax層后就可以直接用來(lái)做知識(shí)元序列標(biāo)注,但考慮到文本語(yǔ)義中上下文轉(zhuǎn)換的合法性,引入CRF層對(duì)BiLSTM網(wǎng)絡(luò)層輸出的結(jié)果做一定的約束限制,解決知識(shí)元標(biāo)簽順序不合法問(wèn)題,進(jìn)而提高知識(shí)元抽取的準(zhǔn)確性。