郭 曉,陳艷平,唐瑞雪,3,黃瑞章,秦永彬
1.貴州大學(xué) 公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,貴陽(yáng)550025
2.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng)550025
3.貴州財(cái)經(jīng)大學(xué) 信息學(xué)院,貴陽(yáng)550025
謂語(yǔ)中心詞是中文句子中核心的語(yǔ)法單元,句子中的語(yǔ)法單位(如主語(yǔ)、賓語(yǔ)、狀語(yǔ)和補(bǔ)語(yǔ)等)都通過(guò)謂語(yǔ)中心詞進(jìn)行關(guān)聯(lián)。因此,識(shí)別謂語(yǔ)中心詞可以有效解析句子的語(yǔ)法結(jié)構(gòu),清晰地理解句子的語(yǔ)義,快速捕獲句子的有效信息,為提煉句子的主要內(nèi)容提供有效支撐。然而中文句子中通常存在多個(gè)動(dòng)詞,由于中文詞語(yǔ)沒(méi)有形態(tài)特征,為謂語(yǔ)中心詞的識(shí)別帶來(lái)挑戰(zhàn)。例如在“貨物通過(guò)快遞站運(yùn)輸至烏魯木齊”句子中“通過(guò)”和“運(yùn)輸”都是動(dòng)詞。但是“通過(guò)快遞站”用來(lái)表示運(yùn)輸?shù)姆绞?,其中“通過(guò)”是非謂語(yǔ)動(dòng)詞,而“運(yùn)輸”才是句子的謂語(yǔ)中心詞。因此識(shí)別謂語(yǔ)中心詞,有助于劃分句子結(jié)構(gòu),理解語(yǔ)法成分和語(yǔ)義信息表達(dá),從而支撐知識(shí)圖譜構(gòu)建、摘要生成、機(jī)器翻譯等自然語(yǔ)言應(yīng)用。
隨著深度學(xué)習(xí)的發(fā)展,目前多采用序列標(biāo)注模型[1-2]來(lái)識(shí)別謂語(yǔ)中心詞。該方法通過(guò)輸出一條最大概率路徑,對(duì)輸入序列的每一個(gè)字標(biāo)注一個(gè)類型標(biāo)簽的方式進(jìn)行識(shí)別。然而,由于謂語(yǔ)中心詞具有復(fù)雜的動(dòng)詞結(jié)構(gòu),例如“持刀行兇的歹徒被捕獲歸案”,其中“抓捕歸案”為具有并列結(jié)構(gòu)的謂語(yǔ)中心詞,采用傳統(tǒng)的序列標(biāo)注模型,容易將“抓捕歸案”標(biāo)注為“抓捕”和“歸案”兩個(gè)謂語(yǔ)中心詞,導(dǎo)致難以解析句子的語(yǔ)法結(jié)構(gòu)。
最近,基于跨度[3-5]的方法在命名實(shí)體識(shí)別任務(wù)方面取得了不錯(cuò)的效果??缍仁侵妇渥又械淖址哟?。通過(guò)將給定句子序列按跨度進(jìn)行劃分,枚舉句中所有的子序列,然后預(yù)測(cè)每一個(gè)序列的類型,可以在識(shí)別中有效利用面向跨度的全局語(yǔ)義特征。但是由于中文句子的謂語(yǔ)中心詞具有唯一性,正樣本只有一個(gè),通過(guò)枚舉跨度的方式會(huì)產(chǎn)生大量的負(fù)樣本,從而導(dǎo)致嚴(yán)重正負(fù)樣本不平衡問(wèn)題。另外,謂語(yǔ)中心詞及高度重疊的負(fù)例樣本之間共享相同的上下文,高度重疊的跨度語(yǔ)義相近,容易產(chǎn)生誤報(bào)。
針對(duì)現(xiàn)有方法在謂語(yǔ)中心詞識(shí)別中的不足之處,本文基于跨度提出了一種邊界回歸謂語(yǔ)中心詞識(shí)別方法。首先,通過(guò)BERT(bidirectional encoder representations from transformers)[6]得到句子中每個(gè)字的抽象語(yǔ)義表示,并利用BiLSTM(bidirectional long short-term memory)[7]獲取句子中的上下文語(yǔ)義依賴特征。其次,利用邊界識(shí)別方法,定位可能的謂語(yǔ)中心詞邊界。通過(guò)邊界組合生成跨度,從而減少負(fù)樣本數(shù)量,緩解謂語(yǔ)中心詞識(shí)別中的數(shù)據(jù)不平衡問(wèn)題和降低計(jì)算復(fù)雜度。然后,通過(guò)跨度回歸模塊計(jì)算跨度邊界與謂語(yǔ)中心詞的偏移量[8],調(diào)整跨度邊界位置,提高跨度邊界的準(zhǔn)確度。最后,在輸出端加入約束機(jī)制限制跨度數(shù)量,確保謂語(yǔ)中心詞的唯一性。
本文的主要貢獻(xiàn)如下:
(1)識(shí)別謂語(yǔ)中心詞在句子中可能的邊界。通過(guò)邊界組合生成跨度,從而減少跨度樣本中的正負(fù)樣本不平衡問(wèn)題。
(2)使用跨度邊界回歸方法計(jì)算跨度與謂語(yǔ)中心詞的偏移值,更新跨度在句子中的位置,提高跨度識(shí)別中邊界的準(zhǔn)確性。
本文提出的模型在謂語(yǔ)中心詞開(kāi)發(fā)數(shù)據(jù)上進(jìn)行驗(yàn)證,在測(cè)試集獲得了84.41%的F值,有效提升了謂語(yǔ)中心詞的識(shí)別性能。
識(shí)別謂語(yǔ)中心詞是理解句子語(yǔ)義和劃分句子結(jié)構(gòu)的關(guān)鍵。謂語(yǔ)中心詞在句子中起到組織主語(yǔ)、賓語(yǔ)和狀語(yǔ)等元素的作用。由于中文句子謂語(yǔ)中心詞結(jié)構(gòu)復(fù)雜和一詞多義的現(xiàn)象,導(dǎo)致識(shí)別謂語(yǔ)中心詞變得非常困難。目前關(guān)于謂語(yǔ)中心詞識(shí)別的研究主要可以分為四類:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于規(guī)則與統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的方法和基于深度學(xué)習(xí)的方法。
基于規(guī)則的方法中,李國(guó)臣等人[9]提出了利用主語(yǔ)和謂語(yǔ)的關(guān)系來(lái)識(shí)別謂語(yǔ)中心詞的方法。該方法包括使用謂語(yǔ)中心詞候選項(xiàng)的靜態(tài)語(yǔ)法特征和動(dòng)態(tài)語(yǔ)法特征,通過(guò)主語(yǔ)候選項(xiàng)的連接使得句子結(jié)構(gòu)清晰,然后判斷句子類型,從而識(shí)別謂語(yǔ)中心詞。穗志方等人[10]提出了一種漢語(yǔ)句子分析方法,即“骨架依存分析法”。這種方法依靠的是英語(yǔ)例句中的謂語(yǔ)中心詞來(lái)識(shí)別相應(yīng)的漢語(yǔ)例句中的謂語(yǔ)中心詞。此類方法通過(guò)分析句子結(jié)構(gòu)和語(yǔ)義規(guī)則來(lái)識(shí)別謂語(yǔ),只適用于少數(shù)結(jié)構(gòu)清晰和語(yǔ)義明確的語(yǔ)句,無(wú)法在大規(guī)模的數(shù)據(jù)集上實(shí)現(xiàn)謂語(yǔ)中心詞的自動(dòng)識(shí)別。
基于統(tǒng)計(jì)學(xué)習(xí)的方法中,張宜浩等人[11]提出了基于支持向量機(jī)分類算法的謂詞自動(dòng)識(shí)別方法。該方法通過(guò)信息增益和同義詞詞林進(jìn)行特征構(gòu)建。汪紅林等人[12]通過(guò)組合謂語(yǔ)的特征,使用最大熵分類器識(shí)別謂語(yǔ)中心詞。
基于規(guī)則與統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的方法中,龔小謹(jǐn)?shù)热薣13]提出了一種規(guī)則和特征學(xué)習(xí)相結(jié)合的謂語(yǔ)識(shí)別方法。該方法通過(guò)固定搭配將字組合成一個(gè)整體,排除不可能成為謂語(yǔ)的詞,然后利用規(guī)則篩選出可能的準(zhǔn)謂語(yǔ),再利用特征學(xué)習(xí)識(shí)別出謂語(yǔ)。韓磊等人[14]提出一種詞法和句法特征相融合的方法,結(jié)合C4.5[15]機(jī)器學(xué)習(xí)和規(guī)則進(jìn)行謂詞識(shí)別。首先利用句子的詞法信息和句法信息進(jìn)行特征提取,使用規(guī)則進(jìn)行詞法特征過(guò)濾,最后使用C4.5 進(jìn)行謂詞識(shí)別。該方法通過(guò)人工構(gòu)造的規(guī)則,很難考慮到所有謂語(yǔ)存在的形式和結(jié)構(gòu),模型的泛化能力差,不適用于大規(guī)模數(shù)據(jù)的識(shí)別。
基于深度學(xué)習(xí)的方法中,李婷等人[1]使用一種基于神經(jīng)網(wǎng)絡(luò)的Attentional-BiLSTM-CRF中文謂語(yǔ)動(dòng)詞識(shí)別模型。該模型通過(guò)注意力機(jī)制聚焦于句子的謂語(yǔ)信息,利用BiLSTM獲取上下文信息,最后使用CRF(conditional random field)[16]生成一條序列標(biāo)注路徑,標(biāo)注出謂語(yǔ)中心詞。黃瑞章等人[17]使用一種基于Highway-BiLSTMSoftmax網(wǎng)絡(luò)的深度學(xué)習(xí)模型。該模型利用多層BiLSTM獲取句子內(nèi)部依賴,使用Highway[18]網(wǎng)絡(luò)來(lái)緩解梯度消失,最后通過(guò)softmax函數(shù)進(jìn)行歸一化處理。靳文繁[19]使用多層堆疊的BiLSTM 網(wǎng)絡(luò)獲取句子的抽象語(yǔ)義依賴信息,并且引入Highway網(wǎng)絡(luò)連接模型中的每個(gè)層,然后使用邊框回歸的深度學(xué)習(xí)模型和多目標(biāo)學(xué)習(xí)框架學(xué)習(xí)分類置信度和位置偏移量。但是謂語(yǔ)中心詞由漢字組成,復(fù)雜的詞語(yǔ)結(jié)構(gòu)導(dǎo)致了謂語(yǔ)中心詞識(shí)別不完整的現(xiàn)象。
本文提出邊界回歸的模型主要由三個(gè)模塊組成,如圖1所示。從左到右分別為編碼模塊、邊界識(shí)別模塊和跨度回歸模塊。
圖1 邊界回歸模型Fig.1 Boundary regression model
首先,使用BERT 預(yù)訓(xùn)練語(yǔ)言模型和BiLSTM 作為編碼模塊,將句子序列生成結(jié)合上下文的字符向量表示。使用邊界分類器識(shí)別出句子中謂語(yǔ)中心詞的邊界位置,并且生成不同的跨度。然后,通過(guò)跨度回歸器計(jì)算偏移量后更新跨度的邊界位置,再將跨度輸入跨度分類器進(jìn)行識(shí)別。最后,通過(guò)約束策略,輸出唯一的跨度。各模塊分別詳細(xì)介紹如下。
假設(shè)輸入模型的句子為S={c1,c2,…,cn},其中ci表示句子中的第i個(gè)字,n是句子S的長(zhǎng)度。通過(guò)BERT模型提取句子S中深層的語(yǔ)義特征信息,并且輸出融合全文語(yǔ)義的連續(xù)稠密向量Z={z1,z2,…,zn}。然后,將Z輸入BiLSTM來(lái)捕獲句子中的雙向語(yǔ)義依賴,生成句子的向量表示H={h1,h2,…,hn},其中hi∈Rd是字的向量表示,d表示字向量的維度。每個(gè)字向量的表示都融合了句子中的上下文特征和語(yǔ)義依賴。該過(guò)程的形式化表示如下:
如果直接枚舉所有的跨度進(jìn)行跨度分類,會(huì)導(dǎo)致嚴(yán)重的數(shù)據(jù)不平衡和高計(jì)算復(fù)雜度的問(wèn)題。因此,設(shè)計(jì)了謂語(yǔ)中心詞邊界分類器,通過(guò)識(shí)別出謂語(yǔ)中心詞的邊界,并將邊界進(jìn)行組合生成跨度,從而減少負(fù)樣本的數(shù)量。
首先,使用邊界分類器,將句子中的每個(gè)字ci相應(yīng)的向量表示hi輸入邊界分類器來(lái)預(yù)測(cè)成為邊界的概率,計(jì)算公式如下:
式中,MLP(multi-layer perceptron)[20]是由兩層Linear層和GELU[21]激活函數(shù)構(gòu)成。
其次,將識(shí)別出的邊界進(jìn)行組合,生成候選的謂語(yǔ)中心詞。假設(shè)邊界分類器預(yù)測(cè)出字符csi(1 ≤si≤n)為謂語(yǔ)中心詞的開(kāi)始邊界,則需要以該字符的位置si作為跨度的開(kāi)始邊界。然后,通過(guò)組合不同的結(jié)束邊界ei∈[si+1,si+2,…,si+m]生成跨度di=(si,ei)(1 ≤si≤ei≤n),其中di表示第i個(gè)連續(xù)的字符序列{csi,csi+1,…,cei},m為預(yù)先定義的最大跨度長(zhǎng)度。若邊界分類器預(yù)測(cè)的字符cej(1 ≤ej≤n)為謂語(yǔ)中心詞的結(jié)束邊界,則需要通過(guò)組合開(kāi)始邊界sj∈[ej-1,ej-2,…,ej-m]生成跨度dj=(sj,ej)(1 ≤sj≤ej≤n)。最后,將所有生成的跨度合并為候選跨度集D={d1,d2,…,dk},其中k是跨度的數(shù)量。
通過(guò)邊界識(shí)別生成的跨度減少了負(fù)樣本的數(shù)量,同時(shí)提高了跨度的質(zhì)量。然而,很多跨度互相之間高度重疊,共享相同的上下文,導(dǎo)致識(shí)別出的謂語(yǔ)中心詞存在邊界不匹配的問(wèn)題。因此,設(shè)計(jì)了跨度回歸器,通過(guò)捕獲跨度外部語(yǔ)義來(lái)更新跨度的位置,有效提升跨度的準(zhǔn)確率。為了計(jì)算更新跨度的偏移量,對(duì)于每個(gè)跨度di∈D,將最大池化的跨度表示和跨度邊界外部的向量表示拼接起來(lái),獲得跨度的向量表示。然后輸入跨度回歸器來(lái)計(jì)算跨度邊界相對(duì)于真實(shí)謂語(yǔ)中心詞的偏移量Δri,更新識(shí)別跨度在句子中的位置。其中,邊界偏移量的計(jì)算公式如下:
式中,MaxPooling[22]是最大池化操作,[;]表示拼接操作,Δri由跨度開(kāi)始邊界的偏移量和跨度結(jié)束邊界的偏移量組成,W∈R3d×2,b∈R2,是可學(xué)習(xí)參數(shù)。
利用計(jì)算出的偏移值來(lái)更新跨度的開(kāi)始邊界和結(jié)束邊界。計(jì)算如下:
式中,MaxPooling 是最大池化操作,[;]表示拼接操作,MLP由兩層Linear和GELU激活函數(shù)組成。
為了避免句子中謂語(yǔ)中心詞的跨度數(shù)量大于1 的現(xiàn)象,本文在邊界分類器后,通過(guò)添加約束條件,篩選預(yù)測(cè)概率值最高的跨度為謂語(yǔ)中心詞的位置。計(jì)算公式如下:
式中,為預(yù)測(cè)概率最高值。
本文采用多目標(biāo)框架,同時(shí)識(shí)別跨度的類別和偏移量??倱p失函數(shù)結(jié)合了邊界識(shí)別、跨度回歸和跨度分類的損失。對(duì)于邊界識(shí)別采用的損失函數(shù)為二分類交叉熵?fù)p失,損失函數(shù)定義如下:
式中,為真實(shí)值,為預(yù)測(cè)的概率。
跨度回歸的損失函數(shù)采用SmoothL1[23]函數(shù),損失函數(shù)定義如下:
對(duì)于跨度分類損失采用Focal Loss[24]函數(shù)解決正負(fù)樣本比例失衡的問(wèn)題。損失函數(shù)定義如下:
式中,wi為計(jì)算第i個(gè)跨度的權(quán)重,γ為Focal Loss 的調(diào)焦參數(shù)為跨度真實(shí)類別,為預(yù)測(cè)的概率。
最后,對(duì)邊界分類、跨度回歸和跨度分類的總損失計(jì)算如下:
式中,β(·)∈[0,1],是上述三個(gè)任務(wù)的超參數(shù)集。在訓(xùn)練期間調(diào)整三個(gè)子任務(wù)的相對(duì)重要性。
實(shí)驗(yàn)所使用的數(shù)據(jù)集來(lái)自于“中國(guó)裁判文書網(wǎng)”中的762 篇法院刑事判決書。在中文謂語(yǔ)中心詞識(shí)別領(lǐng)域還缺少公共的數(shù)據(jù)集支持,因此使用此數(shù)據(jù)集作為本文的訓(xùn)練和評(píng)測(cè)模型的數(shù)據(jù)集。此數(shù)據(jù)集由法院刑事判決書的案情部分組成,且標(biāo)注規(guī)范與Chen 等人[25]的標(biāo)注規(guī)范相同。此數(shù)據(jù)集共標(biāo)注了7 022 條句子,其中謂語(yǔ)中心詞有7 022個(gè)。謂語(yǔ)中心詞可以劃分為如下幾種類別。
(1)單謂語(yǔ)中心詞:謂語(yǔ)中心詞由一個(gè)及物動(dòng)詞或非及物動(dòng)詞組成,沒(méi)有修飾語(yǔ)和補(bǔ)語(yǔ)。此類的謂語(yǔ)中心詞,以詞典收率為準(zhǔn)。此數(shù)據(jù)集中單謂語(yǔ)動(dòng)詞有4 353個(gè)。
(2)復(fù)合結(jié)構(gòu)的謂語(yǔ)中心詞:謂語(yǔ)中心詞具有重復(fù)結(jié)構(gòu)且至少包含一個(gè)重復(fù)出現(xiàn)的動(dòng)詞,例如“跌跌撞撞”“比劃比劃”等。此數(shù)據(jù)集中復(fù)合結(jié)構(gòu)的謂語(yǔ)中心詞有24個(gè)。
(3)同義并列的謂語(yǔ)中心詞:謂語(yǔ)中心詞由表達(dá)相關(guān)語(yǔ)義的關(guān)聯(lián)動(dòng)詞組成,或者由相同詞義類型的動(dòng)詞組成,例如“抓捕/歸案”“驅(qū)車/行駛”等。此數(shù)據(jù)集中同義并列的謂語(yǔ)中心詞有272個(gè)。
(4)帶修飾或帶補(bǔ)語(yǔ)的謂語(yǔ)中心詞:謂語(yǔ)中心詞帶有修飾符、補(bǔ)語(yǔ)和事態(tài)標(biāo)記的動(dòng)詞,例如“(?。┏觥啊保ㄅぃ╅_(kāi)”等。此數(shù)據(jù)集中帶有修飾符的謂語(yǔ)中心詞有1 651個(gè)。
(5)其他特殊表達(dá)的謂語(yǔ)中心詞:謂語(yǔ)中心詞由其他名詞或者形容詞作動(dòng)詞以及諺語(yǔ)、習(xí)語(yǔ)、成語(yǔ)和典故等充當(dāng)句子的謂語(yǔ)中心詞,例如“心生不滿”“過(guò)河拆橋”等。此數(shù)據(jù)集中其他特殊表達(dá)的謂語(yǔ)中心詞有116個(gè)。
此數(shù)據(jù)集合以6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)包含準(zhǔn)確率P、召回率R和測(cè)度值F,以此來(lái)評(píng)價(jià)該模型識(shí)別謂語(yǔ)中心詞的效果,評(píng)價(jià)指標(biāo)具體公式如下:
式中,TP為實(shí)際為正例且預(yù)測(cè)為正例的數(shù)量,F(xiàn)P為實(shí)際為負(fù)例但預(yù)測(cè)為正例的數(shù)量,F(xiàn)N 為實(shí)際為正例但預(yù)測(cè)為負(fù)例的數(shù)量。
本文的邊界回歸模型在Python3.8 和Pytorch1.7.1的環(huán)境下進(jìn)行實(shí)驗(yàn)。使用BERT和BiLSTM將句子序列生成結(jié)合上下文的字符向量表示。邊界分類器由兩個(gè)Linear 層和一個(gè)GELU 激活函數(shù)構(gòu)成,跨度回歸器是一個(gè)Linear層,跨度分類器也同樣由兩個(gè)Linear層和一個(gè)GELU 激活函數(shù)構(gòu)成。實(shí)驗(yàn)采用Adam[26]優(yōu)化器。參數(shù)設(shè)置如表1所示。
表1 參數(shù)設(shè)置Table 1 Parameter setting
3.4.1 與其他模型的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證模型的有效性,本文模型與其他四種模型在謂語(yǔ)中心詞的數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。所使用的其他四種模型分別為BiLSTM+CRF[27]模型、BiLSTM+Attention+CRF[1]模型、Highway+BiLSTM[17]模型、BERT+BiLSTM+CRF[28]模型。對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同模型實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results of different models
BiLSTM+CRF[27]為目前最常用的序列標(biāo)注模型。此模型可以捕獲句子雙向的語(yǔ)義信息,可以計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率分布,并選取全局最優(yōu)輸出節(jié)點(diǎn)的條件概率。該模型的缺點(diǎn)是難以捕獲句子深層語(yǔ)義,只能學(xué)習(xí)句子中近距離的語(yǔ)義特征。對(duì)于長(zhǎng)序列,依然無(wú)法很好地傳輸序列的遠(yuǎn)點(diǎn)信息。因此,該模型很難準(zhǔn)確地識(shí)別出謂語(yǔ)中心詞語(yǔ)的位置,導(dǎo)致性能偏低。
由李婷等人[1]提出的BiLSTM+Attention+CRF 模型在BiLSTM+CRF模型上添加了注意力機(jī)制。注意力機(jī)制彌補(bǔ)了BiLSTM對(duì)于遠(yuǎn)點(diǎn)信息捕捉的缺失,自注意力機(jī)制沒(méi)有依賴字與字之間的順序,而是通過(guò)計(jì)算字與字之間的權(quán)重,從而捕獲全局與局部的關(guān)聯(lián)。此模型性能相比上一個(gè)模型有所提升。
由黃瑞章等人[17]提出的Highway+BiLSTM 網(wǎng)絡(luò)在訓(xùn)練階段使用了預(yù)訓(xùn)練的漢語(yǔ)維基百科向量字嵌入初始化。利用Highway 有效緩解了隨著模型深度加深而導(dǎo)致梯度消失的問(wèn)題。使用多層BiLSTM 構(gòu)成識(shí)別謂語(yǔ)中心詞的模型,Softmax輸出預(yù)測(cè)概率。相比上述兩個(gè)模型,該模型利用多層BiLSTM堆疊而成,使用Highway來(lái)解決梯度消失問(wèn)題,并且有效地提升了謂語(yǔ)中心詞識(shí)別的準(zhǔn)確度。
謝騰等人[28]使用BERT+BiLSTM+CRF 模型進(jìn)行中文實(shí)體識(shí)別。本文將此模型進(jìn)行了謂語(yǔ)中心詞識(shí)別,使用BERT-large預(yù)訓(xùn)練模型代替了word2vec[29]方式,對(duì)輸入句子進(jìn)行向量表示。BERT模型已經(jīng)是在大規(guī)模語(yǔ)料基礎(chǔ)上訓(xùn)練好的參數(shù),在訓(xùn)練時(shí)只需要在此基礎(chǔ)上更新參數(shù),可以更好地捕獲詞語(yǔ)和句子的表示。使用BiLSTM來(lái)獲取上下文的語(yǔ)義依賴,最后使用CRF輸出預(yù)測(cè)的標(biāo)簽序列。
本文使用的邊界回歸模型,F(xiàn)值達(dá)到了84.41%,相比BERT+BiLSTM+CRF模型的F值提高1.7%,表明了本文方法的有效性。本文模型選用BERT和BiLSTM作為編碼模塊,可以更好地捕捉語(yǔ)句和詞語(yǔ)的關(guān)系,并且能夠獲取雙向語(yǔ)義依賴。使用邊界分類器識(shí)別邊界,然后以邊界生成跨度,可以使得跨度與謂語(yǔ)中心詞高度重疊,并且避免了枚舉跨度產(chǎn)生的大量負(fù)例而造成的分類干擾。其次,依靠邊界生成的跨度,可能與謂語(yǔ)中心詞存在偏差,通過(guò)跨度回歸器,動(dòng)態(tài)調(diào)整跨度的邊界可以有效地提高跨度的準(zhǔn)確率。該模型通過(guò)結(jié)合邊界識(shí)別和回歸的優(yōu)勢(shì),將謂語(yǔ)中心詞的識(shí)別通過(guò)先確定所在句中位置,再動(dòng)態(tài)調(diào)整跨度的方法,可以有效地識(shí)別出謂語(yǔ)中心詞。
3.4.2 邊界分類的影響
為了驗(yàn)證邊界分類的準(zhǔn)確性對(duì)識(shí)別謂語(yǔ)中心詞性能的影響。本文選用識(shí)別開(kāi)始邊界方法、識(shí)別結(jié)束邊界方法以及同時(shí)識(shí)別開(kāi)始和結(jié)束邊界方法進(jìn)行了對(duì)比實(shí)驗(yàn)。在測(cè)試集上的實(shí)驗(yàn)結(jié)果如圖2所示。
識(shí)別開(kāi)始邊界方法只單獨(dú)識(shí)別謂語(yǔ)的開(kāi)始邊界字的位置,然后作為跨度的開(kāi)始位置生成候選跨度集。識(shí)別結(jié)束邊界方法則是只識(shí)別結(jié)束邊界字的位置并生成候選跨度集,而開(kāi)始和結(jié)束邊界同時(shí)識(shí)別則是將兩者同時(shí)生成跨度組成候選跨度集。開(kāi)始和結(jié)束邊界同時(shí)識(shí)別的方法相比只識(shí)別開(kāi)始邊界方法在測(cè)試集的實(shí)驗(yàn)結(jié)果的F值提高了0.66 個(gè)百分點(diǎn),并且與只識(shí)別結(jié)束邊界方法在測(cè)試集的F值提高了0.3 個(gè)百分點(diǎn)。該實(shí)驗(yàn)驗(yàn)證了對(duì)不同邊界分類的準(zhǔn)確性會(huì)提高生成跨度的質(zhì)量,從而提高識(shí)別謂語(yǔ)中心詞的性能。
3.4.3 跨度生成策略的影響
為了驗(yàn)證跨度生成方式對(duì)識(shí)別謂語(yǔ)中心詞性能的影響,本文選用三種方式進(jìn)行對(duì)比實(shí)驗(yàn)。其中一種為枚舉跨度方法。另外兩種是通過(guò)識(shí)別的邊界篩選跨度方法:邊界過(guò)濾跨度方法和邊界生成跨度方法。
邊界過(guò)濾跨度方法采用的是枚舉所有的跨度。以識(shí)別出的邊界字為中心,將跨度開(kāi)始邊界位置大于等于邊界且結(jié)束邊界位置小于等于邊界的跨度組成候選跨度集。邊界生成跨度方法是以識(shí)別為開(kāi)始邊界字的位置作為跨度的開(kāi)始邊界,從預(yù)設(shè)的長(zhǎng)度集合中選取不同位置的結(jié)束邊界組成跨度。然后以識(shí)別為結(jié)束邊界字的位置作為跨度的結(jié)束邊界,以同樣的集合,選取不同的開(kāi)始邊界組成跨度,再將兩者生成的跨度去重,生成候選跨度集。在測(cè)試集上的實(shí)驗(yàn)結(jié)果如表3所示。
經(jīng)統(tǒng)計(jì)枚舉跨度的數(shù)量是邊界生成跨度數(shù)量的13倍,并且通過(guò)添加邊界識(shí)別模塊篩選的跨度可以有效防止非謂語(yǔ)動(dòng)詞的干擾。邊界生成的跨度相比枚舉的跨度在測(cè)試集上的實(shí)驗(yàn)結(jié)果F值提高了0.30個(gè)百分點(diǎn),驗(yàn)證了邊界識(shí)別模塊的有效性。后兩種方法是依據(jù)邊界篩選跨度的不同策略。雖然兩種方法都減少了跨度的數(shù)量,但邊界過(guò)濾方法的跨度數(shù)量仍然是邊界生成跨度數(shù)量的兩倍,并且邊界過(guò)濾跨度方法篩選出的跨度與真實(shí)謂語(yǔ)中心詞的重疊率較低。因此通過(guò)識(shí)別邊界篩選候選跨度集的方法,選用跨度生成方式更為合適。邊界過(guò)濾跨度與邊界生成跨度方法相比,邊界生成跨度方法在測(cè)試集的實(shí)驗(yàn)結(jié)果的F值提高了0.10 個(gè)百分點(diǎn),證明了邊界生成跨度方法比邊界過(guò)濾跨度方式更加有效。
3.4.4 消融實(shí)驗(yàn)
為了驗(yàn)證邊界回歸模型的有效性,本文設(shè)計(jì)了消融實(shí)驗(yàn),“-邊界識(shí)別”表示去掉邊界識(shí)別模塊,“-跨度回歸”表示去掉跨度回歸模塊。在測(cè)試集上的實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 消融實(shí)驗(yàn)Fig.3 Ablation experiment
模型去掉邊界識(shí)別模塊后,從圖3可以看出會(huì)導(dǎo)致模型F值下降0.30個(gè)百分點(diǎn)。邊界識(shí)別模塊在模型中用于生成跨度,確定謂語(yǔ)中心詞位置。去掉邊界識(shí)別模塊,會(huì)枚舉所有的跨度,無(wú)法避免非謂語(yǔ)動(dòng)詞的干擾并且生成大量的負(fù)樣本,導(dǎo)致正負(fù)樣本不平衡。
模型去掉跨度回歸模塊后,從圖3可以看出模型F值下降0.29 個(gè)百分點(diǎn)??缍然貧w模塊在模型中用于捕獲更多的語(yǔ)義信息,提高跨度準(zhǔn)確性。去掉跨度回歸模塊后無(wú)法捕獲其他語(yǔ)義動(dòng)態(tài)調(diào)整跨度的邊界,降低了跨度的準(zhǔn)確性。因此邊界識(shí)別模塊和跨度回歸模塊在本文的模型中必不可少。
3.4.5 運(yùn)行時(shí)間分析
本文模型通過(guò)邊界識(shí)別模塊可以降低計(jì)算量,減少運(yùn)行時(shí)間。因此在測(cè)試集上進(jìn)行運(yùn)行時(shí)間的測(cè)量,實(shí)驗(yàn)結(jié)果如表4所示,其中“-邊界識(shí)別”表示去掉邊界識(shí)別模塊。
表4 運(yùn)行時(shí)間的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of running time
經(jīng)實(shí)驗(yàn)表明,去掉邊界識(shí)別模塊的模型與包含邊界識(shí)別模塊的模型在同一塊20 GB 的P40GPU 上使用測(cè)試集進(jìn)行測(cè)試,去掉邊界識(shí)別模塊要比包含邊界識(shí)別模塊的運(yùn)行時(shí)間長(zhǎng)80 s,并且包含邊界識(shí)別模塊的模型F值提高了0.30 個(gè)百分點(diǎn)。其原因是邊界識(shí)別模塊會(huì)減少大量的負(fù)樣本,提高跨度的重疊率。
本文提出了一種邊界回歸的方法應(yīng)用于謂語(yǔ)中心詞識(shí)別的任務(wù)。利用邊界識(shí)別生成跨度可以解決正負(fù)樣本不平衡問(wèn)題并且降低計(jì)算量。結(jié)合回歸方法通過(guò)捕獲跨度外部語(yǔ)義調(diào)整跨度的邊界位置,可以提高跨度的準(zhǔn)確性。該模型在裁判文書生成的數(shù)據(jù)集上取得了較好的實(shí)驗(yàn)效果,證明了該模型識(shí)別謂語(yǔ)中心詞的有效性。此外,通過(guò)識(shí)別謂語(yǔ)中心詞可以抽取裁判文書的關(guān)鍵案情信息,以便后續(xù)的案件分析,從而能有效支撐罪名預(yù)測(cè)、法條推薦、輔助量刑等智能化輔助審判工作。該模型對(duì)邊界分類的準(zhǔn)確性有待提升,邊界識(shí)別不準(zhǔn)確將導(dǎo)致產(chǎn)生的跨度與謂語(yǔ)中心詞的偏離較大,進(jìn)一步提高識(shí)別邊界的準(zhǔn)確率是下一步的重點(diǎn)研究工作。