• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合BERT與多尺度CNN的民事糾紛問句意圖分類

      2022-12-06 10:34:12邢義男張娜娜
      關(guān)鍵詞:尺度卷積向量

      邢義男,張娜娜

      1.上海海洋大學(xué) 信息學(xué)院,上海 201306

      2.上海建橋?qū)W院 信息技術(shù)學(xué)院,上海 201306

      隨著互聯(lián)網(wǎng)和社會(huì)經(jīng)濟(jì)的迅速發(fā)展,人們面臨的法律問題越來越多樣化、復(fù)雜化,因此法律顧問業(yè)務(wù)的開展對(duì)社會(huì)的發(fā)展而言,有著至關(guān)重要的作用。然而,現(xiàn)階段法律顧問業(yè)務(wù)開展過程中還是存在各種各樣的問題,比如:聘請(qǐng)率低下,發(fā)展速度過慢,常年法律顧問業(yè)務(wù)創(chuàng)收較低,常年法律顧問律師業(yè)務(wù)水平不足等諸多問題[1]。因此,借助大數(shù)據(jù)和深度學(xué)習(xí)的方法,建立高效、方便的自動(dòng)問答系統(tǒng)能夠有效解決上述問題。問句意圖分類作為問答系統(tǒng)的初始環(huán)節(jié),其能否正確地對(duì)問句意圖進(jìn)行分類會(huì)直接影響到后續(xù)的答案抽取環(huán)節(jié)[2]。民事糾紛問句意圖分類就是借助自然語言的相關(guān)技術(shù)理解問句的意圖,為民事糾紛問句確定一個(gè)意圖類別,從而快速確定問題答案的類別,縮小答案的搜索范圍,提升問答系統(tǒng)的準(zhǔn)確率。目前,民事糾紛問句中存在著長短不一、特征分散、種類繁多的問題,使得機(jī)器難以理解問題的意圖類別。針對(duì)上述問句的特點(diǎn),本文選擇使用預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from transformers)[3],來緩解問句長度短時(shí)造成的語義稀疏的問題;對(duì)于問題信息的提取設(shè)計(jì)了多尺度卷積模塊Text Inception來獲得問題不同層次的信息,相較于循環(huán)神經(jīng)網(wǎng)絡(luò)比如:長短期記憶網(wǎng)絡(luò)(long short-term model,LSTM)和門控循環(huán)單元(gated recurrent unit,GRU),Text Inception速度更快,而且效果更好;此外普通的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)會(huì)因?yàn)榫W(wǎng)絡(luò)變深而出現(xiàn)性能飽和的問題。接著,采用最大池化來獲取句子中的關(guān)鍵語義特征從而排除一些歧義特征,最后通過Softmax對(duì)問句進(jìn)行分類。通過設(shè)計(jì)民事糾紛問句意圖分類模型,本文的貢獻(xiàn)有:(1)自建了一個(gè)民事糾紛問句數(shù)據(jù)集,為后續(xù)的相關(guān)研究提供了參考;(2)針對(duì)該數(shù)據(jù)集,本文基于BERT模型,引入多尺度CNN,設(shè)計(jì)了一個(gè)準(zhǔn)確率高,實(shí)時(shí)性好的民事糾紛問句意圖分類模型,并與其他模型進(jìn)行了對(duì)比分析,側(cè)面印證了本文模型的有效性;(3)本文設(shè)計(jì)了一種新型的多尺度卷積模塊Text Inception,通過實(shí)驗(yàn)證明該模塊特征提取能力更強(qiáng),分類效果更好。

      1 相關(guān)工作

      問句意圖分類是屬于文本分類的問題范疇,一直都是自然語言中的經(jīng)典任務(wù)。國內(nèi)外對(duì)于文本分類的研究主要包括兩大類方法:機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。

      基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,主要是先提取文本的特征向量,然后使用帶標(biāo)簽的文本數(shù)據(jù)建立分類器,最后利用分類器標(biāo)注類別。文獻(xiàn)[4]結(jié)合詞匯特征并使用支持向量機(jī)(support vector machine,SVM)在分類預(yù)測、估計(jì)法律判決日期上取得了不錯(cuò)的結(jié)果。文獻(xiàn)[5]基于TF-IDF(term frequency-inverse document frequency)和TF-IGM(term frequency-inverse gravity moment)詞權(quán)重加權(quán)的方法,結(jié)合改進(jìn)的樸素貝葉斯(native Bayesian,NB)應(yīng)用到泰國民事裁決書分類上。文獻(xiàn)[6]從問題中提取語法和語義信息結(jié)合最大熵模型(maximum entropy,ME)較好地提升了問句分類的準(zhǔn)確率。文獻(xiàn)[7]利用K近鄰算法(K-nearest neighbor,KNN)豐富了原始數(shù)據(jù)的特征空間,應(yīng)用于多標(biāo)簽分類。上述方法,沒有應(yīng)用到深度學(xué)習(xí)方法,具有較大的局限性。

      基于深度學(xué)習(xí)的方法,是基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的一種機(jī)器學(xué)習(xí)方法。神經(jīng)網(wǎng)絡(luò)模型由一系列基本的神經(jīng)元相互連接而成,是通過對(duì)人類大腦的神經(jīng)結(jié)構(gòu)模擬構(gòu)建的一種人工系統(tǒng)[8]。近幾年,神經(jīng)網(wǎng)絡(luò)在自然語言領(lǐng)域取得了極大的進(jìn)展。文獻(xiàn)[9]將問題用預(yù)訓(xùn)練好的詞向量Word2vec[10]進(jìn)行編碼,在簡單的CNN上取得了很好的效果。文獻(xiàn)[11]融合雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)和CNN結(jié)構(gòu)并加入注意力機(jī)制,進(jìn)行提取問句特征進(jìn)行分類。文獻(xiàn)[12]利用深度長短期記憶網(wǎng)絡(luò)的特征映射來捕獲高階非線性特征表示,對(duì)問句進(jìn)行分類。文獻(xiàn)[13]利用自注意力機(jī)制學(xué)習(xí)句子中重要局部特征,并結(jié)合LSTM,應(yīng)用在句子的情感分類上。文獻(xiàn)[14]提出一種融合CNN、Bi-LSTM、Attention的混合模型,該模型同時(shí)考慮不同層次的局部和全局結(jié)構(gòu)信息,在多個(gè)文本分類數(shù)據(jù)集上取得了不錯(cuò)的效果。

      上述文獻(xiàn)為民事糾紛問句意圖的分類提供了一定的參考和研究思路,但是存在以下問題:(1)對(duì)于問句或者文本的建模大多使用Word2vec、Glove[15]等傳統(tǒng)的詞向量,然而這些詞向量忽視了同一詞語不同語境下的多義性,對(duì)文本的表征依然存在局限性;(2)雖然上述神經(jīng)網(wǎng)絡(luò)模型通用性強(qiáng),但是面對(duì)特定領(lǐng)域的民事糾紛問句時(shí)卻不能準(zhǔn)確地獲得文本中的特征,主要原因有民事糾紛問句長短不一,口語化嚴(yán)重,難以捕捉到關(guān)鍵有效的信息;(3)目前CNN、LSTM等神經(jīng)網(wǎng)絡(luò)模型獲取文本的特征有限,相對(duì)于利用大量無監(jiān)督數(shù)據(jù)學(xué)習(xí)的BERT等預(yù)訓(xùn)練模型仍有差距。

      2 模型構(gòu)建

      本文提出了結(jié)合BERT與多尺度CNN的民事糾紛問句意圖分類模型(intent classification of questions in civil disputes combining BERT and multi-scale CNN model,BCNN),應(yīng)用于中文民事糾紛問句意圖分類。該模型主要包括BERT語義編碼層、多尺度卷積層和分類層。

      民事糾紛問句意圖的分類,就是對(duì)給定的問句進(jìn)行語義理解,從而判定其所屬意圖。例如對(duì)于問句“我朋友要離婚了,怎么認(rèn)定夫妻共同債務(wù)?”,首先對(duì)其進(jìn)行預(yù)處理操作,去除其中的特殊符號(hào)等操作。然后,將該問句輸入到BERT語義編碼層進(jìn)行語義編碼、語義補(bǔ)充,來緩解問句短、語義稀疏的問題;接著利用多尺度卷積層中多種尺度的卷積核得到不同尺度的語義特征,比如:“離婚”“夫妻”“共同債務(wù)”等多尺度特征;最后,在分類層對(duì)上一層的特征進(jìn)行最大池化來獲取最優(yōu)特征,使用BatchNorm和ReLU來減少模型的訓(xùn)練難度,通過Softmax進(jìn)行分類得到該問句的具體意圖。

      模型整體架構(gòu)圖如圖1所示:其中X1,X2,…,Xn-1,Xn表示問句輸入向量;接著為BERT語義編碼層,由Transformer編碼器(Trm)組成,T1,T2,…,Tn表示問句輸入向量經(jīng)過BERT的輸出向量;多尺度卷積層是由1×768和3×768、5×768三種尺度的卷積核(Conv)組成,并在中間兩卷積通道上使用了兩層卷積以及批量歸一化處理BatchNorm和ReLU激活函數(shù);分類層由最大池化(Maxpool)、BatchNorm和ReLU激活函數(shù)、Softmax組成。

      圖1 BCNN模型框架Fig.1 BCNN model framework

      2.1 BERT語義編碼層

      BCNN的語義編碼層采用BERT對(duì)輸入長度為n的問句進(jìn)行編碼,可得到n×768的向量。BERT模型采用了兩個(gè)預(yù)訓(xùn)練任務(wù):雙向語言模型和預(yù)測下一段文本,這兩個(gè)任務(wù)均屬于無監(jiān)督學(xué)習(xí)。因此,相比于傳統(tǒng)的詞向量Word2Vec、Glove等,BERT充分考慮了文本的上下文關(guān)系,具有良好的語義多樣性。其結(jié)構(gòu)如圖2所示,其中E1,E2,…,En表示模型的輸入向量,T1,T2,…,Tn表示模型的輸出向量。

      圖2 BERT模型Fig.2 BERT model

      BERT是一個(gè)雙向語言模型,它首先采用了雙向Transformer編碼器,可以同時(shí)接收兩個(gè)方向的文本的輸入,而不是簡單的雙向編碼拼接。其次,BERT使用了掩碼(Masking)機(jī)制:隨機(jī)掩蓋其中15%的詞,其中被打上[MASK]標(biāo)記的詞有80%的概率直接替換為[MASK]標(biāo)簽,10%的概率替換為任意單詞,10%的概率保留原始Token,讓模型預(yù)測被掩蓋的單詞含義。此外,BERT從訓(xùn)練文本中挑選語句對(duì),其中包括連續(xù)的語句對(duì)和非連續(xù)的語句對(duì),讓模型來判斷兩個(gè)語句對(duì)是否具有上下文的語義關(guān)系。

      BERT的輸入一般是給定兩段文本A、B,主要作用是判斷兩段文本之間是否具有上下文關(guān)系。該輸入由Token Embeddings、Segment Embeddings和Position Embeddings三部分疊加起來表示,其結(jié)構(gòu)如圖3所示。其中,Token Embeddings表示單詞嵌入,起始單詞嵌入為E[CLS],分隔符為E[SEP],結(jié)尾單詞嵌入為E[SEP],且兩段文本總的最大長度為512;Segment Embeddings表示分段嵌入,用來區(qū)分A、B兩段文本,即給兩段文本中的單詞分配不同的編碼;Position Embeddings表示位置嵌入,是人為設(shè)定的序列位置向量。

      圖3 BERT的輸入表示Fig.3 Input representation of BERT

      BERT采用了雙向Transformer編碼器[16]作為特征提取器,其結(jié)構(gòu)如圖4所示。Transformer Encoder完全是以多頭注意力機(jī)制作為基礎(chǔ)結(jié)構(gòu),并且具有并行計(jì)算的優(yōu)點(diǎn),見公式(1)~(3):

      圖4 Transformer編碼器Fig.4 Transformer encoder

      其中,Q表示Query向量,K表示Key向量,V表示Value向量,它們分別為輸入向量的映射矩陣,d表示輸入向量的維度,除以可以使得梯度訓(xùn)練更加穩(wěn)定;分別表示Q、K、V的線性變換矩陣;i表示注意力頭的數(shù)量;Wo表示多頭注意力的映射矩陣。

      Transformer Encoder采用位置編碼原理對(duì)輸入的序列進(jìn)行表示,其原理見公式(4)、(5):

      其中,pos表示文本序列中詞語的位置;i表示位置向量中值的索引;dmodel表示位置向量的維度。

      Transformer Encoder利用殘差連接(圖4虛線)和層歸一化(Norm[17])來加速模型的收斂,計(jì)算見公式(6):

      其中,LayerNorm表示層歸一化函數(shù),X表示輸入序列,M表示X經(jīng)過多頭注意力處理后特征。

      2.2 多尺度卷積層

      卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元[18]。CNN具有權(quán)值共享、局部連接、下采樣三個(gè)重要特點(diǎn),在計(jì)算機(jī)視覺和自然語言領(lǐng)域有著重要的應(yīng)用[19]。

      CNN的結(jié)構(gòu)通常是由卷積層、池化層和全連接層組成。卷積層是由多種卷積核組成,它的主要功能是對(duì)圖片或者文本輸入的特征圖進(jìn)行局部特征提取。池化層是由相應(yīng)的池化函數(shù)構(gòu)成,常見的池化有平均池化和最大池化,它的主要功能是將卷積之后特征圖中的局部特征替換為相鄰區(qū)域的特征,既可以提取主要特征,也可以減少特征圖的大小來降低網(wǎng)絡(luò)的復(fù)雜度。全連接層的功能是對(duì)提取的特征進(jìn)行非線性組合。

      CNN為了提取高維度特征,主要是進(jìn)行更深層卷積,但是隨之帶來網(wǎng)絡(luò)變深、性能飽和的問題。因此,谷歌提出的Inception V1[20]卷積模塊使網(wǎng)絡(luò)變寬,減少參數(shù)個(gè)數(shù),提取高維特征。本文針對(duì)民事糾紛問句的特征,參考Inception V1卷積模塊的思想,設(shè)計(jì)了如圖5的TextInception卷積模塊。該結(jié)構(gòu)通過不同尺度的卷積核學(xué)習(xí)問句中不同尺度的信息,將這些多尺度特征進(jìn)行拼接來獲得關(guān)鍵的問句語義特征。

      圖5 Text InceptionFig.5 Text Inception

      Text Inception有4個(gè)卷積通道,3種卷積核,分別為1×768、3×768、5×768。使用這些卷積核的主要目的如下:(1)方便特征對(duì)齊,從而得到相同大小的特征圖,可以順利進(jìn)行Concat。(2)卷積核不同,意味著感受野的大小不同,可以得到不同尺度的特征。(3)采用比較大的卷積核即5×768,因?yàn)橛行﹩柧溥^長時(shí)相關(guān)性可能隔得比較遠(yuǎn),采用大的卷積核能夠?qū)W到較遠(yuǎn)的相關(guān)特征。其中,第一個(gè)卷積通道和最后一個(gè)卷積通道只有一層卷積,目的是減少深層卷積之后信息的流失;第二和第三個(gè)卷積通道是兩層卷積,目的是得到深層的多尺度高維特征;在第二和第三個(gè)通道之間使用了BatchNorm[21]和ReLU[22]的作用是加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。

      Text Inception模塊中所有卷積核的步長均為1;第一通道的卷積核的尺寸為1×768,數(shù)量為256,padding為0;第二通道中第一層卷積核的尺寸為1×768,數(shù)量為256,padding為0,第二層卷積核的尺寸為3×768,數(shù)量為256,padding為1;第三通道中第一層卷積核的尺寸為3×768,數(shù)量為256,padding為1,第二層卷積核的尺寸為5×768,數(shù)量為256,padding為2;第四通道的卷積核的尺寸為3×768,數(shù)量為256,padding為1。將4個(gè)通道的特征拼接在一起可得到一個(gè)256×4=1 024維的問句向量。

      2.3 分類層

      本文在分類層使用Softmax作為特征分類器,來實(shí)現(xiàn)問句的意圖分類。通過Softmax計(jì)算上一層的隱層特征,將該特征轉(zhuǎn)換為不同意圖類別的概率,見公式(7):

      其中,j表示問句分類的標(biāo)簽,本實(shí)驗(yàn)使用了10種類別的問句;q表示問句,w表示模型的訓(xùn)練參數(shù);h表示模型的隱藏層特征;n表示隱藏層特征的數(shù)量。

      模型通過反向傳播進(jìn)行迭代訓(xùn)練,利用自適應(yīng)時(shí)刻估計(jì)梯度優(yōu)化算法(adaptive moment estimation,Adam)[23]進(jìn)行學(xué)習(xí)率的調(diào)整。Adam與其他自適應(yīng)學(xué)習(xí)率算法相比,收斂速度更快,學(xué)習(xí)效果更為有效。模型采用交叉熵?fù)p失函數(shù)進(jìn)行模型的優(yōu)化。其中損失函數(shù)見公式(8):

      其中,D表示訓(xùn)練集大小,N表示問句分類的標(biāo)簽數(shù)量,y?表示真實(shí)問句意圖標(biāo)簽,y表示模型預(yù)測的問句意圖標(biāo)簽。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文采用Scrapy爬蟲框架在法律咨詢網(wǎng)站(http://www.110.com/ask/)上爬取了常見的民事糾紛問句,并對(duì)該數(shù)據(jù)集進(jìn)行清洗、篩選、標(biāo)注等預(yù)處理操作,共得到47 781條數(shù)據(jù)集,每種類別的問句數(shù)量、問句意圖類別、類別樣例,見表1。

      表1 實(shí)驗(yàn)數(shù)據(jù)集分布Table 1 Experimental data set distribution

      3.2 實(shí)驗(yàn)參數(shù)與超參數(shù)

      BERT的預(yù)訓(xùn)練模型常用的有兩種版本分別為BERT-Base和BERT-Large。本實(shí)驗(yàn)使用BERT-Base的中文預(yù)訓(xùn)練模型進(jìn)行實(shí)驗(yàn),此模型有12層,隱藏層的維度為768,12個(gè)注意力頭,包含110×106個(gè)參數(shù)。訓(xùn)練過程的超參數(shù)如表2所示。

      表2 BERT中的超參數(shù)Table 2 Hyper parameters in BERT

      表2中,Max_seq_length表示輸入到BERT的最大問句長度;Train_batch_size表示訓(xùn)練集訓(xùn)練迭代數(shù)據(jù)的數(shù)量;Eval_batch_size表示驗(yàn)證集訓(xùn)練迭代數(shù)據(jù)的數(shù)量;Num_train_epochs表示模型訓(xùn)練迭代的次數(shù),Learning_rate表示模型的學(xué)習(xí)率。

      3.3 實(shí)驗(yàn)環(huán)境

      所有實(shí)驗(yàn)均采用同一個(gè)實(shí)驗(yàn)環(huán)境,實(shí)驗(yàn)環(huán)境參數(shù)如表3所示。

      表3 實(shí)驗(yàn)環(huán)境Table 3 Experimental environment

      3.4 評(píng)價(jià)標(biāo)準(zhǔn)

      本實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)采用的是精確率P(precision)和召回率R(recall)以及F1值,其計(jì)算如公式(9)~(11)所示。其中,精確率P表示所有預(yù)測正確的樣本占數(shù)據(jù)中真正例與錯(cuò)誤預(yù)測正例的樣本中比例;召回率R表示所有預(yù)測正例的樣本占所有真實(shí)正確樣例的比例;為了綜合評(píng)價(jià)模型的指標(biāo)往往采用兩者的調(diào)和平均值F1值。

      其中,TP、FP、TN、FN的含義如表4中混淆矩陣所示。

      表4 混淆矩陣Table 4 Confusion matrix

      3.5 對(duì)比實(shí)驗(yàn)

      實(shí)驗(yàn)選取90%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測試集。為了驗(yàn)證本文提出的BCNN問句意圖分類模型的有效性。本文在同一實(shí)驗(yàn)環(huán)境下,選擇了以下模型進(jìn)行對(duì)比實(shí)驗(yàn):

      (1)SVM:經(jīng)典的機(jī)器學(xué)習(xí)方法,本文采用高斯核來作為核函數(shù)進(jìn)行實(shí)驗(yàn);

      (2)KNN:傳統(tǒng)的機(jī)器學(xué)習(xí)方法,采用聚類的方法找出特征空間中最相鄰的樣本;

      (3)NB:利用貝葉斯公式根據(jù)某一問句的先驗(yàn)概率計(jì)算出其后驗(yàn)概率,然后選擇具有最大后驗(yàn)概率的類作為該問句所屬的類;

      (4)Text_CNN:經(jīng)典的文本卷積分類算法,模型采用Word2Vec作為詞向量表示問句,采用尺寸為(2,3,4)的卷積核進(jìn)行局部特征提取,然后進(jìn)行最大池化,最后全連接后進(jìn)行分類;

      (5)Text_RCNN[24]:該網(wǎng)絡(luò)將Text_CNN網(wǎng)絡(luò)中的卷積層換成了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional recurrent neural network,Bi-RNN),即模型采用Word2Vec作為詞向量表示問句,用Bi-RNN雙向提取問句的特征,再使用最大池化篩選出最優(yōu)特征進(jìn)行分類;

      (6)Text_RNN[25]:模型首先利用Word2Vec作為詞向量表示問句,接著采用Bi-RNN捕捉民事糾紛問句中的語義依賴關(guān)系,確保信息的完整性,以此來提高模型的效果;

      (7)BERT:經(jīng)典的預(yù)訓(xùn)練模型采用大規(guī)模無監(jiān)督語料進(jìn)行訓(xùn)練,在多個(gè)自然語言任務(wù)上都取得了較好的效果;

      (8)BERT+Bi-RNN:模型利用BERT獲得豐富問句的語義特征,在BERT后面加上Bi-RNN進(jìn)行雙向提取問句信息;

      (9)BERT+CNN:模型采用BERT對(duì)問句進(jìn)行語義編碼,然后使用尺寸為(2,3,4)的卷積核進(jìn)行局部特征提取,將提取到的向量進(jìn)行Softmax分類。

      3.6 消融實(shí)驗(yàn)

      為了評(píng)估BCNN模型中不同參數(shù)的影響程度,本文進(jìn)行了消融實(shí)驗(yàn)。通過控制變量的思想分別改變學(xué)習(xí)率,Text Inception卷積模塊的層數(shù),Text Inception卷積模塊的通道數(shù),Text Inception卷積模塊中不同卷積核的大小,Transformer Encoder的注意力頭數(shù)量來找出模型的最優(yōu)參數(shù)。

      (1)學(xué)習(xí)率對(duì)BCNN的影響

      學(xué)習(xí)率是控制模型的收斂速度的主要參數(shù),對(duì)模型的實(shí)驗(yàn)結(jié)果有著很大的影響。因此,在民事糾紛問句分類任務(wù)中,學(xué)習(xí)率按乘以1/10的衰減系數(shù)來分別選取0.000 1,0.000 01,0.000 001進(jìn)行實(shí)驗(yàn),選擇0.000 2作為學(xué)習(xí)率上升時(shí)的一個(gè)參照,實(shí)驗(yàn)結(jié)果見表5。

      表5 不同學(xué)習(xí)率實(shí)驗(yàn)對(duì)比Table 5 Experimental comparison of different learning rates

      由表5可知,Learning rate的取值為0.000 1時(shí),模型的效果最好。當(dāng)Learning rate上升到0.000 2的時(shí)候,模型在P、R、F1值三個(gè)指標(biāo)上分別下降4.04、4.06和4.15個(gè)百分點(diǎn),這是因?yàn)槟P偷膶W(xué)習(xí)率增加使得訓(xùn)練時(shí)無法收斂,導(dǎo)致模型無法找到最優(yōu)解。當(dāng)Learning rate下降到0.000 001的時(shí)候,模型在P、R、F1值三個(gè)指標(biāo)上分別下降8.16、8.4和8.84個(gè)百分點(diǎn),出現(xiàn)了較大幅度的下降,主要原因在于模型的學(xué)習(xí)率下降時(shí),不僅會(huì)導(dǎo)致模型的訓(xùn)練時(shí)間增長同時(shí)會(huì)使模型陷入局部最優(yōu)點(diǎn)。

      (2)Text Inception模塊數(shù)量對(duì)BCNN的影響

      深度學(xué)習(xí)模型在一定層數(shù)下會(huì)隨著模型的深度的加深而增強(qiáng),但超過特定層數(shù)時(shí),會(huì)因?yàn)樘卣鞯牧魇Ф霈F(xiàn)模型效果下降的現(xiàn)象。因此,本文針對(duì)多尺度卷積層,通過設(shè)置Text Inception模塊數(shù)量為1、2、3、4進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表6。

      表6 不同模塊數(shù)量實(shí)驗(yàn)對(duì)比Table 6 Experimental comparison of different module numbers

      由表6可知,Text Inception卷積模塊的數(shù)量為3時(shí),模型的效果最好。當(dāng)模塊的數(shù)量減少到1時(shí),模型在P、R、F1值三個(gè)指標(biāo)上分別下降0.59、0.5和0.53個(gè)百分點(diǎn),這是因?yàn)槟P蛯訑?shù)較小時(shí)尚未擬合,沒有學(xué)習(xí)到最優(yōu)的特征。當(dāng)模塊的數(shù)量增加到4個(gè)時(shí),模型在P、R、F1值三個(gè)指標(biāo)上分別下降1.06、1.05和1.01個(gè)百分點(diǎn),這是因?yàn)槟P蛯訑?shù)較深時(shí),特征出現(xiàn)流失,而使得模型的效果下降。

      (3)Text Inception卷積通道數(shù)對(duì)BCNN的影響

      Text Inception模塊卷積通道的數(shù)量越多,不同通道卷積之后得到的多尺度特征也就會(huì)越多,因此,本文選取了2,3,4,5個(gè)卷積通道來進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表7。

      表7 模塊不同通道數(shù)量實(shí)驗(yàn)對(duì)比Table 7 Experimental comparison of different channel number of modules

      由表7可知,Text Inception模塊的卷積通道數(shù)為4個(gè)時(shí),模型的效果最好。當(dāng)通道數(shù)為2的時(shí)候,模型在P、R、F1值三個(gè)指標(biāo)上分別下降了0.52、0.42和0.45個(gè)百分點(diǎn),這是因?yàn)榫矸e通道的數(shù)量少的時(shí)候,通過多尺度卷積層之后,只能得到2種尺度的特征,從而使得模型的效果出現(xiàn)下降。當(dāng)通道數(shù)為5的時(shí)候,模型在P、R、F1值三個(gè)指標(biāo)上分別下降0.44、0.35和0.39個(gè)百分點(diǎn),這是因?yàn)槎喑叨忍卣鞯脑黾訒?huì)引入其他的干擾特征使得模型的性能下降。

      (4)不同卷積核大小對(duì)BCNN的影響

      Text Inception模塊中卷積核大小的不同會(huì)造成感受野的不同,從而影響模型對(duì)問句不同尺度特征的提取。因此,本文在Text Inception模塊中第一個(gè)通道選取了大小為1的卷積核,第2、3、4通道分別選?。?,3,4)、(1,3,5)、(3,4,5)3種大小的卷積核進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表8。

      表8 不同卷積核大小實(shí)驗(yàn)對(duì)比Table 8 Experimental comparison of different convolution kernel sizes

      由表8可知,卷積核取(1,3,5)時(shí),模型性能最好。當(dāng)卷積核的大小為(2,3,4)、(3,4,5)時(shí),模型的效果出現(xiàn)了不同程度的下降,原因在于盡管卷積核已經(jīng)提取到了大部分特征,但是卻忽略了較小和較大的特征,從而導(dǎo)致模型性能的下降。

      (5)不同注意力頭數(shù)對(duì)BCNN的影響

      Transformer Encoder中采用了Multi-Head Attention機(jī)制可以從不同角度學(xué)習(xí)問句中的語義信息,注意力頭數(shù)的不同會(huì)很大程度影響模型的學(xué)習(xí)效果。因此,本文針對(duì)Transformer Encoder的多頭注意力數(shù)量,分別選取了6、8、12、16個(gè)注意頭數(shù)來進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見表9。

      由表9可知,注意力頭數(shù)為12時(shí)模型的效果最好。當(dāng)注意力頭的數(shù)量為6時(shí),模型的效果最差,主要原因在于注意力頭數(shù)較少時(shí),模型忽略了問句中不同部分的語義信息。當(dāng)注意力頭的數(shù)量增加到16的時(shí)候,模型在P、R、F1值三個(gè)指標(biāo)上分別下降1.08、0.92和1.02個(gè)百分點(diǎn),這是因?yàn)槟P妥⒁饬︻^數(shù)過多會(huì)使頭與頭捕捉的信息產(chǎn)生冗余從而干擾模型的性能。

      表9 不同注意力頭數(shù)實(shí)驗(yàn)對(duì)比Table 9 Experimental comparison of different number of attention head

      3.7 實(shí)驗(yàn)結(jié)果與分析

      在民事糾紛數(shù)據(jù)集上選擇了SVM、KNN、NB、Text_CNN、Text_RCNN、Text_RNN、BERT、BERT+Bi-RNN、BERT+CNN多種機(jī)器學(xué)習(xí)與深度學(xué)習(xí)模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表10。其中選取經(jīng)典的機(jī)器學(xué)習(xí)方法SVM以及深度學(xué)習(xí)方法Text_CNN與BERT作為基線模型。F1值更能反映出模型的效果,因此,表11為不同模型在不同問句意圖類別的F1值。

      表10 不同模型實(shí)驗(yàn)結(jié)果Table 10 Experimental results of different models

      由表10、表11可以看出,本文提出的結(jié)合BERT與多尺度CNN的民事糾紛問句意圖分類模型BCNN在民事糾紛數(shù)據(jù)集上取得了較好的效果。此外,與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)方法整體上在問句類別上表現(xiàn)優(yōu)異。但是機(jī)器學(xué)習(xí)方法在訓(xùn)練時(shí)間和測試時(shí)間上要優(yōu)于深度學(xué)習(xí)方法。

      表11 不同方法在各個(gè)意圖類別中的F1值比較Table 11 Comparison of F1 values in different intention classification in different methods 單位:%

      在機(jī)器學(xué)習(xí)中SVM的效果要明顯優(yōu)于KNN與NB,在P、R、F1值三個(gè)指標(biāo)上分別達(dá)到了83.60%、81.81%、82.38%的效果。這表明SVM采用最大化分類邊界的思想更加適用于小樣本數(shù)據(jù)集。其中SVM的訓(xùn)練時(shí)間要長于KNN、NB,主要原因在于問句種類較多,SVM的核函數(shù)很難找到收斂的超平面,而SVM的分類效果是三者中最好的,測試時(shí)間也不錯(cuò)。

      深度學(xué)習(xí)方法中,Text_CNN和Text_RNN相比,Text_CNN要明顯好于Text_RNN,在P、R、F1值三個(gè)指標(biāo)上分別高出5.48、6.93和6.85個(gè)百分點(diǎn),這表明CNN的局部抽取特性更有助于模型學(xué)習(xí)到較好的類別特征,從而提升模型的性能。而Text_CNN的訓(xùn)練時(shí)間相對(duì)于Text_RNN較長主要原因在于Text_CNN采用3種卷積核進(jìn)行卷積相對(duì)于Text_RNN參數(shù)量更大,因此訓(xùn)練時(shí)間較長。Text_RCNN與Text_RNN模型相比,Text_RCNN的性能明顯要好于Text_RNN,原因在于Text_RCNN使用Bi-RNN提取信息之后采用了最大池化來進(jìn)行選取較好的類別特征。因此,選用能夠提取局部重要特征的CNN或者最大池化能夠有效提升模型的性能。Text_RCNN相比于Text_RNN、Text_CNN的訓(xùn)練時(shí)間最短,主要原因在于Text_RCNN的結(jié)構(gòu)為單層RNN和一層最大池化,結(jié)構(gòu)最簡單,因此訓(xùn)練時(shí)間最短。此外,BERT在精確率上比Text_CNN、Text_RNN、Text_RCNN分別高出0.35、2.08、5.83個(gè)百分點(diǎn)。這表明了BERT對(duì)于表征問句的語義有著較好的效果,但是BERT的結(jié)構(gòu)復(fù)雜層數(shù)較多參數(shù)量大訓(xùn)練時(shí)間較長。對(duì)比BERT+CNN與Text_CNN、BERT+Bi-RNN,BERT+CNN在P、R、F1值三個(gè)指標(biāo)上都要優(yōu)于兩者,原因在于民事糾紛問句長度不會(huì)過長,無用的信息相對(duì)較少,采用BERT進(jìn)行語義編碼可以對(duì)問句進(jìn)行語義補(bǔ)充,CNN的局部信息提取特性更加適用于短句。盡管BERT、BERT+CNN、BERT+Bi-RNN,BCNN的訓(xùn)練時(shí)間較長,但是它們的效果較好,測試時(shí)間是毫秒級(jí)的,實(shí)時(shí)性也不錯(cuò)。由表11可知在房產(chǎn)糾紛和拆遷安置等類上BERT+CNN的提升效果并不明顯,而BCNN明顯要優(yōu)于BERT+CNN的效果,主要原因在于BCNN采用了Text Inception進(jìn)行多尺度卷積,卷積層數(shù)更深,Text Inception采用了4個(gè)通道和3種類型的卷積核進(jìn)行卷積,相比于單層CNN能夠獲得更多尺度的特征。

      通過對(duì)比各個(gè)模型在同一數(shù)據(jù)集上的實(shí)驗(yàn)效果可以看出本文提出的BCNN模型效果最好。針對(duì)民事糾紛問句長短不一、特征分散、種類繁多的特點(diǎn),采用BCNN能夠有效地提取問句特征信息,主要原因在于BERT能夠豐富問句語義信息彌補(bǔ)問句特征分散的不足,Text Inception多尺度、多通道的卷積特性能夠有效提取不同尺度問句的特征,從而提升了模型的整體性能。

      BCNN結(jié)合了BERT、多尺度CNN的優(yōu)點(diǎn)在P、R、F1值三個(gè)指標(biāo)上分別取得了87.41%、87.52%、87.39%的效果,都要優(yōu)于目前主流的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,在測試時(shí)間上也表現(xiàn)優(yōu)秀,能夠?yàn)楹罄m(xù)的問答系統(tǒng)提供有效的支持。

      4 結(jié)束語

      本文通過分析民事糾紛問句中存在的長短不一、特征分散、種類繁多的特點(diǎn),提出了一種用于問句意圖分類的模型BCNN。該模型,首先用BERT進(jìn)行語義補(bǔ)充和語義編碼,緩解了民事糾紛問句特征分散的問題;接著采用Text Inception卷積模塊進(jìn)行多尺度卷積,通過組合不同尺度的問句特征得到更加豐富的語義特征信息,進(jìn)而提升民事糾紛問句分類的效果。實(shí)驗(yàn)結(jié)果表明,該模型與傳統(tǒng)的機(jī)器學(xué)習(xí)方法、經(jīng)典的深度學(xué)習(xí)方法相比效果提升顯著,為民事糾紛問句分類提供了參考。在下一步的研究工作中,考慮引入知識(shí)圖譜來擴(kuò)充問句的語義,提升民事糾紛問句分類的效果。

      猜你喜歡
      尺度卷積向量
      向量的分解
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      9
      临高县| 徐闻县| 吉木萨尔县| 改则县| 崇阳县| 马山县| 外汇| 湟中县| 长宁区| 巴林右旗| 敦化市| 中西区| 古丈县| 崇州市| 崇左市| 黄石市| 措勤县| 东乡| 内丘县| 临颍县| 邮箱| 原平市| 陇南市| 平邑县| 广河县| 邯郸市| 洛阳市| 错那县| 汤原县| 西乌珠穆沁旗| 吴川市| 迁安市| 永宁县| 北安市| 五寨县| 十堰市| 交城县| 海口市| 宁安市| 磴口县| 盐池县|