• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向科技情報分析的知識庫構(gòu)建方法

      2022-11-20 13:57:20王紅濱
      計算機工程與應(yīng)用 2022年22期
      關(guān)鍵詞:選擇器分類器實體

      王 勇,江 洋,王紅濱,侯 莎

      1.哈爾濱工程大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,哈爾濱 150001

      2.中國船舶集團有限公司 第七一四研究所,北京 100101

      信息時代的計算機技術(shù)迅猛發(fā)展,利用網(wǎng)絡(luò)能獲取大量的信息,這些信息包含方方面面,數(shù)據(jù)量大,結(jié)構(gòu)多變,很難直接進行理解和應(yīng)用,如何從這些信息中快速而準確地分析出有用的信息顯得尤為重要。信息抽取技術(shù)[1]在一定程度上解決了海量數(shù)據(jù)的提取問題,但是抽取出來的信息仍然很難進行人為的分析和管理,而知識庫(knowledge base)[2-4]作為知識的集合體,在智能信息處理中起著十分重要的作用。知識庫構(gòu)建的核心之一就是針對大量的信息進行實體抽取和實體關(guān)系抽取。

      1 相關(guān)工作

      傳統(tǒng)的實體抽取方法有基于規(guī)則的方法。規(guī)則采用手工編寫的方式,將文本與規(guī)則進行匹配來進行實體的識別。但是這種方式需要大量的語言學(xué)知識才能構(gòu)建規(guī)則,費時費力。其次,有基于統(tǒng)計機器學(xué)習(xí)的方法。這種方法將實體抽取視作序列標注任務(wù),利用大規(guī)模語料學(xué)習(xí)出標注模型,從而對句子進行標注。

      隨著硬件技術(shù)的提升和詞的分布式表示的出現(xiàn),神經(jīng)網(wǎng)絡(luò)成為有效解決自然語言處理任務(wù)的模型。實體抽取大多轉(zhuǎn)化為序列標注任務(wù),通俗來講就是從一段自然語言文本中找出相關(guān)實體,并且標注出其位置和類型。Pappu等[5]提出了一個輕量級的多語言實體抽取方式,實現(xiàn)了高精度的實體抽取,并且降低了內(nèi)存占用。Bartoli等[6]考慮從非結(jié)構(gòu)化文本中以正則表達式的形式自動生成實體提取器,提出了一種主動學(xué)習(xí)方法,可以最大限度地減少用戶注釋的工作量。Yadav等[7]基于生物醫(yī)學(xué)語料對實體進行抽取,利用深度學(xué)習(xí)和粒子群優(yōu)化的概念,提出了一種新穎的用于實體抽取的特征選擇方法。馮蘊天等[8]利用深度信念網(wǎng)絡(luò)對神經(jīng)網(wǎng)絡(luò)語言模型進行了擴展,提出了一種可用于命名實體識別的深層架構(gòu)。

      關(guān)系抽取的主要任務(wù)是從文本中對實體進行識別并抽取實體間的語義關(guān)系。主流的關(guān)系抽取技術(shù)有:有監(jiān)督的學(xué)習(xí)方法、半監(jiān)督的學(xué)習(xí)方法和無監(jiān)督的學(xué)習(xí)方法。與其他兩種方法相比,有監(jiān)督的學(xué)習(xí)方法準確率和召回率更高,能夠?qū)W習(xí)更有效的特征。有監(jiān)督的學(xué)習(xí)方法將實體間的關(guān)系抽取視為分類任務(wù),根據(jù)訓(xùn)練語料學(xué)習(xí)各分類模型,然后使用訓(xùn)練好的模型對關(guān)系進行抽取。

      Dewi等[9]對關(guān)系抽取中的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)進行改進,提出了Deep-CNN模型,擴展了CNN的深度。Miwa等[10]提出了在LSTMRNN(long short term memory-recurrent neural network)上堆疊樹狀結(jié)構(gòu)的LSTM-RNN的端到端的模型,同時提取實體與實體之間的關(guān)系。Xu等[11]提出一個基于神經(jīng)網(wǎng)絡(luò)的關(guān)系提取器,并將其用于知識問答系統(tǒng)上。Gupta等[12]引入表格填充多任務(wù)回歸神經(jīng)網(wǎng)絡(luò)(table filling multi-task recurrent neural network,TF-MTRNN)模型,將實體識別和關(guān)系分類任務(wù)簡化為填表問題并模擬它們的依賴關(guān)系。對遠程監(jiān)督容易受到嘈雜標簽影響的局限性,遠程監(jiān)督假設(shè)擁有相同實體對的句子都描述同一種關(guān)系,這種方法只能進行袋級分類,而不能抽取出實體與句子之間的映射。

      2 基于神經(jīng)網(wǎng)絡(luò)的實體抽取

      對中文實體抽取的研究大多在詞級別,受近期深度學(xué)習(xí)的啟發(fā),基于字的序列標注在不降低性能的情況下簡化了任務(wù)。但是字的語義信息往往比詞的語義信息薄弱,在保留字信息的同時又引入了詞的語義信息,即把詞向量作為字的附加特征,這樣可以加強字的語義信息。Encoder-Decoder是深度學(xué)習(xí)中常見的一個模型框架,應(yīng)用非常廣泛。采用雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BiLSTM)[13-15]對文本進行編碼,用長短期記憶網(wǎng)絡(luò)(LSTMd)進行解碼。為了提高模型的性能,采用了Attention機制,不要求編碼器將所有輸入信息都編碼成一個固定長度的向量之中,只需要將輸入編碼成一個向量的序列。綜上,提出了CWATTBiLSTM-LSTMd(character word attention-bidirectional long short-term memory-long short-term memory)模型。圖1給出了該模型的基本結(jié)構(gòu)圖。

      由圖1可以看出,CWATT-BiLSTM-LSTMd模型包含一個BiLSTM層來對輸入句子進行編碼和一個加入Attention機制的LSTMd解碼層。采用BILOU標注策略,B即Begin,表示開始,I即Inside,代表中間,L即Last,代表結(jié)尾,O即Outside,用于標記無關(guān)字符,U即Unit,代表單元字符。每個實體標簽代表實體類型和字在實體中的位置。模型的輸入是一串字的序列,需要對句子進行分詞,通過嵌入層將每個字映射為低維稠密的實數(shù)值向量,并且將其與字所在詞的詞向量拼接起來,將拼接之后的向量作為字的最終嵌入。之后經(jīng)過一個BiLSTM層,自動提取句子特征,將正向LSTM輸出的隱狀態(tài)序列和反向LSTM輸出的隱狀態(tài)序列通過激活函數(shù)得到完整的隱狀態(tài)序列。最后通過加入Attention機制的LSTMd解碼層來生成標簽序列。下面將詳細講解如何用這個模型進行實體抽取。

      2.1 嵌入層

      在自然語言處理中,詞嵌入是一種流行的技術(shù),它將單詞映射到相對較低維的空間中。用詞嵌入表示連續(xù)低維空間中的詞,可以捕獲詞的語義或者語法屬性:相似的詞具有類似的低維向量表示?;谧中蛄泻突谠~序列是實體抽取的兩種方法,這兩種方法各有優(yōu)劣。基于字的實體抽取簡化了任務(wù),但字的語義信息不如詞的語義信息豐富;基于詞的實體抽取需要預(yù)先對句子進行分詞處理,比較依賴分詞的準確率。同時引入字向量和詞向量,在保留字信息的同時又附加了詞的語義信息,將經(jīng)過分詞后訓(xùn)練得到的詞向量作為字信息的附加特征。模型對當前字序列進行標注時,詞向量的加入可以告知其附加的語義信息,這樣增強了字序列中字的語義信息,在一定程度上減少了一字多義產(chǎn)生的語義混淆。

      給定一觀測序列c={c1,c2,…,ct,ct+1,…,cn},序列長度為n。首先對觀測序列進行分詞處理,對于觀測序列第t個字ct,將ct所在詞wt作為字ct的特征。定義embct為第t個字ct的字嵌入,embwt為該字所在詞wt的詞嵌入,然后將首尾拼接得到的向量[embct,embwt]作為最終結(jié)果嵌入xt。

      2.2 BiLSTM編碼層

      嵌入層將獨熱(one-hot)表示的字轉(zhuǎn)換為嵌入向量。編碼層使用來自嵌入層的向量用線性序列表示字序列,該層可以表示語義上下文信息。一個字序列可以表示為X={x1,x2,…,xt,xt+1,…,xn},其中xt∈Rd對應(yīng)于句子中第t個字的d維向量嵌入,n是給定句子的長度。在嵌入層之后緊接著編碼層,編碼層有兩個平行的LSTM層:前向LSTM層和后向LSTM層。LSTM體系結(jié)構(gòu)由一組循環(huán)連接的子網(wǎng)組成,稱為記憶塊,每個時間步是一個LSTM記憶塊。BiLSTM編碼層中的LSTM記憶塊被用來計算當前隱藏向量ht。

      第t個字的LSTM記憶塊由一組n維矢量組成:輸入門it、遺忘門ft、輸出門ot、記憶單元ct和隱藏向量ht。LSTM記憶塊接收n維的輸入向量xt、前一時刻的隱藏向量ht-1和前一時刻的記憶單元ct-1,然后用以計算當前隱藏向量ht。計算當前隱藏向量ht的詳細操作如式(1)~(6)所示。

      其中,σ表示sigmoid函數(shù),⊙表示點乘,W是權(quán)值矩陣,b是偏差向量。it、ft和ot分別表示輸入門、遺忘門和輸出門,輸入門和遺忘門的輸入都是[xt,ht-1,ct-1],輸出門的輸入是[xt,ht-1,ct],然后要經(jīng)過一個激活函數(shù),把值縮放到[0,1]附近,使用tanh作為激活函數(shù)。ct是記憶單元,由t時刻遺忘門的輸出、t-1時刻記憶單元的輸出、t時刻輸入門的輸出和經(jīng)過激活函數(shù)計算的zt得到。如果遺忘門ft取值為0,那么前一時刻的狀態(tài)就會被全部清空,只關(guān)注此時刻的輸入。輸入門it決定是否接受此時刻的輸入,最后輸出門ot決定是否輸出單元狀態(tài)。

      對于每個字xt,前向LSTM層將通過考慮從字x1到xt的上下文信息來編碼xt,其被記為,以類似的方式,后向LSTM層將基于從xn到xt的上下文信息來編碼xt,其被記為,最后,連接和來作為第t個字的編碼信息,記為ht=[],并將其傳入下一層。

      2.3 LSTMd解碼層

      在BiLSTM編碼層,d1維隱藏向量ht=[h→t;h←t]表示輸入序列X中第t個字的編碼輸出。令Mt為包含序列X中每個字的連接雙向BiLSTM輸出的矩陣。Mt是一個ln×d2矩陣,其中l(wèi)n是序列X中字的數(shù)目,d2是BiLSTM中連接隱藏向量的維度。令mit表示Mt的第i行,令P是d1×d2維的參數(shù)矩陣,p是長度為d2的偏差向量。通過式(7)~(9)計算Attention上下文向量at。

      計算得出Attention上下文向量at之后,將其附加到隱藏向量ht以獲得連接向量ut,連接向量ut=[at;ht]。使用LSTM結(jié)構(gòu)來顯式建模標簽交互。當生成字xt的標簽時,LSTMd解碼層的輸入是:從BiLSTM編碼層并經(jīng)過Attention機制獲得的連接向量ut,前一個預(yù)測標簽矢量Tt-1,前一個記憶單元c(2)t-1和解碼層中前一個隱藏向量h(2)t-1。解碼層LSTMd內(nèi)存塊的結(jié)構(gòu)圖如圖2所示。

      LSTMd的內(nèi)存塊也擁有三個門,分別是輸入門、遺忘門和輸出門。解碼層的詳細操作如式(10)~(15)所示。

      其中,σ表示sigmoid函數(shù),⊙表示點乘,W是權(quán)值矩陣,b是偏差向量。i(2)t、f(2)t和o(2)t分別表示輸入門、遺忘門和輸出門,輸入門和遺忘門的輸入都是[ut,h(2)t-1,Tt-1],輸出門的輸入是[ut,h(2)t-1,c(2)t]。ut表示Attention連接向量,h(2)t-1表示解碼層中前一個隱藏向量,Tt-1表示前一個預(yù)測標簽矢量,c(2)t表示當前記憶單元。當前隱藏向量h(2)t由輸出門o(2)t和經(jīng)過tanh激活函數(shù)的記憶單元c(2)t得到。預(yù)測標簽矢量Tt從隱藏向量h(2)t的變換如式(16)所示。

      其中,W是權(quán)值矩陣,b是偏差向量。得到預(yù)測標簽矢量Tt之后,最終經(jīng)過一個softmax層來計算標準化的實體標簽概率pit,通過式(17)和式(18)計算。

      其中,Wy是softmax矩陣,Nt是實體標簽總數(shù)。在解碼過程中,使用當前字的預(yù)測標簽來預(yù)測下一個字的標簽,以便將標簽依賴性考慮在內(nèi),比如標簽O之后不可能跟標簽I-LOC。因為T與標簽嵌入類似,并且LSTM能夠?qū)W習(xí)長期依賴性,這種方式可以模擬標簽交互。

      3 基于強化深度學(xué)習(xí)的實體關(guān)系抽取

      關(guān)系抽取也是構(gòu)建知識庫的重要環(huán)節(jié),在實體抽取完成之后需要對實體之間的關(guān)系進行抽取以構(gòu)建三元組。針對遠程監(jiān)督的局限性,提出了RL-TreeLSTM模型,這是一個采用強化深度學(xué)習(xí)的實體關(guān)系抽取模型,能夠有效降低數(shù)據(jù)噪聲。RL-TreeLSTM模型不從傳統(tǒng)的袋級層面考慮問題,而從句子層面來考慮問題,它包含一個選擇器和一個分類器,選擇器通過強化學(xué)習(xí)的方式選擇高質(zhì)量的句子,并將所選語句輸入到關(guān)系分類器中,分類器進行句級測評并向選擇器回饋獎勵(reward)。分類器采用TreeLSTM來實現(xiàn),通過句法分析和LSTM結(jié)合的方式來進行實體關(guān)系的抽取。與傳統(tǒng)的自底向上的TreeLSTM不同,采用雙向的TreeLSTM結(jié)構(gòu),即加入了自頂向下的方向,這種結(jié)構(gòu)不僅傳播來自葉子的信息,還傳播來自根的信息。

      將實體關(guān)系抽取分解成兩個子問題:實例選擇和關(guān)系分類。在選擇器中,每個句子di都有相應(yīng)的動作ai來指定是否將句子di選作分類器的訓(xùn)練實例。狀態(tài)si由當前句子di表示,{d1,d2,…,di-1}是已經(jīng)被選作訓(xùn)練實例的句子,句子di包含實體對e1i和e2i。選擇器根據(jù)隨機策略對給定當前狀態(tài)的動作進行采樣。分類器選擇TreeLSTM來確定給定句子中實體對的語義關(guān)系。選擇器將訓(xùn)練數(shù)據(jù)提取到分類器以訓(xùn)練TreeLSTM網(wǎng)絡(luò),同時,分類器向選擇器提供反饋以改進策略函數(shù)。在選擇器的幫助下,模型直接過濾掉有噪聲的句子,分類器在過濾后的數(shù)據(jù)上進行句子級別的訓(xùn)練和測試。模型的基本結(jié)構(gòu)如圖3所示。

      由圖3可以看出,實例選擇器根據(jù)策略函數(shù)選擇語句,然后使用這些選擇的語句來訓(xùn)練關(guān)系分類器,之后從分類器中計算出獎勵,通過獎勵(reward)函數(shù)對選擇器的參數(shù)進行更新。

      3.1 選擇器

      關(guān)于實例選擇問題表述如下:定義D={(d1,r1),(d2,r2),…,(dn,rn)},(di,ri)是<句子,關(guān)系標簽>對。其中,di是擁有實體對(e1i,e2i)的句子,ri是由遠程監(jiān)督產(chǎn)生的有噪關(guān)系標簽。選擇器的目標是確定哪個句子真正描述了這種關(guān)系,且應(yīng)該被選作訓(xùn)練實例。關(guān)于關(guān)系分類問題表述如下:給定句子di和句子di所提及的實體對(e1i,e2i),關(guān)系分類的目標是預(yù)測句子di中的語義關(guān)系ri。

      將實例選擇作為強化學(xué)習(xí)問題。選擇器是agent,agent與環(huán)境互相交互,環(huán)境由數(shù)據(jù)和分類器組成。選擇器的agent遵循一個策略,來決定每個狀態(tài)(state)的動作(action)。狀態(tài)包含當前語句、所選句子集合和實體對。動作是選擇當前語句與否,當所有的實例選擇結(jié)束時,從最終狀態(tài)的關(guān)系分類器向agent返回一個獎勵(reward)。只有當所有訓(xùn)練實例的選擇都完成時,agent才能從分類器獲得延遲獎勵。因此,當掃描完整個訓(xùn)練實例時,只能更新一次策略函數(shù),這顯然很低效。

      為了提高訓(xùn)練過程的效率,得到更多的反饋信息,將訓(xùn)練句子實例D={d1,d2,…,dn}分解為N袋B={B1,B2,…,BN},完成一個袋的語句選擇時計算獎勵(reward)。每一袋對應(yīng)著不同的實體對,每個袋Bk是具有相同關(guān)系標簽rk的句子的序列{d1k,d2k,…,d|k Bk|},但是關(guān)系標簽是有噪聲的。根據(jù)策略函數(shù)定義動作(action)為是否選擇當前語句,一旦一個袋子完成了選擇就計算獎勵(reward)。當實例選擇器的訓(xùn)練過程完成時,將每個袋子中的所有選擇句子合并以獲得清潔的數(shù)據(jù)集X^。然后,清理后的數(shù)據(jù)將用于訓(xùn)練句子級別的分類器。下面從強化學(xué)習(xí)的狀態(tài)(state)、動作(action)和獎勵(reward)三方面來介紹其中某個袋的學(xué)習(xí)過程。

      (1)狀態(tài)

      當對袋B的第i個句子進行決策時,狀態(tài)si代表當前語句、所選句子集合和實體對。將狀態(tài)表示為連續(xù)實值向量F(si)。F(si)編碼了以下信息:

      ①用于關(guān)系分類的當前句子的向量表示;

      ②所選句子集的表示,它是所有選定句子的向量表示的平均值;

      ③句子中兩個實體的向量表示,從預(yù)訓(xùn)練的查找表中獲得。

      (2)動作

      定義一個動作ai={0,1},用以指示選擇器是否選擇袋B的第i個句子,ai取值為1表示選擇這個句子,ai取值為0表示過濾掉這個句子。通過其策略函數(shù)πΘ(si,ai)來對ai的取值進行選擇,其中Θ是要學(xué)習(xí)的參數(shù)。在這項實例選擇的任務(wù)中,定義的策略函數(shù)如式(19)所示。

      其中,F(xiàn)(si)是狀態(tài)特征向量,σ(·)是sigmoid函數(shù),參數(shù)是Θ={W,b}。

      (3)獎勵

      獎勵函數(shù)是所選句子效用的指標。對于某個袋B={d1,d2,…,d||B},模型為每個句子選取一個動作,以確定是否應(yīng)該選擇當前句子。假定該模型在完成所有選擇時具有最終獎勵,因此只有在最終狀態(tài)時才會收到延遲獎勵,其他狀態(tài)的獎勵為0。獎勵函數(shù)的定義如式(20)所示。

      其中,^是已選語句的集合,是B的子集,r是袋B的關(guān)系標簽。p(r|dj)表示句子dj的關(guān)系分類標簽為r的概率,取值由分類器來計算。對于特殊情況B^=?,即袋B中所有句子中實體對的關(guān)系均與袋子的關(guān)系標簽不符合,將獎勵設(shè)置為訓(xùn)練數(shù)據(jù)中所有句子的平均似然值,這使得實例選擇器模型能夠有效地排除噪聲包。

      3.2 分類器

      在RL-TreeLSTM模型中,實體關(guān)系的抽取由分類器來實現(xiàn)。選擇器通過策略函數(shù)決定是否選擇當前句子,之后將選擇的句子傳入分類器,在關(guān)系分類器中,用依存樹和LSTM結(jié)合的TreeLSTM模型來預(yù)測關(guān)系。TreeLSTM模型用以抽取依存樹中的一對目標詞之間的關(guān)系,如圖4所示。

      由圖4可知,輸入句子通過句法分析構(gòu)造成一棵依存樹,每個樹節(jié)點是一個LSTM單元。箭頭表示沿著依存樹的自底向上和自頂向下的計算,模型會得到來自兩個方向的隱藏向量↑ha、↑hb、↓ha和↓hb。

      該模型主要關(guān)注依存樹中一對目標詞之間的最短路徑,即兩個目標詞之間擁有最小公共節(jié)點的路徑。采用雙向樹狀結(jié)構(gòu)的LSTM,通過捕獲目標詞對周圍的依存結(jié)構(gòu)來表示一個關(guān)系候選。雙向即自底向上和自頂向下兩個方向,這種雙向結(jié)構(gòu)不僅傳播來自葉子的信息,還傳播來自根的信息。對于樹狀結(jié)構(gòu)的LSTM模型而言,在關(guān)系抽取中尤為重要的一點就是利用靠近依存樹底部的參數(shù)節(jié)點。與標準的自底向上的TreeLSTM模型不同,提出的自頂向下的TreeLSTM將樹頂部的信息發(fā)送到近葉節(jié)點中。

      實體關(guān)系抽取解決了原始文本中目標實體對之間的關(guān)系分類問題,它也是構(gòu)建復(fù)雜知識庫的重要處理步驟。對于每個關(guān)系候選者,通過實體對之間的路徑形成依存樹結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)接收從依存樹層輸出的關(guān)系候選向量,并且預(yù)測其關(guān)系標簽。當檢測到實體錯誤或者實體對沒有關(guān)系時,將這一實體對作為“NA”處理。

      通過TreeLSTM從兩種序列中提取特征。每個LSTM單元的輸入是三部分的串聯(lián),輸入wt通過式(21)計算。

      其中,ht表示相應(yīng)序列層中的隱藏向量,v(d)t表示依存類型的嵌入向量,是對父項的依存類型,v(T)t表示實體標簽嵌入向量。沿著自底向上序列所計算的最后LSTM單元輸出表示為↑ha和↑hb,沿著自頂向下序列所計算的最后LSTM單元輸出表示為↓ha和↓hb,目標詞的順序?qū)?yīng)著關(guān)系的方向,而不是句子中的位置。

      和實體抽取的網(wǎng)絡(luò)類似,也是用一個具有n維的隱藏層h(r)和softmax層的兩層神經(jīng)網(wǎng)絡(luò),輸入源的所有矢量被拼接在一起,然后在隱藏層中計算輸出h(r),softmax層計算關(guān)系預(yù)測的概率p(r|d),通過式(22)和式(23)計算。

      其中,W表示權(quán)值矩陣,b表示偏差向量。在預(yù)測時為每個實體對分配兩個標簽,因為考慮了從上到下和從下到上兩個方向。當預(yù)測標簽不一致時,選擇正面且更可靠的標簽。

      4 實驗結(jié)果與分析

      4.1 數(shù)據(jù)集選取和評價指標

      實驗采用搜狗實驗室搜集的來自若干新聞網(wǎng)站的科技頻道的新聞數(shù)據(jù)來驗證模型的有效性,數(shù)據(jù)集保存了科技情報新聞的正文文體,主要是非結(jié)構(gòu)化數(shù)據(jù)文本。實驗以6∶2∶2的比例將其分為訓(xùn)練集、驗證集和測試集。訓(xùn)練集用來建立模型,設(shè)置相應(yīng)的分類器參數(shù),訓(xùn)練分類模型。當利用訓(xùn)練集訓(xùn)練出多個模型后,為了找出效果最佳的模型,使用各個模型,利用驗證集中的數(shù)據(jù)來確定網(wǎng)絡(luò)結(jié)構(gòu)和控制模型復(fù)雜程度的參數(shù)。采用準確率(precision,P)、召回率(recall,R)和F值對實驗結(jié)果進行評價,其中F值能夠體現(xiàn)整體測試效果。

      4.2 參數(shù)設(shè)置

      本文提出的CWATT-BiLSTM-LSTMd模型包含一個BiLSTM編碼層和一個引入Attention機制的解碼層。編碼部分所使用的嵌入向量是通過運行word2vec軟件預(yù)訓(xùn)練得到的。具體的參數(shù)設(shè)置如表1所示。

      表1 實體抽取參數(shù)設(shè)置表Table 1 Parameter setting of entity extraction

      本文提出的RL-TreeLSTM模型包含一個選擇器和一個分類器。在聯(lián)合訓(xùn)練模型之前對選擇器和分類器進行了預(yù)訓(xùn)練。因為需要根據(jù)分類器的TreeLSTM模型來計算反饋獎勵,所以需要先在整個訓(xùn)練集上預(yù)訓(xùn)練TreeLSTM模型。然后固定TreeLSTM模型的參數(shù),從固定的TreeLSTM模型得到獎勵用以預(yù)訓(xùn)練選擇器中的策略函數(shù)。最后再對兩個模型進行聯(lián)合訓(xùn)練。參數(shù)的設(shè)置如表2所示。

      表2 實體關(guān)系抽取參數(shù)設(shè)置表Table 2 Parameter setting of entity relation extraction

      4.3 結(jié)果及分析

      實驗1驗證CWATT-BiLSTM-LSTMd(C-B-L)模型的有效性。

      為了驗證提出的CWATT-BiLSTM-LSTMd模型的有效性,與CRF模型、BiLSTM模型、BiLSTM+CRF模型和Stanford-NER模型進行了對比。

      Stanford-NER模型是由斯坦福大學(xué)研發(fā)的實體抽取模型,這個模型是基于詞向量的實體抽取模型,不僅可以抽取英文的實體,還可以對中文的實體進行抽取。采用的分詞系統(tǒng)是由中科院研發(fā)的NLPIR漢語分詞系統(tǒng)。由于斯坦福大學(xué)也研發(fā)了基于中文的分詞系統(tǒng)Stanford-SEG,使用這兩種分詞系統(tǒng)在Stanford-NER模型上進行實驗以對比分詞對模型的影響。

      實驗結(jié)果如圖5所示。

      CRF在實驗中取得了79.05%的F值,而BiLSTM在實驗中取得了77.85%的F值。對出現(xiàn)這種情況的原因進行分析:首先,神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)比較復(fù)雜,需要較大規(guī)模的語料對其進行訓(xùn)練,在所用的數(shù)據(jù)集下,BiLSTM的性能受到了約束。當數(shù)據(jù)規(guī)模在較小的范圍內(nèi)時,CRF的實驗效果要略優(yōu)于BiLSTM,但是當數(shù)據(jù)規(guī)模在較大的范圍內(nèi)時,BiLSTM的效果將會超過CRF。其次,CRF在對文本進行序列標注時考慮了標簽的依賴性,而BiLSTM對序列的標注是相互獨立的。因此此次實驗的CRF模型的F值要略高于BiLSTM模型的F值。

      BiLSTM+CRF模型結(jié)合了BiLSTM模型和CRF模型,在輸出端將softmax與CRF結(jié)合起來,這樣既考慮了長遠的上下文信息,又考慮了標簽的依賴問題,因此取得了優(yōu)于BiLSTM模型和CRF模型的80.25%的F值。

      Stanford-NER模型在Stanford-SEG分詞系統(tǒng)上取得了61.81%的F值,在NLPIR分詞系統(tǒng)上取得了68.45%的F值,識別效果相對較差,是因為基于詞序列的實體抽取更容易丟失有效信息。Stanford-NER模型在兩種分詞系統(tǒng)中都能取得較高的準確率,但是召回率都偏低,主要因為數(shù)據(jù)集是基于科技新聞?wù)Z料的,一些詞出現(xiàn)的頻率低,訓(xùn)練集沒有訓(xùn)練過的詞出現(xiàn)在了測試樣本中,所以往往不能取得理想的效果。從Stanford-NER模型較低的召回率可以看出,分詞模型的準確率將直接影響實體抽取的效果。

      本文提出的CWATT-BiLSTM-LSTMd模型取得了89.23%的準確率,雖然準確率的提升不明顯,但是召回率卻有大幅度的提升,從而取得了比對比模型更好的F值。因為BiLSTM能學(xué)習(xí)長期依賴的問題,解碼層LSTMd能模擬標簽依賴的問題,為了提升模型的性能,還引入了帶詞向量的字向量來解決字向量邊界模糊的問題,引入Attention機制對解碼層進行優(yōu)化。

      實驗2驗證RL-TreeLSTM模型的性能。

      選擇器過濾掉有噪聲的句子,選擇有效的句子傳入分類器。分類器預(yù)測了每個句子的關(guān)系標簽,而不是每個袋的關(guān)系標簽。它是一個句子級別的實體關(guān)系抽取模型。因為以遠程監(jiān)督方式獲取的數(shù)據(jù)是嘈雜的,所以隨機從數(shù)據(jù)集中選取1 000個句子并手動標記每個句子的關(guān)系類型來評估分類器的性能。將提出的RL-TreeLSTM模型與RNN模型、CNN模型和PCNN+ATT模型進行了對比,對比實驗結(jié)果如圖6所示。

      從圖6中可以看出,CNN模型要優(yōu)于RNN模型。RNN引入了句法分析,但是RNN無法像LSTM一樣學(xué)習(xí)長期依賴問題,詞語在句子中的位置越靠后,越對RNN模型不利。

      PCNN+ATT模型的F值低于CNN模型,它在所使用的數(shù)據(jù)集上并未取得優(yōu)于CNN模型的成果。CNN是一個句子級的模型,而PCNN+ATT是袋級的模型,這說明袋級模型在句子級的預(yù)測中表現(xiàn)不佳。

      本文提出的RL-TreeLSTM模型是句子級別的模型,要優(yōu)于CNN模型,因為CNN模型不考慮數(shù)據(jù)的噪聲問題,這顯示了采用強化學(xué)習(xí)的實例選擇的有效性。

      實驗3評估選擇器的性能。

      為了測量通過選擇器所選句子的質(zhì)量,對所選句子進行了關(guān)系分類實驗。首先使用選擇器從原始數(shù)據(jù)中選擇高質(zhì)量的句子,之后采用CNN模型和TreeLSTM模型設(shè)置兩種對比實驗。

      (1)采用原始數(shù)據(jù)對關(guān)系進行分類,分別命名為CNN(ori)和TreeLSTM(ori);

      (2)使用選擇器對原始數(shù)據(jù)進行選擇,選取高效的句子對實體之間的關(guān)系進行分類,分別命名為CNN(sel)和TreeLSTM(sel)。

      實驗結(jié)果如圖7所示。

      從圖7中可以看出,使用相同模型的情況下,采用選擇器的F值要優(yōu)于使用原始數(shù)據(jù)的F值。結(jié)果表明選擇器能有效過濾有噪聲的句子并準確提取高質(zhì)量的句子,從而獲取更好的實體關(guān)系抽取性能。

      5 結(jié)束語

      本文主要面向科技情報分析對實體抽取和實體關(guān)系抽取的方法進行了改進,針對實體抽取提出了一種CWATT-BiLSTM-LSTMd模型。在實體抽取的基礎(chǔ)上進行實體關(guān)系的抽取,為解決實體關(guān)系抽取中遠程監(jiān)督的局限性,提出一種基于強化深度學(xué)習(xí)的RL-TreeLSTM模型。經(jīng)實驗驗證,提出的模型取得了比基準模型更好的F值。在未來的工作中,在實體抽取已經(jīng)取得了較好結(jié)果的基礎(chǔ)上,對關(guān)系抽取研究還有待改進。關(guān)系抽取很大程度上依賴句法分析,然后實際應(yīng)用中句法分析的結(jié)果可能出錯,是否可以依據(jù)上層應(yīng)用來自動調(diào)整句法分析的結(jié)果,也就是基于動態(tài)變化的網(wǎng)絡(luò)結(jié)構(gòu)進行學(xué)習(xí)。

      猜你喜歡
      選擇器分類器實體
      靶通道選擇器研究與優(yōu)化設(shè)計
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      四選一數(shù)據(jù)選擇器74LS153級聯(lián)方法分析與研究
      電腦與電信(2017年6期)2017-08-08 02:04:22
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      雙四選一數(shù)據(jù)選擇器74HC153的級聯(lián)分析及研究
      上饶市| 剑川县| 永胜县| 上杭县| 西安市| 阿拉善右旗| 友谊县| 惠水县| 南和县| 汨罗市| 佛冈县| 桦甸市| 内黄县| 聂荣县| 阿瓦提县| 陵水| 万荣县| 黄浦区| 平湖市| 鹤壁市| 民勤县| 和田市| 贵南县| 英山县| 濮阳县| 民权县| 湖北省| 东明县| 鹤壁市| 古浪县| 扬中市| 绥宁县| 祥云县| 丰原市| 陆良县| 开平市| 崇仁县| 华容县| 额济纳旗| 合阳县| 靖江市|