于 韜,尼瑪次仁,擁 措,尼瑪扎西
(1. 西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000;2. 西藏大學(xué) 西藏自治區(qū)藏文信息技術(shù)人工智能重點實驗室,西藏 拉薩 850000;3. 西藏大學(xué) 藏文信息技術(shù)教育部工程研究中心,西藏 拉薩 850000)
實體關(guān)系抽取作為信息抽取領(lǐng)域的核心任務(wù)之一,其主要目的是對已標記實體對間的語義關(guān)系進行分類。該任務(wù)在漢文及英文上已被廣泛研究,但在藏文上研究較少。藏文在實體關(guān)系抽取任務(wù)上缺乏公開數(shù)據(jù)集,是制約對其研究的主要因素,本文利用人工校對的藏文實體關(guān)系抽取數(shù)據(jù)集進行研究。
藏文是藏族的民族語言,語法規(guī)則較強,目前在自然語言處理領(lǐng)域?qū)Σ匚牡难芯窟€處于起步階段,且藏文句子特征表示存在一詞多義及語義歧義現(xiàn)象,因此使用預(yù)先訓(xùn)練的藏文Albert[1]模型根據(jù)句子上下文信息表示句子特征,提升了句子特征的質(zhì)量。同時,為了提升傳統(tǒng)實體關(guān)系抽取模型的準確率,本文應(yīng)用GraphSAGE模型[2]對藏文實體關(guān)系抽取進行研究。
首先,將原始數(shù)據(jù)預(yù)處理后分別輸入藏文Albert模型與位置向量提取器中,生成藏文句子動態(tài)詞向量及實體位置向量。然后,為了使用GraphSAGE模型學(xué)習(xí)上述的句子向量及位置向量,本文提出了圖結(jié)構(gòu)數(shù)據(jù)構(gòu)建與表示方法,再將上述向量作為該方法的輸入,以構(gòu)建數(shù)據(jù)圖及節(jié)點特征。最后,將獲得的特征輸入GraphSAGE模型中,通過該模型對周圍鄰居節(jié)點的采樣與聚合操作,得到最終的關(guān)系分類結(jié)果。
在藏文實體關(guān)系抽取任務(wù)中,首先要解決的問題是將藏文數(shù)據(jù)轉(zhuǎn)換為機器可識別的語言。自從詞向量表示方法[3]提出后, Bengio等[4]緊接著提出了一種N-gram神經(jīng)網(wǎng)絡(luò)概率語言模型,在模型訓(xùn)練過程中生成詞向量。在Bengio的研究基礎(chǔ)上,Mikolov等[5]于2013年提出Word2Vec工具,該工具利用Skip-gram與CBOW兩種詞向量模型生成詞向量。 Facebook于2016年提出FastText[6]工具,在負采樣Skip-gram模型的基礎(chǔ)上學(xué)習(xí)詞的向量表示。但傳統(tǒng)的詞向量模型生成的詞向量為靜態(tài)詞向量,且無法解決語義歧義及一詞多義問題。所以,2017年Transformer[7]的提出極大地推動了詞向量的發(fā)展,隨后BERT[8]的誕生帶來了動態(tài)詞向量,BERT模型使用掩碼語言模型(Masked Language Model, MLM)和下一句預(yù)測(Next Sentence Prediction, NSP)兩個無監(jiān)督預(yù)測任務(wù)作為預(yù)訓(xùn)練任務(wù)生成詞向量。但Zhenzhong Lan等通過研究發(fā)現(xiàn)BERT的NSP任務(wù)對于下游任務(wù)并不起作用,因此Zhenzhong Lan等于2019年提出Albert模型,刪除NSP任務(wù),使用句子順序預(yù)測(Sentence OrderPrediction, SOP)任務(wù)代替,并通過因式分解嵌入層矩陣(Factorized Embedding Parameterization)與跨層參數(shù)共享策略(Cross-layer Parameter Sharing)壓縮優(yōu)化模型,提升了模型的訓(xùn)練效果。下文將在實體關(guān)系抽取任務(wù)中使用藏文Albert模型生成的動態(tài)詞向量進行研究。
目前實體關(guān)系抽取研究大部分采用監(jiān)督學(xué)習(xí)方法,2015年Santos等[9]提出CR-CNN模型,模型首先將詞映射為低維向量,然后使用固定大小的滑動窗口對詞向量進行卷積操作,在SemEval-2010 Task 8數(shù)據(jù)集上獲得84.10%的F1值。2016年Wang等[10]提出AttentionCNNs模型,將注意力機制引入神經(jīng)網(wǎng)絡(luò)中,對反映實體關(guān)系更重要的詞賦予更大的權(quán)重,在SemEval-2010 Task 8數(shù)據(jù)集上獲得88.00%的F1值。Chen等[11]提出基于詞依存信息類型映射的記憶神經(jīng)網(wǎng)絡(luò),利用上下文關(guān)聯(lián)的詞及詞與詞之間的依存關(guān)系類型對上下文信息進行建模,在SemEval-2010 Task 8數(shù)據(jù)集上獲得90.06%的F1值。
上文介紹了實體關(guān)系抽取在英文領(lǐng)域的研究,在藏文實體關(guān)系抽取領(lǐng)域,2018年夏天賜等[12]提出基于聯(lián)合模型的藏文實體關(guān)系抽取方法,對藏文進行字級和詞級的處理,并采用端到端的BiLSTM模型將藏文實體關(guān)系抽取任務(wù)轉(zhuǎn)變?yōu)椴匚男蛄袠俗栴},在2 400句語料上獲得56.00%的F1值。2019年郭莉莉[13]等提出基于BP神經(jīng)網(wǎng)絡(luò)的實體關(guān)系抽取模型,將實體位置、實體距離、實體及其周圍詞特征輸入至BP神經(jīng)網(wǎng)絡(luò)進行關(guān)系抽取,在4 216句語料上獲得62.12%的F1值。2020年王麗客等[14]提出基于遠程監(jiān)督方法的藏文實體關(guān)系抽取模型,加入語言模型和注意力機制改善藏文句子的表示問題,同時使用聯(lián)合得分函數(shù)改進遠程監(jiān)督數(shù)據(jù)的錯誤標簽問題,在4 126句語料上獲得58.9%的F1值。
為了提高詞向量質(zhì)量,提升實體關(guān)系抽取模型的準確率。首先,本文使用藏文Albert預(yù)訓(xùn)練語言模型生成句子的動態(tài)詞向量,并為了表示實體在藏文句子中的位置特征,將藏文句子及實體輸入至位置向量提取器以獲得實體的位置向量。然后,對上述特征應(yīng)用本文提出的圖結(jié)構(gòu)數(shù)據(jù)構(gòu)建與表示方法,通過該方法將藏文實體關(guān)系抽取數(shù)據(jù)集轉(zhuǎn)換為圖結(jié)構(gòu)及節(jié)點特征。最后,將數(shù)據(jù)圖及特征輸入GraphSAGE模型,利用其采樣與聚合操作高效地學(xué)習(xí)數(shù)據(jù)圖中的節(jié)點特征,提高了藏文實體關(guān)系抽取模型的準確率,模型整體框架如圖1所示。
圖1 模型整體框架
由于GraphSAGE模型的輸入為圖結(jié)構(gòu)數(shù)據(jù),因此本文提出一種將藏文實體關(guān)系抽取數(shù)據(jù)集轉(zhuǎn)換為圖數(shù)據(jù)及特征的新方法。由表1可知數(shù)據(jù)集中每條數(shù)據(jù)對應(yīng)兩個實體及一個關(guān)系,在同一條數(shù)據(jù)中可以構(gòu)建實體節(jié)點鏈接至關(guān)系節(jié)點的一張圖。分析可知多條數(shù)據(jù)間需要通過關(guān)系節(jié)點作為關(guān)聯(lián)節(jié)點進行鏈接,即假設(shè)第一條數(shù)據(jù)中關(guān)系為r1,第二條數(shù)據(jù)中關(guān)系也為r1,那么對于這兩條數(shù)據(jù),可鏈接不同實體節(jié)點至r1節(jié)點構(gòu)成圖結(jié)構(gòu)。
表1 數(shù)據(jù)集樣例
本方法的輸入數(shù)據(jù)包含6 000條數(shù)據(jù)樣本,10種關(guān)系類型。在圖2中,中心節(jié)點noderx(1≤x≤10)表示關(guān)系類型為rx的節(jié)點,nodeih、nodeit分別表示第i條數(shù)據(jù)中的頭實體及尾實體節(jié)點,nodejh、nodejt及nodekh同理,其中,1≤i,j,k≤6 000。將所有數(shù)據(jù)中關(guān)系類型為rx的頭實體以及尾實體節(jié)點鏈接至noderx節(jié)點上,即可將藏文實體關(guān)系抽取數(shù)據(jù)集轉(zhuǎn)換為清晰的圖結(jié)構(gòu)。
圖2 圖結(jié)構(gòu)數(shù)據(jù)構(gòu)建與表示方法
由上述方法構(gòu)建圖結(jié)構(gòu)之后需要繼續(xù)表示圖節(jié)點的特征,為了更好地進行對比實驗,圖節(jié)點特征使用句子向量、頭實體位置向量以及尾實體位置向量表示。頭實體節(jié)點特征構(gòu)建方法為:feanodenh=feanoden+feanodenhead_pos(1≤n≤6 000),其中,feanodenh表示nodenh節(jié)點的特征,feanoden表示nodenh節(jié)點對應(yīng)的句子向量,feanodenhead_pos表示nodenh節(jié)點對應(yīng)的頭實體位置向量。另外,尾實體節(jié)點特征構(gòu)建方法與頭實體節(jié)點特征構(gòu)建方法相同:feanodent=feanoden+feanodentail_pos(1≤n≤6 000),其中feanodentail_pos表示nodent節(jié)點對應(yīng)的尾實體位置向量。至此,圖結(jié)構(gòu)及節(jié)點特征均構(gòu)建完成,將構(gòu)建完成的特征輸入至圖神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)。
藏文是我國的少數(shù)民族語言,與漢文及英文相比藏文語料稀少。使用傳統(tǒng)詞向量模型針對數(shù)據(jù)稀疏的藏文語料很難獲取高質(zhì)量的詞向量,且無法解決一詞多義等問題。因此,為了彌補傳統(tǒng)詞向量模型的不足,本文使用模型結(jié)構(gòu)更為復(fù)雜的Albert預(yù)訓(xùn)練語言模型訓(xùn)練藏文語料,該模型使用Transformer進行特征抽取,并結(jié)合因式分解嵌入層矩陣、跨層參數(shù)共享與句子順序預(yù)測三種策略,在模型參數(shù)規(guī)模降低的同時可獲取句子上下文相關(guān)的雙向特征表示,得到高質(zhì)量的句子特征。預(yù)訓(xùn)練語言模型的應(yīng)用,使得原本無法針對各種語境變化的靜態(tài)詞向量表征,向著真正基于語境的語義特征表示演進。
訓(xùn)練藏文Albert模型共使用1.7GB藏文新聞領(lǐng)域數(shù)據(jù),以音節(jié)分詞的方式構(gòu)建模型的輸入數(shù)據(jù)。批訓(xùn)練大小為32,使用RTX 2080Ti GPU進行加速,總訓(xùn)練步數(shù)為2 126 622,評價指標在第2 119 000步取得最佳,各評價指標如表2所示,其中,mask_loss表示Albert模型在MLM任務(wù)上的損失;sop_loss表示Albert模型在SOP任務(wù)上的損失;mask_accuracy是在MLM任務(wù)中預(yù)測遮掩單詞的精確度;sop_accuracy是在SOP任務(wù)中預(yù)測句子順序的精確度;loss表示兩部分損失的和。為了測試預(yù)訓(xùn)練語言模型的實際效果,下游任務(wù)將應(yīng)用藏文Albert模型進行實體關(guān)系抽取。
表2 藏文Albert預(yù)訓(xùn)練語言模型評價指標
GraphSAGE模型是圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)的一種,其主要思想是節(jié)點的信息在節(jié)點間傳遞,當前節(jié)點通過聚合函數(shù)(Aggregate Function)聚合其周圍鄰居節(jié)點的信息,并使用神經(jīng)網(wǎng)絡(luò)作為更新函數(shù)更新當前節(jié)點的信息。隨著不斷地迭代更新,節(jié)點可聚合更多外層鄰居節(jié)點的信息,使節(jié)點信息更加豐富。GraphSAGE模型在進行特征學(xué)習(xí)時,與圖卷積網(wǎng)絡(luò)(Graph Convolution Network, GCN)[15]使用全圖信息學(xué)習(xí)的方式不同,而是可以通過批訓(xùn)練的方式學(xué)習(xí)節(jié)點特征,對大規(guī)模圖數(shù)據(jù)的訓(xùn)練提供了幫助。本文使用GraphSAGE模型批訓(xùn)練的方式與其余實驗的訓(xùn)練方式進行對比。
GraphSAGE模型的學(xué)習(xí)過程主要分為三部分: 鄰居節(jié)點采樣、鄰居節(jié)點聚合、學(xué)習(xí)聚合后的節(jié)點信息。首先,對鄰居節(jié)點進行采樣,但不需要采樣全部的鄰居節(jié)點。根據(jù)作者的假設(shè),節(jié)點v的采樣節(jié)點層數(shù)k取2時模型表現(xiàn)最好,即采用兩層GraphSAGE模型。
然后,聚合節(jié)點v的鄰居節(jié)點,如式(1)所示。其中,N(v)表示節(jié)點v的鄰居節(jié)點集合;AGGREGATE()表示聚合函數(shù),采用均值函數(shù)或長短時記憶網(wǎng)絡(luò)均可。獲取節(jié)點v的鄰居節(jié)點后,可獲得鄰居節(jié)點u在第k-1層的特征表示,并使用聚合函數(shù)聚合鄰居節(jié)點特征,將聚合后的特征作為節(jié)點v在第k層的鄰居節(jié)點特征表示。
(1)
GraphSAGE模型的采樣與聚合操作是學(xué)習(xí)采樣節(jié)點的鄰居節(jié)點與自身節(jié)點的特征,最終將聚合鄰居節(jié)點后的采樣節(jié)點特征輸入神經(jīng)網(wǎng)絡(luò)進行特征學(xué)習(xí)。應(yīng)用GraphSAGE模型是對使用圖結(jié)構(gòu)數(shù)據(jù)進行藏文實體關(guān)系抽取任務(wù)的探索,GraphSAGE為推導(dǎo)式GNN,泛化性好,可以根據(jù)新節(jié)點的鄰居節(jié)點表示該節(jié)點特征,適合關(guān)系抽取模型的實際應(yīng)用。
藏文實體關(guān)系抽取無開源數(shù)據(jù)集,本文選擇通識類漢文實體關(guān)系抽取數(shù)據(jù)集,通過機器翻譯后進行人工校對確保藏文語句、語法的正確性。預(yù)處理后的數(shù)據(jù)樣例如表1所示。sentence字段表示包含實體的描述句子;relation字段表示兩實體間的關(guān)系;head_entity字段表示頭實體信息;tail_entity字段表示尾實體信息。
本文數(shù)據(jù)集中共6 000條數(shù)據(jù)樣本,10種關(guān)系類型。在不包含GraphSAGE模型的實驗中,以4 000條原始數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),1 000條原始數(shù)據(jù)作為校驗數(shù)據(jù),將校驗數(shù)據(jù)順序打亂作為測試數(shù)據(jù);在包含GraphSAGE模型的實驗中,使用上述訓(xùn)練集、校驗集與測試集共6 000條數(shù)據(jù)樣本構(gòu)建動態(tài)詞向量及實體位置向量后,將向量作為圖結(jié)構(gòu)數(shù)據(jù)構(gòu)建與表示方法的輸入,從而獲得不同數(shù)據(jù)集對應(yīng)的圖結(jié)構(gòu),再將這三種圖結(jié)構(gòu)應(yīng)用GraphSAGE模型學(xué)習(xí)。
由于數(shù)據(jù)集中共有10種關(guān)系類型,因此需采用多分類模型精確度的評測指標MacroF1與MicroF1進行評價,即宏平均與微平均。MacroF1是不同類別F1值的和的平均值,如式(3)所示,其中,F(xiàn)1*c1表示類別1的F1值,n為類別數(shù);MicroF1是總體F1值的平均值,如式(4)所示,其中,F(xiàn)1*sum表示不分類別的總體F1值。實驗部分中將以MacroF1與MicroF1作為模型評測指標。
在進行下文實驗前,本文通過數(shù)據(jù)的正態(tài)分布確定實驗句子長度(seq_len)。首先統(tǒng)計數(shù)據(jù)集中每條句子的長度及頻次,在統(tǒng)計頻次過程中使用區(qū)間統(tǒng)計法,如句子長度位于1~100之間,則使用100來表示當前區(qū)間的句子長度,統(tǒng)計后構(gòu)建的數(shù)據(jù)正態(tài)分布圖如圖3所示。然后計算正態(tài)分布的μ與σ,如式(5)與式(6)所示,可知該數(shù)據(jù)服從N(217.2,127.42)的正態(tài)分布。
圖3 數(shù)據(jù)正態(tài)分布
在繪制數(shù)據(jù)正態(tài)分布圖時,使用句子長度區(qū)間作為該圖的橫坐標,因此在圖3中μ值并不是曲線的最高點。為了全方面考慮不同句子長度對實驗的影響,本文采用μ+nσ(n=0,1,2,3)的方式進行選擇,代入μ、σ后分別獲得217.2、344.6、472、599.4,在下文實驗中采用上述長度的取整結(jié)果。
句子長度選擇對比實驗采用Albert+FC模型,其中FC為全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected Network)。實驗環(huán)境為搭配RTX 2080Ti GPU的Ubuntu服務(wù)器,顯存為11GB,模型輸入特征為詞向量、位置向量與隱碼向量。在此硬件環(huán)境下最大的批訓(xùn)練大小(batch_size)為8,句子長度選擇對比實驗結(jié)果如表3所示。
表3 句子長度選擇對比實驗
由表3可知,當seq_len為345時Albert+FC模型的效果最好,其MacroF1為74.98%,MicroF1為74.70%,平均F1值為74.84%,因此選擇345作為下文實驗的句子長度。
在實驗部分,首先使用基線模型進行藏文實體關(guān)系抽取,再使用Albert模型結(jié)合基線模型進行對比實驗,Albert模型及基線模型參數(shù)如表4與表5所示。
表4 Albert模型主要參數(shù)
表5 基線模型主要參數(shù)
在基線實驗部分,分別采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[16]及其變體、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[17]、深層卷積神經(jīng)網(wǎng)絡(luò)(Deep Pyramid Convolutional Neural Networks, DPCNN)[18]、區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-CNN, RCNN)[19]及GraphSAGE模型;在Albert實驗部分,分別使用上述模型結(jié)合Albert模型。為了更好地進行對比,Albert實驗與基線實驗構(gòu)建詞向量的方式相同,即通過詞典構(gòu)建,以上實驗均按照音節(jié)分詞方式處理數(shù)據(jù)。
4.2.1 基線實驗結(jié)果分析
表6中(O)與(H)分別表示使用當前模型的output及隱藏層輸出進行關(guān)系分類,CNN模型效果最好,其MacroF1為75.20%,MicroF1為75.40%,優(yōu)于第一部分實驗中的所有序列模型;RNN(O)模型效果最差,其MacroF1為8.30%,MicroF1為11.20%;RNN及BiRNN模型整體效果比較差,主要原因是基線實驗的詞向量僅使用詞典構(gòu)建,未通過高效的模型對其進行學(xué)習(xí),并且RNN模型自身具有梯度彌散與梯度爆炸的問題,導(dǎo)致模型效果差。
表6 基線實驗第一部分實驗結(jié)果 (單位: %)
由于本文數(shù)據(jù)集大多為短句且通過詞典構(gòu)建的詞向量不能攜帶較多的句子信息,而CNN模型以n-gram[20]方式學(xué)習(xí)特征,因此DPCNN實驗結(jié)果低于CNN模型,兩者平均F1值相差11.00%。另外,在上述基線實驗中,BiRNN及BiLSTM模型效果均優(yōu)于單向RNN及LSTM模型;而單向GRU模型效果優(yōu)于BiGRU模型,表明對于不同任務(wù),模型的單雙向選擇效果也是不同的。針對這一不定性,RCNN模型實驗將探究表6中的所有RNN及其變體模型,結(jié)果如表7所示。
表7 基線實驗第二部分實驗結(jié)果 (單位: %)
續(xù)表
表7中RCNN(BiGRU(O)) 模型表示RCNN模型采用BiGRU模型作為序列模型,該模型效果最好,其MacroF1為75.60%,MicroF1為75.80%,且相對CNN模型在F1值上提升0.40%。表明對于序列學(xué)習(xí)任務(wù),首先使用序列模型學(xué)習(xí)藏文句子特征,提取句子中的重要信息,再通過CNN模型的卷積與池化操作可以加深模型對于句子的理解與學(xué)習(xí)。表8為基線實驗高效模型結(jié)果對比。
表8 基線實驗高效模型結(jié)果對比 (單位: %)
由圖4與表8可知,GraphSAGE模型在所有基線實驗中效果最 優(yōu), 其MacroF1為77.9%,MicroF1為78.09%,較RCNN(BiGRU(O))、CNN模型F1值提高2.30%與2.70%。GraphSAGE模型對圖節(jié)點進行采樣與聚合操作后可以學(xué)習(xí)到藏文文本中更多有效的信息,從而提高模型的準確率。同時通過圖4中連續(xù)的折線變化了解到添加RCNN模型后,不同序列模型使用output作為輸出時,關(guān)系分類實驗效果更好。
圖4 基線實驗所有模型結(jié)果
4.2.2 Albert實驗結(jié)果分析
下文結(jié)果均為Albert結(jié)合表中模型實驗獲得。例如,表9中RNN(O)表示Albert模型結(jié)合RNN模型,其中RNN模型以output作為輸出,下文表中的模型同理。
表9 Albert第一部分實驗結(jié)果 (單位: %)
由表9可知CNN模型效果最好,其MacroF1與MicroF1分別為79.30%與79.20%,這表明傳統(tǒng)的淺層CNN模型可以較好地學(xué)習(xí)藏文Albert預(yù)訓(xùn)練語言模型生成的句子動態(tài)詞向量,而與淺層CNN模型相反的DPCNN模型在實驗中表現(xiàn)效果最差。同時在所有序列模型中,BiLSTM(H)模型表現(xiàn)最好,其MacroF1與MicroF1分別為78.80%與79.10%,平均F1值低于CNN模型0.30%,兩模型效果相近,主要原因是以隱層作為輸出的BiLSTM模型可以更加高效地學(xué)習(xí)Albert生成的詞向量,使得學(xué)習(xí)后的參數(shù)矩陣攜帶更多有效的句子信息。
在表10中,RCNN(BiGRU(H))模型表現(xiàn)最好,優(yōu)于表9中的CNN模型,該模型的MacroF1與MicroF1分別為79.95%與80.0%,平均F1值高于CNN模型0.73%。表明使用序列模型學(xué)習(xí)Albert生成的句子動態(tài)詞向量后,再使用CNN模型提取特征,可提高實體關(guān)系抽取模型的準確率。
表10 Albert第二部分實驗結(jié)果 (單位: %)
續(xù)表
分析表9與表10可以發(fā)現(xiàn),LSTM(O)、DPCNN及RCNN(RNN(O))模型效果低于FC模型,主要原因是Albert模型使用12層Transformer學(xué)習(xí)詞向量特征,并且模型自身結(jié)構(gòu)十分復(fù)雜,因此連接簡單的FC模型可以更高效地完成實體關(guān)系抽取任務(wù),對于較復(fù)雜的模型則會適得其反。
由表11可知,GraphSAGE模型效果最好,平均F1值為82.25%,較RCNN(BiGRU(H))與CNN模型F1值提升了2.28%與3.00%。主要原因是使用藏文Albert預(yù)訓(xùn)練語言模型獲得高質(zhì)量的句子動態(tài)詞向量,改善了一詞多義及語義歧義問題。然后使用本文提出的方法將動態(tài)詞向量表示為圖結(jié)構(gòu)與節(jié)點特征后作為GraphSAGE模型的輸入,GraphSAGE模型不斷地聚合鄰居信息并進行迭代更新,以批訓(xùn)練的方式高效地學(xué)習(xí)圖結(jié)構(gòu)特征,從而提升了模型的準確率。
表11 Albert實驗高效模型結(jié)果對比 (單位: %)
由圖5可知,兩類實驗結(jié)果曲線整體趨勢不同, Albert實驗結(jié)果曲線較基線實驗結(jié)果曲線更加穩(wěn)定,前者并無過大波動,而后者波動較為明顯;Albert實驗結(jié)果均優(yōu)于基線實驗結(jié)果,并且在兩類實驗中GraphSAGE模型均獲得了最優(yōu)效果。根本原因是,通過Albert預(yù)訓(xùn)練語言模型獲得的詞向量質(zhì)量較高,將此詞向量輸入不同的關(guān)系抽取器中可以減小詞向量對實驗結(jié)果的影響,所以Albert實驗曲線更加穩(wěn)定且結(jié)果優(yōu)于基線實驗,證明了本文訓(xùn)練的藏文Albert模型的有效性。GraphSAGE模型通過復(fù)雜圖結(jié)構(gòu)并結(jié)合采樣與聚合操作表達與學(xué)習(xí)藏文文本句子特征,獲得了更好的關(guān)系抽取效果,證明了本文提出的關(guān)系抽取數(shù)據(jù)表示為圖結(jié)構(gòu)數(shù)據(jù)方法的有效性。
圖5 所有實驗結(jié)果對比圖
本文主要介紹了基于藏文Albert預(yù)訓(xùn)練語言模型的圖采樣與聚合實體關(guān)系抽取方法,提出使用圖結(jié)構(gòu)進行藏文實體關(guān)系抽取任務(wù),有效提升了藏文實體關(guān)系抽取模型的準確率。其中,藏文實體關(guān)系抽取數(shù)據(jù)集轉(zhuǎn)化為圖結(jié)構(gòu)與節(jié)點特征的方法的效果良好,實驗最終F1值為82.25%且優(yōu)于基線實驗效果。
但本文用于有監(jiān)督學(xué)習(xí)的藏文實體關(guān)系抽取數(shù)據(jù)集規(guī)模較小,且在實驗中并未考慮藏文詞法、句法等特征。未來工作中,我們會擴大數(shù)據(jù)集規(guī)模并提升數(shù)據(jù)集質(zhì)量,在提取藏文句子特征時還應(yīng)加入依存句法分析等方法,從而提升藏文實體關(guān)系抽取任務(wù)的準確率。