馬霄飛,周蘭江,周蕾越
1(昆明理工大學 信息與自動化學院,昆明 650500)2(昆明理工大學津橋學院 電子與信息工程學院,昆明 650160)
東南亞是全球增長速度最快的互聯網地區(qū),是世界第4大互聯網市場(1)https://www.sohu.com/a/329453816_515969.老撾作為東南亞國家之一,是中國推進“一帶一路”倡議的重要舞臺,因此,針對老撾語自然語言處理研究有著十分重要的意義.
目前,實體關系抽取根據對人工語料的依賴程度[3],可分為:基于有監(jiān)督的實體關系抽取,基于半監(jiān)督的實體關系抽取、基于遠程監(jiān)督的實體關系抽取和基于無監(jiān)督的實體關系抽取4大類.
有監(jiān)督實體關系[4-6]抽取將大量已標注關系類別的數據集投入到分類器模型中進行訓練,然后利用訓練好的分類器模型對未標記的語料進行抽取任務,雖然有監(jiān)督實體關系抽取取在現有方法中取得了最好的抽取性能,但是使用有監(jiān)督方法首先需要大規(guī)模人工標注的語料集作為支撐.半監(jiān)督實體關系抽取[7-9]能極大地減少有監(jiān)督方法對大規(guī)模標注語料的依賴,其主要問題是對初始種子的質量要求高、選擇合適的種子較為困難,并且仍需事先定義抽取的關系類型.遠程監(jiān)督方法[10-12]通過將未處理的文本與現有的大型知識庫進行對齊,以此實現自動生成大量訓練文本,來降低對人工語料的依賴,但卻造成了對已有大型知識庫的依賴.無監(jiān)督方法不需要事先定義關系類型,也不需要對語料進行人工標注,并且不依賴大型知識庫,它的主要思想是利用句子的上下文特征進行聚類,將相似的句子聚在一起,并通過某種方法對該簇標記一個關系標簽.
雖然無監(jiān)督實體關系抽取相對于其他方法,它的準確率較低并且無法自動衡量抽取性能[13],但是它對于像老撾語這樣的低資源語言較為友好,因此無監(jiān)督實體關系抽取是一個值得研究的方向.
在英文無監(jiān)督實體關系抽取領域,Hasegawa等人[14]首次提出基于無監(jiān)督的方法進行關系抽取,在英文的ACE(Automatic Content Extraction)語料集上采用層次聚類算法驗證了該方法的有效性.Rozenfeld等人[15]提出將具有多元關系的候選實體對剔除,只對具有二元關系的實體對進行抽取,極大地提高了實體關系抽取的性能.Yan等人[16]融合淺層模板(Surface pattern),旨在豐富文本的語義信息,并利用K-Means聚類模型在大規(guī)模的語料庫中抽取實體所有的語義關系;Chen等人[17]在選擇上下文特征時設置了不同的窗口進行對比實驗,實驗證明當實體之間的特征詞為10時效果最好.
在中文無監(jiān)督實體關系抽取領域,黃晨等人[13]首先在中文上進行實體關系抽取研究,并借鑒英文的研究,提出了一種基于卷積樹核的方法,該方法融合了句法樹結構特征,通過層次聚類實現實體關系的抽取.李明耀等人[18]針對中文語法復雜、表達靈活等問題,采用依存分析的方法進行中文實體關系抽取,其F值提高了16.68%;秦兵等人[19]使用實體之間的距離限制獲取候選關系三元組,該方法在獲取大量關系三元組的同時,還保證了80%的平均準確率.
在自然語言處理領域,針對老撾語的相關研究正處于起步階段,研究成果較少,大多只是針對分詞[20]、詞性標注[21,22]和命名實體識別[23,24]等基礎任務的研究.針對老撾語的實體關系抽取目前還沒有相關研究,而中文和英文的無監(jiān)督實體關系抽取技術已經相對比較成熟,中英文的方法在理論上是可以應用于老撾語實體關系抽取研究上的,但老撾語與英文、中文在構詞和句法結構等方面有諸多不同,不能將中英文的方法完全復制到老撾語上,不過仍然可以在老撾語實體關系抽取上有所借鑒.
鑒于老撾語研究在實體關系抽取領域比較薄弱,且無相關句法分析工具,本文研究對象只針對句子級別的二元關系進行實體關系抽取.
本文主要貢獻如下:
1)通過研究老撾語的語言特點,本文提出了一種適用于老撾語的新特征,即詞性位置特征;
2)改進KANN-DBSCAN聚類模型.本文將該方法中的距離矩陣計算公式進行改進,用余弦距離替換歐氏距離.
3)引入詞嵌入模型(word2vec)代替?zhèn)鹘y(tǒng)無監(jiān)督方法中使用的詞袋模型(one-hot)來表示上下文特征;
4)改進DCM方法,引入詞的詞性信息,優(yōu)化了DCM方法缺少語義分析的缺點.
本文結構如下:第1部分為引言,介紹了本文研究對象的背景及意義;第2部分為本文方法,介紹了上下文窗口、特征構造、聚類模型及判別類型匹配;第3部分為試驗部分,介紹了對比試驗及結果分析;第4部分為總結與展望.
本節(jié)將詳細描述本文使用方法,包括上下文窗口的選擇、向量特征的構造、聚類模型以及判別類型匹配方法.圖1為老撾語無監(jiān)督實體關系抽取方法的流程圖.該方法首先通過爬蟲技術在中國國際廣播電臺網(CRI(2)http://laos.cri.cn/,China Radio International)上爬取老撾語新聞3000篇;其次,對爬取的新聞文本進行預處理,包括分句,分詞,命名實體識別以及詞性標注;然后,使用融合了距離特征、TF-IDF特征和詞性位置特征的詞的分布式表示上下文特征,將其作為聚類模型的輸入;之后,使用改進的KANN-DBSCAN聚類模型在預處理后的語料集上進行聚類試驗;最后,采用優(yōu)化的DCM方法對聚類結果進行關系標注,選出簇的關系標簽,最終得到關系三元組.
圖1 老撾語無監(jiān)督實體關系抽取方法流程圖
無監(jiān)督實體關系抽取在選擇特征時使用實體對的周圍詞作為表達句子語義關系的特征,這些周圍詞也可以叫做上下文,上下文選擇的好壞對后續(xù)的特征向量聚類有很大的影響,上下文窗口設置過小,提取的上下文特征所包含的信息量不足,窗口設置過大,又會引入噪音.
Chen等人[17]對ACE的3個子集(PER-ORG、ORG-GPE、ORG-ORG)進行無監(jiān)督關系抽取時,通過設置不同的上下文窗口進行對比實驗,實驗證明當實體之間的特征詞為10時效果最好,特征詞小于5時,不足以推斷上下文信息.車萬翔[25]使用兩種基于特征向量的機器學習算法在ACE評測的訓練集上進行了實體關系抽取,證明了當周圍詞為2時,效果最好.文獻[17,25]使用不同語料集得到的最優(yōu)上下文窗口并不一致,且由于老撾語與中、英文在構詞方法和句子結構等方面有很大不同,因此在對老撾語進行實體關系抽取時,理應考慮上下文窗口的合適范圍,具體設置見實驗部分的3.3.1小節(jié).
2.2.1 上下文特征
上下文特征是指實體對周圍的詞匯特征,也是無監(jiān)督實體關系抽取中最基本、最常用的特征.在提取到實體對的上下文后,需要語言模型將上下文數學化,因為機器無法識別人類使用的自然語言,只能識別數值向量.目前,主要采取兩種方法:1)詞袋模型(Bag of Words,BoW);2)詞的分布式表示.
1)BoW模型
傳統(tǒng)的基于無監(jiān)督的實體關系抽取[13-17]通常使用的是BoW模型.BoW模型是一種局部表示,即用一個很長的向量來表示一個詞,向量的長度為詞典(由文本語料中所有不重復的單詞構成)大小,向量的分量只有一個1,其他全為0,1的位置對應詞在詞典中的位置,并且只有1所在的這個維度表達了語義信息.
BoW模型雖然使用方便且簡單,但是它有兩個很大的缺點:①由BoW模型得到的詞向量都是離散稀疏的,經常出現維數災難的問題;②由BoW模型得到的詞向量,任意兩個詞之間都是互相孤立的,并未考慮詞的語義信息和詞的上下文語境信息.
2)詞的分布式表示
為了克服BoW模型的缺點,Hinto[26]提出了分布式表示詞向量的思想.與BoW模型只使用向量的一個維度表達詞信息不同,詞的分布式表示是使用一個連續(xù)稠密的向量來表示一個詞的語義信息,這些詞信息被分布式的存儲在向量的各個維度當中,當兩個詞具有相似的上下文時,會得到兩個相似的詞向量,這樣就能很好的刻畫詞與詞之間的相似程度,也可以深刻理解詞的語義信息[27].
分布式思想自提出以來,已廣泛應用于自然語言處理的各個領域.其中較為出眾的是Mikolov提出的word2vec模型.該模型是在神經網絡語言模型(neural network language model,NNLM)基礎上建立的,它訓練出的詞向量考慮了詞與詞之間的語義信息[28],利用該模型進行的聚類在效果上得到了顯著提升[29].
2.2.2 額外特征
由于老撾語語料稀缺,因此除了使用word2vec模型來訓練詞匯向量外,還引入了額外特征來增強詞匯向量的語義表征.
1)距離特征
距離特征[30]表示的是句子中其他單詞和實體對之間的距離,它考慮了兩個實體在句子中的位置信息和與其他單詞的相對距離信息.
2)TF-IDF
考慮到每個單詞對句子的貢獻度是不同的,這個貢獻度由單詞的詞頻決定[31].貢獻度與單詞在句子中的詞頻成正比,同時與它在所有語料中出現的頻率成反比,因此引入TF-IDF特征,如計算公式(1)所示:
(1)
其中,word_fi是單詞在上下文中出現的次數,N是語料集中句子的總數,ni是包含該單詞的句子個數.
3)詞性位置特征
通過研究老撾語的句子結構,發(fā)現老撾語與中文的主要成分有著同樣類似的主謂賓(SVO)結構[32].在老撾語中,主語位于謂語動詞之前,賓語位于謂語動詞之后,具有普遍性.此外,主語通常由名詞和代詞等充當,賓語由動詞和形容詞等具有核心語義解釋的詞充當,賓語由名詞和主謂句等充當.根據文獻[32]的研究成果,老撾語句子成分的排列順序是“(時間/地點狀語)主語(定語)+謂語<狀語或補語>”或“(時間/地點狀語)主語(定語)+謂語+賓語(定語)”.
顯然,句中的修飾成分,如定語、狀語,相對于主語和賓語是置后的.本文將主語視為頭實體,賓語視為尾實體,那么上下文可以被分為3部分:頭實體左邊(left)部分、頭實體與尾實體之間(mid)部分,尾實體右邊(right)部分.
本文針對老撾語的語言特點,根據單詞與實體對的相對位置不同,獲取帶有位置信息的老撾語詞性特征.圖2反映了單詞詞性出現在句中不同位置時所占的比例.其中,名詞、動詞在所有情況中所占比例均在第1位和第2位,代詞除了在left位置所占比重較高,其余情況所占比重幾乎相同,動詞在所有情況中所占比例為:mid>right>all>left,形容詞在所有情況中所占比例為:right>left>all>mid.
圖2 單詞詞性出現在句中不同位置時所占的比例
在實體關系抽取中,實體之間的語義關系多是由能夠表達實際含義的實詞來表示,如名詞(n.)、代詞(pron.)、動詞(v.)、形容詞(adj.)等,同時這些詞也可以在老撾語文本中標識文本特征,而對于其他詞性(如連詞(conj.),動態(tài)助詞(aux.v)等)的單詞在標識文本特征時會產生一部分的噪音.因此,結合圖2所分析的結果,名詞、代詞、動詞和形容詞可賦予較高的權重系數,其他詞性賦予較低的權重,以降低噪音干擾.具體權重設置如表1所示.
表1 詞性位置及詞性權重表
2.2.3 特征拼接
由word2vec模型直接訓練出的上下文向量表達的是詞匯信息,而不是對應每條句子的信息.因此無法直接作為聚類算法的輸入,所以需要進行特征拼接,將單個的上下文向量拼接成句子向量.
圖3 特征向量構造示意圖
(2)
其中,vwi表示加權表征后的上下文向量;i表示該上下文向量是第i個;m表示句子中共包含m個上下文向量;C表示拼接后的句子向量.
本文方法采用KANN-DBSCANN聚類模型進行老撾語無監(jiān)督實體關系抽取研究.傳統(tǒng)的無監(jiān)督實體關系抽取常采用K-Means聚類和基于層次的聚類模型.K-Means聚類和層次聚類使用簡單,但是K-Means聚類對初始中心敏感,易導致每次聚類結果間的誤差較大,且在計算相似度時只能使用歐式距離,而層次聚類對于高維數據的聚類效果欠佳.孫勇亮[33]首次在中文實體關系抽取中應用DBSCAN聚類模型,并獲得了不錯的效果.DBSCAN[34]聚類模型是一種基于密度的聚類模型,適合針對高維空間的數據進行聚類.但是DBSCAN有兩個參數,Eps(鄰域半徑)和MinPts(聚類簇最小聚類點數),這兩個參數的確定相比較于K-Means算法中的K值更加難于確定.文獻[33]使用遍歷的方法逐個測試,但是這樣既不省時,也不精確.李文杰[35]等人提出了KANN-DBSCAN的方法,它能夠自適應確定DBSCAN聚類模型的兩個參數,但是該方法在計算距離矩陣時使用的是歐氏距離計算,有相關文獻[36]證明,在文本聚類時,使用余弦距離要優(yōu)于歐氏距離.因此本文在采用KANN-DBSCAN聚類模型的同時,對其中的距離矩陣計算公式進行改進,使用余弦距離替換KANN-DBSCAN方法中的歐氏距離.
在無監(jiān)督實體關系抽取中,并未事先定義關系的類型,因此需要在聚類之后,對聚類結果進行關系標注,以此篩選出一個具有代表性的詞匯作為該簇的簇標簽,這類詞匯也被稱為關系指示詞.一般來說,在文本分類和衡量特征權重領域,通常使用的是判別類型匹配(DCM,Discriminative Category Matching)方法.該方法分為兩部分:
1)計算詞匯在簇內的相對重要性;
2)計算詞匯在其他簇(簇外)的相對重要性.
2.4.1 簇內相對重要性
在該簇中,如果某個關系指示詞頻繁出現,說明這個關系指示詞在該簇中占據更重要的信息量,其相對重要性更高,如公式(3)所示:
(3)
其中,nwi,k表示在聚類結果k簇中,包含了關系指示詞wi,k的實體對個數;Nk表示在k簇中包含的實體對總數.
2.4.2 簇外相對重要性
一個關系指示詞如果只考慮在簇內的相對重要性,并不能代表它在所有簇中的重要性,若這個詞在其他簇中仍占據很高的重要性,那么這個關系指示詞無法將該簇與其他簇進行區(qū)分.因此需要計算這個關系指示詞在跨簇中的相對重要性,如公式(4)所示:
(4)
其中,Cwi表示在聚類結果中包含了關系指示詞wi的簇的集合,N表示聚類結果簇的總數.
在得到這個關系指示詞的簇內相對重要性及簇外相對重要性后,需要對其進行合并,合并后的重要性Wi,k包含了它在簇內和跨簇的所有信息.Wi,k的值最大的關系指示詞將作為該簇的關系標簽,如公式(5)所示:
(5)
但是,DCM方法是建立在一個詞的出現頻率代表其對該簇貢獻大小的基礎之上,因此并沒有引入相應的語義分析[37].
2.4.3 優(yōu)化DCM
針對DCM方法的缺點,本文通過將DCM與單詞的詞性信息相融合的辦法,對關系指示詞的語義進行分析.在與老撾語語言專家共同研究本文語料集后發(fā)現,對于存在關系的候選關系三元組,關系指示詞的詞性均為名詞和動詞,因此本文通過設置權重系數,來突出動詞和名詞的語義信息,具體是通過將關系指示詞的重要性與詞性權重加權的方式重新獲得一個新的重要性,詞性權重的具體設置如表2所示.
表2 DCM融合詞性信息權重表
在表2中,針對詞性為名詞和動詞的關系指示詞,詞性權重施加了一個較大的權重,目的在于突出它們的語義信息,其他詞性的關系指示詞施加一個較小的權重,是為了降低其他詞的干擾作用.
3.1.1 數據處理
本文數據通過爬蟲技術在CRI網站上獲取老撾新聞,總計3000篇.在對老撾語新聞文本進行分句之后,共獲得27831個老撾語句子.然后本文使用實驗室開發(fā)的分詞工具[20]對老撾語句子進行分詞處理,并濾除標點符號,老撾語停用詞及干擾詞.在進行完上述處理后,還需對語料進行詞性標注[21,22]及命名實體抽取[23,24],為后續(xù)工作做準備.
表3 人工標注實體類型的部分實例
在預處理階段,本文對這27831個老撾語句子進行進一步的處理.首先濾除老撾語句子中實體個數為1或實體個數在2個以上的句子,保留句中只有2個實體的句子作為候選關系三元組,共獲得3961個句子.在這些候選關系三元組中包含了可能含有關系和無關系的老撾語句子,通過人工篩選,將沒有關系的候選關系三元組濾除,共篩選出2506個可能包含關系的候選關系三元組.然后借鑒了文獻[19]的思想,使用實體之間的距離限制,即如果兩個實體之間的單詞個數大于某個閾值threshold時,則認為該實體對之間的關系脆弱,理應去除,本文threshold設置為10.至此,共獲得候選關系三元組2378句,通過統(tǒng)計,實體對類型共包含12類,具體分布如表4所示.
表4 實體類型具體分布表
3.1.2 評價指標
本文所用方法屬于無監(jiān)督方法,事先未定義實體關系類型,也沒有使用人工對語料集進行實體間的關系標注,故無法通過程序直接對抽取結果進行判別對錯,因此本文采用人工判斷的方式決定候選關系三元組是否被正確分類,同時,無監(jiān)督實體關系抽取方法的抽取結果也很難直接評價召回率[19],因此本文使用準確率來評價方法的性能.
在本文獲取的候選關系三元組中,實體對類型包含12類,針對每一類實體類型分別聚類,并且在聚類過程中,每一類都會被分成若干個簇,因此,本文使用P來表示聚類中每個簇的準確率,PC表示每個類的準確率,并用平均準確率Pavg作為本文方法的最終評價指標.本文采用的Pavg可等同于領域內通用的準確率計算方式[13],具體如公式(6)-公式(8)所示:
(6)
式中,TP表示該簇中被正確分類的樣本個數,FP表示該簇中被錯誤分類的樣本個數.
(7)
式中,Vi為第i簇的實例的個數,Pi為第i簇的準確率.
(8)
式中,j表示12類實體對類型中的第j類.
本文模型由python語言構建,模型參數為默認值.
KANN-DBSCAN算法(3)https://github.com/412702/kann-dbscan/blob/master/KANN-DBSCAN/ClusterWay/KANN_DbScan.py由github上的開源代碼提供.
本文共設置3組對比實驗:1)上下文窗口對比實驗;2)聚類模型對比實驗;3)不同特征對比實驗.
3.3.1 上下文窗口對比實驗
1)實驗準備
針對上下文窗口的大小該如何設置的問題,本文根據文獻[17]的研究成果,將實體對之間(mid)的窗口設置為固定值10.圖4反映了在2378個候選關系三元組中單詞在不同區(qū)間的分布情況,圖中共包含3組數據(left、mid和right),具體分布如圖4所示.
圖4 候選關系三元組中單詞在不同區(qū)間的分布情況
其中w表示單詞個數,以區(qū)間0≤x≤2為例,表示單詞個數在0和2之間的候選關系三元組個數占總數的百分比.在left中,分布于單詞區(qū)間0≤x≤2的句子占據多數,在right中,在不同單詞區(qū)間句子分布相對比較平滑,除單詞區(qū)間0≤x≤2外,其他區(qū)間句子分布均在20%左右,由此可推斷出,位于right位置的信息可能多于left位置.綜上分析,本文設置了6個窗口大小進行對比實驗,分別為“0-10-0”、“0-10-2”、“0-10-5”,“2-10-0”、“2-10-2”、“2-10-5”.
2)對比實驗
在上下文窗口對比實驗里僅使用本文方法進行試驗.表5為不同上下文窗口對老撾語實體關系抽取效果的影響.從抽取結果可以看出,窗口“0-10-0”的抽取效果是最好的,明顯優(yōu)于其他窗口的結果.這說明“0-10-0”能更好的反映上下文背后隱藏的語義信息,而對于超出實體的部分(即left和right)更傾向于是關系抽取的噪音特征,可以看出,將它們考慮在內時關系抽取性能是降低的.
表5 不同上下文窗口對老撾語實體關系抽取效果的影響
3.3.2 聚類模型對比實驗
1)試驗準備
為了驗證本文改進聚類模型的有效性,將本文采用的改進KANN-DBSCAN聚類模型與傳統(tǒng)無監(jiān)督實體關系抽取中使用的K-Means聚類模型和層次聚類模型、文獻[33]使用的DBSCAN模型以及文獻[35]使用的KANN-DBSCAN聚類模型進行了對比試驗.
2)對比實驗
由表6實驗結果可知,與前人使用的聚類模型相比,本文使用的聚類模型效果最好.模型1相比于本文模型結果低了4.13%,這是由于模型1對噪音數據敏感,將噪音實例與正確實例分到一個簇中,降低了簇的結果;模型2與本文模型相比降低了4.60%,這是由于模型2對于高維空間數據的聚類效果較差引起的;模型3相較于本文模型準確率低了1.65%,原因是對兩個參數使用遍歷的方法進行最優(yōu)值的篩選,但是這容易導致參數篩選不均,僅得到局部最優(yōu)值;模型4使用自適應確定參數值的方法比模型3提高了0.25%,證明了自適應確定參數值的有效性;本文模型(模型5)相較于模型4提高了1.4%,驗證了余弦距離在聚類模型上優(yōu)于傳統(tǒng)的歐氏距離.
表6 不同聚類模型對比結果
3.3.3 選用不同特征對比實驗
本文為了驗證特征的有效性,設置了以下10組實驗:
1)僅使用上下文特征(CONTEXT),不融合其他任何額外特征及DCM方法,并作為本文實驗的基準(BASE);
2)使用融合距離特征(DISTANT)的上下文向量及DCM方法;
3)使用融合TF-IDF特征的上下文向量及DCM方法;
4)使用融合傳統(tǒng)的詞性特征(POS1)的上下文向量及DCM方法;
5)使用融合詞性位置特征(POS2)的上下文向量及DCM方法;
6)使用融合DISTANT和TF-IDF的上下文向量及DCM方法;
7)使用融合DISTANT和POS2的上下文向量及DCM方法;
8)使用融合TF-IDF和POS2的上下文向量及DCM方法;
9)使用融合DISTANT、TF-IDF和POS2的上下文向量及DCM方法;
10)使用融合DISTANT、TF-IDF和POS2的上下文向量及優(yōu)化的DCM(POS_DCM)方法.
該對比實驗通過融合不同特征來驗證特征對實體關系抽取的性能影響,最終結果如表7所示.從表7中觀察可知,本文方法(OUR)較基準方法(BASE)的平均準確率得到較大提升,提升了10.91%.試驗(4,5)對比,試驗性能提升了4%,這說明本文提出的詞性位置特征相較于傳統(tǒng)的詞性特征,在老撾語實體關系抽取中可以獲得更多的老撾語語義信息;在試驗(2,3,5)的對比實驗中,試驗性能相較于BASE分別提升了4.50%、2.46%和4.97%,證明了在融合單一特征時,本文提出的詞性位置特征的有效性;在融合多特征的試驗中,試驗(6~9)的抽取效果均好于融合單一特征的老撾語實體關系抽取,這表明融合多個特征比融合單一特征能夠引入更多的上下文信息,從而有利于獲取正確的關系三元組.試驗(9,10)驗證了本文優(yōu)化的DCM方法(POS_DCM)的有效性,在DCM中引入詞性信息后,抽取結果提升了0.83%.
表7 融合不同特征對試驗方法的性能影響
綜上,本文通過融合多特征及改進KANN-DBSCAN聚類模型,在老撾語無監(jiān)督實體關系抽取的研究中,獲得了不錯的性能提升.
考慮目前老撾語在實體關系抽取領域還沒有相關研究,本文在老撾語無監(jiān)督實體關系抽取領域進行了探索,提出了一種融合詞性位置的無監(jiān)督老撾語實體關系抽取方法.該方法不僅使用上下文特征,還融合了距離特征、TF-IDF特征和詞性位置特征來加強表征上下文的語義信息,同時,對聚類模型進行了一定的改進,在計算兩個實例是否相似時,使用余弦距離替換傳統(tǒng)的歐氏距離,最后,在關系標注時,優(yōu)化了DCM,引入詞性信息,實驗證明本文方法在一定程度上具有不錯的效果.下一步將考慮對無監(jiān)督老撾語實體關系抽取方法的準確率進行進一步的提升.