姚春華,劉 瀟,高弘毅,鄢秋霞
(1.中國電子科技集團(tuán)公司第三十研究所,四川 成都 610041;2. 解放軍駐西安郵電大學(xué)選培辦,陜西 西安 710061;3.中國電子科技網(wǎng)絡(luò)信息安全有限公司,四川 成都 610041)
隨著 計(jì)算機(jī)的普及和互聯(lián)網(wǎng)的迅猛發(fā)展,大量信息以電子文本的形式出現(xiàn)在人們面前。為了應(yīng)對信息爆炸帶來的挑戰(zhàn),迫切需要一些自動化的工具幫助人們在海量信息源中迅速找到真正需要的信息。信息抽取研究,正是在這種背景下產(chǎn)生的。信息抽取的主要目的是將無結(jié)構(gòu)的文本轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,并以數(shù)據(jù)庫的形式存儲,供用戶查詢以及進(jìn)一步分析利用。信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實(shí)信息,稱之為實(shí)體,如時(shí)間、組織機(jī)構(gòu)以及人物等。
然而,在大多數(shù)應(yīng)用中,不但要識別文本中的實(shí)體,還要確定這些實(shí)體之間的關(guān)系,稱其為實(shí)體關(guān)系抽取。與實(shí)體抽取類似,實(shí)體關(guān)系的類型也是預(yù)先定義的,如地理位置關(guān)系(PHYS)、雇傭關(guān)系(EMP-ORG)等。信息抽取的主要功能是自動將文本轉(zhuǎn)化為數(shù)據(jù)表格,實(shí)體抽取確定了表格中的各個(gè)元素,實(shí)體關(guān)系抽取則是確定這些元素在表格中的相對位置??梢?,實(shí)體關(guān)系抽取是信息抽取中的重要環(huán)節(jié)。
通常,人們將關(guān)系抽取問題轉(zhuǎn)化為一個(gè)分類問題,即首先識別一個(gè)句子中所有的二元實(shí)體對,然后使用一個(gè)分類器決定哪些是真正需要的關(guān)系。
和分類問題通常的解決辦法一樣,人們最初使用知識庫的方法來解決該問題。但是,方法需要專家構(gòu)建大規(guī)模的知識庫,不但需要有專業(yè)技能的專家,還需要付出大量勞動。
為了克服知識庫方法的缺點(diǎn),人們使用機(jī)器學(xué)習(xí)的方法來解決此問題。該方法不需要有專業(yè)技能的專家書寫知識庫,只需要有一定專業(yè)知識的人對任意兩個(gè)實(shí)體之間的關(guān)系做出是與不是需要判定的關(guān)系即可,然后以此為訓(xùn)練數(shù)據(jù),使用各種學(xué)習(xí)方法構(gòu)造分類器。
通常的機(jī)器學(xué)習(xí)算法需要構(gòu)造特征向量形式的訓(xùn)練數(shù)據(jù),然后使用各種機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(SVM)、Window、邏輯回歸Logistic等作為學(xué)習(xí)構(gòu)造分類器。這種方法被稱作基于特征向量的機(jī)器學(xué)習(xí)算法。因此,本文采用詞法、句法語義特征,以基于特征向量的機(jī)器學(xué)習(xí)算法作為實(shí)體關(guān)系抽取的方法,采用的機(jī)器學(xué)習(xí)算法是Logistic回歸算法。
CNKI統(tǒng)計(jì)顯示,自2007年以來,實(shí)體關(guān)系抽取研究的關(guān)注度一直呈上升趨勢,說明實(shí)體關(guān)系抽取得到了越來越多的重視。目前,ACE會議也將關(guān)系抽取作為評測內(nèi)容之一。
實(shí)體關(guān)系抽取的研究思路主要有基于語言規(guī)則模板的方法、基于詞典驅(qū)動的方法、基于Ontology的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法等。近幾年的研究趨勢表明,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)成為主流。
英文的實(shí)體關(guān)系抽取已經(jīng)有非常成熟的技術(shù)。在非監(jiān)督算法領(lǐng)域,通常會用到上下文特征。
1954年,Harris在Distributional hypothesis theory指出,如果兩個(gè)詞經(jīng)常出現(xiàn)在同一個(gè)上下文環(huán)境中,在語義上極有可能近似,進(jìn)而以此作為理論基礎(chǔ)來判定此二元實(shí)體對是否包含同樣的實(shí)體關(guān)系[1]。
2004年,Hasegawa通過采用分等級聚類方法來聚類實(shí)體的上下文,簡單選擇上下文中最常用的詞作為特征來表示實(shí)體之間的關(guān)系[2]。
而在監(jiān)督算法領(lǐng)域,實(shí)體關(guān)系抽取通常是一個(gè)多分類問題,傳統(tǒng)的機(jī)器學(xué)習(xí)通常會構(gòu)造復(fù)雜的特征來增強(qiáng)模型的性能。
Kambhatla于2004年采用詞匯、句法和語義特征來構(gòu)建特征向量,再與最大熵模型相結(jié)合來提取實(shí)體關(guān)系[3]。
Suchanek等人于2006年結(jié)合語言和統(tǒng)計(jì)分析來構(gòu)建特征向量,從網(wǎng)絡(luò)文本中提取實(shí)體關(guān)系[4]。
2011年,Phillippe Thomas等人提出了一種利用集成學(xué)習(xí)(Ensemble Learning)抽取藥物之間的相互作用的方法。該方法基于不同語言特征空間構(gòu)建多種機(jī)器學(xué)習(xí)方法,選出了實(shí)驗(yàn)效果最好的方法[5]。
2012年,Mihai Surdeanu等人采用多實(shí)例多標(biāo)記學(xué)習(xí)引入到關(guān)系抽取中,形成了一種新的方法。它利用帶有潛在變量的圖模型,將文本中實(shí)體對及其標(biāo)記融合在一起,一定程度上克服了遠(yuǎn)距離監(jiān)督學(xué)習(xí)的缺陷。實(shí)驗(yàn)表明,它在兩類不同領(lǐng)域的文本中性能表現(xiàn)良好[6]。
2013年,Haiguang Li、Gongqing Wu等 在Applied intelligence提出了一種基于位置語義特征的命名實(shí)體關(guān)系抽取方法。它利用位置特征的可計(jì)算性和可操作性、語義特征的可理解性和可實(shí)現(xiàn)性,整合了詞語位置的信息增益與基于HowNet的語義計(jì)算結(jié)果,最終明顯提升了關(guān)系抽取效果[7]。
近幾年,隨著深度學(xué)習(xí)的推廣,它廣泛應(yīng)用于自然語言處理領(lǐng)域。深度學(xué)習(xí)并不依賴于所設(shè)計(jì)的特征,可以自動學(xué)習(xí)到高階特征。
2014年,zeng等人使用深度卷積神經(jīng)網(wǎng)絡(luò)來提取實(shí)體關(guān)系,但CNN無法學(xué)習(xí)到長距離的語義信息[8]。
于是,2015年Zhang和Wang使用了BiRNN來進(jìn)行實(shí)體關(guān)系抽取,能夠克服長距離語義信息,并且可以學(xué)習(xí)到過去和未來的特征,但是會產(chǎn)生上下文梯度消失的問題[9]。
中文實(shí)體關(guān)系抽取的研究也取得了豐碩成果。
何婷婷等人于2006年提出了一種基于種子自擴(kuò)展的命名實(shí)體關(guān)系抽取方法,能夠從大量文本集合中自動抽取命名實(shí)體間關(guān)系。具體地,人工選取少量具有抽取關(guān)系的命名實(shí)體對作為初始關(guān)系的種子集合,通過自學(xué)習(xí)不斷擴(kuò)展關(guān)系種子集合,再通過計(jì)算命名實(shí)體對和關(guān)系種子之間的上下文相似度來得到所要抽取的命名實(shí)體對[10]。
2007年,陳火旺等人通過使用一系列特征,包括詞、詞性標(biāo)注、實(shí)體和出現(xiàn)信息、包含關(guān)系和知網(wǎng)提供的概念信息等,來構(gòu)建實(shí)體關(guān)系抽取的特征向量,并使用SVM方法實(shí)現(xiàn)中文實(shí)體關(guān)系抽取[11]。
2013年,陳鵬等人提出一種基于凸組合核函數(shù)的中文領(lǐng)域?qū)嶓w關(guān)系抽取方法。首先選取實(shí)體上下文的詞、詞性等信息,短語句法數(shù)信息及依存信息作為特征,然后通過以徑向基核函數(shù)、Sigmoid核函數(shù)及多項(xiàng)式核函數(shù)組成的不同組合比例的凸組合核函數(shù),將特征矩陣映射成為不同的高維矩陣,然后利用支持向量機(jī)訓(xùn)練這些高維矩陣構(gòu)建不同分類模型后測試抽取性能,以確定最優(yōu)組合比例的凸組合核函數(shù)[12]。
由于中文語言結(jié)構(gòu)的獨(dú)特性和語義的復(fù)雜性,中文實(shí)體關(guān)系抽取研究整體上與國外的研究還存在一定差距。一方面常用的基于淺層語法分析獲取特征、構(gòu)建特征向量、進(jìn)行機(jī)器學(xué)習(xí)的方法已經(jīng)達(dá)到瓶頸,另一方面中文實(shí)體關(guān)系抽取開源的語料庫特別少,如果采用監(jiān)督學(xué)習(xí)的方法需要克服語料缺少的情況。
本文針對人與人之間的六種關(guān)系——父母、子女、夫妻、兄弟姐妹、同事、其他,采用百度百科的語料庫構(gòu)建五個(gè)類別(父母、子女、夫妻、兄弟姐妹、同事)的關(guān)系指示詞詞典,再根據(jù)關(guān)系指示詞詞典來判定實(shí)體對關(guān)系類型。采用上述方法,結(jié)合人工標(biāo)定來擴(kuò)充五個(gè)類別(父母、子女、夫妻、兄弟姐妹、同事)語料庫,根據(jù)中文的語法特點(diǎn),設(shè)計(jì)了一系列特征,包括實(shí)體本身的詞、詞性標(biāo)注和實(shí)體上下文環(huán)境的詞、詞性特征。另外,融入了實(shí)體的依存句法關(guān)系值、實(shí)體與核心謂詞距離的特征,采用logistic進(jìn)行訓(xùn)練和測試。此外,針對文本中含有多對二元實(shí)體對,通過統(tǒng)計(jì)文本中關(guān)系指示詞典的個(gè)數(shù),使得句子中二元實(shí)體對不超過關(guān)系指示詞典的個(gè)數(shù)。
針對中文人與人關(guān)系語料庫缺少的情況,本文提出了基于關(guān)系指示詞詞典擴(kuò)充實(shí)體關(guān)系語料。首先人工選出人與人五種關(guān)系的種子詞,再利用種子詞和《同義詞詞林(擴(kuò)展版)》資源擴(kuò)展形成關(guān)系指示詞詞典。根據(jù)人與人關(guān)系在中文語法句式結(jié)構(gòu)的特點(diǎn),可以總結(jié)出以下四條規(guī)則:
(1)根據(jù)實(shí)際經(jīng)驗(yàn)統(tǒng)計(jì),兩個(gè)實(shí)體之間的詞數(shù)目小于等于5的實(shí)體關(guān)系三元組數(shù)目占總的實(shí)體關(guān)系三元組數(shù)目的74.57%。因此,在生成候選實(shí)體關(guān)系三元組時(shí),兩個(gè)實(shí)體之間的詞數(shù)目不能超過maxDistance(設(shè)置為7)。若兩個(gè)實(shí)體之間含有標(biāo)點(diǎn)符號,則標(biāo)點(diǎn)符號與第二個(gè)實(shí)體之間的詞數(shù)目不能超過maxDistance。
(2)兩個(gè)實(shí)體之間其他實(shí)體數(shù)目小于或等于4的實(shí)體關(guān)系實(shí)例數(shù)目占實(shí)體關(guān)系三元組數(shù)目的98.55%,所以設(shè)定實(shí)體之間其他實(shí)體數(shù)量不能超過maxEntityDistance(設(shè)置為4)。
(3)通過統(tǒng)計(jì)發(fā)現(xiàn),關(guān)系指示詞一般為名詞和動詞。
(4)關(guān)系指示詞通常與二元實(shí)體對之間有比較明顯的位置關(guān)系。關(guān)系指示詞一般位于第一個(gè)實(shí)體左邊的leftWordNumber(設(shè)置為3)個(gè)名詞和動詞、第二個(gè)實(shí)體右邊rightWordNumber(設(shè)置為3)個(gè)名詞和動詞和第一個(gè)實(shí)體與第二個(gè)實(shí)體之間。
為了處理句子中含有多對實(shí)體關(guān)系對,結(jié)合關(guān)系指示詞與二元實(shí)體對不同位置設(shè)置不同的權(quán)重。若關(guān)系指示詞位于第一個(gè)實(shí)體左邊為w1(設(shè)置為0.4),關(guān)系指示詞位于第二個(gè)實(shí)體右邊為w2(設(shè)置為0.3),關(guān)系指示詞位于兩個(gè)實(shí)體中間為w3(設(shè)置為0.2),分別計(jì)算關(guān)系指示詞與二元實(shí)體對之間的距離與其相應(yīng)位置的權(quán)重乘積所得的分?jǐn)?shù),選出分?jǐn)?shù)最低的為所識別關(guān)系三元組。
擴(kuò)充實(shí)體關(guān)系語料庫的具體流程如圖1所示。首先,人工選出人與人五種關(guān)系的種子詞,利用種子詞和《同義詞詞林(擴(kuò)展版)》資源擴(kuò)展形成關(guān)系指示詞詞典;其次,結(jié)合人與人關(guān)系在中文語法句式結(jié)構(gòu)的特點(diǎn)總結(jié)出的四條規(guī)則從百度百科文本中抽取滿足人與人五種關(guān)系的三元組;最后,加以人工輔助標(biāo)定所識別的人與人的關(guān)系三元組(人名1,人名2,關(guān)系)來豐富語料庫,從而可以用于后續(xù)的Logistic機(jī)器學(xué)習(xí)算法。
圖1 基于關(guān)系指示詞詞典擴(kuò)充實(shí)體關(guān)系語料庫
Logistic是應(yīng)用非常廣泛的一個(gè)分類機(jī)器學(xué)習(xí)算法。它將數(shù)據(jù)擬合到一個(gè)logit函數(shù)(或者叫做logistic函數(shù))中,從而能夠完成對事件發(fā)生概率的預(yù)測。
Logistic算法主要用于分類,屬于一種線性的分類器,適用于類別少、特征多的分類器,且對每一個(gè)類別的判定能給出一個(gè)概率值。模型相對比較簡單,訓(xùn)練速度較快,在模型預(yù)測時(shí)計(jì)算量相對較小,模型的預(yù)測效率高,存儲資源低,適用大規(guī)模數(shù)據(jù)量訓(xùn)練。
本文要解決人與人六種關(guān)系(父母、子女、夫妻、兄弟姐妹、同事、其他)六分類模型。另外,由于‘其他’這個(gè)類別比(父母、子女、夫妻、兄弟姐妹、同事)五個(gè)類別總的語料需求大,容易導(dǎo)致‘其他’特征較多,出現(xiàn)過擬合現(xiàn)象。所以,本文選取Logistic回歸模型,能夠預(yù)測每一個(gè)類別的概率。若五個(gè)類別(父母、子女、夫妻、兄弟姐妹、同事)概率小于預(yù)先設(shè)定的閾值(設(shè)置為0.5),則判為其他。
模型表達(dá)式:
其中z=θTX ,可以看作是一個(gè)線性回歸模型,θ為特征系數(shù)??梢酝ㄟ^最大似然估計(jì)來學(xué)習(xí)樣本的后驗(yàn)概率,在學(xué)習(xí)過程中可以給模型參數(shù)添加L1或者L2正則來簡化模型,使得模型效率更高。
模型預(yù)測表達(dá)式:
模 型 參 數(shù) 估 計(jì)。 假 設(shè) P(y=1|x)=π(x),P(y=0|x)=1-π(x),似然函數(shù)為:
對數(shù)似然函數(shù)為:
對L(θ)求極大值,得到θ的估計(jì)值。這樣問題就變成了以對數(shù)似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問題。Logistic學(xué)習(xí)中,通常采用的方法是梯度下降法和擬牛頓法。
假設(shè)θ的極大似然估計(jì)值是θ^,那么學(xué)到的Logistic模型為:
多分類的Logistic模型。上述Logistic模型是二項(xiàng)分類模型,用于二類分類。可以將其推廣為多項(xiàng)Logistic模型,用于多類分類。假設(shè)離散型隨機(jī)變量y的取值集合是{1,2,…,K},則多項(xiàng)Logistic回歸模型為:
同理,二項(xiàng)Logistic的參數(shù)估計(jì)方法也可以推廣到多項(xiàng)Logistic回歸。
基于特征向量的機(jī)器學(xué)習(xí)算法是對給定的一組訓(xùn)練數(shù)據(jù)(x1,y1),(x2,y2),…(xn,yn),其中對于二元分類問題yi∈{0,±1},學(xué)習(xí)一個(gè)分類函數(shù)f,使得對于給定新的特征向量x',f能夠?qū)⑵湔_分類,即f(x')=y'。
對于自然語言處理問題,如何構(gòu)造特征向量成為使用基于特征向量學(xué)習(xí)算法的一個(gè)重要環(huán)節(jié)。例如,在文本分類任務(wù)中,通常使用一個(gè)詞作為特征向量,而向量中元素的值可以是二元的1或0,代表某個(gè)詞出現(xiàn)與否,或者是該詞在一篇文檔中出現(xiàn)的次數(shù)。目前,使用詞的tf×idf值作為元素值,取得了較好的分類效果。在其他一些自然語言處理問題中,向量的每個(gè)元素表示的是一些預(yù)先定義的特征在實(shí)例中出現(xiàn)與否,即根據(jù)特征函數(shù)fi∶H×T→{0,1}決定第i維向量元素的值。其中,H是實(shí)例上下文的集合,T是實(shí)例所屬類別的集合,則特征向量的第i維向量元素xi=fi(h,t)。于是,構(gòu)造了一個(gè)維數(shù)巨大的特征向量。此特征向量即可作為某一機(jī)器學(xué)習(xí)算法的輸入數(shù)據(jù)進(jìn)行學(xué)習(xí)和預(yù)測。
常規(guī)的實(shí)體關(guān)系特征主要從詞法分析結(jié)果來獲取,以往的研究已經(jīng)表明了這些特征的有效性。面向句子中所有實(shí)體組成的二元實(shí)體對,本文結(jié)合詞法特征和句法語義特征,分析其選擇的實(shí)體關(guān)系特征。
(1)二元實(shí)體的長度。根據(jù)命名實(shí)體結(jié)果的標(biāo)識信息中獲取多詞實(shí)體的邊界和其首尾詞的位置來計(jì)算實(shí)體長度。
(2)二元實(shí)體的種類。目前,使用的LTPCloud工具能夠識別的實(shí)體種類有人名、地名、組織機(jī)構(gòu)名,所以實(shí)體種類只選擇這三種。
(3)二元實(shí)體的內(nèi)容。
(4)二元實(shí)體中各詞的詞性標(biāo)注。
(5)二元實(shí)體的上下文環(huán)境。通常,實(shí)體周圍的w個(gè)詞也是較好的特征,如實(shí)體前后w個(gè)詞的內(nèi)容以及詞性標(biāo)注信息,這里w可以取2或者3。因?yàn)橐话闱闆r下,距離較遠(yuǎn)的詞對詞性標(biāo)注不起重要作用,且如果w的選擇過大,會增加計(jì)算量。
(6)二元實(shí)體的句法依存關(guān)系。依存句法能夠有效分析句子中各詞語之間的依存關(guān)系,通過對其這一功能的應(yīng)用,可以作為實(shí)體關(guān)系抽取一項(xiàng)特征。通過Ltp-Cloud對句子進(jìn)行句法語義分析,獲取實(shí)體對中每一個(gè)實(shí)體在原句中所屬的句法依存關(guān)系值,其中包括每一個(gè)實(shí)體依賴的父節(jié)點(diǎn)的詞、詞性標(biāo)注和每一個(gè)實(shí)體依賴的子節(jié)點(diǎn)的詞、詞性標(biāo)注。
(7)二元實(shí)體與核心謂詞的距離。對句法分析的結(jié)果進(jìn)行大量實(shí)驗(yàn)后發(fā)現(xiàn),在所有謂詞中,核心謂詞對獲取實(shí)體邊界、承接實(shí)體關(guān)系起著關(guān)鍵作用。句子中命名實(shí)體與核心謂詞的平均距離和命名實(shí)體與普通謂詞的平均距離有明顯差異,所以實(shí)體與核心謂詞的距離也是實(shí)體之間的一種隱含關(guān)系特征。根據(jù)實(shí)體首詞在句中的位置和核心謂詞的距離,計(jì)算每一個(gè)實(shí)體與核心謂詞的距離。
如圖2所示,本文利用基于關(guān)系指示詞詞典擴(kuò)充實(shí)體關(guān)系語料庫,得到人與人關(guān)系三元組(人名1,人名2,關(guān)系)語料庫,再利用哈爾濱工業(yè)大學(xué)LTP-Cloud平臺對語料進(jìn)行初步處理。以LTPCloud對語料的詞法、句法分析結(jié)果為基礎(chǔ)生成二元實(shí)體對,并采集所有二元實(shí)體對利用2.3章節(jié)的7條特征生成訓(xùn)練文本,并交由logistic進(jìn)行訓(xùn)練。
圖2 二元實(shí)體對關(guān)系抽取的Logistic模型訓(xùn)練流程
本文設(shè)定了五種人與人之間的實(shí)體關(guān)系類型,分別是父母、子女、夫妻、兄弟姐妹、同事。由于本文將實(shí)體關(guān)系抽取過程看作是分類過程,這里采用準(zhǔn)確率、召回率和F1值作為評價(jià)方式。
準(zhǔn)確率:
本文采用百度百科數(shù)據(jù),人工標(biāo)定的父母、子女、夫妻、兄弟姐妹、同事、其他的語料。其中,90%作為訓(xùn)練語料,10%作為測試語料,具體數(shù)據(jù)如表1所示。然后,利用哈爾濱工業(yè)大學(xué)Ltp-Cloud分析每一對二元實(shí)體對所在句子中詞法、句法語義特征數(shù)據(jù),并人工添加實(shí)體關(guān)系分類標(biāo)注,最終形成訓(xùn)練語料。采用scikit-learn中的DictVectorizer將特征數(shù)據(jù)進(jìn)行特征向量化,采用scikit-learn中的LogisticRegression訓(xùn)練模型。其中,DictVectorizer使用默認(rèn)的參數(shù)設(shè)置,LogisticRegression函數(shù)的參數(shù)設(shè)置為penalty='l2',dual=False,tol=0.0001 solver='newton-cg',multi_class='multinomial'。
表1 人與人六種關(guān)系訓(xùn)練和測試語料分布情況表
本文先針對人與人五種關(guān)系(父母、子女、夫妻、兄弟姐妹、同事)語料庫進(jìn)行Logistic訓(xùn)練和測試,表2分別為五種類別的精確率和召回率。
表2 去除實(shí)體識別錯(cuò)誤,父母、子女、夫妻、兄弟姐妹、同事各個(gè)類別的準(zhǔn)確率與召回率
另外,二元實(shí)體對之間的關(guān)系可能是無關(guān)系或者不在上述五類中,將這一類定義為“其他”類別。“其他”類別數(shù)據(jù)過于繁雜,將易導(dǎo)致“其他”如果將“其他”和父母、子女、夫妻、兄弟姐妹、同事五類一起訓(xùn)練出現(xiàn)“其他”這個(gè)類別特征數(shù)遠(yuǎn)大于語料數(shù)而發(fā)生過擬合現(xiàn)象,最后導(dǎo)致模型預(yù)測出現(xiàn)誤差。由于本文收集的‘其他’這個(gè)類別語料庫遠(yuǎn)遠(yuǎn)小于實(shí)際需要的語料庫,為解決上述問題,將父母、子女、夫妻、兄弟姐妹、同事和其他六類訓(xùn)練一個(gè)Logistic模型。對于一個(gè)二元實(shí)體對,構(gòu)建其相應(yīng)的特征向量,通過Logistic模型判定,若其判為這五個(gè)類別(父母、子女、夫妻、兄弟姐妹、同事)概率的最大值小于某個(gè)閾值(設(shè)置為0.5),則將其判為“其他”類別;若大于某個(gè)閾值,則將其判為既已判定的類別。另外,針對文本中含有多對二元實(shí)體對,通過統(tǒng)計(jì)文本中關(guān)系指示詞典的個(gè)數(shù),使得句子中二元實(shí)體對不超過關(guān)系指示詞的個(gè)數(shù)。計(jì)算概率前n個(gè)二元實(shí)體對,其中n=min{句子中二元實(shí)體對個(gè)數(shù),句子中關(guān)系指示詞的個(gè)數(shù)},具體流程圖如圖3所示。
圖3 采用Logistic模型識別實(shí)體關(guān)系抽取流程
本文提出了一種基于句法語義特征的實(shí)體關(guān)系抽取方法。與以往的實(shí)體關(guān)系抽取方法相比,本文新增了句法分析結(jié)果和語義分析結(jié)果作為實(shí)體關(guān)系抽取的特征,然后采用Logistic分類器進(jìn)行訓(xùn)練模型。句子中含有多對二元實(shí)體對,通過統(tǒng)計(jì)文本中關(guān)系指示詞的個(gè)數(shù),需構(gòu)建句子中實(shí)際含有的二元實(shí)體對,解決多判和漏判的二元關(guān)系實(shí)體對。針對采用Logistic分類訓(xùn)練模型但缺乏樣本的情況,本文又提出了一種基于關(guān)系指示詞詞典擴(kuò)充人與人關(guān)系語料。具體地,采用百度百科的語料庫構(gòu)建五個(gè)類別(父母、子女、夫妻、兄弟姐妹、同事)的關(guān)系指示詞詞典,根據(jù)關(guān)系指示詞詞典判定實(shí)體對關(guān)系類型,采用上述方法,結(jié)合人工標(biāo)定來擴(kuò)充五個(gè)類別(父母、子女、夫妻、兄弟姐妹、同事)語料庫。本文是以句子為處理單位,缺少篇章處理的視野,未考慮實(shí)體的指代消解問題,未來,將在上述方面繼續(xù)做深入研究。另外,本文采用監(jiān)督學(xué)習(xí)的方法,對樣本擴(kuò)充有一定人工標(biāo)定量,未來將在語料自動擴(kuò)充做一些深入研究。