黃楊琛,賈焰,甘亮,徐菁,黃九鳴,赫中翮
?
基于遠(yuǎn)程監(jiān)督的多因子人物關(guān)系抽取模型
黃楊琛1,賈焰1,甘亮1,徐菁1,黃九鳴1,赫中翮2
(1. 國防科技大學(xué)計(jì)算機(jī)學(xué)院,湖南 長沙 410073;2. 湖南星漢數(shù)智科技有限公司知識圖譜研發(fā)部,湖南 長沙 410205)
針對遠(yuǎn)程監(jiān)督的基本假設(shè)過強(qiáng)容易引入噪聲數(shù)據(jù)的問題,提出了一種可以對遠(yuǎn)程監(jiān)督自動生成的訓(xùn)練數(shù)據(jù)去噪的人物實(shí)體關(guān)系抽取模型。在訓(xùn)練數(shù)據(jù)生成階段,通過多示例學(xué)習(xí)的思想和基于TF-IDF的關(guān)系指示詞發(fā)現(xiàn)的方法對遠(yuǎn)程監(jiān)督產(chǎn)生的數(shù)據(jù)進(jìn)行去噪處理,使訓(xùn)練數(shù)據(jù)達(dá)到人工標(biāo)注質(zhì)量。在模型分類器中,提出采用詞法特征和句法特征相結(jié)合的多因子特征作為關(guān)系特征向量用于分類器的學(xué)習(xí)。在大規(guī)模真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型結(jié)果優(yōu)于同類型的關(guān)系抽取方法。
關(guān)系抽??;人物關(guān)系;遠(yuǎn)程監(jiān)督;機(jī)器學(xué)習(xí);自然語言處理
在互聯(lián)網(wǎng)產(chǎn)生的爆炸式增長的電子文本信息中,大量人物實(shí)體以及他們之間的關(guān)系信息涵蓋其中。面對如此多元異質(zhì)的數(shù)據(jù),人們必須采用信息抽取技術(shù)才能滿足其從中快速獲取有效信息的需求。關(guān)系抽取作為信息抽取的一項(xiàng)重要任務(wù),第一次正式提出是在1998年的第七屆消息理解大會(MUC, message understanding conference)上[1],它是指從自然語言文本中發(fā)現(xiàn)和識別2個實(shí)體之間的語義關(guān)系的過程[2]。
實(shí)體關(guān)系抽取技術(shù)突破了傳統(tǒng)的人工閱讀、理解等方式來獲得語義關(guān)系的限制,取而代之的是語義關(guān)系的自動查找和抽取[3]。作為自然語言處理中的熱門研究領(lǐng)域,實(shí)體關(guān)系抽取一直是信息抽取領(lǐng)域的重要方向。關(guān)系抽取的早期研究主要是通過人工建立語法和語義規(guī)則,然后通過模式匹配的方法來識別實(shí)體的關(guān)系[4-6]。由于這些方法需要大量的人工處理和專業(yè)知識的前期準(zhǔn)備,研究人員開始嘗試機(jī)器學(xué)習(xí)方法。根據(jù)對標(biāo)注數(shù)據(jù)的依賴程度,基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法可分為有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、遠(yuǎn)程監(jiān)督學(xué)習(xí)及無監(jiān)督學(xué)習(xí)的方法。有監(jiān)督學(xué)習(xí)方法將關(guān)系抽取作為一個分類問題,根據(jù)訓(xùn)練數(shù)據(jù)設(shè)計(jì)有效的特征,然后構(gòu)造各種分類模型,最后使用訓(xùn)練好的分類器來預(yù)測關(guān)系。在特征選擇上,可以結(jié)合詞匯、句法、語義等特征來訓(xùn)練關(guān)系分類器[7],還可以加入語法分析樹和依存關(guān)系樹來形成特征向量[8],此外,還有研究加入了關(guān)系特征詞的位置信息特征來進(jìn)行關(guān)系分類[9]。另外,為了避免人工設(shè)計(jì)特征工程的缺陷,學(xué)者們開始利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來自動學(xué)習(xí)自然語言文本特征然后進(jìn)行實(shí)體關(guān)系抽取[10-12],這類深度學(xué)習(xí)方法也屬于有監(jiān)督學(xué)習(xí)方法。有監(jiān)督的關(guān)系抽取系統(tǒng)準(zhǔn)確率和召回率都很高,但是嚴(yán)重依賴于事先制定好的關(guān)系類型體系和標(biāo)注數(shù)據(jù)集。尤其是深度學(xué)習(xí)的方法,由于神經(jīng)網(wǎng)絡(luò)本身的特點(diǎn),需要大量的訓(xùn)練數(shù)據(jù)才能得到較好的分類網(wǎng)絡(luò)模型。半監(jiān)督學(xué)習(xí)方法主要采用Bootstrapping[13]、標(biāo)簽傳播[14]等方式來進(jìn)行關(guān)系抽取。對于要抽取的關(guān)系,該方法首先手工設(shè)定若干種子實(shí)例,然后迭代地從數(shù)據(jù)中抽取關(guān)系對應(yīng)的關(guān)系模板和更多的實(shí)例。與有監(jiān)督學(xué)習(xí)方法相比,半監(jiān)督學(xué)習(xí)方法可以大大減少學(xué)習(xí)過程中需要的標(biāo)注語料庫的規(guī)模,但是初始種子集的選取問題以及迭代過程中噪聲的干擾問題等會影響該方法的實(shí)際性能。而無監(jiān)督[15-16]的開放式關(guān)系抽取方法是假設(shè)擁有相同語義關(guān)系的實(shí)體對擁有相似的上下文信息,從而利用每個實(shí)體對應(yīng)的上下文信息來代表該實(shí)體對的語義關(guān)系,并對所有實(shí)體對的語義關(guān)系進(jìn)行聚類。無監(jiān)督實(shí)體關(guān)系抽取不需要預(yù)先定義實(shí)體關(guān)系類型體系,具有領(lǐng)域無關(guān)性,這在處理海量開放領(lǐng)域數(shù)據(jù)時很有優(yōu)勢,但其聚類閾值難以事先確定,抽取結(jié)果的準(zhǔn)確率較低,并且目前仍缺乏較客觀的評價標(biāo)準(zhǔn)。
近年來,各種大型知識庫(KB, knowledge base)如Freebase[17]、DBpedia[18]、YAGO[19]以及在線百科知識庫已建成,這對于構(gòu)造有監(jiān)督機(jī)器學(xué)習(xí)方法的訓(xùn)練數(shù)據(jù)有極大的價值。Mintz等[20]于2009年首次在關(guān)系抽取領(lǐng)域提出遠(yuǎn)程監(jiān)督(DS, distant supervision)的思想。遠(yuǎn)程監(jiān)督方法假設(shè)如果2個實(shí)體在知識庫中是有關(guān)系的,那么所有包含這2個實(shí)體的句子都將表達(dá)這種關(guān)系?;谶h(yuǎn)程監(jiān)督的關(guān)系抽取自發(fā)地對齊自然語言文本和給定的知識庫,然后使用對齊的結(jié)果產(chǎn)生弱標(biāo)簽訓(xùn)練數(shù)據(jù)來學(xué)習(xí)關(guān)系提取[21-22]。圖1是一個采用遠(yuǎn)程監(jiān)督技術(shù)進(jìn)行關(guān)系抽取的系統(tǒng)示例(本文出現(xiàn)的人名均為舉例用,與實(shí)際無關(guān))。在該系統(tǒng)中,首先通過遠(yuǎn)程監(jiān)督技術(shù)在對齊自然語言文本和知識庫時,將識別出的含有某人物實(shí)體對的句子標(biāo)記為知識庫中該實(shí)體對關(guān)系的弱標(biāo)簽數(shù)據(jù),然后針對相關(guān)人物對的關(guān)系查詢,系統(tǒng)通過將從句子中提取到的相關(guān)特征輸入分類器中進(jìn)行關(guān)系判斷,最后通過分類結(jié)果中的關(guān)系概率大小來將正確的關(guān)系事實(shí)結(jié)果放入關(guān)系知識庫中。這既解決了有監(jiān)督方法過于依賴人工標(biāo)記數(shù)據(jù)的問題,又在一定程度上避免了無監(jiān)督方法準(zhǔn)確率較低的問題。
但是,遠(yuǎn)程監(jiān)督的基本假設(shè)并不嚴(yán)謹(jǐn),在語料庫中的實(shí)體對共現(xiàn)句中并不一定都能表達(dá)實(shí)體對在知識庫中的關(guān)系。例如,“李明帶領(lǐng)大家來到了新聞發(fā)布會現(xiàn)場,張莉隨后也出現(xiàn)在現(xiàn)場?!边@個共現(xiàn)句在語義上并不能表達(dá)他們之間的“夫妻”關(guān)系事實(shí)。這種包含了實(shí)體對卻不能提取到關(guān)系特征的句子屬于遠(yuǎn)程監(jiān)督方法產(chǎn)生的噪聲數(shù)據(jù),應(yīng)當(dāng)將其過濾。目前,關(guān)系抽取的研究主要集中在英文資源的處理上,這主要是因?yàn)橹形恼Z料需要分詞,并且存在復(fù)雜的句式結(jié)構(gòu)和隱含語義,因此中文人物關(guān)系抽取更加困難。另外,中文的知識庫建設(shè)比較晚,遠(yuǎn)程監(jiān)督在中文語料的關(guān)系抽取中的研究還比較少。潘云等[23]首次嘗試?yán)弥形幕影倏圃诰€資源構(gòu)建中文的人物關(guān)系抽取系統(tǒng),采用的是標(biāo)簽傳播算法訓(xùn)練模型,得到68%左右的準(zhǔn)確率,但此方法并沒有進(jìn)行遠(yuǎn)程監(jiān)督數(shù)據(jù)的去噪處理。黃蓓靜等[24]利用詞向量及句子模式抽取、聚類及評分的方法,對遠(yuǎn)程監(jiān)督人物關(guān)系抽取過程得到的原始訓(xùn)練集中的噪聲句子進(jìn)行過濾,達(dá)到對遠(yuǎn)程監(jiān)督產(chǎn)生的訓(xùn)練集去噪的目的,但是該方法所用的模式抽取方法可遷移性不好,具有很強(qiáng)的領(lǐng)域特性。
圖1 基于遠(yuǎn)程監(jiān)督的關(guān)系抽取系統(tǒng)
基于以上研究的不足,本文提出了一個針對中文文本的遠(yuǎn)程監(jiān)督人物關(guān)系抽取模型。該模型的主要方法和貢獻(xiàn)包括以下3個方面。
1) 通過遠(yuǎn)程監(jiān)督技術(shù)自動產(chǎn)生標(biāo)注數(shù)據(jù)集,并且進(jìn)一步地利用多示例學(xué)習(xí)思想以及本文提出的基于詞頻—逆文檔頻率(TF-IDF, term frequency-inverse document frequency)的過濾算法來獲取更準(zhǔn)確的訓(xùn)練數(shù)據(jù)。在不需要人工參與的情況下,可以獲得大量高質(zhì)量的訓(xùn)練數(shù)據(jù)集。
2) 本文模型在訓(xùn)練過程的特征選擇中,綜合考慮自然語言文本的多因子特征,包括詞法特征和句法依存分析產(chǎn)生的句法特征,通過多因子特征向量各參數(shù)綜合調(diào)優(yōu)達(dá)到較好的分類效果。
3) 本文模型具有較好的可拓展性,可適應(yīng)新關(guān)系類型的抽取任務(wù)。即不需要人工干預(yù)標(biāo)注的情況下,任何新的人物關(guān)系的抽取任務(wù)都可以使用本文模型來快速實(shí)現(xiàn)。
句子的句法結(jié)構(gòu)描述了句子中的短語結(jié)構(gòu)、依存結(jié)構(gòu)及其功能。依存結(jié)構(gòu)分析是句法結(jié)構(gòu)分析的一個重要方面,它通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu),主張句子中核心謂詞是支配其他成分的中心成分,而其本身卻不受其他任何成分的支配,所有受支配的成分都以某種依存關(guān)系從屬于支配者[28]。對于關(guān)系抽取來說,由于句子中的命名實(shí)體必定是作為一個短語結(jié)構(gòu)出現(xiàn)在依存結(jié)構(gòu)中的,那么這種依存關(guān)系也必然會反映出相應(yīng)實(shí)體之間的關(guān)系特征[29]。
例如,“這是王磊與趙娟11歲的大女兒多多,大名叫王思南。”其中,文分詞和句法分析結(jié)果如圖2所示。從圖2可以看出,人物實(shí)體“王磊”和關(guān)系詞“女兒”存在著定中關(guān)系,關(guān)系詞“女兒”與核心謂詞“叫”存在著主謂關(guān)系,而核心謂詞“叫”與人物實(shí)體“王思南”之間又存在著動賓關(guān)系,通過這樣的句法依存分析可以發(fā)現(xiàn),人物實(shí)體“王磊”與“王思南”都是依存于關(guān)系詞“女兒”的。進(jìn)一步,通過“王磊”與“趙娟”之間的并列關(guān)系,又可以得到人物實(shí)體“趙娟”與“王思南”之間與關(guān)系詞“女兒”的依存關(guān)系。
與以上例句的分析結(jié)果類似,對依存句法分析的結(jié)果進(jìn)行大量研究后發(fā)現(xiàn),核心謂詞對獲取實(shí)體邊界、承接實(shí)體關(guān)系起著關(guān)鍵作用。句子中命名實(shí)體分別與核心謂詞、普通謂詞的平均距離有明顯差異。所以,在自然語言文本句子中,實(shí)體與核心謂詞的距離也是實(shí)體之間的一種隱含關(guān)系特征。
1) 遠(yuǎn)程監(jiān)督模塊:該模塊通過對齊關(guān)系知識庫和語料庫中的自然語言文本生成弱標(biāo)記數(shù)據(jù)。同時,本文模型中還采用了多示例學(xué)習(xí)的思想,將同一個人物實(shí)體對產(chǎn)生的所有弱標(biāo)簽關(guān)系實(shí)例放到同一個包中,通過同一關(guān)系的關(guān)系實(shí)例之間的信息互補(bǔ)性來提高后續(xù)分類的準(zhǔn)確性。
圖2 句法依存分析示例
圖3 人物關(guān)系抽取模型框架
2) 預(yù)處理模塊:該模塊完成2個功能。首先,對所有的弱標(biāo)簽數(shù)據(jù)進(jìn)行詞性標(biāo)注、句法分析等自然語言處理操作,為后續(xù)的特征提取做準(zhǔn)備。其次,則是針對遠(yuǎn)程監(jiān)督產(chǎn)生的弱標(biāo)簽數(shù)據(jù)的正例包,通過基于值的關(guān)系指示詞發(fā)現(xiàn)的過濾算法進(jìn)行去噪處理,以得到更加精準(zhǔn)的正例數(shù)據(jù)用于關(guān)系分類器的訓(xùn)練。
3) 特征提取模塊:該模塊從語料庫的自然語言文本中提取多因子特征向量,分為詞法特征和句法特征,然后輸入關(guān)系分類器中,采用有監(jiān)督的方法進(jìn)行人物實(shí)體的關(guān)系分類。
接下來將從訓(xùn)練語料生成、實(shí)驗(yàn)數(shù)據(jù)去噪以及多因子特征向量3個部分來詳細(xì)闡述人物關(guān)系抽取的關(guān)鍵過程。
本文實(shí)驗(yàn)涉及2個部分的實(shí)驗(yàn)數(shù)據(jù)。關(guān)系知識庫的數(shù)據(jù)是從650萬個百度百科詞條中直接爬取的2 500萬個中文三元組。語料庫的自然語言文本語料為全網(wǎng)新聞數(shù)據(jù),其中,涵蓋了若干新聞?wù)军c(diǎn)在2012年6—7月國內(nèi)、國際的新聞?wù)鎸?shí)語料。
實(shí)驗(yàn)中使用遠(yuǎn)程監(jiān)督技術(shù)構(gòu)建了包含104 593個句子的弱標(biāo)簽數(shù)據(jù)集。其中,80%的弱標(biāo)簽數(shù)據(jù)(83 675個句子)用作訓(xùn)練數(shù)據(jù),剩下的20%(20 919個句子)用作測試數(shù)據(jù)。本文實(shí)驗(yàn)選擇5種常見的人物關(guān)系進(jìn)行實(shí)驗(yàn),分別為夫妻、父子、母子、兄弟、姐妹。表1展示了弱標(biāo)簽數(shù)據(jù)集的數(shù)據(jù)分布。
表1 弱標(biāo)簽數(shù)據(jù)集的數(shù)據(jù)分布
得到遠(yuǎn)程監(jiān)督產(chǎn)生的弱標(biāo)簽數(shù)據(jù)以后,在進(jìn)行關(guān)系抽取實(shí)驗(yàn)前,應(yīng)當(dāng)對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的目的是通過自然語言工具對語料中的句子進(jìn)行處理,以得到詞性標(biāo)注、依存關(guān)系分析等結(jié)果。實(shí)驗(yàn)采用的是HanLP漢語言處理包來進(jìn)行中文的自然語言處理,其結(jié)果將作為特征表示以及向量生成的基礎(chǔ)。
由于中文文本表達(dá)的多樣性,應(yīng)當(dāng)盡可能地挖掘出實(shí)驗(yàn)數(shù)據(jù)中對于關(guān)系分類有幫助的句子,過濾掉其中的噪聲。例如,對于關(guān)系“夫妻”來說,在自然語言文本當(dāng)中含有“配偶”“夫婦”“妻子”“丈夫”等詞語的句子對于訓(xùn)練關(guān)系“夫妻”的抽取模型更有幫助。因此,基于同義詞詞林?jǐn)U展版構(gòu)造了對應(yīng)關(guān)系的關(guān)系詞詞典,針對遠(yuǎn)程監(jiān)督的強(qiáng)假設(shè)下產(chǎn)生的關(guān)系實(shí)例包中的弱標(biāo)簽正例實(shí)驗(yàn)數(shù)據(jù),進(jìn)行了進(jìn)一步的去噪處理。引入來計(jì)算語料庫中每一個句子分詞后詞語的權(quán)值為
由此可見,值通過統(tǒng)計(jì)詞語的歸一化詞頻來反映詞語的重要性。然而,某些情況下,一些通用的高頻詞語對于反映句子的主題并沒有太大的作用,反倒是一些頻率較小的詞更能表達(dá)句子的主題。所以,還需要詞語的值通過統(tǒng)計(jì)包含該詞語的句子數(shù)與訓(xùn)練語料中句子總數(shù)的關(guān)系來體現(xiàn)詞語的主題類別區(qū)分能力。因此,值通過綜合值和值的大小,可以判斷當(dāng)前詞反映本句子主題類別的程度?;诖颂匦?,計(jì)算出句中詞語的值之后,保留其中值最大的3個詞語放入集合中,并與相應(yīng)的關(guān)系詞詞典()匹配。
在通過遠(yuǎn)程監(jiān)督自動產(chǎn)生了弱標(biāo)簽的訓(xùn)練數(shù)據(jù),并且經(jīng)過去噪處理后,接下來從標(biāo)記為正例和負(fù)例的自然語言句子中獲得分類器的輸入特征。自然語言文章結(jié)構(gòu)一般有語素<詞語<句子<段落幾個層級。比詞語更細(xì)粒度的語素特征,表達(dá)語義特征不明顯,存在大量干擾雜音,因此不選取。比句子更高層的段落特征,目前,還沒有好的方法標(biāo)注段落特征,因此也未選取。本文模型中的分類器選擇的多因子特征為詞法特征因子和句法特征因子。詞法因子是以詞為對象,研究句子中詞語的形成和用法,包括詞法、詞性以及詞語的位置等信息。通過統(tǒng)計(jì)句子中的詞法因子可以反映出句子的組織規(guī)律。而句法因子是以句子為對象,研究句子的構(gòu)成和功能。句法分析將輸入句子從序列形式變成樹狀結(jié)構(gòu),從而可以捕捉句子內(nèi)部詞語之間的搭配或修飾關(guān)系,得到句子的淺層語義分析結(jié)果。最后,形成了多因子特征向量(,,,,,)。
3.3.1 詞法因子向量
自然語言文本中,詞語之間的位置、順序以及詞語的詞性都能夠反映出句子的重要信息。因此,從詞語的維度出發(fā),選擇了以下詞法因子構(gòu)成特征向量。
1) 距離特征():研究表明[15],距離更近的2個實(shí)體之間存在實(shí)體關(guān)系的可能性更大。因此,本文將2個人物實(shí)體在句子中的詞距作為距離特征。
圖4中的點(diǎn)(5, 0.792 3)表示2個實(shí)體之間的詞距小于或等于5時的關(guān)系實(shí)例總數(shù)占總關(guān)系三元組數(shù)的79.23%。從圖4可以看出,開始階段隨著詞距的增大,關(guān)系三元組的數(shù)目急劇增大。但是當(dāng)詞的數(shù)目超過5時,隨著實(shí)體之間詞距的增大,關(guān)系三元組數(shù)量的增加幅度越來越小。這也就說明了距離較近的2個實(shí)體更可能存在關(guān)系。
圖4 實(shí)體間的詞距與三元組的數(shù)量關(guān)系
3) 詞性特征():在人物關(guān)系抽取中,能夠表示人物關(guān)系的詞語通常是名詞或動詞。因此,對于語料庫中句子特征的構(gòu)建來說,名詞和動詞比其他詞語更為重要。通過統(tǒng)計(jì)分詞后句子中的動詞和名詞的數(shù)量,并進(jìn)行歸一化處理,從而衡量動詞和名詞對于人物關(guān)系判斷的影響。
3.3.2 句法因子向量
從第2節(jié)的依存句法分析相關(guān)知識可以了解到,通過對句子進(jìn)行依存分析所得結(jié)果的語塊以及語塊之間的依存關(guān)系,可以直接反映實(shí)體間的語義關(guān)系。因此,從句子的句法分析結(jié)果出發(fā),選擇以下句法因子構(gòu)成特征向量。
1) 句法依存關(guān)系特征():由于人物實(shí)體將會作為短語結(jié)構(gòu)出現(xiàn)在依存結(jié)構(gòu)中,這些短語結(jié)構(gòu)間的依存關(guān)系必然會反映出相應(yīng)實(shí)體之間的關(guān)系特征。因此,通過獲取實(shí)體對每個實(shí)體在句子中所屬的句法關(guān)系依存值來反映人物實(shí)體間的關(guān)系。
2) 實(shí)體與核心謂詞之間的距離特征():根據(jù)命名實(shí)體識別和句法依存分析的結(jié)果,計(jì)算出人物實(shí)體與核心謂詞之間的詞距。
3) 實(shí)體上下文特征():實(shí)體的上下文可以直接反映句子的信息。從圖4可以得知,0.792 3的關(guān)系實(shí)例都可以在實(shí)體之間得到。除此之外,實(shí)體對左右兩側(cè)的內(nèi)容同樣重要。因此,通過計(jì)算所得到的權(quán)值,將人物實(shí)體對的上下文信息加入分類特征中。取為實(shí)體對左右兩側(cè)的詞語數(shù)目,從語料庫中抽樣統(tǒng)計(jì)得到表2。從表2可以看出,隨著的增大,獲得的信息也就更多,因此能在此范圍內(nèi)獲得關(guān)系三元組的句子也就越多。但是大于2以后的增幅并不明顯,而越大計(jì)算的開銷則呈指數(shù)級增加。因此,本實(shí)驗(yàn)中取=2,即將句中人物實(shí)體的前2個詞和后2個詞的信息也加入分類特征。
表2 關(guān)系三元組總數(shù)目與n的關(guān)系
為了驗(yàn)證人物社會關(guān)系抽取模型在不同關(guān)系上的性能,針對5種人物關(guān)系的抽取結(jié)果進(jìn)行了對比。圖5的縱坐標(biāo)是每種關(guān)系抽取結(jié)果的以及1值的數(shù)值大小,縱坐標(biāo)是對應(yīng)表1中的關(guān)系類型編號,其中,最后一組展示的是人物抽取模型的3項(xiàng)指標(biāo)的平均值。從表1可以發(fā)現(xiàn),知識庫中含有關(guān)系“夫妻”的三元組是最多的,這就直接影響到了實(shí)驗(yàn)的最終結(jié)果。實(shí)驗(yàn)結(jié)果顯示,在所有關(guān)系中,關(guān)系“夫妻”的抽取模型的結(jié)果是最好的。同樣地,關(guān)系“姐妹”在知識庫中的三元組數(shù)量是最少的,其抽取結(jié)果也是所有關(guān)系中最差的。這是容易理解的,因?yàn)橹R庫中含有的知識越全面,能夠從語料庫的關(guān)系實(shí)例中學(xué)習(xí)到的該關(guān)系特征就會越多,那么對于后續(xù)關(guān)系識別的指導(dǎo)作用就越大。
圖5 關(guān)系抽取模型的性能
另外,為了驗(yàn)證本文模型提出的針對關(guān)系正例包中的進(jìn)一步除噪操作的有效性,本文實(shí)驗(yàn)還進(jìn)行了有無除噪操作的關(guān)系抽取系統(tǒng)的性能對比。圖6展示了除噪前后系統(tǒng)的性能對比,其中,橫坐標(biāo)同圖5,表示的是與表1對應(yīng)的關(guān)系類型編號,最后一項(xiàng)表示的綜合5種關(guān)系類型的1值的平均值,縱坐標(biāo)表示的是抽取結(jié)果的1值。從圖6可以看到,進(jìn)行了除噪操作的關(guān)系抽取系統(tǒng)的性能相較于未進(jìn)行除噪操作的系統(tǒng)的性能有了進(jìn)一步的提升,這證明本文提出的基于TF-IDF的關(guān)系指示詞發(fā)現(xiàn)的去噪方法對于遠(yuǎn)程監(jiān)督的關(guān)系抽取而言是有效的。
圖6 有無除噪操作的系統(tǒng)性能對比
為了驗(yàn)證各特征因子對于人物社會關(guān)系抽取模型的有效性,對每一項(xiàng)特征因子對于關(guān)系抽取的作用都進(jìn)行了因子疊加實(shí)驗(yàn),共6組實(shí)驗(yàn)。第一個實(shí)驗(yàn)選取的特征是距離特征,第二個實(shí)驗(yàn)特征是在實(shí)驗(yàn)一的基礎(chǔ)上加入了相對位置特征。依次類推,后一個實(shí)驗(yàn)是在前一個實(shí)驗(yàn)的基礎(chǔ)上增加了一維特征。性能比較平均值如表3所示,其中,表示準(zhǔn)確率,表示召回率,1表示1值。
表3 不同特征下模型性能比較
從表3結(jié)果來看,隨著特征的增加,關(guān)系抽取的性能越來越好。這反映了分類器中輸入的關(guān)系描述數(shù)據(jù)的信息越多,分類器的學(xué)習(xí)能力就會越好,那么在分類的時候就更容易獲得好的結(jié)果。但是,仔細(xì)分析發(fā)現(xiàn),整個特征中,動詞和名詞特征的加入對于關(guān)系抽取的性能提升作用并不是很大。經(jīng)過分析認(rèn)為,可能僅僅統(tǒng)計(jì)句子中的動詞、名詞的數(shù)量并不能很好地反映某關(guān)系在句子中的存在。例如,“李明夢想著成為郎朗那樣的人,要知道郎朗畢業(yè)于美國柯蒂斯音樂學(xué)院,他不僅是國際著名鋼琴家,還是聯(lián)合國和平大使。”這句話中動詞和名詞的數(shù)量很多,但是并不能反映2個人物實(shí)體之間的關(guān)系。另外,還觀察到,當(dāng)加入句子的依存句法分析特征以后,關(guān)系抽取系統(tǒng)的性能得到了明顯的提升。所以,在人物關(guān)系抽取的任務(wù)中,發(fā)現(xiàn)和理解自然語言文本中的語義才是抽取人物關(guān)系的關(guān)鍵。
為了驗(yàn)證本文模型對于新關(guān)系的適應(yīng)性,在不需要其他任何額外操作的情況下,利用以上的人物關(guān)系抽取模型進(jìn)行新關(guān)系(“朋友”“同事”)的抽取實(shí)驗(yàn)。
新人物關(guān)系抽取結(jié)果如表4所示。從結(jié)果來看,關(guān)系“朋友”的抽取結(jié)果要優(yōu)于關(guān)系“同事”的抽取結(jié)果。經(jīng)分析發(fā)現(xiàn)可能有以下原因:1) 統(tǒng)計(jì)發(fā)現(xiàn)知識庫中含有關(guān)系“朋友”三元組為56 557組,而關(guān)于“同事”的三元組為48 623組,因此關(guān)系“朋友”能夠從知識庫中學(xué)到的關(guān)系特征更全面,從而達(dá)到更好的關(guān)系抽取效果;2) 關(guān)系“同事”的表述相對關(guān)系“朋友”的表述更加隱晦,在很多句子中可能只是描述2個人物實(shí)體在同一機(jī)構(gòu)中一起工作的事實(shí),而沒有具體的關(guān)系描述詞,例如,“李明和趙西一起邁入公司的大門,開啟一天的工作?!痹谶@句話中,模型中的詞法特征和句法特征實(shí)現(xiàn)的淺層的語義分析并不能得到2個人物實(shí)體是“同事”關(guān)系的有效特征。因此,在關(guān)系分類器的學(xué)習(xí)過程中,關(guān)系“同事”的無效訓(xùn)練數(shù)據(jù)可能更多,因而抽取效果不太理想。
表4 新關(guān)系的抽取性能比較
當(dāng)前針對中文文本的基于遠(yuǎn)程監(jiān)督的人物關(guān)系抽取研究中,還沒有一個標(biāo)準(zhǔn)的數(shù)據(jù)集用于對比實(shí)驗(yàn)。但是,從目前的研究現(xiàn)狀來看,中文知識庫大多都是基于中文百科構(gòu)建的,語料庫大多采用新聞數(shù)據(jù)構(gòu)成,這說明此情況下,通過遠(yuǎn)程監(jiān)督技術(shù)將知識庫和語料庫對齊所產(chǎn)生的訓(xùn)練數(shù)據(jù)并不會有太大差異。因此,在相似數(shù)據(jù)下,可以將本文模型與其他相近研究進(jìn)行對比。
標(biāo)簽傳播模型(2015年)[23]和模式聚類模型(2017年)[24]都是在中文文本下,基于百科知識庫和新聞數(shù)據(jù),采用遠(yuǎn)程監(jiān)督技術(shù)產(chǎn)生訓(xùn)練數(shù)據(jù)的人物關(guān)系抽取模型。不同的是,標(biāo)簽傳播模型采用的是基于人物對間相似度計(jì)算的標(biāo)簽傳播方法來進(jìn)行人物的關(guān)系抽取,模式聚類模型則采用句子模式聚類的方法進(jìn)行遠(yuǎn)程監(jiān)督數(shù)據(jù)的過濾以后再進(jìn)行人物關(guān)系的抽取。實(shí)驗(yàn)結(jié)果對比如表5所示。從實(shí)驗(yàn)結(jié)果來看,標(biāo)簽傳播模型的準(zhǔn)確率明顯低于后兩者的準(zhǔn)確率,這說明對遠(yuǎn)程監(jiān)督產(chǎn)生的弱標(biāo)簽訓(xùn)練數(shù)據(jù)進(jìn)行過濾處理,對人物關(guān)系抽取結(jié)果的準(zhǔn)確性很有幫助。另外,模式聚類模型采用的模式匹配方法在召回率上的結(jié)果不如本文模型,這說明使用特征抽取的方法進(jìn)行關(guān)系分類,能在保證準(zhǔn)確率的同時提高系統(tǒng)的召回率。綜合對比發(fā)現(xiàn),在大規(guī)模真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型結(jié)果優(yōu)于其他同類型的人物關(guān)系抽取模型。
表5 相關(guān)研究對比
本文提出了一個針對中文文本自動生成訓(xùn)練數(shù)據(jù)的人物實(shí)體關(guān)系抽取模型。它首先利用遠(yuǎn)程監(jiān)督技術(shù)產(chǎn)生弱標(biāo)簽數(shù)據(jù)集,然后采用多示例學(xué)習(xí)的思想以及本文提出的基于TF-IDF的過濾算法獲取更準(zhǔn)確有效的訓(xùn)練數(shù)據(jù),最后利用多因子特征向量采用有監(jiān)督的方法進(jìn)行關(guān)系抽取。整個模型包含3個部分,遠(yuǎn)程監(jiān)督的模塊、預(yù)處理模塊和特征提取模塊。本文將文本數(shù)據(jù)中的詞法特征和句法特征綜合考慮,從文本詞語結(jié)構(gòu)和依存句法上提取反映實(shí)體間關(guān)系的相關(guān)特征。在真實(shí)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,基于關(guān)系指示詞的過濾算法能有效提高遠(yuǎn)程監(jiān)督關(guān)系抽取的準(zhǔn)確率,并且本文模型性能優(yōu)于當(dāng)前中文語料下的其他遠(yuǎn)程監(jiān)督關(guān)系抽取系統(tǒng),另外,本文模型還具有良好的新關(guān)系類型的適應(yīng)性。
另一方面,實(shí)驗(yàn)結(jié)果表明,通過遠(yuǎn)程監(jiān)督獲得的弱標(biāo)簽數(shù)據(jù)的準(zhǔn)確性在很大程度上影響著關(guān)系抽取的結(jié)果。此外,源于自然語言處理技術(shù)的特征提取過程中可能產(chǎn)生的誤差積累會導(dǎo)致關(guān)系抽取模型的性能很難提高。在未來,將探討如何進(jìn)一步減少在遠(yuǎn)程監(jiān)督過程中的錯誤標(biāo)簽的問題,并且可以使用深度學(xué)習(xí)技術(shù)自動學(xué)習(xí)句子的相關(guān)特征。
[1] CHINCHOR N, MARSH E. Muc-7 information extraction task definition[C]//The Seventh Message Understanding Conference (MUC-7), Appendices. 1998: 359-367.
[2] CHE W, LIU T, LI S. Automatic entity relation extraction[J]. Journal of Chinese Information Processing, 2005, 19(2): 1-6.
[3] 劉紹毓, 李弼程, 郭志剛, 等. 實(shí)體關(guān)系抽取研究綜述[J].信息工程大學(xué)學(xué)報, 2016 (5): 541-547.
LIU S Y, LI B C , GUO Z G, et al. Review of entity relation extraction[J]. Journal of Information Engineering University, 2016(5): 541-547.
[4] APPELT D E, HOBBS J R, BEAR J, et al. SRI International FASTUS system: MUC-6 test results and analysis[C]//The 6th Conference On Message Understanding. 1995: 237-248.
[5] YANGARBER R, GRISHMAN R. NYU: description of the proteus/PET system as used for MUC-7 ST[C]//Seventh Message Understanding Conference (MUC-7).1998.
[6] AONE C, RAMOS S M. REES: a large-scale relation and event extraction system[C]//The Sixth Conference On Applied Natural Language Processing. 2000: 76-83.
[7] KAMBHATLA N. Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]//The ACL 2004 On Interactive Poster And Demonstration Sessions. 2004: 22.
[8] GUO D Z, JIAN S, JIE Z, et al. Exploring various knowledge in relation extraction[C]//The 43rd Annual Meeting on Association for Computational Linguistics. 2005: 427-434.
[9] 寧海燕. 實(shí)體關(guān)系自動抽取技術(shù)的比較研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2010.
NING H Y. Comparative study of automatic entity relation extraction[D]. Harbin: Harbin Institute of Technology, 2010.
[10] WANG L, CAO Z, MELO D G, et al. Relation classification via multi-level attention CNNS[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 1298-1307.
[11] KUMAR S. A survey of deep learning methods for relation extraction[J]. arXiv preprint, arXiv:1705.03645, 2017.
[12] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//The 54th Annual Meeting of the Association for Computational Linguistics. 2016: 207-212.
[13] CARLSON A, BETTERIDGE J, KISIEL B, et al. Toward an architecture for never-ending language learning[C]//AAAI. 2010: 3.
[14] 劉錦文, 許靜, 張利萍, 等. 基于標(biāo)簽傳播和主動學(xué)習(xí)的人物社會關(guān)系抽取[J]. 計(jì)算機(jī)工程, 2017, 34(2): 234-240.
LIU J W, XU J, ZHANG L P, et al. Personal social relation extraction based on label propagation and active learning[J]. Computer Engineering, 2017, 34(2): 234-240.
[15] 秦兵, 劉安安, 劉挺. 無指導(dǎo)的中文開放式實(shí)體關(guān)系抽取[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(5): 1029-1035.
QIN B, LIU A A, LIU T. Unsupervised Chinese open entity relation extraction[J]. Journal of Computer Research and Development, 2015, 52(5): 1029-1035.
[16] GASHTEOVSKI K, GEMULLA R, DEL C L. MinIE: minimizing facts in open information extraction[C]//The 2017 Conference on Empirical Methods in Natural Language Processing. 2017: 2630-2640.
[17] BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]// The 2008 ACM SIGMOD International Conference on Management of Data. 2008: 1247-1250.
[18] AUER S, BIZER C, KOBILAROV G, et al. Dbpedia: a nucleus for a web of open data[M]//The Semantic Web. 2007: 722-735.
[19] SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a core of semantic knowledge[C]//The 16th International Conference on World Wide Web. 2007: 697-706.
[20] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]//The Joint Conference of the 47th Annual Meeting of the ACL and The 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 1003-1011.
[21] JI G, LIU K, HE S, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//AAAI. 2017: 3060-3066.
[22] PERSHINA M, MIN B, XU W, et al. Infusion of labeled data into distant supervision for relation extraction[C]//The 52nd Annual Meeting of the Association for Computational Linguistics. 2014: 732-738.
[23] 潘云, 布勒布麗汗?伊沙巴依, 楊靜, 等. 利用中文在線資源的遠(yuǎn)程監(jiān)督人物關(guān)系抽取[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2015, 4: 11.
PAN Y, BULEHULIHAN.YISHABAY, YANG J, et al. Distant supervised personal relation extraction using chinese online resource[J]. Journal of Chinese Mini-Micro Computer Systems, 2015, 4: 11.
[24] 黃蓓靜, 賀樑, 楊靜. 遠(yuǎn)程監(jiān)督人物關(guān)系抽取中的去噪研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2017, 34(7): 11-18.
HUANG B J, HE L, YANG J. Research on noise reduction in distant supervised personal relation extraction[J]. Computer Application and Software, 2017, 34(7): 11-18.
[25] CRAVEN M, KUMLIEN J. Constructing biological knowledge bases by extracting information from text sources[C]//ISMB. 1999: 77-86.
[26] SURDEANU M, TIBSHIRANI J, NALLAPATI R, et al. Multi-instance multi-label learning for relation extraction[C]//The 2012 Joint Conference On Empirical Methods In Natural Language Processing And Computational Natural Language Learning. 2012: 455-465.
[27] HOFFMANN R, ZHANG C, LING X, et al. Knowledge-based weak supervision for information extraction of overlapping relations[C]// The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011: 541-550.
[28] 胡寶順, 王大玲, 于戈, 等. 基于句法結(jié)構(gòu)特征分析及分類技術(shù)的答案提取算法[J].計(jì)算機(jī)學(xué)報, 2008, 31(4):662-676.
HU B S, WANG D L , YU G, et al. An answer extraction algorithm based on syntax structure feature parsing and classification[J].Chinese Journal of Computers, 2008, 31(4):662-676.
[29] 郭喜躍, 何婷婷, 胡小華, 等. 基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 中文信息學(xué)報, 2014, 28(6): 183-189.
GUO X Y, HE T T , HU X H, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Chinese Information Processing, 2014, 28(6): 183-189.
Multi-factor person entity relation extraction model based on distant supervision
HUANG Yangchen1, JIA Yan1, GAN Liang1, XU Jing1, HUANG Jiuming1, HE Zhonghe2
1. College of Computer, National University of Defense Technology, Changsha 410073, China 2. KB R&D department, Hunan Singhand Intelligent Data Technology Co., Ltd., Changsha 410205, China
Aiming at the problem that the basic assumption of distant supervision was too strong and easy to produce noise data, a model of the person entity relation extraction which could automatically filter the training data generated by distant supervision was proposed. For training data generation, the data produced by distant supervision would be filtered by multiple instance learning and the method of TF-IDF-based relation keyword detecting, which tried to make the training data has the manual annotation quality. Furthermore, the model combined lexical and syntactic features to extract the effective relation feature vector from two angles of words and semantics for classifier. The experiment results on large scale real-world datasets show that the proposed model outperforms other relation extraction methods which based on distant supervision.
relation extraction, person entity relation, distant supervision, machine learning, natural language processing
TP391
A
2017?10?25;
2018?06?21
黃楊琛,huangyangchen13@nudt.edu.cn
國家重點(diǎn)研究發(fā)展計(jì)劃基金資助項(xiàng)目(No.2016QY03D0601, No.2016QY03D0603);國家自然科學(xué)基金資助項(xiàng)目(No.61502517);湖南省重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No.2018GK2056)
10.11959/j.issn.1000?436x.2018118
TheNational Key Research and Development Program of China (No.2016QY03D0601, No.2016QY03D0603), The National Natural Science Foundation of China (No.61502517), Key Research and Development Plan of Hunan Province (No.2018GK2056)
黃楊?。?991?),女,湖南衡陽人,國防科技大學(xué)博士生,主要研究方向?yàn)閿?shù)據(jù)挖掘、自然語言處理等。
賈焰(1960?),女,四川成都人,國防科技大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)分析、信息安全等。
甘亮(1977?),男,江西樟樹人,國防科技大學(xué)講師,主要研究方向?yàn)橹R工程、專家系統(tǒng)等。
徐菁(1989?),女,山東濟(jì)南人,國防科技大學(xué)博士生,主要研究方向?yàn)橹R工程、文本挖掘等。
黃九鳴(1981?),男,福建安溪人,國防科技大學(xué)講師,主要研究方向?yàn)樯缃痪W(wǎng)絡(luò)分析、信息安全等。
赫中翮(1991?),男,山西大同人,湖南星漢數(shù)智科技有限公司工程師,主要研究方向?yàn)樾畔⒊槿 ?/p>