顧靜航,朱蘇陽(yáng),錢(qián)龍華,朱巧明
(1. 蘇州大學(xué) 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006;2. 蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
人物的社會(huì)關(guān)系網(wǎng)絡(luò)在當(dāng)今信息化社會(huì)中具有重要的作用,對(duì)人物社會(huì)關(guān)系網(wǎng)絡(luò)的分析和應(yīng)用不僅可以提高人們的生活質(zhì)量和生活效率,還可以衍生出巨大的商機(jī)。早期的社會(huì)網(wǎng)絡(luò)構(gòu)建主要依賴(lài)于大規(guī)模網(wǎng)頁(yè)中的人名共現(xiàn)現(xiàn)象(Referral Web/Flink)[1-2]進(jìn)行構(gòu)建,而并未深究其具體的關(guān)系類(lèi)型;近年來(lái)的研究逐漸轉(zhuǎn)向采用機(jī)器學(xué)習(xí)的方法,挖掘特定領(lǐng)域中的社會(huì)關(guān)系網(wǎng)絡(luò),例如,學(xué)術(shù)社會(huì)網(wǎng)絡(luò)(ArnetMiner)[3]、文學(xué)作品中的社會(huì)網(wǎng)絡(luò)[4-5]和人物傳記中的社會(huì)網(wǎng)絡(luò)[6]等。
眾所周知,家庭是人類(lèi)社會(huì)最基本的組成單位,因而人物的家庭關(guān)系網(wǎng)絡(luò)理應(yīng)是社會(huì)關(guān)系網(wǎng)絡(luò)中的核心部分。傳統(tǒng)的社會(huì)關(guān)系網(wǎng)絡(luò)分析(Social Network Analysis, SNA)往往著眼于以人作為個(gè)體,考察個(gè)體在網(wǎng)絡(luò)中的作用,而忽略了家庭在社會(huì)網(wǎng)絡(luò)中的核心地位,忽視了家庭作為一個(gè)整體對(duì)社會(huì)網(wǎng)絡(luò)的影響;此外,其對(duì)社會(huì)網(wǎng)絡(luò)中的人名歧義問(wèn)題處理也比較簡(jiǎn)單,效果不太理想。針對(duì)以上不足,Gu等[7]則對(duì)人物的家庭網(wǎng)絡(luò)構(gòu)建進(jìn)行了研究,并通過(guò)相應(yīng)的跨文本指代消解技術(shù)對(duì)人物的重名與多名問(wèn)題進(jìn)行了處理,雖然其構(gòu)建出了較為準(zhǔn)確的人物家庭,但卻存在著家庭召回性能相對(duì)較低等問(wèn)題。
本文的思想則是在Gu等[7]工作的基礎(chǔ)上,融入單文本指代消解技術(shù),提升人物家庭關(guān)系抽取的性能,在構(gòu)建人物家庭網(wǎng)絡(luò)的同時(shí),進(jìn)一步提高家庭網(wǎng)絡(luò)的召回?cái)?shù)量。本文在評(píng)估人物家庭網(wǎng)絡(luò)的性能時(shí),提出一種基于人物虛擬邊的圖檢索 (Graph Retrieval Over Virtual Edges, GROVE)評(píng)價(jià)方法,用于更合理地評(píng)價(jià)人物家庭網(wǎng)絡(luò)的性能。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠很好地提高從大規(guī)模的文本語(yǔ)料庫(kù)中抽取出的人物家庭關(guān)系實(shí)例的數(shù)量,進(jìn)一步提升人物家庭網(wǎng)絡(luò)的召回性能。
本文分為以下幾個(gè)部分: 第2節(jié)介紹相關(guān)的研究工作;第3節(jié)提出基于單文本指代消解的人物家庭網(wǎng)絡(luò)構(gòu)建方法;第4節(jié)描述系統(tǒng)性能的評(píng)價(jià)方法;第5節(jié)給出實(shí)驗(yàn)結(jié)果和分析;第6節(jié)為總結(jié)和展望。
社會(huì)關(guān)系網(wǎng)絡(luò)構(gòu)造的一個(gè)首要任務(wù)是人物關(guān)系挖掘,它是命名實(shí)體間語(yǔ)義關(guān)系抽取的一個(gè)特例,其任務(wù)是從自然文本中提取出人物之間所存在的語(yǔ)義關(guān)系。關(guān)系抽取研究大都采用基于機(jī)器學(xué)習(xí)的方法,根據(jù)其對(duì)標(biāo)注語(yǔ)料庫(kù)數(shù)量的需求,可以分為指導(dǎo)性學(xué)習(xí)[8]、弱指導(dǎo)學(xué)習(xí)[9]和無(wú)指導(dǎo)學(xué)習(xí)[10]等,語(yǔ)料標(biāo)注的數(shù)量和質(zhì)量通常決定了抽取性能的好壞。弱指導(dǎo)學(xué)習(xí)方法,由于其僅需要極少量的人工干預(yù)就可以自動(dòng)地挖掘出大量的關(guān)系實(shí)例,從而避免了語(yǔ)料庫(kù)的標(biāo)注問(wèn)題,因而被廣泛地應(yīng)用在多種關(guān)系抽取任務(wù)中。
在人物關(guān)系網(wǎng)絡(luò)構(gòu)建方面,早期的研究大都利用基于網(wǎng)頁(yè)人名共現(xiàn)的方法,如Kautz等[1]提出的基于Web的社會(huì)網(wǎng)絡(luò)系統(tǒng)Referral Web以及Mika等[2]開(kāi)發(fā)的Flink 系統(tǒng)等,它們都利用人名的共現(xiàn)次數(shù)來(lái)實(shí)現(xiàn)社會(huì)關(guān)系網(wǎng)絡(luò)的挖掘。近些年的研究逐漸采用機(jī)器學(xué)習(xí)的方法,旨在挖掘更為豐富的人物社會(huì)關(guān)系。Tang等[3]提出了ArnetMiner系統(tǒng), 它利用SVM和CRF等分類(lèi)模型構(gòu)建學(xué)術(shù)人物之間的關(guān)系網(wǎng)絡(luò)。Zhu等[11]所提出的StatSnowball系統(tǒng),它通過(guò)自舉學(xué)習(xí)進(jìn)行人物社會(huì)關(guān)系的抽取,繼而使用概率模型和馬爾科夫邏輯網(wǎng)絡(luò)等方法,在開(kāi)放的Web環(huán)境下構(gòu)建人物關(guān)系網(wǎng)絡(luò)。Peng等[12]采用基于樹(shù)核函數(shù)的方法挖掘人物社會(huì)關(guān)系,并將其擴(kuò)展為靜態(tài)關(guān)系(如家庭關(guān)系和商業(yè)使用關(guān)系)和動(dòng)態(tài)關(guān)系(如人物交互關(guān)系)。Elson等[4]、Agarwal等[5]和Agarwal等[13]對(duì)小說(shuō)人物的社會(huì)關(guān)系網(wǎng)絡(luò)進(jìn)行了研究,提出了隱式社會(huì)關(guān)系的概念,即共同參與某一社會(huì)事件(如互動(dòng)和觀察等)的角色之間所存在的社會(huì)關(guān)系。Camp和Bosch[6]則從人物傳記中提取帶有情感極性的人物社會(huì)關(guān)系,利用SVM分類(lèi)模型構(gòu)建社會(huì)關(guān)系網(wǎng)絡(luò)。
值得一提的是Gu等[7]的工作,他們以人物的家庭關(guān)系為核心,采用自舉學(xué)習(xí)的方法對(duì)人物的家庭關(guān)系進(jìn)行抽取,在對(duì)人物進(jìn)行家庭網(wǎng)絡(luò)融合時(shí),采用一種簡(jiǎn)單且有效的跨文本指代消解方法解決人物的重名與多名問(wèn)題,并構(gòu)建出質(zhì)量較為可靠的人物家庭網(wǎng)絡(luò)。
本文以Gu等[7]的系統(tǒng)作為原型。首先,采用與之相同的自舉學(xué)習(xí)方法進(jìn)行人物家庭關(guān)系抽取并習(xí)得相應(yīng)的家庭關(guān)系模式;其次,在獲得相應(yīng)的家庭關(guān)系模式后,本文對(duì)這些模式進(jìn)行泛化,使用新的模式對(duì)文本進(jìn)行匹配,針對(duì)匹配到的句子本文提出一種基于單文本指代消解的人物家庭關(guān)系抽取方法,以拓展人物家庭關(guān)系的抽取范圍;最后,本文對(duì)最終獲得的人物家庭關(guān)系采用與Gu等[7]相同的跨文本指代消解方法進(jìn)行家庭網(wǎng)絡(luò)融合,構(gòu)建出人物的家庭網(wǎng)絡(luò)。具體的人物家庭網(wǎng)絡(luò)構(gòu)建流程如圖1所示。
圖1 人物家庭網(wǎng)絡(luò)構(gòu)建流程
自舉學(xué)習(xí)方法可以自動(dòng)地從文本中抽取出人物的家庭關(guān)系,但文本中仍然會(huì)存在有大量由自舉學(xué)習(xí)方法無(wú)法捕獲的人物家庭關(guān)系,考慮以下例子。
a) “記者在女團(tuán)比賽結(jié)束后撥通了劉璇家中的電話(huà),她的父親劉錦成在電話(huà)中連聲說(shuō):‘太意外了!’”
b) “故事的主人公是華北油田勘探二公司6022鉆井隊(duì)勞動(dòng)模范袁永德和他的妻子凌金艷?!?/p>
其中,上述兩個(gè)句子分別包含了一對(duì)父女“劉璇 劉錦成”和一對(duì)夫妻“袁永德 凌金艷”,且a)句中包含了模式關(guān)鍵詞“的父親”,b)句中包含了模式關(guān)鍵詞“的妻子”。然而,由于模式關(guān)鍵詞的左右兩側(cè)并不都是人名,因而基于自舉學(xué)習(xí)的方法無(wú)法精確匹配到上述例句,也就無(wú)法抽取出其中的人物關(guān)系實(shí)例。
人們?cè)诂F(xiàn)實(shí)的語(yǔ)言表述中往往會(huì)應(yīng)用代詞來(lái)指代上文中出現(xiàn)過(guò)的人物,以使表達(dá)顯得簡(jiǎn)潔且連貫。本文在自舉學(xué)習(xí)的基礎(chǔ)上,使用人稱(chēng)代詞替代已習(xí)得關(guān)系模式中的位于關(guān)鍵詞之前的人物,達(dá)到對(duì)模式進(jìn)行泛化的目的。如模式“
在模式泛化的基礎(chǔ)上,本文提出一種基于單文本指代消解的人物家庭關(guān)系抽取方法以擴(kuò)大關(guān)系實(shí)例的抽取規(guī)模,進(jìn)而通過(guò)跨文本指代消解技術(shù)對(duì)抽取出的人物家庭關(guān)系實(shí)例進(jìn)行家庭網(wǎng)絡(luò)融合,從而構(gòu)建出人物的家庭網(wǎng)絡(luò)。
代詞的引入,可以良好地表達(dá)句意,使語(yǔ)句更為連貫,因而,對(duì)人稱(chēng)代詞的消解,需要聯(lián)系上下文環(huán)境,同時(shí)要兼顧語(yǔ)言的連貫性等問(wèn)題。中心理論[14]正是基于語(yǔ)篇連貫性的特點(diǎn),以中心焦點(diǎn)的方式闡述了在英語(yǔ)語(yǔ)篇中代詞的分布規(guī)律及其實(shí)現(xiàn)所需的各種條件,它認(rèn)為語(yǔ)段中出現(xiàn)的話(huà)語(yǔ)實(shí)體是語(yǔ)篇的中心,而這些中心在上下文中的突顯程度以及實(shí)現(xiàn)它們的語(yǔ)言形式都會(huì)對(duì)整個(gè)語(yǔ)篇的連貫性產(chǎn)生影響。中心理論認(rèn)為每一語(yǔ)段都應(yīng)該包含有以下3種不同類(lèi)型的中心。
(1) 前向中心(Forward-Looking Center, Cf): 是指語(yǔ)段中可能存在的會(huì)話(huà)焦點(diǎn)。它是與下文發(fā)生聯(lián)系的樞紐,其可能包含一系列對(duì)象,這些對(duì)象以其突顯度的強(qiáng)弱排列;
(2) 后向中心(Back-Looking Center, Cb): 是指語(yǔ)段當(dāng)前的會(huì)話(huà)焦點(diǎn)。它只應(yīng)包含一個(gè)對(duì)象,該對(duì)象起到與先前語(yǔ)段相關(guān)聯(lián)的作用。中心理論認(rèn)為前一語(yǔ)段Cf的集合中,突顯度最高的對(duì)象應(yīng)為本句的Cb;
(3) 優(yōu)選中心(Preferred Center, Cp): 中心理論認(rèn)為在前向中心里突顯度最高的那個(gè)對(duì)象應(yīng)該作為優(yōu)選中心。
在中心理論模型中,根據(jù)前后兩個(gè)語(yǔ)段(分別設(shè)為Un-1和Un)的三種中心的變化,可以定義以下幾種過(guò)渡類(lèi)型,具體如表1所示。
表1 中心理論中語(yǔ)段間的跳轉(zhuǎn)類(lèi)型
其中,上述4種跳轉(zhuǎn)類(lèi)型分別表示了語(yǔ)段間不同的連貫程度,其連貫性由高到低依次是: Continue>Retain>Smooth Shift>Rough Shift。
(一) 后向中心的選擇
本文以中心理論的基本原則作為基礎(chǔ),結(jié)合中文自身的表述特點(diǎn),對(duì)中心理論進(jìn)行了一些改進(jìn)和簡(jiǎn)化,對(duì)其在中文指代消解任務(wù)中的應(yīng)用給出了如下的判斷規(guī)則。
(1) 一個(gè)句子中,如果人名先于代詞出現(xiàn),那么該句的Cb應(yīng)是本句Cf中突顯度最高的人名;
(2) 一個(gè)句子中,如果某個(gè)人名先于代詞出現(xiàn),那么該句中的待消解代詞應(yīng)指向本句內(nèi)的某個(gè)人物,即其符合句內(nèi)指代消解情況;
(3) 一個(gè)句子中,如果代詞先于人名出現(xiàn),那么該句的Cb應(yīng)是前一句Cf中突顯度最高的人名;
(4) 一個(gè)句子中,如果某個(gè)代詞先于人名出現(xiàn),那么該句中的待消解代詞應(yīng)指向前一句中的某個(gè)人物,即其符合句間指代消解情況;
(5) 一個(gè)句子中,與待消解代詞具有相同“表述形式”的代詞,認(rèn)為其與待消解代詞指向同一人物,它們可以形成一條代詞鏈;
(6) 一個(gè)句子中,如果既沒(méi)有人名也沒(méi)有代詞,則該句的Cb應(yīng)與前一句的Cb保持一致。
(二) 人名突顯度的判斷
確定不同人名在Cf集合中的突顯度對(duì)于Cb的選擇有著重要意義。在本文的實(shí)驗(yàn)中,Cf中各對(duì)象的突顯度按照中文語(yǔ)法角色排列的順序?yàn)? 主語(yǔ) > 賓語(yǔ) > 其他。
本文在確定人名突顯度時(shí),結(jié)合了結(jié)構(gòu)句法分析和依存句法分析結(jié)果,對(duì)句子中的主賓語(yǔ)成分進(jìn)行判斷。本文使用的句法分析器為Stanford Parser。在進(jìn)行依存句法分析時(shí),句法分析工具定義了多種依存關(guān)系類(lèi)型,如“nsubj”代表名詞性主語(yǔ),“dobj”代表直接賓語(yǔ)等,通過(guò)依存關(guān)系標(biāo)簽可以確定句子中的主語(yǔ)核心詞匯以及賓語(yǔ)核心詞匯,再依靠結(jié)構(gòu)句法識(shí)別出核心詞匯所在的名詞短語(yǔ)。與主語(yǔ)核心詞匯一同出現(xiàn)在名詞短語(yǔ)中的人名即可認(rèn)為是充當(dāng)句子的主語(yǔ)成分;與賓語(yǔ)核心詞匯一同出現(xiàn)在名詞短語(yǔ)中的人名即可認(rèn)為是充當(dāng)句子的賓語(yǔ)成分;此外,則認(rèn)為人名在句中充當(dāng)其他成分。
圖2和圖3分別給出了例句“江澤民總書(shū)記會(huì)見(jiàn)李政道夫婦”的結(jié)構(gòu)句法分析和依存句法分析結(jié)果。通過(guò)依存句法分析可以發(fā)現(xiàn)主語(yǔ)核心詞匯是“總書(shū)記”,賓語(yǔ)核心詞匯是“夫婦”。通過(guò)結(jié)構(gòu)句法分析可以發(fā)現(xiàn)句子中存在包含主賓語(yǔ)核心詞匯的兩個(gè)名詞性短語(yǔ)“江澤民總書(shū)記”和“李政道夫婦”,因而人名“江澤民”在句中充當(dāng)主語(yǔ)成分,人名“李政道”在句子充當(dāng)賓語(yǔ)成分,人名突顯度“江澤民 > 李政道”。通過(guò)結(jié)構(gòu)語(yǔ)法判斷句子內(nèi)名詞短語(yǔ)時(shí),識(shí)別出句中最長(zhǎng)的名詞短語(yǔ)即可,即識(shí)別結(jié)構(gòu)句法樹(shù)中頂層的“NP”標(biāo)簽即可。處于同一成分內(nèi)的多個(gè)人名,按其到依存根結(jié)點(diǎn)“ROOT”的詞匯距離進(jìn)行排序,距離越近,突顯度越高。
圖2 結(jié)構(gòu)句法分析
圖3 依存句法分析
特征向量的選擇對(duì)機(jī)器學(xué)習(xí)方法有著很重要的影響,好的特征向量應(yīng)該不受限于某個(gè)固定的領(lǐng)域,而具有一定的通用性,且能如實(shí)地反映語(yǔ)言現(xiàn)象中的直觀特征。本文參照前人對(duì)中英文指代消解的研究成果,結(jié)合自身對(duì)中心理論的理解,給出以下特征。
(1) Distance: 候選人名到代詞鏈中首個(gè)出現(xiàn)的代詞之間的實(shí)體距離。如果人名是距離代詞鏈中首個(gè)代詞最近的人名,則距離取1;若相差一個(gè)人名則距離取2,以此類(lèi)推;如果人名的位置在代詞鏈中第一個(gè)代詞之后,距離可以取負(fù)值。
(2) NameIsFocus: 人名是否是其所在句子的Cb,若是則取1,否則取0。
(3) AnyOtherFocus: 人名與待消解代詞之間是否含有其他Cb,若有則取1,否則為0。
(4) InsideSentence: 待消解代詞適合何種消解方式,句內(nèi)消解為1,句間消解為0。
(5) NameInPunc: 人名是否出現(xiàn)在括號(hào)、書(shū)名號(hào)等特殊符號(hào)內(nèi),若是則取1,否則取0。
本文在家庭網(wǎng)絡(luò)構(gòu)建中主要涉及單文本指代消解、人物家庭關(guān)系抽取以及家庭網(wǎng)絡(luò)融合等過(guò)程,因此,為了更全面地衡量系統(tǒng)性能,需要給出不同階段的系統(tǒng)性能。
本文對(duì)單文本指代消解性能的評(píng)價(jià)采用了較為通用的準(zhǔn)確率、召回率和F1指數(shù)作為評(píng)價(jià)指標(biāo)。
由于在大規(guī)模語(yǔ)料中進(jìn)行關(guān)系抽取時(shí)難以考察召回率,因而本文關(guān)注的重點(diǎn)是人物關(guān)系抽取的準(zhǔn)確性,故選取準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。
對(duì)于家庭網(wǎng)絡(luò)性能的評(píng)估,目前還沒(méi)有一個(gè)標(biāo)準(zhǔn)的方法。Gu等[7]所采用的評(píng)價(jià)方法只考慮了家庭構(gòu)成的總體情況,即要求所發(fā)現(xiàn)家庭必須在人物數(shù)量、人物指代鏈、人物間的關(guān)系類(lèi)型完全正確時(shí)才可認(rèn)為其是一個(gè)正確家庭,然而這樣的評(píng)價(jià)方法并未考慮家庭內(nèi)部的構(gòu)成情況,大量挖掘出的家庭都存在著部分人物關(guān)系正確的情況。
為了更好的衡量所發(fā)現(xiàn)家庭內(nèi)部的人物關(guān)系情況,本文提出一種基于家庭內(nèi)部人物間虛擬邊的圖檢索(Graph Retrieval Over Virtual Edges, GROVE)評(píng)價(jià)方法。
所謂虛擬邊是指一個(gè)家庭內(nèi)部具有直接關(guān)系的人物實(shí)體之間,通過(guò)使用各自指代鏈內(nèi)的不同名稱(chēng),進(jìn)行關(guān)系組合后形成的邊,如以下例子。
a) “尼日利亞國(guó)家元首阿巴查的夫人瑪麗亞姆·阿巴查26日在接受本社記者……”
b) “尼日利亞國(guó)家元首阿巴查和夫人瑪利亞姆·阿巴查、外交部長(zhǎng)……”
上述例句源自不同的文檔,但人物來(lái)自于同一個(gè)家庭。該家庭內(nèi)部的人物“阿巴查”和“瑪麗亞姆·阿巴查”具有夫妻關(guān)系,同時(shí)妻子還具有別名“瑪利亞姆·阿巴查”。這對(duì)夫妻通過(guò)別名可以形成2條虛擬邊,包括“阿巴查—瑪麗亞姆·阿巴查”以及“阿巴查—瑪利亞姆·阿巴查”。
虛擬邊的提出,使得在性能評(píng)價(jià)時(shí),可以更好地兼顧家庭內(nèi)部人物關(guān)系的情況。準(zhǔn)確率和召回率的計(jì)算公式如(1)~(2)所示。
(1)
(2)
其中,Response(i)是指機(jī)器識(shí)別的第i個(gè)家庭中全部的虛擬邊個(gè)數(shù),Right(Response(i))是指機(jī)器識(shí)別的家庭中正確的虛擬邊個(gè)數(shù),Key(i)指與機(jī)器識(shí)別家庭相對(duì)應(yīng)的標(biāo)準(zhǔn)家庭中全部的虛擬邊個(gè)數(shù)。系統(tǒng)整體性能的計(jì)算公式如(3)~(5)所示。
(3)
(4)
(5)
其中,wi為標(biāo)準(zhǔn)家庭在標(biāo)準(zhǔn)集中的權(quán)重,是標(biāo)準(zhǔn)家庭中的虛擬邊數(shù)與標(biāo)準(zhǔn)集中虛擬邊總數(shù)的比值,計(jì)算方法如式(6)所示。
(6)
本節(jié)根據(jù)前文的描述,討論了相關(guān)實(shí)驗(yàn)結(jié)果,依次分析了單文本指代消解的性能、人物關(guān)系抽取的性能以及人物家庭網(wǎng)絡(luò)融合的性能。
本文采用Gigaword中文語(yǔ)料庫(kù)作為家庭網(wǎng)絡(luò)構(gòu)建的實(shí)驗(yàn)數(shù)據(jù)。該語(yǔ)料來(lái)源于新聞,共有1 033 679篇新聞報(bào)道,包含新華社新聞和早報(bào)新聞。
(一) 單文本指代消解訓(xùn)練實(shí)例的生成
本文所采用的訓(xùn)練數(shù)據(jù)來(lái)源于ACE2005中文語(yǔ)料。ACE語(yǔ)料庫(kù)中標(biāo)注了實(shí)體信息、關(guān)系信息和事件信息等,其中,實(shí)體信息的標(biāo)注相當(dāng)于指代關(guān)系,實(shí)體鏈也即是相應(yīng)的指代鏈。本文在生成訓(xùn)練實(shí)例時(shí),遵循以下幾條原則。
(1) 只選用那些包含有單數(shù)人稱(chēng)代詞的實(shí)體鏈;
(2) 在代詞消解范圍的選擇上,本文的選取策略基于語(yǔ)言表述中的一個(gè)事實(shí): 先行語(yǔ)與指示語(yǔ)的距離往往不會(huì)很遠(yuǎn),如距離過(guò)遠(yuǎn)則會(huì)引起閱讀困難。因而針對(duì)某一個(gè)代詞的消解,本文取其上文中的2句與其所在句,共3句作為該代詞的消解范圍;
(3) 在生成訓(xùn)練實(shí)例的過(guò)程中,人稱(chēng)代詞作為照應(yīng)語(yǔ),人名作為先行語(yǔ),在消解范圍,照應(yīng)語(yǔ)之前的所有人名都是其潛在的先行語(yǔ)。照應(yīng)語(yǔ)和距離最近且與其處于同一條實(shí)體鏈中的先行語(yǔ)組成正例,消解范圍內(nèi)的其他先行語(yǔ)則和照應(yīng)語(yǔ)構(gòu)成負(fù)例。
本文的實(shí)驗(yàn)共使用了1 014個(gè)代詞進(jìn)行訓(xùn)練實(shí)例的生成,涵蓋了ACE2005中的276篇文章,共產(chǎn)生2 643對(duì)“先行語(yǔ)——照應(yīng)語(yǔ)”指代對(duì),其中正例1 014對(duì),負(fù)例1 629對(duì)。
(二) 單文本指代消解測(cè)試實(shí)例的生成
測(cè)試數(shù)據(jù)來(lái)源于使用泛化模式對(duì)Gigaword語(yǔ)料庫(kù)進(jìn)行匹配后得到的文本,針對(duì)人稱(chēng)代詞而言,有效的候選先行語(yǔ)同樣在3句范圍以?xún)?nèi)。
測(cè)試語(yǔ)料由于沒(méi)有實(shí)體鏈的標(biāo)注信息,因而需要進(jìn)行人工標(biāo)注。標(biāo)注時(shí)同樣選取與代詞指向同一實(shí)體且距離代詞最近的人名組合成正例,其余為負(fù)例。在通過(guò)泛化模式進(jìn)行匹配而得到的句子中,與前文具有現(xiàn)實(shí)指代關(guān)系的人稱(chēng)代詞有1 258個(gè),在消解范圍內(nèi)將這些代詞與人名組成指代對(duì),共有3 560對(duì),其中正例1 258對(duì),負(fù)例2 302對(duì)。
(一) 單文本指代消解總體性能
由于本文的指代消解過(guò)程是針對(duì)泛化模式所匹配到的文本中的單數(shù)人稱(chēng)代詞,故在以往指代消解任務(wù)中較為通用的特征,如同位語(yǔ)特征、先行語(yǔ)類(lèi)別特征、照應(yīng)語(yǔ)類(lèi)別特征以及單復(fù)數(shù)一致性等特征并不能滿(mǎn)足本文指代消解任務(wù)的需求。因而,本文選用基于就近指代原則進(jìn)行指代消解的方法作為基準(zhǔn)系統(tǒng)。就近指代原則是指,在進(jìn)行指代消解時(shí)選取位于代詞前且距離代詞最近的人名作為消解結(jié)果。本文的實(shí)驗(yàn)使用SVM-light分類(lèi)器,實(shí)驗(yàn)中采用了徑向基函數(shù)作為分類(lèi)器的核函數(shù)。實(shí)驗(yàn)結(jié)果如表2所示。
表2 單文本指代消解性能統(tǒng)計(jì)
從表中可以發(fā)現(xiàn),應(yīng)用了中心理論后,性能有了很好的提升。這主要是由于中心理論考慮了語(yǔ)篇的上下文連貫性,可以較好地解釋句間指代現(xiàn)象,因而對(duì)需要進(jìn)行句間消解的代詞具有良好的效果。從表中還可以看出:
(1) 針對(duì)人名與人稱(chēng)代詞之間的指代消解問(wèn)題,僅依靠就近指代原則已可以較好地解決大部分情況,說(shuō)明人們?cè)谡Z(yǔ)言表達(dá)中,往往會(huì)使用代詞去替代上文中剛剛出現(xiàn)的人名,這么做是為了不影響他人對(duì)句子的理解,同時(shí)也使句子更為簡(jiǎn)潔、連貫。
(2) 需要進(jìn)行句內(nèi)指代消解的代詞和需要進(jìn)行句間指代消解的代詞在總體數(shù)量上的差別并不顯著,而就近指代原則可以較好地解決有關(guān)句內(nèi)指代消解的問(wèn)題,但在面對(duì)句間指代消解問(wèn)題時(shí)則略有不足。
本文對(duì)系統(tǒng)錯(cuò)誤的指代消解情況進(jìn)行了探究,分析主要原因有以下幾種。
(1) 分詞錯(cuò)誤(約占錯(cuò)誤比例的65%)。分詞錯(cuò)誤主要指人名的切詞錯(cuò)誤以及詞性標(biāo)識(shí)錯(cuò)誤,這是本系統(tǒng)錯(cuò)誤中的主要原因。本文使用的分詞工具為ICTCLAS。使用自動(dòng)分詞工具會(huì)產(chǎn)生將人名切分錯(cuò)誤或?qū)⒎侨嗣~語(yǔ)識(shí)別成人名等情況,從而影響系統(tǒng)性能。如例句: “二 連 文書(shū) 蔡 報(bào) 罕 是 九江市 江 洲 鎮(zhèn) 人 ,[他] 父親 蔡燦光 得知 兒子 的 部隊(duì) 也 來(lái) 家鄉(xiāng) 搶險(xiǎn) , 跟著 運(yùn)送 石料 的 船 來(lái)到 大壩 , 想 看 一 看 兩年 沒(méi) 見(jiàn)面 的 兒子 ?!痹摾渲写~的先行語(yǔ)應(yīng)為“蔡報(bào)罕”,但由于分詞錯(cuò)誤無(wú)法識(shí)別出人名。
(2) 句式表達(dá)較為復(fù)雜(約占錯(cuò)誤比例的21%),本文的模型不足以覆蓋。文本中會(huì)出現(xiàn)某些表達(dá)較為復(fù)雜的句子,如例句“李鵬 請(qǐng) 韓升洲 轉(zhuǎn)達(dá) [他] 和 夫人 朱琳 對(duì) 金泳 三 總統(tǒng) 和 夫人 的 親切 問(wèn)候 和 謝意 。”對(duì)于上述情況,本文的方法會(huì)傾向于選擇最近的人名作為消解結(jié)果,因此,并不適合此類(lèi)復(fù)雜的指代現(xiàn)象;
(3) 文本中出現(xiàn)普通名詞表示人物的情況(約占錯(cuò)誤比例的8%)。文本中存在用普通名詞來(lái)表述人物的情況,如例句“據(jù) 報(bào)道 , 男童 遇害 后 , [他] 的 母親 孫碧音 哀傷 地 接受 媒體 的 訪(fǎng)問(wèn) , 透露 死者 生前 懂事 乖巧 ?!痹摾渲写~的先行語(yǔ)應(yīng)指向“男童”,但由于本文的指代消解過(guò)程只關(guān)注人名與代詞之間的消解問(wèn)題,并不適用針對(duì)普通名詞的指代消解問(wèn)題;
(4) 指代范圍過(guò)小(約占錯(cuò)誤比例的6%)。本文在進(jìn)行指代消解時(shí),將先行語(yǔ)的范圍限定在3句以?xún)?nèi),但消解過(guò)程中會(huì)存在代詞真正的先行語(yǔ)出現(xiàn)在消解范圍之外的情況,針對(duì)這種情況,本文的方法并不能有效的進(jìn)行指代消解。
(二) 不同特征對(duì)性能的影響
本節(jié)采用特征分離方式來(lái)考察不同特征對(duì)系統(tǒng)性能貢獻(xiàn)度的影響。所謂分離方式,就是在使用特征時(shí),每次將一個(gè)特征分離出特征集而不予采用,以考察這個(gè)特征對(duì)系統(tǒng)性能的影響。本文將Distance、NameIsFocus、AnyOtherFocus、InsideSentence、NameInPunc等特征依次從系統(tǒng)的特征集合中分離出去,結(jié)果如表3所示。
表3 特征分離實(shí)驗(yàn)
其中,“-”表示在使用所有特征的基礎(chǔ)上分離該特征,從表可以看出以下幾點(diǎn)。
(1) 距離特征的影響最為顯著。將距離特征分離出去后,可以發(fā)現(xiàn),指代消解的性能下降的最為明顯,這是由于首先句內(nèi)消解的情況比句間消解要多,同時(shí)這也印證了語(yǔ)言表述中,為了使表述簡(jiǎn)潔明了,代詞往往是指代距離最近的人名;
(2) 代詞信息對(duì)于指代的消解具有重要意義。當(dāng)擁有明確的代詞信息后,可以對(duì)指代消解適用句內(nèi)情況還是句間情況給出很好地指導(dǎo)。中心理論的主要思想便是解決連貫語(yǔ)篇中的指代消解問(wèn)題,因而代詞適用的消解類(lèi)型對(duì)指代消解十分重要;
(3) 在中心理論中,先行語(yǔ)的信息對(duì)指代消解有積極意義。在進(jìn)行句間指代消解時(shí),代詞需要指向上文中的焦點(diǎn)人物,因而對(duì)人名是否是焦點(diǎn)的判斷尤為重要。
(4) 在語(yǔ)言表述中,存在少數(shù)情況,人名會(huì)出現(xiàn)在如括號(hào)、書(shū)名號(hào)等特殊符號(hào)內(nèi)的情況,此種情形下的人名往往不適合充當(dāng)代詞的先行語(yǔ)。
本文的人物家庭關(guān)系抽取分別經(jīng)歷了基于自舉學(xué)習(xí)的關(guān)系抽取階段,以及在此基礎(chǔ)上通過(guò)泛化模式后而引入的基于單文本指代消解的關(guān)系抽取階段。在經(jīng)過(guò)這兩個(gè)階段后,需要對(duì)抽取出的人物實(shí)例對(duì)進(jìn)行準(zhǔn)確率的評(píng)價(jià)。本文采用抽樣統(tǒng)計(jì)的方法,分別對(duì)人物關(guān)系對(duì)無(wú)放回取樣4次,樣本大小為100,然后人工評(píng)判其正確性,關(guān)系抽取的性能如表4所示。
表4 人物家庭關(guān)系抽取性能
從表中可以看出,基于自舉學(xué)習(xí)的方法可以抽取出大量的人物關(guān)系實(shí)例;單文本指代消解所抽取出的關(guān)系實(shí)例的準(zhǔn)確度相對(duì)不足,但在引入單文本指代消解后,可以有效地挖掘出新的人物關(guān)系實(shí)例,從而提高關(guān)系抽取的召回性能。
兩個(gè)階段的關(guān)系抽取過(guò)程所發(fā)現(xiàn)的人物家庭關(guān)系存在部分重疊,需要對(duì)所獲得的結(jié)果進(jìn)行合并。在合并關(guān)系抽取結(jié)果時(shí),如果兩對(duì)人物對(duì)中的人名一致,且關(guān)系類(lèi)型也相同,則可以直接合并,認(rèn)為它們表示同一對(duì)人物關(guān)系,合并后共得到2 861對(duì)人物對(duì)。
對(duì)構(gòu)建出的人物家庭網(wǎng)絡(luò)的性能進(jìn)行評(píng)價(jià)時(shí),需要對(duì)文本內(nèi)的人物家庭進(jìn)行人工標(biāo)注。本文采用與Gu等[7]相同的方法對(duì)人物的家庭網(wǎng)絡(luò)進(jìn)行人工標(biāo)注,得到的人工標(biāo)注結(jié)果如表5所示。
表5 人工標(biāo)注結(jié)果
表6反映出單文本指代消解后,通過(guò)對(duì)人物家庭關(guān)系抽取的拓展,在引入大量新的人物關(guān)系實(shí)例對(duì)的情況下,系統(tǒng)對(duì)于人物家庭網(wǎng)絡(luò)構(gòu)建的情況。
表6 家庭網(wǎng)絡(luò)性能
從表中可以發(fā)現(xiàn),本文的方法可以發(fā)現(xiàn)更多的家庭,家庭的召回?cái)?shù)量有顯著提升。但使用單文本指代消解技術(shù)時(shí),新發(fā)現(xiàn)的人物關(guān)系對(duì)的準(zhǔn)確率相對(duì)較低,噪音的引入,對(duì)家庭網(wǎng)絡(luò)的融合存在很大影響。如例句“李鵬 請(qǐng) 韓升洲 轉(zhuǎn)達(dá) [他] 和 夫人 朱琳 對(duì) 金泳 三 總統(tǒng) 和 夫人 的 親切 問(wèn)候 和 謝意 ?!北疚牡姆椒ㄔ诮?jīng)過(guò)單文本指代消解后會(huì)形成一對(duì)具有夫妻關(guān)系的錯(cuò)誤實(shí)例對(duì)“韓升洲”和“朱琳”,而這對(duì)錯(cuò)誤實(shí)例對(duì)將在進(jìn)行家庭網(wǎng)絡(luò)融合時(shí)與正確的夫妻實(shí)例對(duì)“李鵬”和“朱琳”構(gòu)建成一個(gè)具有1個(gè)妻子、2個(gè)丈夫的錯(cuò)誤家庭,這樣的情況將影響家庭網(wǎng)絡(luò)構(gòu)建的準(zhǔn)確度。
本文給出了一種基于單文本指代消解技術(shù)來(lái)構(gòu)建人物家庭網(wǎng)絡(luò)的方法。先通過(guò)自舉技術(shù)學(xué)習(xí)進(jìn)行人物關(guān)系抽取并習(xí)得家庭關(guān)系模式;再對(duì)模式進(jìn)行泛化,用新的模式進(jìn)行文本匹配,之后對(duì)匹配到的句子進(jìn)行單文本指代消解;最后使用跨文本指代消解技術(shù)將抽取出的人物家庭關(guān)系進(jìn)行融合,形成家庭網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果顯示,本文提出的單文本指代消解方法可以有效地拓展人物家庭關(guān)系的抽取規(guī)模,從而提高所構(gòu)建出的人物家庭網(wǎng)絡(luò)的召回性能。
雖然目前通過(guò)單文本指代消解技術(shù)使得家庭網(wǎng)絡(luò)的召回?cái)?shù)目有所提升,但仍然存在著召回?cái)?shù)量不足、家庭類(lèi)型不夠豐富、不同家庭之間沒(méi)有聯(lián)系等問(wèn)題。下一步工作中,計(jì)劃考慮更多家庭內(nèi)部的人物關(guān)系類(lèi)型,融入不同家庭之間存在的聯(lián)系,同時(shí)考慮零指消解等進(jìn)一步擴(kuò)大家庭規(guī)模的方法,從而進(jìn)一步豐富人物家庭關(guān)系網(wǎng)絡(luò)。
[1] Kautz H, Selman B, Shah M. Referral Web: Combining Social Networks and Collaborative Filtering[J]. Communications of the ACM, 1997, 40(3): 63-65.
[2] Mika P. Flink: Semantic Web Technology for the Extraction and Analysis of Social Networks[J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2005, 3(2): 211-223.
[3] Tang J, Zhang J, Yao L, et al. ArnetMiner: Extraction and Mining of Academic Social Networks[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2008: 990-998.
[4] Elson D K, Dames N, McKeown K R. Extracting Social Networks from Literary Fiction[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 138-147.
[5] Agarwal A, Corvalan A, Jensen J, et al. Social Network Analysis of Alice in Wonderland[J]. NAACL-HLT 2012, 2012: 88-96.
[6] Van De Camp M, Van Den Bosch A. A Link to the Past: Constructing Historical Social Networks[C]//Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis. Association for Computational Linguistics, 2011: 61-69.
[7] Gu J H, Hu Y N, Qian L H, et al. Research on Building Family Networks Based on Bootstrapping and Coreference Resolution[C]//Proceedings of the 2nd Natural Language Processing and Chinese Computing. Springer Berlin Heidelberg, 2013: 200-211.
[8] Zhou G D, Zhang M. Extracting Relation Information from Text Documents by Exploring Various Types of Knowledge[J]. Information Processing & Management, 2007, 43(4): 969-982.
[9] Oh J H, Uchimoto K, Torisawa K. Bilingual Co-Training for Monolingual Hyponymy-Relation Acquisition[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Association for Computational Linguistics, 2009: 432-440.
[10] Zhang M, Su J, Wang D, et al. Discovering Relations Between Named Entities from a Large Raw Corpus Using Tree Similarity-Based Clustering[C]//Proceedings of the 2nd International Joint Conference on Natural Language Processing(IJCNLP-2005). Springer Berlin Heidelberg, 2005: 378-389.
[11] Zhu J, Nie Z, Liu X, et al. StatSnowball: A Statistical Approach to Extracting Entity Relationships[C]//Proceedings of the 18th International Conference on World Wide Web. ACM, 2009: 101-110.
[12] Peng C, Gu J H, Qian L H. Research on Tree Kernel-Based Personal Relation Extraction[C]//Proceedings of the 1st Natural Language Processing and Chinese Computing. Springer Berlin Heidelberg, 2012: 225-236.
[13] Agarwal A, Kotalwar A, Rambow O. Automatic Extraction of Social Networks from Literary Text: A Case Study on Alice in Wonderland[C]//Proceedings of the 6th International Joint Conference on Natural Language Processing (IJCNLP-2013). 2013.
[14] Gordon P C, Grosz B J, Gilliom L A. Pronouns, Names, and the Centering of Attention in Discourse[J]. Cognitive Science, 1993, 17(3): 311-347.