劉瀏 王東波 黃水清 蘇新寧
摘 ? 要:實體知識的自動識別是古文智能處理的重要內(nèi)容,也是古文數(shù)字人文研究的技術(shù)支撐。以實體知識為基礎(chǔ)的數(shù)字人文研究若不考慮古籍中普遍存在的實體歧義,將難以得到準確可靠的數(shù)據(jù)和結(jié)論。文章以《春秋經(jīng)傳引得》為文本語料,考察了語料中同名異指和異名同指兩大類人名實體歧義,根據(jù)古文實體歧義消解的特殊性,提出兩類歧義的消解方法和思路。研究基于實體語境和時間知識,構(gòu)建了消歧規(guī)則并以先秦古漢語為實例進行了驗證。上述方法在其他古漢語語料中的適用性值得進一步探究,基于消歧后的語料,文章呈現(xiàn)了先秦人物的基本全貌,表明了本研究的價值所在。
關(guān)鍵詞:古文信息處理;實體歧義;古文智能處理;古文數(shù)字人文
中圖分類號:TP393.1 ? 文獻標識碼:A ? DOI:10.11968/tsyqb.1003-6938.2020089
Abstract In Ancient Chinese Information Processing, the extraction of entity knowledge is one of the most important studies. Study of digital humanities with entity knowledge should concern more about entity ambiguity for more precise results. The article presents two rule-based methods on entity disambiguation with the ancient Chinese corpus. Two types of entity ambiguity were deeply discussed and two methods with examples of entities in Chunqiu Jingzhuan Yinde were presented. Further research on more ancient Chinese corpus would have shown better understanding of the methods presented above. A visualization study with the data of disambiguated entities was carried out at last and thus showed the value of this study.
Key words ancient Chinese information processing; entity ambiguity; intelligent processing; ancient Chinese digital humanities
1 ? 引言
近年來,得益于古籍數(shù)字化資源規(guī)模的迅速增長和古文智能處理技術(shù)的飛速進步,以人名、地名為主的實體識別研究得到了較為廣泛的關(guān)注和研究,識別的技術(shù)和方法也得到了不斷的改進,識別效果逐漸提升。實體識別技術(shù)的進步,使得面向大規(guī)模古籍文本的實體知識自動獲取越發(fā)高效[1],以實體知識為基礎(chǔ)的數(shù)字人文研究也因此得以逐步開展[2-3],且成為古籍文本數(shù)字人文中值得期待的發(fā)展方向[4]。
然而,圍繞實體展開的古文智能處理及以此為基礎(chǔ)的古文數(shù)字人文研究,為簡化實體知識的獲取難度,大多以實體詞語代替實體知識,忽略了古籍中大量存在的實體指稱歧義,尤其是人名指稱歧義,因而難以保證研究結(jié)論的準確。實體歧義的消解,尤其是大規(guī)模文本中實體歧義的自動消解,是古文數(shù)字人文研究深入開展前無法回避的話題,這也正是本文研究的意義和目的所在。
本文主要分為三個部分,首先介紹了兩類典型的實體歧義,分析了古漢語實體歧義的特殊性,探討了古漢語實體歧義消解的方法;其次以先秦時期古漢語實體歧義為例,在《春秋經(jīng)傳引得》語料的基礎(chǔ)上,結(jié)合具體的實體歧義實例,分析了基于規(guī)則的實體消歧的可行性;最后使用上述方法完成了《春秋經(jīng)傳引得》中實體歧義的消解,并在該消歧語料的基礎(chǔ)上,從計量統(tǒng)計、影響力分析和數(shù)據(jù)可視化的角度展現(xiàn)了先秦人物的基本全貌。
2 ? 研究背景和語料介紹
2.1 ? ?實體歧義相關(guān)研究
實體歧義可以定義為“一個命名實體指稱項可對應(yīng)到多個命名實體概念”,古籍中的實體歧義以人名歧義為主,如《左傳》中的實體詞“吳王”,可能是指“夫差”、也可能是指“諸樊”。歧義實體詞的指稱一般因語境而不同,實體消歧需要做的就是判斷在某個語境下,有歧義的實體詞語具體指稱的實體概念。雖然古文實體消歧目前還未得到重視,但在現(xiàn)代漢語和英語等文本語境下,相關(guān)研究從實體識別研究提出伊始便已得到了充分的關(guān)注[5]。
實體消歧方法最先以構(gòu)建規(guī)則為主,實體的上下文和外部知識得到了充分的嘗試[6-7],相關(guān)方法構(gòu)建的規(guī)則受限于特定文本領(lǐng)域,可擴展性不高,但總體而言消歧效果不錯;在此之后興起的機器學(xué)習(xí)方法主要關(guān)注開放領(lǐng)域的實體消歧,早期的方法以聚類為主,將文本表示為向量空間,并根據(jù)文本向量的相似度實現(xiàn)歧義的消解[8]。不同聚類模型都得到了深入探究,各類特征如二元詞語[9]、社會化網(wǎng)絡(luò)[10]、外部知識[11]等也得到了充分的嘗試。隨著機器學(xué)習(xí)方法的不斷深入,實體消歧轉(zhuǎn)向一種將實體識別和實體消歧同時包含在內(nèi)的研究新框架,也就是實體鏈接,該方法先找出文本中表示實體的指稱,再與特定知識源中的實體概念相鏈接,以此達到實體消歧目的[12],其中維基百科等百科知識是最常見的知識源。對于實體鏈接來說,選取知識源中的候選實體是任務(wù)的關(guān)鍵,一般通過實體指稱和候選實體之間的相似度來決定候選實體排名,而在相似度計算過程中,特征的選取就顯得尤為重要[13]。近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,實體鏈接問題得到了進一步的推進,并與語義分析、實體關(guān)系抽取、跨語言實體消歧研究等問題聯(lián)系密切。
實體消歧研究仍然是自然語言處理中十分火熱的研究問題,基于實體鏈接的消歧方法也在不斷提高消歧的效果,但目前實體消歧極少有面向古漢語的研究,這一方面是由于沒有適當規(guī)模的語料和知識源作為支撐,另一方面古漢語實體的歧義較之于現(xiàn)代漢語要復(fù)雜的多,這也加大了消歧的難度。
2.2 ? ?語料選取和處理
本研究語料來源于《春秋經(jīng)傳引得》,“春秋經(jīng)傳”是《春秋》《春秋左氏傳》《春秋谷梁傳》及《春秋公羊傳》四部典籍的合稱,該資源在前期研究工作中完成了數(shù)字化工作,全文錄入共計320030字(含標點)。作為《漢學(xué)引得叢刊》的特刊,《春秋經(jīng)傳引得》包含了正文部分以及引得(索引)部分,其中引得部分包括引得詞表以及詞表對應(yīng)的全文語境。詞表進行了細致的人工消歧,對于多義詞,詞表中設(shè)立多個同形詞頭,并且這些詞頭下的語境互不交叉。對于人名實體來說,相關(guān)消歧做得更為細致,所有同名的實體,不僅詞頭和語境做了準確的區(qū)分,詞頭本身還添加了更為詳細的人名參考信息,用以區(qū)分這些詞頭,詳見下例:
例1: 宋公(參:宋莊公)
故遂相宋公
宋人者宋公也
……
宋公(參:宋共公)
宋公使公孫壽來納幣
公會晉侯齊侯宋公衞侯曹伯伐鄭
……
宋襄公(參:大子慈父,襄公,宋子,宋公,宋公慈父)
宋襄公卽位
宋襄公問焉
……
宋宣公
宋宣公可謂知人矣
……
本研究以此為基礎(chǔ),對詞表中的人名實體進行人工識別,從而得到了“春秋經(jīng)傳”中所有人名及其相關(guān)語境,并構(gòu)建了語料庫。與語境的關(guān)聯(lián)以及引得本身的專業(yè)背景,使其成為研究古漢語實體歧義的優(yōu)秀資源,其在實體歧義標注中的專業(yè)性,保證了本研究實體歧義研究的可靠,避免了古漢語專業(yè)問題的爭議。另一方面,實體歧義的研究須以實體識別為基礎(chǔ),而古漢語實體識別研究多以“春秋”為對象,因此本研究以“春秋經(jīng)傳”為語料資源,進行古漢語實體歧義的探究,這也是對已有古漢語實體研究的有效補充。
3 ? 古漢語中的實體歧義
3.1 ? ?兩類實體歧義
實體歧義可以看作實體詞語和實體概念之間存在的多對一或者一對多的關(guān)系,根據(jù)關(guān)系的不同,可以分為同名異指歧義和異名同指歧義。同名異指歧義是一種一對多的關(guān)系,即一個實體詞語可以指稱多個實體;而異名同指歧義是多對一的關(guān)系,即多個實體詞語可以指向同一個實體。
以上兩類實體歧義在古漢語中均十分常見,且往往相互關(guān)聯(lián),構(gòu)成十分復(fù)雜的實體歧義網(wǎng)絡(luò)(見圖1)。實體歧義的大量存在及復(fù)雜關(guān)聯(lián),表明了古漢語實體歧義研究的必要性,以及實體消歧的困難性。在兩類實體歧義中,同名異指歧義在現(xiàn)代漢語及英語等自然語言處理中得到的關(guān)注明顯更多,這源于其相對更廣泛的應(yīng)用場景和較低的解決難度;但在古文尤其是先秦古文中,由于名詞性實體的顯著地位(如“晉侯”“宋襄公”等包含爵位或尊稱的實體名稱),異名同指歧義的重要性同樣不容忽視。對于面向?qū)嶓w知識的古文數(shù)字人文而言,同時消解同名異指和異名同指兩類歧義,是順利開展研究并得到準確結(jié)論的重要前提。
3.2 ? ?古漢語實體消歧的特殊性
實體消歧是古漢語實體歧義研究的重要目標,不同于現(xiàn)代漢語或英語,古漢語文本中的實體消歧問題具有較強的特殊性,這種特殊性體現(xiàn)在歧義實體所在語料和歧義實體本身。了解這一特殊性,是開展古漢語實體消歧研究的重要前提。
(1)固定的語料。古文信息處理和古文數(shù)字人文研究主要以傳世的古籍文本為語料來源,而對于特定的研究問題和對象而言,可以選擇的文本語料總體較為固定,以先秦實體研究為例,合適的語料基本以《春秋》及三傳為主。有限的語料帶來了相對固定的實體歧義,古漢語實體消歧研究因而不可能、也不需要像現(xiàn)代漢語那樣關(guān)注開放領(lǐng)域問題。在這樣的前提下,如何充分利用前人的研究成果,獲取語料外部的實體知識,構(gòu)建基于規(guī)則的消歧方法,以獲取更準確的消歧結(jié)果,成為古漢語實體消歧中最實際可行的研究思路。
(2)較小的語料規(guī)模。與現(xiàn)代漢語相關(guān)研究相比,研究古漢語實體消歧時可獲取的語料規(guī)模較小,這使得現(xiàn)代漢語實體消歧中常用的機器學(xué)習(xí)方法很難發(fā)揮出理想的效果。如以《春秋經(jīng)傳引得》為例,該書包含了《春秋》及三傳4部古籍的內(nèi)容,對于春秋時期實體歧義研究來說,該語料就內(nèi)容而言已經(jīng)足夠充分,但全文也僅有32萬余字,若要使用現(xiàn)代漢語實體消歧中常用的文本聚類或?qū)嶓w鏈接方法,這樣的語料規(guī)模遠遠不夠。從該角度來看,機器學(xué)習(xí)方法并不適用于古漢語實體消歧研究。
(3)較多的歧義數(shù)量。對于現(xiàn)代漢語實體消歧來說,待消解的同名異指實體一般只包含2個歧義;而在古漢語語料中,實體歧義的情況要更為復(fù)雜,名詞性實體的存在帶來了大量的同名異指實體,這類實體包含的歧義數(shù)量也很多,在《春秋經(jīng)傳引得》中,一個實體詞語最多可能包含15種同名異指歧義(見表1)。另一方面,正如本文所述,大量的歧義實體對應(yīng)的卻是小規(guī)模的語料,這導(dǎo)致語料中大多數(shù)歧義實體對應(yīng)的只有一兩個句子。在面對如此復(fù)雜的實體歧義問題時,僅利用一兩個句子的內(nèi)容而不借助于外部的知識,顯然難以獲得準確的實體消歧結(jié)果。如何有效地利用外部的知識來減少歧義的復(fù)雜性,是解決古漢語實體消歧問題的關(guān)鍵。
3.3 ? ?古漢語實體消歧方法探討
正如本文所述,由于語料固定、語料規(guī)模小、歧義數(shù)量多等特點,機器學(xué)習(xí)方法用于古漢語實體消歧的難度相當高,利用外部實體知識構(gòu)建規(guī)則的方法則更為適合。
(1)古漢語實體消歧的對象。根據(jù)古漢語實體歧義的特殊性,在進行消歧之前,還可以從另一個角度將實體歧義分為兩類,一類實體的歧義只存在于不相關(guān)的典籍之間,如“孟子”既可以指稱魯惠公的原配夫人,也可以指稱儒家思想家孟軻;但“孟子”在《春秋》中指稱前者,在《孟子》中指稱后者,該實體詞在單部典籍的內(nèi)部不存在歧義,這類實體詞的歧義消解通過限定典籍的范圍就可以完成。
另一類實體詞語的歧義存在于單部典籍內(nèi)部,這些實體詞的歧義消解一般需要上下文語境的幫助。如以實體詞語“晉侯”為例,該詞可以指稱“晉成公”“晉文公”和“晉襄公”等,在語境“晉侯伐鄭及郔”中“晉侯”表示“晉成公”;在語境“晉侯潛會秦伯于王城”中“晉侯”表示“晉文公”,“晉侯”歧義的消解與其出現(xiàn)的上下文語境密切相關(guān)。
(2)實體消歧的思路。在以上兩類實體歧義消解中,本文主要關(guān)注單部典籍內(nèi)部的實體消歧,這類實體歧義消解一般圍繞和利用實體詞所在的上下文語境,主要思路是將實體消歧轉(zhuǎn)化為對實體詞語所在語境的消歧。據(jù)此,同名異指歧義消解就是將出現(xiàn)歧義實體詞的語境劃分為多個類別,每個類別指稱一個實體;而異名同指歧義消解就是將包含多個實體詞語的語境合并為一個類別,使得它們指稱同一個實體(見表2、表3)。上述思路可以通過構(gòu)建規(guī)則的方式來實現(xiàn),結(jié)合實體上下文語境特點,借助實體外部知識可以有效地實現(xiàn)實體歧義的自動消解。
對于同名異指歧義來說,由于古籍中同一時間段一般不會出現(xiàn)同名現(xiàn)象,因此可以借助實體語境的時間知識來消解歧義。如以“晉侯”為例,根據(jù)《春秋》,“晉景公”在位于魯宣公到魯成公時期,“晉昭公”在位于魯昭公時期,“晉獻公”在位于魯莊公到魯僖公時期,“晉成公”在位于魯宣公時期,對于實體詞“晉侯”而言,其指稱的不同實體存在于不同的時間段中,且時間段相互之間不交叉。因此,可以直接通過標注“晉侯”所在語境的時間,根據(jù)上述時間段劃分語境類別,實現(xiàn)實體詞“晉侯”的歧義消解。同樣的情況在《春秋經(jīng)傳引得》來說十分常見,不大的語料規(guī)模,以史實為主文本內(nèi)容和以名詞性指稱詞為主的歧義實體,使得這種實體歧義消解方法十分可靠。
異名同指歧義依然可以通過語境進行消解,方法以同名異指歧義的消解為基礎(chǔ),且需要借助實體百科知識。異名同指歧義的消解總體可以分為兩個部分,以表3中實體詞“晉文公”為例,首先需要借助實體百科知識得到“重耳”“晉侯”與“晉文公”之間的對應(yīng)關(guān)系,并以此為基礎(chǔ)獲取“晉文公”的候選實體詞及相應(yīng)語境;接著,對于“晉侯”這類本身具有同名異指歧義的實體詞,其相關(guān)候選語境還應(yīng)該再進行消岐,消岐方法與上文方法相同。異名同指歧義消解時,一般選取最常見和通用的實體詞作為消歧后的實體詞,如“晉文公”“鄭莊公”等,選取標準可以參考百科知識。
4 ? 古漢語同名異指消歧規(guī)則初探
本文簡單闡述了古漢語實體歧義的特點以及該特點下最合適的實體消歧方法,并提出了使用實體語境時間知識消解同名異指歧義的基本思路。本研究將以先秦古漢語實體歧義為例,通過細化和制定相關(guān)規(guī)則,結(jié)合典型實例,來驗證該方法在消解同名異指歧義時的可行性和有效性。研究以《春秋經(jīng)傳引得》為語料,該語料包含了4695個人名實體詞,共表示了1421個人物,正如本文所述,對于研究先秦古漢語實體歧義來說,該語料已足夠充分。
4.1 ? ?《春秋》的時間表示
《春秋》使用魯國國君的謚號加年份來表示年號,這些年號與公元紀年相互對應(yīng)(見表4),據(jù)此,可以將《春秋經(jīng)傳引得》所有語境發(fā)生的時間以公元紀年的方式來表示,這樣更有利于后續(xù)消歧研究中進行的時間比較,詳見下例:
例2:{桓公十二年}
1 ?十有二年,春,正月。
2 ?夏,六月,壬寅,公會紀侯莒子盟于歐蛇。
左 ?十二年,夏,盟于曲池,平杞莒也。
4.2 ? ?語境的時間標注
完成語料中年號和公元紀年的轉(zhuǎn)換之后,自動查找并標注《春秋經(jīng)傳引得》中每一個實體詞頭下,所有語境在原文中對應(yīng)的時間,完成標注后的實體語境見例3所示:
例3:晉侯(參:晉襄公)
晉侯敗狄于箕 前627年
晉侯伐衞 ? 前632年
晉侯朝王於溫 前626年
公孫敖會晉侯于戚 ? 前626年
晉侯疆戚田 ?前626年
晉侯及秦師戰(zhàn)于彭衙 ?前625年
晉侯禦之 ? 前625年
公及晉侯盟 ?前614年
4.3 ? ?基于時間規(guī)則的兩類同名異指歧義消解
標注了語境的時間之后,可以得到語境所屬實體詞的時間區(qū)間,如“晉侯(參:晉襄公)”的時間區(qū)間就是[前614年:前632年]。使用時間規(guī)則進行同名異指歧義消解需要滿足一個要求,即同名實體詞之間的時間區(qū)間不能交叉。本文以《春秋經(jīng)傳引得》為語料,該語料中的同名異指歧義實體均滿足這一要求。根據(jù)實體歧義的數(shù)量以及實體語境的規(guī)模,同名實體不同指稱下的實體時間區(qū)間有可能間隔較大,也有可能基本連續(xù)。對于前者,可以直接利用時間間隔進行歧義消解;對于后者,需要借助額外的時間知識幫助歧義消解。
(1)基于時間間隔的歧義消解。當實體歧義數(shù)量較少或?qū)嶓w語境規(guī)模較小時,歧義實體的時間區(qū)間間隔較為明顯,利用這些間隔實現(xiàn)語境的分類,可以迅速實現(xiàn)同名異指歧義的消解。本文將以“趙孟”為例,詳細描述這種方法?!摆w孟”在《春秋》中有四個歧義指稱,分別為“趙武”“趙襄子”“趙鞅”和“趙盾”,對“趙孟”所屬的語境的時間進行標注之后,可以統(tǒng)計出每一年出現(xiàn)相關(guān)語境的次數(shù)(見表5),統(tǒng)計可知該實體詞出現(xiàn)的年份并不連續(xù),有時甚至跨度很大(見圖2),如“趙孟”所屬語境很鮮明地分為四個部分,即四個時間區(qū)間,這個四個時間區(qū)間也就對應(yīng)了 “趙孟”所指向的四個不同的實體。語境出現(xiàn)次數(shù)隨時間分布類似于“趙孟”的同名異指實體詞,可以通過時間區(qū)間的間隔實現(xiàn)語境劃分,從而實現(xiàn)歧義消解。
(2)基于時間知識的歧義消解。當然實體的歧義數(shù)量較多或?qū)嶓w相關(guān)語境數(shù)量較多時,很難從語境的時間分布中找出明顯的時間間隔,這類實體歧義的消解還需要借助額外的時間知識。如以“晉侯”為例,該實體詞在《春秋經(jīng)傳引得》中可以指向15個實體,從其出現(xiàn)的時間分布(見圖3),可見由于歧義數(shù)量相對比較多,難以在語境時間分布上準確區(qū)分出時間間隔,此時想要根據(jù)時間區(qū)間和時間間隔進行準確的同名異指歧義消解十分困難。這種情況對于“鄭伯”“齊侯”等實體詞來說同樣如此(見圖4、圖5)。
對于這一類語境時間分布較為復(fù)雜的同名異指實體詞來說,需要借助外部知識來劃分時間區(qū)間。根據(jù)魯國國君年號的轉(zhuǎn)換方式,可以同樣對“晉侯”“鄭伯”和“齊侯”等進行在位年份的轉(zhuǎn)換。如以“鄭伯”為例,其對應(yīng)了14個實體的在位年份(見表6),根據(jù)表6的時間區(qū)間可以劃分得到“鄭伯”指向的14個實體的所屬語境,從而完成對“鄭伯”的歧義消解。該方法同樣適用于“晉侯”“齊侯”這類表示諸侯的實體詞,對于其他人名實體詞,也可以通過類似的百科知識構(gòu)建語境年份對照表,從而實現(xiàn)歧義消解。
綜上可以看出,對于同名異指歧義實體來說,通過語境的時間間隔或?qū)嶓w相關(guān)時間知識構(gòu)建規(guī)則,可以有效地消解歧義。在《春秋》這類編年體古籍中,語境時間的獲取較為容易;而對于其他類型的古籍來說,可以結(jié)合機器學(xué)習(xí)的方法自動識別實體語境中的時間實體,并將之轉(zhuǎn)換為可用的語境時間。實體相關(guān)的時間知識,可以從《漢語大詞典》《春秋左傳詞典》為主的詞典或百科中自動獲取。基于規(guī)則的方法可以保證歧義消解的準確性,也可以為異名同指歧義的消解提供可靠的知識來源。
5 ? 基于消歧實體的春秋人物概貌
消歧完成后得到的實體知識更加準確,以此為基礎(chǔ)進行的實體知識挖掘和數(shù)字人文研究也將得到更可靠的結(jié)果。本研究對《春秋經(jīng)傳引得》中所有人名實體進行了歧義消解,并對消歧后的實體進行了計量統(tǒng)計、影響力分析和數(shù)據(jù)可視化呈現(xiàn),從整體上描繪出春秋時期的人物概貌。
5.1 ? ?春秋人物異名解析
《春秋經(jīng)傳引得》中包含了4695個人名實體詞,共表示了1421個人物,其中875個人物有兩個以上的名稱,占總數(shù)的61.58%,可見異名同指現(xiàn)象在春秋時期十分普遍。有超過188個(近30%)的人物有三個以上名稱,超過87個人物有四個以上名稱,這表明了該時期異名同指現(xiàn)象的普遍和復(fù)雜。異名同指現(xiàn)象實際上反映了春秋時期人物的成長和經(jīng)歷,如異名數(shù)目排第一的“士會”還有“士季、隨會、隨季、范子、范會、武季、隨武子、范武子、會”等名稱。其中“士會”表明了他父親的“氏”和他自己的“名”;“隨會、范會”是由于他被封于“隨”和“范”之后以封地為氏;“士季、隨季”表明了他在家族中的排行(四子);“武季、隨武子、范武子”則是根據(jù)“謚號”對他的尊稱。通過對“士會”異名的分析,可以發(fā)現(xiàn)他豐富的人生經(jīng)歷和較高的社會地位?!洞呵铩分挟惷麛?shù)量較多的人物大多如“士會”一樣有自己的封地和相應(yīng)的謚號,在當時具有較高的社會影響力,人物異名統(tǒng)計相關(guān)數(shù)據(jù)也支持這一論斷(異名數(shù)量排名靠前的人物大多是大諸侯和地位顯赫的貴族)。因此從一定程度上可以認為,人物的異名數(shù)量越多,其人生經(jīng)歷越豐富,社會地位越高(異名實體分布的相關(guān)數(shù)據(jù)見圖6、表7)。
5.2 ? ?春秋人物影響力分析
人物的異名數(shù)量可以看出其社會地位,但并不能準確反映他對時代的影響力。衡量一個人物影響力的高低,可以參考文獻計量的思路,通過其在語料中出現(xiàn)的次數(shù)來計量,而這樣的計量必須基于消歧后的統(tǒng)計數(shù)據(jù)才能保證準確。根據(jù)實體消歧后的語料,可以統(tǒng)計得到《春秋經(jīng)傳引得》中人物出現(xiàn)次數(shù)的分布數(shù)據(jù)(見表8),將之與消歧前人物出現(xiàn)次數(shù)的分布數(shù)據(jù)(見表9)相比較,可以發(fā)現(xiàn)實體歧義消解對數(shù)字人文研究的重要影響。
對比分析表8和表9可以發(fā)現(xiàn),絕大多數(shù)的人物排名出現(xiàn)了較大的變化,尤其是“晉文公、齊桓公”等消歧前排名并不靠前的人物,在歧義消解之后排名躍居前列,而這恰與他們在“春秋”時代的影響力相符,因此歧義的消解可以使得通過人物出現(xiàn)次數(shù)獲得的影響力分析數(shù)據(jù)更加準確。具體來看,公孫僑(也就是子產(chǎn))始終是出現(xiàn)次數(shù)最多的人名實體,無愧于其“春秋第一人”的稱號;在眾多諸侯中,“晉文公”消歧后的排名提高了很多,達到第2名的水平,符合其“春秋五霸”地位,“齊桓公”也同樣如此,而齊國的三位君主排列3至5名,展現(xiàn)了他們強大的實力和對魯國的影響力,除此之外,著名的“鄭莊公”也高居第11位,無愧其“春秋三小霸之首”的地位。除諸侯之外,其余的實體也都是“春秋”中重要的人物,其中“趙氏”非常顯著,晉國大夫趙盾、其孫“趙氏孤兒”趙武、趙武之孫趙鞅均排名靠前,而與趙武關(guān)系密切的韓起的排名也很高,表明了“韓氏”在晉國的顯赫,“趙氏”“韓氏”的重要地位也預(yù)示著春秋末期“三家分晉”的必然性。
根據(jù)消歧后人物出現(xiàn)次數(shù)統(tǒng)計數(shù)據(jù),可以通過詞云的形式進行可視化的數(shù)據(jù)展示,以對“春秋”中的人物有一個更為直觀的了解(見圖7),從圖中可以看出實體的字號與該實體的出現(xiàn)次數(shù)有關(guān),字號越大說明該人名實體出現(xiàn)次數(shù)越多,排名前200的人名實體均包含在該圖中,該圖可以看作“春秋”人物的一個縮影。
6 ? 結(jié)論
對于以實體知識為基礎(chǔ)的數(shù)字人文研究來說,知識的準確與否決定了相關(guān)研究結(jié)論是否可靠,本文以《春秋》中的人名歧義為例,一方面發(fā)現(xiàn)了歧義存在的普遍性和歧義消解的必要性,另一方面也驗證了基于規(guī)則的方法在歧義消解問題中的可行性。本文通過人物異名數(shù)來考察其人生經(jīng)歷和社會地位,說明了消歧后的實體知識可以為古文數(shù)字人文研究提供新的研究視角;而通過對出現(xiàn)次數(shù)排名靠前人物進行的統(tǒng)計分析,本文也驗證了消歧后的實體知識可以帶來更加準確的分析結(jié)果。通過獲取更大規(guī)模的消歧實體語料和相應(yīng)的實體知識,可以期待更加豐富同時更加可靠的古文數(shù)字人文研究。
參考文獻:
[1] ?王東波,高瑞卿,沈思,等.面向先秦典籍的歷史事件基本實體構(gòu)件自動識別研究[J].國家圖書館學(xué)刊,2018,27(1):65-77.
[2] ?范佳.“數(shù)字人文”內(nèi)涵與古籍數(shù)字化的深度開發(fā)[J].圖書館學(xué)研究,2013(3):29-32.
[3] ?歐陽劍.大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索[J].大學(xué)圖書館學(xué)報,2016,34(3):5-15.
[4] ?歐陽劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國圖書館學(xué)報,2016,42(2):66-80.
[5] ?Wacholder N,Ravin Y,Choi M.Disambiguation of proper names in text[C].In Association for Computational Linguistics,1997:202-208.
[6] ?Ravin Y,Kazi Z.Is Hillary Rodham Clinton the president?:disambiguating names across documents[C].In Association for Computational Linguistics,1999:9-16.
[7] ?Smith D A,Crane G.Disambiguating geographic names in a historical digital library[C].In Springer,2001:127-136.
[8] ?Bagga A,Baldwin B.Entity-based cross-document coreferencing using the vector space model[C].In Association for Computational Linguistics,1998:79-85.
[9] ?Pedersen T,Purandare A,Kulkarni A.Name discrimination by clustering similar contexts[C].In Springer,2005:226-237.
[10] ?Bekkerman R,McCallum A.Disambiguating web appearances of people in a social network[C].In ACM,2005:463-470.
[11] ?Han X,Zhao J.Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C].In Association for Computational Linguistics,2010:50-59.
[12] ?Bikel D M,Castelli V,F(xiàn)lorian R,et al.Entity Linking and Slot Filling through Statistical Processing and Inference Rules[C].TAC,2009.
[13] ?線巖團,余正濤,洪旭東,等.基于特征加權(quán)重疊度的中文實體協(xié)同消歧方法[J].中文信息學(xué)報,2017,31(2):36-41.
作者簡介:劉瀏,男,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院講師;王東波,男,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授;黃水清,男,南京農(nóng)業(yè)大學(xué)信息管理學(xué)院教授;蘇新寧,男,南京大學(xué)信息管理學(xué)院教授。