劉 琦,肖仰華,汪 衛(wèi)
(復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海201203)
一種面向海量中文文本的典型類屬關(guān)系識別方法
劉 琦,肖仰華,汪 衛(wèi)
(復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海201203)
傳統(tǒng)基于文本的類屬關(guān)系自動抽取算法只簡單記錄關(guān)系出現(xiàn)的位置、頻次等信息,而忽略了大量上下文信息,不能有效辨識典型類屬關(guān)系。為此,提出一種面向互聯(lián)網(wǎng)文本典型類屬關(guān)系的識別方法。通過提取實體概念的語言學(xué)特征和上下文語義特征構(gòu)成實體特征集,基于樸素貝葉斯分類器,計算任意實體屬于不同概念的可能性,從而識別典型類屬關(guān)系。實驗結(jié)果證明,與基于頻率的識別方法相比,該方法能將典型類屬關(guān)系的識別準(zhǔn)確率提高5%以上。
中文知識庫;類屬關(guān)系;關(guān)系抽取;典型性;模式識別;樸素貝葉斯
構(gòu)建知識庫是理解中文語義的前提,其中類屬關(guān)系是最基本的關(guān)系之一。在知識庫中,一個實體通常會屬于多個概念。在實際使用時,需要給出一個實體最合理的概念,因此對這些概念加以排序是十分必要的。比如,對于“中國”,它類屬于“國家”、“市場”和“古國”這3個概念的典型性逐漸減小?;诤A炕ヂ?lián)網(wǎng)文本抽取的類屬關(guān)系具有頻次信息,通常用來衡量該類屬關(guān)系是否較同一個實體的其他類屬關(guān)系更典型。本文通過綜合考慮類屬關(guān)系的多維特征,結(jié)合語言學(xué)特征和實際上下文特征來辨識典型類屬關(guān)系。
類屬關(guān)系的抽取是一種典型的關(guān)系抽取任務(wù),相關(guān)方法分為:(1)人工抽取,如WordNet[1], HowNet[2];(2)基于百科網(wǎng)頁中的結(jié)構(gòu)化[3]、半結(jié)構(gòu)化文本抽取[4-5];(3)基于非結(jié)構(gòu)化文本使用模式識別[6-7]的方法抽取[8]。眾多國內(nèi)外基于文本自動構(gòu)建的知識庫YAGO[9],Probase[10]等都把實體概念的共現(xiàn)頻率作為類屬關(guān)系是否準(zhǔn)確的一個重要指標(biāo)。Probase中提出類屬關(guān)系的合理性和典型性。利用類屬關(guān)系出現(xiàn)的多種信息(比如網(wǎng)頁的Pagerank值、模式的可靠性等)來推斷其合理性,而用類屬關(guān)系的頻率和層次性來判斷其典型性。
通過考查漢語的構(gòu)詞法和概念的形成過程,筆者認(rèn)為影響類屬關(guān)系典型性的因素,除了實際使用語境中的統(tǒng)計規(guī)律之外,還包含類屬關(guān)系自身的語言學(xué)特征。本文將結(jié)合語言學(xué)特征和實際上下文來識別典型類屬關(guān)系。
圖1給出中文類屬關(guān)系的識別算法框架:從互聯(lián)網(wǎng)文本中抽取類屬關(guān)系和實體特征,利用樸素貝葉斯模型計算類屬關(guān)系的典型性?;ヂ?lián)網(wǎng)文本經(jīng)過Html解析、斷句等預(yù)處理被加入到語料庫中。從語料庫中利用頓等模式抽取同類詞集,利用類屬模式同時抽取類屬關(guān)系集和背景詞集。同類詞集、類屬關(guān)系集和背景詞集共同構(gòu)成實體的上下文特征集。從類屬關(guān)系集中解析出實體集和概念集。提取全部實體的語言學(xué)特征,和上下文特征一起構(gòu)成實體的特征集。如圖1中虛線部分所示,利用樸素貝葉斯分類器的思想,計算任意實體屬于每個概念的可能性,提取典型的類屬關(guān)系。
圖1 類屬關(guān)系識別算法框架
對實體進(jìn)行特征提取,是為了建立實體到特征再到概念的映射。特征分為2類:一類是語言學(xué)特征;另一類是上下文特征。
4.1 語言學(xué)特征
實體的語言學(xué)特征主要包含4個特征,分別是字特征、偏旁特征、詞特征和詞性特征。
(1)字特征是實體用字構(gòu)成的集合。漢語中一些概念會形成特有的用字習(xí)慣。比如“學(xué)?!钡拿邪靶 薄ⅰ爸小?、“大”,分別表示小學(xué)、初中、大學(xué)等。
(2)偏旁特征是由構(gòu)成實體的每個字的偏旁構(gòu)成。比如“蘋果”的偏旁特征就是{艸,木}?,F(xiàn)代漢語超過80%的字是形聲字,而形聲字的偏旁(義符)能夠揭示其本身概念的比例占83%[11]。
算法1 實體用字特征和偏旁特征的獲取算法
輸入實體庫,部首對照表
輸出實體對應(yīng)的字特征和偏旁特征
(3)詞特征是實體最細(xì)粒度的分詞結(jié)果。比如“紅蘋果”的詞特征就是{紅蘋果}。復(fù)合名詞通常包含表示重要語義特征的詞。比如“番茄炒蛋”中的“炒”字就與菜名具有很強的關(guān)聯(lián)。很多復(fù)雜的專業(yè)術(shù)語(比如化合物名字等)同樣具有明顯的詞特征。
(4)詞性特征是對詞特征的詞性標(biāo)注。復(fù)合名詞在命名時遵循一定規(guī)則,如在命名公司、酒店等機(jī)構(gòu)時,常會包含地名ns、人名nr等詞性。上海[/地名]某科技有限公司、北京[/地名]宋慶齡[/人名]基金會。地名、人名等詞性與機(jī)構(gòu)等實體的關(guān)聯(lián)性很強。
算法2 實體用詞特征和詞性特征的獲取算法
輸入實體庫,分詞詞典
輸出實體對應(yīng)的詞特征和詞性特征
4.2 上下文特征
上下文特征是從文本中提取的特征,包括同類詞特征、概念集。
(1)同類詞特征是指在實體在某一概念上的同位詞,在語言學(xué)中叫做對義詞。在漢語中,頓號的最主要用法是羅列某一概念下的同類詞。同類詞屬于同一概念的可能性很大。比如,“中國、美國、法國等聯(lián)合國常任理事國”中的“中國”、“美國”和“法國”。定義這種由頓號和等連接的句子模式叫“頓等模式”(見表1中的ID1和ID2對應(yīng)的模式)。表1中的匹配模式借鑒英文中的Hearst Patterns[12]。匹配模式中E,Ei(i=1,2,…)表示實體,是一個名詞詞組;C表示概念,一般為一個簡單名詞,也可以是名詞詞組;“[]”中的內(nèi)容表示任選一項;“?,”和“?”為正則表達(dá)式的常見符號。
表1 匹配模式
(2)概念集特征是指實體所屬的所有概念。概念之間具有包含、相似、等同等多種聯(lián)系,這種聯(lián)系表現(xiàn)在同一個實體可以屬于多種概念。這些概念組成的集合本身也是這個實體的特征。
比如蘭花的所屬概念集為{花卉植物花}。當(dāng)要判斷“蘭花是植物”的典型性時,{花卉花}這個特征可以增強這種典型性。因為從蘭花到花卉(花)再到植物存在一個很強的關(guān)聯(lián)關(guān)系,類屬關(guān)系的典型性因為這種關(guān)聯(lián)而得以增強。
背景詞特征是指類屬關(guān)系存在的句子中其他名詞構(gòu)成的集合。利用與類屬關(guān)系經(jīng)常出現(xiàn)的名詞特征可以更好地識別典型類屬關(guān)系。比如“中國是世界上最大的發(fā)展中國家”。<中國國家>是一個類屬關(guān)系,背景詞特征就是{世界}。在提及“世界”的語境中,“國家”這個概念出現(xiàn)的頻率要比沒有提及“世界”的語境中高得多。
算法3 實體上下文特征的獲取算法
輸入中文數(shù)據(jù)集,中文類屬關(guān)系模式
輸出類屬關(guān)系集,同類詞集,背景詞集
由于互聯(lián)網(wǎng)文本數(shù)據(jù)巨大,一個實體的上下文特征中會有大量同類詞、背景詞等,導(dǎo)致特征抽取效率不高,而且噪音信息很多。因此,每個實體的上下文相關(guān)的3種特征中,只選取其中頻率最高的100項。
問題定義令P(C|E)表示實體E屬于概念C的可能性。給定類屬關(guān)系集G。求典型類屬關(guān)系可以表示為:
根據(jù)樸素貝葉斯分類器的原理,在只考慮一維特征F的情況下,判斷給定實體E屬于概念C的可能性為:
其中,實體E具有特征F;P(C|F)表示根據(jù)實體具有的特征F判斷實體屬于概念C的概率;P(C)表示概念出現(xiàn)的先驗概率;P(F)表示特征出現(xiàn)的先驗概率,與實體概念的共現(xiàn)沒有任何關(guān)系,在實體概念對中,把實體用相應(yīng)的特征序列替換,那么就構(gòu)建了一個特征-概念的聯(lián)合分布空間;P(F|C)表示在這個聯(lián)合空間中,特征對概念的條件分布。
本文使用證據(jù)疊加的方法來融合各特征對類屬典型性關(guān)系的影響。每個特征對典型性的影響用后驗概率來表示。第4節(jié)中針對每個實體提出兩大類七小類特征。對于一個概念下的所有實體,可以提取一個很大的特征集,這個特征集同樣包含七小類特征。
對于概念C和小類特征Fi,設(shè),利用證據(jù)疊加的方法,采用式(3)確定小類特征對E屬于C的典型性。
如果按照順序把七小類特征編號為F1~F7,則得到式(4):
采用概率相加而不是相乘的主要原因有3個: (1)由于概率本身很小,7(n個概率相乘容易導(dǎo)致計算機(jī)中結(jié)果為0,使得結(jié)果不具有可比性。(2)從直觀上來說,證據(jù)越多,概率越大,而相乘使得特征越多,絕對大小反而越小。(3)相乘容易受特殊情況影響,一個極小值導(dǎo)致最終概率很小。而相加的模型對異常情況就很穩(wěn)定。由于最后比較的是相對值,因此式(3)中無需對概率歸一化。
算法4 最典型類屬關(guān)系的獲取算法
輸入類屬關(guān)系集EC,實體特征集EF
輸出最典型的類屬關(guān)系集
算法4中的F_top(Ci,n)是從每個小類特征中選出topn作為該概念的典型特征。最后的融合結(jié)果P(Ci|E)按照式(4)進(jìn)行計算。本節(jié)中的P(C|E)不是嚴(yán)格的概率,而是基于概率的一種度量。
6.1 實驗語料
實驗采用3個數(shù)據(jù)集card,full和mcr,它們分別來自百度百科的百科名片、百科正文和從互聯(lián)網(wǎng)上爬取的富文本網(wǎng)頁,其大小和提取的候選類屬關(guān)系數(shù)量如表2所示。每條類屬關(guān)系都統(tǒng)計了在數(shù)據(jù)集中出現(xiàn)的次數(shù)。實驗?zāi)康氖潜容^用不同方法從全部的類屬關(guān)系中識別出最典型類屬關(guān)系的準(zhǔn)確率。
表2 數(shù)據(jù)集
6.2 評測方法
實驗的目的是比較4種方法,分別是按照出現(xiàn)頻次的基本方法(Fq)、基于語言學(xué)特征的概率方法(M1)、基于上下文特征的概率方法(M2)和融合兩大類特征的方法(M3)辨識典型常識關(guān)系的準(zhǔn)確率。
Fq方法是直接從算法3的類屬關(guān)系中選出與某個實體相關(guān)的頻次最高的概念作為最典型類屬關(guān)系。其他3種方法均按完整的算法框架計算,不同的是在選擇小類特征上,M1只選取F1~F4,M2只選取F5~F7,而M3選取了全部的F1~F7。
為研究模型受參數(shù)n值變化的影響,選取n= 10,20,50,100,200,500,1000,1000 000。n= 1000 000時的情況相當(dāng)于采用所有特征,不預(yù)先做任何特征篩選。
為比較4種方法的差異,實驗中選取滿足下面條件的類屬關(guān)系<E,C>作為測試集:
(1)在4種方法的結(jié)果中E都有對應(yīng)的典型類屬關(guān)系;
(2)并且E對應(yīng)的概念C在4種方法中不完全相同。
根據(jù)實驗?zāi)康?對每個測試集,選取1000條類屬關(guān)系進(jìn)行人工標(biāo)注。實驗數(shù)據(jù)統(tǒng)計如表3所示。
表3 標(biāo)注集
在標(biāo)注過程中采用以下原則:
(1)按照通用性來標(biāo)注,只有最通用的類屬才認(rèn)為符合常識。比如,<上海,城市>是常識,而<上海,地區(qū)>不是。因為城市更符合常識,而地區(qū)不是。
(2)不能對概念進(jìn)行任意擴(kuò)展。比如<上海,車站>就不是常識。雖然上海經(jīng)常出現(xiàn)在車站列表中,而實際上它只是“上海站”的一個縮寫。
(3)概念不能具有相對性。“原料”、“代表作”等相對概念不能成為典型類屬關(guān)系的概念部分。例如,在常識知識庫中,<《八駿全圖》,畫作>是正確的。而<《八駿全圖》,代表畫作>就不準(zhǔn)確,因為“代表畫作”是一個相對概念,<《八駿全圖》,代表畫作>是一個不準(zhǔn)確的類屬關(guān)系。
這樣符合常識的類屬關(guān)系得分為1,不符合的得分為0。每個模型的最后得分為1000條類屬關(guān)系的平均分。
6.3 結(jié)果分析
圖2對比了各種模型在3個數(shù)據(jù)集下的實驗結(jié)果。橫軸表示模型參數(shù)n,縱軸表示典型類屬關(guān)系準(zhǔn)確率。對比Fq方法,可以看到M1,M2和M3都有明顯的提升效果,這證明在取適當(dāng)n的情況下,語言學(xué)特征的應(yīng)用和上下文特征都是有效的。在最好的情況下,M1,M2和M3都有約5%的提升。
對比圖2(a)、圖2(b)、圖2(c)中的M1方法發(fā)現(xiàn),語言學(xué)特征的作用隨著n值得增大先增加后趨緩,而且在n很小時都很差,說明語言學(xué)特征分布比較均勻,需要考慮盡可能多的語言學(xué)特征。
圖2 各方法在不同數(shù)據(jù)集上的準(zhǔn)確率比較
在圖2(a)中,M2方法在n值增大的情況下準(zhǔn)確率開始下降,說明在數(shù)據(jù)量較小的情況下上下文特征不穩(wěn)定且容易產(chǎn)生噪聲,這時n應(yīng)該取較小的10。而在圖2(b)、圖2(c)中M2都在n=100附近取得較大值,說明在數(shù)據(jù)量較大的情況下,并非利用的上下文特征越多越好,而是需要根據(jù)數(shù)據(jù)量選定適當(dāng)?shù)膎值(如100)。
而當(dāng)綜合利用語言學(xué)特征和上下文特征后,可以看到M3的表現(xiàn)是比較穩(wěn)定的,而且最優(yōu)值也是M3取得的。隨著n值的增加,準(zhǔn)確率逐步增加,直到趨穩(wěn),數(shù)據(jù)集對它性能的擾動較小。
綜合來看,特征屬性并不是越多越好,而要與數(shù)據(jù)集相適應(yīng),在實際應(yīng)用中可以通過實驗確定最佳n值。隨著知識庫的體量增大和數(shù)據(jù)集的增加,語言學(xué)特征會逐漸增多,這時選擇適當(dāng)數(shù)量的屬性就很必要,因為很多特征并不具有代表性。而且選擇適當(dāng)大小的n值可以提高算法效率。
本文在典型類屬關(guān)系的識別過程中,利用實體本身的語言學(xué)特征以及類屬關(guān)系所處的上下文特征,提高識別準(zhǔn)確率。在選取特征時,需要選取分布相對松散的語言學(xué)特征以及分布集中的上下文特征。下一步工作重點是添加更豐富的特征到識別模型中以提高模型識別性能。
[1] Fellbaum C.WordNet:AnElectronicLexicalDatabase[M].[S.l.]:MIT Press,1988.
[2] Dong Z,Dong Q.HowNet[EB/OL].[2013-12-17]. http://www.keenage.com/zhiwang/e_zhiwang.html.
[3] Yan Yulan,Okazaki N,Matsuo Y,et al.Unsupervised Relation Extraction by Mining Wikipedia Texts Using Information from the Web[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4thInternationalJointConferenceonNatural Language Processing of the AFNLP.Stroudsburg,USA: Association for Computational Linguistics,2009:1021-1029.
[4] Wang Jingjing,Wang Haixun,Wang Zhongyuan,et al. Understanding Tables on the Web[C]//Proceedings of the31stInternationalConferenceonConceptual Modeling.Berlin,Germany:Springer-Verlag,2012: 141-155.
[5] Niu Xing,Sun Xinruo,Wang Haofen,et al.Zhishi. me——Weaving Chinese Linking Open Data[C]// Proceedings of the10th International Semantic Web Conference.Bonn,Germany:Springer-Verlag,2011: 205-220.
[6] Ramakrishnan C,Kochut K J,Sheth A P.A Framework for Schema-driven Relationship Discovery from Unstructured Text[C]//Proceedings of International Semantic WebConference.Berlin,Germany:Springer-Verlag, 2006:583-596.
[7] Wong W,Liu Wei,Bennamoun M.Acquiring Semantic Relations Using the Web for Constructing Lightweight Ontologies[C]//Proceedings of the13th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin,Germany:Springer-Verlag,2009:266-277.
[8] Miner G,Elder J,Hill T,et al.Practical Text Mining and StatisticalAnalysisforNon-structuredTextData Applications[M].[S.l.]:Academic Press,2012.
[9] Suchanek F M,Kasneci G,Weikum G.Yago:A Core of Semantic Knowledge[C]//Proceedings of the16th International Conference on World Wide Web.New York, USA:ACM Press,2007:697-706.
[10] Wu Wentao,Li Hongsong,Wang Haixun,et al.Probase: A Probabilistic Taxonomy for Text Understanding[C]// Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data.New York,USA: ACM Press,2012:481-492.
[11] 王 寧.漢語字詞的結(jié)構(gòu)與意義[M].濟(jì)南:山東教育出版社,1997.
[12] Hearst M A.Automatic Acquisition of Hyponyms from Large Text Corpora[C]//Proceedings of the14th Conference on Computational Linguistics.Stroudsburg, USA:Association for Computational Linguistics,1992: 539-545.
編輯 陸燕菲
A Recognition Approach of Typical Generic Relationship for Massive Chinese Text
LIU Qi,XIAO Yanghua,WANG Wei
(School of Computer Science,Fudan University,Shanghai 201203,China)
In a usual way for automatic generic relation extraction from texts,only some simple information,such as positions and frequency are recorded.And enormous context information is ignored,which is very helpful to recognize typical relationship.A new approach is proposed to recognize typical generic relationship from candidates extracted Internet texts.Abundant semantic information is kept while relations are captured.It integrates both natural language features of entities and concepts to constitute a entity feature set,calculates the possibility of any entities belong to different concepts based on na?ve Bayesian,and recognizes typical generic relationship.Experimental result proves,as for judging whether a generic relation is typical,compared with the frequency-based recognizing method,the method improves the recognition accuracy by more than 5%.
Chinese knowledge base;generic relationship;relationship extraction;typicality;pattern recognition; naive Bayesian
劉 琦,肖仰華,汪 衛(wèi).一種面向海量中文文本的典型類屬關(guān)系識別方法[J].計算機(jī)工程, 2015,41(2):26-30.
英文引用格式:Liu Qi,Xiao Yanghua,Wang Wei.A Recognition Approach of Typical Generic Relationship for Massive Chinese Text[J].Computer Engineering,2015,41(2):26-30.
1000-3428(2015)02-0026-05
:A
:TP391
10.3969/j.issn.1000-3428.2015.02.006
國家自然科學(xué)基金資助項目(61003001,61170006,6117132,61033010)。
劉 琦(1988-),男,碩士研究生,主研方向:數(shù)據(jù)抽取,自然語言處理;肖仰華,副教授;汪 衛(wèi),教授、博士生導(dǎo)師。
2014-03-11
:2014-04-05E-mail:zerup123@gmail.com