張 榕
(北京語言大學漢語速成學院,北京 100083)
術語定義的聚類研究
張 榕
(北京語言大學漢語速成學院,北京 100083)
術語定義的領域聚類是一項較新的研究課題。本文采用自下而上的層級聚類的方法,基于知網進行語義相似度計算,并根據不同詞類對領域區(qū)分的貢獻度以及構建領域聚類特有的停用詞表來進行聚類的特征項選取,實現(xiàn)了術語定義的領域聚類。實驗取得了較好的聚類結果。
術語,術語定義,語義相似度,領域聚類
新事物、新概念的出現(xiàn)帶來了大量的術語及術語定義。對術語定義進行分類加工,按領域劃分為不同的類別,有利于領域學科專家建立領域術語數(shù)據庫,以及系統(tǒng)地研究領域術語之間的概念層次關系、語義關系,提高術語檢索的準確率與知識的系統(tǒng)化加工的效率。
由于術語在領域之間的相互借用,使得有些術語可以在多個應用領域被使用,這些術語在不同的領域具有不同的義項。以“病毒”這一術語為例,“病毒”可以是生物領域的“病毒”,也可以是計算機領域的“病毒”,而兩個領域的“病毒”顯然是不同的義項,當有若干條“病毒”定義時,如何從中鑒別出哪些是生物領域的病毒定義,哪些是計算機領域的病毒定義,需要人工的參與。我們以幾組同名術語定義為例來闡述術語定義領域聚類的必要性。例如:
1.病毒
病毒是一種可以在其他生物體間傳播并感染生物體的微小生物,一般包含核酸以及外殼蛋白,有些動物的病毒的外面也偶爾覆蓋一層細胞膜。
計算機病毒是指編制或者在計算機程序中插入的破壞計算機功能或者毀壞數(shù)據,影響計算機使用,并能自我復制的一組計算機指令或者程序。
2.防火墻
防火墻:用于將因特網的子網與因特網的其余部分相離,以達到網絡和信息安全效果的軟件或硬體設施。
防火墻:兩所房子之間或者一所房屋的兩個部分之間的厚而高的墻,可以防止火災蔓延。
3.蠕蟲
蠕蟲是指一種可以不斷復制自己并在網絡中傳播的程序。
蠕蟲是無脊椎動物的一大類,構造比腔腸動物復雜,身體長行,左右對稱,質柔軟,沒有骨骼,沒有腳。
4.樹
樹是指生成語法采用的一種二維圖形表示,能方便地顯示由一組規(guī)則生成句子的內部層級結構。
樹是木本植物的統(tǒng)稱。
例 1中的“病毒”分別是生物領域的術語和計算機領域的術語;例2中的“防火墻”分別是計算機領域的術語和建筑領域的術語;例3中的“蠕蟲”是屬于計算機領域的術語和生物領域的術語;例 4中的“樹”分別是計算機領域的術語和通用領域的詞語。
在領域數(shù)據庫的構建和用戶的使用過程中,有必要將這些定義區(qū)分開來。通過聚類將計算機科學術語聚合在一起,將生物學術語聚合在一起。但是當待處理的數(shù)據足夠龐大時,人工將這些術語定義進行領域分類,將耗費大量的人力、物力,因此本文提出了計算機自動處理的術語定義的領域聚類方法。
聚類是知識發(fā)現(xiàn)的重要方法,通過聚類,能夠發(fā)現(xiàn)事物的內部規(guī)律和特征。聚類沒有事先預定的類別,類別數(shù)在聚類過程中自動生成,無需人工標注和預先訓練分類器。聚類作為一種無監(jiān)督的機器學習方法,具有較高的靈活性和自動化處理能力[1]。本文聚類的具體過程如下圖所示:
圖 1 術語定義聚類流程圖
術語定義集,由漢語詞法分析器 I CTCLAS進行分詞和詞性標注,進入特征項選取階段。術語定義聚類的過程是將相似的一組定義歸為一類,如何將術語定義的文本內容轉換成計算機可處理的形式,從而用于計算定義之間的相似度是整個聚類過程的關鍵。
本文通過將術語定義用詞與普通文本用詞對比發(fā)現(xiàn),術語定義中的名詞與普通文本中的名詞具有很大的差別。在領域的判別過程中,定義句子中的名詞起到的支持作用最大??疾炱渌~性的詞語在兩種文體上用詞的區(qū)別,發(fā)現(xiàn)術語定義中的動詞與普通文本中的動詞的差別相對較小一些,但依然具有領域的區(qū)分度,應該作為聚類的特征,這些詞性對術語定義的領域所屬類別的判定,也起到了一定的貢獻作用。形容詞、副詞對領域聚類的貢獻度不大,不作為聚類的特征。
1.名詞的領域區(qū)分度
術語定義的領域分類,也就是將被定義的術語做一個領域分類,被定義項屬于什么領域,那么該術語定義就屬于什么領域。術語在詞性上大都是名詞或者名詞短語。定義句子中的名詞對區(qū)分被定義項屬于哪個領域具有最大的支持度。比如:
“卵磷脂是血管的清道夫:能將附著在血管壁上的膽固醇,中性脂肪乳化成微粒子,溶于血液中并運回肝臟而被代謝,從而改善血清脂質,清除過氧化物,使血液中膽固醇及中性脂肪含量降低,防止由膽固醇引起的血管內膜損傷?!?/p>
“膽固醇是體內最豐富的固醇類化合物,它既作為細胞生物膜的構成成分,又是類固醇類激素、膽汁酸及維生素 d的前體物質。”
“核酸是細胞內的生物大分子,是細胞的核心物質,由脫氧核糖核酸 (DNA)和核糖核酸 (RNA)組成?!?/p>
上面三個定義中的“血管”“肝臟”“細胞”“生物”“分子”“維生素”等詞對領域聚類起到了絕對的支持作用。
2.動詞的領域區(qū)分度:
“語音信號處理是指語音信號輸入計算機后對其進行分析處理的過程,語音通過話筒轉換成電信號,再經放大或轉換變成數(shù)字信號,用模式分類方法分析和識別這些信號?!?/p>
“二值化是指把一組數(shù)據按一定的規(guī)則映射為0或 1的過程。”
“漢字信息處理是指用計算機對漢字表示的信息進行操作和加工,如漢字的輸入、存儲、識別、生成和輸出等。”
上面三個句子中的動詞“輸入”“分析”“處理”“轉化”“識別”“映射”“操作”“加工”“存儲”“生成”“輸出”對領域類型判別,起到了支持作用。
連詞、介詞和虛詞對領域聚類幾乎不起任何的作用,因此也可以認定,這些詞性的詞不具有領域區(qū)分度。
另外,還有一些詞語不具有領域區(qū)分度,比如“所謂”“也就是”等等,這些作為停用詞存在。
由于本文的目的是將術語定義按照領域聚類,所以特征項的選取,與普通文本聚類有所區(qū)別。我們通過停用詞過濾以及定義用詞的詞性過濾將對領域聚類貢獻極小的詞語過濾掉,不參與到聚類的計算。
術語定義領域聚類的本質就是通過計算術語定義之間的句子相似度,將句子相似度高的術語定義劃分為一類,將相似度低的句子劃分到不同的類。相似度是一個很復雜的概念,不同應用領域對相似度有不同的界定。相似度計算的常用方法有基于向量空間模型的 TF/ IDF方法以及基于語義的方法。向量空間模型的方法把文本看成為詞的線性序列,不考慮詞語之間的相互關系,不對語句進行語法結構分析,只考慮了利用句子的表層信息;而基于語義的方法則是對文本進行語義分析,屬于深層結構分析法[2]。
本文的聚類方法是基于語義相似度,在計算相似度的過程中,將句子作為一個詞語的集合進行處理。這樣句子的相似度計算就轉化為集合之間的相似度計算。本文采用劉群的集合相似度的計算方法[3]來計算句子的相似度:
其中m、n表示兩個句子中詞匯集合的大小, a、b分別表示兩個句子中對應的詞。對于沒有建立起對應關系的詞,我們賦給它一個很小的值σ作為它與空元素的相似度。通過上面的公式,定義的相似度計算轉化為定義中出現(xiàn)的詞語的相似度計算。
詞語的相似度受到詞語的詞法、句法、語義、語用各個因素的影響。聚類的目的是把分屬不同領域的句子按領域聚類,顯然語義的因素對詞語和句子相似度的影響最大。詞義相似度計算是自然語言處理中一個重要的研究方向,被應用在文本分類、信息檢索、詞義排歧等領域。我們使用董振東先生創(chuàng)建的知網 (HowNet)作為語義知識資源庫,進行語義之間的相似度計算[4-5]。按照知網的定義,概念是對詞匯語義的一種描述。一個詞匯可能表示多種概念,而每個概念可以分解為若干義原,義原是用于描述一個概念的最基本的、不能再分割意義的最小單位。
若有兩個詞語W1和W2,如果W1有 m個概念,W2有 n個概念:s11m,s12…stm,則兩個詞語之間的相似度,由這兩個詞之間所有概念之間的相似度的最大值來決定,用公式表示為:
通過上述公式,詞語之間的相似度計算就轉化為概念之間的相似度計算。
知網的每個概念由多個義原來描述:
1)第一基本義原描述:兩個概念的基本義原的相似度為 Sim1(S1,S2);
2)其他基本義原描述:是一個除第一基本義原以外基本義原的集合,其他基本義原相似度為Sim2(S1,S2);
3)關系義原描述:是一個特征結構,對于該特征結構的每一個特征,屬性是一個關系義原,值是一個基本義原,或一個具體詞。關系義原描述的相似度為 Sim3(S1,S2);
4)關系符號描述:是一個特征結構,對于該特征結構的每一個特征,屬性是一個關系義原,值是一個集合,該集合的元素是一個基本義原,或一個具體詞。關系符號描述的相似度為 S im4(S1,S2)。
這樣,兩個概念語義表達式的整體相似度記為:
其中βi(1≤i≤4)是可調節(jié)的參數(shù),且有:
第一基本義原是概念最主要的特征,所以權值最高,其他的特征賦予一個遞減的權重。
若有兩個義原 S1,S2,其相似度記為 S im(S1, S2),并用以下公式表達:
其中Dis(S1,S2)為兩個義原在這個層次體系中的路徑距離,是一個可以調節(jié)的參數(shù)。兩個義原之間的距離越大,它們的語義相似度越小,兩者成反比。
給定一個數(shù)據樣本集 X{X1,X2,…,Xn},根據對象間的相似程度將樣本集合分成 k簇:{C1,C2,…,Ck}的過程稱為聚類。通??梢苑譃閷哟问胶头菍哟问絻煞N[6]。本文采用自底向上的層級聚類方法。該方法的優(yōu)點是易于理解,實現(xiàn)簡便。具體步驟如下:
輸入:待聚類的定義集合(n個定義)
1)初始化成 n類使每個類包含一個定義;
2)計算所有 n個類兩兩之間的相似度;
3)找出相似度最大的兩個類合并成一個類,n =n-1;
4)重復步驟 2、3直到最大的相似度小于設定的閾值或最后只有一類時停止。
術語定義的聚類實驗結果使用準確率來進行評價,用公式表示如下:
本文從中國標準化研究院提供的術語數(shù)據庫語料中隨機抽取 1000條術語定義來做實驗,聚類結果被分為19類,其中被正確分類的術語定義 778條。實驗的聚類正確率為 77.8%。
本文選用知網作為術語定義領域聚類的知識庫是因為知網里具有大量區(qū)分不同領域的義原。例如:commercial|商、medical|醫(yī)、computer|電腦、education|教育、weather|天象、politics|政、information|信息、agricultural|農、industrial|工、Animal-Human|動物、animate|生物、chemical|化學物、material|材料、vehicle|交通工具、MusicTool|樂器、machine|機器、music|音樂、sport|體育、law|律法等。這些義原對定義的領域區(qū)分與判別起到了很大的支持作用。
實驗中我們也發(fā)現(xiàn)使用知網進行領域聚類的局限性。由于知網使用的義原的個數(shù)為 2200個,但是它所涵蓋的詞語達 65 000條,概念達80 000多。義原的個數(shù)遠遠小于詞語和概念的個數(shù),這樣就出現(xiàn)多個概念之間共用同一個義原的情況,影響了領域聚類的準確度。
我們以“phenomena|現(xiàn)象”這個義原為例進行分析,包含該義原的詞語有:白色恐怖、雹災、飽嗝兒、暴洪、悲歡離合、弊病、表面現(xiàn)象、兵荒馬亂、病蟲害、波譜、擦網球、差錯、車流、春寒等。顯而易見,在聚類的過程中,這些詞語由于共用一個“phenomena|現(xiàn)象”義原,而且該義原在大多數(shù)情況下屬于第一基本義原,被賦予了一個較高的權重,通過詞語的相似度計算,這些詞語之間容易獲得較大的相似度。由于句子的相似度是建立在詞語相似度基礎之上,進而又影響到句子的相似度計算,影響了聚類的結果。
同時知網中部分詞語的義原描述不夠詳盡,無法提供對領域聚類的足夠支持。例如,颶風只有一個義原描述“wind|風”;泥石流同樣只有一個義原描述“stone|土石”。這兩個詞語屬于自然現(xiàn)象,但知網的知識庫卻不能提供領域聚類的支持。
詞條的完備性也會產生一定的影響,由于術語定義中包含的術語較多,有些詞語未被知識庫所收錄,中文是一個開放集合,知網也并不能涵蓋所有詞語??梢娨粋€知識庫的構建是項非常艱巨的工作,同時它的構建總會受一些主觀因素的影響。因此,借助知識庫進行自然語言處理的相關工作既有可操作性又有其局限性。
術語定義的領域聚類的研究相對來說是一個新課題。定義的自動聚類有助于系統(tǒng)化地研究某個特定領域的術語以及術語定義的詞匯、句法,以及語義的內在固有規(guī)律。對領域術語庫的建設、領域知識的提取與研究具有一定的理論意義和應用價值。將同屬于一個領域類別的術語定義劃分到一類,不僅可以自動區(qū)分開不同領域的同名術語,而且可以集中得到一批同領域的術語定義,對特定領域的術語研究提供了方便。術語定義聚類與通常的文本聚類、句子聚類不同,本文通過考察不同詞類對于領域區(qū)分程度的差異,作為聚類領域特征的選取準則,將不具有領域區(qū)分程度的詞類排除在聚類計算過程之外,通過自底而上的層級聚類的方法,有效地解決了術語定義的領域聚類問題。
[1]趙世奇,劉挺,李生.一種基于主題的文本聚類方法[J].中文信息學報,2007(2):58-61.
[2]趙妍妍,秦兵.基于多特征融合的句子相似度計算[G].全國第八屆計算語言學聯(lián)合學術會議 (JSCL-2005). 2005:168-174.
[3]劉群,李素建.基于知網的詞匯語義相似度計算 [J]. Computational Linguistics and Chinese Language Processing,2002,7(2):59-76.
[4][EB/OL]http://www.keenage.com.
[5]許石,樊孝忠,張鋒.基于知網的語義相關度計算 [J].北京理工大學學報,2005(5):411-414.
[6]姚清耕,劉功申,李翔.基于向量空間模型的文本聚類算法[J].計算機工程,2008(9):39-41.
Cluster Research on Term Definition
ZHANG Rong
D om a in c lus te ring of te rm definition is a re la tive ly new resea rch top ic.In this resea rch,w e took bottom-up hie ra rchica l c lus te ring m e thod for sem antic s im ila rity ca lcula tion based on HowN e t,and se lec ted c lus te r-sp ec ific cha rac te ris tics based on w ords w ith d iffe rent contribution to c lus te ring and s top-used w ords cons truc ting dom a in c lus te r.O ur resultsrea lized the dom a in c lus te r of te rm definition,and achieved a des ired exp e r im enta l result.
te rm,te rm definition,sem antic s im ila rity,dom a in c lus te ring
H083;N04
A
1673-8578(2011)01-0014-05
2010-07-02
張榕 (1975—),女,江蘇溧水人,博士,北京語言大學漢語速成學院講師,主要研究計算語言學、術語學等。通信方式:zhangrong@blcu.edu.cn。