閆丹輝,畢玉德
(洛陽外國語學(xué)院,河南 洛陽 471003)
命名實體是指文本中的固有名稱、縮寫及其他唯一標(biāo)識,主要包括文本中出現(xiàn)的組織機構(gòu)名、地名、人名、時間表達及數(shù)值表達等。命名實體識別是信息抽取的重要研究內(nèi)容,在信息檢索、機器翻譯和問答系統(tǒng)等自然語言處理領(lǐng)域有著廣泛的應(yīng)用。
從目前所掌握的資料來看,在現(xiàn)代越南語(以下簡稱越南語)命名實體識別方面的研究仍相對較少,具有重大的研究意義及應(yīng)用價值。
越南學(xué)者Tri Tran Q, Thao Pham T X, Hung Ngo Q, Dien DINH, Nigel COLLIER提出了一個基于支持向量機(SVM)的越南語命名實體識別模型[1]。這也是首次將該機器學(xué)習(xí)方法應(yīng)用于越南語命名實體識別。實驗表明,該模型的識別效果超過了基于條件隨機域(CRF)的模型,總體F值達到了87.75。作者分析了越南語的構(gòu)詞特征及詞形特征,在此基礎(chǔ)上提出了一個基于SVM的越南語命名實體識別模型。實驗結(jié)果表明,該系統(tǒng)對越南語人名、機構(gòu)名、地名識別的準(zhǔn)確率分別達到了92.91%、85.16%、89.13%,召回率分別達到了87.09%、77.11%、88.75%。
本文從語言學(xué)角度分析了每類命名實體的構(gòu)成規(guī)律,并將這些規(guī)律在計算機中進行了形式化表達。該方法具有較好的擴展性,并在實驗中取得了較好的識別效果。本文語料來源為2009年河南省洛陽市社科規(guī)劃重點項目“現(xiàn)代越南語語料庫建設(shè)(2009A028)”成果。語料涵蓋人文社科、自然科學(xué)及綜合類等各方面。
越南語是一種孤立語,沒有詞匯的形態(tài)變化,聲調(diào)多。越語音節(jié)界限分明,一個音節(jié)就是一個字,書寫時每個音節(jié)之間用空格分開。例如,
越南語采用拉丁字母書寫系統(tǒng),是一種記音文字,因而存在字母的大小寫問題。越南官方出臺相關(guān)的書寫規(guī)范。例如,規(guī)定越南人名、地名在書寫時每個音節(jié)首字母必須為大寫形式,這在越南人名、地名識別中是個非常有用的特征。對于機構(gòu)名的書寫來說,并沒有明確的書寫規(guī)定,但是通過對語料進行分析,我們發(fā)現(xiàn)機構(gòu)名存在著特殊的書寫習(xí)慣,可用于對越南機構(gòu)名識別。
我們將越南語文本中可能出現(xiàn)的機構(gòu)名稱分為以下3類,以進一步對越南機構(gòu)名的自動識別進行探討。
行政機構(gòu)是最有代表性的社會組織形式,越南行政機構(gòu)分為四級,如表1所示。
表1 越南行政機構(gòu)設(shè)置
經(jīng)過對語料的分析,可歸納出越南國家行政系統(tǒng)機構(gòu)類別如表2所示。
表2 越南國家行政系統(tǒng)機構(gòu)類別
對語料中出現(xiàn)的此類越南機構(gòu)名進行分析可以發(fā)現(xiàn)其具有一個顯著的特點,即特征詞位于機構(gòu)名短語開頭。
形式化表達式中,雙引號中的字(“a”)代表字符本身,尖括號內(nèi)(< >)包含的為出現(xiàn)1次的必選項,方括號([ ])內(nèi)包含的為可重復(fù)1至有限次的項,大括號({ })內(nèi)包含的為可重復(fù)0至有限次的項,豎線( | )表示在其左右兩邊任選一項。
從分析結(jié)果來看,當(dāng)劃分為較細的類別時可分別對每類進行形式化表達,舉例如下:
(1) <特征詞><工作用詞>
(2) <特征詞><工作用詞>[<“v”>|<“-”>]<工作用詞>
當(dāng)前,越南是一個一黨執(zhí)政的國家,越南共產(chǎn)黨是越南的執(zhí)政黨。越南共產(chǎn)黨各級組織機構(gòu)的設(shè)置與我國類似,主要設(shè)置有以下幾類機構(gòu)(表3):
表3 越南共產(chǎn)黨組織機構(gòu)類別
這些機構(gòu)類別同樣可以作為越南共產(chǎn)黨機構(gòu)名識別的特征詞。
越南社會同樣存在大量的社會團體,例如,越南祖國陣線、越南勞動者聯(lián)合會總會、越南農(nóng)民協(xié)會等,其中越南祖國陣線是越南具有協(xié)商性質(zhì)的民族統(tǒng)一戰(zhàn)線組織,是越南最重要的社會團體,其機構(gòu)設(shè)置具有典型的代表性。下面,我們以該團體為例,介紹越南社會團體中的機構(gòu)設(shè)置。
在中央一級,越南祖國陣線主要設(shè)置有如下機構(gòu)(表4):
表4 越南祖國陣線機構(gòu)示例
在省一級,越南祖國陣線機構(gòu)設(shè)置如表5所示。
表5 越南祖國陣線機構(gòu)示例
對于越南政黨及社會團體類機構(gòu),我們采取如下策略進行識別。首先,建立社會團體數(shù)據(jù)庫,收錄越南社會各主要社會團體,以靜態(tài)匹配的方式對越語文本中的社會團體進行識別。其次,對越南政黨類機構(gòu)進行詳細分類,并對每類機構(gòu)進行形式化表達,以形式化表達作為其識別規(guī)則。舉例如下:
對于此類機構(gòu)名,我們將主要從越南教育系統(tǒng)內(nèi)的各學(xué)校、越南的公司企業(yè)等兩方面進行介紹和分析。
我們語料中收集了820所越南高校的名稱,如表6所示。
表6 越南高校示例
我們發(fā)現(xiàn),總體上越南高校的命名方式并沒有統(tǒng)一的規(guī)律可循,且在高校名稱中使用縮略語是很常見的現(xiàn)象,例如,將caong(高等)縮略為C,將(中學(xué))縮略為TH,將kinh t(經(jīng)濟)縮略為KT等等,這更增加了對其識別的難度。但對越南高校名稱進行詳細分類后,我們發(fā)現(xiàn)每類高校名的命名方式仍有一定的規(guī)律可循,可據(jù)此制定相關(guān)的識別規(guī)則。
表7 越南高校名稱用詞統(tǒng)計
從表7可以看出,以地名結(jié)尾的高校名稱最多,占到了約70%;其次是以普通名詞結(jié)尾的高校名,占約16%;以人名、數(shù)詞和縮略語結(jié)尾的高校名所占比例較小,依次為3%,6%和5%。
在命名方式上,不同類別的高校名稱具有不同的構(gòu)成特點。從分析結(jié)果來看,當(dāng)劃分為較細的分類時可分別將每類高校名進行形式化表達。舉例如下:
(1) <特征詞>{性質(zhì)}{<學(xué)科>|<行業(yè)>}<地名>
(2) <特征詞>[<學(xué)科>|<行業(yè)>] {地名}[<數(shù)量詞>|<縮略語>]
(3) <特征詞>[<學(xué)科>|<行業(yè)>] {普通名詞}
(4) <特征詞>{<學(xué)科>|<行業(yè)>}<人名>
在公司企業(yè)類機構(gòu)方面,我們對在河內(nèi)證券交易所、胡志明證券交易所上市的各類公司企業(yè)名稱進行了整理,收集了其中的779家各類公司企業(yè)的名稱,如表8所示。
表8 越南公司企業(yè)名示例
根據(jù)統(tǒng)計結(jié)果,我們將越語文本中公司企業(yè)名用詞分為如下5類: 第一類是公司企業(yè)的特征詞,如Cng ty,Cng ty Cphn,CTCP,Cng ty CP,Cty CP等等;第二類是公司企業(yè)生產(chǎn)經(jīng)營所涉及的產(chǎn)品類名詞,例如,cao su(橡膠)、cp(電纜)、g(木材加工)等等;第三類是公司企業(yè)生產(chǎn)經(jīng)營所涉及的行業(yè)類名詞,例如,chbin(加工)(運輸)等等;第四類是地名用詞,這些地名一般為公司企業(yè)所在地的地名,例如,(越南)、Biên Hòa(越南地名,邊和)等等;第五類是數(shù)詞,例如,1、2、3等等;第六類是外來詞及縮略語,如BECAMEX,LIX,CADOVIMEX等等。
從分析結(jié)果來看,當(dāng)劃分為較細的分類時可分別將每類企業(yè)名稱進行形式化表達。舉例如下:
(1) <特征詞>[<地名>|<產(chǎn)品>]
(2) <特征詞><外來詞>{<數(shù)詞>|<地名>}
(3) <特征詞>{行業(yè)}<產(chǎn)品>[<地名>|<外來詞>|<縮略語>|<數(shù)詞>]
一般來講,越南人名均由2-4個越南語音節(jié)組成,下面,我們以一條語料為例來進行分析:
在越南人名識別方面,特征詞通常表現(xiàn)為稱謂用語?,F(xiàn)代越南社會的稱謂系統(tǒng)比較復(fù)雜,《越南語人際稱謂研究》一書提出,以人際稱謂的內(nèi)涵作為分類標(biāo)準(zhǔn),可以“將人際稱謂分為親屬稱謂、社會稱謂、姓名稱謂和指代稱謂4部分”。其中,“親屬稱謂是指互相有直接和間接血緣、婚姻、法律等關(guān)系的親戚和親屬的名稱”。例如,漢語中: 父親、兒子、丈夫……;越語中的ng(先生)、b(夫人、女士)、bc(老伯)……等?!吧鐣Q謂指作為社會群體的人在互相交際時根據(jù)對方的社會角色所使用的稱謂”。例如,漢語中: 部長、局長、處長……;越語中的(主任)、thtng(總理)(部長)……等。“姓名稱謂是指人類社會中每一個具體成員的正式的代指符號”,即人名,例如,李白、曹操……;越語中的HChí Minh(胡志明)u(潘佩洲)……等。“指代稱謂是指人們在交際時對自身、對方和他方所使用的代稱”[2]。例如,漢語中: 我、你們……;越語中的ta(咱們)、tao(我)、my(你)……等。
經(jīng)過對語料的分析,我們發(fā)現(xiàn),出現(xiàn)在語料中的越南人名稱謂用語主要涉及上述分類中的親屬、社會稱謂,極少量涉及其他分類。鑒于此,我們收集整理語料中出現(xiàn)的稱謂用詞,構(gòu)建用于越南人名識別的特征詞庫,如表9所示。
表9 越南語人名特征詞示例
續(xù)表
《越南語人際稱謂研究》一書對越南人名的構(gòu)成形式進行了分析,提出了10種常見構(gòu)成形式和4種罕見構(gòu)成形式,認為越南人名的常見構(gòu)成形式如下表10所示。
表10 越南人名常見構(gòu)成形式[2]
通過對語料進行分析,我們發(fā)現(xiàn),出現(xiàn)在語料中的人名絕大多數(shù)為2-4個音節(jié),極少量由4個以上音節(jié)組成,如表11所示。
表11 越南語常見人名示例
續(xù)表
姓氏是人名中必不可少的組成部分,由此,我們構(gòu)建越南常用姓氏庫,用于對越南人名的識別。越南常用姓氏庫按照《越南語人際稱謂研究》一書指出的“以較為保守的態(tài)度確定的,應(yīng)該是目前最無爭議的越人的姓”[2]進行構(gòu)建,見表12。
表12 越南常用姓氏庫[2]
續(xù)表
另外,需要注意的是,不同題材的文本中出現(xiàn)的人名往往具有不同的特點,如小說中的人名通常以“稱謂+名”的方式出現(xiàn),例如,anh Huy(小輝),cNga(小娥),em Hoa(小花)等等,在制定規(guī)則時需要加以考慮。
根據(jù)以上分析,可采取基于規(guī)則的方法對人名進行識別,舉例如下:
(1) 采取靜態(tài)匹配的方式識別越南社會各領(lǐng)域內(nèi)重要人物。
(2) 特征詞+(2至4個)首字母大寫音節(jié)。
(3) 以姓氏庫位基礎(chǔ),姓氏+(2至3個)首字母大寫音節(jié)。
需要指出的是,這些規(guī)則并不是唯一的,在實際的使用過程中,需要不斷地分析實際情況,對規(guī)則進行修改,以更好地進行識別。
陸利軍在《越南行政地名研究》中對越南行政地名的音節(jié)結(jié)構(gòu)形式進行了分析,提出越南行政地名用詞可分為單音節(jié)、雙音節(jié)、三音節(jié)和四音節(jié)四類,絕大多數(shù)為雙音節(jié)和三音節(jié)。作者將越南全國有代表性的省份所屬市縣名進行了統(tǒng)計,如表13所示。
表13 越南部分省所屬市縣名音節(jié)結(jié)構(gòu)表(%)[3-4]
從表13可以看出,雙音節(jié)和三音節(jié)地名占了絕大多數(shù),其中,海防省和安江省全部為雙音節(jié)地名,而河江省和義安省超過90%以上的地名為雙音節(jié)。根據(jù)分析,我們可以采取基于規(guī)則的方法對越南行政地名進行識別,舉例如下:
(1) 采取靜態(tài)匹配識別行政地名。
(2) 特征詞+(2至4個)首字母大寫音節(jié)。
依據(jù)以上分析,我們共制定出越南語命名實體識別規(guī)則152條,構(gòu)建了越南語命名實體通用詞典,收錄越南的常見命名實體,包含越南通用人名庫共計20 361條實例、地名庫共計11 911條實例、機構(gòu)名庫共計3 180條實例。開發(fā)了基于規(guī)則的越南語命名實體識別系統(tǒng),采用Acess 2003作為數(shù)據(jù)庫。數(shù)據(jù)庫中包含ORG(機構(gòu)名表)、LOC(地名表)和PER(人名表)三個表,每個表中設(shè)置ID(編號)、NAME(名稱)、INTRO(簡介)三個字段。系統(tǒng)的主要功能為調(diào)用規(guī)則識別待處理文本中的人名、地名和機構(gòu)名,同時將識別結(jié)果存入數(shù)據(jù)庫中。
系統(tǒng)包括以下5個模塊:
(1) 文本預(yù)處理模塊。該模塊的功能是將待處理的文本進行格式化處理,刪除多余的部分,只保留文本的正文,以更適合其他模塊的處理。
(2) 機器詞典查詢模塊。該模塊利用通用詞典查詢待處理文本,識別出常見命名實體。
(3) 模式匹配模塊。該模塊集成了用以識別越南語命名實體的各種規(guī)則,將實現(xiàn)系統(tǒng)的主要功能,識別待處理文本中的命名實體。
(4) 命名實體分類模塊。該模塊的主要功能為對識別出的越南語命名實體進行自動分類。
(5) 命名實體數(shù)據(jù)庫模塊。對識別出的命名實體識別進行分類,并存入3個數(shù)據(jù)庫中。
系統(tǒng)結(jié)構(gòu)圖見圖1。
圖1 系統(tǒng)結(jié)構(gòu)圖
系統(tǒng)流程圖見圖2。
圖2 NER系統(tǒng)流程圖
我們用500篇越南政治、經(jīng)濟類語料,對系統(tǒng)進行了封閉測試,以下為測試結(jié)果:
性能指標(biāo)機構(gòu)名人 名地 名準(zhǔn)確率/%90.592.795.8召回率/%74.379.277.5
該方法的最大優(yōu)勢在于原理簡單,容易實現(xiàn),識別準(zhǔn)確率高。在實際應(yīng)用過程中可以隨時添加規(guī)則,提高系統(tǒng)召回率。此外,該方法大量避免了識別結(jié)果中錯誤實例。
該方法的缺點在于難以手工總結(jié)出所有可能的規(guī)則,制約了系統(tǒng)召回率的提高。同時,要正確識別出某些嵌套結(jié)構(gòu)的、由較多音節(jié)組成的組織機構(gòu)名還比較困難,需要進一步提升規(guī)則的覆蓋范圍并優(yōu)化算法中規(guī)則的執(zhí)行順序。
初次測試中系統(tǒng)規(guī)則的執(zhí)行順序為: 人名、地名、組織機構(gòu)名。這導(dǎo)致了對機構(gòu)名的識別不完全的現(xiàn)象,如對這條語料:
(投資者認為美國聯(lián)邦儲備局會盡早出臺各項新的刺激措施)
由于未能獲取到越南學(xué)者開發(fā)的越南語SVM命名實體識別工具,在此并未進行對比實驗。但是從系統(tǒng)的測試結(jié)果來看,需要在算法中加入適當(dāng)?shù)慕y(tǒng)計因素,這將作為我們下一步的工作。未來,我們計劃進一步擴大語料分析量,進一步完善規(guī)則庫并優(yōu)化規(guī)則執(zhí)行順序,提高系統(tǒng)召回率。同時考慮結(jié)合適當(dāng)?shù)慕y(tǒng)計方法[5-6],深入借鑒中、英文及越南語相關(guān)領(lǐng)域的研究成果[7-17],在保持該方法優(yōu)勢的同時提高召回率。
[1] Tri Tran Q, Thao Pham T X, Hung Ngo Q, et al. Named Entity Recognition in Vietnamese documents [J]. Progress in Informatics, 2007,4: 5-13.
[2] 孫衍峰. 越南語人際稱謂研究[M]. 北京: 外文出版社,2009.
[3] 陸利軍: 《越南行政地名研究》,(碩士論文)廣西民族大學(xué),2007年,第26頁。
[4] 叢國勝. 越南行政地名譯名手冊[M]. 北京: 軍事誼文出版社,2004.
[5] 宗成慶. 統(tǒng)計自然語言處理[M]. 北京: 清華大學(xué)出版社,2008.
[6] Daniel Jurafsky, James H. Martin, 馮志偉 孫樂譯. 自然語言處理綜論[M]. 北京: 電子工業(yè)出版社,2005.
[7] 俞鴻魁,張華平,劉群等. 基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 通信學(xué)報,2006,27(2).
[8] 張曉艷,王挺,陳火旺. 基于混合統(tǒng)計模型的漢語命名實體識別方法[J]. 中文信息學(xué)報,2009,(2).
[9] Chen, Hsin-His, Yang Changhua & Ying Lin. Learning Formulation and Transformation Rules for Multilingual Named Entities [C] // Proceedings of ACL-2003.
[10] Chieu, Hai Leong & Hwee Tou Ng. Named Entity Recognition with a Maximum Entropy Approach [C] // Proceedings of CoNLL-2003.
[11] Dat Bat Nguyen, Son Huu Hoang, Son Bao Pham & Thai Phuong Nguyen. Named Entity Recognition for Vietnamese [J]. ACIIDS 2010. Part II, LNAI 5991, pp. 205-214.
[12] Klein, Dan, Joseph Smarr, Huy Nguyen & Christopher D. Manning. Named Entity Recognition with Character-Level Models [C] // Proceedings of CoNLL-2003.
[14] Thao Pham T. X, Tri T. Q., Ai Kawazoe, Dien Dinh & Nigel Collier. Construction of Vietnamese Corpora for Named Entity Recognition [C] // Conference RIAO2007. Pittsburgh PA, U.S.A. May 30-June 1, 2007.
[15] Tri Tran Q., Thao Pham T. X., Hung Ngo Q., Dien DINH, Nigel COLLIER. Named Entity Recognition in Vietnamese documents [J]. Progress in Informatics, No.4, pp.5-13,(2007).
[16] Whitelaw, Casey & Jon Patrick. Named Entity Recognition Using a Character-based Probabilistic Approach [C] // Proceedings of CoNLL-2003.
[17] WU, Youzheng, ZHAO Jun & XU Bo. Chinese Named Entity Recognition Combining a Statistical Model with Human Knowledge [C] // Proceedings of ACL-2003.