麥合甫熱提,米日姑·肉孜,麥熱哈巴·艾力,吐爾根·依布拉音+
(1.新疆大學(xué) 教務(wù)處,新疆 烏魯木齊830046;2.新疆大學(xué) 多語種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,新疆烏魯木齊830046;3.新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊830046)
維吾爾語中機(jī)構(gòu)名的構(gòu)建比較復(fù)雜,機(jī)構(gòu)名又包括人名、地名,所以維吾爾語中機(jī)構(gòu)名的自動(dòng)識(shí)別還包括人名和地名的識(shí)別,表明機(jī)構(gòu)名識(shí)別的難度。在中文機(jī)構(gòu)名識(shí)別領(lǐng)域中,研究者進(jìn)行了一系列的研究并取得了不錯(cuò)的成果,但還需要繼續(xù)探討和研究。維吾爾文機(jī)構(gòu)名識(shí)別又是一個(gè)新的挑戰(zhàn),由于語義、語法上與漢語、英語等語言不同,維吾爾文機(jī)構(gòu)名識(shí)別存在很大的難度。
目前為止所采用的命名實(shí)體識(shí)別方法也可以分為3個(gè)主要類別:基于規(guī)則 (rule-based)的方法[1](文獻(xiàn) [1]把機(jī)構(gòu)名分為簡(jiǎn)單型機(jī)構(gòu)名和復(fù)合型機(jī)構(gòu)名,分別建立模板進(jìn)行識(shí)別。);基于統(tǒng)計(jì)(statistic-based)的方法[2](如:最大熵 (ME)[3]、支持向量機(jī) (SVM)[4]、條件隨機(jī)場(chǎng)(CRF)[5]等)以及基于規(guī)則和統(tǒng)計(jì)相結(jié)合[6]的方法。
維吾爾語的命名實(shí)體識(shí)別具有獨(dú)特的語法和語義特性,英語和漢語中廣泛使用的算法和模型不能直接套用。另一方面,由于目前尚沒有較大規(guī)模的人工標(biāo)注語料庫,基于統(tǒng)計(jì)模型的命名實(shí)體識(shí)別研究仍然難以開展。我們針對(duì)機(jī)構(gòu)名識(shí)別任務(wù),立足于維吾爾語命名實(shí)體識(shí)別的研究現(xiàn)狀,設(shè)計(jì)了基于維吾爾語語法和語義知識(shí)的機(jī)構(gòu)名識(shí)別系統(tǒng)。通過研究維吾爾語機(jī)構(gòu)名的構(gòu)成規(guī)律,我們?cè)O(shè)計(jì)了有效地識(shí)別規(guī)則和相應(yīng)的知識(shí)庫,包括特征詞庫、修飾詞庫和地名庫;依據(jù)這些識(shí)別規(guī)則和知識(shí)庫,系統(tǒng)采用基于關(guān)鍵詞匹配和狀態(tài)轉(zhuǎn)移原理的識(shí)別算法,快速準(zhǔn)確地識(shí)別出候選機(jī)構(gòu)名實(shí)體。
為驗(yàn)證機(jī)構(gòu)名識(shí)別系統(tǒng)的有效性,我們從天山網(wǎng)新聞數(shù)據(jù)中選取有代表性的數(shù)百個(gè)實(shí)例構(gòu)建了機(jī)構(gòu)名識(shí)別的測(cè)試集。實(shí)驗(yàn)結(jié)果顯示,我們的機(jī)構(gòu)名識(shí)別系統(tǒng)具有很高地處理速度和識(shí)別精度,取得了F值83.05%的好成績(jī)。在下一步的工作中,我們將繼續(xù)深入進(jìn)行維吾爾語機(jī)構(gòu)名以及其他命名實(shí)體的識(shí)別研究,特別是嘗試采用無監(jiān)督和半監(jiān)督等先進(jìn)的統(tǒng)計(jì)學(xué)習(xí)技術(shù),以及統(tǒng)計(jì)技術(shù)和語法語義知識(shí)相結(jié)合的改進(jìn)技術(shù)。我們希望通過本工作起到拋磚引玉的作用,推動(dòng)學(xué)術(shù)界對(duì)維吾爾語命名實(shí)體識(shí)別的研究進(jìn)展。
維吾爾語是典型的黏著性語言,是阿爾泰語系突厥語族成員之一,其詞的形態(tài)及句子結(jié)構(gòu)與漢語、英語等具有很大不同的特點(diǎn)。現(xiàn)行維吾爾文有8個(gè)元音字母,24個(gè)輔音字母,并且有120 多個(gè)字符形式。書寫方向是從右到左,行向從上到下。每個(gè)字母按出現(xiàn)在詞首、詞中、詞末的位置有2到8種書寫形式。構(gòu)詞和構(gòu)形附加成分很豐富,句子中的單詞一般由詞干與多個(gè) (可以是0 個(gè))后綴結(jié)合。詞干后面綴接附加成分的時(shí)候,按維吾爾語語音和諧規(guī)律有些語音會(huì)發(fā)生弱化、脫落、增音等現(xiàn)象[7]。比如:對(duì)機(jī)構(gòu)名特征詞mektep (學(xué)校)而言,mektep+im (第一人稱單數(shù))=mektipim (我的學(xué)校)這里發(fā)生了語音弱化現(xiàn)象,也就是說mektep當(dāng)中的最后一個(gè)元音字母e弱化成了i,這些現(xiàn)象加大機(jī)構(gòu)名特征詞識(shí)別的難度。
機(jī)構(gòu)名識(shí)別工作的另一個(gè)困難在于機(jī)構(gòu)名包含了人名、地名,同時(shí)存在大量的未登錄詞[8],因此機(jī)構(gòu)名識(shí)別本身部分涵蓋了人名識(shí)別、地名識(shí)別等工作,使得機(jī)構(gòu)名識(shí)別工作比識(shí)別未登錄的人名、地名還復(fù)雜。
本文分析了大量語料中機(jī)構(gòu)名的組成特點(diǎn),我們總結(jié)了維吾爾語中機(jī)構(gòu)名識(shí)別的特點(diǎn)和難點(diǎn)總結(jié)如下:
(1)維吾爾文機(jī)構(gòu)名組成方式復(fù)雜,且含有大量的其他命名實(shí)體。在這些命名實(shí)體中,地名所占的比例最大。如:Dora Zawuti(西安制藥廠)中Shi’an(西安)是地名;Til Terbiylesh Merkizi(艾力西爾語言培訓(xùn)中心)中Elishir是人名等。被嵌套在機(jī)構(gòu)命中的實(shí)體名能否準(zhǔn)確識(shí)別出,會(huì)影響組織機(jī)構(gòu)名的識(shí)別效果。
(2)機(jī)構(gòu)名的長(zhǎng)度極其不固定,長(zhǎng)度從2個(gè)詞到十幾個(gè)詞的情況都存在。如:Shinjang Universiteti(新疆大學(xué))是由兩個(gè)詞構(gòu)成的機(jī)構(gòu)名;Zhongguo Komunistik yashlar ittipaqi Xinjang Uyghur Aptonom rayunluq zmin bayliqi nazariti(國共產(chǎn)主義青年團(tuán)新疆維吾爾自治區(qū)國土資源廳)的長(zhǎng)度達(dá)到了11個(gè)詞。很顯然這種情況會(huì)導(dǎo)致機(jī)構(gòu)名邊界的確定[9,10]。
(3)機(jī)構(gòu)名存在嵌套的情況,即機(jī)構(gòu)名中包含另一機(jī)構(gòu)名,這種復(fù)合機(jī)構(gòu)名在實(shí)際語料中出現(xiàn)的較多。例如:Shinjang Uyghur Aptonom rayunluq qatnash nazariti tashyol qurulush süpitini nazaret qilish idarisi(新疆維吾爾自治區(qū)交通運(yùn)輸廳公路工程質(zhì)量監(jiān)督局)中虛下劃線和實(shí)下劃線標(biāo)出的是2個(gè)獨(dú)立的機(jī)構(gòu)名,構(gòu)成了一個(gè)完整的機(jī)構(gòu)名。
(4)有些機(jī)構(gòu)名習(xí)慣用簡(jiǎn)稱,簡(jiǎn)稱一般是由其全稱中每個(gè)詞的第一個(gè)字母構(gòu)成。如:BDT(全程是:Birleshken Dletler Teshkilati)(聯(lián)合國)等。機(jī)構(gòu)名簡(jiǎn)稱的出現(xiàn),使得機(jī)構(gòu)名識(shí)別更加困難。
(5)機(jī)構(gòu)名用詞非常廣泛,除了名詞,還包含形容詞、副詞、數(shù)詞等。特別是表示軍隊(duì)、醫(yī)院、學(xué)校類的機(jī)構(gòu)名中,序數(shù)詞占有相當(dāng)大的比例。如: “Shinjang Tibbi univrsitti qarmiqidiki 2-Doxturxana”(新疆醫(yī)科大學(xué)第二附屬醫(yī)院)。
根據(jù)以上維吾爾文機(jī)構(gòu)名的結(jié)構(gòu)特點(diǎn),并分析了大量的機(jī)構(gòu)名后發(fā)現(xiàn),機(jī)構(gòu)名的結(jié)構(gòu)特點(diǎn)可歸納為表示機(jī)構(gòu)名的特征詞以及特征詞前的修飾詞,于是我們將維吾爾文機(jī)構(gòu)名形式化描述為:w1+w2+…+wn+s,其中s表示機(jī)構(gòu)名特征詞,w 表示特征修飾詞,n≥1。一般機(jī)構(gòu)名由一個(gè)或一個(gè)以上機(jī)構(gòu)名修飾詞 (如:tibbi(醫(yī)學(xué))、pidagogika(師范)、lktiron (電子))加上機(jī)構(gòu)名特征詞(如“universitti”(大學(xué)),“guruhi”(集團(tuán)),“zawuti”(廠),“etriti”(隊(duì)))等組成。前者是后者的修飾語,而后者則是前者的中心語。
另外,機(jī)構(gòu)名特征詞作為名詞可接的后綴 (維吾爾語名詞構(gòu)形后綴達(dá)到40多個(gè))。對(duì)維吾爾文語料進(jìn)行分析后發(fā)現(xiàn),機(jī)構(gòu)名中特征詞后面出現(xiàn)的后綴也有一定的規(guī)律存在,特征詞后面可能會(huì)出現(xiàn)的后綴總結(jié)見表1。若特征詞后面出現(xiàn)這些后綴,則可視為機(jī)構(gòu)名邊界,從而進(jìn)行修飾詞的識(shí)別。例如,“Biz bille Shinjang universitetigha barduq.”(我們一起去了新疆大學(xué)),“biz mushu universitetning oqughuchilir.”(我們是這個(gè)大學(xué)的學(xué)生)當(dāng)中,第一個(gè)句子存在高校名稱 “xinjang universiteti”(新疆大學(xué))而第二個(gè)句子雖然有特征詞,但不是一個(gè)高校名稱。
維吾爾文機(jī)構(gòu)名中承擔(dān)中心語的特征詞為數(shù)也不是很多,例如 “univrsitti”(大學(xué)),“idarisi”(局),“bankisi”(銀行)等。如果這些特征詞后有表1中后綴出現(xiàn),則仍將它視為特征詞。我們對(duì)語料中出現(xiàn)的機(jī)構(gòu)名進(jìn)行分析后,總結(jié)出機(jī)構(gòu)名中各成分的出現(xiàn)特征為如下幾種:
(1)地名+特征詞。如:“Shinjang univrsitti”(新疆大學(xué))中,Shinjang (新疆)是地名。
(2)人名+特征詞。如: “Amine xirkiti” (阿米娜公司)中amine(阿米娜)是人名。
(3)學(xué)科及專業(yè)名+特征詞。如:“l(fā)iktiron pen-texnika univrsitti” (電子科技大學(xué))中 liktiron pen-texnika(電子科技)是學(xué)科及專業(yè)名。
(4)地名+學(xué)科及專業(yè)名+特征詞。如: “Zhongguo siyasi qanun univrsitti”(中國政法大學(xué))。
(5)人名+研究、生產(chǎn)、經(jīng)營等的對(duì)象+特征詞。如:“Arman soda cheklik xirkiti”(阿爾曼實(shí)業(yè)有限公司)。
(6)方位詞+特征詞。如: “Sherqiy shimal univrsitti”(東北大學(xué))中sherqiy,shimal都是方位詞。
(7)專造名詞+特征詞。如: “Chinghua univrsitti”(清華大學(xué))中Chinghua(清華)是專造詞。
(8)有不少機(jī)構(gòu)名包含民族名稱,比如: “Shinjang uyghur aptonom rayunluq sayahet idarisi”,“Ili qazaq aptonom oblastliq ormanchiliq idarisi”等,其中uyghur,qazaq是民族名稱。
2.2.1 知識(shí)庫的設(shè)計(jì)
為了正確地識(shí)別機(jī)構(gòu)名,需要準(zhǔn)備相關(guān)的知識(shí)庫。本文使用新疆維吾爾自治區(qū)廣播電臺(tái)的新聞?wù)Z料 (20.6 M),手工標(biāo)注出了11500個(gè)真是機(jī)構(gòu)名。怎樣組織并保存機(jī)構(gòu)名是我們值得考慮的問題之一。合理地構(gòu)建知識(shí)庫不僅關(guān)系到識(shí)別效率,也影響系統(tǒng)的空間復(fù)雜度和時(shí)間復(fù)雜度。經(jīng)過觀察和分析得到,一個(gè)機(jī)構(gòu)名的生成可以看出是地名/人名、修飾詞及特征詞的動(dòng)態(tài)組合,如圖1所示。
圖1 機(jī)構(gòu)名組合示例
根據(jù)上述示例圖易得,對(duì)于一個(gè)機(jī)構(gòu)名可將其各組成部分分開存貯,不僅可以避免創(chuàng)建龐大的機(jī)構(gòu)名庫,而且其擴(kuò)展性高,只要加一個(gè)關(guān)鍵詞,如地名,即可識(shí)別所有可能相關(guān)的機(jī)構(gòu)名。于是,本文提出建立以下3個(gè)知識(shí)庫:
(1)特征詞庫:機(jī)構(gòu)名特征詞指的是機(jī)構(gòu)名末尾具有一定象征意義的詞,如 “univrsitti(大學(xué)),idarisi(局),bankisi(銀行)”。建立特征詞庫是將它作為觸發(fā)條件,得到機(jī)構(gòu)名左邊界。
(2)修飾詞庫:修飾詞是指一個(gè)機(jī)構(gòu)名中除特征詞和地名之外的其余詞。比如:Shinjang ilim-pen uchuri inistitoti(新疆科信學(xué)院)當(dāng)中的ilim-pen和uchur是修飾詞。我們總共收集了3574個(gè)機(jī)構(gòu)名修飾詞,并建立了機(jī)構(gòu)名修飾詞庫。
(3)地名/人名庫:由于大多數(shù)機(jī)構(gòu)由地名開頭,我們也建立了地名庫。這對(duì)維吾爾文機(jī)構(gòu)名右邊界的識(shí)別起很大的作用。建立的地名庫總共包含4517個(gè)地名,里面有國外的和國內(nèi)的地名。其中,疆內(nèi)的地名占的比例最高。另外,還增加了常見人名576個(gè)。
2.2.2 整體架構(gòu)
我們根據(jù)維吾爾文機(jī)構(gòu)名的組織結(jié)構(gòu)特點(diǎn),設(shè)計(jì)并構(gòu)建了機(jī)構(gòu)名的識(shí)別規(guī)則和相應(yīng)的知識(shí)庫。依據(jù)這些識(shí)別規(guī)則和知識(shí)庫,我們?cè)O(shè)計(jì)了基于關(guān)鍵詞匹配和狀態(tài)轉(zhuǎn)移原理的識(shí)別算法,能夠快速準(zhǔn)確地識(shí)別出機(jī)構(gòu)名實(shí)體。
機(jī)構(gòu)名稱識(shí)別系統(tǒng)的整體結(jié)構(gòu)如圖2所示。
圖2 機(jī)構(gòu)名識(shí)別系統(tǒng)結(jié)構(gòu)
2.2.3 基于詞匹配的識(shí)別流程
系統(tǒng)中識(shí)別引擎的識(shí)別流程如圖3 所示,其識(shí)別步驟如下:
步驟1 讀語料;
步驟2 若語料為空,則結(jié)束;否則取當(dāng)前詞;
步驟3 找到機(jī)構(gòu)名特征詞,獲取候選機(jī)構(gòu)名位置;
步驟4 以機(jī)構(gòu)名特征詞作為觸發(fā)點(diǎn),向前開始匹配;
步驟5 判斷當(dāng)前詞是否為修飾詞,若匹配成功,則保存,并去下一個(gè)詞,再轉(zhuǎn)到步驟5;否則,轉(zhuǎn)到步驟6;
步驟6 若當(dāng)前詞為地名/人名,認(rèn)為是機(jī)構(gòu)名,標(biāo)記并輸出,轉(zhuǎn)到步驟2;若不是,則轉(zhuǎn)到步驟2。
圖3 機(jī)構(gòu)名匹配過程流程
用一實(shí)例說明系統(tǒng)的識(shí)別過程:Shinjang Pidagogika univrsitti(新疆師范大學(xué))的識(shí)別過程是,首先在特征詞庫里進(jìn)行匹配 (如:univrisitti)如果找到了就從特征詞往右 (維吾爾語是從右往左寫)進(jìn)行前部詞匹配 (跟修飾詞庫和地名庫進(jìn)行匹配,如果有就不斷地進(jìn)行匹配等到?jīng)]有匹配為止);再往前進(jìn)行地名匹配 (從地名庫進(jìn)行匹配,如:Shinjang)匹配成功后標(biāo)記為機(jī)構(gòu)名。
最近,在維吾爾文信息處理方面進(jìn)行了一些有關(guān)專有名的研究與分析,但是在機(jī)構(gòu)名這一部分的研究相對(duì)少,在本論文中,通過研究與分析,并進(jìn)行實(shí)驗(yàn),討論在論文中提到的有關(guān)規(guī)則在維吾爾文機(jī)構(gòu)名識(shí)別中的研究及分析中的作用。
在測(cè)試中采用自然語言處理中使用最廣泛的3個(gè)性能評(píng)測(cè)指標(biāo),即準(zhǔn)確率P、召回率R 和F值,定義如下
其中,β是準(zhǔn)確率P 和召回率R 之間的權(quán)衡因子。β取為1,因此方程簡(jiǎn)成
為了評(píng)估基于語法語義知識(shí)的維吾爾文機(jī)構(gòu)名識(shí)別系統(tǒng)的識(shí)別效果,我們下載天山網(wǎng)的新聞,隨機(jī)抽取了178篇文章 (提取包含機(jī)構(gòu)名的616個(gè)句子,總共有727 個(gè)機(jī)構(gòu)名)進(jìn)行測(cè)試。
系統(tǒng)識(shí)別出來的有648 個(gè),其中正確識(shí)別出的有571個(gè)。正確率:88.11%,召回率:78.54%,F(xiàn)值:83.05%。
測(cè)試程序界面如圖4所示。
圖4 測(cè)試程序界面
通過實(shí)驗(yàn)結(jié)果我們可以看出大多數(shù)機(jī)構(gòu)名都被正確的識(shí)別出來了,但是由于知識(shí)庫包含的內(nèi)容不完備,造成識(shí)別不完整,漏識(shí)別等現(xiàn)象。因?yàn)榛谥R(shí)庫的機(jī)構(gòu)名識(shí)別方法中系統(tǒng)依賴于特征詞庫,修飾詞庫和地名庫的完備程度,3個(gè)庫中任意一個(gè)不完備,都可能導(dǎo)致識(shí)別錯(cuò)誤和遺漏的情況。下面舉2個(gè)例子,如:besh aliy mektep(五所高校)、ottura bashlanghuch mektep (中小學(xué))不是機(jī)構(gòu)名,但是由于它們包含的單詞在特征詞庫和修飾詞庫里面存在,系統(tǒng)把它們錯(cuò)誤的識(shí)別為機(jī)構(gòu)名。另外算法的缺陷導(dǎo)致誤識(shí)別,比如:erkin yza igilik univrsittida oquydu.(艾爾肯在農(nóng)業(yè)大學(xué)上學(xué))當(dāng)系統(tǒng)識(shí)別這一句時(shí),把erkin yza igilik univrsitti錯(cuò)誤的識(shí)別為機(jī)構(gòu)名。其中erkin (艾爾肯)是人名,但這個(gè)詞有另外一個(gè)意思 (自由),有第二種意思時(shí),能當(dāng)修飾詞,比如機(jī)構(gòu)名:erkin dimikuratlar partiyisi“自由民主黨”。這種有歧義的人名也會(huì)導(dǎo)致系統(tǒng)的識(shí)別錯(cuò)誤。要是剛才的句子改成erkin Shinjang univrsittida oquydu.(阿里木在新疆農(nóng)業(yè)大學(xué)上學(xué)。)的話,其識(shí)別結(jié)果是正確的。因?yàn)閑rkin后面有一個(gè)機(jī)構(gòu)名首位邊界詞 (地名)Shinjang (新疆),沒有必要判斷前面一個(gè)單詞,這樣就避免了識(shí)別錯(cuò)誤。只要能夠盡可能地完善這些知識(shí)庫,就能進(jìn)一步提高系統(tǒng)的識(shí)別效率。
本文根據(jù)維吾爾語的語法和語義特性設(shè)計(jì)出有效地識(shí)別規(guī)則和相應(yīng)的知識(shí)庫 (這些規(guī)則不僅能夠在維吾爾語文機(jī)構(gòu)名識(shí)別中應(yīng)用到,也可以在其它的命名實(shí)體識(shí)別,如:人名、地名等),并設(shè)計(jì)了基于狀態(tài)轉(zhuǎn)移原理的高效的識(shí)別算法。實(shí)驗(yàn)結(jié)果表明,我們的機(jī)構(gòu)名識(shí)別系統(tǒng)具有較高地處理速度和精度。在今后的工作中我們打算用統(tǒng)計(jì)的方法和規(guī)則的方法相結(jié)合,改進(jìn)我們的識(shí)別系統(tǒng)并提高識(shí)別效率。
[1]LI Jun,WANG Ding,WANG Xin.Chinese organization name recognition based on template matching [J].Information Technology,2008(6):97-99(in Chinese).[李軍,王丁,王鑫.基于模板匹配的中文機(jī)構(gòu)名識(shí)別[J].信息技術(shù),2008(6):97-99.]
[2]XIA Yun,LI Zhishu.Chinese organization automatic recognition based on statistical method [J].Journal of Sichuan University (Natural Science Edition),2009,46 (3):613-617 (in Chinese).[夏赟,李志蜀.基于統(tǒng)計(jì)的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,46 (3) :613-617.]
[3]Bender O,Och FJ,Ney H.Maximum entropy models for named entity recognition [C]//Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL,2003:148-151.
[4]CHEN Xiao,LIU Hui,CHEN Yuquan.Chinese organization names recognition based on SVM [J].Application Research of Computers,2008,25 (2):362-364 (in Chinese). [陳霄,劉慧,陳玉泉.基于支持向量機(jī)方法的中文組織機(jī)構(gòu)名的識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2008,25 (2):362-364.]
[5]HUANG Degen,LI Zezhong,WAN Ru.Chinese organization name recognition using cascaded model based on SVM and CRF[J].Journal of Dalian University of Technology,2010,50(5):782-787 (in Chinese).[黃德根,李澤中,萬如基于SVM 和CRF的雙層模型中文機(jī)構(gòu)名識(shí)別 [J].大連理工大學(xué)學(xué)報(bào),2010,50 (5):782-787.]
[6]YAN Ping.Research on the identifiction for chinese named entity based on combination of rules and statistic analysis [J].Computer & Digital Engineering,2011,39 (9):88-91 (in Chinese).[閆萍.基于規(guī)則和概率統(tǒng)計(jì)相結(jié)合的中文命名實(shí)體識(shí)別研究[J].計(jì)算機(jī)與數(shù)字工程,2011,39 (9):88-91.]
[7]Mairehaba·Aili,JIANG Wenbin,Tuergen·Yibulayin.Lemmatization of Uyghur inflectional words[J].Journal of Chinese Information Processing,2012,26 (1):91-96 (in Chinese).[麥熱哈巴·艾力,姜文斌,吐爾根·依布拉音.維吾爾語詞法中音變現(xiàn)象的自動(dòng)還原模型 [J].中文信息學(xué)報(bào),2012,26(1):91-96.]
[8]ZHOU Lei,ZHU Qiaoming.Research on recognition method of unknown chinese words based on statistic and regulation [J].Computer Engineering,2007,33 (8):196-198 (in Chinese).[周蕾,朱巧明.基于統(tǒng)計(jì)和規(guī)則的未登錄詞識(shí)別方法研究[J].計(jì)算機(jī)工程,2007,33 (8):196-198.]
[9]SHEN Jiayi,LI Fang,XU Feiyu,et al.Recognition of Chinese organization mames and abbreviations [J].Journal of Chinese Information Processing,2007,21 (6):17-21 (in Chinese).[沈嘉懿,李芳,徐飛玉,等.中文組織機(jī)構(gòu)名稱與簡(jiǎn)稱的識(shí)別[J].中文信息學(xué)報(bào),2007,21 (6):17-21.]
[10]ZHOU Junsheng,DAI Xinyu,YIN Cunyan,et al.Automatic recognition of Chinese organization name based on cascaded conditional random fields[J].Acta Electronica Sinica,2006,34 (5):804-809 (in Chinese).[周俊生,戴新宇,尹存燕,等.基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別 [J].電子學(xué)報(bào),2006,34 (5):804-809.]
[11]Dimitra F,Vangelis K,John K,et al.Rule-based named entity recognition for greek financial texts[C]//Proceedings of the International Conference on Computational Lexicography and Multimedia Dictionaries,2000:75-78.
[12]HU Wanting,YANG Yan,YIN Hongfeng,et al.Organization name recognition based on word frequency statistics[J].Application Research of Computers,2013,30 (7):2014-2016 (in Chinese).[胡萬亭,楊燕,尹紅風(fēng),等.一種基于詞頻統(tǒng)計(jì)的組織機(jī)構(gòu)名識(shí)別方法 [J].計(jì)算機(jī)應(yīng)用研究,2013,30 (7):2014-2016.]
[13]FENG Jinghua,Guma·Altenbek,Mayra·Hapar.Kazakh organization name recognition based on N-gram model[J].Computer Engineering and Applications,2010,46 (31):135-138 (in Chinese).[馮鯨華,古麗拉·阿東別克,瑪依來·哈帕爾.基于N-gram 語言模型的哈薩克文機(jī)構(gòu)名識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2010,46 (31):135-138.]
[14]Kurex·Mahmutjan·Raisi.Modern Uyghur language[M].Xinjiang:Xinjiang People’s Publishing House(in Uyghur),2003(in Chinese).[庫熱西· 買合木提江·熱義思.現(xiàn)代維吾爾語[M].新疆:新疆人民出版社(維吾爾文),2003.]