龍從軍,劉匯丹,諾明花,吳 健
(1. 中國(guó)科學(xué)院軟件研究所,北京 100190;2. 中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所,北京 100081)
?
基于藏語(yǔ)字性標(biāo)注的詞性預(yù)測(cè)研究
龍從軍1,2,劉匯丹1,諾明花1,吳 健1
(1. 中國(guó)科學(xué)院軟件研究所,北京 100190;2. 中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所,北京 100081)
該文選取了藏語(yǔ)文中小學(xué)教材的部分語(yǔ)料,構(gòu)建了帶有藏語(yǔ)字性標(biāo)記、詞邊界標(biāo)記和詞性標(biāo)記的語(yǔ)料庫(kù),通過比較不同的分詞、標(biāo)注方法,證明分詞、詞性標(biāo)注一體化效果比分步進(jìn)行的效果好,準(zhǔn)確率、召回率和F值分別提高了0.067、0.073和0.07。但詞級(jí)標(biāo)注模型難以解決詞邊界劃分的一致性和未登錄詞的問題?;诖耍髡咛岢隹梢岳米中院妥謽?gòu)詞的規(guī)律預(yù)測(cè)合成詞的詞性,既可以融入語(yǔ)言學(xué)知識(shí)又可以減少由未登錄詞導(dǎo)致的標(biāo)注錯(cuò)誤,實(shí)驗(yàn)結(jié)果證明,作為詞性標(biāo)注的后處理模塊,基于字性標(biāo)注的詞性預(yù)測(cè)準(zhǔn)確率提高到了0.916,這個(gè)結(jié)果已經(jīng)比分詞標(biāo)注一體化結(jié)果好,說明字性標(biāo)注對(duì)糾正詞性錯(cuò)誤標(biāo)注有明顯的效果。
藏語(yǔ); 語(yǔ)字標(biāo)注; 分詞; 詞性標(biāo)注
詞性標(biāo)注研究指為給定句子中的每個(gè)詞確定一個(gè)合適的詞性的過程。詞性標(biāo)注研究是自然語(yǔ)言處理基礎(chǔ)研究?jī)?nèi)容之一,在語(yǔ)音識(shí)別、信息檢索等很多領(lǐng)域發(fā)揮著重要的作用。
藏語(yǔ)詞性標(biāo)注研究已經(jīng)取得了一些成果,文獻(xiàn)[1]采用隱馬爾科夫模型,實(shí)現(xiàn)分詞和詞性標(biāo)注一體化,最終詞性標(biāo)注的F值達(dá)到79.494%;文獻(xiàn)[2]采用了融合語(yǔ)言特征的最大熵詞性標(biāo)注模型,標(biāo)注準(zhǔn)確率達(dá)到90.94%;文獻(xiàn)[3]提出了利用感知機(jī)訓(xùn)練模型的判別式詞性標(biāo)注方法,經(jīng)測(cè)試,準(zhǔn)確率達(dá)98.26%;文獻(xiàn)[4]采用了最大熵和條件隨機(jī)場(chǎng)相結(jié)合的標(biāo)注方法,最終在開放測(cè)試中,標(biāo)注準(zhǔn)確率達(dá)到89.12%。這些研究無疑對(duì)藏語(yǔ)文本詞性自動(dòng)標(biāo)注做出了重要的貢獻(xiàn),但是同樣也存在較多的問題,一是各家的詞性標(biāo)注規(guī)范不一致;二是詞性標(biāo)注的訓(xùn)練、測(cè)試語(yǔ)料不一致;三是都沒有公開各自的標(biāo)注系統(tǒng),因此難以對(duì)各家的系統(tǒng)進(jìn)行客觀評(píng)價(jià)。這些研究都采用了統(tǒng)計(jì)模型進(jìn)行詞性標(biāo)注,但可供統(tǒng)計(jì)訓(xùn)練的藏語(yǔ)標(biāo)注文本數(shù)量不多,過多的未登錄詞也影響了標(biāo)注準(zhǔn)確率的提高。
本文作者提出基于藏語(yǔ)字性標(biāo)注的合成詞詞性預(yù)測(cè)策略,主要思路是可通過標(biāo)注藏語(yǔ)字性,根據(jù)字構(gòu)詞的規(guī)律,預(yù)測(cè)詞的詞性。藏字字性可以作為特征融入統(tǒng)計(jì)模型中,也可以加入到后處理模塊對(duì)未登錄詞或者標(biāo)注錯(cuò)誤校正;文章第二部分比較了幾種標(biāo)注方法,說明多特征融合可以提高標(biāo)注準(zhǔn)確率,但對(duì)未登錄詞作用不大;第三部分討論藏語(yǔ)字性和詞性的關(guān)系;第四部分描述了基于字性的詞性預(yù)測(cè)實(shí)驗(yàn)及結(jié)果。
在進(jìn)行基于詞的詞性標(biāo)注研究中,我們分別訓(xùn)練了幾個(gè)不同的模型,獨(dú)立分詞模型,獨(dú)立標(biāo)注模型和分詞標(biāo)注一體化模型。訓(xùn)練分詞、標(biāo)注和分詞標(biāo)注一體化模型時(shí),都采用了條件隨機(jī)場(chǎng)工具包*本文中使用的CRF工具包是CRF++ 0.58版,下載地址:http://taku910.github.io/crfpp/.,訓(xùn)練語(yǔ)料選自語(yǔ)素標(biāo)注庫(kù)(見3.1節(jié)介紹),按照1:4的比例,隨機(jī)抽取3 987句作為測(cè)試語(yǔ)料,其余15 952句作為訓(xùn)練語(yǔ)料。
2.1 獨(dú)立分詞模型
以采用多種方法,文獻(xiàn)[5-8]分別做了闡述。本文在對(duì)黏寫形式切分時(shí),采用了把疑似黏寫形式的音節(jié)全部切開,然后再根據(jù)上下文對(duì)非黏寫形式進(jìn)行合并,例如,中、、、幾個(gè)音節(jié)為疑似黏寫形式,音節(jié)切分結(jié)果為:;然后采用四詞位標(biāo)注法對(duì)切分后的音節(jié)進(jìn)行標(biāo)注,其結(jié)果為:;最后進(jìn)行訓(xùn)練獲得分詞切分模型。表1中數(shù)據(jù)為利用獨(dú)立分詞模型切分測(cè)試結(jié)果。
表1 獨(dú)立分詞實(shí)驗(yàn)結(jié)果*本測(cè)試結(jié)果三項(xiàng)評(píng)測(cè)指標(biāo)數(shù)據(jù)相同,純屬偶然,測(cè)試語(yǔ)料詞有48 073個(gè),受測(cè)試的詞有48 099個(gè)。
2.2 獨(dú)立標(biāo)注模型
在獨(dú)立分詞的基礎(chǔ)上進(jìn)行單獨(dú)標(biāo)注實(shí)驗(yàn)時(shí),為了比較分詞結(jié)果對(duì)標(biāo)注的影響,我們進(jìn)行了兩輪實(shí)驗(yàn):分詞后直接標(biāo)注和對(duì)分詞結(jié)果校正后再進(jìn)行標(biāo)注。兩個(gè)實(shí)驗(yàn)的結(jié)果如表2所示。
表2 獨(dú)立標(biāo)注實(shí)驗(yàn)結(jié)果
從表2可以看出,分詞的準(zhǔn)確率對(duì)標(biāo)注的效果影響明顯,在分詞未校正的情況下,標(biāo)注準(zhǔn)確率為0.832、召回率為0.830、F值為0.831。當(dāng)對(duì)分詞結(jié)果進(jìn)行校對(duì)之后,各項(xiàng)測(cè)試指標(biāo)分別提高到了0.876,0.875和0.876,每項(xiàng)指標(biāo)分別提高了0.044、0.045、0.045,這說明分詞的準(zhǔn)確率影響標(biāo)注的準(zhǔn)確率。
2.3 分詞標(biāo)注一體化模型
在分詞標(biāo)注一體化模型訓(xùn)練中,由于分詞和標(biāo)注組合標(biāo)簽比較多,訓(xùn)練的時(shí)間比較長(zhǎng)(10天左右),表3列出了本實(shí)驗(yàn)的測(cè)試結(jié)果。
表3 分詞標(biāo)注一體化測(cè)試結(jié)果
正如我們所料,分詞標(biāo)注一體化模型的標(biāo)注結(jié)果與獨(dú)立分詞、獨(dú)立標(biāo)注的結(jié)果相比,各項(xiàng)測(cè)試指標(biāo)分別提高了0.067、0.073和0.07;與校對(duì)分詞后的標(biāo)注結(jié)果相比,各項(xiàng)測(cè)試指標(biāo)分別提高了0.023、0.028、0.025。詳細(xì)情況如圖1所示。
圖1 標(biāo)注結(jié)果比較圖
這說明,在分詞和標(biāo)注一體化時(shí),分詞和標(biāo)注之間相互影響,相輔相成,既可以避免一部分分詞的錯(cuò)誤,也可以避免部分標(biāo)注錯(cuò)誤,分詞和標(biāo)注實(shí)現(xiàn)了兩者之間的優(yōu)化組合。為了進(jìn)一步考察分詞標(biāo)注一體化中分詞的準(zhǔn)確性,我們對(duì)分詞標(biāo)注一體化測(cè)試結(jié)果中的分詞結(jié)果進(jìn)行測(cè)試,發(fā)現(xiàn)一體化分詞結(jié)果的準(zhǔn)確率、召回率和F值分別提高到0.943、0.948、0.945,與單獨(dú)分詞結(jié)果相比,各項(xiàng)測(cè)試指標(biāo)分別提高0.003,0.008,0.005。
3.1 字性標(biāo)記
在藏字字性標(biāo)注過程中,對(duì)人名、地名、音譯名的藏字統(tǒng)一標(biāo)注為k,根據(jù)不同的專有名詞類別,對(duì)k賦予區(qū)分標(biāo)記,區(qū)分標(biāo)記為詞性標(biāo)注符號(hào)的二級(jí)符號(hào),構(gòu)成人名的藏字標(biāo)注為kh,如nh,構(gòu)成地名的藏字標(biāo)注為kq(由于ks,已經(jīng)做為其他標(biāo)注符號(hào),為了區(qū)分,這里采用kq),如ns,構(gòu)成其他專有名詞的藏字標(biāo)注為kz,如nz等。
3.2 合成詞詞性特點(diǎn)
4.1 實(shí)驗(yàn)設(shè)計(jì)
我們?cè)驹O(shè)想,聯(lián)合利用字性、分詞標(biāo)記和詞性標(biāo)記訓(xùn)練一個(gè)模型,以此考查標(biāo)注效果,但由于訓(xùn)練時(shí)間過長(zhǎng)而中斷。因此采用了另一種方案,利用藏字字性標(biāo)記和詞邊界標(biāo)記兩個(gè)特征,訓(xùn)練了一個(gè)能同時(shí)給出藏字字性標(biāo)注和分詞標(biāo)記的模型,然后利用藏字構(gòu)詞的規(guī)則來對(duì)基于詞的標(biāo)注模型的錯(cuò)誤例子進(jìn)行校正。整個(gè)過程如圖2所示。
圖2 實(shí)驗(yàn)流程
4.2 詞性預(yù)測(cè)結(jié)果及分析
如果采用分詞、標(biāo)注一體化模型,在錯(cuò)誤標(biāo)注結(jié)果中區(qū)分不開是分詞還是標(biāo)注導(dǎo)致的錯(cuò)誤,因此我們采用了分詞校正后獨(dú)立標(biāo)注模型進(jìn)行實(shí)驗(yàn),然后提取標(biāo)注錯(cuò)誤例子,對(duì)錯(cuò)誤例子進(jìn)行字性標(biāo)注和利用字構(gòu)詞的規(guī)則對(duì)復(fù)合詞或結(jié)構(gòu)進(jìn)行預(yù)測(cè)。
從評(píng)測(cè)結(jié)果中提取出了約5 900個(gè)錯(cuò)誤例子,通過分析發(fā)現(xiàn)標(biāo)注錯(cuò)誤包括:在語(yǔ)料中,存在同一個(gè)詞的相同用法卻標(biāo)注不一致的現(xiàn)象,一些特殊符號(hào)未給出正確標(biāo)注,這種錯(cuò)誤占比約20%,這種問題可以通過進(jìn)一步調(diào)節(jié)語(yǔ)料,提高訓(xùn)練和測(cè)試語(yǔ)料的一致性,對(duì)特殊符號(hào)進(jìn)行統(tǒng)一處理等方法來解決。在其余錯(cuò)誤標(biāo)注中,兩個(gè)藏字及以上的復(fù)合詞或者短語(yǔ)標(biāo)注錯(cuò)誤和單字詞標(biāo)注錯(cuò)誤各占約40%。利用藏字字性和構(gòu)詞規(guī)則,有1 888個(gè)標(biāo)注錯(cuò)誤得到修正,標(biāo)注準(zhǔn)確率提高了約0.04,這個(gè)標(biāo)注結(jié)果已經(jīng)高于分詞標(biāo)注一體化的效果。幾種標(biāo)注結(jié)果如圖 3所示。
圖 3 幾種標(biāo)注實(shí)驗(yàn)結(jié)果對(duì)比
表4列出了部分標(biāo)注錯(cuò)誤能夠通過規(guī)則預(yù)測(cè)得到正確的標(biāo)注結(jié)果。
表4 藏字字性校正合成詞標(biāo)注錯(cuò)誤示例
字的概念在漢藏語(yǔ)研究中有著獨(dú)特的地位,以字(基本上叫語(yǔ)素)為單位進(jìn)行研究是語(yǔ)言學(xué)家長(zhǎng)期關(guān)注的對(duì)象,但是近幾年在文本信息處理、語(yǔ)音識(shí)別、語(yǔ)音合成研究中,字的概念(Sub-Word,Sub-Syllable)也得到廣泛關(guān)注。本文比較多種標(biāo)注方法,盡管復(fù)合特征能夠提高標(biāo)注準(zhǔn)確率,但是不能根本解決未登錄詞等問題。為此,我們利用藏字字性,通過字構(gòu)詞的規(guī)律預(yù)測(cè)合成詞或短語(yǔ)的標(biāo)注問題,經(jīng)過測(cè)試,標(biāo)注準(zhǔn)確率提高到0.916。盡管語(yǔ)料規(guī)模有限,加工精度有待提高,但這個(gè)研究策略值得進(jìn)一步探究。
[1] 史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2011,25(4):54-56.
[2] 于洪志,李亞超,汪昆等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報(bào),2013, 27(5):160-165.
[3] 華卻才讓,劉群,趙海興等.判別式藏語(yǔ)文本詞性標(biāo)注研究[J].中文信息學(xué)報(bào), 2014, 28(2): 56-60.
[4] 康才畯.藏語(yǔ)分詞與詞性標(biāo)注研究[D].上海師范大學(xué)博士學(xué)位論文,2014.
[5] 康才畯,龍從軍,江荻.基于詞位的藏文黏寫形式的切分[J].計(jì)算機(jī)工程與應(yīng)用,2014,(11): 218-222.
[6] 才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別[J].中文信息學(xué)報(bào),2009,23(1):35-37.
[7] 巴桑杰布,羊毛卓瑪,歐珠等.藏文分詞系統(tǒng)中緊縮格識(shí)別和藏字復(fù)原的算法研究[J].西藏科技,2012,(2):73-75,79.
[8] 李亞超,加羊吉,宗成慶等.基于條件隨機(jī)場(chǎng)的藏語(yǔ)自動(dòng)分詞方法研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2013,27(4):52-58.
[9] Tomá? Mikolov, IlyaSutskever,Hai-Son Leetc.Subword Language Modeling with Neural Networks[DB/OL], www.fit.vutbr.cz/~imikolov/rnnlm/char.pdf.
[10] 龍從軍,劉匯丹,吳健.藏語(yǔ)字性標(biāo)注研究[C], 第十五屆中國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì),延邊,2015.
[11] 趙小兵,孫媛,龍從軍等.藏文拉丁轉(zhuǎn)寫、分詞和詞性分類規(guī)范-信息處理用現(xiàn)代藏語(yǔ)分詞規(guī)范(草案)[M],北京: 商務(wù)印書館, 2015.
[12] 趙小兵,孫媛,龍從軍等.藏文拉丁轉(zhuǎn)寫、分詞和詞性分類規(guī)范-信息處理用現(xiàn)代藏語(yǔ)詞性標(biāo)注規(guī)范(草案)[M],北京: 商務(wù)印書館,2015.
Tibetan POS Tagging Based on Syllable Tagging
LONG Congjun1,2, LIU Huidan1, NUO Minghua1, WU Jian1
(1. Institute of software Chinese Academy of Sciences, Beijing 100190, China;2. Institute of Ethnology and Anthropology Chinese Academy of Social Sciences, Beijing 100081, China)
A Tibetan corpus is constructed and annotated for the syllable markers, the word boundary markers and the part-of-speech(POS) tags, with texts selected from Tibetan textbooks of Primary and middle school. Then an empirical study reveals that the training data with the multi-level annotation can enhance the effects of POS tagging. Due to the strong relation between the POS tags of words and the tags Tibetan syllables, a method of Tibetan POS tagging by the Tibetan syllables is presented. The results of experiments show that syllable tags can correct certain errors caused in POS tagging.
Tibetan language; tagging of Tibetan syllables; word segmentation;POS
龍從軍(1978—),博士,主要研究領(lǐng)域?yàn)椴卣Z(yǔ)語(yǔ)法、藏語(yǔ)信息處理。E-mail:longcj@cass.org.cn劉匯丹(1982—)博士,高級(jí)工程師,主要研究領(lǐng)域?yàn)椴卣Z(yǔ)信息處理。E-mail:huidan@iscas.ac.cn諾明花(1982—)博士,高級(jí)工程師,主要研究領(lǐng)域?yàn)椴卣Z(yǔ)信息處理。E-mail:nuominghua@163.com
1003-0077(2015)05-0211-05
2015-09-01 定稿日期: 2015-09-12
國(guó)家自然科學(xué)基金(61202219,61303165,61132009);中國(guó)科學(xué)院信息化專項(xiàng)經(jīng)費(fèi)資助(XXH12504-1-10);中國(guó)社科院創(chuàng)新工程項(xiàng)目
TP391
A