• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CRFs和歧義模型的越南語分詞

      2017-07-24 17:38:30熊明明郭劍毅毛存禮余正濤
      數(shù)據(jù)采集與處理 2017年3期
      關(guān)鍵詞:越南語詞素歧義

      熊明明 李 英 郭劍毅,2 毛存禮,2 余正濤,2

      (1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院, 昆明,650500;2.昆明理工大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室,昆明,650500)

      基于CRFs和歧義模型的越南語分詞

      熊明明1李 英1郭劍毅1,2毛存禮1,2余正濤1,2

      (1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院, 昆明,650500;2.昆明理工大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室,昆明,650500)

      通過對越南語詞法特點(diǎn)的研究,把越南語的基本特征融入到條件隨機(jī)場中(Condition random fields,CRFs),提出了一種基于CRFs和歧義模型的越南語分詞方法。通過機(jī)器標(biāo)注、人工校對的方式獲取了25 981條越南語分詞語料作為CRFs的訓(xùn)練語料。越南語中交叉歧義廣泛分布在句子中,為了克服交叉歧義的影響,通過詞典的正向和逆向匹配算法從訓(xùn)練語料中抽取了5 377條歧義片段,并通過最大熵模型訓(xùn)練得到一個(gè)歧義模型,并融入到分詞模型中。把訓(xùn)練語料均分為10份做交叉驗(yàn)證實(shí)驗(yàn),分詞準(zhǔn)確率達(dá)到了96.55%。與已有越南語分詞工具VnTokenizer比較,實(shí)驗(yàn)結(jié)果表明該方法提高了越南語分詞的準(zhǔn)確率、召回率和F值。

      條件隨機(jī)場模型; 越南語分詞; 詞法; 基本特征; 最大熵; 歧義模型

      引 言

      越南語分詞是越南語信息處理的前提,是越南語詞法、句法、語義以及各種上層應(yīng)用的基礎(chǔ)。目前在分詞方面已經(jīng)有很多研究成果,主要包括基于詞典匹配的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于理解的分詞方法?;谠~典匹配的方法主要按照一定的策略將待分析的字符串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配。若在詞典中找到某個(gè)字符串,則匹配成功,把該詞取出。如何國斌等用最大匹配法進(jìn)行分析,達(dá)到了一定的效果[1]?;诮y(tǒng)計(jì)的方法主要對語料庫中詞與詞的組合進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。通過定義兩個(gè)字符的互現(xiàn)信息,計(jì)算這兩個(gè)字符相鄰共同出現(xiàn)的概率?;ガF(xiàn)信息體現(xiàn)了字符之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一閾值時(shí),便可認(rèn)為此字符組合可能構(gòu)成一個(gè)詞,如張華平等使用基于層疊隱馬模型的漢語詞法分析方法,明顯地提高了分詞的準(zhǔn)確率[2]。石民等把條件隨機(jī)場用到先秦文字的分詞中[3]?;诶斫獾姆椒ㄊ峭ㄟ^讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識別詞的效果。由于語言知識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。在越南語分詞的研究方面,國內(nèi)外的研究都只是剛剛開始,直到現(xiàn)在還沒有具體的共享資源可供學(xué)術(shù)研究使用,所有的語言資源都需要從頭建起。越南語分詞作為越南語自然語言處理的基礎(chǔ),要求收集越南語語料資源,并按照要求進(jìn)行處理,這是越南語分詞的前提條件。目前,VnTokenizer是2008年由越南本國河內(nèi)大學(xué)采用基于最大匹配和N-Gram模型開發(fā)的越南語分詞工具[4]。本文在前人工作基礎(chǔ)之上,結(jié)合越南語構(gòu)詞特征和語言特點(diǎn),在條件隨機(jī)場模型中融入了N-Gram模型、字符重復(fù)特征和字符類型特征,并加入歧義模型從而實(shí)現(xiàn)對越南語的分詞。通過反復(fù)測試,并與VnTokenizer對比實(shí)驗(yàn)。結(jié)果表明該方法顯著提高了分詞效果。

      1 越南語詞法特點(diǎn)與特征提取

      1.1 越南語的詞法特點(diǎn)

      越南語是一種有聲調(diào)孤立語[5],與漢語拼音很相似,每一個(gè)音節(jié)也是由聲母、韻母和聲調(diào)組成。越南語的聲母有6個(gè),比如a,,?,,?,分別為平聲、銳聲、玄聲、問聲、跌聲和重聲6個(gè)聲調(diào),又分為平、仄兩類,其中前2個(gè)屬于平,后4個(gè)屬于仄。每一個(gè)音節(jié)幾乎都有意義,越南語和漢語一樣,缺乏形態(tài)變化[6]。除此之外,它的構(gòu)成就是拉丁字母、表音文字和標(biāo)點(diǎn)符號等。越南語的構(gòu)詞單位和漢語拼音是一樣的,也是語素。越南語的構(gòu)詞可以分為5種,單音節(jié)詞、復(fù)合詞(并列復(fù)合和偏正復(fù)合)、重音疊韻詞(完全重疊和部分重疊)、偶合詞和派生詞[7]。越南語的構(gòu)詞法見表1。中空格英文的分詞就是按照句子

      表1 越南語構(gòu)詞規(guī)則

      來分的,但是越南語分詞不能按照空格來分,一個(gè)詞可能有多個(gè)詞素構(gòu)成,比如:“Ti lên”的分詞為:Ti (我) /l(是)(一個(gè))/ sinh viên(學(xué)生)。這種由詞素構(gòu)詞的詞類似中文分詞。

      1.2 越南語歧義性

      越南語有兩種類型的歧義:組合歧義和交叉歧義。

      組合歧義中一些單獨(dú)詞素可以成詞,這些詞素合起來也成詞,如:“Bn lp. (桌子是一個(gè)學(xué)習(xí)工具。)” 詞素“Bn”是“桌子”的意思,“l(fā)”是“是”的意思,而“Bn l”又是“鐵”的意思。這種歧義很難處理,但是越南語中這種歧義遠(yuǎn)遠(yuǎn)少于交叉歧義。交叉歧義就是當(dāng)前詞素與它的前一個(gè)詞素和后一個(gè)詞素都能成詞。如:“ng tin ngy cng cao. (傳輸信息速度越來越快)”“ng”和“thng tin”分別表示兩個(gè)詞“媒體”和“信息”。這種歧義在越南語中經(jīng)常發(fā)生,由于詞典內(nèi)容有限,很多未登錄詞難以消歧,是一種具有挑戰(zhàn)性的問題。

      1.3 越南語特征選取與特征模板的定制

      對于統(tǒng)計(jì)模型基于條件隨機(jī)場模型(Condition random fields,CRFs),特征的選取對分詞結(jié)果具有很大的影響,是關(guān)鍵環(huán)節(jié)。本文結(jié)合以上越南語的特點(diǎn),在使用CRFs模型對越南語進(jìn)行分詞時(shí),定義了兩類特征。

      (1)基本特征模板1

      表2 基本特征模板1

      表3 基本特征模板2

      在定制特征模版1時(shí),選用了兩類基本特征,這兩類特征是Tseng提到的[8]:字符N-gram特征和字符重復(fù)信息特征,如表2所示。其中,W代表越南語詞素;W0代表當(dāng)前詞素,k相對于當(dāng)前詞素所處的位置。比如:“Ti khng nóit. ”,如果W0代表當(dāng)前越南語詞素“”;則W-1表示“nói”;W-2表示“khng”;W1表示“”,W2表示“”。Repeat(W0W1)表示當(dāng)前詞素和下一個(gè)詞素完全一樣。

      (2)基本特征模板2

      針對越南語中的數(shù)字、字母和標(biāo)點(diǎn)等容易出錯(cuò)的未登錄詞,本文根據(jù)語言特性將越南語詞素定義為10大類別:Sin,Pre,Suf,Pun,Dig,Let,Spe,Tim,Dat,Oth[9]。本文所使用的詞素類別的定義以及相關(guān)例子如表3所示。

      圖1 歧義片段訓(xùn)練格式 Fig.1 Training format of ambiguity fragments

      2 交叉歧義模型

      最大熵模型是一個(gè)統(tǒng)計(jì)模型,被廣泛地運(yùn)用到自然語言處理和圖像處理等領(lǐng)域[10,11]。它的特征選擇靈活,建模時(shí)只需要集中精力選擇特征,而不需要考慮如何使用,可以融入很豐富的信息。如果用A,B,C來表示交叉歧義片段,則考慮一下4類統(tǒng)計(jì)信息:(1)A的獨(dú)立成詞概率是否大于C;(2)A與B成詞概率是否大于B與C;(3)A作為詞首的概率是否大于C作為詞尾的概率;(4)B作為詞尾的概率是否大于B作為詞首的概率。以上可以分別作為最大熵模型的模板,分別定義如下:If (P(A)>P(C)) Then 一階模板T1= 1 ElseT1= 0;If (P(AB>P(BC))) Then 二階模板T2= 1 ElseT2= 0;If (P(A首)>P(C尾)) Then 三階模板T3= 1 ElseT3= 0;If (P(B尾)>P(B首)) Then四階模板T4=1 ElseT4=0。為了構(gòu)建交叉歧義模型,對25 981條越南語分詞語料通過詞典的正向匹配和逆向匹配方法獲取了5 377條歧義片段。使用的詞典含有143 130詞條,最終形成的歧義模型的訓(xùn)練格式,如圖1所示。

      第1列中的“1”表示切分方式為“A/BC”,“0”表示切分方式為“AB/C”。第2列是抽取的歧義片段,第3~6列分別表示一、二、三和四階特征模板。

      3 應(yīng)用CRFs和歧義模型進(jìn)行分詞

      3.1 CRFs理論

      鑒于條件隨機(jī)場模型能夠綜合利用多層資源,同時(shí)在一定程度上能夠避免歧義問題和數(shù)據(jù)標(biāo)注偏執(zhí)問題,本文采用CRFs,它是一種機(jī)器學(xué)習(xí)模型,由John Lafferty[12,13]最早用于自然語言處理(Natural language process,NLP)領(lǐng)域的文本標(biāo)注。近年來在分詞、詞性標(biāo)注和命名實(shí)體識別等序列標(biāo)注任務(wù)中也取得了很好的效果[14,15]。CRFs是無向圖的一種表現(xiàn)形式,在給定將要標(biāo)注的觀測序列的情況下,無向圖模型可以被用來在標(biāo)注序列上定義一個(gè)聯(lián)合概率分布。假設(shè)X、Y分別表示需要標(biāo)注的觀察序列和它對應(yīng)的標(biāo)注序列的聯(lián)合分布隨機(jī)變量。對于給定的一個(gè)長度為n的序列,X=x1,x2,…,xn,則輸出Y=y1,y2,…,yn的概率可以定義為

      (1)

      式中:Z為歸一化常量,他使得所有的狀態(tài)序列的概率和為1。Z(x)的計(jì)算公式為

      (2)

      式中:Z(x)為歸一化因子,fk(yt,yt-1,xt)為對整個(gè)序列的X標(biāo)記位于i和i-1的特征函數(shù),特征函數(shù)是一個(gè)二值函數(shù),即布爾值,取值集合為{0,1}。λk是每一個(gè)特征權(quán)重向量。在越南語分詞系統(tǒng)中,條件隨機(jī)場的訓(xùn)練就是通過訓(xùn)練語料,來學(xué)習(xí)最恰當(dāng)?shù)哪P蛥?shù),來使得某種規(guī)則標(biāo)準(zhǔn)最大。在這里基于最大似然估計(jì)對條件隨機(jī)場進(jìn)行訓(xùn)練,使得條件概率的對數(shù)似然值最大。

      3.2 分詞系統(tǒng)

      為了克服交叉歧義給分詞帶來的影響,本文在CRFs分詞的過程中加入了交叉歧義模型,使其在分詞結(jié)果準(zhǔn)確率方面有所貢獻(xiàn)。這里給出了分詞的流程,如圖2所示。越南語分詞系統(tǒng)算法描述為:

      圖2 越南語分詞流程圖Fig.2 Flow chart of vietnamese segmentation

      輸入:待分詞句子D(D={S1,S2,S3,…,Sn})

      輸出:分詞結(jié)果

      (1)首先使用詞典的正向和逆向匹配算法找出帶分詞句子的歧義片段。

      (2)如果沒有歧義片段則執(zhí)行步驟(4),如果有則把歧義片段放到數(shù)組中。

      (3)循環(huán)數(shù)組,分別對數(shù)組中的歧義片段進(jìn)行歧義切分,確定切分的結(jié)果是A/BC或者AB/C。

      (4)加載分詞模型,對待分詞句子進(jìn)行切分。

      (5)如果數(shù)組為空,則執(zhí)行步驟(6),否則確定步驟(4)中的分詞結(jié)果,用步驟(3)中的結(jié)果進(jìn)行替換。

      (6)輸出最終的分詞結(jié)果。

      4 實(shí)驗(yàn)結(jié)果及分析

      (1)實(shí)驗(yàn)語料的選擇

      本文采用的主要語料是通過在越南新聞網(wǎng)站爬取的越南語句子作為訓(xùn)練語料和測試語料,爬取的網(wǎng)頁經(jīng)過規(guī)則提取、去重、機(jī)器標(biāo)注和人工校對等步驟形成文本語料庫,其規(guī)模為25 981條句子,編碼方式采用UTF-8。

      (2)實(shí)驗(yàn)測評標(biāo)準(zhǔn)

      準(zhǔn)確率和召回率是廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的兩個(gè)度量值,用來評價(jià)結(jié)果的質(zhì)量。類似地,可以把這3種評價(jià)方法用到分詞任務(wù)中,在越南語老師和留學(xué)生的幫助下,標(biāo)注25 981條越南語句子,并做十倍交叉驗(yàn)證實(shí)驗(yàn),訓(xùn)練得到的分詞模型在交叉實(shí)驗(yàn)中進(jìn)行測試。分詞后的結(jié)果使用準(zhǔn)確率P,召回率R和F評價(jià)該分詞系統(tǒng)。P=分詞結(jié)果中切分正確的詞數(shù)/分詞結(jié)果中的總詞數(shù);R=分詞結(jié)果中切分正確的詞數(shù)/人工標(biāo)注文本的總詞數(shù);F=2*P*R/(P+R);其中準(zhǔn)確率和召回率這兩者在0和1之間,數(shù)值越接近1,查準(zhǔn)率或查全率就越高。F即為準(zhǔn)確率和召回率的調(diào)和平均值。

      (3)分詞系統(tǒng)性能測試實(shí)驗(yàn)

      分詞系統(tǒng)使用了“特征模板1”,“特征模板2”和“歧義模型”。對10份交叉驗(yàn)證的實(shí)驗(yàn)數(shù)據(jù)的測試結(jié)果如表4所示。表5給出了分詞系統(tǒng)在測試集測試上的結(jié)果以及各個(gè)特征模板和歧義模型對結(jié)果的貢獻(xiàn)。從表4可以看出:隨著特征模板和歧義模型的逐個(gè)加入,分詞的準(zhǔn)確率、召回率和F逐步提高。其中,“模板1+模板2+歧義模型”模型的結(jié)果明顯好于“模板1+模板2”模型的結(jié)果,即在增加了歧義模型的情況下,P和F分別高出了2.52%和2.19%,可見歧義模型起到了較好的效果。而且由于歧義片段完全是從訓(xùn)練語料中提取的,最大熵模型可以很好地統(tǒng)計(jì)到歧義信息。

      表4 十倍交叉驗(yàn)證實(shí)驗(yàn)

      表5 分詞實(shí)驗(yàn)結(jié)果對比

      Tab.5 Comparison of experimental results of Vietnamese segmentation %

      (4)與VnTokenizer的對比實(shí)驗(yàn)

      為了進(jìn)一步測試分詞系統(tǒng)的實(shí)驗(yàn)效果,分別用分詞系統(tǒng)與VnTokenizer對1 000條語料進(jìn)行了測試實(shí)驗(yàn),這1 000條測試語料的正確分詞結(jié)果已經(jīng)在越南語老師和同學(xué)的幫助下標(biāo)注完成。實(shí)驗(yàn)結(jié)果對比如表5所示。從表5的對比實(shí)驗(yàn)發(fā)現(xiàn):加入歧義模型的分詞模型的準(zhǔn)確率、召回率和F均有小幅度提升。利用訓(xùn)練語料生成分詞模型,并對準(zhǔn)確率、召回率和F進(jìn)行比較分析可知,基于CRFs和歧義模型的越南語分詞方法在分詞方面取得了較好的效果。條件隨機(jī)場對越南語構(gòu)詞特征具有較強(qiáng)的融合能力,隨著特征集的增加,分詞的效果會更好。

      (5)歧義詞實(shí)驗(yàn)

      針對歧義詞的處理,首先考察分析了本文越南語分詞系統(tǒng)詞邊界的消歧能力。由于歧義片斷很難確定,所以目前只是簡單地通過正向匹配分詞和逆向匹配分詞法對測試語料進(jìn)行分詞,然后通過雙向比對來確定歧義片斷。最后通過以下3種分詞模型對測試語料進(jìn)行分詞,比較3種分詞工具對歧義片段的切分結(jié)果,實(shí)驗(yàn)結(jié)果如表6所示。從表6可以看出,加入歧義模型的分詞系統(tǒng)對歧義詞的切分正確率顯著提高,比沒有加入歧義模型的分詞系統(tǒng)的切分正確率提高了10%,同時(shí)比VnTokenizer的切分正確率提高5%。實(shí)驗(yàn)表明,歧義詞的正確切分對句子分詞的準(zhǔn)確率有明顯的提高作用。

      (6)未登錄詞的處理實(shí)驗(yàn)

      實(shí)驗(yàn)考察分析了CRFs對未登錄詞的識別能力。用分詞模型對1 000條生語料進(jìn)行測試。越南語分詞若無法完成對未登錄詞的處理,或者其處理結(jié)果存在很大的誤差,這樣就會大大降低實(shí)際結(jié)果的準(zhǔn)確性,因此導(dǎo)致統(tǒng)計(jì)出錯(cuò)誤的詞頻統(tǒng)計(jì)信息、詞頻參量值。本文將未登錄詞分為4類:命名實(shí)體類、非越南詞類(包括數(shù)字、年月日、大寫字母和小寫字母等)、外來衍生詞和其他未登錄詞。命名實(shí)體類主要使用特征模板1很好地進(jìn)行捕獲。針對非越南語詞類,主要通過字符類型特征進(jìn)行區(qū)分,以達(dá)到識別的目

      表6 歧義詞實(shí)驗(yàn)結(jié)果

      的。外來衍生詞屬于少數(shù)部分,幾乎不能正確地切分,它不可能包含在訓(xùn)練語料中。對于其他未登錄詞,一般是指詞素個(gè)數(shù)大于等于4的,CRFs對其識別也有困難。 在測試語料中未登錄詞數(shù)302個(gè),切分正確224個(gè),切分正確率為74.17%。

      5 結(jié)束語

      本文收集、整理了20萬條越南語句子,通過已有的分詞工具VnTokenizer進(jìn)行標(biāo)注。由于分詞的效果對后續(xù)的諸多環(huán)節(jié)如詞性標(biāo)注、命名實(shí)體和機(jī)器翻譯等有很大的影響。為了得到更好的分詞效果,本文一方面很注重語料的選擇,選取了包含政治、經(jīng)濟(jì)、文化、體育和娛樂等方面的25 981條越南語分詞句子,經(jīng)過人工校對,得到CRFs訓(xùn)練語料和測試語料,并進(jìn)行十倍交叉驗(yàn)證實(shí)驗(yàn)。同時(shí)選取以上各方面的越南語句子1 000條作為比較實(shí)驗(yàn)的測試語料。另一方面結(jié)合越南語語言的特點(diǎn),定義了其基本特征,并融入到CRFs模型。同時(shí),為了解決交叉歧義給分詞帶來的困難,基于詞典的正向和逆向最大匹配算法抽取了5 377條歧義片段,并通過最大熵模型訓(xùn)練成交叉歧義模型,加入到分詞模型中,最終實(shí)現(xiàn)了越南語分詞模型,實(shí)驗(yàn)結(jié)果證明了本文提出的越南語分詞方法的有效性。下一步工作還需要針對歧義分詞和未登錄詞的分詞研究更有效的特征選擇。

      [1] 何國斌,趙晶璐.基于最大匹配的中文分詞概率算法研究[J].計(jì)算機(jī)工程,2010,36(5):173-175.

      He Guobin, Zhao Jinglu.Research on probailistic algorithm of Chinese word segmentation based on the maximum match[J]. Computer Engineering,2010,36(5):173-175.

      [2] 劉群,張華平.基于層疊隱馬模型的漢語詞法分析[J].計(jì)算機(jī)研究與發(fā)展,2004,41(8):1421-1429.

      Liu Qun,Zhang Huaping.Chinese lexical analysis using cascaded hidden markow model[J]. Journal of Computer Research and Development,2004,24(2):1421-1429.

      [3] 石民,李斌,陳小荷. 基于CRF的先秦漢語分詞標(biāo)注一體化研究[J].中文信息學(xué)報(bào),2010,24(2):39-45.

      Shi Min,Li Bin,Chen Xiaohe.CRF based research on a unified approach to word segmentation and POS tagging for pre-Qin Chinese[J]. Journal of Chinese Information,2010,24(2):39-45.

      [4] Phuong L H, Huyen N T M, Azim R, et al. A hybrid approach to word segmentation of vietnamese texts[C]∥Proceedings of the 2nd International Conference on Language and Automata. Theory and Applications.Tarragona,Spain: Springer, 2008: 240-249.

      [5] 梁遠(yuǎn),祝仰修.現(xiàn)代越南語語法[M].廣州: 世界圖書出版廣東有限公司,2012.

      Liang Yuan, Zhu Yangxiu.Modern Vietnamese grammar [M]. Guangzhou:World Book Publishing Co., Ltd., 2012.

      [6] 阮越雄. 越南語漢源詞研究史[D].長沙:湖南師范大學(xué),2014.

      Nguyen viet hung. Study on the history of Vietnamese Chinese loanwords [D]. Changsha: Hunan Normal University, 2014.

      [7] 莫子祺. 從構(gòu)詞方法看越南語同義近義詞的用法規(guī)律[J].學(xué)園,2014(28):57-60.

      Mo Ziqi . A study on the word-formation methods Vietnamese synonymous synonyms for the usage patterns [J]. Chinese Academy of Sciences, 2014(28): 57-60.

      [8] Huihsin T,Pichuan C,Galen A,et al.A conditional random field word segmenter for sighan bakeoff 2005[C]∥ Proceedings of the fourth SIGHAN workshop.Jeju Isand,Korea:[s.n.],2005:168-172.

      [9] 張梅山,鄧知龍,車萬翔,等. 統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 中文信息學(xué)報(bào),2012,26(2):8-12.

      Zhang Meishan,Deng Zhilong,Che Wanxiang,et al.Combining statistical model and dictionary for domain adaption of Chinese word sementation[J]. Journal of Chinese Information,2012,26(2):8-12.

      [10]劉華明,畢學(xué)慧,王維蘭,等.基于最大熵和局部優(yōu)先度的裂痕唐卡分割[J].數(shù)據(jù)采集與處理,2015,30(2):424-433.

      Liu Huaming, Bi Xuehui, Wang Weilan,et al. Crack segmentation based on maximum entropy and local priority[J]. Journal of Data Acquisition and Processing, 2015,30 (2): 424-433.

      [11]汪全全,王靖琰,李勇平.最大熵矢量量化及其在TMS320DM642的實(shí)現(xiàn)[J].數(shù)據(jù)采集與處理,2012,27(6):640-645.

      Wang Quanquan, Wang Jingyan, Li Yongping. Maximum entropy vector quantization and its implementation in TMS320DM642 [J]. Journal of Data Acquisition and Processing, 2012,27 (6): 640-645.

      [12]Della Pietra S, Della Pietra V, Lafferty J. Inducting features of random fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(4):380-393.

      [13]Wallach H. Efficient traning of conditional random fields[EB/OL].http:∥www.cogsci.ed.ac.uk,2015-01-14.

      [14]郭劍毅,余正濤,薛征山,等. 基于層疊條件隨機(jī)場的旅游領(lǐng)域命名實(shí)體識別[J].中文信息學(xué)報(bào),2009,23(5):47-52.

      Guo Jianyi,Yu Zhengtao,Xue Zhengshan,et al.Named entity recognition for the tourism domain based on cascaded conditional random fields[J]. Journal of Chinese Information,2009,23(5):47-52.

      [15]Sutton C, McCallum A.Dynamic conditional random fields: Factorized probabilistic models for labeling and segmenting sequence data[J]. Journal of Machine Learning Research,2007, 8: 693-723.

      The Vietnamese lexical features are discussed and essential characteristics of Vietnamese are integrated into condition random fields (CRFs) to propose a Vietnamese word segmentation method based on CRFs and ambiguity model. The segmentation corpus consisting of 25 981 Vietnamese is obtained as a training corpus of CRFs by computer marking and artificial proofreading. Vietnamese crossing ambiguity is widely distributed in the sentence. To eliminate the effects of crossing ambiguity, 5 377 ambiguity fragments are extracted from training corpus through dictionary of the forward and reverse matching algorithm. An ambiguity model is obtained by training the maximum entropy model. Then they are both incorparted into the segmentation model. The training corpus is divided into ten copies evenly for cross validation experiments. The segmentation accuracy reaches 96.55% in the experiment. Experimental results show that the method improves the segmentation accuracy rate, the recall rate and theFvalue of Vietnamese word obviously, compared with Vietnamese segmentation tool VnTokenizer.

      condition random fields(CRFs); Vietnamese segmentation; morphology; essential characteristics; maximum entropy; ambiguity model

      國家自然科學(xué)基金(61262041,61472168,61562052)資助項(xiàng)目;云南省自然科學(xué)基金重點(diǎn)項(xiàng)目(2013FA030)資助項(xiàng)目。

      2015-05-28;

      2015-07-27

      TP301

      A

      熊明明(1987-),男,碩士研究生,研究方向:自然語言處理,E-mail:504609184@qq.com。

      毛存禮(1977-),博士,講師,研究方向:自然語言處理、信息檢索。

      李英(1991-),碩士研究生,研究方向:自然語言處理與句法分析,E-mail: 1224005374@qq.com。

      余正濤(1970-),教授,博士生導(dǎo)師,研究方向:自然語言處理、機(jī)器翻譯等機(jī)器學(xué)習(xí)。

      郭劍毅(1964-),教授,碩士生導(dǎo)師,研究方向:自然語言處理、信息抽取和機(jī)器學(xué)習(xí)等。

      Vietnamese Word Segmentation with Conditional Random Fields and Ambiguity Model

      Xiong Mingming1,Li Ying1, Guo Jianyi1,2, Mao Cunli1,2, Yu Zhengtao1,2

      (1.School of Information Engineering and Automation, Kunming University of Science and Technology, Kunming,650500, China;2.The Key Laboratory of Intelligent Information Processing, Kunming University of Science and Technology, Kunming,650500, China)

      猜你喜歡
      越南語詞素歧義
      納蘇彝語越南語親屬稱謂特征及其文化內(nèi)涵異同研究
      eUCP條款歧義剖析
      中國外匯(2019年12期)2019-10-10 07:26:58
      詞素配價(jià)理論與應(yīng)用
      亞太教育(2018年5期)2018-12-01 04:58:23
      從詞素來源看現(xiàn)代漢語詞素同一性問題
      辭書研究(2017年3期)2017-05-22 14:04:16
      English Jokes: Homonyms
      漢語經(jīng)歷體標(biāo)記“過”及其在越南語中的對應(yīng)形式
      現(xiàn)代漢語與越南語存在句否定形式與情態(tài)特征的比較研究
      “那么大”的語義模糊與歧義分析
      詞素溶合與溶合詞素
      漢語介詞“跟”和越南語介詞“voi”的異同
      博湖县| 余江县| 台江县| 噶尔县| 徐水县| 龙海市| 台南县| 五常市| 沙洋县| 盐池县| 南和县| 四平市| 三门县| 无棣县| 彭阳县| 扶绥县| 拉孜县| 来宾市| 上林县| 临洮县| 扶风县| 眉山市| 新余市| 木里| 府谷县| 仁化县| 桂阳县| 增城市| 志丹县| 泸溪县| 尉氏县| 九江市| 健康| 仙桃市| 襄城县| 光山县| 厦门市| 漾濞| 平阴县| 岳普湖县| 潮安县|