• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于最大熵的哈薩克語(yǔ)詞性標(biāo)注模型

    2013-08-04 02:23:54新疆大學(xué)信息科學(xué)與工程學(xué)院烏魯木齊830046
    關(guān)鍵詞:詞干哈薩克語(yǔ)詞綴

    1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046

    2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 少數(shù)民族語(yǔ)言中心 哈薩克和柯?tīng)柨俗握Z(yǔ)文基地,烏魯木齊 830046

    1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046

    2.國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心 少數(shù)民族語(yǔ)言中心 哈薩克和柯?tīng)柨俗握Z(yǔ)文基地,烏魯木齊 830046

    1 引言

    在自然語(yǔ)言中,詞是語(yǔ)言的基本單位,而詞性(POS)是詞匯最重要的特性。詞性標(biāo)注是為句子中的每一個(gè)詞標(biāo)注一個(gè)正確的詞性,是實(shí)現(xiàn)自然語(yǔ)言分析和理解的一個(gè)重要中間環(huán)節(jié),此環(huán)節(jié)出現(xiàn)的錯(cuò)誤,將在后續(xù)處理鏈中被放大。例如在機(jī)器翻譯中,詞性標(biāo)注錯(cuò)誤有時(shí)會(huì)導(dǎo)致錯(cuò)誤地理解整句話。許多自然語(yǔ)言處理任務(wù),如:信息抽取、信息檢索、文本分類(lèi)、機(jī)器翻譯等都依賴(lài)于詞性標(biāo)注的精確結(jié)果才能最終取得理想的效果[1]。

    哈薩克語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族的克普恰克語(yǔ)支,拼音文字,是黏著語(yǔ)言類(lèi)型;與漢語(yǔ)、英語(yǔ)等相比具有自己的特點(diǎn)。

    2 研究現(xiàn)狀

    詞性標(biāo)注的方法有基于規(guī)則、統(tǒng)計(jì)以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。Ratnaparkhi[2]較早展開(kāi)了應(yīng)用最大熵模型進(jìn)行英文詞性標(biāo)注的研究,使用的特征有包括每個(gè)單詞本身詞形,前面兩個(gè)詞的詞形和詞性,后面兩個(gè)詞的詞形以及單詞中是否含有數(shù)字、連字符、大寫(xiě)字母等,測(cè)試的語(yǔ)料采取華爾街日?qǐng)?bào),取得了96.63%的標(biāo)注準(zhǔn)確率。在漢語(yǔ)研究方面趙巖[3]等應(yīng)用最大熵模型進(jìn)行了漢語(yǔ)的詞性標(biāo)注研究,使用的特征有包括每個(gè)單詞本身詞形,前面兩個(gè)詞的詞形和詞性、后面兩個(gè)詞的詞形以及詞的前綴、后綴、重疊詞等,在《人民日?qǐng)?bào)》語(yǔ)料庫(kù)上進(jìn)行了大規(guī)模測(cè)試,詞性標(biāo)注的準(zhǔn)確率均在96%以上。在哈薩克語(yǔ)詞性標(biāo)注研究方面,達(dá)吾勒等[4]使用基于規(guī)則的詞性標(biāo)注,準(zhǔn)確率為74%。劉艷等[5]使用統(tǒng)計(jì)與規(guī)則結(jié)合的方法進(jìn)行了探索,其中的統(tǒng)計(jì)方法使用了隱馬爾科夫模型(HMM),封閉測(cè)試準(zhǔn)確率達(dá)到了86%。侯呈風(fēng)[6]使用了改進(jìn)的HMM,封閉測(cè)試準(zhǔn)確率達(dá)到86.8%,開(kāi)放式測(cè)試的準(zhǔn)確率為81.4%。本文基于最大熵的方法構(gòu)建哈薩克語(yǔ)詞性標(biāo)注模型,在封閉與開(kāi)放測(cè)試中準(zhǔn)確率分別達(dá)到了96.8%和86.1%。

    3 基于最大熵的詞性標(biāo)注模型

    3.1 最大熵模型原理

    最大熵模型(Maximum Entropy,ME)的工作原理是,對(duì)未知部分的知識(shí),不做任何假設(shè),選取符合這些知識(shí)使熵值取最大的概率分布。熵是對(duì)一個(gè)隨機(jī)變量的不確定性的定義,熵最大的時(shí)候?qū)?yīng)的隨機(jī)變量最不確定。最大熵原理的實(shí)質(zhì):在已知部分知識(shí)的前提下,符合已知知識(shí)最不確定或最隨機(jī)的推斷就是對(duì)未知部分最合理的推斷,這是可以做出的唯一最接近事物真實(shí)狀態(tài)的選擇,對(duì)于任何其他的選擇,都意味著增加了其他的約束和假設(shè)條件。

    最大熵模型能把各種不同的特征在同一個(gè)框架中刻畫(huà)出來(lái),并且不需要特征的獨(dú)立性假設(shè),能夠?qū)ξ谋局械纳舷挛男畔⒂行У乩?,根?jù)己有的事實(shí)提取表達(dá)特定任務(wù)的特征集合,在有效的約束條件下可以得到與訓(xùn)練數(shù)據(jù)一致的概率分布,該模型已廣泛應(yīng)用于分類(lèi)問(wèn)題的處理中。

    3.2 最大熵模型框架

    形式化描述最大熵模型:隨機(jī)過(guò)程所有輸出的值構(gòu)成一個(gè)有限集,設(shè)為Y,對(duì)于每個(gè)輸出結(jié)果 y∈Y,輸出的結(jié)果都受到上下文x的影響,x屬于有限集X。對(duì)于自然語(yǔ)言處理的許多問(wèn)題都可以這樣來(lái)描述,對(duì)于哈語(yǔ)詞性標(biāo)注任務(wù)來(lái)說(shuō),x表示待標(biāo)注詞上下文的環(huán)境,y表示輸出結(jié)果屬于所有的詞性標(biāo)記集合Y,實(shí)現(xiàn)的任務(wù)是:在實(shí)例或上下文x的條件下,構(gòu)造一個(gè)模型,能精確地估計(jì)出分類(lèi)標(biāo)記結(jié)果 y出現(xiàn)的概率即P(y/x)。所有的條件概率分布的集合用P來(lái)表示,那么對(duì)P(y/x)就是P的一個(gè)元素。但是對(duì)于所有可能的(x,y),要做到完全精確地確定P(y/x)一般是不可能的,所以需要構(gòu)造出一種模型,通過(guò)x和 y的統(tǒng)計(jì)特征,當(dāng)給定上下文信息x∈X時(shí),能夠較準(zhǔn)確地估計(jì)出輸出y∈Y的條件概率 p(y/x)。

    根據(jù)最大熵原理,p(y/x)的取值符合下面的指數(shù)模型:

    fi(x,y)就是所謂的特征函數(shù),y表示標(biāo)注結(jié)果,當(dāng) x滿足特定的上下文條件時(shí),特征值為真。

    λi是特征參數(shù),代表每個(gè)特征的重要性。Zλ(y/x)是歸一化因子,它的引入是為了保證P*(y/x)是概率,也就是。公式(1)使模型由求概率值轉(zhuǎn)化為求參數(shù)值λi,一般的估計(jì)方法是Darroch和Ratcliff[7]的通用迭代算法(Generalized Iterative Scaling,GIS),用來(lái)得到具有最大熵分布的所有參數(shù)值λi。Pietra等[8]則描述了一個(gè)改進(jìn)的迭代算法IIS。

    3.3 最大熵模型的特征表示

    最大熵模型的關(guān)鍵在于如何針對(duì)特定的任務(wù),為模型選取特征集合。采用簡(jiǎn)單的特征表示復(fù)雜的語(yǔ)言現(xiàn)象,承認(rèn)已有的可觀察到的事實(shí),不做任何獨(dú)立性假設(shè),這些觀察到的事實(shí)表示為最大熵模型的特征集合。在漢語(yǔ)詞性標(biāo)注研究中,基本上都采用基于詞的上下文特征[9]。哈薩克語(yǔ)與漢語(yǔ)、英語(yǔ)不同,哈語(yǔ)是以詞為單位,這方面像英語(yǔ),但是哈薩克語(yǔ)具有粘著性和豐富的上下文信息,哈語(yǔ)詞的詞形變化要比英語(yǔ)豐富得多?;诠Z(yǔ)自身的特點(diǎn),本文特征空間定義為:

    詞,當(dāng)前詞及其前后各一個(gè)詞。

    詞干,當(dāng)前詞的詞干及其前后各一個(gè)詞的詞干。

    詞性,前一個(gè)詞的詞性,及后一個(gè)詞的詞性。

    詞綴,由于哈語(yǔ)的詞綴變化較多,這里只選擇前一個(gè)詞及當(dāng)前詞的最后一個(gè)詞綴。

    根據(jù)這個(gè)特征空間,本文定義了模型中的模板,如表1所示。在這個(gè)表中每個(gè)模板只考慮了一種因素,稱(chēng)之為原子模板。原子模板也可以看作是對(duì)于當(dāng)前上下文的一個(gè)特征函數(shù)。

    表1 原子特征模板

    當(dāng)特征函數(shù)取特定值時(shí),則該模板被實(shí)例化,得到具體的特征。特征一般由兩部分來(lái)組成,一部分稱(chēng)為條件或上下文x,另一部分則是在條件滿足時(shí)采取的行動(dòng),或稱(chēng)為目標(biāo)概念類(lèi)y。特征值一般可以定義為下面的一個(gè)二值函數(shù)形式:

    在上下文中,僅僅使用原子特征不足以表示上下文中的一些現(xiàn)象。故本文對(duì)表1中的各種原子模板進(jìn)行了組合,構(gòu)成一些復(fù)合模板來(lái)表示更復(fù)雜的上下文環(huán)境,如表2所示,由于文章篇幅,這里只列出了一部分。原子特征模板和各種復(fù)合特征模板共同構(gòu)成了模型的所有特征模板,共有40種摸板。同樣,對(duì)于復(fù)合特征模板,也是首先對(duì)各個(gè)原子模板進(jìn)行實(shí)例化,對(duì)模板函數(shù)取值后,輸出某種標(biāo)注,從而產(chǎn)生一個(gè)特征,為復(fù)合特征。復(fù)合特征表示為二值特征函數(shù)的形式與原子特征相似,只是在取值時(shí)需要滿足的條件變多。

    3.4 特征選擇

    通過(guò)對(duì)人工標(biāo)注的熟語(yǔ)料進(jìn)行訓(xùn)練,從候選特征集中提取一個(gè)數(shù)量龐大的特征集合,然而并非所有特征都適合引入到最大熵模型中,因此,需要進(jìn)行特征選擇,通常選擇下面兩種辦法。

    (1)基于頻數(shù)閾值的特征選擇:只保留那些頻數(shù)大于等于一定閾值k的特征?;陬l數(shù)閾值的特征選擇認(rèn)為不常出現(xiàn)的特征是噪聲或不相關(guān)的,只有那些出現(xiàn)頻數(shù)大于k的特征才真正代表了數(shù)據(jù)的特性,可以選作特征。閾值k的選定與任務(wù)和數(shù)據(jù)相關(guān),可以通過(guò)實(shí)驗(yàn)來(lái)確定。多數(shù)研究者[10]通常取5,在3到20之間都可以找到較好的閾值。

    (2)增量式特征選擇:使用增量法來(lái)選擇區(qū)分度最高的特征作為特征集。增量式特征選擇以特征信息的增益來(lái)判斷是否引入該特征,通過(guò)計(jì)算每一個(gè)要加入特征的增益,再?gòu)闹羞x取增益最大的一個(gè),并且重新計(jì)算加入該特征的最大熵分布,重復(fù)該步驟直到增益不顯著為止。

    文獻(xiàn)[11]將方法(1)和方法(2)進(jìn)行了比較:當(dāng)k值選取適當(dāng)時(shí),兩種方法性能上差別不大,均有相同的召回率和準(zhǔn)確率,但在訓(xùn)練時(shí)間上,第一種方法較為簡(jiǎn)單,訓(xùn)練時(shí)間相對(duì)較短,優(yōu)于第二種方法。本文采用第一種方法進(jìn)行特征選取,經(jīng)過(guò)反復(fù)實(shí)驗(yàn),將特征頻數(shù)的閾值定為5,表示只使用特征頻數(shù)大于5的特征??紤]到哈語(yǔ)的特殊性,如有的詞是合成詞,有的詞沒(méi)有詞綴(如:詞根)等,需在進(jìn)行特征提取時(shí)將上下文中含有空值的特征去掉。

    表2 復(fù)合特征模板

    4 系統(tǒng)設(shè)計(jì)

    基于最大熵模型的哈薩克語(yǔ)詞性標(biāo)注系統(tǒng),核心的是訓(xùn)練模塊和標(biāo)注模塊。

    4.1 訓(xùn)練模塊

    圖1是訓(xùn)練模塊的數(shù)據(jù)流圖。圖中的候選特征是通過(guò)特征模板從語(yǔ)料庫(kù)中進(jìn)行的抽??;在候選特征的基礎(chǔ)上通過(guò)基于頻數(shù)閾值的特征選擇,只保留那些出現(xiàn)頻數(shù)大于等于5的特征,建立特征集。將特征結(jié)果組織好后送到最大熵工具包進(jìn)行訓(xùn)練,本文中選擇IIS算法進(jìn)行參數(shù)估計(jì)。

    圖1 訓(xùn)練模塊數(shù)據(jù)流圖

    4.2 標(biāo)注模塊

    首先進(jìn)行識(shí)別之前的預(yù)處理工作,將語(yǔ)料組織成符合識(shí)別模塊接口標(biāo)準(zhǔn)的形式。輸入文件是經(jīng)過(guò)詞干提取之后的語(yǔ)料,語(yǔ)料中包括詞、詞干、詞綴等信息。為了能提高模型的標(biāo)注準(zhǔn)確率,在語(yǔ)料中加入了部分詞的詞性信息:

    (1)根據(jù)電子詞典能唯一確定詞性的,標(biāo)注其詞性并添加一個(gè)標(biāo)簽記為var=0。

    (2)不能確定其唯一詞性,但是可以獲得所有可能詞性的,將這些詞性一起標(biāo)注,使用#號(hào)分隔不同的詞性,并添加標(biāo)簽var=1。

    (3)其余的詞添加標(biāo)簽var=2。

    標(biāo)注模塊的主要任務(wù)就是給定一個(gè)需要詞性標(biāo)注的句子W=(w1,w2,…,wn),找到一個(gè)與此對(duì)應(yīng)的詞性序列T= (t1,t2,…,tn), 使得

    本文的算法如下:

    步驟1讀入一個(gè)句子,從左向右依次標(biāo)注每個(gè)哈語(yǔ)單詞wi,根據(jù)特征模板實(shí)例化其上下文特征向量Xi。

    步驟2使用訓(xùn)練階段得到的模型計(jì)算得到Xi的每個(gè)特征取值的概率P(Yi|Xi),選取概率最大的前n項(xiàng)作為候選詞性(這里取n等于3)。局部最優(yōu)算法在這一步只是選擇概率最大的一個(gè)詞性,因此它也就沒(méi)有下面的步驟3,選擇一個(gè)概率最大的詞性標(biāo)準(zhǔn)序列。因?yàn)榛诰植孔顑?yōu)算法得出的只有一條標(biāo)準(zhǔn)序列。

    步驟3依次將這n個(gè)詞性加入下一個(gè)詞的上下文特征向量中,以此類(lèi)推直至句子結(jié)束。最終選出一條使P(T|W)取值最大的詞性標(biāo)注序列。

    5 實(shí)驗(yàn)結(jié)果與分析

    5.1 實(shí)驗(yàn)數(shù)據(jù)

    本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自本實(shí)驗(yàn)室的現(xiàn)代哈薩克語(yǔ)綜合語(yǔ)料庫(kù),它的內(nèi)容來(lái)自于2008年《新疆日?qǐng)?bào)》哈語(yǔ)版,題材涉及政治、經(jīng)濟(jì)、體育、衛(wèi)生、文化、藝術(shù)、娛樂(lè)等。目前該語(yǔ)料庫(kù)已完成詞干切分、詞綴的提取,以及部分的詞性標(biāo)注。本文采用2008年1月份的已完成人工詞性標(biāo)注和校對(duì)后的語(yǔ)料進(jìn)行實(shí)驗(yàn),包含646篇文章共31 695條語(yǔ)句,圖2給出了一個(gè)語(yǔ)料的樣例。在31天的語(yǔ)料中1~28號(hào)的語(yǔ)料作為訓(xùn)練語(yǔ)料,其余作為開(kāi)放測(cè)試語(yǔ)料,并其在測(cè)試時(shí)從訓(xùn)練集中隨機(jī)抽取3天的語(yǔ)料作為封閉測(cè)語(yǔ)料。其中pos表示單詞的詞性,stem表示單詞的詞干,affix表示單詞的附加成分,var為詞類(lèi)標(biāo)記符號(hào)(var為0時(shí)表示電子詞典中詞性唯一;var為1時(shí)表示兼類(lèi)詞;var為2時(shí)表示人工修改的詞性)。

    圖2 語(yǔ)料樣例

    根據(jù)本階段語(yǔ)料庫(kù)建設(shè)的需要和訓(xùn)練語(yǔ)料的規(guī)模,本文詞性主要包括一級(jí)詞性。具體詞性及對(duì)應(yīng)的標(biāo)記集見(jiàn)表3。

    表3 哈薩克語(yǔ)一類(lèi)詞性標(biāo)注集

    5.2 實(shí)驗(yàn)結(jié)果

    為評(píng)估本文中方法的有效性,在相同的語(yǔ)料上分別做了HMM及局部最優(yōu)的最大熵方法的對(duì)照實(shí)驗(yàn),標(biāo)注結(jié)果對(duì)比如表4所示。

    表4 標(biāo)注結(jié)果準(zhǔn)確率比較 (%)

    表4中(M)表示使用經(jīng)過(guò)本文語(yǔ)料預(yù)處理所得的語(yǔ)料。這里的結(jié)果并未對(duì)最大熵模型在其他語(yǔ)言中詞性標(biāo)注的結(jié)果作對(duì)比,不同的語(yǔ)言、不同的語(yǔ)料標(biāo)注以及詞性標(biāo)注集的大小等都會(huì)對(duì)模型的標(biāo)注結(jié)果產(chǎn)生一定的影響,因此這里僅對(duì)本實(shí)驗(yàn)室相同語(yǔ)料下的不同標(biāo)注方法作了結(jié)果對(duì)比。由結(jié)果可以看出加入部分確定性詞性后標(biāo)注準(zhǔn)確率有了明顯的提高,這主要是因?yàn)椴糠衷~的標(biāo)注過(guò)程中可以用到后一個(gè)詞的詞性特征(如果其后一個(gè)詞的詞性是預(yù)先標(biāo)注好的),這是一般最大熵模型不會(huì)用到的特征。使用本文中的標(biāo)注方法后準(zhǔn)確率相比局部最優(yōu)的最大熵也有提高,本文的方法中考慮到了詞性標(biāo)注序列的整體最優(yōu),當(dāng)然這增加了時(shí)間復(fù)雜度,但是這里可以設(shè)置取每個(gè)詞的最優(yōu)前n個(gè)詞性,既照顧了整體的最優(yōu),又不會(huì)過(guò)多地增加模型的時(shí)間、空間復(fù)雜度。

    5.3 錯(cuò)誤分析

    由實(shí)驗(yàn)數(shù)據(jù)可以看出準(zhǔn)確率仍有很大的提升空間,經(jīng)分析標(biāo)注錯(cuò)誤主要來(lái)自以下幾個(gè)方面:

    (1)詞法分析中的錯(cuò)誤產(chǎn)生的積累,即詞干提取、詞綴的切分錯(cuò)誤在詞性標(biāo)注中的影響。因?yàn)樵~干、詞綴作為模型的原子特征,其中詞綴或詞干的錯(cuò)誤造成了詞性標(biāo)注的錯(cuò)誤。

    (2)專(zhuān)有名詞、固定詞組標(biāo)注錯(cuò)誤。習(xí)語(yǔ)、固定詞組和專(zhuān)有名詞的構(gòu)成不完全符合語(yǔ)法規(guī)則而且這些詞出現(xiàn)次數(shù)又極少,對(duì)其中的詞標(biāo)注詞性時(shí)常規(guī)特征概率較大,系統(tǒng)對(duì)這些詞組中的詞按一般詞進(jìn)行標(biāo)注,因而出現(xiàn)錯(cuò)誤。

    (3)組合詞的標(biāo)注錯(cuò)誤。未登錄詞在詞性標(biāo)注中是一個(gè)難點(diǎn),哈語(yǔ)中未登錄詞的一大部分是組合詞,即兩個(gè)或兩個(gè)以上的詞用下劃線連接組成新的詞如(玩笑),這些詞不能很好地確定其詞干、詞綴等,數(shù)據(jù)稀疏加上本身的特征信息又少,此類(lèi)詞標(biāo)注的正確率也就不高。

    6 結(jié)束語(yǔ)

    本文使用最大熵模型進(jìn)行哈薩克語(yǔ)的詞性標(biāo)注,在語(yǔ)料預(yù)處理中對(duì)有唯一確定詞性的詞進(jìn)行了預(yù)先標(biāo)注,增加了可以利用的上下文特征;改進(jìn)了標(biāo)注算法,在計(jì)算量不過(guò)多增長(zhǎng)的同時(shí)考慮了詞性序列的整體最優(yōu)化,提高了詞性標(biāo)注的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明開(kāi)放測(cè)試的準(zhǔn)確率仍然有很大的提高空間,原因在語(yǔ)料的預(yù)處理階段中,詞干、詞綴的自動(dòng)切分正確率不是很高、專(zhuān)有名詞等未能提前處理,在接下來(lái)的工作中可以考慮從提高詞干切分的準(zhǔn)確率、預(yù)先識(shí)別專(zhuān)業(yè)名詞等方面來(lái)提高整個(gè)系統(tǒng)的標(biāo)注準(zhǔn)確率。

    [1]買(mǎi)合木提·買(mǎi)買(mǎi)提.基于統(tǒng)計(jì)的維吾爾語(yǔ)詞性標(biāo)注研究與實(shí)現(xiàn)[D].烏魯木齊:新疆大學(xué),2009.

    [2]Ratnaparkhi A.A maximum entropy model for part-of-speech tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,1996:133-141.

    [3]Zhao Yan,Wang Xiaolong.Applying class triggers in Chinese POS tagging based on maximum entropy model[C]// The 3rd InternationalConference on Machine Learning and Cybernetics,Shanghai,2004:1641-1645.

    [4]達(dá)吾勒·阿布都哈依爾,古麗拉·阿東別克.哈薩克語(yǔ)詞法分析器的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(19):146-149.

    [5]劉艷,古麗拉·阿東別克,伊力亞爾.哈薩克語(yǔ)詞性自動(dòng)標(biāo)注研究初探[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(20):242-244.

    [6]侯呈風(fēng),古麗拉·阿東別克.改進(jìn)的HMM應(yīng)用于哈薩克語(yǔ)詞性標(biāo)注[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(36):147-149.

    [7]Darroch JN,RatcliffD.Generalized iterative scaling for log2 linear models[J].Analysis of Mathematical Statistics,1999,43(5):1470-1480.

    [8]Pietra S D,Pietra V D,Lafferty J.Including features of random fields[J].IEEE Transactionson Pattern Analysisand Machine Intelligence,1997,19(4):380-393.

    [9]Chen Jinying,Xue Nianwen,Palmer M.Using a smoothing maximum entropy model for Chinese nominal entity tagging[C]// Proceedingsofthe1st International Joint Conference on Natural Language Processing,Hainan Island,2004:493-499.

    [10]RatnaparkhiA.Learning to parse naturallanguage with maximum entropy models[J].Machine Learning,1999,341(3):151-176.

    [11]Berger A L,Della Pietra S A,Della Pietra V J.A maximum entropy approach to natural language processing[J]. Computational Linguistic,2002,22(1):39-71.

    基于最大熵的哈薩克語(yǔ)詞性標(biāo)注模型

    桑海巖1,2,古麗拉·阿東別克1,2,牛寧寧1,2

    SANG Haiyan1,2,Gulia·Altenbek1,2,NIU Ningning1,2

    1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
    2.The Base of Kazakh and Kirghiz Language,Minority Languages Branch,National Language Resource Monitoring and Research Center,Urumqi 830046,China

    Maximum entropy model can make full use of context,agilely take multiple characteristics.This paper uses maximum entropy model to part of speech tagging of Kazakh,designs feature template according to tackiness and rich shape,and joins the backward relying part of speech feature template.In this paper,the module is improved,which takes the previous n words of highest probability to join the characteristic vector of next word and so on until the end of the sentence,and finally it selects a probability optimal sequence of part of speech tagging.The results show that feature template choice is correct,and the improved model accuracy rate reaches 96.8%.

    natural language processing;part-of-speech tagging;maximum entropy model;Kazakh

    最大熵模型能夠充分利用上下文,靈活取用多個(gè)特征。使用最大熵模型進(jìn)行哈薩克語(yǔ)的詞性標(biāo)注,根據(jù)哈語(yǔ)的粘著性、形態(tài)豐富等特點(diǎn)設(shè)計(jì)特征模板,并加入了向后依賴(lài)詞性的特征模板。對(duì)模型進(jìn)行了改進(jìn),在解碼中取概率最大的前n個(gè)詞性分別加入下一個(gè)詞的特征向量中,以此類(lèi)推直至句子結(jié)束,最終選出一條概率最優(yōu)的詞性標(biāo)注序列。實(shí)驗(yàn)結(jié)果表明,特征模板的選擇是正確的,改進(jìn)模型的準(zhǔn)確率達(dá)到了96.8%。

    自然語(yǔ)言處理;詞性標(biāo)注;最大熵模型;哈薩克語(yǔ)

    A

    TP391

    10.3778/j.issn.1002-8331.1212-0193

    SANG Haiyan,Gulia·Altenbek,NIU Ningning.Kazakh part-of-speech tagging method based on maximum entropy. Computer Engineering and Applications,2013,49(11):126-129.

    國(guó)家自然科學(xué)基金(No.61063025)。

    桑海巖(1982—),男,碩士,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理;古麗拉·阿東別克(1962—),女,教授,博士生導(dǎo)師,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理、人工智能等;牛寧寧(1988—),女,碩士,研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言信息處理等。E-mail:sang_haiyan@163.com

    2012-12-17

    2013-03-06

    1002-8331(2013)11-0126-04

    猜你喜歡
    詞干哈薩克語(yǔ)詞綴
    從網(wǎng)絡(luò)語(yǔ)“X精”看“精”的類(lèi)詞綴化
    論柯?tīng)柨俗握Z(yǔ)詞干提取方法
    維吾爾語(yǔ)詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
    釋西夏語(yǔ)詞綴wji2
    西夏研究(2017年1期)2017-07-10 08:16:55
    哈薩克語(yǔ)附加成分-A
    融合多策略的維吾爾語(yǔ)詞干提取方法
    基于維吾爾語(yǔ)詞干詞綴粒度的漢維機(jī)器翻譯
    哈薩克語(yǔ)比喻及其文化特征
    “v+n+n”結(jié)構(gòu)的哈薩克語(yǔ)短語(yǔ)歧義分析與消解
    試析否定詞綴在漢維語(yǔ)中的不同表現(xiàn)
    中文字幕人妻熟人妻熟丝袜美| 老女人水多毛片| 天美传媒精品一区二区| 男人舔女人下体高潮全视频| 老司机影院毛片| 久久久久久久久中文| 久久精品国产鲁丝片午夜精品| 国产真实乱freesex| videossex国产| 超碰av人人做人人爽久久| 国产伦精品一区二区三区视频9| 中文字幕av成人在线电影| 内射极品少妇av片p| 欧美潮喷喷水| 又爽又黄无遮挡网站| 午夜爱爱视频在线播放| 狠狠狠狠99中文字幕| 色哟哟·www| 亚州av有码| eeuss影院久久| 91久久精品电影网| 小说图片视频综合网站| 国产亚洲精品av在线| 亚洲在线自拍视频| 一卡2卡三卡四卡精品乱码亚洲| 国产精品久久久久久精品电影小说 | av女优亚洲男人天堂| 亚洲欧美日韩卡通动漫| 成人特级av手机在线观看| 看非洲黑人一级黄片| 亚洲精品亚洲一区二区| 国产极品精品免费视频能看的| av天堂中文字幕网| 一个人看视频在线观看www免费| 国产日韩欧美在线精品| 亚洲精品乱码久久久v下载方式| 99热这里只有是精品在线观看| 一本一本综合久久| 天天躁日日操中文字幕| 色哟哟·www| 日韩三级伦理在线观看| 男女下面进入的视频免费午夜| 午夜福利网站1000一区二区三区| 国产熟女欧美一区二区| 国产毛片a区久久久久| 亚洲精华国产精华液的使用体验| 国产又色又爽无遮挡免| 久久亚洲国产成人精品v| 国产高清不卡午夜福利| 久久99精品国语久久久| 国产一区二区三区av在线| 国产成人精品久久久久久| 国产精品.久久久| 国产精品不卡视频一区二区| 国产伦精品一区二区三区四那| 麻豆av噜噜一区二区三区| 中文乱码字字幕精品一区二区三区 | 1000部很黄的大片| 免费无遮挡裸体视频| 国内精品一区二区在线观看| 久久亚洲国产成人精品v| 一级毛片aaaaaa免费看小| 女人被狂操c到高潮| 卡戴珊不雅视频在线播放| 天美传媒精品一区二区| 一夜夜www| 亚洲国产欧美在线一区| 七月丁香在线播放| 亚洲国产欧美在线一区| 美女黄网站色视频| 国产高清视频在线观看网站| 亚洲伊人久久精品综合 | 亚洲自偷自拍三级| 九九久久精品国产亚洲av麻豆| 亚洲av.av天堂| 国产不卡一卡二| 欧美日本亚洲视频在线播放| 国产三级在线视频| 狂野欧美白嫩少妇大欣赏| 视频中文字幕在线观看| 亚洲熟妇中文字幕五十中出| 日韩精品有码人妻一区| 在线观看一区二区三区| 国产一区二区在线观看日韩| 五月玫瑰六月丁香| 国国产精品蜜臀av免费| 床上黄色一级片| 成人国产麻豆网| av播播在线观看一区| 在线观看av片永久免费下载| 一区二区三区高清视频在线| 麻豆久久精品国产亚洲av| 在线天堂最新版资源| 日本熟妇午夜| av天堂中文字幕网| 亚洲av二区三区四区| 国产老妇女一区| 三级男女做爰猛烈吃奶摸视频| 99久久九九国产精品国产免费| 不卡视频在线观看欧美| 成人高潮视频无遮挡免费网站| 国产伦在线观看视频一区| 欧美激情国产日韩精品一区| 欧美日本视频| 久久亚洲国产成人精品v| 最近最新中文字幕大全电影3| 日本三级黄在线观看| 国产精品久久久久久精品电影小说 | 欧美不卡视频在线免费观看| 亚洲欧美日韩东京热| 欧美+日韩+精品| 久久久欧美国产精品| a级一级毛片免费在线观看| 丝袜喷水一区| 精品人妻一区二区三区麻豆| 欧美高清性xxxxhd video| videos熟女内射| 免费观看精品视频网站| 国产精品电影一区二区三区| 秋霞伦理黄片| 亚洲无线观看免费| 免费av观看视频| 国产欧美日韩精品一区二区| 啦啦啦观看免费观看视频高清| 人人妻人人看人人澡| 人人妻人人看人人澡| 成人欧美大片| 麻豆一二三区av精品| 赤兔流量卡办理| 日韩欧美在线乱码| 天堂网av新在线| 成人一区二区视频在线观看| 亚洲人成网站在线观看播放| 亚洲国产日韩欧美精品在线观看| 在线播放无遮挡| 在线播放无遮挡| 精品少妇黑人巨大在线播放 | 偷拍熟女少妇极品色| 深爱激情五月婷婷| 国产成人a∨麻豆精品| 一级毛片我不卡| 老司机影院成人| 三级国产精品片| 欧美极品一区二区三区四区| 99热这里只有精品一区| 美女高潮的动态| 男人狂女人下面高潮的视频| 亚洲国产成人一精品久久久| 亚洲人成网站在线播| 亚洲在线观看片| a级一级毛片免费在线观看| 午夜免费男女啪啪视频观看| 久久亚洲国产成人精品v| 两性午夜刺激爽爽歪歪视频在线观看| 国内精品一区二区在线观看| 在线观看66精品国产| 国产免费福利视频在线观看| 深夜a级毛片| 亚洲美女视频黄频| 九九久久精品国产亚洲av麻豆| 99在线人妻在线中文字幕| av又黄又爽大尺度在线免费看 | 久久综合国产亚洲精品| av视频在线观看入口| 国产精品嫩草影院av在线观看| 国产精品美女特级片免费视频播放器| 热99re8久久精品国产| 国产精品蜜桃在线观看| 99热这里只有精品一区| 夜夜爽夜夜爽视频| 国产午夜精品论理片| 高清视频免费观看一区二区 | 你懂的网址亚洲精品在线观看 | 亚洲精品一区蜜桃| 久久久久国产网址| 国内揄拍国产精品人妻在线| 久久6这里有精品| 国产69精品久久久久777片| 欧美高清成人免费视频www| 亚洲无线观看免费| 边亲边吃奶的免费视频| 免费电影在线观看免费观看| 久久久久九九精品影院| 最近最新中文字幕大全电影3| av在线蜜桃| 97在线视频观看| 能在线免费观看的黄片| 久久亚洲国产成人精品v| 亚洲精品自拍成人| АⅤ资源中文在线天堂| 亚洲成人久久爱视频| 欧美日本视频| 少妇丰满av| 18禁在线无遮挡免费观看视频| 99热这里只有精品一区| 欧美激情久久久久久爽电影| 久久这里只有精品中国| 春色校园在线视频观看| 国产 一区 欧美 日韩| 免费av不卡在线播放| 亚洲国产精品sss在线观看| 床上黄色一级片| 99热全是精品| 久久久久免费精品人妻一区二区| 免费看a级黄色片| 亚洲美女视频黄频| 日日撸夜夜添| 免费电影在线观看免费观看| 成人漫画全彩无遮挡| 亚洲一区高清亚洲精品| 亚洲图色成人| 99热精品在线国产| 麻豆一二三区av精品| 日韩成人伦理影院| 亚洲欧美日韩东京热| 91av网一区二区| 嫩草影院入口| 欧美另类亚洲清纯唯美| 夜夜看夜夜爽夜夜摸| 长腿黑丝高跟| 99在线视频只有这里精品首页| 啦啦啦观看免费观看视频高清| 日韩av在线免费看完整版不卡| 久久99热这里只频精品6学生 | 人人妻人人澡人人爽人人夜夜 | 婷婷色麻豆天堂久久 | 久久鲁丝午夜福利片| 久久精品夜夜夜夜夜久久蜜豆| 18禁在线无遮挡免费观看视频| 国产精品麻豆人妻色哟哟久久 | 特级一级黄色大片| 国产av码专区亚洲av| 亚洲av福利一区| 在线免费观看不下载黄p国产| 久久精品国产亚洲av涩爱| 日本午夜av视频| av卡一久久| 一级爰片在线观看| 只有这里有精品99| 卡戴珊不雅视频在线播放| 最近最新中文字幕大全电影3| 日本黄大片高清| 国产精品三级大全| 春色校园在线视频观看| 国产大屁股一区二区在线视频| 一级黄色大片毛片| 丰满人妻一区二区三区视频av| 男人和女人高潮做爰伦理| av专区在线播放| 中文字幕av成人在线电影| 丰满乱子伦码专区| 国产91av在线免费观看| 边亲边吃奶的免费视频| 亚洲精品国产成人久久av| 韩国高清视频一区二区三区| 九草在线视频观看| 少妇丰满av| 亚洲va在线va天堂va国产| 欧美97在线视频| 日韩精品青青久久久久久| 一级毛片久久久久久久久女| 国产精品伦人一区二区| 三级经典国产精品| 九色成人免费人妻av| 久久精品久久久久久久性| 成人亚洲欧美一区二区av| 综合色av麻豆| 国产在线一区二区三区精 | 成人三级黄色视频| 在线免费观看不下载黄p国产| 九九在线视频观看精品| 综合色丁香网| 国产伦理片在线播放av一区| 久久久久久大精品| 成人综合一区亚洲| 精品一区二区免费观看| 亚洲不卡免费看| 亚洲精品,欧美精品| 精品一区二区三区视频在线| 九九在线视频观看精品| videossex国产| 日韩国内少妇激情av| 久久久精品94久久精品| 大又大粗又爽又黄少妇毛片口| 最新中文字幕久久久久| 18禁动态无遮挡网站| 国产极品天堂在线| 国产麻豆成人av免费视频| 欧美三级亚洲精品| 少妇猛男粗大的猛烈进出视频 | 成人午夜精彩视频在线观看| 国产精品,欧美在线| 国产91av在线免费观看| eeuss影院久久| 久久久久性生活片| 91午夜精品亚洲一区二区三区| 久久国内精品自在自线图片| 亚洲国产高清在线一区二区三| 免费搜索国产男女视频| 国内精品一区二区在线观看| 久久精品久久精品一区二区三区| 91狼人影院| 久久久久久国产a免费观看| 久久人妻av系列| 免费播放大片免费观看视频在线观看 | 国产精品一区二区三区四区免费观看| 色噜噜av男人的天堂激情| 少妇熟女欧美另类| 久久久午夜欧美精品| 国产精品久久久久久精品电影小说 | 校园人妻丝袜中文字幕| 欧美人与善性xxx| 国产视频首页在线观看| 18+在线观看网站| 亚洲内射少妇av| 一级爰片在线观看| 亚洲av福利一区| 中文在线观看免费www的网站| 日韩中字成人| 欧美成人精品欧美一级黄| 自拍偷自拍亚洲精品老妇| 午夜激情欧美在线| 波多野结衣高清无吗| 在线免费十八禁| 午夜福利在线观看免费完整高清在| 亚洲婷婷狠狠爱综合网| 色网站视频免费| 天天躁日日操中文字幕| 欧美最新免费一区二区三区| 97热精品久久久久久| 国产白丝娇喘喷水9色精品| 国产高清有码在线观看视频| 少妇熟女aⅴ在线视频| 淫秽高清视频在线观看| 国产精品不卡视频一区二区| 深爱激情五月婷婷| 久久精品国产亚洲av涩爱| 一级二级三级毛片免费看| 国产又色又爽无遮挡免| 欧美性感艳星| 伦精品一区二区三区| 国产亚洲最大av| 亚洲丝袜综合中文字幕| 久久久久久久午夜电影| kizo精华| 久久综合国产亚洲精品| 天天一区二区日本电影三级| 欧美zozozo另类| 久久久久国产网址| 男女视频在线观看网站免费| av天堂中文字幕网| 亚洲综合精品二区| 天堂中文最新版在线下载 | 国产精品人妻久久久影院| 老女人水多毛片| 亚洲av男天堂| av在线老鸭窝| 久久精品影院6| 国产色婷婷99| 97在线视频观看| 看片在线看免费视频| 男女边吃奶边做爰视频| 久久久久久久久中文| 亚洲精品国产成人久久av| 亚洲人成网站在线观看播放| 99九九线精品视频在线观看视频| 国产探花极品一区二区| 69av精品久久久久久| 色综合色国产| 欧美xxxx黑人xx丫x性爽| 亚洲av二区三区四区| 六月丁香七月| 亚洲中文字幕日韩| 国产老妇伦熟女老妇高清| 日本-黄色视频高清免费观看| 2021少妇久久久久久久久久久| 亚洲第一区二区三区不卡| 毛片女人毛片| 日本免费一区二区三区高清不卡| 少妇熟女欧美另类| av播播在线观看一区| 成人二区视频| 热99在线观看视频| 国产色爽女视频免费观看| 黑人高潮一二区| 国产日韩欧美在线精品| 97在线视频观看| 18+在线观看网站| 成人漫画全彩无遮挡| 亚洲性久久影院| 在线观看美女被高潮喷水网站| 欧美激情国产日韩精品一区| 丝袜美腿在线中文| 国产精品1区2区在线观看.| 能在线免费看毛片的网站| 在线天堂最新版资源| 毛片女人毛片| 中文字幕av成人在线电影| 秋霞在线观看毛片| 91av网一区二区| 国产91av在线免费观看| 我的女老师完整版在线观看| 成人一区二区视频在线观看| 嫩草影院精品99| 尾随美女入室| 丝袜美腿在线中文| 国产精品久久久久久久电影| 在现免费观看毛片| 波多野结衣高清无吗| 久久精品久久久久久久性| 97人妻精品一区二区三区麻豆| 欧美另类亚洲清纯唯美| 国产精品国产三级国产av玫瑰| av在线老鸭窝| 一级毛片电影观看 | 九色成人免费人妻av| a级一级毛片免费在线观看| 激情 狠狠 欧美| 搞女人的毛片| 午夜福利在线观看吧| 日本黄色视频三级网站网址| 日韩 亚洲 欧美在线| 亚洲精品久久久久久婷婷小说 | 久久热精品热| 久久久国产成人精品二区| 男人舔女人下体高潮全视频| 国产色爽女视频免费观看| 一边亲一边摸免费视频| 色5月婷婷丁香| 一区二区三区四区激情视频| 熟女电影av网| 亚洲人与动物交配视频| 日本午夜av视频| 色尼玛亚洲综合影院| 亚洲精品乱久久久久久| 99热精品在线国产| 一级毛片久久久久久久久女| .国产精品久久| 亚洲四区av| 男女啪啪激烈高潮av片| 国产一级毛片在线| 久久99热这里只有精品18| 国产一区有黄有色的免费视频 | 亚洲欧美日韩卡通动漫| 夜夜看夜夜爽夜夜摸| 精品人妻熟女av久视频| 91av网一区二区| 久久精品国产鲁丝片午夜精品| 国产一区亚洲一区在线观看| 少妇的逼水好多| 偷拍熟女少妇极品色| 免费无遮挡裸体视频| 亚洲欧美清纯卡通| 亚洲av中文av极速乱| 亚洲欧美精品综合久久99| 搡女人真爽免费视频火全软件| 国产色爽女视频免费观看| 久久精品综合一区二区三区| 国产成人freesex在线| 97热精品久久久久久| 我的老师免费观看完整版| 麻豆乱淫一区二区| 婷婷六月久久综合丁香| 成人欧美大片| 69人妻影院| 99视频精品全部免费 在线| 国产人妻一区二区三区在| 村上凉子中文字幕在线| 国产在视频线在精品| 精品久久久久久久久av| 亚洲欧美日韩东京热| 插阴视频在线观看视频| 亚洲精品乱码久久久久久按摩| 婷婷色av中文字幕| 美女国产视频在线观看| av专区在线播放| 18禁裸乳无遮挡免费网站照片| 亚洲第一区二区三区不卡| 国产人妻一区二区三区在| 91aial.com中文字幕在线观看| 少妇猛男粗大的猛烈进出视频 | 免费无遮挡裸体视频| 最后的刺客免费高清国语| 久久精品91蜜桃| 久久精品夜色国产| 久久精品久久久久久噜噜老黄 | 我要搜黄色片| 国产熟女欧美一区二区| 精品无人区乱码1区二区| 久久久久精品久久久久真实原创| 啦啦啦观看免费观看视频高清| 18禁在线播放成人免费| 美女脱内裤让男人舔精品视频| 国产成人aa在线观看| 欧美日韩精品成人综合77777| 免费黄网站久久成人精品| 亚洲av福利一区| 亚洲性久久影院| 一边摸一边抽搐一进一小说| 日韩精品青青久久久久久| 一卡2卡三卡四卡精品乱码亚洲| 亚洲自偷自拍三级| 特级一级黄色大片| 毛片女人毛片| 国产一区二区三区av在线| videos熟女内射| 狂野欧美激情性xxxx在线观看| 看十八女毛片水多多多| 精品人妻熟女av久视频| 久久精品久久久久久噜噜老黄 | 校园人妻丝袜中文字幕| 亚洲第一区二区三区不卡| 韩国高清视频一区二区三区| 国产私拍福利视频在线观看| 国产成人午夜福利电影在线观看| 亚洲国产精品成人综合色| 亚洲精品aⅴ在线观看| 国产v大片淫在线免费观看| 亚洲自偷自拍三级| 精品少妇黑人巨大在线播放 | 亚洲精品,欧美精品| 99久久成人亚洲精品观看| 久久精品综合一区二区三区| 国产黄片美女视频| 最近的中文字幕免费完整| 少妇丰满av| 可以在线观看毛片的网站| 嫩草影院新地址| 身体一侧抽搐| 亚洲国产成人一精品久久久| 国产av不卡久久| 亚洲欧美日韩东京热| 国产老妇伦熟女老妇高清| 哪个播放器可以免费观看大片| 天堂网av新在线| 嫩草影院新地址| 精品一区二区三区人妻视频| 老司机福利观看| 床上黄色一级片| 色综合色国产| 久久精品夜色国产| 久久久久久伊人网av| 国产又色又爽无遮挡免| 一区二区三区乱码不卡18| 欧美日本亚洲视频在线播放| 亚洲人成网站高清观看| 69人妻影院| 亚洲精品aⅴ在线观看| 一卡2卡三卡四卡精品乱码亚洲| 国产成人福利小说| 国产精品一区二区三区四区免费观看| 国产精品美女特级片免费视频播放器| 搡女人真爽免费视频火全软件| 赤兔流量卡办理| 欧美成人一区二区免费高清观看| 久久久午夜欧美精品| 乱码一卡2卡4卡精品| 超碰av人人做人人爽久久| 大话2 男鬼变身卡| 午夜精品国产一区二区电影 | av在线蜜桃| 亚洲av不卡在线观看| 国产精品三级大全| 三级男女做爰猛烈吃奶摸视频| 三级国产精品片| 久久久久久久久久黄片| 成人高潮视频无遮挡免费网站| 午夜爱爱视频在线播放| 草草在线视频免费看| 国产精品不卡视频一区二区| 免费观看的影片在线观看| 日本午夜av视频| 国产精品野战在线观看| 国模一区二区三区四区视频| 亚洲自拍偷在线| 99热精品在线国产| 亚洲五月天丁香| 免费看a级黄色片| 欧美一级a爱片免费观看看| 两个人视频免费观看高清| 22中文网久久字幕| 国产在视频线在精品| 一个人免费在线观看电影| 欧美精品一区二区大全| 在线播放国产精品三级| 99九九线精品视频在线观看视频| 国产免费福利视频在线观看| 国产精品久久电影中文字幕| 中国国产av一级| 身体一侧抽搐| av线在线观看网站| 亚洲av一区综合| 91久久精品电影网| 精品人妻一区二区三区麻豆| 午夜亚洲福利在线播放| 日本免费一区二区三区高清不卡| 又爽又黄a免费视频| 一夜夜www| 日韩av不卡免费在线播放| 最近最新中文字幕大全电影3| 国产高清有码在线观看视频| 午夜日本视频在线| 国产日韩欧美在线精品| 毛片一级片免费看久久久久| 日本与韩国留学比较| 一级毛片aaaaaa免费看小| 日韩欧美精品免费久久| 日本色播在线视频| 小蜜桃在线观看免费完整版高清| 国产精华一区二区三区| 男女下面进入的视频免费午夜| 国产亚洲精品av在线| 麻豆成人午夜福利视频| 日日撸夜夜添| 欧美激情久久久久久爽电影|