• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于機器學習方法的哈薩克語詞干切分研究

    2020-04-30 04:26:10庫瓦特拜克馬木提
    計算機技術與發(fā)展 2020年4期
    關鍵詞:詞干哈薩克語特征函數(shù)

    庫瓦特拜克·馬木提

    (伊犁師范大學 電子與信息工程學院,新疆 伊寧 835000)

    0 引 言

    黏著語類型語言包括蒙古語、維吾爾語和哈薩克語等。黏著語類型的語言單詞在組成上可以分為:詞根、詞干、構詞附加成分、構形附加成分(附加成分也稱為詞綴)。一般而言,黏著語的每一個詞綴都只表達一種意思或只具有一種語法功能。詞根后面附加構詞附加成分,形成新的詞匯意義從而構成新詞;而詞干后面附加構形附加成分,形成與詞干意義相同,語法含義不同的單詞。哈薩克語單詞的構造形式是通過將不同的構形附加成分按照一定的規(guī)則綴接在詞干后來實現(xiàn)的。根據(jù)這些規(guī)則,構形附加成分是可以層疊的。哈薩克語單詞的這種構形方式使哈薩克語單詞的形態(tài)變化豐富而且復雜。

    哈薩克語單詞的構形附加成分承載著該單詞數(shù)、格、體、時等大量語言相關的語法信息。每一個哈薩克語單詞與其他語言不同之處在于,其語法意義不僅與單詞在句子中的未知有關,也與不同構形附加成分的綴接相關,所以要分析哈薩克語單詞的詞性屬性和語法關系就需要正確切分詞干和構形附加成分。但是在現(xiàn)實的語言環(huán)境中,哈薩克語單詞整體為一個連續(xù)的字符串形式,各構形成分之間沒有形式上的分隔。首先要從單詞中分離出詞干和構形成分,才可以利用這些信息。同時詞干在綴接構形成分時有些詞干會發(fā)生相應的變化,需要進行詞干的還原處理。構形附加成分的識別及詞干還原過程就是哈薩克語的詞干切分。哈薩克語詞干切分屬于詞法分析的基礎性工作,對哈薩克語的信息檢索、句法分析、機器翻譯等具有重要作用。

    基于機器學習的方法在哈薩克語詞干切分的研究中還沒有得到應用。文中首先手工標注了100萬詞匯的哈薩克語文本語料,為開展機器學習方法的研究準備了較為充分的詞干切分語料;其次在哈薩克語詞干切分任務中應用了最大熵模型和條件隨機場模型,為哈薩克語信息處理提供了可行的機器學習方法;再次設計并實現(xiàn)了兩種機器學習方法的對比性實驗,取得了較好的實驗結果,哈薩克語詞干切分的準確率在條件隨機場模型中達到了85%以上,相對于傳統(tǒng)的基于規(guī)則的方法,取得了一定提升,為進一步利用統(tǒng)計學習方法研究哈薩克語信息處理技術奠定了基礎。

    1 哈薩克語詞干切分工作研究現(xiàn)狀

    目前哈薩克語的詞干切分研究工作還處于起步階段,尤其是在統(tǒng)計學習領域如何將哈薩克語詞干切分很好地利用到各個不同的NLP任務當中依然是一個值得研究的領域。當前詞干切分工作主要有基于詞典和規(guī)則相結合的方法[1-2]。通過在詞干詞典的基礎上應用哈薩克語詞干切分語言學規(guī)則實現(xiàn)了哈薩克語詞干切分的方法,存在的主要問題是詞干切分的準確率不高,在70%左右,還不能很好地滿足實用性的要求。下面將對包括蒙古語、維吾爾語、哈薩克語等在內(nèi)的黏著語類型的語言所采用的三種詞干切分方法逐一說明。

    1.1 基于詞干詞典和詞法規(guī)則的方法

    基于詞干詞典和詞法規(guī)則的方法,在所有的黏著語類型的語言中都進行了許多嘗試,2004年古麗拉·阿東別克老師在維吾爾語詞干切分研究中提出了基于規(guī)則的方法,實現(xiàn)了維吾爾語的詞切分算法[3],利用維吾爾語中語音的同化和和諧規(guī)律實現(xiàn)切分。該方法存在的難點是需要收集比較完整的維吾爾語詞干詞典;需要根據(jù)該種語言的語言學規(guī)律設置條件規(guī)則庫,同時語言中又存在規(guī)則無法完全覆蓋到的特例和不規(guī)則變化。2008年米熱古麗·艾力提對維吾爾語詞干切分中存在的元音弱化現(xiàn)象進行了討論,提出元音弱化還原算法有助于提升詞干切分的正確率[4]。阿孜古麗·夏力甫則進一步探討了動詞構形附加成分規(guī)則,在復雜特征理論的基礎上進一步提升了維吾爾語動詞還原效果[5]。

    熱娜·艾爾肯提出利用規(guī)則和詞典相結合的混合處理方法進行形態(tài)還原[6],利用從左到右的分析和Lovin算法實現(xiàn)對詞干的提取,平均正確率為77.4%。早克熱·卡德爾提出維吾爾語詞干提取中使用名詞構形詞綴分析DFA的構造過程[7],利用構形詞綴的規(guī)律性,使用有限狀態(tài)自動機從右到左進行描述,最后對自動機進行方向翻轉和轉換來確定該自動機的操作。史建國提出將詞典和規(guī)則相結合的方法對斯拉夫蒙古文進行切分[8],通過預處理部分蒙古文詞,然后基于詞典切分高頻和部分不符合規(guī)則的詞。最后對剩余的詞,用切分規(guī)則生成多個候選的詞切分方案,然后在這些方案中選出最優(yōu)方案。通過兩種方法的有機結合,發(fā)揮各自的優(yōu)點,得到了性能較好的斯拉夫蒙古文詞切分系統(tǒng)。

    2008年達吾勒·阿布都哈依爾老師在哈薩克語詞干切分任務中提出利用有限狀態(tài)機(FSM)和前后向切分相結合的方法[1],先對待切分單詞使用有限狀態(tài)機進行分析。如果成功則將輸出作為切分結果,否則使用聯(lián)合的改進方法進行切分。相對于最大匹配法,從正確率和切分速度兩方面提高了詞干切分的效果。

    2011年達吾勒·阿布都哈依爾老師又提出了利用詞干詞典和構形附加成分構詞規(guī)則的哈薩克語詞干切分方法[2],構建了6.2萬詞條的詞干詞典和436個構形附加成分構成的規(guī)則庫;采用全切分算法和詞法分析相結合的方式進行詞干切分。該方法首先對待切分單詞利用詞干詞典信息抽取出所有可能的詞干;隨后對對應某一種詞干分離后的詞的其余部分進行基于規(guī)則的分析,利用還原規(guī)則得到各種成分,再將其與規(guī)則庫中的構形附加成分進行匹配,從而確定是否為正確的切分,并將該切分結果作為派生詞放入派生詞表;最后根據(jù)詞干最長、概率最高和整詞輸出作為詞干切分的最終結果輸出。

    1.2 基于監(jiān)督學習的統(tǒng)計方法

    在統(tǒng)計自然語言處理理論的基礎上,哈薩克語還沒有基于統(tǒng)計學習方法的詞干切分方面的研究,漢語的分詞與黏著語類型語言的詞干切分有一定的相似性,同時漢語的分詞技術相對較為成熟,研究的也較為深入,因此基于統(tǒng)計方法的漢語自動分詞技術對哈薩克語的詞干切分在研究中有借鑒意義。第一篇基于字標注的漢語分詞是Xue根據(jù)漢字在詞語中出現(xiàn)的位置將漢字分為4類[9],然后利用最大熵模型標記的方法進行切分;Tseng基于字標注方法采用條件隨機場模型[10];2014年Liu等提出了利用條件隨機場模型分詞系統(tǒng)在擁有自然分詞邊界的網(wǎng)絡文本中使用,從而提高了領域適應性[11]。Zeng X提出了一種基于圖的標記擴展技術[12],構建了一個最近鄰相似圖覆蓋所有已標注的3-gram和擴展句法信息的未標記數(shù)據(jù)即標記分布。派生的標記分布被視為隱含的證明去正則化線性條件隨機場在未標記數(shù)據(jù),最終獲得一個基于字符的聯(lián)合模型。

    而同屬于黏著語類型的蒙古語和維吾爾語提出了基于統(tǒng)計學習方法的相關研究。2009年Aisha B提出利用特征模板和手工標記的基于統(tǒng)計的詞干提取算法[13]。首先以特征模板為基礎使用手工切分的詞庫和最大熵方法學習一個字符轉移模型,用該模型來切分維吾爾語單詞,隨后利用語言知識使用條件隨機場將切分結果映射為詞干、詞綴。該方法需要較大的手工切分詞庫,人工成本較高。

    2011年薛化建基于詞綴庫及維吾爾語構詞結構,提出了規(guī)則與統(tǒng)計相結合的詞干切分方法[14]。該方法對單詞進行規(guī)則切分,采用MAP(最大后驗概率)切分評價模型對基于規(guī)則的切分結果進行賦分,選擇最高分數(shù)的切分結果作為該單詞的切分結果。實驗結果表明,使用該方法進行維吾爾語詞切分具有更高的準確率。2015年賽迪亞古麗·艾尼瓦爾利用維吾爾語構詞規(guī)則、詞性特征和上下文信息[15],提出基于n-gram模型的詞干提取方法,實驗準確率達到96.60%。2009年候宏旭老師和劉群老師在蒙古語詞干切分中提出基于SKIP-N語言模型方法[16]。模型對單詞的上下文信息及詞性信息進行考慮,解決切分規(guī)則中的二義性。首先給出單詞所有可能的切分候選集合,該集合由蒙古語詞切分規(guī)則獲得;然后利用SKIP-N語言模型對候選集合中的切分進行賦分,選取打分最高的切分為結果。

    2010年趙偉提出了基于條件隨機場模型的蒙古語詞干切分系統(tǒng)[17],該方法將蒙古語詞干切分問題描述為序列標注問題,利用多維度特征,使詞干切分的正確率達到了較高的水平。

    2011年姜文斌老師提出了蒙古語有向圖形態(tài)分析器的判別式詞干詞綴切分方法[18],以圖狀結構刻畫句中詞干和詞綴之間的概率關系,從而借助上下文信息為每個單詞確定最佳的切分標注候選。與之前詞干表與附加成分表結合的枚舉方法相比,提出判別式分類的切分方法,對OOV(未登錄詞)的詞干切分具有很好的泛化能力。以20萬詞規(guī)模的三級標注人工語料庫為訓練數(shù)據(jù),采用判別式詞干詞綴切分的有向圖形態(tài)分析器,對于含有未登錄詞干的情形,詞級切分標注正確率提高了7個百分點。2011年李文提出基于短語的統(tǒng)計機器翻譯形態(tài)蒙文切分模型和最小上下文構成代價模型分別對詞表詞和未登錄詞進行形態(tài)切分[19]。前者選取了短語機器翻譯系統(tǒng)中三個常用的模型,包括短語翻譯模型、詞匯化翻譯模型和語言模型,最小上下文構成代價模型考慮了一元詞素上下文環(huán)境和詞綴N-gram上下文環(huán)境。實驗結果顯示基于短語統(tǒng)計機器翻譯形態(tài)切分模型對詞表詞切分,最小上下文構成代價模型對未登錄詞處理后,總體的切分準確率達到96.94%。

    2016年Manaal Faruqui等提出基于圖模型的半監(jiān)督學習方法[20],利用詞之間的句法和語義關系,從小的種子詞匯集自動構建廣泛覆蓋的詞典,這個詞典提供了形態(tài)標簽和依存句法分析功能。這種半監(jiān)督學習方法是不依賴于語言的,在作為黏著語類型的芬蘭語和匈牙利語的實驗中,芬蘭語的F1值為71.9%,匈牙利語的F1值為79.7%。

    有監(jiān)督的統(tǒng)計學習方法具有以下優(yōu)點:(1)基于堅實的數(shù)學理論,提出了有效的消歧方法;(2)充分利用語料庫知識,提供更多基于統(tǒng)計的實例化模型;(3)基于訓練語料,可以學習到有效的語言學規(guī)律;(4)具有一致性、健壯性好的特點。能夠處理OOV(未登錄詞)以及不規(guī)則詞形變化等問題。其中基于最大熵和基于條件隨機場的方法將詞干切分看作是序列化標注問題,能夠加入更多語言本身所具有的特征,體現(xiàn)不同構形成分之間的不同,有利于詞干切分正確率的提升。

    1.3 基于無監(jiān)督學習的統(tǒng)計方法

    2002年Mathias Creutz,Krista Lagus提出了基于無監(jiān)督的方法構建詞干切分模型[21],首先利用最小描述長度方法(minimum description length,MDL)獲得詞干切分模型,然后利用極大似然方法(maximum likelihood,ML)優(yōu)化詞干切分模型對目標語言的切分,得到基于統(tǒng)計獲得的類似于詞干和附加成分的子詞。并基于此開發(fā)了基于數(shù)據(jù)驅動的Morfessor開源工具。Morfessor的MDL切分同時很好地處理了切分歧義和OOV切分問題。

    基于無監(jiān)督學習的統(tǒng)計方法的不足之處是由于黏著語具有形態(tài)豐富,詞綴數(shù)量大和詞綴有層疊現(xiàn)象,導致無監(jiān)督學習方法切分精度較低,無法滿足實際需要。

    1.4 小 結

    通過以上基于詞典和詞干切分規(guī)則的方法、有監(jiān)督的統(tǒng)計方法和無監(jiān)督統(tǒng)計方法這三種詞干切分方法的比較,可以看出每種方法都有各自的特點。第一種方法對人工的依賴較大,同時由于詞干切分存在歧義和兼類現(xiàn)象,所以基于切分規(guī)則的方法很難正確的切分。無監(jiān)督的統(tǒng)計方法具有語言無關性,不需要標注語料等優(yōu)點,但因為黏著語具有形態(tài)豐富,詞綴數(shù)量大和詞綴有層疊現(xiàn)象,導致無監(jiān)督方法切分精度較低,無法滿足實際需要。

    因此為了減少對人工因素的依賴,利用已有的標注語料,同時結合蒙古和維吾爾文基于統(tǒng)計的詞干切分方法分析,文中提出了一種哈薩克語詞干切分的基于統(tǒng)計學習的方法。

    2 基于統(tǒng)計學習的哈薩克語詞干切分

    2.1 問題描述

    詞干切分的問題可形式化描述為序列標注問題?;诮y(tǒng)計學習的哈薩克語詞干切分方法,將每個單詞作為字符串序列進行按字符標注,從而得到標注序列,這一標注序列對應該單詞的一個詞干切分。為方便統(tǒng)計學習方法處理,將哈薩克語轉換為標準化哈薩克語拉丁字符表示。

    例如:哈薩克語單詞“merekedeg1”(節(jié)日中的),“mereke”為名詞詞性的詞干,“deg1”是一個構形附加成分,則單詞“merekedeg1”的一個詞干切分所對應的標注序列就是“SBSISISISISEBIIE”,其中標記“SB”表示詞干的首字母標識,“SI”表示詞干的除首尾以外的其他字母標識,“SE”表示詞干的尾字母標識,“B”表示構形附加成分的首字母標識,“E”表示構形附加成分的尾字母標識,標記“I”表示構形附加成分中除首尾以外的其他字母的標識。

    文中對哈薩克語已標注好的語料,分別用最大熵模型和條件隨機場模型對哈薩克語單詞中每個字符進行標注。設m個字符組成的輸入單詞用W=c1c2…cm表示,目標是輸出一個相應的標識序列,用T=t1t2…tm表示,則求解該單詞所有可能的標識序列中最大概率值的序列值。

    2.2 最大熵模型

    最大熵模型(maximum entropy,ME)建立在最大熵理論基礎之上,在序列標注問題中,設訓練集樣本用(x,y)表示,其中x表示單詞字符序列信息的上下文,y表示字符序列標注結果,根據(jù)已知的樣本集合構建一個在已知上下文條件下,能夠準確預測未知標注結果y的概率統(tǒng)計模型p(y|x)。這一模型獲得的概率分布應與訓練集語料的經(jīng)驗分布相符。最大熵原理說明,在滿足已知約束的情況下,x,y的正確分布信息熵最大。按照這一原理構建的模型即為最大熵模型,形式化為:

    (1)

    (2)

    通過式(1)可知,對p(y|x)概率的求解是通過對特征參數(shù)λi的求解來實現(xiàn),一般采用迭代算法GIS和IIS。

    2.3 條件隨機場模型

    條件隨機場模型(conditional random fields,CRFs)是常用于序列標注任務的概率模型。在中文分詞、命名實體識別、詞性標注等任務中取得了不錯的效果。與隱馬爾可夫(HMMs)模型相比,它不需要嚴格獨立性假設,并可以很好地表示交叉特征和長距離依賴關系,還很好地解決了最大熵隱馬爾可夫(MEMMs)模型標注偏置問題。對于序列標注任務常用的是鏈式CRFs模型,對于輸入序列x,對應標注序列的y的條件概率為:

    (3)

    (4)

    其中,fk(c,yc,x)是一個布爾型的特征函數(shù),Z(x)是一個歸一化因子。

    運用維特比算法,在給定一個輸入序列x的條件下,可求解出觀測序列最大化條件概率的標注序列:

    (5)

    2.4 數(shù)據(jù)預處理

    哈薩克語中的某些單詞在構形過程中存在有形變現(xiàn)象,即詞干或構形附加成分綴接其他構形附加成分時會發(fā)生其中字符的變化。如“qep”是“干”這一單詞的詞干原形,“ip”是一個構形附加成分,當“qep”詞干后綴接構形附加成分“ip”時,“qep”會發(fā)生形變變成“qew”。所以“qep”和“ip”組成詞的形式就是“qewip”。訓練語料庫中“qewip”對應的切分是“qew”和“ip”,而不是“qep”和“ip”。而在統(tǒng)計學習方法中,輸入序列x與標注序列y一一對應。在訓練語料中,如果詞干和構形附加成分都是原型形式,則由于單詞中存在的形變,對單詞進行切分時就無法識別已經(jīng)形變的詞干與構形附加成分,從而無法獲得正確的切分結果。

    因此為了正確切分,需要將訓練語料中處于原型的詞干和構形附加成分對應轉換為變形形式。同樣在切分后,需要將變形形式的詞干和構形附加成分還原為原型形式。文中構建了50多條變形和還原規(guī)則,對數(shù)據(jù)進行互為逆的操作處理。

    2.5 哈薩克語詞的標注方法

    選擇一種合適的標注方式有助于序列標注任務的研究。結合其他文獻的標注方式和哈薩克語構詞特點,文中提出了一種標注方法。對單詞的詞干部分和構形附加成分部分采用不同的前中后標記模式。這樣可以使統(tǒng)計學習方法在訓練過程中針對詞干和構形附加成分學習到有針對性的信息,從而提高詞干切分性能。

    文中使用的標注集“SBSISEBIE”如表1所示。實驗結果表明,在特征函數(shù)不變的條件下,區(qū)分詞干和構形附加成分的標注集比不區(qū)分的標注集在切分準確率上有顯著提升。

    表1 “SBSISEBIE”標記集

    例如在前文中提到的“merekedeg1”對應的不區(qū)分詞干和詞綴的標注序列是“BIIIIIBIII”,而如果使用有區(qū)分的表1標記集,“merekedeg1”這個單詞對應的標注序列就是“SBSISISISISEBIIE”,詞切分系統(tǒng)從標注形式上就可以區(qū)別詞干和構形附加成分。

    2.6 特征函數(shù)的選擇

    對于統(tǒng)計學習方法最大熵模型和條件隨機場模型,特征函數(shù)的選擇至關重要。特征函數(shù)反映訓練語料包含的統(tǒng)計規(guī)律,而合適的特征函數(shù)可以很好地表示這些統(tǒng)計規(guī)律。

    哈薩克語中構形附加成分表現(xiàn)為若干字符相連的固定形式,從統(tǒng)計的角度觀察,這些構形附加成分的固定搭配形式在訓練集中出現(xiàn)頻率較高。為了提取出這些固定搭配的相鄰位置關系信息,構建具有相鄰關系的特征函數(shù)。例如在特征函數(shù)中定義當前字母用C0表示,當前字母的前一個字母用C-1表示,當前字母的后一個字母用C1表示。從而構建特征函數(shù)C-1C0C1來表示當前字母與前一個字母和后一個字母的位置關系。例如在單詞“merekedeg1”中,選取當前字母為“k”,則特征函數(shù)C-1C0C1提取出特征“eke”。

    在哈薩克語的構詞規(guī)則中,某些構形附加成分與另一部分構形附加成分之間存在依賴關系,即一類構形附加成分的出現(xiàn)會對另一類附加成分的出現(xiàn)起到約束作用,表現(xiàn)為遠距離依賴關系。這時設置間隔字符位置關系的特征函數(shù)來提取這一類特征。例如:特征函數(shù)C-4C-3C3C4,表示當前字母左側和右側第3和第4個位置上字符之間的關系特征。

    窗口長度表示一個特征函數(shù)包含的字符個數(shù),通過實驗結果觀察,選擇適合哈薩克語詞干切分的相應窗口大小。表2列出了文中用到的部分特征函數(shù)的表示。

    表2 特征函數(shù)與單詞中字母對應關系

    2.7 后處理

    文中構建了包含436個哈薩克語構形附加成分的詞典庫,用于監(jiān)督詞干切分系統(tǒng)可能對構形附加成分的錯誤識別。通過切分結果中的構形附加成分與該詞典庫中條目進行比對,確定是否正確切分。對切分系統(tǒng)按照p(y|x)概率大小給出的n-best結果,依次重復比對過程,選擇n-best結果中第一個與詞典庫對應匹配成功的切分結果為最終輸出結果。

    3 實 驗

    實驗中的訓練語料為2008年新疆日報(哈文版),其中包含10萬個哈薩克語句子,約有100萬哈薩克語詞。同時使用2009年新疆日報(哈文版)和人民網(wǎng)(哈文版)的500個哈薩克語句子作為測試集,并人工編寫了對應的標準切分結果。分別使用張樂博士的maxent-master實現(xiàn)最大熵模型和Taku Kudo開源工具CRF++根據(jù)需要進行修改實現(xiàn)的條件隨機場模型。

    3.1 實驗步驟和評價指標

    文中用不同的標注集對訓練集已切分語料進行標注,實驗比較了不同標注集對詞干切分效果的影響。顆粒度最大的是不區(qū)分詞干和構形附加成分的BI標注集,顆粒度最小的是區(qū)分詞干和構形附加成分的SBSISEBIE標記集。對最大熵模型和條件隨機場模型實驗對比了顆粒度最小的SBSISEBIE標記集,也在該標注集上測試了不同窗口大小對詞干切分準確率的影響。采用了在序列標注任務中經(jīng)常使用的準確率指標,定義如下:

    (6)

    其中,切分的單元為詞干或構形附加成分。

    3.2 實驗結果對比和分析

    在統(tǒng)一窗口大小為4的情況下,給出不同標注集的開放測試實驗結果,如表3所示。

    表3 不同標記集在開放測試的實驗結果對比

    通過表3可以看出,選擇顆粒庫越小的標注集,切分結果越準確。區(qū)分詞干和構形附加成分的標注集比不區(qū)分詞干和構形附加成分的標注集有2個百分點左右的提升。文中在統(tǒng)計學習方法的實驗中統(tǒng)一使用顆粒度小的區(qū)分詞干和構形附加成分的標注集。

    表4 在不同窗口長度的實驗結果對比

    表4是在使用SBSISEBIE標記集的條件下,不同窗口長度的基于詞典和規(guī)則方法、最大熵方法和條件隨機場方法的詞干切分實驗結果對比。在這里需要說明的是,文獻[1-2]的測試環(huán)境由于無法獲得,因此第一種基于規(guī)則的方法和后兩種基于統(tǒng)計學習方法的測試環(huán)境存在一定的差別,此處的數(shù)值比較只能作為參考。從實驗結果可以看出,文中的最大熵方法和條件隨機場方法在詞切分準確率上比基于詞典和規(guī)則的方法有顯著的提升,其中條件隨機場模型有了15%的性能提升?;诮y(tǒng)計學習方法的哈薩克語詞干切分方法顯示出了很好的性能,在窗口長度從1到4的對比可以看到字符串的上下文信息對詞干切分的影響顯著。

    特征函數(shù)的窗口長度越長,特征集中所包含的上下文信息越多,但同時隨著窗口長度的增加數(shù)據(jù)稀疏問題就會越顯著。模型的訓練時間開銷和生成的模型文件的規(guī)模也會隨著窗口長度的增加而成倍增加。綜合考慮窗口大小和時間空間開銷,認為窗口大小為4是對哈薩克語統(tǒng)計學習方法詞干切分比較適合的選擇。

    通過對詞干切分實驗結果的分析,發(fā)現(xiàn)對于哈薩克語單詞中單個構形附加成分組成的單詞切分準確率較高,但對由多個構形附加成分構成的識別準確率較低。這可能是在詞中以字符為單位的字符上下文信息較少導致切分系統(tǒng)沒有足夠的信息做出正確判斷造成的。對于這種類型的問題可能的解決方法是加入單詞所在句子的上下文信息和該單詞的詞性信息進行判斷。同時根據(jù)單詞所處句子的上下文信息不同,存在兩種或兩種以上的切分形式,切分系統(tǒng)給出的都是正確的切分形式,但在當前的句子上下文環(huán)境中可能是錯誤的。解決這類歧義問題的方法就是引入更多以詞為單位的上下文信息。這兩類錯誤切分在文中所提到的以字符為單位的模型中無法完全解決。

    4 結束語

    哈薩克語詞干切分問題在統(tǒng)計學習方法中屬于序列標注任務的一種,通過分析哈薩克語單詞構形上的特點,提出了一種基于統(tǒng)計學習方法的區(qū)分詞干和構形附加成分的標注方法,其次利用機器學習方法中的最大熵模型和條件隨機場模型對轉化為序列化標注問題的哈薩克語詞干進行切分,實驗對比結果表明基于機器學習的方法能夠提高哈薩克語詞干切分的性能。

    文中使用的哈薩克語詞干切分方法主要以字符為單位,考慮了單詞中字符之間的上下文信息,但沒有加入單詞所在的句子上下文信息和單詞的詞性信息。同時在實際語言環(huán)境中,哈薩克語單詞會根據(jù)上下文語境的不同采用不同的切分方法。同時隨著神經(jīng)網(wǎng)絡的興起,在下一步的研究中會嘗試使用深度學習神經(jīng)網(wǎng)絡方法和加入以詞為單位的句子上下文信息和單詞詞性信息,來進一步提高哈薩克語單詞的詞干切分正確率,降低歧義性。同時利用詞干切分的結果來影響詞性標注的效果,從而進一步在哈薩克語詞法分析應用中利用已取得的經(jīng)驗。

    猜你喜歡
    詞干哈薩克語特征函數(shù)
    亞純函數(shù)的Borel方向與Tsuji特征函數(shù)
    隨機變量的特征函數(shù)在概率論中的應用
    黑龍江科學(2020年5期)2020-04-13 09:14:04
    論柯爾克孜語詞干提取方法
    維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
    特征函數(shù)的性質在實變函數(shù)中的應用
    特征函數(shù)在伽瑪分布中一個恒等式的證明及推廣
    哈薩克語附加成分-A
    融合多策略的維吾爾語詞干提取方法
    基于維吾爾語詞干詞綴粒度的漢維機器翻譯
    哈薩克語比喻及其文化特征
    語言與翻譯(2014年2期)2014-07-12 15:49:28
    看片在线看免费视频| 18禁黄网站禁片午夜丰满| 亚洲人成网站在线播放欧美日韩| 国产片内射在线| aaaaa片日本免费| bbb黄色大片| 久久久久九九精品影院| 国产精品自产拍在线观看55亚洲| 亚洲熟妇熟女久久| 黄色视频不卡| 欧美日本亚洲视频在线播放| 亚洲成人免费av在线播放| 在线观看免费视频日本深夜| 一二三四在线观看免费中文在| 欧美最黄视频在线播放免费 | 日本wwww免费看| 99久久国产精品久久久| 一边摸一边抽搐一进一小说| 亚洲精品美女久久av网站| 亚洲激情在线av| 午夜视频精品福利| 亚洲熟女毛片儿| 女同久久另类99精品国产91| 777久久人妻少妇嫩草av网站| 一本大道久久a久久精品| 欧美乱色亚洲激情| 超碰成人久久| 色婷婷久久久亚洲欧美| 757午夜福利合集在线观看| 在线观看66精品国产| 夜夜看夜夜爽夜夜摸 | 午夜福利一区二区在线看| 亚洲精品国产色婷婷电影| 免费av中文字幕在线| 最近最新中文字幕大全电影3 | 少妇粗大呻吟视频| av视频免费观看在线观看| 国产av精品麻豆| 日日干狠狠操夜夜爽| 国产精品久久久久久人妻精品电影| 国产伦人伦偷精品视频| 日韩三级视频一区二区三区| 男女之事视频高清在线观看| 90打野战视频偷拍视频| 最近最新中文字幕大全免费视频| 日韩高清综合在线| 99久久国产精品久久久| 校园春色视频在线观看| 国产熟女xx| 天堂俺去俺来也www色官网| 国产精品久久久av美女十八| 亚洲精品美女久久久久99蜜臀| 国产精品久久久久久人妻精品电影| 黄色片一级片一级黄色片| 中出人妻视频一区二区| 中文字幕高清在线视频| 免费在线观看影片大全网站| 亚洲成人精品中文字幕电影 | 午夜福利在线观看吧| 亚洲免费av在线视频| 免费一级毛片在线播放高清视频 | 国产av精品麻豆| 午夜亚洲福利在线播放| 99国产综合亚洲精品| 日韩欧美免费精品| 欧美在线一区亚洲| 成人亚洲精品av一区二区 | 亚洲男人天堂网一区| 欧美日本中文国产一区发布| 啪啪无遮挡十八禁网站| 欧美色视频一区免费| 老司机午夜福利在线观看视频| 成熟少妇高潮喷水视频| netflix在线观看网站| 热re99久久精品国产66热6| 国产一区在线观看成人免费| 国产精品一区二区三区四区久久 | 一级毛片女人18水好多| 看黄色毛片网站| 亚洲一区中文字幕在线| 亚洲欧美日韩另类电影网站| 国产男靠女视频免费网站| 不卡一级毛片| 色老头精品视频在线观看| 国产精品久久久久成人av| 欧美人与性动交α欧美软件| 高清欧美精品videossex| 欧美不卡视频在线免费观看 | 国产免费av片在线观看野外av| 五月开心婷婷网| 18美女黄网站色大片免费观看| 欧美色视频一区免费| 最新在线观看一区二区三区| 亚洲精品国产一区二区精华液| 9色porny在线观看| 亚洲精品av麻豆狂野| 亚洲一区二区三区不卡视频| 亚洲专区国产一区二区| 国产精品亚洲一级av第二区| 亚洲 国产 在线| 国产xxxxx性猛交| 午夜福利,免费看| 黑丝袜美女国产一区| 高清黄色对白视频在线免费看| 国产精品偷伦视频观看了| 午夜老司机福利片| 级片在线观看| 亚洲欧美一区二区三区久久| 搡老熟女国产l中国老女人| 男女下面插进去视频免费观看| 精品久久久久久久毛片微露脸| 色精品久久人妻99蜜桃| 日本撒尿小便嘘嘘汇集6| 国产精品一区二区在线不卡| www日本在线高清视频| 欧美乱色亚洲激情| 超碰成人久久| 欧美人与性动交α欧美软件| 国产精品一区二区精品视频观看| 午夜视频精品福利| 亚洲欧美日韩无卡精品| 男女下面进入的视频免费午夜 | 真人一进一出gif抽搐免费| 夜夜夜夜夜久久久久| 精品第一国产精品| 黄色毛片三级朝国网站| 侵犯人妻中文字幕一二三四区| 久久久久亚洲av毛片大全| 久久中文看片网| 一区二区三区精品91| 丁香六月欧美| 久久精品aⅴ一区二区三区四区| 午夜福利在线观看吧| 人妻丰满熟妇av一区二区三区| 好男人电影高清在线观看| 久久人妻熟女aⅴ| 成人18禁在线播放| 黑人巨大精品欧美一区二区蜜桃| 亚洲国产欧美一区二区综合| 久久久久久久久中文| 日本欧美视频一区| 久9热在线精品视频| 精品卡一卡二卡四卡免费| 欧美在线黄色| 欧美人与性动交α欧美精品济南到| 丝袜美足系列| 国产精品香港三级国产av潘金莲| 视频区图区小说| 日韩国内少妇激情av| 91麻豆精品激情在线观看国产 | 国产又爽黄色视频| 真人一进一出gif抽搐免费| 精品卡一卡二卡四卡免费| 精品一区二区三卡| 精品熟女少妇八av免费久了| 欧美不卡视频在线免费观看 | 国产精品久久久久成人av| 国产免费av片在线观看野外av| 真人一进一出gif抽搐免费| 欧美日韩国产mv在线观看视频| 在线观看免费视频网站a站| 青草久久国产| 欧美性长视频在线观看| 国产午夜精品久久久久久| 性欧美人与动物交配| 国产精品一区二区精品视频观看| 天天添夜夜摸| 久久人妻av系列| 99国产极品粉嫩在线观看| 久久久久久久精品吃奶| 国产成人精品久久二区二区免费| 欧美激情 高清一区二区三区| 精品熟女少妇八av免费久了| 国产亚洲精品一区二区www| 巨乳人妻的诱惑在线观看| 丝袜人妻中文字幕| 日韩免费高清中文字幕av| 日韩欧美一区二区三区在线观看| 久久久久久亚洲精品国产蜜桃av| 超碰97精品在线观看| 丝袜美腿诱惑在线| 亚洲欧洲精品一区二区精品久久久| 男人舔女人的私密视频| 99riav亚洲国产免费| 黑人欧美特级aaaaaa片| 又紧又爽又黄一区二区| 久久人人97超碰香蕉20202| 久久伊人香网站| 精品国内亚洲2022精品成人| 在线观看66精品国产| 女人高潮潮喷娇喘18禁视频| 美女高潮到喷水免费观看| 日本a在线网址| 国产国语露脸激情在线看| 可以免费在线观看a视频的电影网站| 午夜免费鲁丝| 手机成人av网站| 欧美日韩精品网址| 手机成人av网站| 日韩成人在线观看一区二区三区| 啦啦啦 在线观看视频| 久久精品91无色码中文字幕| 国产精品久久电影中文字幕| 妹子高潮喷水视频| 亚洲精品一二三| 国产av又大| 国产精品久久久久成人av| 欧美黑人欧美精品刺激| 国产成人啪精品午夜网站| 18禁观看日本| 国产精华一区二区三区| 欧美精品亚洲一区二区| 免费观看人在逋| 精品久久久久久久久久免费视频 | 亚洲aⅴ乱码一区二区在线播放 | 色精品久久人妻99蜜桃| 高清欧美精品videossex| 亚洲成av片中文字幕在线观看| 中文字幕色久视频| 人人妻,人人澡人人爽秒播| 免费看十八禁软件| 不卡av一区二区三区| 长腿黑丝高跟| 最近最新中文字幕大全电影3 | 久久久久国产精品人妻aⅴ院| 亚洲精品美女久久久久99蜜臀| 色综合欧美亚洲国产小说| 纯流量卡能插随身wifi吗| 久久亚洲真实| 亚洲va日本ⅴa欧美va伊人久久| 亚洲精品美女久久久久99蜜臀| 人妻久久中文字幕网| 午夜精品国产一区二区电影| 男人的好看免费观看在线视频 | 两性夫妻黄色片| 免费日韩欧美在线观看| 五月开心婷婷网| 国产高清videossex| 日本五十路高清| 在线观看免费日韩欧美大片| 欧美日韩精品网址| 性色av乱码一区二区三区2| 淫妇啪啪啪对白视频| 国产真人三级小视频在线观看| 99在线视频只有这里精品首页| 曰老女人黄片| 中文字幕另类日韩欧美亚洲嫩草| 日韩大尺度精品在线看网址 | 久久99一区二区三区| 丁香六月欧美| 国产一区二区三区综合在线观看| 久久午夜综合久久蜜桃| 欧美黑人精品巨大| 99久久综合精品五月天人人| 高清欧美精品videossex| 又黄又爽又免费观看的视频| 怎么达到女性高潮| 国产乱人伦免费视频| av视频免费观看在线观看| 中文字幕人妻丝袜制服| 别揉我奶头~嗯~啊~动态视频| 制服人妻中文乱码| 日韩中文字幕欧美一区二区| 99热只有精品国产| a在线观看视频网站| 丰满迷人的少妇在线观看| 日韩中文字幕欧美一区二区| 国产欧美日韩一区二区三| 99riav亚洲国产免费| 国产在线精品亚洲第一网站| 免费在线观看影片大全网站| 人人妻人人爽人人添夜夜欢视频| 国产精华一区二区三区| xxx96com| 欧美+亚洲+日韩+国产| 国产亚洲精品久久久久5区| 成人三级做爰电影| 9热在线视频观看99| 久久久久久大精品| 国产成人免费无遮挡视频| 国产高清激情床上av| 亚洲免费av在线视频| 精品电影一区二区在线| 国产熟女午夜一区二区三区| 国产一区二区三区视频了| 免费人成视频x8x8入口观看| 岛国在线观看网站| а√天堂www在线а√下载| 亚洲av成人一区二区三| 久久久久久久午夜电影 | 久热这里只有精品99| 国产单亲对白刺激| 精品人妻1区二区| 在线观看免费午夜福利视频| 麻豆久久精品国产亚洲av | 欧美+亚洲+日韩+国产| 久久午夜亚洲精品久久| 亚洲人成网站在线播放欧美日韩| 亚洲一区二区三区欧美精品| 超碰成人久久| 丝袜美腿诱惑在线| 中文字幕av电影在线播放| 亚洲av美国av| 国产精品一区二区免费欧美| 亚洲,欧美精品.| 亚洲男人的天堂狠狠| 在线视频色国产色| 国产单亲对白刺激| 一级a爱片免费观看的视频| 很黄的视频免费| 日本免费一区二区三区高清不卡 | 亚洲精品久久午夜乱码| 深夜精品福利| 91老司机精品| 88av欧美| 一级毛片女人18水好多| 啦啦啦 在线观看视频| 在线观看一区二区三区激情| 精品久久久久久电影网| 国产精品98久久久久久宅男小说| av视频免费观看在线观看| 少妇粗大呻吟视频| 免费在线观看完整版高清| 精品福利永久在线观看| 亚洲 欧美一区二区三区| 波多野结衣av一区二区av| 在线观看午夜福利视频| 自拍欧美九色日韩亚洲蝌蚪91| a级毛片黄视频| 18禁国产床啪视频网站| 国产成人精品久久二区二区91| 最近最新中文字幕大全电影3 | 成在线人永久免费视频| 少妇的丰满在线观看| 国产精品一区二区精品视频观看| 亚洲熟妇中文字幕五十中出 | 免费看a级黄色片| 午夜福利在线观看吧| 人人妻人人添人人爽欧美一区卜| 美女午夜性视频免费| 在线观看免费日韩欧美大片| 久久久久久久久中文| 亚洲国产看品久久| 后天国语完整版免费观看| 国产精品久久久久成人av| 国产精品免费一区二区三区在线| 制服诱惑二区| 亚洲av五月六月丁香网| 19禁男女啪啪无遮挡网站| 婷婷丁香在线五月| 国产视频一区二区在线看| 美女高潮到喷水免费观看| 精品久久久久久电影网| 亚洲一区中文字幕在线| 亚洲激情在线av| 女警被强在线播放| 亚洲自偷自拍图片 自拍| 亚洲第一青青草原| e午夜精品久久久久久久| 亚洲欧美激情在线| 51午夜福利影视在线观看| 91老司机精品| 啦啦啦免费观看视频1| 国产av又大| 手机成人av网站| 久久久久久大精品| 国产精品一区二区在线不卡| 亚洲成人免费av在线播放| 国产精品成人在线| 欧美精品啪啪一区二区三区| 老汉色av国产亚洲站长工具| 欧美成人免费av一区二区三区| 身体一侧抽搐| 母亲3免费完整高清在线观看| 丝袜美足系列| 国产精品一区二区三区四区久久 | 久久国产精品影院| 国产精品自产拍在线观看55亚洲| 免费久久久久久久精品成人欧美视频| 午夜视频精品福利| 亚洲精品中文字幕一二三四区| 一级毛片精品| 亚洲成人国产一区在线观看| 久久香蕉激情| www日本在线高清视频| 亚洲av电影在线进入| 亚洲欧洲精品一区二区精品久久久| 婷婷精品国产亚洲av在线| 久久香蕉激情| 水蜜桃什么品种好| а√天堂www在线а√下载| 午夜福利影视在线免费观看| 精品久久久久久久毛片微露脸| 日韩大尺度精品在线看网址 | 亚洲七黄色美女视频| 欧美乱色亚洲激情| 淫秽高清视频在线观看| 丁香六月欧美| 宅男免费午夜| √禁漫天堂资源中文www| 亚洲全国av大片| 久久久久国内视频| 国产成+人综合+亚洲专区| 国产亚洲欧美在线一区二区| 自拍欧美九色日韩亚洲蝌蚪91| 精品一区二区三区视频在线观看免费 | 丰满饥渴人妻一区二区三| 久久精品国产亚洲av高清一级| 一级毛片女人18水好多| 午夜福利一区二区在线看| 十分钟在线观看高清视频www| 国产一区二区三区视频了| 啪啪无遮挡十八禁网站| 在线观看舔阴道视频| 欧美日本中文国产一区发布| 国产精品永久免费网站| 午夜影院日韩av| 久99久视频精品免费| 国产亚洲精品久久久久久毛片| 日本a在线网址| 看黄色毛片网站| 美女高潮喷水抽搐中文字幕| 国产高清videossex| 深夜精品福利| 亚洲国产欧美网| 男女之事视频高清在线观看| 亚洲色图av天堂| 嫁个100分男人电影在线观看| 老汉色∧v一级毛片| 99热国产这里只有精品6| av天堂在线播放| www国产在线视频色| 久久精品aⅴ一区二区三区四区| 久久午夜综合久久蜜桃| 国产一区二区激情短视频| 咕卡用的链子| 一级片免费观看大全| 国产亚洲精品久久久久久毛片| 国产欧美日韩一区二区精品| 涩涩av久久男人的天堂| 国产成人啪精品午夜网站| 欧美激情 高清一区二区三区| 脱女人内裤的视频| 欧美激情高清一区二区三区| 国产精品一区二区精品视频观看| 老司机亚洲免费影院| 欧美成人性av电影在线观看| 一边摸一边做爽爽视频免费| 欧美日韩一级在线毛片| 久久人人精品亚洲av| 国产激情久久老熟女| 亚洲成人国产一区在线观看| 一区二区三区国产精品乱码| 高清黄色对白视频在线免费看| 亚洲精品成人av观看孕妇| 男人操女人黄网站| 国产亚洲精品第一综合不卡| 国产精品 欧美亚洲| www.999成人在线观看| netflix在线观看网站| 高清黄色对白视频在线免费看| 亚洲人成网站在线播放欧美日韩| 黄色片一级片一级黄色片| 在线观看一区二区三区激情| 丰满迷人的少妇在线观看| 琪琪午夜伦伦电影理论片6080| 国产免费男女视频| 亚洲在线自拍视频| 国产精品av久久久久免费| 曰老女人黄片| 欧美色视频一区免费| 新久久久久国产一级毛片| 国产亚洲欧美精品永久| 免费在线观看完整版高清| 色综合婷婷激情| 久久99一区二区三区| 天堂俺去俺来也www色官网| 国产成人av教育| 免费少妇av软件| 久久人妻av系列| 国产成人精品在线电影| 777久久人妻少妇嫩草av网站| 欧美日韩视频精品一区| 精品久久久久久,| 正在播放国产对白刺激| 国产成人精品在线电影| 水蜜桃什么品种好| 久99久视频精品免费| 天天影视国产精品| 精品一区二区三区av网在线观看| 欧美日韩亚洲综合一区二区三区_| 国产精品1区2区在线观看.| 欧美色视频一区免费| 波多野结衣av一区二区av| 级片在线观看| 精品久久久久久久毛片微露脸| 9热在线视频观看99| 男人操女人黄网站| 丁香欧美五月| 午夜免费鲁丝| 中文字幕人妻丝袜制服| 日本黄色视频三级网站网址| 亚洲成a人片在线一区二区| 少妇被粗大的猛进出69影院| 真人做人爱边吃奶动态| 久久亚洲真实| 91字幕亚洲| 久久久国产一区二区| 天堂√8在线中文| 99国产精品一区二区三区| 亚洲五月婷婷丁香| 欧美日本亚洲视频在线播放| 久久影院123| 国产精品自产拍在线观看55亚洲| 亚洲精品成人av观看孕妇| 国产精品秋霞免费鲁丝片| 男女做爰动态图高潮gif福利片 | 日韩精品中文字幕看吧| 国产熟女午夜一区二区三区| 国产一区在线观看成人免费| 脱女人内裤的视频| cao死你这个sao货| 三上悠亚av全集在线观看| 成熟少妇高潮喷水视频| 19禁男女啪啪无遮挡网站| 亚洲一区中文字幕在线| 久久精品成人免费网站| 黄网站色视频无遮挡免费观看| 亚洲国产精品一区二区三区在线| 中文欧美无线码| 在线观看66精品国产| 高清毛片免费观看视频网站 | 亚洲成人精品中文字幕电影 | 岛国在线观看网站| 免费搜索国产男女视频| 777久久人妻少妇嫩草av网站| 午夜福利在线观看吧| 亚洲熟女毛片儿| 男人操女人黄网站| 韩国精品一区二区三区| e午夜精品久久久久久久| 国产精品久久久av美女十八| 自拍欧美九色日韩亚洲蝌蚪91| 精品一品国产午夜福利视频| 国产片内射在线| 88av欧美| 久久 成人 亚洲| 99国产综合亚洲精品| 欧美 亚洲 国产 日韩一| 久久久久久久久久久久大奶| 国产视频一区二区在线看| 制服诱惑二区| 18禁观看日本| 国产精品亚洲av一区麻豆| 国产一区在线观看成人免费| 国产精品永久免费网站| 欧美黄色片欧美黄色片| 久久人人爽av亚洲精品天堂| 欧美日本中文国产一区发布| 国产1区2区3区精品| 黄色视频,在线免费观看| 欧美性长视频在线观看| av网站免费在线观看视频| 亚洲精品一卡2卡三卡4卡5卡| 男人的好看免费观看在线视频 | 琪琪午夜伦伦电影理论片6080| 国产伦一二天堂av在线观看| 国产精品久久久久久人妻精品电影| 一边摸一边做爽爽视频免费| 国产熟女午夜一区二区三区| 精品人妻1区二区| 国产97色在线日韩免费| 国产精品久久久av美女十八| 熟女少妇亚洲综合色aaa.| 日韩欧美一区二区三区在线观看| 国产高清videossex| 深夜精品福利| 中文字幕av电影在线播放| 国产精品av久久久久免费| 亚洲一区中文字幕在线| 这个男人来自地球电影免费观看| 亚洲人成网站在线播放欧美日韩| 久久午夜亚洲精品久久| 精品电影一区二区在线| 久久久久久亚洲精品国产蜜桃av| 在线观看一区二区三区| 国产在线精品亚洲第一网站| 久久久国产精品麻豆| 欧美人与性动交α欧美软件| 色精品久久人妻99蜜桃| 丝袜在线中文字幕| av片东京热男人的天堂| 国产av一区二区精品久久| 怎么达到女性高潮| 亚洲九九香蕉| 麻豆成人av在线观看| 在线观看免费午夜福利视频| 久久精品亚洲熟妇少妇任你| 宅男免费午夜| 日日摸夜夜添夜夜添小说| 欧美在线一区亚洲| 纯流量卡能插随身wifi吗| 老司机福利观看| www.999成人在线观看| netflix在线观看网站| 国产精品久久久久久人妻精品电影| 九色亚洲精品在线播放| 欧美乱妇无乱码| 欧美av亚洲av综合av国产av| 久久国产精品人妻蜜桃| 国产av精品麻豆| 天堂俺去俺来也www色官网| 夜夜夜夜夜久久久久| 国产精品免费一区二区三区在线| 看黄色毛片网站|