• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于排序集成的哈薩克語固定短語抽取

    2014-09-12 11:17:14桑海巖古麗拉阿東別克孫瑞娜陳莉
    計算機工程與應(yīng)用 2014年21期
    關(guān)鍵詞:詞串互信息語料庫

    桑海巖,古麗拉·阿東別克,孫瑞娜,陳莉

    1.新疆大學信息科學與工程學院,烏魯木齊 830046

    2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語文基地,烏魯木齊 830046

    3.新疆財經(jīng)大學統(tǒng)計信息學院,烏魯木齊 830046

    ◎信號處理◎

    基于排序集成的哈薩克語固定短語抽取

    桑海巖1,2,古麗拉·阿東別克1,2,孫瑞娜3,陳莉1,2

    1.新疆大學信息科學與工程學院,烏魯木齊 830046

    2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言中心哈薩克和柯爾克孜語文基地,烏魯木齊 830046

    3.新疆財經(jīng)大學統(tǒng)計信息學院,烏魯木齊 830046

    短語抽取是文本自動分類、主題提取及專利檢索分析等文本信息理解等工作中都要應(yīng)用到的一項關(guān)鍵技術(shù)。固定短語抽取作為短語研究的一部分,對短語標注、辭典編撰等自然語言處理任務(wù)都具有重要的現(xiàn)實意義。哈薩克語是黏著語,詞形變化豐富,這些特點給哈語固定短語的抽取帶來了一定的困難。提出一個總體的固定短語抽取算法,把固定短語抽取看作一個排序問題,使用C-value、互信息和log-likelihood進行抽取排序,并設(shè)計了一個新的排序集成方法對抽取的結(jié)果進行集成。實驗分析結(jié)果表明,與單獨的抽取算法比較,該算法達到了更高的準確率。

    自然語言處理;固定短語;排序集成;互信息;似然比;C-value算法

    1 引言

    短語抽取[1]是在文本自動分類、主題提取及專利檢索分析等文本信息理解等工作中都要應(yīng)用到的一項關(guān)鍵技術(shù)。固定短語抽取作為短語研究的一部分,對短語標注、辭典編撰等自然語言處理任務(wù)都具有重要的意義。

    哈語短語同漢語短語有相近概念,兩個或兩個以上的實詞按照一定的結(jié)構(gòu)規(guī)則組合而成的語言單位叫短語[2]。哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,是黏著語言類型,有著高度豐富的形態(tài)變化。組成短語的詞不僅要受到結(jié)構(gòu)規(guī)則的制約而且又受語法關(guān)系的制約,主要表現(xiàn)在不同的語境下短語中詞的詞綴形態(tài)的改變。此外哈語中還含有豐富的曲折短語。曲折短語是指含有發(fā)生內(nèi)部曲折詞的短語,而詞的內(nèi)部曲折是指因為語法或發(fā)音的需要而發(fā)生的語音交替現(xiàn)象,這與漢語短語有很大區(qū)別。上述這些特點對哈語短語抽取帶來了一定困難。哈語短語從穩(wěn)定性上講可以分為固定短語和自由短語[3]。固定短語是歷史上固定下來的,在句子中作為一個單詞使用,多為成語、熟語等。自由短語是由語義上能夠搭配的兩個或兩個以上實詞帶入某種結(jié)構(gòu)關(guān)系的詞組模式得出的語言片段,詞之間的組合比較自由,包括名詞性短語,動詞性短語等。本文中所說的固定短語是指經(jīng)常在一起使用的表達一個完整意義的實詞組合,包括了大量的成語、熟語以及實體名和專業(yè)術(shù)語等。

    2 研究現(xiàn)狀

    短語抽取主要有兩大方法:一是知識工程方法;二是統(tǒng)計方法[4]。知識工程方法要求編制規(guī)則的知識工程師對領(lǐng)域知識有深入的了解,而基于統(tǒng)計的方法則不需要。基于統(tǒng)計的方法中,目前最具有代表性的是log-likelihood[5]方法、互信息方法[6]、C值[1,7]和N-gram方法,前兩種方法主要通過分析詞串內(nèi)部詞語之間的關(guān)系,來確定該詞串是否是一個結(jié)構(gòu)穩(wěn)定的短語;而N-gram方法是結(jié)合詞串所在的上下文信息,通過外部知識來判斷該詞串是否為一個結(jié)構(gòu)完整的短語,文獻[8]中的方法是基于這一設(shè)想。文獻[9]中在抽取二元詞匯搭配上將這幾種計算方法做了比較。文獻[10]中將C值與互信息進行結(jié)合進行術(shù)語抽取取得了較好的效果。本文使用基于統(tǒng)計的方法進行抽取,相關(guān)統(tǒng)計參數(shù)在二元算法的基礎(chǔ)上進行了擴展,用以對多詞短語的抽取。本文將短語的抽取看作是一個排序問題,選擇互信息、C-value、似然比三種算法進行抽取,而后對結(jié)果集進行排序集成?;バ畔⑴c似然比方法主要考察的是短語的內(nèi)部結(jié)合度,而C-value考察的是上下文信息并且將詞串長度加入到了考察范圍。因此對這三種基礎(chǔ)抽取方法進行集成,很好地融合了它們各自的優(yōu)點,將短語的上下文、內(nèi)部結(jié)合度及詞串長度融為一體。

    3 相關(guān)抽取方法

    3.1 基于C-value的方法

    C-value算法從根本上說還是基于頻率的思想。以頻率函數(shù)來衡量候選詞串,通過這個詞串在較長候選詞串中的出現(xiàn)頻率以及這些較長的候選詞串數(shù)來確定候選詞串是短語的可能性。但它參考了短語的長度和嵌套詞的影響。它認為長度愈長的短語更難以出現(xiàn),對于比較長的候選短語在其頻率上應(yīng)該有相應(yīng)的加權(quán)。因為一些候選短語是被嵌套的詞串,這樣它的嵌套詞會多次累計頻率,所以需要進行相應(yīng)的罰分來得到最終的分數(shù)。算法有三個方面的因子:(1)提取頻率更高的詞串;(2)對于更長候選詞串的嵌入子詞串進行罰分;(3)考慮候選詞串的長度。具體的計算公式如下:

    其中a是候選詞串,f(a)表示a在語料庫中出現(xiàn)的頻率,t(a)是所有包含a的較長候選詞串出現(xiàn)的總次數(shù),c(a)表示所有包含a的候選詞串的總數(shù)目。如果a是最大長度的詞串,則a不被任何其他候選詞串包含,此時候選串a(chǎn)的唯一參數(shù)就是它們在集合中的出現(xiàn)頻率,由式(1)計算得出。如果a不是最長的候選詞串,則有候選詞串包括a,則由式(2)計算。

    3.2 互信息的方法

    互信息是信息論中的一個概念,它用來度量一個消息中兩個信號之間的相互依賴程度。二元互信息[6]是兩個事件的概率函數(shù),設(shè)兩個待識別的字串為x和y,則在信息論中兩個事件的互信息計算如下公式:

    如果x和y在一起出現(xiàn)的機會多于它們隨機出現(xiàn)的機會,那么P(x,y)>>P(x)×P(y),即字符串x和y結(jié)合十分緊密,則依據(jù)公式(3)計算的字符串互信息就比較大;反之P(x)×P(y)>>P(x,y),這樣計算出來的互信息就比較小。因此,可以利用互信息計算一個字串的內(nèi)部結(jié)合強度,互信息值越高,x和y組成短語的可能性越大;互信息值越低,x和y組成短語的可能性越小。

    傳統(tǒng)的互信息方法如式(3),只能計算兩個詞之間的內(nèi)部結(jié)合強度。為了適應(yīng)抽取長度大于2的詞串,Silva和Lopes將式(3)改進為:

    n≥2,W=w1,w2,…,wn是多字串在給定語料庫中所出現(xiàn)的概率。對于概率P(w1,w2,…,wn)不能直接計算,可以利用MLE方法估計得到,具體公式如下:其中?(w1,w2,…,wn)表示多字串W在該語料庫中所出現(xiàn)的頻率。N表示該語料庫中的總字數(shù)。

    3.3 卡方檢驗

    卡方檢驗是一種常用的假設(shè)檢驗的統(tǒng)計學方法,主要研究兩個變量間的關(guān)聯(lián)性及頻數(shù)分布的擬合度。

    假設(shè)H0表示詞w1,w2是完全獨立產(chǎn)生的,則它們偶然在一起的概率可以表示為:P(w1w2)=P(w1)P(w2)。如果語料中共有N詞次,則X2統(tǒng)計量計算了觀測值和期望值之間差別的總和,將期望值作為比例因子。X2的計算公式如下:

    其中i表示表1中行變量,j為列變量,Oij表示單元(i,j)的觀測值,Eij表示期望值。當數(shù)值很大時X2滿足卡方分布,對比表1中的觀測頻度和期望頻度以驗證是否獨立,如果它們之間的差別很大時,可以否定它們是獨立的H0假設(shè)。

    表1 w1和w2的依賴關(guān)系表

    通過計算邊緣分布可以得到期望頻度Eij的值,對表1形式的統(tǒng)計表,計算公式如下:

    當置信水平為0.05時,臨界值X2=3.841,即只有當計算值小于3.841時,有95%的置信概率認為w1w2不是一個短語。

    3.4 似然比方法

    似然比(log-likelihood ratio)最初是由Ted Dunning提出來的。它雖然是一個簡單的比值,但可以表達出一個假設(shè)的可能性比其他假設(shè)大多少。對于稀疏數(shù)據(jù),似然比比卡方檢驗更加合適,而且,計算出來的似然比統(tǒng)計值比卡方檢驗的統(tǒng)計值更有可解釋性。用參考文獻[5]的兩個可選的假設(shè)來解釋二元組w1w2的出現(xiàn)頻率。

    假設(shè)1是獨立性假設(shè)的形式化,即w2的出現(xiàn)和前面w1的出現(xiàn)是獨立的;假設(shè)2是非獨立性假設(shè)的形式化,即w2的出現(xiàn)和前面的w1的出現(xiàn)是相關(guān)的。

    使用最大似然估計的方法計算P、P1和P2,用c1、c2和c12來表示在語料庫中w1、w2和w12出現(xiàn)的次數(shù),則其計算公式分別如下:

    使用似然比檢驗的優(yōu)點在于:一是它有一個很清晰直觀的解釋,即如果似然比很小,表示它非常可能符合假設(shè)2,即w1w2不是偶然出現(xiàn)的。二是它比卡方檢驗更好地解決了稀疏數(shù)據(jù)問題。這是檢驗兩詞串的有效方法,但是對于多詞串卻無法使用。為了適合多詞串的似然比計算將公式從新定義[8]如下:

    4 排序集成方法

    排序集成的方法已經(jīng)被廣泛研究和應(yīng)用[11],但是將它應(yīng)用到短語抽取上還不多。這里首先引入排序集成中的幾個概念。

    定義1(K-distance)

    L1和L2是基于同一候選集合(1,2,…,n)的兩個排序,對于任意兩個候選項i,j∈(1,2,…,n),如果有L1(i)<L1(j)且L2(i)>L2(j),則它們構(gòu)成一個逆序?qū)Α-distance(L1,L2)就是這兩個排序的所有逆序?qū)Φ膫€數(shù)。

    定義2(孔多賽標準)

    將每一個候選項與其他選項一一對比,如果一個候選項在大多數(shù)投票上的得分高于另一個選項,那么它便擊敗了那個選項,擊敗所有其他候選項的便是孔多賽贏家。這種方法被稱為孔多賽標準。

    定義3(Kemeny最優(yōu))

    有m個已經(jīng)生成的排序序列(L1,L2,…,Lm),序列L是根據(jù)這m個序列的重排序,如果L使得Sk(L,L1,L2,…,Lm)達到最小值,那么L為序列集(L1,L2,…,Lm)的Kemeny最優(yōu)。其中,

    Kemeny最優(yōu)符合孔多賽標準,但是當序列個數(shù)大于3個時,Kemeny最優(yōu)就是一個NP難問題。因而Cynthia Dwork等人在元搜索引擎的開發(fā)時提出局部Kemeny最優(yōu)的概念。

    局部Kemeny最優(yōu):如果任意轉(zhuǎn)換一對相鄰候選項的位置,不存在序列Q使得Sk(Q,L1,L2,…,Lm)<Sk(L,L1,L2,…,Lm),那么序列L是序列集(L1,L2,…,Lm)的局部Kemeny最優(yōu)。

    基礎(chǔ)集成方法:

    波達計數(shù)[11]是一種投票機制方法。目前的投票方法有兩種:一是多數(shù)決策;另一個是加權(quán)決策[12]。波達計數(shù)是多數(shù)決策,文獻[13]中使用基于加權(quán)決策投票的方法對術(shù)語進行了抽取。各個統(tǒng)計抽取算法根據(jù)自己的判別標準對于各個候選詞串進行抽取排序。如果候選者在選票中排第一位,它就得最高分值;排第二位得一個稍小的分值……依此類推。通過候選詞串在序列中的位置來確定分值,最后的投票積分之和越高,說明該候選詞串的表現(xiàn)越好。設(shè)t為一個抽取算法所產(chǎn)生的候選詞串序列,如果候選詞串i∈t,則t(i)表示候選詞串i在t中的位置。計分公式為:

    其中t(i)為候選詞串在排序中的位置,|t|為候選詞串序列的長度。

    除波達計數(shù)外常用的還有均值,幾何均值等基礎(chǔ)集成排序。顧名思義,均值是計算候選項在不同排序集中的排名均值,而幾何均值是計算排名的幾何均值。

    Kicker方法[11]是在波達計數(shù)的基礎(chǔ)上的改進。該算法需要記錄候選詞串i在序列t的前n項中出現(xiàn)的總次數(shù)c(i)。候選詞串i遍歷所有的序列。如果i在t的前n項中出現(xiàn)過,則c(i)加1,若沒有則掃描下一個序列,直到所有的序列都進行了掃描。計分表達式為:

    其中wt(i)為波達計數(shù)如公式(14)所描述。Kicker方法是在波達計數(shù)的基礎(chǔ)上,增加了對于候選詞串在單個序列t中的衡量。波達計數(shù)是對于候選詞串整體分布的評估,而每個獨立的抽取算法代表一個獨有判別標準。這里的c(i)可以看作一個信用評級,如果i在一個抽取算法產(chǎn)生的序列的前n項中出現(xiàn),則c(i)的評級加1。若候選詞串i在越多的序列中出現(xiàn),c(i)的值越大,則表明i被越多的算法信任,i成為固定短語的可能性就越大。

    本文中的集成算法是先由各單獨抽取算法進行抽取排序形成排序集,而后使用基礎(chǔ)集成方法進行集成,最后使用局部Kemeny最優(yōu)化算法來確定最后的抽取序列。文獻[15]對七種單獨抽取算法進行了集成,這些基礎(chǔ)的抽取方法著重考察的不是短語的上下文信息就是短語的內(nèi)部結(jié)構(gòu),因此集成投票實際上是短語的上下文與內(nèi)部結(jié)構(gòu)兩種信息在投票。過多的基礎(chǔ)抽取方法存在對上述兩種信息的重復(fù),如果方法組合選擇不當還會造成不公平。

    5 抽取算法

    在文獻[15]中使用了先計算二詞串的各個統(tǒng)計參數(shù),然后將符合約束條件的二詞串定為種子,然后由種子向前和向后依次擴展一個詞,計算此擴展詞串的統(tǒng)計參數(shù),如果符合約束條件則定為新的種子,直到設(shè)置的詞串長度L為止。此算法需要多次遍歷整個語料,進行切分以及參數(shù)的計算,這是許多相似算法的一個弊端.另外本文是基于排序集成方法進行抽取故而每個單獨的抽取算法都需要相同的前期處理。本文設(shè)計了一個新的整體抽取方法,其主要思想:一是根據(jù)種子長度分組并按分組依次計算種子的統(tǒng)計信息,分組處理降低了算法對內(nèi)存的要求使該算法適用于處理大規(guī)模語料而且因為有分組的存在可以按分組搜索,提高了搜索效率。二是一次性計算此種子的所有抽取算法值并根據(jù)各個閾值對種子進行刪減。每一個單獨抽取算法所需的計算參數(shù)大致相同,計算一個抽取算法值的同時這些參數(shù)也可以被其他抽取算法使用,一次性方法減少了搜索語料的次數(shù),從而提高了算法的效率。

    抽取算法主要有三個階段,首先確定種子,然后對不符合條件的種子進行刪減,最后就是判斷哪些是固定短語。下面將詳細介紹這三個階段。

    5.1 確定種子

    步驟1讀入語料庫B。

    步驟2利用標點符號等信息將句子粗分為較短的子句,而后對子句進行以詞為單位的全切分,并按照切分出來的詞串長度分別放入不同的文件中。這里將這些詞串定義為種子。

    步驟3對切分出來的文件進行統(tǒng)計形成數(shù)據(jù)字典文件,包括種子出現(xiàn)的次數(shù)、頻率等信息。

    5.2 刪減種子

    步驟1利用數(shù)據(jù)文件中種子的頻次,頻率信息,首先計算長度為2的種子文件中所有種子的統(tǒng)計參數(shù),如果某一個種子的參數(shù)值不在閾值范圍內(nèi)則將它刪除,并記錄在刪除列表delete_list中,稱其為非種子。

    步驟2依次計算長度為3,4…直至N的種子文件中的種子。如果種子中含有delete_list中的非種子詞串,則將其刪除,如果不含非種子詞串,則計算其參數(shù)值,并按照第一步中的方法判斷是否將它移入刪除列表。

    5.3 短語的判定

    將長度大于等于2的所有剩余的種子合并到一個節(jié)點序列中(這里的節(jié)點包括種子詞串、詞串長度、頻率值(FT)、C-value(CV)、互信息值(MI)、似然比值(LR)),根據(jù)下列條件進行固定短語的判斷:

    (1)如果種子a是種子b的子詞串,有相同頻率并且長度相差為1,則a不是固定詞組。

    (2)將符合標準的種子分別按照FT、CV、MI、LR降序排列,本文中不再單獨生成排序序列而改用在種子節(jié)點中記錄其在這種排序中的排序位置,即分別將IDFT、IDCV、IDMI、IDLR寫入節(jié)點中。

    (3)按照排序集成的原理對種子在四種排序中的位置進行綜合計分,并依此分值從新排序,再使用局部Kemeny最優(yōu)化方法求得最優(yōu)排序,在這個排序集中靠前的種子就是要抽取的固定短語。下面介紹計分方法。

    在短語抽取的過程中發(fā)現(xiàn)越是長度大的詞串出現(xiàn)的頻率就越低,在排序中越靠后,也就容易被漏掉。為照顧長詞串,本文設(shè)計了一個新的計分方法,公式如下:

    6 實驗結(jié)果及分析

    6.1 測試語料庫

    所用的語料庫為2008年1月31天的新疆日報語料庫,該語料庫是已經(jīng)過詞附加成分切分及詞性標注的XML格式,包含646篇文章,共31 695條語句,本文主要使用其詞干信息。

    6.2 實驗結(jié)果

    為評估排序集成方法的有效性,本文首先對互信息、C-value、似然比方法進行了參照實驗,將抽取結(jié)果作為對比的基礎(chǔ)。本文集成方法共得到候選短語4 023個,全面準確率為77.10%,比單獨用互信息方法的52%準確率有提高,比C-value的平均準確率54.09%也改善了很多。前1 000個短語的準確率達到了86.0%。前K個詞(K取值100,500,2 000)正確率與直接抽取算法的對比如表2所示。

    表2 準確率對比(%)

    與文獻[14]中所用集成方法的前2 000詞的72%準確率相比,本文算法的準確率也有提高。在所抽取的4 023個短語中,對不同長度詞串的抽取準確率做了一個統(tǒng)計。詳細數(shù)據(jù)如表3。

    表3 不同長度詞串的準確率對比

    6.3 結(jié)果分析

    由實驗數(shù)據(jù)可以看出排序集成方法是有效的。它很好地整合了三種抽取算法的特點,既有C-value對詞串上下文信息的考慮,又有互信息、似然比對詞串內(nèi)部結(jié)合度的考察。本文設(shè)計了一個整體的短語抽取方法,可以一次性得到三種抽取方法的短語及其在每種方法中的排序信息,相對于文獻[14]中分別使用單獨的方法進行抽取再進行集成,在算法效率上有很大提高。文獻[15]中使用種子擴展的方法,一步一步將種子擴展到術(shù)語長度,本文中設(shè)計了一個種子刪減的算法,一次生成所有的種子,而后對不符合的進行刪除。該方法省去了多次對語料的切分也提高了結(jié)果的準確率。但是高的準確率是在種子刪減過程中使用了嚴格的刪減制度產(chǎn)生的,即如果種子有一個抽取算法值不滿足閾值要求則將它刪除。長詞串的正確率有很大提高,說明在基礎(chǔ)集成算法中加入詞串長度起到了一定作用。哈薩克語是一種形態(tài)豐富的語言,每個詞在不同的上下文中都有不同的變化形式,如果將每一種變化形式都認為是單獨的詞必將導(dǎo)致嚴重的數(shù)據(jù)稀疏,而詞干是一個詞中體現(xiàn)詞匯意義的部分,故本文選擇詞干作為詞的代表進行統(tǒng)計,實驗結(jié)果表明選擇是正確的。本文的方法主要是基于統(tǒng)計學的,除了前期針對哈語的特點而做的語料預(yù)處理,其他的算法完全適用于其他語言。

    7 結(jié)論

    本文采用排序集成的方法將C-value、互信息和loglikelihood三種統(tǒng)計方法有機融合在一起,提高了抽取的正確率。本文抽取結(jié)果基本達到了預(yù)期,但是還有很大的提升空間,集成方法的研究將是接下來的工作重點。努力減少算法的時間、空間等復(fù)雜度,使得集成算法能夠勝任大數(shù)據(jù)量、更多統(tǒng)計參數(shù)的集成工作。

    [1]Frantzi K T,Ananiadou S,Mima H.Automatic recognition of multiword terms:the C-value/NC-value method[J].International Journal on Digital Libraries,2000,3(2):115-130.

    [2]張定京.現(xiàn)代哈薩克語實用語法[M].北京:中央民族大學出版社,2004:8-10.

    [3]耿世民.現(xiàn)代哈薩克語語法[M].北京:中央民族學院出版社,1989:228-230.

    [4]Hsiao S L,Chou S C,Chang L P.Information extraction from HTML tables based on domain ontology[C]//Proc of the International Conference on Information and Knowledge Engineering,2003:70-76.

    [5]Dunning T.Accurate methods for the statistics of surprise and coincidence[J].Computational Linguistics,1993,19(1):61-67.

    [6]Damerau F J.Evaluating domain-oriented multi word terms from texts[J].Information Processing and Management,1993,29(4):433-447.

    [7]Frantzi K,Ananiadou S.A hybrid approach to term recognition[C]//Proceedings of NLP+IA,1996:93-98.

    [8]Yoshida M,Nakagawa H.Automatic term extraction based on perplexity of compound words[C]//IJCNLP,2005:269-279.

    [9]Pecina P,Schlesinger P.Combining association measures for collocation extraction[C]//Proceedings of the 21st InternationalConferenceonComputationalLinguisticsand 44th Annual Meeting of the Association for Computational Linguistics(COLING/ACL 2006),2006:651-658.

    [10]梁穎紅,張文靜,張有承.C值和互信息相結(jié)合的術(shù)語抽取[J].計算機應(yīng)用與軟件,2010,27(4):108-110.

    [11]Dwork C,Kumar R,Naor M,et al.Rank aggregation methods for the web[C]//Proceedings of the 10th International World Wide Web Conference,2001:613-622.

    [12]Sinha R,Mihalcea R.Unsupervised graph based word sense disambiguation using measures of word semantic similarity[C]//ICSC 07:Proceedings of the International Conference on Semantic Computing.Washington DC,USA:IEEE Computer Society,2007:363-369.

    [13]游宏梁,張巍,沈鈞毅,等.一種基于加權(quán)投票的術(shù)語自動識別方法[J].中文信息學報,2011,25(3):10-16.

    [14]粟超.基于排序集成的自動術(shù)語識別方法[J].計算機應(yīng)用與軟件,2012,29(1):196-223.

    [15]劉建舟,何婷婷.基于開放式語料的漢語術(shù)語的自動抽取[C]//20世紀國際東方語言計算處理協(xié)會高級東方語言處理會議,2003:15-18.

    SANG Haiyan1,2,Gulia·ALTENBEK1,2,SUN Ruina3,CHEN Li1,2

    1.College of Information Science and Engineering,Xinjiang University,Urumqi 830046,China
    2.The Base of Kazakh and Kirghiz Language of National Language Resource Monitoring and Research Center Minority Languages,Urumqi 830046,China
    3.College of Statistical Information,Xinjiang University of Finance and Economics,Urumqi 830046,China

    Phrase extraction plays a key role in text information understanding,such as automatic text classification,topic extraction,and analysis of patent search,etc.As the part of phrase research,the fixed phrase extraction has important practical significance on natural language processing tasks including the lexicographer.The Kazakh is agglutinative language, rich in inflections.These characteristics of the Kazakh bring certain difficulties to fixed phrase extraction.This paper proposes a general fixed phrase extraction algorithm.The algorithm considers the fixed phrase extraction as a scheduling problem, uses C-value,mutual information and log-likelihood statistics to extract and schedule,and presents a new rank aggregation method to obtain a scheduling result set.The experimental results indicate that the algorithm gets higher accuracy compared with popular signal extraction algorithms.

    natural language processing;fixed phrases;rank aggregation;mutual information;log-likelihood;C-value

    A

    TP391

    10.3778/j.issn.1002-8331.1211-0373

    SANG Haiyan,Gulia·ALTENBEK,SUN Ruina,et al.Rank aggregation-based Kazakh fixed phrases extraction. Computer Engineering and Applications,2014,50(21):205-209.

    國家自然科學基金(No.61063025);新疆多語種信息技術(shù)重點實驗室開放項目(No.049807)。

    桑海巖(1982—),男,碩士,CCF會員,主要研究領(lǐng)域為自然語言信息處理;古麗拉·阿東別克(1962—),女,教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言信息處理,人工智能等;孫瑞娜(1982—),女,講師,主要研究領(lǐng)域為人工智能;陳莉(1988—),女,碩士,主要研究領(lǐng)域為自然語言處理。E-mail:sang_haiyan@163.com

    2012-11-30

    2013-03-25

    1002-8331(2014)21-0205-05

    CNKI出版日期:2013-05-03,http://www.cnki.net/kcms/detail/11.2127.TP.20130503.1708.011.html

    猜你喜歡
    詞串互信息語料庫
    《語料庫翻譯文體學》評介
    靈動的詞串,寫話的紐帶
    報紙新聞標題中的“熱詞群”和“熱詞串”
    新聞傳播(2018年15期)2018-09-18 03:19:58
    把課文的優(yōu)美表達存進語料庫
    美語口語詞串You Know What探析
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習
    聯(lián)合互信息水下目標特征選擇算法
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    改進的互信息最小化非線性盲源分離算法
    電測與儀表(2015年9期)2015-04-09 11:59:22
    基于增量式互信息的圖像快速匹配方法
    人人妻人人看人人澡| 国产精品,欧美在线| 亚洲色图av天堂| 毛片女人毛片| 日韩中字成人| 黄色日韩在线| 国产在视频线在精品| 国产精品,欧美在线| av在线蜜桃| 亚洲av中文字字幕乱码综合| 欧美在线一区亚洲| 婷婷色综合大香蕉| .国产精品久久| 最近视频中文字幕2019在线8| av中文乱码字幕在线| 搞女人的毛片| 国产v大片淫在线免费观看| 少妇猛男粗大的猛烈进出视频 | 男人舔女人下体高潮全视频| 少妇高潮的动态图| 国产欧美日韩一区二区精品| 国产精品三级大全| ponron亚洲| 欧美日韩国产亚洲二区| 亚洲av不卡在线观看| 国产精品无大码| 少妇熟女aⅴ在线视频| 国产久久久一区二区三区| 一a级毛片在线观看| 成人高潮视频无遮挡免费网站| 婷婷丁香在线五月| 亚洲最大成人手机在线| a级毛片免费高清观看在线播放| 成年女人看的毛片在线观看| 成人精品一区二区免费| 国产精品久久久久久久久免| 国产欧美日韩精品亚洲av| 九九在线视频观看精品| 日日摸夜夜添夜夜添小说| 久久久久性生活片| 性色avwww在线观看| 亚洲精品久久国产高清桃花| 亚洲av免费在线观看| 国产乱人视频| 亚洲精华国产精华液的使用体验 | a级毛片免费高清观看在线播放| 国产一区二区三区av在线 | 成人鲁丝片一二三区免费| 搡老妇女老女人老熟妇| 黄色女人牲交| 精品人妻偷拍中文字幕| 日日摸夜夜添夜夜添av毛片 | 国模一区二区三区四区视频| 我的女老师完整版在线观看| 一区二区三区高清视频在线| 极品教师在线视频| 少妇猛男粗大的猛烈进出视频 | 色吧在线观看| 欧美一区二区精品小视频在线| 亚洲性久久影院| 精品无人区乱码1区二区| 两个人视频免费观看高清| 国产免费av片在线观看野外av| 不卡一级毛片| 熟妇人妻久久中文字幕3abv| 中文资源天堂在线| 看黄色毛片网站| 中文字幕久久专区| 午夜精品一区二区三区免费看| 精品久久久噜噜| 成人综合一区亚洲| 男女那种视频在线观看| 久久精品国产鲁丝片午夜精品 | 亚洲成人免费电影在线观看| 伦理电影大哥的女人| 成人高潮视频无遮挡免费网站| 日韩,欧美,国产一区二区三区 | 国产av麻豆久久久久久久| 国产 一区 欧美 日韩| 亚洲久久久久久中文字幕| 日本黄色片子视频| 一级av片app| 久久6这里有精品| 免费av毛片视频| 欧美日韩综合久久久久久 | 日本黄色片子视频| 麻豆国产97在线/欧美| 欧美日韩精品成人综合77777| 夜夜看夜夜爽夜夜摸| 免费观看精品视频网站| 亚洲一区高清亚洲精品| 午夜老司机福利剧场| 久久精品综合一区二区三区| 国产熟女欧美一区二区| 波多野结衣巨乳人妻| 亚洲美女搞黄在线观看 | 在线天堂最新版资源| 狂野欧美激情性xxxx在线观看| 少妇丰满av| 久久精品国产亚洲av涩爱 | 麻豆国产av国片精品| 天美传媒精品一区二区| 免费电影在线观看免费观看| 欧美一区二区精品小视频在线| 日韩在线高清观看一区二区三区 | 久久久久国内视频| 欧美日本视频| 很黄的视频免费| 亚洲黑人精品在线| 亚洲性夜色夜夜综合| 在线观看一区二区三区| 国产免费一级a男人的天堂| 成人高潮视频无遮挡免费网站| 老女人水多毛片| 国产亚洲av嫩草精品影院| 欧美精品国产亚洲| 国产爱豆传媒在线观看| 熟妇人妻久久中文字幕3abv| 精品一区二区三区av网在线观看| 人妻久久中文字幕网| 狠狠狠狠99中文字幕| 精品久久久久久久久av| 色在线成人网| 国产爱豆传媒在线观看| 日韩一本色道免费dvd| 亚洲色图av天堂| 在线国产一区二区在线| 日韩欧美在线二视频| x7x7x7水蜜桃| 亚洲熟妇熟女久久| 最新中文字幕久久久久| 九九在线视频观看精品| 内射极品少妇av片p| 国产成人a区在线观看| 如何舔出高潮| 免费在线观看成人毛片| 国模一区二区三区四区视频| 亚洲av一区综合| 国产私拍福利视频在线观看| 欧美日本亚洲视频在线播放| 国产精品亚洲一级av第二区| 亚洲三级黄色毛片| 日韩欧美在线二视频| 极品教师在线视频| 中文字幕精品亚洲无线码一区| 亚洲精品久久国产高清桃花| 观看美女的网站| 亚洲狠狠婷婷综合久久图片| 日韩精品有码人妻一区| 中文字幕av成人在线电影| 熟女电影av网| 久久久久久久久中文| 99久久成人亚洲精品观看| 一级av片app| 国产成人av教育| 亚洲va在线va天堂va国产| 亚洲欧美日韩无卡精品| 国产精品一区二区性色av| 少妇高潮的动态图| 可以在线观看的亚洲视频| 嫁个100分男人电影在线观看| 日韩中文字幕欧美一区二区| 亚洲午夜理论影院| 久久人妻av系列| 国产成人影院久久av| 成人特级av手机在线观看| 天堂动漫精品| 在线免费观看的www视频| 美女免费视频网站| 22中文网久久字幕| 在线观看免费视频日本深夜| 国内精品一区二区在线观看| 国产精品亚洲美女久久久| 大又大粗又爽又黄少妇毛片口| 在线播放国产精品三级| 中出人妻视频一区二区| 亚洲va在线va天堂va国产| 国模一区二区三区四区视频| 精品久久久久久久末码| 一区二区三区四区激情视频 | 欧美最黄视频在线播放免费| 亚洲av免费高清在线观看| 国产精品精品国产色婷婷| 国产精品不卡视频一区二区| 淫妇啪啪啪对白视频| 直男gayav资源| 特大巨黑吊av在线直播| 三级毛片av免费| 高清毛片免费观看视频网站| 少妇的逼好多水| 国产精品一区二区三区四区久久| av天堂在线播放| 1000部很黄的大片| 在线天堂最新版资源| 国产精品1区2区在线观看.| 真人做人爱边吃奶动态| 午夜精品一区二区三区免费看| 老女人水多毛片| 麻豆av噜噜一区二区三区| 午夜激情福利司机影院| 真人一进一出gif抽搐免费| 狠狠狠狠99中文字幕| 偷拍熟女少妇极品色| 五月玫瑰六月丁香| 男人舔女人下体高潮全视频| 国产不卡一卡二| 国产精品无大码| 最好的美女福利视频网| 国产乱人视频| 中文字幕av成人在线电影| 国产精品av视频在线免费观看| or卡值多少钱| videossex国产| 两人在一起打扑克的视频| 精品久久久久久久久久免费视频| 色5月婷婷丁香| 国产精品久久久久久久电影| 搡老岳熟女国产| 国产欧美日韩精品亚洲av| 免费人成视频x8x8入口观看| 免费在线观看成人毛片| 亚洲在线观看片| 黄色一级大片看看| 精品一区二区三区视频在线观看免费| 深夜a级毛片| 少妇的逼好多水| 日本 欧美在线| 欧美丝袜亚洲另类 | 成人永久免费在线观看视频| 欧美最新免费一区二区三区| 亚洲精品一区av在线观看| 久久婷婷人人爽人人干人人爱| 我要看日韩黄色一级片| 亚洲黑人精品在线| 美女高潮的动态| 99精品在免费线老司机午夜| 看十八女毛片水多多多| 99久久久亚洲精品蜜臀av| 午夜影院日韩av| 国产欧美日韩精品亚洲av| 性插视频无遮挡在线免费观看| 性欧美人与动物交配| 日韩欧美国产在线观看| 内射极品少妇av片p| 久久精品人妻少妇| 他把我摸到了高潮在线观看| 久久精品久久久久久噜噜老黄 | 免费一级毛片在线播放高清视频| 99久久成人亚洲精品观看| 国产又黄又爽又无遮挡在线| 99热这里只有是精品50| 级片在线观看| 亚洲在线观看片| 国产精品野战在线观看| 麻豆国产97在线/欧美| 少妇的逼好多水| 一a级毛片在线观看| 3wmmmm亚洲av在线观看| 不卡一级毛片| 悠悠久久av| 日本熟妇午夜| 波野结衣二区三区在线| 日本黄大片高清| 亚洲 国产 在线| 麻豆久久精品国产亚洲av| 一区二区三区高清视频在线| 国产精品久久久久久亚洲av鲁大| 一进一出抽搐gif免费好疼| 欧美+亚洲+日韩+国产| 午夜影院日韩av| 午夜免费成人在线视频| 欧美日韩精品成人综合77777| 色综合亚洲欧美另类图片| 亚洲精品在线观看二区| 日本色播在线视频| 久久精品国产自在天天线| 日韩欧美精品v在线| 黄片wwwwww| 国产私拍福利视频在线观看| 婷婷六月久久综合丁香| 天堂动漫精品| 久久久精品欧美日韩精品| av视频在线观看入口| 久久亚洲真实| 99在线视频只有这里精品首页| 欧美色视频一区免费| 在线看三级毛片| 欧美高清性xxxxhd video| 99热这里只有精品一区| av女优亚洲男人天堂| 欧美色欧美亚洲另类二区| 亚洲不卡免费看| 非洲黑人性xxxx精品又粗又长| 桃色一区二区三区在线观看| 如何舔出高潮| 人妻久久中文字幕网| 国产久久久一区二区三区| 又黄又爽又刺激的免费视频.| 国产精品电影一区二区三区| 少妇的逼水好多| 人人妻人人看人人澡| 日本熟妇午夜| 欧美人与善性xxx| 一个人看的www免费观看视频| 人妻夜夜爽99麻豆av| 国产三级在线视频| 一级a爱片免费观看的视频| 九九久久精品国产亚洲av麻豆| 天堂动漫精品| 在线观看美女被高潮喷水网站| 男女视频在线观看网站免费| 亚洲最大成人手机在线| 午夜福利在线观看吧| 国产成人aa在线观看| 老司机午夜福利在线观看视频| 欧洲精品卡2卡3卡4卡5卡区| 波多野结衣巨乳人妻| 黄色配什么色好看| 亚洲一区二区三区色噜噜| 国产精品福利在线免费观看| 日韩精品有码人妻一区| 99久久精品热视频| 成年女人永久免费观看视频| 亚洲精品一区av在线观看| 美女大奶头视频| 欧美精品国产亚洲| 欧美性猛交╳xxx乱大交人| 69人妻影院| 精品欧美国产一区二区三| 国产单亲对白刺激| 日韩欧美国产在线观看| 欧美高清成人免费视频www| 成年版毛片免费区| 99久久久亚洲精品蜜臀av| 久久精品国产自在天天线| 精品久久久久久,| 深夜精品福利| 欧美激情在线99| 精品久久久久久成人av| av天堂中文字幕网| 我的女老师完整版在线观看| 国产亚洲av嫩草精品影院| 又黄又爽又刺激的免费视频.| 精品一区二区三区人妻视频| 日韩欧美三级三区| 一本一本综合久久| 日日夜夜操网爽| 91久久精品电影网| 国产亚洲91精品色在线| 精品一区二区三区视频在线| 成人一区二区视频在线观看| 日本免费一区二区三区高清不卡| 九九热线精品视视频播放| 国产69精品久久久久777片| 久久久久久久久中文| 免费无遮挡裸体视频| 成人av一区二区三区在线看| 少妇人妻一区二区三区视频| АⅤ资源中文在线天堂| 91久久精品国产一区二区成人| 禁无遮挡网站| 亚洲av电影不卡..在线观看| 亚洲av成人精品一区久久| 欧美绝顶高潮抽搐喷水| 一区二区三区高清视频在线| 俺也久久电影网| 又爽又黄a免费视频| 欧美激情国产日韩精品一区| 在线天堂最新版资源| 国产真实伦视频高清在线观看 | 高清日韩中文字幕在线| 黄片wwwwww| 床上黄色一级片| 性插视频无遮挡在线免费观看| 国产精品久久电影中文字幕| 身体一侧抽搐| 色在线成人网| 99久久无色码亚洲精品果冻| 国产综合懂色| 三级国产精品欧美在线观看| 狂野欧美激情性xxxx在线观看| 99久国产av精品| 久久香蕉精品热| 变态另类丝袜制服| 免费在线观看成人毛片| 免费看光身美女| 国产精品av视频在线免费观看| 国模一区二区三区四区视频| 99热精品在线国产| 亚洲精品一区av在线观看| 日韩av在线大香蕉| 男女那种视频在线观看| 男女啪啪激烈高潮av片| 男女之事视频高清在线观看| 国产精品久久久久久久久免| 三级男女做爰猛烈吃奶摸视频| 精品乱码久久久久久99久播| 成人av在线播放网站| 亚洲国产日韩欧美精品在线观看| 美女免费视频网站| 欧美成人一区二区免费高清观看| 欧美高清性xxxxhd video| 国内精品一区二区在线观看| 亚洲综合色惰| 国产精品美女特级片免费视频播放器| 亚洲国产日韩欧美精品在线观看| 日韩欧美一区二区三区在线观看| 欧美色视频一区免费| netflix在线观看网站| 欧美日韩精品成人综合77777| 俺也久久电影网| 在线国产一区二区在线| avwww免费| 日韩高清综合在线| 美女被艹到高潮喷水动态| 日韩欧美精品v在线| 97热精品久久久久久| 精品国内亚洲2022精品成人| 少妇人妻一区二区三区视频| 国模一区二区三区四区视频| 啦啦啦观看免费观看视频高清| 亚洲自拍偷在线| 俺也久久电影网| netflix在线观看网站| 男人舔女人下体高潮全视频| 亚洲av免费高清在线观看| 日韩欧美在线乱码| 热99在线观看视频| 国产美女午夜福利| 日本熟妇午夜| 日本精品一区二区三区蜜桃| 夜夜夜夜夜久久久久| 变态另类成人亚洲欧美熟女| 国产一区二区激情短视频| 免费看av在线观看网站| 网址你懂的国产日韩在线| 变态另类丝袜制服| 亚洲av电影不卡..在线观看| 国产一级毛片七仙女欲春2| 18禁在线播放成人免费| 久久人妻av系列| 午夜免费成人在线视频| 国模一区二区三区四区视频| 亚洲成av人片在线播放无| 久久精品久久久久久噜噜老黄 | 国产一区二区激情短视频| 国产单亲对白刺激| 999久久久精品免费观看国产| 亚洲最大成人av| 中文字幕人妻熟人妻熟丝袜美| 91久久精品电影网| 欧美zozozo另类| 亚洲av中文字字幕乱码综合| 国产蜜桃级精品一区二区三区| 在线免费观看不下载黄p国产 | 嫩草影院精品99| 国产在视频线在精品| 国产av在哪里看| 免费观看的影片在线观看| netflix在线观看网站| 天堂av国产一区二区熟女人妻| 99国产极品粉嫩在线观看| 一区二区三区免费毛片| 看黄色毛片网站| 久久久久久久久大av| 久久精品国产亚洲网站| 国产亚洲精品久久久久久毛片| 三级国产精品欧美在线观看| 一区二区三区激情视频| or卡值多少钱| 九色国产91popny在线| 亚洲国产精品sss在线观看| 嫁个100分男人电影在线观看| 伦精品一区二区三区| 国产精品一区二区三区四区久久| 国内精品久久久久久久电影| 桃红色精品国产亚洲av| xxxwww97欧美| 黄色日韩在线| 嫩草影院精品99| 淫妇啪啪啪对白视频| av国产免费在线观看| 一区二区三区四区激情视频 | 亚洲中文字幕一区二区三区有码在线看| 欧美性猛交╳xxx乱大交人| 又黄又爽又刺激的免费视频.| 亚洲成人精品中文字幕电影| 99久久精品国产国产毛片| 国产毛片a区久久久久| 久久久久久国产a免费观看| 中文字幕人妻熟人妻熟丝袜美| 国产真实伦视频高清在线观看 | 亚洲专区国产一区二区| 国产精品三级大全| 中文字幕精品亚洲无线码一区| 麻豆成人av在线观看| 国产精品爽爽va在线观看网站| 亚洲天堂国产精品一区在线| www日本黄色视频网| 1024手机看黄色片| 色综合色国产| 琪琪午夜伦伦电影理论片6080| 亚洲在线自拍视频| 午夜a级毛片| 国产亚洲欧美98| 国产女主播在线喷水免费视频网站 | 舔av片在线| 亚洲av成人精品一区久久| 一a级毛片在线观看| 国产成人av教育| 三级国产精品欧美在线观看| 两个人视频免费观看高清| 尾随美女入室| 亚洲国产欧美人成| 中文字幕人妻熟人妻熟丝袜美| 精华霜和精华液先用哪个| 99热这里只有是精品在线观看| 1000部很黄的大片| 国产精品久久视频播放| 伊人久久精品亚洲午夜| 少妇的逼好多水| 老师上课跳d突然被开到最大视频| 亚洲乱码一区二区免费版| 热99re8久久精品国产| 亚洲国产高清在线一区二区三| 免费人成视频x8x8入口观看| 欧美人与善性xxx| a级毛片a级免费在线| 国产精品电影一区二区三区| 国产91精品成人一区二区三区| 精品日产1卡2卡| 最好的美女福利视频网| 成人性生交大片免费视频hd| 日本黄色视频三级网站网址| 欧美在线一区亚洲| 尾随美女入室| 噜噜噜噜噜久久久久久91| 人妻丰满熟妇av一区二区三区| 色综合亚洲欧美另类图片| 蜜桃久久精品国产亚洲av| 日韩中字成人| 成年女人毛片免费观看观看9| 国产三级中文精品| 亚洲国产色片| 国产精品一区二区性色av| 成人无遮挡网站| 欧美日韩瑟瑟在线播放| 国产黄色小视频在线观看| 尾随美女入室| a级毛片免费高清观看在线播放| 成人综合一区亚洲| 国产精品国产三级国产av玫瑰| 在线播放国产精品三级| 在线观看一区二区三区| 日本黄色片子视频| 亚洲精品一区av在线观看| x7x7x7水蜜桃| 日韩一本色道免费dvd| 乱系列少妇在线播放| 国产女主播在线喷水免费视频网站 | 三级毛片av免费| 两个人的视频大全免费| 日韩亚洲欧美综合| 日本成人三级电影网站| 观看美女的网站| 国产aⅴ精品一区二区三区波| av国产免费在线观看| 久久久国产成人精品二区| 日本五十路高清| 99热6这里只有精品| 久久久午夜欧美精品| 久久精品国产亚洲网站| 日韩人妻高清精品专区| 能在线免费观看的黄片| 不卡一级毛片| 日韩亚洲欧美综合| 日本黄大片高清| 午夜爱爱视频在线播放| 午夜精品一区二区三区免费看| 男女做爰动态图高潮gif福利片| 精品久久久久久成人av| 日本 av在线| 亚洲久久久久久中文字幕| 欧美bdsm另类| 国产v大片淫在线免费观看| 精品久久久久久久久亚洲 | 永久网站在线| 欧美色视频一区免费| 国产精品综合久久久久久久免费| 在线免费十八禁| 波多野结衣高清无吗| 日本精品一区二区三区蜜桃| 尤物成人国产欧美一区二区三区| 久久久久久伊人网av| 久久国产精品人妻蜜桃| 色吧在线观看| 大又大粗又爽又黄少妇毛片口| 久久人人爽人人爽人人片va| 日日夜夜操网爽| 露出奶头的视频| 国产伦一二天堂av在线观看| av在线天堂中文字幕| 91在线观看av| 久久久精品欧美日韩精品| 亚洲国产日韩欧美精品在线观看| 亚洲无线在线观看| 欧美高清成人免费视频www| 99九九线精品视频在线观看视频| 欧美日韩国产亚洲二区| 精品免费久久久久久久清纯| 少妇高潮的动态图| 欧美成人一区二区免费高清观看| 久久香蕉精品热| 真人一进一出gif抽搐免费| 精品人妻偷拍中文字幕|