• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于上下文相關(guān)的未知實體詞識別方法

    2016-11-01 06:44:08黃文茜
    電子科技大學學報 2016年5期
    關(guān)鍵詞:歧義分詞文檔

    夏 虎,黃文茜

    ?

    基于上下文相關(guān)的未知實體詞識別方法

    夏 虎1,2,黃文茜2

    (1. 電子科技大學大數(shù)據(jù)研究中心 成都 611731;2. 電子科技大學互聯(lián)網(wǎng)科學中心 成都 611731)

    現(xiàn)有的未知實體詞識別方法主要針對人名、地名、機構(gòu)名等具有特定結(jié)構(gòu)的實體詞進行識別,而隨著電子商務(wù)和社交網(wǎng)絡(luò)的快速發(fā)展,出現(xiàn)了大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞。針對該問題,提出兩種基于上下文相關(guān)的未知詞識別算法,通過計算詞(字)和詞(字)之間的上下文相關(guān)性,得到其潛在組合的支持度,并通過過濾模塊過濾掉錯誤的組合,實現(xiàn)具有非確定型結(jié)構(gòu)的未知實體詞識別。實驗表明,該算法具有較高的準確率,并且可以通過調(diào)整參數(shù)適應(yīng)不同的應(yīng)用場景。

    關(guān)聯(lián)規(guī)則; 上下文相關(guān); 未知詞識別; 詞義消歧

    命名實體是文本中承載信息的重要語言單位,命名實體的識別在網(wǎng)絡(luò)信息抽取、網(wǎng)絡(luò)內(nèi)容分析和知識工程等領(lǐng)域都占有非常重要的地位。傳統(tǒng)的命名實體識別主要針對人名、地名、機構(gòu)名以及產(chǎn)品命名實體等具有特定結(jié)構(gòu)的實體詞[1]。然而,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞,例如電子商務(wù)中大量出現(xiàn)的新商品名稱、網(wǎng)絡(luò)用語“醬紫(這樣子)、斑竹(版主)”等,這類未知詞結(jié)構(gòu)多樣,沒有特定的規(guī)律,用傳統(tǒng)的未知詞識別方法難以有效識別。

    目前未知詞識別領(lǐng)域的研究主要有3種方法:基于統(tǒng)計的方法、基于規(guī)則的方法以及兩者結(jié)合的方法。基于統(tǒng)計的方法認為:如果若干個相鄰的字或詞經(jīng)常同時出現(xiàn),它們則可能是一個新詞。這種方法簡單高效易實現(xiàn),但需要大量訓練數(shù)據(jù),而且由于未考慮不同詞的構(gòu)詞能力[2]和構(gòu)詞模式,識別的準確率不高?;谝?guī)則的方法通過標注詞典和成詞規(guī)則來識別新詞,這些規(guī)則往往需要專家針對特定領(lǐng)域來具體制定,該方法準確率高,但規(guī)則制定費時費力,且不同領(lǐng)域需要重新制定相應(yīng)規(guī)則,領(lǐng)域適應(yīng)性差。針對上述兩種方法中的問題,越來越多的研究者采用統(tǒng)計與規(guī)則相結(jié)合的思路,取得了許多顯著的成果,本文采用的基于上下文相關(guān)的算法即為其中一種。

    一個字或詞的上下文是指出現(xiàn)在它前后的那些字或詞,在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”,例如“清倉/圣/麗/奴/時尚/女/挎包”、“橫款/圣/麗/奴/兩用/包”、“高級/提花布/深/咖/圣/麗/奴/女/挎包”的分詞結(jié)果可以看出,“麗”的上下文信息中總是包括“圣”和“奴”,也就是說“圣”、“麗”、“奴”3個字經(jīng)常依此順序共同出現(xiàn),而“圣麗奴”整體并沒有固定的上下文信息,因此本文認為“圣麗奴”有較大概率為一個未知實體詞。

    以上述理論為基礎(chǔ),本文提出了兩種基于上下文信息進行未知詞識別的方法。其中,基于最大組合的上下文相關(guān)算法(MC)利用統(tǒng)計的手段,獲取由二元組、三元組、四元組、五元組構(gòu)成的候選未知實體詞集,然后利用上下文信息對候選未知實體詞進行支持度過濾、歧義過濾和最大組合過濾,獲取真正的未知實體詞。

    進一步,本文提出了一種基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC),在FP樹構(gòu)建和頻繁模式挖掘過程中加入各“項”(分詞后的字或詞)在文中出現(xiàn)的下標信息,利用此信息保證挖掘出的頻繁模式中各項在文中的相鄰關(guān)系以及前后順序。從而避免了傳統(tǒng)FP-growth算法不能保證挖掘出各項之間原始的相鄰關(guān)系和前后順序而不適合用于未知實體詞識別的問題。

    實驗結(jié)果表明,在某電子商務(wù)網(wǎng)站的2 000個商品網(wǎng)頁源文件上進行的3個類別數(shù)據(jù)集上,本文的兩種方法均能有效地對結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞進行識別,具有較高的準確率。

    1 相關(guān)研究

    文獻[3]提出了一種基于角色標注的中文未登錄詞識別通用方法。該方法依據(jù)角色,即未登錄詞的內(nèi)部組成成分、上下文及句子中的其他成分來識別未登錄詞。算法簡單可行,具備較好的準確率和召回率,尤其適用于中國人名和音譯名的識別。

    文獻[4]提出了一種隱馬爾科夫模型(hidden Markov model, HMM)和一個基于HMM的塊標注器,并在此基礎(chǔ)上建立了命名實體識別系統(tǒng)(NER)以識別姓名、時間以及數(shù)字量。系統(tǒng)整合了四方面的證據(jù):詞語包含的簡單且確定性的內(nèi)部特征,如大寫、數(shù)字、觸發(fā)器等內(nèi)部語義特征以及外部上下文特征。該系統(tǒng)在蛋白基因(MUC-6和MUC-7)的英文命名實體識別任務(wù)中分別達到了96.6%和94.1%的準確率。

    文獻[5]提出了一種基于支持向量機(SVM)的命名實體識別系統(tǒng)。該系統(tǒng)從文檔中提取名稱、數(shù)字信息并將其分類成人名、組織名以及日期。該系統(tǒng)取得了較高的準確率,并且解決了傳統(tǒng)SVM效率不高的問題。文獻[6]則提出利用SVM進行生物醫(yī)學命名實體識別。該系統(tǒng)采用了字詞緩存以及HMM狀態(tài)兩個新特征,在GENIA語料庫上取得了令人滿意的結(jié)果。

    文獻[7]提出了一種組合分類器的實驗框架以識別命名實體。該框架組合了4個不同的分類器:魯棒的線性分類器、最大熵模型、遷移學習及隱馬爾科夫模型。文獻[8]提出基于最大熵模型的命名實體識別系統(tǒng),該系統(tǒng)直接利用整篇文檔的全局信息來分類每一個具體的詞,并且僅使用了一個分類器而不是二級分類器。

    文獻[9]提出了一種基于網(wǎng)絡(luò)資源的未登錄詞擴展識別方法。該方法利用統(tǒng)計的思想,以左右鄰信息判斷未登錄詞邊界,對已識別出的二元候選未登錄詞進行擴展,找出具有更完整語義的不限長度復(fù)合未登錄詞。該方法簡單高效,但沒有充分考慮不同詞的構(gòu)詞能力和構(gòu)詞模式,容易因成詞率低的高頻詞引發(fā)擴展錯誤,因此準確率不高。

    文獻[10]提出了一種基于統(tǒng)計和規(guī)則的未登錄詞識別方法。該方法將文本分詞后的碎片切分形成臨時詞典,再利用規(guī)則和詞頻對其賦以不同的權(quán)值,最后用貪心算法得到碎片的最長路徑,從而識別出未登錄詞,并進一步利用互信息提取若干個詞組成未登錄詞(組)。該方法能正確識別出碎片中的大部分未登錄詞,但是識別正確性依賴于分詞性能且對人名的識別規(guī)則不夠完善。

    文獻[11]提出先將文本進行分詞,再利用N-Grams方法得到候選未登錄詞集,之后通過概率統(tǒng)計的手段從中識別出未登錄詞。但這種方法在各個閾值的設(shè)定、中文詞組的確定規(guī)則以及噪音字的選取方面仍需進一步完善。

    綜上所述,目前未知詞識別的研究對象主要集中在人名、地名、機構(gòu)名或者產(chǎn)品命名實體等具有特定結(jié)構(gòu)的實體詞上,對于近幾年網(wǎng)絡(luò)中出現(xiàn)的大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞的研究較少,本文特針對該問題提出兩種識別方法。

    2 基于最大組合的上下文相關(guān)算法(MC算法)

    一個字或詞的上下文是指出現(xiàn)在它前后的那些字或詞,在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”。本文算法充分利用字詞的上下文關(guān)系統(tǒng)計獲取候選未知詞集,然后通過支持度過濾、歧義過濾以及最大組合過濾篩選出最終的未知詞,具體流程如下:

    1) 對于輸入文檔集中的任一文檔,首先將文本中“,、。;:”5種標點替換為換行符得到文檔;

    2) 對文檔分詞,得到文檔,將中的每個詞/字作為基本單位“項”,對于每一行文本,統(tǒng)計該行相鄰項之間形成的元組(2≤≤5)出現(xiàn)的次數(shù)count,形成集合<元組, count>;

    3) 將中具有相同元組的count值合并,作為該元組在文檔中的總支持度,并過濾掉count

    4) 進行歧義過濾(參考2.1節(jié))及最大組合過濾(參考2.2節(jié)),得到最終識別出的未知實體詞;

    5) 相同未知詞可能出現(xiàn)在單一文檔的不同位置,也可能出現(xiàn)在文檔集的任一文檔中,因此需要針對所有文檔遍歷完后得到的組合集totalPat中再進行一遍歧義過濾和最大組合過濾。最后得到的結(jié)果保存在未知詞集unKnown中,算法結(jié)束。

    2.1 歧義過濾

    歧義過濾是指若識別出兩個“歧義組合”,僅保留count值最大的未知詞組合。歧義組合定義如下:

    定義1 歧義組合

    如圖1所示,在“施華洛世奇水晶鏈墜”的分詞字符串中,“世奇”和“奇水晶”就是一對歧義組合,兩種劃分方式必然只有一種正確。根據(jù)“世奇”與“奇水晶”在全文中的支持度,可以過濾掉支持度較低的“奇水晶”這樣的錯誤組合。

    2.2 最大組合過濾

    最大組合過濾是指若識別出若干個具有“歧義父子串關(guān)系”的組合,則保留歧義父串而去掉歧義子串。歧義父子串關(guān)系定義如下。

    定義2 歧義父子串

    如圖2所示,在“施華洛世奇水晶鏈墜”的分詞字符串中,“施華洛世奇”與“施華洛世”、“華洛世奇”、“華洛世”等具有相同的支持度,構(gòu)成了歧義父子串關(guān)系,根據(jù)最大組合過濾規(guī)則只保留“施華洛世奇”這一歧義父串組合。

    2.3 MC算法總結(jié)

    基于最大組合的上下文相關(guān)算法MC利用統(tǒng)計信息構(gòu)造候選未知詞集,然后通過支持度過濾、歧義過濾以及最大組合過濾,刪除候選未知詞集合中絕大部分錯誤的候選詞,從而識別出正確的未知實體詞。

    MC算法簡單高效,可以有效識別出網(wǎng)頁中的未知實體詞。MC算法的主要思想是認為在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”。而關(guān)聯(lián)規(guī)則算法是挖掘數(shù)據(jù)項共同出現(xiàn)關(guān)系的經(jīng)典算法。因此,下文基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法FPC提出利用關(guān)聯(lián)規(guī)則挖掘字詞間的共現(xiàn)關(guān)系來識別未知實體詞。

    3 基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC算法)

    FP-growth算法[12]是一種高效的關(guān)聯(lián)規(guī)則挖掘算法,但是由于未保證挖掘出的頻繁模式中各項間的相鄰關(guān)系和前后順序而不適合直接用做未知詞識別。本文提出的基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法改進了FP-growth算法,在FP樹構(gòu)造過程以及頻繁模式挖掘過程均充分利用了文檔中各項出現(xiàn)位置的下標信息,有效地保證了所挖掘頻繁模式中的各項間具備正確的相鄰關(guān)系以及前后順序,亦即保證了識別出的未知詞在上下文意義上的正確性。

    與MC算法類似,本文算法首先對輸入文檔集中的每一個文檔d進行文本切分處理,即將其中的“、,。;:”5種標點換為換行符得到文檔,分詞后得到文檔。中每一個分詞后的單位稱為“項”,每一行稱為一條“事務(wù)記錄”。為了存儲每個項在文檔中出現(xiàn)的所有位置的下標,將每一項的數(shù)據(jù)結(jié)構(gòu)定義為,其中name是該項的名字,index是該項在文檔中出現(xiàn)的位置編號數(shù)組,flag是排序的標志,用于將之后挖掘出的頻繁模式按照在文中出現(xiàn)的先后順序排序。對于文檔,F(xiàn)PCTree構(gòu)造與頻繁模式挖掘的過程如下。

    1) FPCTree的構(gòu)造

    ①掃描文檔,得到頻繁1項集,對它們的支持度計數(shù),統(tǒng)計index信息,將頻繁1項集按照支持度遞減排序,若支持度相同,則按照各項在文中出現(xiàn)的先后順序排序。刪除支持度小于minSup的項,得到1項集。

    ③第二次掃描文檔,每條事務(wù)記錄中的項按照1中的順序排序,設(shè)排序后的頻繁項表為,其中為頻繁項表的第一項,為頻繁項表中的剩余項。調(diào)用函數(shù)遞歸的將每一項加入到FP樹中。執(zhí)行過程如下:首先判斷的兒子節(jié)點中是否存在的同名節(jié)點,即存在一兒子節(jié)點,滿足。若存在,則節(jié)點的count計數(shù)加1,將節(jié)點index數(shù)組中的所有下標加入到節(jié)點的index數(shù)組中去;若不存在,則創(chuàng)建一個新節(jié)點,將其count值設(shè)為1,鏈接到它的父節(jié)點,并通過nextHomonym鏈接到下一個同名節(jié)點。將加入到的子節(jié)點數(shù)組中。

    2) 從FPCTree中挖掘候選頻繁模式

    對1中的每一項item執(zhí)行以下步驟:

    ①生成條件模式基。利用nextHomonym信息,找到所有item同名節(jié)點的祖先路徑,路徑上所有節(jié)點count值均設(shè)為item的count值。

    ②構(gòu)建條件FP樹。將條件模式基作為事務(wù)記錄生成條件FP樹。

    ③對于條件FP樹中的每一條長路徑生成項的任意組合方式,得到組合集。過濾掉中支持度小于minSup的組合,得到組合集。對于中的每一個組合,利用各項的index信息判斷組合的上下文順序是否正確。若正確,則獲取該組合的支持度,并且將該組合按照在文中出現(xiàn)的先后順序排序;若不正確,刪掉該組合。得到候選頻繁模式集Pat。

    ④挖掘出所有item的候選頻繁模式后,將相同的模式合并。

    ⑤識別出文檔中的候選未知詞集Pat后,同MC算法一樣,仍然需要在文檔內(nèi)部以及文檔間進行歧義過濾與最大組合過濾,得到最終的未知詞集unKnown,算法結(jié)束。

    4 實驗與分析

    4.1 實驗數(shù)據(jù)和工具

    本文利用爬蟲程序采集了某電商網(wǎng)站2 000個商品源文件,涉及項鏈、涼鞋、包、羽絨服、帽子、連衣裙、圍巾、燈飾、針織衫和牛仔褲等10個類別的商品,每個類別中商品數(shù)量均為200。按商品類別等比例選取其中1 000份作為數(shù)據(jù)集1,剩余1 000份作為數(shù)據(jù)集2。

    實驗首先針對網(wǎng)頁進行數(shù)據(jù)預(yù)處理,去除包括網(wǎng)頁標簽在內(nèi)的無效字段,處理過程非本文重點,在此不再贅述。

    為檢驗本文算法對不同分詞工具的適應(yīng)性,實驗過程分別采用MMAnalyzer和IKanalyzer[13]進行測試。本文實驗采用Precision(準確率)和Recall(召回率)作為評價指標。

    4.2 實驗過程及結(jié)果

    1) 不同數(shù)據(jù)集結(jié)果比較

    表1為MC算法和FPC算法使用不同分詞工具在不同數(shù)據(jù)集上識別效果。對于每一個(算法,分詞工具,數(shù)據(jù)集)的組合,隨著支持度閾值min_sup閾值的增加,Precision和Recall也不斷變化,表1中所有結(jié)果均選取最佳識別效果時的準確率召回率。其中MMAnalyzer和IKAnalyzer分詞工具分別簡寫為MM和IK。

    表1 不同數(shù)據(jù)集上的結(jié)果

    由上表可以看出:對于MC算法、FPC算法、MMAnalyzer分詞工具、IKAnalyzer分詞工具的任意組合,均有較好的準確率和召回率。

    2) 不同分詞工具結(jié)果比較

    觀察兩個算法在分別使用兩個分詞工具時識別結(jié)果的好壞,實驗結(jié)果如圖3所示。

    由圖中可以看出,MC算法和FPC算法在兩個分詞工具上Precision和Recall的走勢一致,Precision隨著最小支持度參數(shù)min_Sup的增加而呈現(xiàn)上升趨勢,在min_Sup=3時突變到一個高點,并在min_Sup>3后趨于穩(wěn)定;Recall隨著min_Sup的增加而呈現(xiàn)下降趨勢,在min_Sup=4時突變到0%附近,并在之后穩(wěn)定于0%。

    準確率突變點的存在是因為電商網(wǎng)站商品網(wǎng)頁經(jīng)過數(shù)據(jù)預(yù)處理后的待識別的未知詞支持度普遍大于等于3,而其他候選未知詞中錯誤的未知詞的支持度普遍小于3,從而導致當min_Sup<3時識別出許多錯誤的未知詞并拉低準確率。召回率突變類似。

    MC算法和FPC算法在使用IKAnalyzer分詞工具時,均可以得到更好的準確率和召回率。這主要是由于算法1和算法2均先對輸入文本進行了分詞處理,分詞的效果將直接影響到未知詞識別的效果。如果分詞工具將一個待識別未知詞的某一部分和其他詞分到了一起,則通過兩個算法都無法識別出正確的未知詞。例如,若未知詞(其中、、為單字或者字串)被分成了和,則經(jīng)過算法1和算法2都無法識別出,而分成和則可以很容易地被兩個算法識別出來。IKAnalyzer分詞工具比MMAnalyzer分詞工具更能避免此類錯誤的分詞結(jié)果,故而具備更高的準確率,又由于在同等情況下能識別出更多的未知詞而具備更高的召回率。算法表現(xiàn)仍然依賴于分詞效果,粒度越細的分詞工具理論上將獲得越好的表現(xiàn)。

    3) 算法的對比

    將使用相同分詞工具時兩個算法的結(jié)果進行對比,如圖4所示。

    由圖4可以看出, FPC算法準確率明顯優(yōu)于MC算法,但召回率則明顯弱于MC算法。由于本文所述的未知詞識別更為強調(diào)較高的準確率,因此本文實驗最終選取minSup=3,犧牲部分召回率換取令人滿意的準確率。

    綜合整個對比分析過程,本文實驗中最終未知詞識別的最佳組合方式為:FPC算法,IKAnalyzer分詞工具,min_Sup=3。

    5 結(jié)束語

    本文針對網(wǎng)絡(luò)中新出現(xiàn)的大量未知實體詞,提出了兩個未知詞識別算法:基于最大組合的上下文相關(guān)算法(MC)和基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC)。兩個算法均充分利用了字詞的上下文關(guān)系信息,可以有效識別專有領(lǐng)域具有非確定型結(jié)構(gòu)的未知實體詞,對于只能識別具有特定結(jié)構(gòu)實體詞的現(xiàn)有算法是一個很好補充。

    實驗表明,本文算法具有較高的準確率。同時,算法可通過調(diào)整支持度閾值參數(shù)min_sup,從而適應(yīng)不同的應(yīng)用場景,具備一定的通用性。

    本文兩個算法中均用到了歧義過濾和最大組合過濾,然而兩種過濾方法均不能完全保證過濾的正確性,如何充分利用詞的構(gòu)詞模式和構(gòu)詞能力形成新的過濾方法是下一步的研究內(nèi)容之一。另外,網(wǎng)頁噪聲處理有多種不同的方法,多種方法對于未知詞識別效果的影響也是下階段研究的重要內(nèi)容。

    參 考 文 獻

    [1] 秦文, 苑春法. 基于決策樹的漢語未登錄詞識別[J]. 中文信息學報, 2004, 18(1): 14-19.

    QIN Wei, YUAN Chun-fa. Identification of Chinese unknown word based on decision tree[J]. Journal of Chinese Information Processing, 2004, 18(1): 14-19.

    [2] 王文榮, 喬曉東, 朱禮軍. 針對特定領(lǐng)域的新詞發(fā)現(xiàn)和新技術(shù)發(fā)現(xiàn)[J]. 現(xiàn)代圖書情報技術(shù), 2008, 161(2): 35-40.

    WANG Wen-rong, QIAO Xiao-dong, ZHU Li-jun. New word and technology discovery of specific domain[J]. New Technology of Library and Information Service, 2008, 161(2): 35-40.

    [3]ZHANG K, LIU Q, ZHANG H, et al. Automatic recognition of Chinese unknown words based on roles tagging[C]//In SIGHAN¢02: Proceedings of the First SIGHAN Workshop on Chinese Language Processing. Association for Computational Linguistics.Stroudsburg: ACM Press, 2002: 1-7.

    [4] ZHOU G D, SU J. Named entity recognition using an HMM-based chunk tagger[C]//In ACL '02: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg: ACM Press, 2002: 473-480.

    [5] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//In COLING '02: Proceedings of the 19th International Conference on Computational linguistics. Stroudsburg: ACM Press, 2002: 1-7.

    [6] KAZAMA J, MAKINO T, OHTA Y, et al. Tuning support vector machines for biomedical named entity recognition[C]//In BioMed¢02: Proceedings of the ACL-02 Workshop on Natural Language Processing in the Biomedical Domain. Association for Computational Linguistics. Stroudsburg: ACM Press, 2002: 1-8.

    [7] FLORIAN R, ITTYCHERIAH A, JING H, et al. Named entity recognition through classifier combination[C]//In CONLL¢03: Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. Stroudsburg: ACM Press, 2003: 168-171.

    [8] CHIEU H L, NG H T. Named entity recognition: a maximum entropy approach using global information[C]//In COLING¢02: Proceedings of the 19th International Conference on Computational Linguistics. Stroudsburg: ACM Press, 2002: 1-7.

    [9] 韓艷, 林煜熙, 姚建民. 基于統(tǒng)計信息的未登錄詞的擴展識別方法[J]. 中文信息學報, 2009, 23(3): 24-30.

    HAN Yan, LIN Yu-xi, YAO Jian-min, Study on Chinese OOV identification based on extension[J]. Journal of Chinese Information Processing, 2009, 23(3): 24-30.

    [10] 周蕾, 朱巧明. 基于統(tǒng)計和規(guī)則的未登錄詞識別方法研究[J]. 計算機工程, 2007, 33(8): 196-198.

    ZHOU Lei, ZHU Qiao-ming. Research on recognition method of unknown Chinese words based on statistic and regulation[J]. Computer Engineering, 2007, 33(8): 196-198.

    [11] 韓潔, 周勇, 劉少輝, 等. 基于WWW的未登錄詞識別研究[J]. 計算機科學, 2002, 29(12): 155-156.

    HAN Jie, ZHOU Yong, LIU Shao-hui, et al. WWW-based recognition of non-login words[J]. Computer Science, 2002, 29(12): 155-156.

    [12] HAN J, KAMBER M, PEI J. Data mining: Concepts and techniques[M]. San Francisco: Morgan Kaufmann, 2006.

    [13] WANG Kun-shan. IKAnalyzer[EB/OL]. [2015-01-17]. https://github. com/ wks/ik-analyzer.

    編 輯 蔣 曉

    Unknown Words Recognition Based on Context-Sensitive Algorithm

    XIA Hu1,2and HUANG Wen-qian2

    (1. Big Data Research Center, University of Electronic Science and Technology of China Chengdu 611731; 2. Web Sciences Center, University of Electronic Science and Technology of China Chengdu 611731)

    Existing unknown words recognition methods mainly focus on unknown words with some specific structure, such as names, places and organizations. However, with the booming of e-commerce and social networking, more and more unknown entity words with uncertain structures appear in specific areas. In order to handle this problem, this paper presents two algorithms of unknown words recognition based on context-sensitive method. We first calculate correlations between any two words in sequence to get support of any potential combination, then filter out wrong combinations by filtering module, and achieve the recognition aiming at the non-deterministic structure of unknown words. Experiment results indicate that two algorithms can achieve a high accuracy. Besides, they can adapt to different application scenarios by adjusting the parameters.

    association rules; context-sensitivity; unknown word recognition; word sense disambiguation

    TP181

    A

    10.3969/j.issn.1001-0548.2016.05.022

    2015-02-06;

    2015-06-15

    國家自然科學基金(61250110543);中央高?;究蒲袠I(yè)務(wù)費(ZYGX2013J079, ZYGX2014Z012, ZYGX2011J067);四川省科技項目(2012RZ0002, 2013TD0006)

    夏虎(1981-),男,博士,主要從事數(shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)方面的研究.

    猜你喜歡
    歧義分詞文檔
    有人一聲不吭向你扔了個文檔
    eUCP條款歧義剖析
    中國外匯(2019年12期)2019-10-10 07:26:58
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    English Jokes: Homonyms
    基于RI碼計算的Word復(fù)制文檔鑒別
    值得重視的分詞的特殊用法
    “那么大”的語義模糊與歧義分析
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    高考分詞作狀語考點歸納與疑難解析
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    人人妻人人澡人人看| 色老头精品视频在线观看| 亚洲av第一区精品v没综合| 怎么达到女性高潮| 国产精品二区激情视频| 麻豆久久精品国产亚洲av| 真人做人爱边吃奶动态| 大香蕉久久成人网| 97人妻精品一区二区三区麻豆 | 国产av在哪里看| 久久久久久亚洲精品国产蜜桃av| 19禁男女啪啪无遮挡网站| 精品国产亚洲在线| 国产在线精品亚洲第一网站| 极品教师在线免费播放| 欧美+亚洲+日韩+国产| 中文字幕高清在线视频| 国产一区二区激情短视频| 亚洲最大成人中文| 亚洲国产精品成人综合色| 日韩 欧美 亚洲 中文字幕| 欧美成人午夜精品| 国产亚洲av嫩草精品影院| 国产精品爽爽va在线观看网站 | 一级片免费观看大全| 国产日韩一区二区三区精品不卡| 欧美中文日本在线观看视频| 露出奶头的视频| 村上凉子中文字幕在线| 久久青草综合色| 国产精品亚洲av一区麻豆| 18禁黄网站禁片午夜丰满| 久久精品人人爽人人爽视色| 动漫黄色视频在线观看| 久久精品亚洲熟妇少妇任你| 757午夜福利合集在线观看| 窝窝影院91人妻| 制服人妻中文乱码| 一卡2卡三卡四卡精品乱码亚洲| 国产成人av教育| 欧美色视频一区免费| 18禁裸乳无遮挡免费网站照片 | www日本在线高清视频| 色综合婷婷激情| 亚洲色图综合在线观看| 制服人妻中文乱码| 黄色a级毛片大全视频| 成人亚洲精品av一区二区| 久久精品国产99精品国产亚洲性色 | 精品福利观看| 手机成人av网站| 韩国av一区二区三区四区| 在线观看免费日韩欧美大片| 老熟妇乱子伦视频在线观看| 国产亚洲欧美98| 亚洲国产欧美日韩在线播放| 两个人看的免费小视频| 丰满人妻熟妇乱又伦精品不卡| 热99re8久久精品国产| x7x7x7水蜜桃| 性欧美人与动物交配| 国产97色在线日韩免费| 国产97色在线日韩免费| 欧美黄色淫秽网站| 91麻豆av在线| 熟女少妇亚洲综合色aaa.| 极品人妻少妇av视频| 极品人妻少妇av视频| 精品午夜福利视频在线观看一区| 在线av久久热| 亚洲avbb在线观看| 成熟少妇高潮喷水视频| 欧洲精品卡2卡3卡4卡5卡区| 国产在线精品亚洲第一网站| 91精品国产国语对白视频| 看免费av毛片| 啦啦啦韩国在线观看视频| 国产成人av激情在线播放| 精品一区二区三区av网在线观看| 日本一区二区免费在线视频| 久9热在线精品视频| 亚洲五月天丁香| 免费女性裸体啪啪无遮挡网站| 亚洲av第一区精品v没综合| 久久久久久久午夜电影| 久久久久久大精品| 久久精品人人爽人人爽视色| 精品国产乱码久久久久久男人| or卡值多少钱| 国产三级黄色录像| 黄色视频不卡| 久久中文看片网| 久久久久久人人人人人| 一级a爱视频在线免费观看| 少妇熟女aⅴ在线视频| 女人爽到高潮嗷嗷叫在线视频| 在线播放国产精品三级| 日本在线视频免费播放| 精品国内亚洲2022精品成人| 波多野结衣巨乳人妻| 热re99久久国产66热| 日日爽夜夜爽网站| 在线观看舔阴道视频| 9191精品国产免费久久| 亚洲国产日韩欧美精品在线观看 | 亚洲成国产人片在线观看| 国产熟女午夜一区二区三区| 亚洲欧美激情综合另类| tocl精华| 99riav亚洲国产免费| 欧美人与性动交α欧美精品济南到| 久9热在线精品视频| 国产成人av教育| 欧美丝袜亚洲另类 | 亚洲中文字幕日韩| 又紧又爽又黄一区二区| 亚洲专区国产一区二区| 国产精品99久久99久久久不卡| 亚洲欧美日韩另类电影网站| 激情视频va一区二区三区| 免费在线观看影片大全网站| 不卡一级毛片| 国产精品综合久久久久久久免费 | 999精品在线视频| 日韩中文字幕欧美一区二区| 香蕉久久夜色| 国内精品久久久久精免费| 丁香六月欧美| 日韩精品中文字幕看吧| 精品少妇一区二区三区视频日本电影| 在线观看免费视频日本深夜| 不卡一级毛片| 纯流量卡能插随身wifi吗| 成人国产一区最新在线观看| 一a级毛片在线观看| 亚洲精品美女久久av网站| 亚洲精品粉嫩美女一区| 成在线人永久免费视频| 18美女黄网站色大片免费观看| 如日韩欧美国产精品一区二区三区| 久9热在线精品视频| 97超级碰碰碰精品色视频在线观看| 国产精品久久电影中文字幕| 国产99久久九九免费精品| 咕卡用的链子| 亚洲专区字幕在线| 国产精品国产高清国产av| 成人av一区二区三区在线看| 久久久国产欧美日韩av| 91精品三级在线观看| 久久中文字幕人妻熟女| 亚洲人成电影观看| 精品无人区乱码1区二区| 日本在线视频免费播放| 日日摸夜夜添夜夜添小说| 国产亚洲精品av在线| 9热在线视频观看99| 日韩中文字幕欧美一区二区| 久久欧美精品欧美久久欧美| avwww免费| 久久天堂一区二区三区四区| 国产成年人精品一区二区| 黄频高清免费视频| 给我免费播放毛片高清在线观看| 久久草成人影院| 午夜成年电影在线免费观看| 欧美最黄视频在线播放免费| 777久久人妻少妇嫩草av网站| 日韩精品青青久久久久久| 黄色女人牲交| 欧美日韩亚洲综合一区二区三区_| 99国产精品一区二区蜜桃av| 欧美成狂野欧美在线观看| 成人国语在线视频| 黄片播放在线免费| 一本综合久久免费| 不卡一级毛片| av视频免费观看在线观看| 亚洲精品国产精品久久久不卡| 18禁美女被吸乳视频| 日韩有码中文字幕| 九色国产91popny在线| 国产熟女xx| 国产一区二区三区视频了| 成人特级黄色片久久久久久久| 女人被躁到高潮嗷嗷叫费观| 国产又色又爽无遮挡免费看| 免费在线观看完整版高清| 欧美日韩亚洲综合一区二区三区_| 亚洲狠狠婷婷综合久久图片| 久久久久久国产a免费观看| 99国产精品一区二区蜜桃av| 可以在线观看的亚洲视频| 精品久久久久久成人av| 免费在线观看日本一区| 日韩大尺度精品在线看网址 | 十八禁网站免费在线| 欧美av亚洲av综合av国产av| 免费看a级黄色片| av欧美777| 国产一区二区在线av高清观看| 色播亚洲综合网| 制服诱惑二区| 热99re8久久精品国产| 国产精品一区二区在线不卡| 人人澡人人妻人| 51午夜福利影视在线观看| 久久狼人影院| 国产91精品成人一区二区三区| 搡老妇女老女人老熟妇| 亚洲人成电影观看| tocl精华| 后天国语完整版免费观看| 99久久精品国产亚洲精品| 淫妇啪啪啪对白视频| 亚洲精品一卡2卡三卡4卡5卡| 午夜福利18| 国产一区二区在线av高清观看| 一本久久中文字幕| 日本一区二区免费在线视频| 亚洲欧洲精品一区二区精品久久久| 亚洲在线自拍视频| 岛国在线观看网站| 一边摸一边做爽爽视频免费| 日本欧美视频一区| 视频区欧美日本亚洲| 制服诱惑二区| 国产精品久久电影中文字幕| 一本综合久久免费| 男人舔女人的私密视频| 久久中文看片网| 久久精品91无色码中文字幕| 大码成人一级视频| 亚洲午夜理论影院| 天天躁夜夜躁狠狠躁躁| 国产精品一区二区三区四区久久 | 欧美在线黄色| 久久中文字幕人妻熟女| 日韩有码中文字幕| 精品一区二区三区av网在线观看| 国产精品免费视频内射| 美女午夜性视频免费| 少妇裸体淫交视频免费看高清 | 亚洲一区二区三区不卡视频| 99久久久亚洲精品蜜臀av| 日韩欧美三级三区| 一级,二级,三级黄色视频| 国产激情久久老熟女| 女性被躁到高潮视频| 国产av在哪里看| 视频区欧美日本亚洲| 国产精品美女特级片免费视频播放器 | 免费高清视频大片| 最近最新中文字幕大全免费视频| 后天国语完整版免费观看| 久久久久久久久免费视频了| 侵犯人妻中文字幕一二三四区| 欧美av亚洲av综合av国产av| 国产亚洲欧美在线一区二区| 国产色视频综合| 精品久久久久久成人av| 天天一区二区日本电影三级 | 嫁个100分男人电影在线观看| 非洲黑人性xxxx精品又粗又长| 亚洲在线自拍视频| 日韩中文字幕欧美一区二区| 男女下面进入的视频免费午夜 | 搞女人的毛片| 亚洲精品在线观看二区| 亚洲狠狠婷婷综合久久图片| bbb黄色大片| 国产精品电影一区二区三区| 999精品在线视频| 深夜精品福利| 亚洲人成电影免费在线| 怎么达到女性高潮| 精品不卡国产一区二区三区| 一区福利在线观看| 亚洲精华国产精华精| 欧美成人免费av一区二区三区| 咕卡用的链子| 久久久久亚洲av毛片大全| 国产精品精品国产色婷婷| 国产区一区二久久| 91在线观看av| 老汉色∧v一级毛片| 亚洲精品粉嫩美女一区| 免费在线观看黄色视频的| xxx96com| 欧美亚洲日本最大视频资源| 日韩三级视频一区二区三区| 69精品国产乱码久久久| 热re99久久国产66热| 国产av在哪里看| 黄色视频不卡| 别揉我奶头~嗯~啊~动态视频| 欧美最黄视频在线播放免费| 男人舔女人的私密视频| 成在线人永久免费视频| 性欧美人与动物交配| 亚洲av成人一区二区三| 婷婷精品国产亚洲av在线| 成在线人永久免费视频| 精品久久蜜臀av无| 少妇熟女aⅴ在线视频| 国产xxxxx性猛交| 精品国产乱码久久久久久男人| 国产精品亚洲av一区麻豆| 韩国av一区二区三区四区| 巨乳人妻的诱惑在线观看| 久久久久久久精品吃奶| 国产片内射在线| 激情视频va一区二区三区| 99热只有精品国产| 91国产中文字幕| 脱女人内裤的视频| 此物有八面人人有两片| 国产av精品麻豆| e午夜精品久久久久久久| 看黄色毛片网站| 亚洲国产精品sss在线观看| 欧美激情高清一区二区三区| 成年女人毛片免费观看观看9| 三级毛片av免费| 老司机福利观看| 免费无遮挡裸体视频| 久热这里只有精品99| 久9热在线精品视频| 国产免费男女视频| 国产一区在线观看成人免费| 51午夜福利影视在线观看| 法律面前人人平等表现在哪些方面| 少妇 在线观看| 91精品三级在线观看| 亚洲欧美激情综合另类| 免费在线观看视频国产中文字幕亚洲| 亚洲视频免费观看视频| 禁无遮挡网站| 亚洲 欧美一区二区三区| 999久久久国产精品视频| 日韩视频一区二区在线观看| 亚洲人成伊人成综合网2020| 免费在线观看视频国产中文字幕亚洲| 亚洲片人在线观看| 大香蕉久久成人网| 精品高清国产在线一区| 国产成人系列免费观看| 亚洲aⅴ乱码一区二区在线播放 | 精品国产亚洲在线| 岛国视频午夜一区免费看| 久久香蕉激情| 亚洲av片天天在线观看| 国产主播在线观看一区二区| 亚洲色图 男人天堂 中文字幕| 免费一级毛片在线播放高清视频 | 欧美日韩一级在线毛片| 亚洲av成人一区二区三| 国产不卡一卡二| 久久天躁狠狠躁夜夜2o2o| 我的亚洲天堂| 欧美+亚洲+日韩+国产| 国内毛片毛片毛片毛片毛片| 亚洲avbb在线观看| 成人特级黄色片久久久久久久| 日韩三级视频一区二区三区| 亚洲人成伊人成综合网2020| 欧美精品啪啪一区二区三区| 男女床上黄色一级片免费看| 一进一出抽搐动态| 欧美 亚洲 国产 日韩一| 欧美激情 高清一区二区三区| 女人被狂操c到高潮| 变态另类成人亚洲欧美熟女 | 日日摸夜夜添夜夜添小说| 99re在线观看精品视频| 亚洲成av人片免费观看| 9191精品国产免费久久| 久久精品aⅴ一区二区三区四区| 久99久视频精品免费| 久久久久国产精品人妻aⅴ院| 国产精品免费一区二区三区在线| 91国产中文字幕| 91在线观看av| 久热这里只有精品99| 国产极品粉嫩免费观看在线| 美国免费a级毛片| 在线免费观看的www视频| 国产精品秋霞免费鲁丝片| 国产精品98久久久久久宅男小说| 少妇被粗大的猛进出69影院| 久9热在线精品视频| 免费在线观看视频国产中文字幕亚洲| 欧美老熟妇乱子伦牲交| 欧美日韩福利视频一区二区| 女性被躁到高潮视频| av有码第一页| 成年女人毛片免费观看观看9| 精品国产亚洲在线| 久久中文字幕人妻熟女| 最近最新中文字幕大全电影3 | 亚洲va日本ⅴa欧美va伊人久久| 十八禁网站免费在线| 自拍欧美九色日韩亚洲蝌蚪91| 波多野结衣巨乳人妻| 久久国产乱子伦精品免费另类| 色播亚洲综合网| 国产亚洲欧美精品永久| 女同久久另类99精品国产91| 亚洲狠狠婷婷综合久久图片| 高清在线国产一区| 亚洲专区中文字幕在线| 欧美日韩亚洲综合一区二区三区_| 久久久久精品国产欧美久久久| 伊人久久大香线蕉亚洲五| 午夜免费激情av| 高潮久久久久久久久久久不卡| 岛国在线观看网站| 亚洲中文av在线| 自拍欧美九色日韩亚洲蝌蚪91| 午夜视频精品福利| 一级,二级,三级黄色视频| 黑人操中国人逼视频| 在线免费观看的www视频| 最新在线观看一区二区三区| 亚洲国产高清在线一区二区三 | 久久精品国产亚洲av香蕉五月| 国内精品久久久久久久电影| 一二三四在线观看免费中文在| 日韩视频一区二区在线观看| 国产精品一区二区在线不卡| 97人妻精品一区二区三区麻豆 | www.999成人在线观看| 一级作爱视频免费观看| 午夜激情av网站| 久久香蕉国产精品| 国产高清videossex| 村上凉子中文字幕在线| 久久午夜亚洲精品久久| 一本大道久久a久久精品| 亚洲熟妇熟女久久| 高清在线国产一区| 欧美av亚洲av综合av国产av| 啦啦啦观看免费观看视频高清 | 精品一品国产午夜福利视频| 黄片大片在线免费观看| 中文字幕高清在线视频| avwww免费| 国产区一区二久久| 久久婷婷成人综合色麻豆| av超薄肉色丝袜交足视频| 女人爽到高潮嗷嗷叫在线视频| 欧美激情 高清一区二区三区| 91麻豆av在线| 97碰自拍视频| 国产色视频综合| 欧美日韩精品网址| 黑丝袜美女国产一区| 久久热在线av| 国产真人三级小视频在线观看| 又大又爽又粗| 又黄又爽又免费观看的视频| 色综合站精品国产| 久久国产精品人妻蜜桃| 男女下面进入的视频免费午夜 | 大型av网站在线播放| 精品卡一卡二卡四卡免费| 一进一出好大好爽视频| 两人在一起打扑克的视频| 色哟哟哟哟哟哟| 1024视频免费在线观看| 欧美 亚洲 国产 日韩一| 亚洲精品粉嫩美女一区| 在线播放国产精品三级| 亚洲自拍偷在线| 精品国产一区二区久久| 久久久久久免费高清国产稀缺| av网站免费在线观看视频| 国产免费男女视频| 91成年电影在线观看| 日韩大尺度精品在线看网址 | 法律面前人人平等表现在哪些方面| 99国产极品粉嫩在线观看| 久9热在线精品视频| 女性被躁到高潮视频| 99国产精品免费福利视频| 99精品久久久久人妻精品| 成人精品一区二区免费| 国产男靠女视频免费网站| 90打野战视频偷拍视频| 99久久国产精品久久久| 免费一级毛片在线播放高清视频 | 日韩视频一区二区在线观看| 狂野欧美激情性xxxx| 欧美激情久久久久久爽电影 | 精品国产乱子伦一区二区三区| 一区二区日韩欧美中文字幕| 性欧美人与动物交配| 久久久久亚洲av毛片大全| 香蕉国产在线看| 成人特级黄色片久久久久久久| 久久久久久久久久久久大奶| 免费在线观看视频国产中文字幕亚洲| 欧美日韩中文字幕国产精品一区二区三区 | 老司机午夜福利在线观看视频| 久久久久久人人人人人| 久久精品成人免费网站| 在线十欧美十亚洲十日本专区| 国产精品精品国产色婷婷| 波多野结衣巨乳人妻| 久久久水蜜桃国产精品网| 两个人看的免费小视频| 亚洲激情在线av| 多毛熟女@视频| 国产一区在线观看成人免费| 夜夜夜夜夜久久久久| 成人国产一区最新在线观看| 99在线视频只有这里精品首页| 国产精品98久久久久久宅男小说| 中文字幕另类日韩欧美亚洲嫩草| 亚洲av片天天在线观看| 欧美激情极品国产一区二区三区| 夜夜躁狠狠躁天天躁| 国产精品免费一区二区三区在线| 国产片内射在线| av视频免费观看在线观看| 欧美一级毛片孕妇| 亚洲国产精品sss在线观看| 免费不卡黄色视频| av中文乱码字幕在线| bbb黄色大片| 一区二区三区高清视频在线| 如日韩欧美国产精品一区二区三区| 动漫黄色视频在线观看| a在线观看视频网站| 麻豆成人av在线观看| 麻豆av在线久日| 久久香蕉精品热| 久久久久九九精品影院| 国产亚洲av高清不卡| 亚洲国产欧美一区二区综合| 欧美精品啪啪一区二区三区| 欧美成人性av电影在线观看| 天天一区二区日本电影三级 | 成人精品一区二区免费| 国产精品九九99| 精品高清国产在线一区| 国产三级黄色录像| 国产成人av激情在线播放| 国产成年人精品一区二区| 怎么达到女性高潮| 久久香蕉国产精品| 真人做人爱边吃奶动态| 亚洲精品美女久久久久99蜜臀| 国产在线精品亚洲第一网站| 欧美黄色片欧美黄色片| 久久人妻av系列| 国产成年人精品一区二区| 亚洲 欧美一区二区三区| videosex国产| 热re99久久国产66热| 一个人免费在线观看的高清视频| 一级毛片高清免费大全| 美女高潮到喷水免费观看| 亚洲 欧美一区二区三区| 99在线人妻在线中文字幕| 一级毛片精品| 亚洲人成77777在线视频| 国产亚洲精品av在线| 国内毛片毛片毛片毛片毛片| 欧美性长视频在线观看| 日韩av在线大香蕉| 亚洲最大成人中文| 亚洲aⅴ乱码一区二区在线播放 | 十八禁人妻一区二区| 亚洲欧美激情在线| 麻豆国产av国片精品| 日本免费一区二区三区高清不卡 | 国产一区二区三区视频了| 欧美人与性动交α欧美精品济南到| 老熟妇仑乱视频hdxx| 久久久精品国产亚洲av高清涩受| 免费看a级黄色片| 精品午夜福利视频在线观看一区| 国产不卡一卡二| 亚洲天堂国产精品一区在线| 国产精品二区激情视频| 可以在线观看毛片的网站| 19禁男女啪啪无遮挡网站| 精品卡一卡二卡四卡免费| 一夜夜www| 老司机在亚洲福利影院| 在线观看免费日韩欧美大片| 亚洲国产高清在线一区二区三 | 午夜福利免费观看在线| 又黄又粗又硬又大视频| 高清黄色对白视频在线免费看| 黄色成人免费大全| 在线观看免费日韩欧美大片| 成人av一区二区三区在线看| 在线观看日韩欧美| 国产av在哪里看| 婷婷丁香在线五月| 国产精品久久久人人做人人爽| 9色porny在线观看| 色综合站精品国产| 香蕉久久夜色| 久久久久久久久久久久大奶| 一区二区三区激情视频| 久99久视频精品免费| 亚洲自拍偷在线| 欧美中文综合在线视频| 国产亚洲精品第一综合不卡| 精品欧美一区二区三区在线| 国产精品久久久久久精品电影 | 夜夜躁狠狠躁天天躁|