夏 虎,黃文茜
?
基于上下文相關(guān)的未知實體詞識別方法
夏 虎1,2,黃文茜2
(1. 電子科技大學大數(shù)據(jù)研究中心 成都 611731;2. 電子科技大學互聯(lián)網(wǎng)科學中心 成都 611731)
現(xiàn)有的未知實體詞識別方法主要針對人名、地名、機構(gòu)名等具有特定結(jié)構(gòu)的實體詞進行識別,而隨著電子商務(wù)和社交網(wǎng)絡(luò)的快速發(fā)展,出現(xiàn)了大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞。針對該問題,提出兩種基于上下文相關(guān)的未知詞識別算法,通過計算詞(字)和詞(字)之間的上下文相關(guān)性,得到其潛在組合的支持度,并通過過濾模塊過濾掉錯誤的組合,實現(xiàn)具有非確定型結(jié)構(gòu)的未知實體詞識別。實驗表明,該算法具有較高的準確率,并且可以通過調(diào)整參數(shù)適應(yīng)不同的應(yīng)用場景。
關(guān)聯(lián)規(guī)則; 上下文相關(guān); 未知詞識別; 詞義消歧
命名實體是文本中承載信息的重要語言單位,命名實體的識別在網(wǎng)絡(luò)信息抽取、網(wǎng)絡(luò)內(nèi)容分析和知識工程等領(lǐng)域都占有非常重要的地位。傳統(tǒng)的命名實體識別主要針對人名、地名、機構(gòu)名以及產(chǎn)品命名實體等具有特定結(jié)構(gòu)的實體詞[1]。然而,隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞,例如電子商務(wù)中大量出現(xiàn)的新商品名稱、網(wǎng)絡(luò)用語“醬紫(這樣子)、斑竹(版主)”等,這類未知詞結(jié)構(gòu)多樣,沒有特定的規(guī)律,用傳統(tǒng)的未知詞識別方法難以有效識別。
目前未知詞識別領(lǐng)域的研究主要有3種方法:基于統(tǒng)計的方法、基于規(guī)則的方法以及兩者結(jié)合的方法。基于統(tǒng)計的方法認為:如果若干個相鄰的字或詞經(jīng)常同時出現(xiàn),它們則可能是一個新詞。這種方法簡單高效易實現(xiàn),但需要大量訓練數(shù)據(jù),而且由于未考慮不同詞的構(gòu)詞能力[2]和構(gòu)詞模式,識別的準確率不高?;谝?guī)則的方法通過標注詞典和成詞規(guī)則來識別新詞,這些規(guī)則往往需要專家針對特定領(lǐng)域來具體制定,該方法準確率高,但規(guī)則制定費時費力,且不同領(lǐng)域需要重新制定相應(yīng)規(guī)則,領(lǐng)域適應(yīng)性差。針對上述兩種方法中的問題,越來越多的研究者采用統(tǒng)計與規(guī)則相結(jié)合的思路,取得了許多顯著的成果,本文采用的基于上下文相關(guān)的算法即為其中一種。
一個字或詞的上下文是指出現(xiàn)在它前后的那些字或詞,在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”,例如“清倉/圣/麗/奴/時尚/女/挎包”、“橫款/圣/麗/奴/兩用/包”、“高級/提花布/深/咖/圣/麗/奴/女/挎包”的分詞結(jié)果可以看出,“麗”的上下文信息中總是包括“圣”和“奴”,也就是說“圣”、“麗”、“奴”3個字經(jīng)常依此順序共同出現(xiàn),而“圣麗奴”整體并沒有固定的上下文信息,因此本文認為“圣麗奴”有較大概率為一個未知實體詞。
以上述理論為基礎(chǔ),本文提出了兩種基于上下文信息進行未知詞識別的方法。其中,基于最大組合的上下文相關(guān)算法(MC)利用統(tǒng)計的手段,獲取由二元組、三元組、四元組、五元組構(gòu)成的候選未知實體詞集,然后利用上下文信息對候選未知實體詞進行支持度過濾、歧義過濾和最大組合過濾,獲取真正的未知實體詞。
進一步,本文提出了一種基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC),在FP樹構(gòu)建和頻繁模式挖掘過程中加入各“項”(分詞后的字或詞)在文中出現(xiàn)的下標信息,利用此信息保證挖掘出的頻繁模式中各項在文中的相鄰關(guān)系以及前后順序。從而避免了傳統(tǒng)FP-growth算法不能保證挖掘出各項之間原始的相鄰關(guān)系和前后順序而不適合用于未知實體詞識別的問題。
實驗結(jié)果表明,在某電子商務(wù)網(wǎng)站的2 000個商品網(wǎng)頁源文件上進行的3個類別數(shù)據(jù)集上,本文的兩種方法均能有效地對結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞進行識別,具有較高的準確率。
文獻[3]提出了一種基于角色標注的中文未登錄詞識別通用方法。該方法依據(jù)角色,即未登錄詞的內(nèi)部組成成分、上下文及句子中的其他成分來識別未登錄詞。算法簡單可行,具備較好的準確率和召回率,尤其適用于中國人名和音譯名的識別。
文獻[4]提出了一種隱馬爾科夫模型(hidden Markov model, HMM)和一個基于HMM的塊標注器,并在此基礎(chǔ)上建立了命名實體識別系統(tǒng)(NER)以識別姓名、時間以及數(shù)字量。系統(tǒng)整合了四方面的證據(jù):詞語包含的簡單且確定性的內(nèi)部特征,如大寫、數(shù)字、觸發(fā)器等內(nèi)部語義特征以及外部上下文特征。該系統(tǒng)在蛋白基因(MUC-6和MUC-7)的英文命名實體識別任務(wù)中分別達到了96.6%和94.1%的準確率。
文獻[5]提出了一種基于支持向量機(SVM)的命名實體識別系統(tǒng)。該系統(tǒng)從文檔中提取名稱、數(shù)字信息并將其分類成人名、組織名以及日期。該系統(tǒng)取得了較高的準確率,并且解決了傳統(tǒng)SVM效率不高的問題。文獻[6]則提出利用SVM進行生物醫(yī)學命名實體識別。該系統(tǒng)采用了字詞緩存以及HMM狀態(tài)兩個新特征,在GENIA語料庫上取得了令人滿意的結(jié)果。
文獻[7]提出了一種組合分類器的實驗框架以識別命名實體。該框架組合了4個不同的分類器:魯棒的線性分類器、最大熵模型、遷移學習及隱馬爾科夫模型。文獻[8]提出基于最大熵模型的命名實體識別系統(tǒng),該系統(tǒng)直接利用整篇文檔的全局信息來分類每一個具體的詞,并且僅使用了一個分類器而不是二級分類器。
文獻[9]提出了一種基于網(wǎng)絡(luò)資源的未登錄詞擴展識別方法。該方法利用統(tǒng)計的思想,以左右鄰信息判斷未登錄詞邊界,對已識別出的二元候選未登錄詞進行擴展,找出具有更完整語義的不限長度復(fù)合未登錄詞。該方法簡單高效,但沒有充分考慮不同詞的構(gòu)詞能力和構(gòu)詞模式,容易因成詞率低的高頻詞引發(fā)擴展錯誤,因此準確率不高。
文獻[10]提出了一種基于統(tǒng)計和規(guī)則的未登錄詞識別方法。該方法將文本分詞后的碎片切分形成臨時詞典,再利用規(guī)則和詞頻對其賦以不同的權(quán)值,最后用貪心算法得到碎片的最長路徑,從而識別出未登錄詞,并進一步利用互信息提取若干個詞組成未登錄詞(組)。該方法能正確識別出碎片中的大部分未登錄詞,但是識別正確性依賴于分詞性能且對人名的識別規(guī)則不夠完善。
文獻[11]提出先將文本進行分詞,再利用N-Grams方法得到候選未登錄詞集,之后通過概率統(tǒng)計的手段從中識別出未登錄詞。但這種方法在各個閾值的設(shè)定、中文詞組的確定規(guī)則以及噪音字的選取方面仍需進一步完善。
綜上所述,目前未知詞識別的研究對象主要集中在人名、地名、機構(gòu)名或者產(chǎn)品命名實體等具有特定結(jié)構(gòu)的實體詞上,對于近幾年網(wǎng)絡(luò)中出現(xiàn)的大量結(jié)構(gòu)不確定的專有領(lǐng)域未知實體詞的研究較少,本文特針對該問題提出兩種識別方法。
一個字或詞的上下文是指出現(xiàn)在它前后的那些字或詞,在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”。本文算法充分利用字詞的上下文關(guān)系統(tǒng)計獲取候選未知詞集,然后通過支持度過濾、歧義過濾以及最大組合過濾篩選出最終的未知詞,具體流程如下:
1) 對于輸入文檔集中的任一文檔,首先將文本中“,、。;:”5種標點替換為換行符得到文檔;
2) 對文檔分詞,得到文檔,將中的每個詞/字作為基本單位“項”,對于每一行文本,統(tǒng)計該行相鄰項之間形成的元組(2≤≤5)出現(xiàn)的次數(shù)count,形成集合<元組, count>;
3) 將中具有相同元組的count值合并,作為該元組在文檔中的總支持度,并過濾掉count 4) 進行歧義過濾(參考2.1節(jié))及最大組合過濾(參考2.2節(jié)),得到最終識別出的未知實體詞; 5) 相同未知詞可能出現(xiàn)在單一文檔的不同位置,也可能出現(xiàn)在文檔集的任一文檔中,因此需要針對所有文檔遍歷完后得到的組合集totalPat中再進行一遍歧義過濾和最大組合過濾。最后得到的結(jié)果保存在未知詞集unKnown中,算法結(jié)束。 歧義過濾是指若識別出兩個“歧義組合”,僅保留count值最大的未知詞組合。歧義組合定義如下: 定義1 歧義組合 如圖1所示,在“施華洛世奇水晶鏈墜”的分詞字符串中,“世奇”和“奇水晶”就是一對歧義組合,兩種劃分方式必然只有一種正確。根據(jù)“世奇”與“奇水晶”在全文中的支持度,可以過濾掉支持度較低的“奇水晶”這樣的錯誤組合。 最大組合過濾是指若識別出若干個具有“歧義父子串關(guān)系”的組合,則保留歧義父串而去掉歧義子串。歧義父子串關(guān)系定義如下。 定義2 歧義父子串 如圖2所示,在“施華洛世奇水晶鏈墜”的分詞字符串中,“施華洛世奇”與“施華洛世”、“華洛世奇”、“華洛世”等具有相同的支持度,構(gòu)成了歧義父子串關(guān)系,根據(jù)最大組合過濾規(guī)則只保留“施華洛世奇”這一歧義父串組合。 基于最大組合的上下文相關(guān)算法MC利用統(tǒng)計信息構(gòu)造候選未知詞集,然后通過支持度過濾、歧義過濾以及最大組合過濾,刪除候選未知詞集合中絕大部分錯誤的候選詞,從而識別出正確的未知實體詞。 MC算法簡單高效,可以有效識別出網(wǎng)頁中的未知實體詞。MC算法的主要思想是認為在文本中相鄰的字詞共同出現(xiàn)的次數(shù)越多,它們越有可能是一個“未知詞”。而關(guān)聯(lián)規(guī)則算法是挖掘數(shù)據(jù)項共同出現(xiàn)關(guān)系的經(jīng)典算法。因此,下文基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法FPC提出利用關(guān)聯(lián)規(guī)則挖掘字詞間的共現(xiàn)關(guān)系來識別未知實體詞。 FP-growth算法[12]是一種高效的關(guān)聯(lián)規(guī)則挖掘算法,但是由于未保證挖掘出的頻繁模式中各項間的相鄰關(guān)系和前后順序而不適合直接用做未知詞識別。本文提出的基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法改進了FP-growth算法,在FP樹構(gòu)造過程以及頻繁模式挖掘過程均充分利用了文檔中各項出現(xiàn)位置的下標信息,有效地保證了所挖掘頻繁模式中的各項間具備正確的相鄰關(guān)系以及前后順序,亦即保證了識別出的未知詞在上下文意義上的正確性。 與MC算法類似,本文算法首先對輸入文檔集中的每一個文檔d進行文本切分處理,即將其中的“、,。;:”5種標點換為換行符得到文檔,分詞后得到文檔。中每一個分詞后的單位稱為“項”,每一行稱為一條“事務(wù)記錄”。為了存儲每個項在文檔中出現(xiàn)的所有位置的下標,將每一項的數(shù)據(jù)結(jié)構(gòu)定義為,其中name是該項的名字,index是該項在文檔中出現(xiàn)的位置編號數(shù)組,flag是排序的標志,用于將之后挖掘出的頻繁模式按照在文中出現(xiàn)的先后順序排序。對于文檔,F(xiàn)PCTree構(gòu)造與頻繁模式挖掘的過程如下。 1) FPCTree的構(gòu)造 ①掃描文檔,得到頻繁1項集,對它們的支持度計數(shù),統(tǒng)計index信息,將頻繁1項集按照支持度遞減排序,若支持度相同,則按照各項在文中出現(xiàn)的先后順序排序。刪除支持度小于minSup的項,得到1項集。 ③第二次掃描文檔,每條事務(wù)記錄中的項按照1中的順序排序,設(shè)排序后的頻繁項表為,其中為頻繁項表的第一項,為頻繁項表中的剩余項。調(diào)用函數(shù)遞歸的將每一項加入到FP樹中。執(zhí)行過程如下:首先判斷的兒子節(jié)點中是否存在的同名節(jié)點,即存在一兒子節(jié)點,滿足。若存在,則節(jié)點的count計數(shù)加1,將節(jié)點index數(shù)組中的所有下標加入到節(jié)點的index數(shù)組中去;若不存在,則創(chuàng)建一個新節(jié)點,將其count值設(shè)為1,鏈接到它的父節(jié)點,并通過nextHomonym鏈接到下一個同名節(jié)點。將加入到的子節(jié)點數(shù)組中。 2) 從FPCTree中挖掘候選頻繁模式 對1中的每一項item執(zhí)行以下步驟: ①生成條件模式基。利用nextHomonym信息,找到所有item同名節(jié)點的祖先路徑,路徑上所有節(jié)點count值均設(shè)為item的count值。 ②構(gòu)建條件FP樹。將條件模式基作為事務(wù)記錄生成條件FP樹。 ③對于條件FP樹中的每一條長路徑生成項的任意組合方式,得到組合集。過濾掉中支持度小于minSup的組合,得到組合集。對于中的每一個組合,利用各項的index信息判斷組合的上下文順序是否正確。若正確,則獲取該組合的支持度,并且將該組合按照在文中出現(xiàn)的先后順序排序;若不正確,刪掉該組合。得到候選頻繁模式集Pat。 ④挖掘出所有item的候選頻繁模式后,將相同的模式合并。 ⑤識別出文檔中的候選未知詞集Pat后,同MC算法一樣,仍然需要在文檔內(nèi)部以及文檔間進行歧義過濾與最大組合過濾,得到最終的未知詞集unKnown,算法結(jié)束。 本文利用爬蟲程序采集了某電商網(wǎng)站2 000個商品源文件,涉及項鏈、涼鞋、包、羽絨服、帽子、連衣裙、圍巾、燈飾、針織衫和牛仔褲等10個類別的商品,每個類別中商品數(shù)量均為200。按商品類別等比例選取其中1 000份作為數(shù)據(jù)集1,剩余1 000份作為數(shù)據(jù)集2。 實驗首先針對網(wǎng)頁進行數(shù)據(jù)預(yù)處理,去除包括網(wǎng)頁標簽在內(nèi)的無效字段,處理過程非本文重點,在此不再贅述。 為檢驗本文算法對不同分詞工具的適應(yīng)性,實驗過程分別采用MMAnalyzer和IKanalyzer[13]進行測試。本文實驗采用Precision(準確率)和Recall(召回率)作為評價指標。 1) 不同數(shù)據(jù)集結(jié)果比較 表1為MC算法和FPC算法使用不同分詞工具在不同數(shù)據(jù)集上識別效果。對于每一個(算法,分詞工具,數(shù)據(jù)集)的組合,隨著支持度閾值min_sup閾值的增加,Precision和Recall也不斷變化,表1中所有結(jié)果均選取最佳識別效果時的準確率召回率。其中MMAnalyzer和IKAnalyzer分詞工具分別簡寫為MM和IK。 表1 不同數(shù)據(jù)集上的結(jié)果 由上表可以看出:對于MC算法、FPC算法、MMAnalyzer分詞工具、IKAnalyzer分詞工具的任意組合,均有較好的準確率和召回率。 2) 不同分詞工具結(jié)果比較 觀察兩個算法在分別使用兩個分詞工具時識別結(jié)果的好壞,實驗結(jié)果如圖3所示。 由圖中可以看出,MC算法和FPC算法在兩個分詞工具上Precision和Recall的走勢一致,Precision隨著最小支持度參數(shù)min_Sup的增加而呈現(xiàn)上升趨勢,在min_Sup=3時突變到一個高點,并在min_Sup>3后趨于穩(wěn)定;Recall隨著min_Sup的增加而呈現(xiàn)下降趨勢,在min_Sup=4時突變到0%附近,并在之后穩(wěn)定于0%。 準確率突變點的存在是因為電商網(wǎng)站商品網(wǎng)頁經(jīng)過數(shù)據(jù)預(yù)處理后的待識別的未知詞支持度普遍大于等于3,而其他候選未知詞中錯誤的未知詞的支持度普遍小于3,從而導致當min_Sup<3時識別出許多錯誤的未知詞并拉低準確率。召回率突變類似。 MC算法和FPC算法在使用IKAnalyzer分詞工具時,均可以得到更好的準確率和召回率。這主要是由于算法1和算法2均先對輸入文本進行了分詞處理,分詞的效果將直接影響到未知詞識別的效果。如果分詞工具將一個待識別未知詞的某一部分和其他詞分到了一起,則通過兩個算法都無法識別出正確的未知詞。例如,若未知詞(其中、、為單字或者字串)被分成了和,則經(jīng)過算法1和算法2都無法識別出,而分成和則可以很容易地被兩個算法識別出來。IKAnalyzer分詞工具比MMAnalyzer分詞工具更能避免此類錯誤的分詞結(jié)果,故而具備更高的準確率,又由于在同等情況下能識別出更多的未知詞而具備更高的召回率。算法表現(xiàn)仍然依賴于分詞效果,粒度越細的分詞工具理論上將獲得越好的表現(xiàn)。 3) 算法的對比 將使用相同分詞工具時兩個算法的結(jié)果進行對比,如圖4所示。 由圖4可以看出, FPC算法準確率明顯優(yōu)于MC算法,但召回率則明顯弱于MC算法。由于本文所述的未知詞識別更為強調(diào)較高的準確率,因此本文實驗最終選取minSup=3,犧牲部分召回率換取令人滿意的準確率。 綜合整個對比分析過程,本文實驗中最終未知詞識別的最佳組合方式為:FPC算法,IKAnalyzer分詞工具,min_Sup=3。 本文針對網(wǎng)絡(luò)中新出現(xiàn)的大量未知實體詞,提出了兩個未知詞識別算法:基于最大組合的上下文相關(guān)算法(MC)和基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC)。兩個算法均充分利用了字詞的上下文關(guān)系信息,可以有效識別專有領(lǐng)域具有非確定型結(jié)構(gòu)的未知實體詞,對于只能識別具有特定結(jié)構(gòu)實體詞的現(xiàn)有算法是一個很好補充。 實驗表明,本文算法具有較高的準確率。同時,算法可通過調(diào)整支持度閾值參數(shù)min_sup,從而適應(yīng)不同的應(yīng)用場景,具備一定的通用性。 本文兩個算法中均用到了歧義過濾和最大組合過濾,然而兩種過濾方法均不能完全保證過濾的正確性,如何充分利用詞的構(gòu)詞模式和構(gòu)詞能力形成新的過濾方法是下一步的研究內(nèi)容之一。另外,網(wǎng)頁噪聲處理有多種不同的方法,多種方法對于未知詞識別效果的影響也是下階段研究的重要內(nèi)容。 [1] 秦文, 苑春法. 基于決策樹的漢語未登錄詞識別[J]. 中文信息學報, 2004, 18(1): 14-19. QIN Wei, YUAN Chun-fa. Identification of Chinese unknown word based on decision tree[J]. Journal of Chinese Information Processing, 2004, 18(1): 14-19. [2] 王文榮, 喬曉東, 朱禮軍. 針對特定領(lǐng)域的新詞發(fā)現(xiàn)和新技術(shù)發(fā)現(xiàn)[J]. 現(xiàn)代圖書情報技術(shù), 2008, 161(2): 35-40. WANG Wen-rong, QIAO Xiao-dong, ZHU Li-jun. New word and technology discovery of specific domain[J]. New Technology of Library and Information Service, 2008, 161(2): 35-40. [3]ZHANG K, LIU Q, ZHANG H, et al. Automatic recognition of Chinese unknown words based on roles tagging[C]//In SIGHAN¢02: Proceedings of the First SIGHAN Workshop on Chinese Language Processing. Association for Computational Linguistics.Stroudsburg: ACM Press, 2002: 1-7. [4] ZHOU G D, SU J. Named entity recognition using an HMM-based chunk tagger[C]//In ACL '02: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg: ACM Press, 2002: 473-480. [5] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//In COLING '02: Proceedings of the 19th International Conference on Computational linguistics. Stroudsburg: ACM Press, 2002: 1-7. [6] KAZAMA J, MAKINO T, OHTA Y, et al. Tuning support vector machines for biomedical named entity recognition[C]//In BioMed¢02: Proceedings of the ACL-02 Workshop on Natural Language Processing in the Biomedical Domain. Association for Computational Linguistics. Stroudsburg: ACM Press, 2002: 1-8. [7] FLORIAN R, ITTYCHERIAH A, JING H, et al. Named entity recognition through classifier combination[C]//In CONLL¢03: Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. Stroudsburg: ACM Press, 2003: 168-171. [8] CHIEU H L, NG H T. Named entity recognition: a maximum entropy approach using global information[C]//In COLING¢02: Proceedings of the 19th International Conference on Computational Linguistics. Stroudsburg: ACM Press, 2002: 1-7. [9] 韓艷, 林煜熙, 姚建民. 基于統(tǒng)計信息的未登錄詞的擴展識別方法[J]. 中文信息學報, 2009, 23(3): 24-30. HAN Yan, LIN Yu-xi, YAO Jian-min, Study on Chinese OOV identification based on extension[J]. Journal of Chinese Information Processing, 2009, 23(3): 24-30. [10] 周蕾, 朱巧明. 基于統(tǒng)計和規(guī)則的未登錄詞識別方法研究[J]. 計算機工程, 2007, 33(8): 196-198. ZHOU Lei, ZHU Qiao-ming. Research on recognition method of unknown Chinese words based on statistic and regulation[J]. Computer Engineering, 2007, 33(8): 196-198. [11] 韓潔, 周勇, 劉少輝, 等. 基于WWW的未登錄詞識別研究[J]. 計算機科學, 2002, 29(12): 155-156. HAN Jie, ZHOU Yong, LIU Shao-hui, et al. WWW-based recognition of non-login words[J]. Computer Science, 2002, 29(12): 155-156. [12] HAN J, KAMBER M, PEI J. Data mining: Concepts and techniques[M]. San Francisco: Morgan Kaufmann, 2006. [13] WANG Kun-shan. IKAnalyzer[EB/OL]. [2015-01-17]. https://github. com/ wks/ik-analyzer. 編 輯 蔣 曉 Unknown Words Recognition Based on Context-Sensitive Algorithm XIA Hu1,2and HUANG Wen-qian2 (1. Big Data Research Center, University of Electronic Science and Technology of China Chengdu 611731; 2. Web Sciences Center, University of Electronic Science and Technology of China Chengdu 611731) Existing unknown words recognition methods mainly focus on unknown words with some specific structure, such as names, places and organizations. However, with the booming of e-commerce and social networking, more and more unknown entity words with uncertain structures appear in specific areas. In order to handle this problem, this paper presents two algorithms of unknown words recognition based on context-sensitive method. We first calculate correlations between any two words in sequence to get support of any potential combination, then filter out wrong combinations by filtering module, and achieve the recognition aiming at the non-deterministic structure of unknown words. Experiment results indicate that two algorithms can achieve a high accuracy. Besides, they can adapt to different application scenarios by adjusting the parameters. association rules; context-sensitivity; unknown word recognition; word sense disambiguation TP181 A 10.3969/j.issn.1001-0548.2016.05.022 2015-02-06; 2015-06-15 國家自然科學基金(61250110543);中央高?;究蒲袠I(yè)務(wù)費(ZYGX2013J079, ZYGX2014Z012, ZYGX2011J067);四川省科技項目(2012RZ0002, 2013TD0006) 夏虎(1981-),男,博士,主要從事數(shù)據(jù)挖掘、復(fù)雜網(wǎng)絡(luò)方面的研究.2.1 歧義過濾
2.2 最大組合過濾
2.3 MC算法總結(jié)
3 基于關(guān)聯(lián)規(guī)則的上下文相關(guān)算法(FPC算法)
4 實驗與分析
4.1 實驗數(shù)據(jù)和工具
4.2 實驗過程及結(jié)果
5 結(jié)束語
參 考 文 獻