羅 陽,季 鐸,張桂平,王瑩瑩
(沈陽航空航天大學(xué) 知識(shí)工程中心,遼寧 沈陽 110136)
雙語平行語料庫是由原文文本及其平行對(duì)應(yīng)的譯文文本構(gòu)成的語料庫,在翻譯知識(shí)的獲取、雙語詞典的建立、機(jī)器翻譯和跨語言信息檢索等自然語言處理領(lǐng)域有重要的應(yīng)用價(jià)值。隨著互聯(lián)網(wǎng)的普及和國際化的需要,越來越多的信息以多種語言的形式在網(wǎng)絡(luò)上發(fā)布,使互聯(lián)網(wǎng)成為一個(gè)取之不盡,日益增長(zhǎng)的信息資源庫,其中包含大量的雙語甚至多語語料資源。本文所要介紹的是一種如何從浩如煙海的、復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)中挖掘雙語資源的方法。根據(jù)雙語資源的存在形式可將Web資源分為兩大類[1],即雙語平行網(wǎng)頁和單一雙語網(wǎng)頁(下文稱雙語網(wǎng)頁): 前者是兩個(gè)單語的平行網(wǎng)頁,兩種語言的平行文本分別存在于這兩個(gè)單語的平行網(wǎng)頁中;后者是一個(gè)雙語網(wǎng)頁,平行文本存在于這個(gè)網(wǎng)頁內(nèi)。具體來說,雙語平行頁面中對(duì)應(yīng)位置的內(nèi)容可以作為雙語平行句對(duì)。以往的系統(tǒng)都主要集中于對(duì)這類頁面的研究。并主要通過平行頁面的URL進(jìn)行關(guān)聯(lián)的分析和挖掘,在具體應(yīng)用中都獲得了較好的效果[2-4]。
雙語網(wǎng)頁可能是對(duì)商品的介紹、對(duì)專業(yè)術(shù)語的解釋或外語學(xué)習(xí)網(wǎng)站。雙語頁面中包含大量雙語資源,并且這些雙語資源大部分遵循一定的規(guī)則和模式。一個(gè)日漢雙語頁面中包含格式一致的雙語信息(日漢翻譯對(duì)),如“3 ベリファイ 檢驗(yàn),證實(shí),核實(shí) verify”等,且都遵循相同的格式規(guī)則,如圖1所示。據(jù)估算[1],在中文網(wǎng)站中至少有數(shù)以千萬計(jì)的雙語頁面,每個(gè)頁面中都包含有大量的雙語資源,如果能通過人工整理將此類有章可循的雙語網(wǎng)頁從互聯(lián)網(wǎng)眾多的頁面中篩選出來,然后按照既有的模式對(duì)其內(nèi)部雙語翻譯對(duì)進(jìn)行挖掘,即可得到對(duì)齊的雙語資源。這種方案在雙語對(duì)齊分析后期語料細(xì)加工上具有優(yōu)勢(shì);另外雙語網(wǎng)頁往往具有領(lǐng)域性知識(shí),可以進(jìn)行不同領(lǐng)域的雙語資源挖掘。因此本文主要研究此類網(wǎng)頁的雙語資源挖掘。
圖2 方法框架
本文深入研究中日雙語網(wǎng)頁的結(jié)構(gòu)特點(diǎn),在進(jìn)行網(wǎng)頁篩選時(shí)不采用傳統(tǒng)的詞作為特征,而是利用網(wǎng)頁中頻繁出現(xiàn)的包含雙語信息的模式判別雙語網(wǎng)頁。本文提出了一種基于頻繁序列模式(Frequent Sequence Pattern, FSP)的網(wǎng)頁分類算法來對(duì)互聯(lián)網(wǎng)中的頁面進(jìn)行分類,篩選出符合要求的中日雙語頁面,從中抽取雙語資源。實(shí)驗(yàn)結(jié)果表明,本方法能夠有效地進(jìn)行網(wǎng)頁分類,篩選出的網(wǎng)頁具有90%以上的正確率。在此基礎(chǔ)之上,使用FSP對(duì)雙語頁面中的資源進(jìn)行挖掘可得到92.5%的正確率。本文以日漢兩種語言為例,討論了日漢雙語網(wǎng)頁分類方法,該方法同樣適用于英漢、英日等編碼區(qū)分度大,和日韓、中韓等較難區(qū)分編碼的雙語網(wǎng)頁分類。方法框架如圖2所示。
在從單一雙語網(wǎng)頁中挖掘雙語資源方面,2007年Cao[5]、2008年Lin[6]提出兩種不同的方法,都是基于括號(hào)的模式,如“北京大學(xué) (パキンだいがく)”,括號(hào)中的日語為括號(hào)前漢語的翻譯。該方法適用于網(wǎng)站頁面中出現(xiàn)諸如人名、地名、書籍名及動(dòng)植物名等專有名詞,和專業(yè)領(lǐng)域里的專業(yè)術(shù)語,作者為了方便讀者以及提高頁面的可閱讀性,在其母語后用括號(hào)將其外語翻譯標(biāo)注出來的頁面,這樣的頁面有很多潛在的雙語翻譯對(duì)。2008年郭稷[7]等還就這種形式中,母語術(shù)語邊界劃分問題進(jìn)行分析,例如“足球教練佐夫(Zolf)”中Zolf對(duì)應(yīng)翻譯的確定,提出使用多特征判別模型進(jìn)行邊界劃分。這種通過括號(hào)來提取術(shù)語翻譯的思想在大量頁面中做過測(cè)試,并且取得了預(yù)期的結(jié)果,然而,并不是所有的雙語頁面都遵循括號(hào)模式,所以這類思想可能會(huì)錯(cuò)失Web上的很多翻譯資源。2007年Cao[8]訓(xùn)練了一個(gè)音譯對(duì)齊判別模型用于音譯對(duì)的抽取,然后訓(xùn)練一個(gè)翻譯判別模型,利用此模型進(jìn)行翻譯對(duì)的抽取。不過利用音譯抽取具有一定的局限性,因?yàn)楹芏嚯p語翻譯對(duì)的讀音并不相同,對(duì)于漢—日翻譯對(duì)來說,出現(xiàn)讀音類似的翻譯對(duì)的幾率非常低。2009年Jiang[1]同樣將雙語頁面建立成DOM樹,使用音譯模型發(fā)掘種子,然后用模式匹配的方法在每一個(gè)節(jié)點(diǎn)的內(nèi)部文本中挖掘潛在的英漢雙語翻譯對(duì),并采用了分類器給候選模式打分。
網(wǎng)頁分類技術(shù)借鑒了文本分類中的一些方法,但是Web頁面資源與普通文本資源相比又有以下特點(diǎn): (1)Web頁面為半結(jié)構(gòu)化資源,除了頁面內(nèi)容外還有許多其他信息,如HTML標(biāo)簽、JavaScript等腳本語言內(nèi)容等;(2)格式非常靈活,一個(gè)頁面可能包含不同的格式并且每個(gè)格式有不同的標(biāo)準(zhǔn);(3)不同Web頁面的風(fēng)格與內(nèi)容有很大差異。除了Web頁面自身的特點(diǎn)外,作為中日雙語頁面中的一種語言,日文的結(jié)構(gòu)具有很大復(fù)雜性,導(dǎo)致對(duì)日文的判定有一定難度。這些特點(diǎn)決定網(wǎng)頁分類算法分成三類,基于內(nèi)容的分類方法,基于鏈接的分類方法和組合分類的方法。
基于內(nèi)容的網(wǎng)頁方法即將Web頁面用純文本的形式表示出來,然后使用文本分類技術(shù),例如K-NN算法和基于SVM的方法從訓(xùn)練集中篩選特征詞,然后計(jì)算訓(xùn)練集和測(cè)試集的相似度進(jìn)行分類。Sung[9]提出了一種基于標(biāo)簽區(qū)域的逐步分析算法(TAgger-Reigon Progressive Analysis, TARPA),Haruechaiyasak[10]提出一種基于特征詞模糊聯(lián)系(Fuzzy Association)的網(wǎng)頁分類方法?;阪溄拥姆诸惙椒慈绻撁鍭中有一個(gè)超鏈接至頁面B,那么就認(rèn)為頁面A和頁面B是相關(guān)的,可以利用分類方法對(duì)相關(guān)的頁面進(jìn)行分類。這種網(wǎng)頁分類方法的弊端是這種頁面鏈接關(guān)系往往不能正確反映頁面的語義聯(lián)系,即擁有鏈接關(guān)系的兩個(gè)頁面可能在內(nèi)容方面沒有任何聯(lián)系;而沒有鏈接關(guān)系的頁面之間可能聯(lián)系緊密,這兩種情況都會(huì)影響到分類的效果。Tai[11]提出的基于鏈接頁面的PageRank值的方法提出一種鄰居頁面的過濾方法(Neighbor Text Percolation),通過計(jì)算鏈接頁面的PageRank值來篩選出符合要求的鄰居頁面,然后將這些鄰居頁面和原頁面一起進(jìn)行分類,能夠有效改善上述弊端。使用組合分類的方法進(jìn)行網(wǎng)頁分類即使用兩種分類器,一種是借助于鏈接分類的結(jié)果來進(jìn)行內(nèi)容分類,另一種是利用內(nèi)容分類的結(jié)果來進(jìn)行鏈接分類。范炎[12]提出使用樸素貝葉斯協(xié)調(diào)分類器的方法進(jìn)行組合分類器網(wǎng)頁分類。使用組合分類的方法可以綜合前兩種方法的優(yōu)勢(shì),也能充分利用網(wǎng)頁的特征,但是不同的分類器性能不同,采用哪種分類器組合策略可以達(dá)到較好的效果很難確定。
可能包含雙語資源的網(wǎng)頁有多種獲取方法: 可以通過在搜索引擎上進(jìn)行啟發(fā)式搜索(如輸入啟發(fā)條件“日語專業(yè)詞匯”);可以收集相關(guān)主題網(wǎng)站,根據(jù)鏈接遞歸下載[13];也可以利用種子翻譯對(duì)來搜索相關(guān)網(wǎng)頁。在得到候選雙語網(wǎng)頁后,我們使用支持向量機(jī)來判別雙語網(wǎng)頁。
支持向量機(jī)(SVM)由Vapnik[14]在結(jié)構(gòu)風(fēng)險(xiǎn)最小化與VC維理論的理論基礎(chǔ)上提出,根據(jù)有限樣本信息,綜合考慮機(jī)器學(xué)習(xí)的能力與問題模型的復(fù)雜程度,平衡二者的優(yōu)劣利弊以獲得預(yù)期效果,能夠有效解決有限樣本集的機(jī)器學(xué)習(xí)問題。設(shè)樣本(x1,y1),…,(xi,yi),…,(xn,yn),xi∈Rn,xi和yi均為樣本中的向量,其中yi可能是樣本集中經(jīng)過特征提取后的特征構(gòu)成的向量,也可能是經(jīng)由核函數(shù)將特征向量映射至高維空間后的映射向量。若yi的取值為+1和-1,則SVM模型稱之為二分類SVM。
若樣本集是線性可分的,在d維特征空間中判別函數(shù)的一般形式為
f(x)=w·x+b
(1)
特征空間的分類平面方程為
w·x+b=0
(2)
若有存在權(quán)重向量w*,使得‖w*‖最小,并且滿足
(3)
即
yi(w*·xi+b)≥1
(4)
則w*稱為支持向量,分類平面w*·xi+b=0為最優(yōu)分類平面,并且對(duì)所有樣本正確分類。此問題可以利用Lagrange方法轉(zhuǎn)化為其對(duì)偶模型,即找出函數(shù)
(5)
約束條件為
(6)
這是一個(gè)二次函數(shù)尋求最優(yōu)解的問題,存在唯一解。最優(yōu)解中不為零的αi即為支持向量。解此問題得到的最優(yōu)分類函數(shù)為
(7)
本文使用數(shù)據(jù)挖掘中“頻繁序列模式”[15]的概念,即: 令I(lǐng)={i1,i2,…,im}是一個(gè)項(xiàng)集,是項(xiàng)目的非空集合,其中ij是項(xiàng)目。一個(gè)序列(Sequence)s=
定義1頻繁序列模式(Frequent Sequential Pattern, FSP): 查找DOM樹Treedom中的所有葉子節(jié)點(diǎn)Leafi,將Leafi中的內(nèi)容對(duì)應(yīng)成文本元素序列S=
Web頁面屬于半結(jié)構(gòu)化資源,本方法對(duì)Web頁面進(jìn)行預(yù)處理,將HTML文本轉(zhuǎn)化為DOM樹,取不同的文本元素(數(shù)字、空白、日文、中文、英文等)為項(xiàng)目;取DOM樹中葉子內(nèi)容對(duì)應(yīng)的文本元素序列為事務(wù),一篇HTML文本即為一個(gè)事務(wù)集。葉子內(nèi)容所對(duì)應(yīng)的文本元素序列在事務(wù)集中的支持度大于最小支持度,即為頻繁序列模式。本文將不同的文本元素使用不同的標(biāo)示符替代,其對(duì)應(yīng)關(guān)系如表1所示,可將頻繁序列模式形式化。例如模式“1 かさ(傘) 〔名〕 傘”即形式化為“NSJ(J)S〔C〕SC”。
表1 文本類型與對(duì)應(yīng)標(biāo)識(shí)符
一個(gè)雙語頁面中的雙語資源會(huì)遵循一定的模式,這種模式可以看作是FSP。本文規(guī)定FSP的判定條件為: 對(duì)于模式Pi,若Pi中同時(shí)包含中文和日文,并且support(Pi)>Tr,其中support(Pi)為P在一個(gè)Web頁面中出現(xiàn)的次數(shù),則認(rèn)為Pi是一個(gè)雙語FSP。Web頁面中若包含數(shù)量可觀的FSP,也就意味著頁面中包含大量雙語資源(日漢翻譯對(duì)),那么可以將其看作候選雙語頁面。例如圖1所示的頁面中包含 “8 テーパー 尖錐 taper”,形式化后的模式為“NSJSCSE”,其同時(shí)包含中文和日文,若定義Tr=5,則此模式為FSP。很顯然:
(1) “NSJSCSE”包含的信息“8 テーパー 尖錐 taper”為有效的雙語信息;
(2) 此頁面中雙語資源的形式大多為“NSJSCSE”。
基于上述兩點(diǎn)可以很容易判斷出頁面為雙語頁面。所以,判斷一個(gè)Web頁面中是否為雙語頁面可以通過判斷頁面中是否包含有雙語信息的頻繁模式來實(shí)現(xiàn)。
從Web頁面中提取頻繁序列模式過程的算法:
For i=1 to 總網(wǎng)頁數(shù)Do
轉(zhuǎn)化第i 個(gè)網(wǎng)頁為 DOM 樹
形式化DOM 葉子節(jié)點(diǎn)的內(nèi)容
If (葉子節(jié)點(diǎn)內(nèi)容的長(zhǎng)度<自然行的長(zhǎng)度)
Then 選擇葉子節(jié)點(diǎn)做為模式片段
Else 選擇自然行作為模式片段
Endif
For j=1 to 第i個(gè)網(wǎng)頁中的總模式片段數(shù)Do
If (支持度(第j個(gè)模式片段)>Tr&& 第j個(gè)片段中包含“C”和“J”)
Then 將第j個(gè)模式片段加入候選FSP集中
Endif
Endfor
Endfor
提取出頻繁模式作為特征后,考慮到日漢兩種語言有使用相同文字的特點(diǎn),去掉僅有日語、日漢通用文字和常用標(biāo)點(diǎn)的特征。本文采用TF-IDF的特征權(quán)重計(jì)算方法[16]:
(8)
tfi(d)表示特征ti在文本d中出現(xiàn)的頻率,N為文本集中的總文本數(shù),ni為出現(xiàn)特征ti的文本總數(shù)。
在網(wǎng)頁分類的基礎(chǔ)上,本文同樣使用3.2節(jié)得到的頻繁序列模式對(duì)已經(jīng)判定為雙語網(wǎng)頁的頁面進(jìn)行雙語資源的挖掘。即把特征選擇得到的FSP放入規(guī)則庫,將網(wǎng)頁DOM樹的葉子節(jié)點(diǎn)內(nèi)容按照文本元素形式化為模式片段,若某模式片段與規(guī)則庫中的規(guī)則相同,則提取該葉子節(jié)點(diǎn)中的內(nèi)容為雙語資源。
利用頻繁序列模式對(duì)網(wǎng)頁信息進(jìn)行匹配處理能得到可觀的雙語信息,但是頻繁序列模式未必包括Web頁面中的所有有用信息的規(guī)則,例如人為操作時(shí)將最大頻繁模式中的“.”寫為“?!保瑹o法在規(guī)則庫中找到,可以利用機(jī)器學(xué)習(xí)的方式將這些有用的模式形式化為規(guī)則然后加入規(guī)則庫中。
首先定義非規(guī)則文本歸屬度:
定義2文本信息歸屬度AD: 對(duì)于非規(guī)則的文本信息Ii,令m為緊鄰Ii之前連續(xù)出現(xiàn)規(guī)則的數(shù)目;令n為緊鄰Ii之后連續(xù)出現(xiàn)的規(guī)則數(shù)目,即若Ii-1…Ii-m均為規(guī)則,Ii-m-1不是規(guī)則,則緊鄰Ii之前連續(xù)出現(xiàn)規(guī)則的數(shù)目為m,若Ii+1…Ii+n均為規(guī)則,Ii+n+1不是規(guī)則,則緊鄰Ii之后連續(xù)出現(xiàn)規(guī)則的數(shù)目為n。定義Ii的非規(guī)則文本歸屬度
(9)
對(duì)于不能和規(guī)則庫中規(guī)則匹配的文本信息,計(jì)算其AD值,若為0則直接舍棄;若不為0,根據(jù)AD值選取閾值,若文本信息AD值大于閾值,則將此文本信息形式化的規(guī)則擴(kuò)充至規(guī)則庫。
定義非規(guī)則文本歸屬度,可以使本方案能自動(dòng)地挖掘文本中潛在的、非頻繁序列模式的規(guī)則。默認(rèn)AD值為1,實(shí)驗(yàn)表明閾值越大,機(jī)器學(xué)習(xí)得到的規(guī)則庫具有較高的正確率。
本文使用《標(biāo)準(zhǔn)日本語》中單詞和機(jī)械專業(yè)術(shù)語共458個(gè)詞條為搜索項(xiàng),通過百度搜索得到6 060個(gè)網(wǎng)頁,經(jīng)過人工標(biāo)注,雙語網(wǎng)頁3 023篇,非雙語網(wǎng)頁3 037篇。實(shí)驗(yàn)隨機(jī)選取三批測(cè)試數(shù)據(jù)集,每批選取200篇雙語網(wǎng)頁,200篇非雙語網(wǎng)頁,共400篇作為測(cè)試數(shù)據(jù)集,其余作為訓(xùn)練數(shù)據(jù)集,規(guī)定網(wǎng)頁中含有5條以上雙語資源的網(wǎng)頁為雙語網(wǎng)頁。
本文解決的是二分類問題,所以實(shí)驗(yàn)使用SVMlight作為SVM的實(shí)現(xiàn),用SVMlight的默認(rèn)參數(shù),構(gòu)造了一個(gè)線性SVM。
同樣由于二分類問題,在本文實(shí)驗(yàn)中,以文本分類的準(zhǔn)確率來衡量基于頻繁序列模式的雙語網(wǎng)頁分類的性能,定義如下:
雙語資源挖掘采用正確率(precision,簡(jiǎn)記為P)來衡量系統(tǒng)性能,定義如下:
本實(shí)驗(yàn)通過在訓(xùn)練語料中提取FSP,得到499個(gè)特征,加上每篇網(wǎng)頁中權(quán)重最大的FSP作為附加特征,共得到500個(gè)特征。實(shí)驗(yàn)選取的三批測(cè)試數(shù)據(jù)集經(jīng)過SVM分類得到的結(jié)果如表2所示,實(shí)驗(yàn)證明本方法具有較好的準(zhǔn)確性和穩(wěn)定性。然而,實(shí)驗(yàn)中是按網(wǎng)頁中的自然行和DOM樹的葉子節(jié)點(diǎn)(由HTML標(biāo)簽分割的內(nèi)容)為單位提取頻繁序列模式的,對(duì)于雙語對(duì)不在同一行或被標(biāo)簽分開的網(wǎng)頁(如雙語翻譯對(duì)存在與表格中)就無法提取到正確的FSP,甚至提取不到FSP,則在分類時(shí)會(huì)將這類網(wǎng)頁分到非雙語網(wǎng)頁中去,從而對(duì)分類的準(zhǔn)確率有一部分影響。
表2 網(wǎng)頁判別實(shí)驗(yàn)結(jié)果
通過有雙語網(wǎng)頁判別和直接用頻繁序列模式提取雙語資源的對(duì)比實(shí)驗(yàn)可以看出,在雙語網(wǎng)頁判別的基礎(chǔ)上挖掘雙語資源具有較高的準(zhǔn)確性,這對(duì)于收集雙語資源,建立高質(zhì)量的雙語資源庫是有意義的,實(shí)驗(yàn)結(jié)果如表3所示。
表3 雙語資源挖掘?qū)嶒?yàn)結(jié)果
本文描述了一種基于頻繁序列模式的Web雙語資源挖掘方法,該方法首先使用網(wǎng)頁中頻繁出現(xiàn)的含有兩種語言特征的序列模式為分類特征,用SVM實(shí)現(xiàn)網(wǎng)頁分類,然后在確定為雙語頁面的網(wǎng)頁中使用頻繁模式挖掘出雙語資源。實(shí)驗(yàn)證明該方法在雙語網(wǎng)頁分類和雙語資源挖掘的任務(wù)上有較好的性能。
未來工作中,我們將進(jìn)行非自然行中頻繁模式提取的工作,考慮將模式疊加,以解決表格和非自然行雙語頁面分類的問題。并在雙語網(wǎng)頁分類的基礎(chǔ)上進(jìn)行雙語資源的挖掘,根據(jù)頻繁模式提取出高質(zhì)量對(duì)齊的雙語翻譯對(duì),建立雙語語料庫。
[1] L. Jiang, S. Yang, M. Zhou, et. al. Mining Bilingual Data from the Web with Adaptively Learnt Patterns[C]//Proceedings of 47th Annual Meeting of the Association for Computational Linguistics. ACL, 2009: 870-878.
[2] Jisong Chen,Rowena Chau,and Chung-Hsing Yeh.Discovering parallel text from the World Wide Web[C]//Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Interllationalization.Australia, 2004: 157-161.
[3] Philip Resnik and Noah A.Smith.The web as a parallel corpus[J].Computational Linguistics,29: 349-380.
[4] Ying Zhang, Ke.Wu, Jianfeng Gao, et. al.Automatic acquisition of chinese-english parallel corpus from the web[C]//Proceedings of ECIR-06,28th European Conference on Information Retrieval. 2006.
[5] G.H. Cao, J.F. Gao and J.Y. Nie. A system tomine large-scale bilingual dictionaries from monolingualweb pages[C]//Proceedings of MT summit XI: 57-64.
[6] D. Lin, S. Zhao, B. Durme, et. al. Mining Parenthetical Translations from the Web by Word Alignment[C]//ACL 08, 2008: 994-1002.
[7] 郭稷,呂雅娟,劉群.一種有效的基于Web的雙語翻譯對(duì)獲取方法[J].中文信息學(xué)報(bào),2008,22(6): 103-109.
[8] G.H.Cao,J.F.Gao and J.Y.Nie. A System to Mine Large-Scale Bilingual Dictionaries from Monolingual web Pages[C]//Proceedings of MT Summit XI, 2007.
[9] Lichun Sun, Mengchang Chen, et.al. Web Document Classification based on Tagged-Region Progressive Analysis[C]//Proceedings of the International Computer Symposium (ICS), 2004.
[10] Choochart Haruechaiyasak, Meiling Shyu. Web Document Classification Based on Fuzzy Association[C]//Proceedings of the 26th International Computer Software and Applications Conference, 2002: 487-492.
[11] Shyhming Tai, Chengzen Yang and Ingxian Chen. Improved Automatic Web-page Classification by Neighbor Text Percolation[C]//Proceedings of the 8th CSIM Conference on Information Management Research and Practice, 2002: 289-296.
[12] 范焱,鄭誠,王清毅,等. 用Naive Bayes方法協(xié)調(diào)分類Web網(wǎng)頁[J]. 軟件學(xué)報(bào), 2001, 12 (9): 1386-1392.
[13] 林政,呂雅娟,劉群,等. 基于雙語混和網(wǎng)頁的平行語料挖掘[C]//第十屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議,2009.
[14] Cortes C, Vapnik V. Support vector networks [J]. Machine Learning, 1995, 20 (3): 273-297.
[15] Agrawal R Srikant. Mining sequential patterns[C]//Proceedings of the 95 Int’1 Conf Data Engineering, Taipei, Taiwan, 1995: 73-98
[16] 徐鳳亞, 羅振聲. 文本自動(dòng)分類中特征權(quán)重算法的改進(jìn)研究[J].計(jì)算機(jī)工程與應(yīng)用, 2005, 41(1): 181-184.