沈高峰 ,谷淑敏
(1.鄭州輕工業(yè)學(xué)院 計(jì)算機(jī)與通信工程學(xué)院,河南 鄭州 450002; 2.中原工學(xué)院信息商務(wù)學(xué)院 基礎(chǔ)學(xué)科部,河南 鄭州 450007)
特征提取在自然語言處理領(lǐng)域有著非常廣泛的應(yīng)用,是信息檢索、文本分類、文本聚類以及自動文摘生成等技術(shù)的關(guān)鍵。由于互聯(lián)網(wǎng)資源時刻都在不斷更新,中文文本呈現(xiàn)出“爆炸式”增長。然而,采用傳統(tǒng)人工方式進(jìn)行特征提取的方法耗時較長,且具有一定的主觀性,因此快速準(zhǔn)確地實(shí)現(xiàn)中文特征提取成為中文文本處理的關(guān)鍵。
目前,國內(nèi)外學(xué)者已提出3類特征提取方法:基于概率統(tǒng)計(jì)的特征提取方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)理論的特征提取方法以及基于自然語言理解的特征提取方法?;诟怕式y(tǒng)計(jì)的特征提取方法利用文本特征的統(tǒng)計(jì)信息進(jìn)行關(guān)鍵詞提取,如TFIDF[1]、詞共現(xiàn)[2]等,該類方法具有簡單、通用的特點(diǎn),不需要復(fù)雜的訓(xùn)練過程,但準(zhǔn)確率不高。基于傳統(tǒng)機(jī)器學(xué)習(xí)理論的特征提取方法通過對大規(guī)模語料庫進(jìn)行學(xué)習(xí),采用決策樹[3]、貝葉斯算法[4]、最大熵模型[5]等方法對訓(xùn)練集進(jìn)行訓(xùn)練,從而得到相關(guān)模型,然后再利用該模型對關(guān)鍵詞進(jìn)行提取,但該類方法較為復(fù)雜。基于自然語言理解的特征提取方法通常需要對中文文本從詞、句、語義、篇章等層級進(jìn)行分析,從而獲得相關(guān)關(guān)鍵詞,這類方法更加符合關(guān)鍵詞提取的標(biāo)注過程,但如何對文章進(jìn)行準(zhǔn)確的語言學(xué)分析還沒有得到有效解決,該方法的抽取性能非常有限。
針對上述傳統(tǒng)特征提取方法的特點(diǎn)和不足,提出了一種基于遺傳算法優(yōu)化綜合啟發(fā)式的中文網(wǎng)頁特征提取方法。該方法首先對文本文檔的分詞結(jié)果進(jìn)行詞性標(biāo)注,然后計(jì)算文檔詞語的詞性、位置、TFIDF以及聚集特征等綜合啟發(fā)式,并用遺傳算法優(yōu)化各啟發(fā)式的權(quán)重參數(shù),最終提取獲得中文網(wǎng)頁特征詞。
TFIDF是一種常用的信息檢索方法[6]。設(shè)N表示給定文檔集合Ω中的總文檔數(shù)目。對于給定文檔d,采用TFIDF算法得到該文檔中詞條t的權(quán)重wt為
(1)
式中:TF表示t在文檔d中出現(xiàn)的頻率。IDF表示文檔d在文檔集中出現(xiàn)的文檔數(shù)目,n表示文檔集中出現(xiàn)特征t的文檔數(shù)目。
從式(1)可知,如果特征t在文檔d出現(xiàn)的次數(shù)較多而在其他文檔中出現(xiàn)次數(shù)較少的話,那么特征t的權(quán)值就較大,表明該特征對文檔d的區(qū)分能力就較強(qiáng),就可以作為文檔特征的候選之一。
詞語的關(guān)聯(lián)表現(xiàn)為詞與詞之間構(gòu)成的復(fù)雜網(wǎng)絡(luò)[7]。復(fù)雜網(wǎng)絡(luò)方面的研究表明,漢語語言的詞語之間的關(guān)聯(lián)度具有高度的局部聚集性和全局連接性,能夠用于表征文本特征[8]。
設(shè)V={v1,v2,…,vn}表示文檔特征的集合,(vi,vj)表示特征vi和特征vj之間的一條邊。G(V,E)表示的是一個圖,其中V為圖的頂點(diǎn)集合,E?{(vi,vj):vi,vj∈V}為圖的邊集。對于頂點(diǎn)vi,其度定義如下:
Di=|{(vi,vj):(vi,vj)∈E,vi,vj∈V}|
(2)
頂點(diǎn)vi的聚集度Ki為
Ki=
| {(vj,vk) :(vi,vj)∈E(vi,vk)∈E,vi,vj,vk∈V} |
(3)
頂點(diǎn)vi的聚集度系數(shù)Ci為
(4)
由式(3)和式(4)可得特征關(guān)聯(lián)度為
(5)
根據(jù)式(3)~(6),詞語網(wǎng)絡(luò)中節(jié)點(diǎn)的度和聚集度系數(shù)可以描述特征在文本中的連接特性,處于重要位置的特征往往具有較高的關(guān)聯(lián)度。
詞性是一種淺層語言學(xué)知識的表示,該因素的獲取不需要對文本進(jìn)行復(fù)雜的語言學(xué)標(biāo)注和分析,從而能有效避免傳統(tǒng)采用語言學(xué)方法的缺陷。一般而言,中文文本特征的詞性往往集中在名詞、動詞、形容詞等實(shí)詞中。根據(jù)人工標(biāo)注結(jié)果,對特征的詞性分布進(jìn)行了統(tǒng)計(jì)分析,其結(jié)果如表1所示。
表1 特征詞性分布
從特征詞性統(tǒng)計(jì)分布可以看到,詞性能夠有效表征文檔的中文特征。排名前4位的名詞、動詞、形容詞和副詞達(dá)到關(guān)鍵詞總數(shù)的95.5%。因此,論文引入詞性作為特征提取的重要因素之一。該因素能夠有效區(qū)分停用詞等,克服了傳統(tǒng)基于統(tǒng)計(jì)方法無法解決高頻但無實(shí)際意義的中文詞語,從而提高特征提取的性能。
位置是文本特征提取的一個重要因素。根據(jù)特征所在的位置,主要包括標(biāo)題、摘要和正文3種。根據(jù)詞語所在的具體位置,還可細(xì)分為小標(biāo)題、起始段、中間段、末尾段、起始句、中間句、末尾句等[9]。由于網(wǎng)絡(luò)文本一般不存在摘要,本文主要考慮特征位于標(biāo)題、起始段以及其他3種情況。通常特征位于標(biāo)題和起始段的概率較高,因此根據(jù)文本中特征所在的位置,按照標(biāo)題、起始段、其他的順序分別賦給不同的權(quán)重。
僅僅根據(jù)單詞頻率進(jìn)行特征提取的TFIDF方法雖然簡單,但是也存在一定的缺陷,如數(shù)據(jù)集偏斜[10],類間、類內(nèi)分布偏差[11]等。而單純依靠復(fù)雜網(wǎng)絡(luò)中詞語之間關(guān)聯(lián)度的特征提取方法,則忽略了特征本身的頻率,容易造成特征提取聚集到某些無意義的高頻詞,如“的”等,從而導(dǎo)致特征提取出現(xiàn)偏差。研究顯示,融合頻率和關(guān)聯(lián)特征[12]能夠有效避免單一方法的缺陷,從而提高特征提取的效率。
此外,僅僅依靠統(tǒng)計(jì)知識容易造成特征提取偏差,特別是一些高頻詞如“是”、“和”等容易成為特征的候選。盡管這些詞可以通過建立“停詞表”對其進(jìn)行過濾,但是構(gòu)建合適的詞表非常困難,因此引入特征的詞性以及位置對特征進(jìn)行進(jìn)一步選取。
綜合以上因素,論文采用特征的頻率、關(guān)聯(lián)度、詞性以及位置4個因素來衡量待選特征。對于文本中的每個特征w,其權(quán)重計(jì)算公式為
score(w) =α×WFreq+β×WLoc+
γ×WCF+δ×WPOS
(6)
式中:WFreq表示特征的TFIDF啟發(fā)式,WPOS表示特征的詞性啟發(fā)式,WCF表示特征的關(guān)聯(lián)度啟發(fā)式,WLoc表示特征的位置啟發(fā)式。每個啟發(fā)式的具體描述如表2所示。
表2 特征各啟發(fā)式描述
特征提取的基本流程如圖1所示,其中虛線部分為訓(xùn)練模塊。對于給定的輸入本文,特征提取具體過程如下。
圖1 本文方法特征提取基本流程Fig.1 Flow of feature extraction in this paper
1)預(yù)處理。將網(wǎng)絡(luò)文本去除HTML格式,保留文本詞語的位置信息,并對文本進(jìn)行分詞和詞性標(biāo)注。
2)各啟發(fā)式計(jì)算。計(jì)算文本中每個詞語的TFIDF、關(guān)聯(lián)度、位置和詞性等啟發(fā)式。
3)啟發(fā)式融合。根據(jù)多啟發(fā)式融合模型,對詞語的4個啟發(fā)式進(jìn)行融合,并計(jì)算得到綜合得分。
4)輸出結(jié)果。最后根據(jù)各特征得分的大小進(jìn)行排序,選擇最優(yōu)的特征并輸出。
本文方法中各啟發(fā)式的參數(shù)權(quán)重選擇是一個典型的組合優(yōu)化問題。由于遺傳算法簡單、易理解、易實(shí)現(xiàn),且在解決組合優(yōu)化問題有強(qiáng)大的優(yōu)勢[13],因此,論文采用遺傳算法對式(6)中的參數(shù)權(quán)重進(jìn)行優(yōu)化,從而得到一定范圍的最佳組合參數(shù)權(quán)重。這里限定4個參數(shù)權(quán)重的取值范圍為(0,1),并且滿足α+β+γ+δ=1。然后根據(jù)經(jīng)驗(yàn)選取適當(dāng)?shù)某跏贾?,并?jīng)過迭代計(jì)算,得到每個啟發(fā)式的參數(shù)權(quán)重。利用遺傳算法獲取各特征參數(shù)權(quán)重具體過程描述如下:
1)依據(jù)經(jīng)驗(yàn),初始化各特征參數(shù)權(quán)重α=0.2,β=0.2,γ=0.4,δ=0.2;
2)采用十進(jìn)制編碼對染色體進(jìn)行編碼。首先把各參數(shù)都乘以10或100使它們變成整數(shù),然后再對它們進(jìn)行編碼,具體格式如下:L=αβγδ。 其中各參數(shù)均用3位十進(jìn)制數(shù)來表示,例如:α=0.2,β=0.2,γ=0.4,δ=0.2,則先把它們轉(zhuǎn)化為α=020,β=020,γ=040,δ=020,則相應(yīng)染色體編碼為:L=020020040020。
3)利用各參數(shù)權(quán)重計(jì)算相應(yīng)召回率,以召回率作為染色體的適應(yīng)度函數(shù),召回率計(jì)算公式為
recall =n/N
式中:n代表同所標(biāo)注的特征相符的特征的數(shù)目,N代表文檔集中所標(biāo)注的特征總數(shù)目。
4)交叉和變異操作:遺傳算法的收斂速度以及解的質(zhì)量在很大程度上取決于交叉概率和變異概率。為了防止算法陷于局部最優(yōu)以及加快算法搜索效率,僅讓種群中較優(yōu)個體參與交叉和變異,而當(dāng)前種群最優(yōu)個體則不參與。具體交叉概率和變異概率計(jì)算公式如下:
(8)
(9)
式中:a1、a2、a3、a4為0~1的隨機(jī)數(shù),fmax是當(dāng)前群體中最優(yōu)個體的適應(yīng)度值,favg是當(dāng)前群體的平均適應(yīng)度值,fc是參加交叉操作的個體中較大的適應(yīng)度值,fm是變異個體的適應(yīng)度值。
5)終止條件:當(dāng)代種群最佳染色體適應(yīng)度值和前代種群最佳染色體適應(yīng)度值之差絕對值不超過10-5。
采用遺傳算法優(yōu)化選擇各啟發(fā)式的參數(shù)權(quán)重,能夠有效避免通過主觀經(jīng)驗(yàn)來確定參數(shù)的主觀性,從而實(shí)現(xiàn)參數(shù)能夠依據(jù)訓(xùn)練數(shù)據(jù)自適應(yīng)地調(diào)優(yōu)。下面的實(shí)驗(yàn)驗(yàn)證結(jié)果表明,采用該遺傳算法獲得參數(shù)權(quán)重能夠使本文特征提取方法獲得良好的提取效果。
以Intel Core2 Duo CPU T6500、2.4 GHz、 2 GB內(nèi)存和Windows XP 2SP2操作系統(tǒng)的PC機(jī)作為實(shí)驗(yàn)平臺,以MATLAB7.0為仿真工具,進(jìn)行2組實(shí)驗(yàn):
第1組實(shí)驗(yàn)數(shù)據(jù)來自互聯(lián)網(wǎng)抓取的1 500個中文文檔,論文根據(jù)該數(shù)據(jù)集的來源將這些文檔分為5個類別,分別包括新聞、財經(jīng)、科技、體育和娛樂,各類文檔數(shù)目分布均勻,都包含300篇文檔。實(shí)驗(yàn)中選擇每個類別的200篇文檔作為訓(xùn)練集,剩下的100篇作為測試集。
第2組實(shí)驗(yàn)數(shù)據(jù)采用復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組構(gòu)建的中文文本分類語料庫作為實(shí)驗(yàn)數(shù)據(jù),其下載網(wǎng)址為:http://www.nlp.org.cn/categories/default.php?cat_id=16。該語料庫由20個類別的14 378篇文檔組成,其中6 164篇為測試文本,8 214篇為訓(xùn)練文本;各類別的測試文本集和訓(xùn)練文本集之間互不重疊,也即一篇文檔僅屬一個文本集并且每篇文本僅屬于一個類別。該語料庫各類別訓(xùn)練文檔數(shù)分布極其不均勻,其中訓(xùn)練文檔數(shù)較小的類別占大多數(shù),約為11個類別,它們的訓(xùn)練文檔數(shù)均少于100篇,如通信類文檔數(shù)僅有25篇。
由于所選語料庫是中文性質(zhì)的,所以這2組實(shí)驗(yàn)都采用中科院計(jì)算技術(shù)研究所的“漢語詞法分析系統(tǒng)ICTCLAS”對它進(jìn)行分詞處理;分類工具軟件都采用紐西蘭的Waikato大學(xué)開發(fā)的Weka工具;因KNN分類器簡單、易實(shí)現(xiàn)而被廣泛應(yīng)用,這2組實(shí)驗(yàn)選它作為實(shí)驗(yàn)分類器 (其中距離采用向量夾角余弦來度量,K=20)。
為了對論文所提方法性能進(jìn)行全面考查,論文對這2組實(shí)驗(yàn)分別做了不同方面的實(shí)驗(yàn)內(nèi)容:第1組實(shí)驗(yàn)主要做特征詞選擇和召回率方面的實(shí)驗(yàn);第2組主要做耗時和分類性能方面的實(shí)驗(yàn)。
在該組實(shí)驗(yàn)中,論文對比了基于頻率的特征提取方法、基于關(guān)聯(lián)度的特征提取方法以及本文方法性能。
3.2.1 特征詞選擇實(shí)驗(yàn)結(jié)果
分別采用上面3種方法計(jì)算全部詞語的4個啟發(fā)式值,并根據(jù)不同啟發(fā)式權(quán)重進(jìn)行排序,最后提取得分最高的前10個詞語作為最后的關(guān)鍵詞。表4為實(shí)驗(yàn)對比結(jié)果。其中,基于頻率的方法用TFIDF來表示,基于關(guān)聯(lián)度的方法用CF來表示,本文方法用Multi來表示。
表3 3種方法下召回率對比結(jié)果
從表4可以看出,對于“都”、“隨后”這類詞,本文方法能夠有效地濾除。由于這類單詞在文本中通常具有較高的頻率,很難通過統(tǒng)計(jì)的方法有效去除。而且本文方法召回率能夠達(dá)到70%,表現(xiàn)出較好的提取性能。此外,比較特征詞自動提取和人工選擇,3種提取方法都得到了 “進(jìn)口”這個特征詞,但人工標(biāo)注卻忽略了這個詞語。通過查看原文,“進(jìn)口”確實(shí)應(yīng)該標(biāo)注為特征詞,反映出人工選擇帶有較強(qiáng)的主觀性,這種主觀性很容易產(chǎn)生實(shí)驗(yàn)誤差。同樣也反映出特征詞自動提取能夠在一定程度上克服這種主觀性的缺點(diǎn)。
3.2.2 召回率實(shí)驗(yàn)結(jié)果
針對測試集的不同類別,論文分別對比不同特征詞提取方法的性能。由于不同類別的多啟發(fā)式融合參數(shù)不同,論文利用每個類別的訓(xùn)練語料分別訓(xùn)練得到各個類別的多啟發(fā)式融合參數(shù)。各特征詞提取方法性能采用該類別測試集上的平均召回率表示,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 各特征提取方法在各類別下的召回率對比結(jié)果Fig.2 Comparison results of recall rate on feature extraction methods
從圖2可以看出,采用本文方法在各個測試集上的平均召回率均高于基于關(guān)聯(lián)度的方法和基于頻率的方法的性能,這說明該方法提取特征詞的性能穩(wěn)定,在各個類別的提取效果均得到明顯提高。
在這組實(shí)驗(yàn)中,采用宏平均F1值和微平均F1值作為分類性能評價標(biāo)準(zhǔn),使用3種經(jīng)典的特征提取方法:信息增益(IG)、x2統(tǒng)計(jì)量(CHI)、互信息(MI)與本文所提特征提取方法作比較。
3.3.1 耗時實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,記錄了各特征提取方法從開始執(zhí)行到執(zhí)行結(jié)束整個過程所消耗的時間,其結(jié)果如圖3。
圖3 各方法消耗的時間Fig.3 Comparison results of consuming time
由于本文方法采用了多個指標(biāo)以及組合方法,耗時有所增加。從圖3可以看出,在該組實(shí)驗(yàn)中,本文方法在消耗時間方面劣于互信息方法和信息增益方法,但優(yōu)于最耗時的x2統(tǒng)計(jì)量方法,但它們耗時相差不大,這也使得本文方法有一定的實(shí)用價值。
3.3.2 宏平均和微平均實(shí)驗(yàn)結(jié)果
從各個特征提取方法所獲得的特征集(其中的特征已按權(quán)重逆序進(jìn)行了排序)中,分別選取相應(yīng)數(shù)目的特征對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行宏平均F1和微平均F1計(jì)算,具體結(jié)果如圖4和圖5所示。
圖4 宏平均F1實(shí)驗(yàn)結(jié)果Fig.4 Comparison results of macro-averageF1
圖5 微平均F1實(shí)驗(yàn)結(jié)果Fig.5 Comparison results of micro-averageF1
利用特征數(shù)目的變化來考查分類器的性能,可以比較準(zhǔn)確地反映出該分類器數(shù)對據(jù)樣本變化是否敏感。圖4表明:隨著特征數(shù)目的遞增,宏平均F1值不斷增加,但是由于實(shí)驗(yàn)數(shù)據(jù)中各類別樣本分布極其不均勻而有所波動;圖4表明:隨著特征個數(shù)的不斷增加,微平均F1值也遞增并趨于一個相對較穩(wěn)定的值。
從圖4和圖5可以看出:在本文方法所選的前1 500個特征上KNN分類器性能最佳,宏平均F1值約為84%,微平均F1值約為92%;在CHI方法所選的前1 500個特征上KNN分類器性能最佳,宏平均F1值約為74%,微平均F1值約為86%;在MI方法所選的前1 500個特征上KNN分類器性能最佳,宏平均F1值約為70%,微平均F1值約為84%;在IG方法所選的前2 000個特征上KNN分類器性能最佳,宏平均F1值約為61%,微平均F1值約為67%。這表明在該組實(shí)驗(yàn)中,這4個特征提取方法的優(yōu)劣依次為本文方法、CHI、MI、IG。原因在于:本文方法在選擇特征時,不但考查了特征的詞性和詞頻還考查了特征的位置和關(guān)聯(lián)度,從而有效地對待選特征進(jìn)行全面考查,這使得本文方法受類別分布影 響較小,因此所選特征集較具代表性。CHI方法在選擇特征時不但考查了特征在文檔中存在的情況而且還考查了特征不在文檔中的情況,MI方法僅考查了特征在文檔中存在的情況,但它們都沒能有效地消除冗余特征。因此,這2個方法要劣于本文方法,但是CHI方法要優(yōu)于MI方法;由于實(shí)驗(yàn)中所用語料庫中各類別樣本分布相差較大,而IG方法對類別樣本分布極其敏感,因此,在此情況下IG方法所選擇的特征集代表性最差。
基于統(tǒng)計(jì)方法和基于語言學(xué)的特征提取方法已經(jīng)被廣泛應(yīng)用于特征詞提取。本文結(jié)合2種方法的優(yōu)點(diǎn),提出了一種基于遺傳算法優(yōu)化綜合啟發(fā)式的中文網(wǎng)頁特征提取方法。該方法能夠有效利用詞語的內(nèi)在屬性和詞語之間的鏈接關(guān)系,通過多種啟發(fā)式表征中文文本的特征,對特征詞進(jìn)行較全面的考查。實(shí)驗(yàn)結(jié)果表明該方法能夠有效融合不同因素的優(yōu)點(diǎn),與傳統(tǒng)方法相比,該方法具有一定的優(yōu)勢,從而使得該方法在文本挖掘方面有一定的實(shí)用價值。
由于不同類別的文檔的因素分布不盡相同,論文接下來的工作將繼續(xù)研究不同領(lǐng)域內(nèi)采用該方法的特征詞提取的性能。另外通過實(shí)驗(yàn)發(fā)現(xiàn),對于人工標(biāo)注的結(jié)果,主觀性因素的影響依然存在。論文還將進(jìn)一步研究合理的標(biāo)注方式,對現(xiàn)有網(wǎng)頁數(shù)據(jù)進(jìn)行處理,減少主觀因素帶來的實(shí)驗(yàn)誤差。
另外,本文方法雖然采用了十進(jìn)制編碼以及自適應(yīng)交叉變異操作等措施來確保遺傳算法的性能,進(jìn)而保證本文特征抽取方法的性能,但是目前有些智能優(yōu)化算法比遺傳算法優(yōu)秀,例如粒子群優(yōu)化算法、蜂群優(yōu)化算法等,如果把它們用于本文方法的參數(shù)權(quán)重優(yōu)化,效果可能會優(yōu)于遺傳算法。為此,作者下一步研究工作就是嘗試把其他智能優(yōu)化算法用于本文方法的參數(shù)權(quán)重優(yōu)化,以進(jìn)一步提高本文方法的性能。
參考文獻(xiàn):
[1]GHEYAS I A, SMITH L S. Feature subset selection in large dimensionality domains[J]. Pattern Recognition, 2010, 43(1): 5-13.
[2]NGUYEN M H, TORRE F D. Optimal feature selection for support vector machines[J]. Pattern Recognition, 2010, 43(3): 584-591.
[3]ZHAO Zheng, WANG Lei, LIU Huan. On similarity preserving feature selection[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(3): 619-632.
[4]JAVED K, BABRI H A, SAEED M. Feature selection based on class-dependent densities for high-dimensional binary data[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(3): 465-477.
[5]WU Xindong, YU Kui ,DING Wei. Online feature selection with streaming features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(5): 1178-1192.
[6]LEE S, PARK C, KOO J Y. Feature selection in the Laplacian support vector machine[J]. Computational Statistics and Data Analysis, 2011, 55(1): 567-577.
[7]SONG Qinbao, NI Jingjie, WANG Guangtao. A fast clustering-based feature subset selection algorithm for high-dimensional data[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(1): 1-14.
[8]CHUANG L Y, YANG C H, LI J C. Chaotic maps based on binary particle swarm optimization for feature selection[J]. Journal of Applied Soft Computing, 2011, 11 (1): 239-248.
[9]李綱,戴強(qiáng)斌. 基于詞匯鏈的關(guān)鍵詞自動標(biāo)引方法[J]. 圖書情報知識, 2011,12(3): 67-71.
LI Gang, DAI Qiangbin. Keywords automatic indexing based on lexical chains[J]. Document, Information and Knowledge, 2011, 12(3): 67-71
[10]朱顥東, 李紅嬋. 基于互信息和粗糙集理論的特征選擇[J].計(jì)算機(jī)工程, 2011, 37 (15): 181-183.
ZHU Haodong, LI Hongchan. Feature selection based on mutual information and rough set theory[J]. Computer Engineering, 2011, 37 (15): 181-183.
[11]JEONG Y S, KANG I H, JEONG M K. A new feature selection method for one-class classification problems[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 2012, 42(6): 1500-1509.
[12]LIU Z, LIU Q. Balanced feature selection method for Internet traffic classification[J]. Networks, 2012, 1 (2): 74-83.
[13]MAHROOGHY M,YOUNAN N H, ANANTHARAJ V G. On the use of the genetic algorithm filter-based feature selection technique for satellite precipitation estimation[J]. Geoscience and Remote Sensing Letters, 2012, 9(5): 963-967.