摘 要:針對(duì)現(xiàn)有鄰域粗糙集模型中存在屬性權(quán)重都相同,無(wú)法保證關(guān)鍵屬性在屬性約簡(jiǎn)時(shí)能夠被保留的問(wèn)題,提出了一種基于信息熵加權(quán)的屬性約簡(jiǎn)算法。首先,采用了類間熵、類內(nèi)熵策略,以最大化類間熵最小化類內(nèi)熵為原則給屬性賦予權(quán)重;其次,構(gòu)造了基于加權(quán)鄰域關(guān)系的加權(quán)鄰域粗糙集模型;最后,基于依賴關(guān)系評(píng)估屬性子集的重要性,從而實(shí)現(xiàn)屬性約簡(jiǎn)。在基于UCI數(shù)據(jù)集上與其他三種屬性約簡(jiǎn)算法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,該算法能夠有效去除冗余,提高分類精度。
關(guān)鍵詞:屬性約簡(jiǎn); 鄰域粗糙集; 屬性加權(quán); 信息熵
中圖分類號(hào):TP18文獻(xiàn)標(biāo)志碼: A文章編號(hào):1001-3695(2024)04-013-1047-05
doi:10.19734/j.issn.1001-3695.2023.07.0366
Novel method to attribute reduction based on information entropy weighting
Luo Fan, Jiang Yu
Abstract:Aiming at the problem that attributes in the existing neighborhood rough set model all have the same weight, which cannot ensure that the key attributes can be retained in attribute approximation,this paper proposed an attribute approximation algorithm based on information entropy weighting. Firstly,itadopted interclass entropy and intraclass entropy strategies to assign weights to attributes based on the principle of maximising interclass entropy and minimising intraclass entropy. Secondly, it constructed a weighted neighborhood rough set model based on weighted neighborhood relationships. Finally, it assessed the importance of attribute subsets based on dependency relationships to achieve attribute simplification. Comparison experiments with other three attribute approximation algorithms on UCI-based dataset show that the proposed algorithm can effectively remove redundancy and improve classification accuracy.
Key words:attribute reduction; neighborhood rough set; attribute weighting; information entropy
1982年P(guān)awlak[1]提出的粗糙集理論是機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)挖掘等領(lǐng)域強(qiáng)有力的數(shù)學(xué)分析工具。經(jīng)典的Pawlak粗糙集理論需要嚴(yán)格的等價(jià)關(guān)系,因此它只適用于處理離散型數(shù)據(jù)。為了將粗糙集理論引入至對(duì)連續(xù)型數(shù)據(jù)的處理中,一些研究者提出了鄰域粗糙集[2]、模糊粗糙集[3]、基于優(yōu)勢(shì)的粗糙集等模型[4]。這些廣義的粗糙集模型廣泛地應(yīng)用于屬性約簡(jiǎn)[5]、規(guī)則提?。?]、決策理論[7]、增量學(xué)習(xí)[8]等領(lǐng)域。
鄰域關(guān)系可以很好地描述樣本間的相似性,Hu等人[2]基于鄰域關(guān)系提出了鄰域粗糙集模型,利用鄰域關(guān)系替代等價(jià)關(guān)系,鄰域粗糙集成為粗糙集框架下處理連續(xù)型數(shù)據(jù)的主要模型之一。現(xiàn)有鄰域粗糙集約簡(jiǎn)算法的設(shè)計(jì)思路大多是在文獻(xiàn)[2]的基礎(chǔ)上改進(jìn)或優(yōu)化而提出的兩類屬性約簡(jiǎn)算法。
第一類是基于屬性重要度的屬性約簡(jiǎn)算法。周長(zhǎng)順等人[9]為了提高算法的運(yùn)行效率,提出了一種改進(jìn)的屬性重要度對(duì)條件屬性排序,利用排序結(jié)果對(duì)原始數(shù)據(jù)進(jìn)行屬性約簡(jiǎn);Fan等人[10]針對(duì)鄰域粗糙集忽略了不包含在任何決策類中的邊界樣本的可分性這一問(wèn)題,提出了最大決策鄰域粗糙集模型,基于此模型提出了一種改進(jìn)的屬性約簡(jiǎn)算法。
第二類是基于信息觀的屬性約簡(jiǎn)算法。Wang等人[11]用鄰域區(qū)分指數(shù)來(lái)表征鄰域關(guān)系的判別信息,用來(lái)代替鄰域粗糙集中的信息熵,設(shè)計(jì)了一種屬性約簡(jiǎn)算法;Xu等人[12]定義了鄰域可信度和鄰域覆蓋率,并將其引入鄰域聯(lián)合熵中,提出了一種基于鄰域粗糙集的信息與代數(shù)相結(jié)合的屬性約簡(jiǎn)算法;Wang等人[13]針對(duì)特征選擇算法在計(jì)算特征相關(guān)性時(shí)沒(méi)有考慮特征交互性這一問(wèn)題,提出了一種新的信息度量方法——鄰域?qū)ΨQ不確定性的概念,在此基礎(chǔ)上提出了一種特征交互的屬性約簡(jiǎn)算法。
上述基于鄰域粗糙集的模型都沒(méi)有考慮屬性的權(quán)重。然而,在實(shí)踐中,每個(gè)屬性對(duì)學(xué)習(xí)任務(wù)的貢獻(xiàn)是有所差別的,需要對(duì)不同的屬性賦予不同的權(quán)重。本文通過(guò)計(jì)算屬性的權(quán)重,提出了一種基于信息熵加權(quán)的屬性約簡(jiǎn)算法,該算法不僅能降低屬性空間維數(shù),而且能有效提升分類器的分類性能。
1 鄰域粗糙集模型
3 基于加權(quán)鄰域粗糙集的屬性約簡(jiǎn)
通過(guò)計(jì)算類內(nèi)熵、類間熵,以最小化類內(nèi)熵、最大化類間熵為原則為屬性賦予權(quán)重,讓重要的屬性盡可能地被保留。
算法1 屬性加權(quán)算法
輸入:鄰域決策信息系統(tǒng)DIS=〈U,C,D〉。
輸出:屬性權(quán)重 w 。
a)for each a∈C
b) for each Dk∈D
c)根據(jù)式(13)計(jì)算當(dāng)前屬性a在決策類Dk的類內(nèi)熵
d) 根據(jù)式(14)計(jì)算當(dāng)前屬性a的平均類內(nèi)熵
e) for each Di∈D
f )for each Dj∈D
g ) 根據(jù)式(15)計(jì)算當(dāng)前屬性a在任意兩個(gè)決策類的類間熵
h)根據(jù)式(16)計(jì)算當(dāng)前屬性a的平均類間熵
i )根據(jù)式(17)(18)計(jì)算所有屬性的v, w
j)returnw
該算法的時(shí)間復(fù)雜度主要由步驟a)~h)的時(shí)間復(fù)雜度組成。步驟b)~d)是計(jì)算計(jì)算屬性的類內(nèi)熵,時(shí)間復(fù)雜度為O(m∑ k/i=1 |Di|2),其中k是由決策屬性劃分的類簇的個(gè)數(shù),m是屬性個(gè)數(shù),|Di|代表第i個(gè)類簇樣本的個(gè)數(shù)。步驟e)~h)是計(jì)算屬性的類間熵,時(shí)間復(fù)雜度為O(m∑ k/i=1 ∑ k/j>i |Di||Dj|),所以算法1的時(shí)間復(fù)雜度為O(m∑ k/i=1 ∑ k/j>i |Di||Dj|)?;谒岢龅募訖?quán)鄰域粗糙集模型,構(gòu)造了前向搜索屬性約簡(jiǎn)算法,前向搜索算法能夠保證重要的屬性首先被加入到約簡(jiǎn)集合中。算法的基本思路為:首先將約簡(jiǎn)集red初始化為空集,其次計(jì)算每添加一個(gè)剩余屬性后的屬性重要度,選取使得屬性重要度最大的屬性添加至約簡(jiǎn)集合中,直到所有剩余屬性添加到約簡(jiǎn)集合時(shí)屬性重要度為零,即增加任意新的屬性,系統(tǒng)的依賴度都不會(huì)發(fā)生變化為止。
算法2 基于加權(quán)鄰域粗糙集的屬性約簡(jiǎn)算法(WNRS)
輸入:鄰域決策信息系統(tǒng)DIS=〈U,C,D〉,鄰域半徑δ。
輸出:約簡(jiǎn)集red。
a)初始化red=
b)計(jì)算每個(gè)條件屬性的權(quán)重 w
c)for each a∈C-red
d) 計(jì)算加權(quán)鄰域相似關(guān)系Wa
e)while C-red≠
f) for each a∈C-red
g) 計(jì)算加權(quán)依賴度wγred∪{a}(D)
h) 屬性重要度Sig(a,red,D)=wγred∪a(D)-wγred(D)
i) 選擇屬性ak使Sig(ak,red,D)=max(Sig(a,red,D))
j) if Sig(ak,red,D)>0
k)red=red∪ak
l) else
m)break
n)return red
假設(shè)鄰域決策系統(tǒng)DIS=〈U,C,D〉,其中n為樣本個(gè)數(shù),m為條件屬性個(gè)數(shù),t為約簡(jiǎn)集的個(gè)數(shù),k為決策屬性劃分的類簇的個(gè)數(shù)。由算法1可知步驟b)的時(shí)間復(fù)雜度為O(m∑ k/i=1 ∑ k/j>i |Di||Dj|);步驟c)d)需要計(jì)算每個(gè)樣本在不同屬性下的鄰域,時(shí)間復(fù)雜度為O(mn2);步驟e)~m)的時(shí)間復(fù)雜度為O(nm+n(m-1)+n(m-1)+…+n(m-t))<O(mn2)。所以算法2的時(shí)間復(fù)雜度為O(mn2)。
4 實(shí)驗(yàn)分析
為了驗(yàn)證提出的加權(quán)鄰域粗糙集屬性約簡(jiǎn)算法的有效性,在UCI數(shù)據(jù)集和盧布爾雅那大學(xué)生物信息實(shí)驗(yàn)室[18]中選取10個(gè)數(shù)據(jù)集,如表1所示。為減少各屬性量綱不一致對(duì)結(jié)果的影響,實(shí)驗(yàn)中將所有屬性值歸一化處理。
4.1 消融實(shí)驗(yàn)
本文提出的屬性加權(quán)算法綜合考慮了類內(nèi)熵(WEN)和類間熵(BEN),為驗(yàn)證加權(quán)的有效,本節(jié)將表1的10個(gè)數(shù)據(jù)集在SVM分類器中進(jìn)行了一系列消融實(shí)驗(yàn)進(jìn)行驗(yàn)證,如表2所示。
在上述的消融實(shí)驗(yàn)中,分別對(duì)應(yīng)添加了WEN加權(quán)、BEN加權(quán)、綜合WEN和BEN加權(quán)以及未添加任何加權(quán)的方式。結(jié)果表明,不加權(quán)的平均分類精度最低,僅考慮WEN加權(quán)比不加權(quán)平均分類精度提高了1.64個(gè)百分點(diǎn),只考慮BEN加權(quán)比不加權(quán)高1.03個(gè)百分點(diǎn),而同時(shí)考慮WEN和BEN為屬性加權(quán)得到的分類精度最高,分別比WEN、BEN、不加權(quán)高1.67、2.28、3.31個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果證明,本文提出的屬性加權(quán)算法在屬性約簡(jiǎn)中具有很好的效果。
4.2 對(duì)比實(shí)驗(yàn)
將本文提出的加權(quán)鄰域粗糙集的屬性約簡(jiǎn)算法(WNRS)與以下三種經(jīng)典的屬性約簡(jiǎn)算法在約簡(jiǎn)率、分類精度和運(yùn)行時(shí)間進(jìn)行對(duì)比,對(duì)比算法分別為:基于鄰域粗糙集的屬性約簡(jiǎn)算法(NRS)[2]、基于可區(qū)分度的啟發(fā)式屬性約簡(jiǎn)算法(DISAR)[19]、基于鄰域組合熵的屬性約簡(jiǎn)算法(ARNCE)[20]。 三種算法都是在NRS的基礎(chǔ)上進(jìn)行改進(jìn)的,其中:DISAR定義了類內(nèi)區(qū)分度和類間區(qū)分度,提出了一種新的屬性重要度判別準(zhǔn)則以替代NRS中的屬性重要度; ARNCE則是通過(guò)鄰域條件熵和鄰域近似精度進(jìn)行組合,定義了一種新的屬性重要度度量;而本文提出的WNRS則是首先通過(guò)決策類劃分類簇,計(jì)算屬性的類內(nèi)熵和類間熵為屬性賦予權(quán)重,再重新定義加權(quán)鄰域相似關(guān)系和構(gòu)造加權(quán)鄰域粗糙集模型,最后進(jìn)行屬性約簡(jiǎn)。
4.2.1 約簡(jiǎn)率比較
在本節(jié)中,將WNRS與三種對(duì)比算法的約簡(jiǎn)集的屬性個(gè)數(shù)和約簡(jiǎn)率進(jìn)行了比較,其中約簡(jiǎn)率=((|A|-|red|)/|A|)×100%。約簡(jiǎn)率越高代表消除冗余屬性的能力越強(qiáng)。從表3的數(shù)據(jù)可以看出,WNRS在10個(gè)數(shù)據(jù)集上的平均約簡(jiǎn)率高于其他三種算法,從約簡(jiǎn)集的平均屬性個(gè)數(shù)看,WNRS也低于其他三種對(duì)比算法,表明WNRS具有較強(qiáng)的屬性約簡(jiǎn)能力。分析原因在于,采用對(duì)屬性加權(quán)的策略,屬性的權(quán)重會(huì)同時(shí)促進(jìn)或抑制屬性的重要性。通過(guò)引入權(quán)重,與區(qū)分能力強(qiáng)的屬性在重要度上得到了提升,相比于沒(méi)有權(quán)重作用的情況下,它們顯得更為突出,另一方面,冗余屬性的重要度則比沒(méi)有賦予權(quán)重時(shí)相應(yīng)降低,更不容易被選擇到約簡(jiǎn)集中。在表格中,將各數(shù)據(jù)集在四種約簡(jiǎn)算法中的最優(yōu)約簡(jiǎn)集屬性個(gè)數(shù)和約簡(jiǎn)率加粗。
4.2.2 分類精度比較
為了比較不同約簡(jiǎn)算法所選屬性的分類能力,本文采用了支持向量機(jī)(SVM)、K近鄰(KNN)、分類回歸樹(CART)三種常見(jiàn)的分類器。對(duì)不同算法的約簡(jiǎn)集進(jìn)行10次十折交叉驗(yàn)證得到分類精度,如表4~6所示。在每個(gè)表格中,分類精度都以平均值的形式表示,將每個(gè)數(shù)據(jù)集在四種約簡(jiǎn)算法中的最優(yōu)分類精度加粗。從表格中可以看出,在三種分類器中都表現(xiàn)出了優(yōu)異的分類性能,其中WNRS在SVM分類器中比NRS、DISAR、ARNCE的平均分類精度分別提升了約3.3、2.6、2.8個(gè)百分點(diǎn);在KNN分類器中,WNRS與三種對(duì)比算法相比都有所提升,最高提升了3.54個(gè)百分點(diǎn);在CART分類器中,WNRS比NRS的平均分類精度高3.08個(gè)百分點(diǎn),比DISAR高2.9個(gè)百分點(diǎn),比ARNCE高3.36個(gè)百分點(diǎn)。從取得最優(yōu)分類精度的數(shù)據(jù)集個(gè)數(shù)上看,WNRS是最多的,在SVM和KNN分類器中有8個(gè)數(shù)據(jù)集,在CART分類器中有9個(gè)數(shù)據(jù)集。從三種分類器的結(jié)果可以看出,事先對(duì)屬性賦予權(quán)重再進(jìn)行屬性約簡(jiǎn),得到的約簡(jiǎn)集具有更強(qiáng)的分類能力。造成這種結(jié)果的原因是:傳統(tǒng)屬性約簡(jiǎn)算法在計(jì)算鄰域關(guān)系時(shí)使用相同的權(quán)重,沒(méi)有挖掘出屬性與決策之間的關(guān)系。而本文WNRS中,在屬性約簡(jiǎn)前,使用類內(nèi)熵和類間熵綜合評(píng)估屬性對(duì)不同決策樣本的區(qū)分能力,區(qū)分能力強(qiáng)的屬性被賦予更高的權(quán)重,在屬性約簡(jiǎn)過(guò)程中更容易被添加到約簡(jiǎn)集中,從而得到更高的分類精度。
4.2.3 運(yùn)行時(shí)間比較
在本節(jié)中比較了幾種約簡(jiǎn)算法的運(yùn)行時(shí)間,最終的運(yùn)行時(shí)間以3次約簡(jiǎn)算法運(yùn)行時(shí)間的平均值表示。由于ARNCE同時(shí)考慮信息熵和近似測(cè)度,時(shí)間復(fù)雜度較高,在原文中也沒(méi)有比較運(yùn)行時(shí)間,所以本文算法只與其他兩種算法進(jìn)行比較。本文更關(guān)注算法在規(guī)模與維度較高的數(shù)據(jù)集的表現(xiàn)能力,因此挑選了幾個(gè)維度較高的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果用圖1柱狀圖表示。
從圖1可以看出,在以下數(shù)據(jù)集中WNRS與其他兩種算法相比運(yùn)行時(shí)間最少,分析其原因可能是相比于NRS,盡管WNRS對(duì)屬性計(jì)算權(quán)重時(shí)需要花費(fèi)額外的時(shí)間,但是WNRS的約簡(jiǎn)能力更強(qiáng),保證分類精度的情況下選擇的屬性更少,而WNRS與NRS都采用前向搜索算法,選擇的屬性越少,約簡(jiǎn)算法越快結(jié)束,運(yùn)行時(shí)間越少。而DISAR的運(yùn)行時(shí)間明顯高于其他兩種算法,這是因?yàn)镈ISAR的終止條件會(huì)使得約簡(jiǎn)屬性集存在過(guò)擬合的問(wèn)題,導(dǎo)致運(yùn)行時(shí)間過(guò)長(zhǎng)。
4.3 鄰域半徑的選擇分析
對(duì)于加權(quán)鄰域粗糙集屬性約簡(jiǎn)算法,在不同的鄰域半徑選擇的屬性子集和分類精度不同,圖2是部分?jǐn)?shù)據(jù)集在不同鄰域半徑下的約簡(jiǎn)集個(gè)數(shù)和分類精度變化的曲線。從圖2可以發(fā)現(xiàn),對(duì)于大多數(shù)數(shù)據(jù)集來(lái)說(shuō),隨著鄰域半徑的增加,所選擇的屬性個(gè)數(shù)也在增加,分類精度先增大后保持不變或者減小。每個(gè)圖中的虛線框的位置是最佳約簡(jiǎn)結(jié)果,即所選擇的屬性子集少且分類精度較高。
4.4 算法應(yīng)用
為了驗(yàn)證WNRS算法的實(shí)用性,將該算法用于紅斑鱗狀皮膚病診斷,旨在幫助醫(yī)生和研究人員在進(jìn)行皮膚病診斷時(shí)提供依據(jù)。所用數(shù)據(jù)集是UCI數(shù)據(jù)庫(kù)中的dermatology dataset,有366個(gè)樣本數(shù)據(jù),該數(shù)據(jù)包含34個(gè)屬性,其中12個(gè)臨床屬性以及22個(gè)病理學(xué)屬性。為驗(yàn)證算法的有效性和實(shí)用性,先通過(guò)本文改進(jìn)的算法將屬性集合進(jìn)行約簡(jiǎn),然后通過(guò)SVM、KNN、CART分類器進(jìn)行分類,為展示正確和錯(cuò)誤的分類結(jié)果,采用混淆矩陣進(jìn)行評(píng)價(jià)。
通過(guò)本文的WNRS算法將屬性約簡(jiǎn)至8個(gè),約簡(jiǎn)集為{4、5、15、16、22、27、31、33},屬性的約簡(jiǎn)率達(dá)到76.5%。同時(shí)在訓(xùn)練集和測(cè)試集之比為7∶ 3的情況下, SVM、KNN、CART三種分類器的分類精度為0.990 9、0.981 8、0.981 8;混淆矩陣結(jié)果如圖3所示,據(jù)圖可知,經(jīng)過(guò)屬性約簡(jiǎn)后,三種分類器在預(yù)測(cè)3、5、6類皮膚病上的準(zhǔn)確率都是100%,此外SVM分類器在2、4類皮膚病的準(zhǔn)確率也是100%。通過(guò)屬性約簡(jiǎn)后,數(shù)據(jù)特征數(shù)量得到有效降低的同時(shí),分類結(jié)果也能夠得到有效保證,都體現(xiàn)了WNRS算法的合理性以及有效性,證明了該算法具有應(yīng)用價(jià)值。
5 結(jié)束語(yǔ)
針對(duì)傳統(tǒng)鄰域粗糙集的屬性約簡(jiǎn)在計(jì)算鄰域關(guān)系時(shí)使用相同的權(quán)重,沒(méi)有充分挖掘?qū)傩院蜎Q策之間的關(guān)系這一缺點(diǎn),本文提出了一種基于信息熵加權(quán)的鄰域粗糙集的屬性約簡(jiǎn)算法。本文的主要工作是使用類內(nèi)熵、類間熵給每個(gè)屬性賦予權(quán)重,再構(gòu)造加權(quán)鄰域粗糙集模型,將加權(quán)鄰域依賴關(guān)系作為度量屬性重要度的函數(shù),最后進(jìn)行屬性約簡(jiǎn)。
通過(guò)實(shí)驗(yàn)仿真結(jié)果驗(yàn)證了WNRS算法的可行性和有效性,在大多數(shù)數(shù)據(jù)集上的約簡(jiǎn)結(jié)果表明本文算法可以在維持原始分類能力的情況下去除冗余屬性,有較好的約簡(jiǎn)效果。
參考文獻(xiàn):
[1]Pawlak Z. Rough sets[J].International Journal of Computer amp; Information Sciences , 1982, 11 : 341-356.
[2]Hu Qinghua,Yu Daren,Liu Jinfu,et al . Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences , 2008, 178 (18): 3577-3594.
[3]Sheeja T K, Kuriakose A S. A novel feature selection method using fuzzy rough sets[J].Computers in Industry , 2018,97 : 111-116.
[4]Greco S, Matarazzo B, Slowinski R. Rough sets theory for multicriteria decision analysis[J].European Journal of Operational Research , 200 129 (1): 1-47.
[5]Qu Kanglin, Xu Jiucheng, Han Ziqin,et al . Maximum relevance minimum redundancy-based feature selection using rough mutual information in adaptive neighborhood rough sets[J].Applied Intelligence , 2023, 53 (14):17727-17746.
[6]Luo Chuan, Li Tianrui, Chen Hongmei,et al . Incremental approaches for updating approximations in set-valued ordered information systems[J].Knowledge-Based Systems , 2013, 50 : 218-233.
[7]Guo Yanting, Tsang E C C, Hu Meng,et al . Incremental updating approximations for double-quantitative decision-theoretic rough sets with the variation of objects[J].Knowledge-Based Systems , 2020, 189 : 105082.
[8]Pan Yanzhou, Xu Weihu Ran Qinwen. An incremental approach to feature selection using the weighted dominance-based neighborhood rough sets[J].International Journal of Machine Learning and Cybernetics,2023, 14 (4): 1217-1233.
[9]周長(zhǎng)順,徐久成,瞿康林,等. 一種基于改進(jìn)鄰域粗糙集中屬性重要度的快速屬性約簡(jiǎn)方法[J].西北大學(xué)學(xué)報(bào):自然科學(xué)版, 2022, 52 (5):745-752. (Zhou Changshun, Xu Jiucheng, Qu Kanglin, et al . A fast attribute reduction method based on improved attribute importance in neighborhood rough sets[J].Journal of Northwest University:Natural Science Edition , 2022, 52 (5):745-752.)
[10]Fan Xiaodong, Zhao Weid Wang Changzhong,et al . Attribute reduction based on max-decision neighborhood rough set model[J].Knowledge-Based Systems , 2018,151 : 16-23.
[11]Wang Changzhou, Hu Qinghu Wang Xizhao,et al . Feature selection based on neighborhood discrimination index[J].IEEE Trans on Neural Networks and Learning Systems , 2017, 29 (7): 2986-2999.
[12]Xu Jiucheng, Qu Kanglin, Yuan Meng, et al. Feature selection combining information theory view and algebraic view in the neighborhood decision system[J].Entropy , 202 23 (6): 704.
[13]Wang Wenjing, Guo Min, Han Tongtong,et al . A novel feature selection method considering feature interaction in neighborhood rough set[J].Intelligent Data Analysis,2023,27 (2): 345-359.
[14]Rényi A. On measures of entropy and information[C]//Proc of the 4th Berkeley Symposium on Mathematical Statistics and Probability. 1961: 547-562.
[15]Parzen E. On estimation of a probability density function and mode[J].The Annals of Mathematical Statistics , 1962,33 (3): 1065-1076.
[16]Jenssen R, Eltoft T, Erdogmus D,et al . Some equivalences between kernel methods and information theoretic methods[J].Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology , 2006,45 : 49-65.
[17]Liang Jiye, Zhao Xingwang, Li Deyu,et al . Determining the number of clusters using information entropy for mixed data[J].Pattern Recognition , 2012,45 (6): 2251-2265.
[18]University of Ljubljana Faculty of Bioinformatics Laboratory. Orange DataMining [DB/OL]. [2017-03-22]. https://file.biolab.si/biolab/supp/bi-cancer/projections/info/DLBCL.html.
[19]張敏, 朱啟兵, 黃敏. 基于可區(qū)分度的連續(xù)空間屬性約簡(jiǎn)算法研究 [J]. 計(jì)算機(jī)應(yīng)用研究, 2022,39 (4): 1013-1018. (Zhang min, Zhu Qibing, Huang Min. Research on continuous space attri-bute reduction algorithm based on discrimination[J].Application Research of Computers , 2022, 39 (4): 1013-1018.)
[20]王光瓊. 基于鄰域組合熵的屬性約簡(jiǎn)算法 [J]. 計(jì)算機(jī)應(yīng)用與軟件, 2018, 35 (12):269-273,284. (Wang Guangqiong. Attribute reduction algorithm based on neighborhood combinatorial entropy[J].Computer Applications and Software , 2018, 35 (12): 269-273,284.)
收稿日期:2023-07-19;修回日期:2023-10-08
作者簡(jiǎn)介:羅帆(1999—),女,四川南充人,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)挖掘、粗糙集;蔣瑜(1980—),男(通信作者),四川鄰水人,副教授,碩士,主要研究方向?yàn)閿?shù)據(jù)挖掘、粗糙集與智能計(jì)算(jiangyu@cuit.edu.cn).