陳雪云*,劉艷芳,柯婷,張劍楠
?
基于類別信息熵加權(quán)的MKNN算法
陳雪云*,劉艷芳,柯婷,張劍楠
(龍巖學(xué)院信息工程學(xué)院,福建省龍巖市 364000)
針對(duì)MKNN算法對(duì)類屬性數(shù)據(jù)處理簡(jiǎn)單的問題,引入信息熵作為處理類屬性數(shù)據(jù)的相似性度量,進(jìn)而引入類別信息熵的概念。對(duì)同一類型的類屬性數(shù)據(jù)根據(jù)其類別信息熵權(quán)重的大小,把數(shù)據(jù)集的記錄進(jìn)行分類進(jìn)而得到測(cè)試結(jié)果。實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。
數(shù)據(jù)挖掘;MKNN;類別信息熵;類屬性
數(shù)據(jù)挖掘算法有分類算法、聚類算法、回歸等這幾類。每一類的分析側(cè)重點(diǎn)和其優(yōu)勢(shì)各有差異。分類是通過分析已知數(shù)據(jù)集數(shù)據(jù)特征為其標(biāo)簽,再通過與此標(biāo)簽和對(duì)未知數(shù)據(jù)集的對(duì)比從而進(jìn)行分類,分類是數(shù)據(jù)挖掘中的一個(gè)必不可少的研究方向。1968年Cover和Hart[1]提出的K近鄰(KNN, k-Nearest Neighbor)算法是最簡(jiǎn)單的數(shù)據(jù)挖掘分類算法之一,同樣也是最好的文本算法之一。由于它的“簡(jiǎn)單”,被稱為懶惰算法,因此可以改進(jìn)的地方很多。比如分類速度慢,屬性相同的權(quán)重影響了準(zhǔn)確率。直到目前為止,有很多學(xué)者對(duì)它進(jìn)行過研究并提出了很多改進(jìn)方法。例如:張著英等[2]提出將粗糙集理論應(yīng)用到KNN算法中,實(shí)現(xiàn)屬性約簡(jiǎn)以解決KNN分類效率低的缺點(diǎn);周靖[3]等提出一種采用類相關(guān)度優(yōu)化距離的KNN改進(jìn)算法,提高了KNN的分類性能;戚孝銘[4]通過聚類手段進(jìn)行去噪處理,并且通過加快K近鄰的搜索速度提高KNN算法的分類效率;肖輝輝[5]等利用屬性值對(duì)類別的重要性對(duì)KNN進(jìn)行改進(jìn),提高了分類準(zhǔn)確性;耿麗娟和李星毅[6]對(duì)已知樣本根據(jù)類域進(jìn)行分層,大大降低了無(wú)效的計(jì)算;郝勝軒[7]等針對(duì)KNN算法對(duì)缺失數(shù)據(jù)的填補(bǔ)效果會(huì)因?yàn)樵紨?shù)據(jù)中存在噪聲而受到嚴(yán)重影響的問題,提出了ENN-KNN消除噪聲最近鄰對(duì)填補(bǔ)結(jié)果的影響;蘇毅娟等[8]創(chuàng)新性地通過線性復(fù)雜度聚類方法對(duì)大數(shù)據(jù)樣本進(jìn)行分塊,然后在測(cè)試過程中找出與待測(cè)樣本距離最近的塊,并將其作為新的訓(xùn)練樣本進(jìn)行K最近鄰分類,大幅度地減少了K最近鄰算法的測(cè)試開銷,使其能在大數(shù)據(jù)集中得以應(yīng)用;康麗萍[9]等提出基于加權(quán)KNN的融合分類方法以解決將語(yǔ)義級(jí)融合算法應(yīng)用于不同分類方法時(shí)由于分類決策基準(zhǔn)不統(tǒng)一導(dǎo)致分類結(jié)果不理想,大幅降低融合分類性能的問題;劉繼宇[10]等針對(duì)粗糙集訓(xùn)練過程中從未遇到過的樣本的分類問題進(jìn)行了探討,根據(jù)條件屬性的重要性確定加權(quán)系數(shù),采用加權(quán)KNN的方法來(lái)解決無(wú)法與決策規(guī)則精確匹配的樣本分類問題。Liu和Zhang[11]提出的互K近鄰算法(MKNN)很好的解決了K最近鄰(KNN)存在的偽近鄰問題。MKNN可以很好的消除異常數(shù)據(jù)和提高質(zhì)量,因?yàn)樵撍惴ㄍㄟ^更好地丟棄訓(xùn)練樣本中可能會(huì)有的噪聲數(shù)據(jù)從而實(shí)現(xiàn)克服KNN中存在的偽近鄰問題,所以說MKNN是基于在KNN的基礎(chǔ)之上,解決了KNN偽近鄰問題的干擾,而改善了算法的性能。但是兩者的近鄰選擇都取決于相似性度量的選擇,而相似性度量是數(shù)據(jù)集中分類分析的決定性因素。傳統(tǒng)的相似性度量大多適合數(shù)值型屬性,MKNN和傳統(tǒng)的KNN一樣都適合在數(shù)值型領(lǐng)域。對(duì)于類屬性數(shù)據(jù)也有學(xué)者提出了改進(jìn)的方法。陳雪云[12]等提出的GwMKNN算法引入了類別基尼系數(shù)的概念來(lái)處理類屬性數(shù)據(jù),用基尼系數(shù)統(tǒng)計(jì)某一類屬性中不同值分布對(duì)這個(gè)類的貢獻(xiàn)度作為此類屬性的權(quán)重,并以此作為估算不同樣本之間的相似性度量對(duì)MKNN進(jìn)行優(yōu)化,擴(kuò)寬了MKNN的使用面。
根據(jù)上述研究?jī)?nèi)容的有關(guān)分析,提出的基于類別信息熵加權(quán)的MKNN算法(以下簡(jiǎn)稱EwMKNN)主要研究的是類屬性數(shù)據(jù)的分類,是在MKNN算法基礎(chǔ)上衍生過來(lái)的,EwMKNN算法中引入信息熵用來(lái)作為處理類屬性數(shù)據(jù)的相似性度量?,F(xiàn)在同樣也有很多關(guān)于信息熵的研究算法,例如:王磊[13]利用熵來(lái)度量新文本對(duì)于已分類文本集合的貢獻(xiàn)度大小,并以此熵值來(lái)判斷文本歸屬的類;甘蘇婷[14]在信息熵理論的基礎(chǔ)上利用數(shù)據(jù)挖掘技術(shù)構(gòu)建決策支持系統(tǒng)的信息組織機(jī)制,信息熵的利用可以度量決策支持系統(tǒng)中信息組織的規(guī)律性程度;陳曦[15]等利用信息熵原理定義了不同類型的謠言信息熵,并通過對(duì)謠言傳播計(jì)算機(jī)仿真結(jié)果的熵值分析,驗(yàn)證了謠言信息度量方法的可行性;Li[16]等將最大信息熵模型應(yīng)用于各種自然語(yǔ)言的語(yǔ)義分析任務(wù)中,進(jìn)而實(shí)現(xiàn)輿情分析;朱佳佳[17]等使用改進(jìn)的SVM多分類器對(duì)熵值量化后的流量進(jìn)行分類判決,根據(jù)分類結(jié)果捕獲異常;魏琴芳[18]等將信息熵和遺傳算法應(yīng)用于檢測(cè)過程所用比對(duì)庫(kù)的訓(xùn)練,采用異常檢測(cè)和特征檢測(cè)結(jié)合方法進(jìn)行入侵檢測(cè);潘瑞林[19]等提出基于α信息熵的屬性重要度度量,并以此構(gòu)建混合屬性約簡(jiǎn)算法。
根據(jù)這些算法的分析,得知信息熵有著很好避免噪聲數(shù)據(jù)的干擾的效果,可用來(lái)作為處理類屬性數(shù)據(jù)的相似性度量,以更好地優(yōu)化MKNN算法,提高其對(duì)類屬性數(shù)據(jù)處理的效率。為研究類屬性型的數(shù)據(jù)提供了更加準(zhǔn)確的分析方法。
1.1 偽近鄰
K近鄰是根據(jù)測(cè)量不同特征值之間的距離分類,首先需要在訓(xùn)練數(shù)據(jù)集中找到K個(gè)最近鄰的樣本,類別由這K個(gè)近鄰中占最多的樣本的類別決定,若k值取得較大就會(huì)出現(xiàn)很多干擾的樣本,影響了分類準(zhǔn)確率。通過引入互近鄰的概念,獲取更加真實(shí)的樣本,去除掉干擾的或者“假”的鄰居,即偽近鄰,依據(jù)真實(shí)鄰居的標(biāo)簽信息分類,丟棄噪聲數(shù)據(jù),從而提高了預(yù)測(cè)結(jié)果的準(zhǔn)確性,以及分類模型的預(yù)測(cè)性能。
1.2 信息熵
熵可以說是個(gè)物理單位因?yàn)樽钤缡潜硎緹崃W(xué),其值表示的是一個(gè)系統(tǒng)的混亂程度,然而在信息理論中的這個(gè)熵也可稱信息熵,可用來(lái)表示某個(gè)隨機(jī)變量的不穩(wěn)定性程度??梢杂行П苊庠肼晹?shù)據(jù)的干擾。
定義1信息熵
假定X是一個(gè)隨機(jī)變量,p(x)表示變量X取值為x的概率,那么它的不確定性程度可以表示為信息熵E(X)形式,則:
定義2集合D的信息熵Entropy(D)[13]
公式中Pi表示集合D中屬于Ci的比例。
定義3類別信息熵[12]
在文獻(xiàn)[12]中已經(jīng)提出過類別信息熵的概念,類別信息熵就是在香農(nóng)信息熵的概念上對(duì)其延伸和擴(kuò)展,使其適應(yīng)對(duì)多維類屬性數(shù)據(jù)的處理,設(shè)定現(xiàn)有一個(gè)多維的類屬性數(shù)據(jù)集,D表示一個(gè)多維的樣本數(shù)據(jù)集,即,是一個(gè)r維的數(shù)據(jù)集合,其中表示的是的數(shù)據(jù)集的已定義的標(biāo)簽類別,,q是指樣本集中的類別數(shù),代表中的樣本數(shù),表示在類中第個(gè)屬性上的不同取值的次數(shù),其中。那么類別信息熵的公式可表示為:
其中,(1-4)
將計(jì)算得到的信息熵與公式3-5的結(jié)果相乘后得到一個(gè)規(guī)范化的結(jié)果。
經(jīng)過以上的分析,可以了解到,關(guān)于樣本中的某一個(gè)屬性,通過對(duì)其有著一樣的類別標(biāo)識(shí),再通過類別信息熵的統(tǒng)計(jì)和計(jì)算:若其中某一個(gè)類別在這個(gè)屬性的對(duì)于一樣的屬性值的越大,那么其通過類別信息熵處理的權(quán)重越大,則屬于該類別的機(jī)率就越大。如果類別信息熵越小,則其計(jì)算所得的權(quán)重越小,屬于該類別的機(jī)率就會(huì)更大。
通過在MKNN算法的基礎(chǔ)之上引入類別信息熵的概念,并將類別信息熵作為一種新的權(quán)重,進(jìn)而對(duì)樣本進(jìn)行分類。
EwMKNN的算法實(shí)現(xiàn):
算法1:計(jì)算類別信息熵(CaculateCategory’s Entorpy)
輸入:訓(xùn)練樣本集C
輸出:當(dāng)j屬性屬于Nominal類型時(shí),其不同類別信息熵E(k,j);
Begin
Step 1:聲明訓(xùn)練樣本數(shù)據(jù)集trainIns,不妨選取數(shù)據(jù)集C中標(biāo)號(hào)為k的樣本集;
Step 2: 遍歷所有訓(xùn)練樣本數(shù)據(jù)集,再對(duì)其進(jìn)行操作;
Step 3: 計(jì)算出訓(xùn)練數(shù)據(jù)樣本trainIns中Xjl在第k類樣本中出現(xiàn)的次數(shù),即fk(Xjl)的值對(duì)樣本集trainIns進(jìn)行統(tǒng)計(jì),即nk的值;
Step 4:依據(jù)公式(4)和fk(Xjl)的值,nk的值,算出Pjl(k)的值,表示trainIns中某個(gè)屬性的某個(gè)值Pjl(k)出現(xiàn)的概率;
Step 5:依據(jù)公式(3)計(jì)算出類別信息熵E(i,j),最后通過和相乘得到規(guī)范化的結(jié)果;
Step 6:返回E(i,j)的值作為權(quán)重;
End
算法2:計(jì)算樣本和樣本之間在j屬性上的距離(CaculteEntoryDistance);
輸入:兩個(gè)樣本集例如:Dt(Dt為測(cè)試樣本)和Di,屬性j,權(quán)重E(k,j);
輸出:兩個(gè)樣本在j屬性上的距離EnDis(Djt,Dji);
Begin
Step 1:初始化EnDis(Djt,Dji)=0;
Step 2:遍歷樣本中的所有屬性,若屬性是Nominal型,則接著判斷樣本Dt和樣本Di是否相等,如果相等則返回EnDis(Djt,Dji)=0;反之則返回Di所在的類別信息熵,且EnDis(Djt,Dji)=EnDis(yi,j);
Step 3:若數(shù)據(jù)類型不是類屬性數(shù)據(jù)則EnDis(Djt,Dji)=(Djt-Dji)2
Step 4:最后返回EnDis(Djt,Dji)
End
算法3:類別信息熵分類算法(EwMKNN)
Begin
輸入:訓(xùn)練樣本集C,樣本和樣本之間在j屬性上的距離EnDis(Djt,Dji),待分類樣本Dt,近鄰數(shù)K
輸出:預(yù)測(cè)待分類樣本Dt的類別St
Step 1:聲明訓(xùn)練樣本Di和測(cè)試樣本Dt,并初始化Dt的近鄰集合為空;
Step 2:用CaculteEnDis計(jì)算待測(cè)試樣本Dt與各訓(xùn)練樣本Di之間的距離CaluteEnDis(Djt,Dji),i={1,...,n};
Step 3:依據(jù)上一步驟的計(jì)算結(jié)果作為判定數(shù)據(jù)集中樣本是否為Dt的K近鄰的標(biāo)準(zhǔn),獲得近鄰集Nk(Dt),k即近鄰數(shù);
Step 4: 重復(fù)上面兩步操作,然后找出Dt的互k近鄰:先設(shè)Dt近鄰集合Nk(Dt)中的一個(gè)近鄰為Di,再?gòu)臄?shù)據(jù)集C中找出Di的近鄰集合Nk(Di),接著判斷Dt∈Nk(Di)是否為真,若為真則將Di的類別信息Si添加到Dt的類別信息集合Y(Dt)中;
Step 5:最后對(duì)上一步驟的結(jié)果進(jìn)行統(tǒng)計(jì),將最大類別數(shù)作為待測(cè)樣本Dt的類別標(biāo)簽;
Step 6:返回最后的結(jié)果St,即Dt的類別標(biāo)。
End
3.1 實(shí)驗(yàn)數(shù)據(jù)的基本信息
為了驗(yàn)證算法的性能,選擇在UCI[20]的數(shù)據(jù)集中選取10個(gè)數(shù)據(jù)集進(jìn)行檢測(cè),數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 數(shù)據(jù)集基本信息表
3.2 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證EwMKNN的可靠性,將它與KNN,MKNN,EwKNN,GwMKNN這幾個(gè)算法一同進(jìn)行對(duì)比檢驗(yàn),其中EwKNN是只把類別信息熵應(yīng)用于KNN上的處理方法。主要用了10-折交叉檢驗(yàn)法,10-折交叉檢驗(yàn)是通過將數(shù)據(jù)集分成10個(gè)小的子集,然后將這些子集中挑選一個(gè)出來(lái)做測(cè)試樣本集,10個(gè)子集輪流做測(cè)試樣本集,最終得到的結(jié)果取均值做最終測(cè)試結(jié)果,要保證上述幾個(gè)算法檢驗(yàn)過程中用的是同一數(shù)據(jù)集和測(cè)試樣本集。測(cè)試時(shí),k值選擇可以是20以內(nèi)的質(zhì)數(shù),這里k取3。檢測(cè)分析的結(jié)果如表2所示。
表2 分類精度對(duì)比
根據(jù)表2的數(shù)據(jù)可以很好的看出,MKNN的準(zhǔn)確率是比KNN的要高,在16個(gè)數(shù)據(jù)集中有12個(gè)數(shù)據(jù)集都顯示其優(yōu)越性,然而在對(duì)MKNN算法加以改進(jìn)的基于類別信息熵加權(quán)的MKNN算法EwMKNN在7個(gè)數(shù)據(jù)集的測(cè)試中都顯示出在所有算法中最高的準(zhǔn)確率,GwMKNN算法的準(zhǔn)確率也是比較好的,文獻(xiàn)[9]中非常清楚的提出GwMKNN算法是引入的基尼系數(shù)的概念,通過對(duì)距離加權(quán)來(lái)進(jìn)行對(duì)數(shù)據(jù)集分類的算法,在處理hayes-roth,labor,promoters數(shù)據(jù)集時(shí),還顯示出更加好的準(zhǔn)確率。從數(shù)據(jù)集的角度來(lái)看,在數(shù)據(jù)集audiology,dermatology,zoo上都可以體現(xiàn)出EwMKNN算法在處理多類別數(shù)據(jù)時(shí)比EwKNN,GwMKNN這兩種算法有更高的準(zhǔn)確率。在處理類別較少類屬性較多的數(shù)據(jù)集時(shí),雖然EwMKNN算法的準(zhǔn)確率沒有比MKNN算法高出很多,也證明該算法還需要經(jīng)過改善,但也在總體方面說明了MKNN改進(jìn)后的EwMKNN算法是有效的。
提出的基于類別信息熵加權(quán)的MKNN算法是首先要在已經(jīng)解決了KNN算法偽近鄰問題的MKNN算法上,進(jìn)行對(duì)權(quán)重的改進(jìn),互k近鄰算法(MKNN)準(zhǔn)確率在KNN基礎(chǔ)上本來(lái)就有提高,但在處理類屬性數(shù)據(jù)仍表現(xiàn)出有些不足之處。引入類別信息熵后,用信息熵加權(quán)的方式提高類屬性數(shù)據(jù)分類的準(zhǔn)確率。在數(shù)據(jù)集上的檢測(cè)結(jié)果說明了EwMKNN相比較一同檢測(cè)的幾種算法而言有相對(duì)較好的對(duì)類屬性數(shù)據(jù)的分類準(zhǔn)確率。也就驗(yàn)證了EwMKNN算法的改進(jìn)是有效的。EwMKNN算法的優(yōu)點(diǎn)是:有較好的分類準(zhǔn)確性;可以針對(duì)類屬性數(shù)據(jù)的分類;引入了類別信息熵的概念,易于改進(jìn)和實(shí)現(xiàn);同樣易于結(jié)合,可以同許多其他分類算法結(jié)合,例如KNN算法等?;陬悇e信息熵加權(quán)的MKNN算法(EwMKNN)仍存在著不足之處,對(duì)于有高維數(shù)據(jù)集時(shí)準(zhǔn)確率會(huì)下降,在多類別的類屬性數(shù)據(jù)集的處理上可以進(jìn)一步的開拓,更好增強(qiáng)其使用程度。
[1] Cover, T.M., Hart, P.E.. Nearest Neighbor Pattern Classific. IEEE Trans on Information Theory, 1967, 13( 1) : 21-27.
[2] 張著英, 黃玉龍, 王翰虎. 一個(gè)高效的KNN分類算法[J]. 計(jì)算機(jī)科學(xué), 2008, 03: 170-172.
[3] 周靖, 劉晉勝. 一種采用類相關(guān)度優(yōu)化距離的KNN算法[J]. 微計(jì)算機(jī)應(yīng)用,2010, 11: 7-12.
[4] 戚孝銘. 基于蜂群算法和改進(jìn)KNN的文本分類研究[D]. 上海交通大學(xué), 2013.
[5] 肖輝輝, 段艷明. 基于屬性值相關(guān)距離的KNN算法的改進(jìn)研究[J]. 計(jì)算機(jī)科學(xué), 2013, S2: 157-159+187.
[6] 耿麗娟, 李星毅. 用于大數(shù)據(jù)分類的KNN算法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2014, 05: 1342-1344+1373.
[7] 郝勝軒, 宋宏, 周曉鋒. 基于近鄰噪聲處理的KNN缺失數(shù)據(jù)填補(bǔ)算法[J]. 計(jì)算機(jī)仿真, 2014, 07: 264-268.
[8] 蘇毅娟, 鄧振云, 程德波, 等. 大數(shù)據(jù)下的快速KNN分類算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2016, 33(4): 1003-1006.
[9] 康麗萍, 孫顯, 許光鑾. 加權(quán)KNN的圖文數(shù)據(jù)融合分類[J]. 中國(guó)圖象圖形學(xué)報(bào), 2016, 21(7): 854-864.
[10] 劉繼宇, 王強(qiáng), 羅朝暉,等. 基于粗糙集的加權(quán)KNN數(shù)據(jù)分類算法[J]. 計(jì)算機(jī)科學(xué), 2015, 42(10): 281-286.
[11] Liu, H., Zhang,S.. Noisy data elimination using mutual k-nearest neighbor for classification mining. The Journal of Systems and Software, 2012, 85: 1067–1074.
[12] 陳雪云, 郭躬德, 陳黎飛, 盧偉勝. GwMKNN:針對(duì)類屬性數(shù)據(jù)加權(quán)的MKNN算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2013, 08:103-108 +158.
[13] 王磊. 基于信息熵的中文文本分類算法研究[D]. 西北師范大學(xué), 2007.
[14] 甘蘇婷. 基于信息熵的數(shù)據(jù)挖掘算法在決策支持系統(tǒng)中的改進(jìn)研究[D]. 吉林大學(xué), 2015.
[15] 陳曦, 翔晨, 李煒, 樓宗元. 基于信息熵的謠言信息度量方法[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, S1: 413-417.
[16] Li, R., Tao, X., Tang, L., Hu, Y. Using Maximum Entropy Model for Chinese Text Categorization. Computer Science, 2004, 3007: 578-587.
[17] 朱佳佳, 陳佳. 基于熵和SVM多分類器的異常流量檢測(cè)方法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2016, 26(3): 31-35.
[18] 魏琴芳, 成勇, 胡向東. 基于信息熵的無(wú)線傳感網(wǎng)入侵檢測(cè)遺傳算法[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016(1): 107-112.
[19] 潘瑞林, 李園沁, 張洪亮, 伊長(zhǎng)生, 樊楊龍, 楊庭圣. 基于α信息熵的模糊粗糙屬性約簡(jiǎn)方法[J]. 控制與決策, 2017(2): 340-348.
[20] UCI Repository of Machine Learning Databases [DB /OL]. [2012-12-12].
[21] ZHANG Zhen Jie, ZUO Ren Guang, XIONG Yi Hui. A comparative study of fuzzy weights of evidence and random forests for mapping mineral prospectivity for skarn-type Fe deposits in the southwestern Fujian metallogenic belt, China [J]. Science China (Earth Sciences), 2016, 03:556-572.
[22] Data Mining: Concepts and Techniques, 2nd ed., Jiawei Han and Micheline Kamber, Morgan Kaufmann, 2006. P P383-464.
MKNN Algorithm Based on the Weight of Category's Entropy
CHEN Xueyun *, LIU Yanfang, KE Ting, ZHANG Jiannan
(Institute of Information Engineering, Longyan University, Longyan Fujian 364000, China)
Since the process of the mutual k-nearest neighbor (MKNN) dealing with nominal data is simple, we introduce the entropy to deal with the similarity measure of the nominal data, and then the concept of Category's entropy is introduced. We can obtain the entropy weight of the same type of nominal data, and then get experimental results through the classification of the data set. The experimental results demonstrate the effectiveness of the proposed algorithm.
data mining; mutual k-nearest neighbor; category's entropy; nominal data
10.19551/j.cnki.issn1672-9129.2017.01.03
TP18
A
1672-9129(2017)01-0010-05
2017-01-23;
2017-02-09。
國(guó)家自然科學(xué)基金面上項(xiàng)目(61379049和61379089),福建省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(S20141004);龍巖學(xué)院協(xié)同創(chuàng)新項(xiàng)目(張凌)。
陳雪云(1976-),女,福建省漳平市,龍巖學(xué)院副教授,碩士,主要研究方向:數(shù)據(jù)挖掘技術(shù)及其應(yīng)用、計(jì)算機(jī)應(yīng)用技術(shù);劉艷芳(1987-),女,河南省濮陽(yáng)市,龍巖學(xué)院教師,研究生,主要研究方向:粗糙集與粒計(jì)算、人工智能和機(jī)器學(xué)習(xí);柯婷(1995-),女,安徽省安慶市,龍巖學(xué)院學(xué)生,主要研究方向:軟件工程;張劍楠(1994-),男,廣東省梅州市,龍巖學(xué)院學(xué)生,主要研究方向:軟件工程。E-mail:cxy2165254@163.com