章耀坤,于 洪,胡 峰
(重慶郵電大學(xué) 計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 400065)
數(shù)據(jù)預(yù)處理是指在進(jìn)行數(shù)據(jù)分析之前對(duì)原始數(shù)據(jù)進(jìn)行的一系列處理,使得原始數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)分析算法相互適配,從而獲得更加準(zhǔn)確的分析結(jié)果.例如,工業(yè)中的大數(shù)據(jù)普遍存在數(shù)據(jù)維度高、數(shù)據(jù)類型復(fù)雜等問題,進(jìn)而導(dǎo)致現(xiàn)有的經(jīng)典數(shù)據(jù)挖掘算法對(duì)此類數(shù)據(jù)無法進(jìn)行有效分析[1].因此,數(shù)據(jù)預(yù)處理對(duì)于數(shù)據(jù)分析結(jié)果很重要.針對(duì)數(shù)據(jù)高維度問題,目前已取得一定的研究成果[2,3].另一方面數(shù)據(jù)類型復(fù)雜問題仍需進(jìn)一步研究.
離散化是數(shù)據(jù)預(yù)處理中針對(duì)數(shù)值屬性數(shù)據(jù)的預(yù)處理方法.大數(shù)據(jù)中利用屬性或特征用于描述應(yīng)用程序中數(shù)據(jù)元素的字符.常見的屬性有數(shù)值屬性和標(biāo)稱屬性.由于數(shù)值屬性值是一組連續(xù)的數(shù)值,例如溫度、長度,經(jīng)典數(shù)據(jù)挖掘算法無法直接處理數(shù)值屬性數(shù)據(jù).因此,我們需要在數(shù)值計(jì)算的背景下將連續(xù)的數(shù)值數(shù)據(jù)簡化為離散的標(biāo)稱數(shù)據(jù).
對(duì)于數(shù)據(jù)離散化的研究,研究者們在這方面取得了一系列的研究成果.例如,Wong和Chiu[4]于1987年提出了經(jīng)典的等寬離散和等頻離散.1991年Chiu等[5]提出了基于最大熵的離散方案.該算法將信息熵引入離散算法中,用于自動(dòng)確定的離散過程中的區(qū)間數(shù).Rahman和Asadi[6]提出了一種新的離散方法,其中通過低頻區(qū)間合并策略,在保障離散效果不變的情況下,減少區(qū)間數(shù)量.Hacibeyoglu和Ibrahim[7]在2018年提出了一種無監(jiān)督的離散模型EF_Unique,通過區(qū)間中心點(diǎn)獲取區(qū)間切點(diǎn).
另一方面,數(shù)值屬性數(shù)據(jù)的離散過程是一個(gè)充滿不確定性的過程.粗糙集理論[8,9]是處理不準(zhǔn)確,不一致和不完整信息的有效工具.目前基于粗糙集的離散研究已取得一系列研究成果.Jiang和Sui[10]提出了一種有監(jiān)督多目標(biāo)離散算法SMDNS.該算法在SMD[11]算法的基礎(chǔ)上,引入?yún)?shù)μ實(shí)現(xiàn)了對(duì)區(qū)間寬度進(jìn)行限制.2018年,Grzymala-Busse和Mroczek[12]成功地將粗糙集理論與信息熵理論相結(jié)合,該算法通過條件熵確定區(qū)間切點(diǎn),并使用上下近似集提出了新的一致性等級(jí)評(píng)估從而確定區(qū)間數(shù)目.2020年Sun等[13]基于粗糙集理論提出一種有監(jiān)督離散算法,該算法主要思想是生成盡可能多的純區(qū)間,實(shí)現(xiàn)對(duì)純區(qū)間的合并以減少區(qū)間數(shù).
盡管目前有許多離散算法獲得較好的效果,但是其中大多數(shù)離散算法僅作用于靜態(tài)數(shù)據(jù).傳統(tǒng)動(dòng)態(tài)離散算法關(guān)注于學(xué)習(xí)器與離散過程的同時(shí)進(jìn)行,例如Au等[14]提出了一種基于模糊集(ITFP)的動(dòng)態(tài)離散方法.而針對(duì)動(dòng)態(tài)的增量式數(shù)據(jù)的離散算法研究較少.然而動(dòng)態(tài)或增量是大數(shù)據(jù)的典型特征.如圖1所示,圖1由SMDNS對(duì)表1中數(shù)值屬性b離散后的區(qū)間樣例圖.在數(shù)據(jù)動(dòng)態(tài)變化中,由于原始數(shù)據(jù)中存在的局限性,導(dǎo)致在離散過程中生成的區(qū)間之間存在間隙.如果間隙太大,則不能很好地對(duì)間隙中的值進(jìn)行離散處理.因此,根據(jù)增量數(shù)據(jù)的特性,離散區(qū)間之間的間隙變化變得尤為重要.
表1 離散樣例表
圖1 傳統(tǒng)區(qū)間樣例
這里如果不確定的空白區(qū)間不能很好地表示,離散過程中則不能真實(shí)地反映區(qū)間范圍.在Yao[15,16]的三支決策理論的啟發(fā)下,本文提出了一種基于三支決策的自適應(yīng)動(dòng)態(tài)區(qū)間離散化方法TDD.近年來,三支決策已在許多領(lǐng)域中使用.例如,Yu[17]提出了三支聚類分析的框架,并提出了一系列三支聚類算法[18,19];為了解決自動(dòng)編碼器網(wǎng)絡(luò)中的長時(shí)間訓(xùn)練問題;Zhang等[20]提出一種順序三支決策模型;Herbert和Yao[21]將博弈論與三支決策相結(jié)合以獲取合理的閾值對(duì).
因此,為了解決動(dòng)態(tài)數(shù)據(jù)離散過程中區(qū)間切點(diǎn)的不確定性問題,本文結(jié)合了基于粗糙集理論的離散化方法在可解釋性方面的優(yōu)勢,以及三支決策善于處理不確定性的特點(diǎn)進(jìn)行了研究.本文主要貢獻(xiàn)概述如下:
1)提出了一種針對(duì)增量數(shù)據(jù)離散的框架模型TDD,以解決增量大數(shù)據(jù)離散區(qū)間融合的問題;
2)三支區(qū)間表示用于反映屬性值和間隔之間的關(guān)系,即:核區(qū)間、邊緣區(qū)間和其他區(qū)間;
3)根據(jù)實(shí)際情況,本文中對(duì)空白區(qū)間進(jìn)行了客觀表述與定義.并通過實(shí)驗(yàn)討論了空白空間分配問題;
4)本文采用新舊區(qū)間融合迭代方案來解決區(qū)間更新問題.通過靜態(tài)離散算法處理新的樣本集以獲得新的區(qū)間集.將新區(qū)間集和舊區(qū)間集進(jìn)行融合迭代以處理動(dòng)態(tài)數(shù)據(jù),從而節(jié)約了時(shí)間代價(jià).
定義1[9].一個(gè)信息系統(tǒng)S可以表示為S=(U,A,V,f),其中U表示論域;A=AT∪AD是屬性全集,子集AT和子集AD分別稱為條件屬性集和決策屬性集;V=∪r∈AVr是屬性值的集合,Vr表示屬性r∈A的屬性值范圍,即屬性r的值域;f:U×A→V是一個(gè)信息函數(shù),它指定U中的每一個(gè)對(duì)象x屬性值.
定義2[22].傳統(tǒng)區(qū)間可以表示為:
Da={[pmin,p1),[p1,p2),…,[pn,pmax]}
(1)
其中Da表示數(shù)值屬性a的離散區(qū)間集,pmin、pmax分別表示最小切點(diǎn)值和最大切點(diǎn)值;n+1表示Da區(qū)間集中區(qū)間總個(gè)數(shù).
本章節(jié)將對(duì)本文提出的TDD模型進(jìn)行詳細(xì)的講解.在整個(gè)模型中可以分為兩個(gè)部分,即對(duì)靜態(tài)數(shù)據(jù)的離散處理與對(duì)動(dòng)態(tài)數(shù)據(jù)的離散處理,如圖2所示.
圖2 動(dòng)態(tài)數(shù)據(jù)區(qū)間離散方法TDD
靜態(tài)離散處理部分,本文選擇具有可解釋性的SMDNS[8]算法.SMDNS算法的核心公式是公式(2)和公式(3).公式(2)通過粗糙集正域概念,通過判斷相鄰對(duì)象集合并之后對(duì)對(duì)象集的識(shí)別是否矛盾,在無矛盾的情況下對(duì)兩個(gè)對(duì)象集進(jìn)行合并.公式(3)實(shí)現(xiàn)了對(duì)區(qū)間寬度的控制.
(2)
(3)
對(duì)于動(dòng)態(tài)處理,TDD采取新舊區(qū)間集的融合策略.首先TDD通過對(duì)新數(shù)據(jù)靜態(tài)離散處理獲得新區(qū)間集.然后將新離散區(qū)間集與舊離散區(qū)間集融合以獲得全新的離散區(qū)間.可見,本文工作主要難點(diǎn)在于動(dòng)態(tài)數(shù)據(jù)離散過程中區(qū)間集的融合.本節(jié)將從4個(gè)方面解決此問題:1)通過引入三支決策,將傳統(tǒng)離散區(qū)間重新定義為三支區(qū)間;2)以三支區(qū)間為基礎(chǔ)對(duì)SMDNS算法進(jìn)行改進(jìn),從而獲取三支區(qū)間集;3)定義空白區(qū)間來描述不確定區(qū)間;4)提出了區(qū)間融合算法,實(shí)現(xiàn)了新舊區(qū)間的融合.
定義3.三支區(qū)間可以表示為:
TDa={[pmin,p1,1,p1,2,p1,3),[p1,3,p2,1,p2,2,p2,3),…,[pn-1,3,pn,1,pn,2,pmax]}
(4)
其中TDa表示數(shù)值屬性a的離散區(qū)間集,pmin、pmax分別表示最小切點(diǎn)值和最大切點(diǎn)值,n表示TDa區(qū)間集中區(qū)間總個(gè)數(shù).在定義3中[pi-1,3,pi,1,pi,2,pi,3)來表示區(qū)間di,其中pi,1和pi,2是根據(jù)數(shù)據(jù)驅(qū)動(dòng)得到的區(qū)間di的核切點(diǎn),核切點(diǎn)點(diǎn)是真實(shí)存在的樣本數(shù)值數(shù)據(jù).pi-1,3和pi,3是區(qū)間di的邊切點(diǎn),邊切點(diǎn)是根據(jù)區(qū)間di的內(nèi)切點(diǎn)即pi,1和pi,2與其相鄰區(qū)間的內(nèi)切點(diǎn)即pi+1,1和pi-1,2通過計(jì)算來獲得.
利用三支區(qū)間表示區(qū)間,可以清晰的將區(qū)間確定范圍和不確定范圍進(jìn)行區(qū)分.在區(qū)間融合算法中,只針對(duì)確定的區(qū)間范圍進(jìn)行融合,對(duì)不確定的區(qū)間范圍進(jìn)行延遲處理.使得融合后的區(qū)間即保證確定性,又保障了對(duì)區(qū)間不確定范圍的有效識(shí)別與控制.
定義4.核區(qū)間集可以表示為:
CDa={[p1,1,p1,2],[p2,1,p2,2],…,[pn,1,pn,2]}
(5)
定義5.邊緣區(qū)間可以表示為:
EDa={[pmin,p1,3),[p1,3,p2,3),…,[pn-1,3,pmax]}
(6)
定義6.空白區(qū)間可以表示為:
BDa={(p1,2,p2,1),(p2,2,p3,1),…,(pn-1,2,pn,1)}
(7)
如圖3所示,分別表示經(jīng)過離散處理后的核區(qū)間集、邊緣區(qū)間集、三支區(qū)間集.核區(qū)間是通過靜態(tài)離散獲取的確定的區(qū)間范圍;空白區(qū)間表示其相鄰兩個(gè)核區(qū)間不確定的邊界范圍;邊緣區(qū)間是包含核區(qū)間,在傳統(tǒng)的靜態(tài)離散算法中,邊緣切點(diǎn)是通過相鄰核區(qū)間切點(diǎn)求均值獲得.通過三支區(qū)間表示,能過合理的將區(qū)間分布進(jìn)行表示,在融合過程中可以針對(duì)核區(qū)間與空白區(qū)間采取不同的措施進(jìn)行處理.
圖3 三支區(qū)間離散樣例
算法1.基于三支決策的動(dòng)態(tài)數(shù)據(jù)區(qū)間離散方法(TDD)
輸入:t時(shí)刻,信息系統(tǒng)St=(Ut,A,V,f);實(shí)驗(yàn)參數(shù)μ;t+1時(shí)刻,信息系統(tǒng)St+1=(Ut+1,A,Vt+1,ft+1);
輸出:離散后的信息系統(tǒng)DSt+1.三支區(qū)間集TDt+1;
1.TDt←St;/*初始化TDt+1,本文選取SMDNS算法進(jìn)行靜態(tài)離散*/
2. IfSt+1exist do
3.ΔTDt+1←ΔSt+1=(ΔUt+1,A,V,f);
/*ΔUt+1=Ut+1-Ut*/
4. Forito |NA|/*|NA|表示數(shù)值數(shù)據(jù)個(gè)數(shù)*/
5.TDt+1←fusion(ΔTDt+1,TDt);
6. End for
7. ReturnDSt+1←Updata(St+1,TDt+1),TDt+1;
TDD算法根據(jù)空白區(qū)間和核區(qū)間之間的互補(bǔ),實(shí)現(xiàn)離散過程中區(qū)間寬度的動(dòng)態(tài)自適應(yīng)過程.算法1中,我們詳細(xì)描述了TDD算法.通過算法1,TDD實(shí)現(xiàn)了對(duì)靜態(tài)區(qū)間集的融合.區(qū)間融合算法將在3.3節(jié)詳細(xì)講解.算法1首先利用SMDNS算法獲取三支區(qū)間集.SMDNS算法時(shí)間復(fù)雜為O(|NA|2×|U|log2|U|),其中|NA|表示屬性A中數(shù)值屬性個(gè)數(shù).空間復(fù)雜度為O(|U|+max(|Va∈NA|)),其中max(|Va∈NA|)表示數(shù)值屬性NA中屬性值個(gè)數(shù)最多的值.再對(duì)三支區(qū)間進(jìn)行融合,實(shí)現(xiàn)動(dòng)態(tài)離散三方.算法1的總時(shí)間復(fù)雜為O(|NA|2×|U|log2|U|+|NA|).算法1的空間復(fù)雜為O(|U|+max(|Va∈NA|)+|NA|×max(|TDa∈NA|),其中max(|TDa∈NA|)表示為三支區(qū)間集中區(qū)間數(shù)的最大值.
(8)
其中i代表行數(shù),j代表列數(shù),oij代表第i行、第j列對(duì)應(yīng)的數(shù)值,即第i個(gè)區(qū)間在第j類中的樣本數(shù)量.ni代表第i個(gè)區(qū)間中樣本總數(shù),cj代表第j類樣本總數(shù),N代表全部的樣本總數(shù).
本文假設(shè)相鄰或相交的兩個(gè)區(qū)間存在潛在一致性關(guān)系.TDD中通過公式(8)判斷區(qū)間之間一致性,從而實(shí)現(xiàn)區(qū)間融合或者分裂.為保證融合后區(qū)間單調(diào)性,自由度值的選擇應(yīng)該隨數(shù)據(jù)的情況而定.
算法2.區(qū)間融合算法
輸出:融合后三支區(qū)間集TDt+1;
18. End While
19. End While
在SMDNS算法中通過公式(2)確保了區(qū)之間的單調(diào)性.公式(3)限制區(qū)間寬度,防止區(qū)間寬度過長.在SMDNS算法基礎(chǔ)上,為確保融合后區(qū)間的單調(diào)性,TDD采用卡方檢驗(yàn)來確保區(qū)間之間的單調(diào)性.但隨著動(dòng)態(tài)數(shù)據(jù)的不斷增加,在不斷融合過程中,存在兩種特殊情況:區(qū)間不合理合并和區(qū)間不合理分裂.
隨著動(dòng)態(tài)數(shù)據(jù)不斷融合,導(dǎo)致相鄰兩個(gè)區(qū)間中數(shù)據(jù)分布趨近一致,造成原本相互獨(dú)立的兩個(gè)區(qū)間合并為一個(gè)大區(qū)間.面對(duì)不合理合并,TDD在動(dòng)態(tài)融合過程中會(huì)有自我矯正的過程.當(dāng)進(jìn)行不合理合并后,在下一次融合過程中,新區(qū)間與融合后的大區(qū)間之間存在明顯的不一致性,進(jìn)而將錯(cuò)誤融合的大區(qū)間分裂成兩個(gè)區(qū)間,實(shí)現(xiàn)區(qū)間融合中的自我矯正.
區(qū)間不合理分裂指融合過程中,小區(qū)間與其相交的大區(qū)間存在不一致性,導(dǎo)致大區(qū)間進(jìn)行分裂.不合理小區(qū)間的存在是因?yàn)樵紨?shù)據(jù)缺失造成的.此類小區(qū)間通常具有區(qū)間內(nèi)樣本數(shù)量少或樣本分布不穩(wěn)定的特性.雖然TDD無法判定小區(qū)間的合理性,但隨著動(dòng)態(tài)融合過程中數(shù)據(jù)總量的增加,各個(gè)區(qū)間中對(duì)應(yīng)的總樣本量也會(huì)逐漸增加.而不合理的小區(qū)間中樣本數(shù)量基本維持不變.因此,當(dāng)不合理區(qū)間樣本數(shù)量占比低的情況下,TDD會(huì)將此類小區(qū)間視為一種噪音,并將噪音轉(zhuǎn)化為空白區(qū)間.
本節(jié)進(jìn)行多組實(shí)驗(yàn)對(duì)TDD算法進(jìn)行性能分析.為了驗(yàn)證TDD算法具有一定的有效性,本文使用了8個(gè)數(shù)據(jù)集和4個(gè)對(duì)比算法.其中8個(gè)數(shù)據(jù)集分別是Heart、Australian、Diabetes、German、Segment、Shuttle、Setimage、Vehicle.為了使實(shí)驗(yàn)結(jié)果更加公平,本文采用十折交叉法,將數(shù)據(jù)集均勻劃分成十等份,采用9:1的比例生成訓(xùn)練集和相對(duì)應(yīng)的測試集.本文為體現(xiàn)動(dòng)態(tài)數(shù)據(jù)的特性,因此,選擇將訓(xùn)練集拆分的方式,漸進(jìn)式的進(jìn)行動(dòng)態(tài)數(shù)據(jù)離散實(shí)驗(yàn).
實(shí)驗(yàn)中,數(shù)據(jù)集Heart、Australian、Diabetes、German、Segment在內(nèi)存為8G RAM和CPU頻率為2.70GHz計(jì)算機(jī)上運(yùn)行,程序的開發(fā)平臺(tái)為Microsoft Visual Studio 2017,使用C++語言進(jìn)行程序開發(fā).Shuttle、Setimage、Vehicle數(shù)據(jù)在內(nèi)存為80G RAM和CPU頻率為2.10GHz計(jì)算機(jī)上運(yùn)行.表2給出了8個(gè)數(shù)據(jù)集的基本信息.
表2 UCI數(shù)據(jù)集
本實(shí)驗(yàn)共涉及5個(gè)離散算法,其中除了本文提出的TDD算法外,還有SMDNS,SMD兩個(gè)基于粗糙集的離散算法;第4個(gè)算法是CACC算法[24],該算法與TDD算法均為多目標(biāo)離散算法,不過CACC是一種靜態(tài)算法;由于目前動(dòng)態(tài)離散算法較少,本實(shí)驗(yàn)選擇2006年基于模糊集的動(dòng)態(tài)離散算法FTPS[14]進(jìn)行對(duì)比實(shí)驗(yàn).Continuous代表的不經(jīng)離散處理的原始數(shù)據(jù)集直接運(yùn)用C4.5[25]進(jìn)行分類處理.
首先將本文算法TDD與3個(gè)靜態(tài)離散算法進(jìn)行對(duì)比實(shí)驗(yàn),利用C4.5訓(xùn)練離散后的訓(xùn)練集,建立樹進(jìn)行分類處理,如表3所示,整體上可以看出可見本文TDD在Heart、Australian、Diabetes、German 4個(gè)數(shù)據(jù)集上表現(xiàn)良好,在與其他4個(gè)離散算法相比,平均準(zhǔn)確率均明顯偏高.數(shù)據(jù)Vehicle上,所有離散算法結(jié)果均出現(xiàn)大幅度的波動(dòng),其原因是十折交叉法所生成的訓(xùn)練集上存在差異,促使實(shí)驗(yàn)波動(dòng)大.在數(shù)據(jù)集Segment上,平均準(zhǔn)確率最高的是Continuous.Continuous代表的不經(jīng)過離散處理的原始數(shù)據(jù)集雖然在數(shù)據(jù)集Segment上,Continuous平均準(zhǔn)確率表現(xiàn)最佳,但是并不代表離散過程的不重要.
表3 C4.5分類測試樣本準(zhǔn)確率與召回率表(%)1
如表3所示,括號(hào)中數(shù)值表示平均召回率.通過Continuous訓(xùn)練集訓(xùn)練后的C4.5樹模型泛化性較低,測試樣本中,有大量樣本數(shù)據(jù)未能成功得到分類.由此可見數(shù)據(jù)離散化的重要性.以Segment數(shù)據(jù)集為例,雖然Continuous平均準(zhǔn)確率高達(dá)94.91%,但是平均召回率只有20.5%,說明Continuous存在很大的局限性;采用本文TDD算法后,平均召回率調(diào)高至83.3%,并且平均準(zhǔn)確率有89.31%.
表4為本文TDD與SMDNS、CACC對(duì)數(shù)據(jù)進(jìn)行離散處理所花費(fèi)的時(shí)間表.從表中可見,TDD大幅度提升生了離散速度.時(shí)間大幅度減少的原因主要是本文的TDD算法利用新舊數(shù)據(jù)的離散區(qū)間融合,實(shí)現(xiàn)迭代式動(dòng)態(tài)離散,而不是傳統(tǒng)的將原始數(shù)據(jù)整合后重新離散化.從實(shí)驗(yàn)結(jié)果可證明TDD節(jié)約了時(shí)間代價(jià).
表4 數(shù)據(jù)離散預(yù)處理時(shí)間表(s)
表5中,算法ITFP相關(guān)實(shí)驗(yàn)數(shù)據(jù)來自文獻(xiàn)[12]中.ITFP算法與本文TSDD算法均屬于動(dòng)態(tài)離散算法.從對(duì)比實(shí)驗(yàn)結(jié)果來看,TSDD在Australian,Vehicle,Shuttle 3個(gè)數(shù)據(jù)集上優(yōu)于ITFP.實(shí)驗(yàn)結(jié)果并不是全部優(yōu)于ITFP.說明TSDD算法還是存在很大改進(jìn).我們將會(huì)在下一個(gè)實(shí)驗(yàn)進(jìn)行討論.
表5 C4.5分類測試樣本平均準(zhǔn)確率表(%)
本實(shí)驗(yàn)為檢驗(yàn)空白區(qū)間不同處理方式是否對(duì)離散結(jié)果產(chǎn)生影響.對(duì)空白區(qū)間分別采用傳統(tǒng)均值法,以及權(quán)值法對(duì)空白區(qū)間進(jìn)行對(duì)比實(shí)驗(yàn).傳統(tǒng)的分配方法是對(duì)空白區(qū)域使用均值方法.均值法是取相鄰區(qū)間邊界點(diǎn)的均值作為新的邊界點(diǎn).另一種分配方法是基于寬度的權(quán)重方法,如公式(9)所示.
(9)
在表6中,對(duì)于不同的數(shù)據(jù)集,在分配空白區(qū)域的不同策略上有一定的改進(jìn).例如,在Segment中,平均方法的準(zhǔn)確率是89.31%,召回率是83.3%.權(quán)重法的準(zhǔn)確率為89.76%.重量法的平均樣品識(shí)別率為87.1%.盡管兩種方法的準(zhǔn)確率沒有太大差異.但是,均值方法的方差是5.06,權(quán)重方法的方差是1.42.可以看出,在Diabetes,German,Segment,Satimage,Shuttle的情況下,加權(quán)方法更加穩(wěn)定.在正確比率相差不大的情況下,選擇方差值小的方法很重要.
表6 C4.5分類測試樣本準(zhǔn)確率與召回率表(%)2
傳統(tǒng)離散化模型是針對(duì)靜態(tài)數(shù)據(jù)的離散化.然而現(xiàn)實(shí)生活中數(shù)據(jù)是呈增量式的.并且由于動(dòng)態(tài)數(shù)據(jù)本身的不確定性,導(dǎo)致離散化過程中區(qū)間邊界點(diǎn)的不確定,對(duì)動(dòng)態(tài)區(qū)間融合過程造成一定困難.因此,本文提出了一種基于三支決策的動(dòng)態(tài)離散方法TDD.相較于靜態(tài)數(shù)據(jù)下的離散研究,我們考慮的是動(dòng)態(tài)數(shù)據(jù)下的離散研究.本文的TDD方法也可以處理由于樣本數(shù)據(jù)過多,分批次處理樣本數(shù)據(jù)的情況,節(jié)約處理時(shí)間.在本文TDD方法中,通過對(duì)三支離散區(qū)間的刻畫,實(shí)現(xiàn)了對(duì)動(dòng)態(tài)數(shù)據(jù)離散過程中確定的核區(qū)間與不確定的空白區(qū)間的劃分.通過卡方檢驗(yàn)區(qū)間之間的一致性,實(shí)現(xiàn)了新舊離散區(qū)間集中確定的核區(qū)間集的融合操作.針對(duì)不確定性較高的空白區(qū)間,本文使用傳統(tǒng)的均值法和寬度權(quán)值法實(shí)現(xiàn)對(duì)空白區(qū)間的分配.本文TDD方法在UCI上的8個(gè)真實(shí)數(shù)據(jù)集進(jìn)行了驗(yàn)證.實(shí)驗(yàn)結(jié)果表明本文的方法對(duì)于處理增量式數(shù)據(jù)離散化的問題具有較好的效果.