鄧趙紅 張江濱 蔣亦樟 史熒中 王士同
?
基于模糊子空間聚類的〇階L2型TSK模糊系統(tǒng)
鄧趙紅*張江濱 蔣亦樟 史熒中 王士同
(江南大學(xué)數(shù)字媒體學(xué)院 無錫 214122)
經(jīng)典數(shù)據(jù)驅(qū)動(dòng)型TSK(Takagi-Sugeno-Kang)模糊系統(tǒng)在獲取模糊規(guī)則時(shí),會(huì)考慮數(shù)據(jù)的所有特征空間,其帶來一個(gè)重要缺陷:如果數(shù)據(jù)的特征空間維數(shù)過高,則系統(tǒng)獲取的模糊規(guī)則繁雜,使系統(tǒng)復(fù)雜度增加而導(dǎo)致解釋性下降。該文針對(duì)此缺陷,探討了一種基于模糊子空間聚類的〇階L2型TSK模糊系統(tǒng)(Fuzzy Subspace Clustering based zero-order L2- norm TSK Fuzzy System, FSC-0-L2-TSK-FS)構(gòu)建新方法。新方法構(gòu)建的模糊系統(tǒng)不僅能縮減模糊規(guī)則前件的特征空間,而且獲取的模糊規(guī)則可對(duì)應(yīng)于不同的特征子空間,從而具有更接近人類思維的推理機(jī)制。模擬和真實(shí)數(shù)據(jù)集上的建模結(jié)果表明,新方法增強(qiáng)了面對(duì)高維數(shù)據(jù)所建模型的解釋性,同時(shí)所建模型得到了較之于一些經(jīng)典方法更好或可比較的泛化性能。
Takagi-Sugeno-Kang(TSK)模糊系統(tǒng);醫(yī)療診斷;解釋性;高維數(shù)據(jù)
模糊系統(tǒng)是以模糊集合[1]和模糊推理理論為基礎(chǔ)演變而來的一種人工智能系統(tǒng),其主要特點(diǎn)是能夠?qū)⒆匀唤绲哪:Z言轉(zhuǎn)化成與人類推理機(jī)制相似的模糊規(guī)則。目前,模糊系統(tǒng)已被廣泛應(yīng)用于各個(gè)領(lǐng)域,如圖像處理、智能決策等[2,3]。與其他的人工智能技術(shù)相比,模糊系統(tǒng)不僅具有強(qiáng)大的學(xué)習(xí)能力,而且具有高度解釋性[4,5]。模糊系統(tǒng)憑借這一獨(dú)特優(yōu)勢(shì),在醫(yī)療診斷中被廣泛應(yīng)用[6,7]。當(dāng)一種智能模型在醫(yī)療診斷中被應(yīng)用時(shí),人們希望它具有強(qiáng)的解釋能力和良好的可靠性。模糊系統(tǒng)通過模糊推理機(jī)制,對(duì)某種醫(yī)學(xué)疾病建立相應(yīng)的模糊規(guī)則,模擬專家診斷疾病的過程,幫助醫(yī)生解決復(fù)雜的醫(yī)學(xué)診斷問題。
在已有的幾種經(jīng)典模糊系統(tǒng)中,Takagi-Sugeno- Kang(TSK)[8,9]模糊系統(tǒng)由于其輸出的簡潔性和良好的逼近性能被廣泛探討和運(yùn)用[10,11]。不同于早期基于專家經(jīng)驗(yàn)的模糊系統(tǒng)構(gòu)建方法,數(shù)據(jù)驅(qū)動(dòng)型模糊系統(tǒng)正日益成為最主要的模糊系統(tǒng)構(gòu)建方法。經(jīng)典數(shù)據(jù)驅(qū)動(dòng)型TSK模糊系統(tǒng)在模型訓(xùn)練過程中,采用訓(xùn)練樣本的全部特征來構(gòu)建模糊規(guī)則。而對(duì)于模糊邏輯系統(tǒng)來說,其解釋性主要來自于模糊規(guī)則中的模糊集可對(duì)應(yīng)于人類的語言描述,故經(jīng)典TSK模糊系統(tǒng)在對(duì)高維數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),會(huì)因采用大量的特征而使其規(guī)則太復(fù)雜,使得清晰度和解釋性下降。在醫(yī)療診斷中,要求系統(tǒng)具有很強(qiáng)的解釋性,而大量醫(yī)學(xué)數(shù)據(jù)都具有較高的特征空間。若將經(jīng)典TSK模糊系統(tǒng)用于醫(yī)療檢測(cè),勢(shì)必導(dǎo)致系統(tǒng)的解釋性驟降。本文所提出的FSC-0-L2-TSK-FS模型能夠利用FSC聚類,將模糊規(guī)則映射到不同子空間。當(dāng)從高維數(shù)據(jù)中獲取模糊規(guī)則時(shí),規(guī)則前件并不需要數(shù)據(jù)的全部特征,而是采用FSC聚類所抽取的子空間特征,從而有效地降低了所建模型的復(fù)雜性,增強(qiáng)了規(guī)則的清晰度和解釋性。將FSC-0-L2-TSK-FS模型與醫(yī)療診斷相結(jié)合,每條模糊規(guī)則可從不同的視角(特征空間)對(duì)疾病進(jìn)行醫(yī)療診斷,更符合專家診斷的推斷過程。
2.1 經(jīng)典TSK模糊系統(tǒng)簡介
根據(jù)文獻(xiàn)[12],經(jīng)典模糊系統(tǒng)包括Takagi- Sugeno-Kang模糊系統(tǒng)模型(TSK-FS), Mamdani- Larsen模糊系統(tǒng)模型(ML-FS)[13]和廣義模糊系統(tǒng)模型(GFM)[14]。由于TSK模型的廣泛應(yīng)用,本文以該模型為例探討高維數(shù)據(jù)驅(qū)動(dòng)的模糊系統(tǒng)建模以及面臨的挑戰(zhàn)。對(duì)于經(jīng)典TSK模糊模型,其模糊規(guī)則定義如下。
若將乘算子、加算子分別作為合取和析取操作算子,加法算子作為組合算子,同時(shí)采用重心反模糊操作,經(jīng)過去模糊化之后,最終的輸出可表示為
2.2 經(jīng)典TSK模糊系統(tǒng)高維數(shù)據(jù)之挑戰(zhàn)
實(shí)踐表明,經(jīng)典TSK模糊系統(tǒng)在處理高維數(shù)據(jù)時(shí),其解釋性和簡潔性下降嚴(yán)重,具體表現(xiàn)在以下兩方面。
3.1模糊規(guī)則構(gòu)建
根據(jù)2.2節(jié)所提出的經(jīng)典TSK模糊系統(tǒng)之不足,本文探討了一種基于模糊子空間聚類的〇階L2型TSK模糊系統(tǒng)(Fuzzy Subspace Clustering based zero-order L2-norm TSK Fuzzy System, FSC-0-L2- TSK-FS)構(gòu)建方法,其所對(duì)應(yīng)的模糊規(guī)則如下。
與經(jīng)典TSK模糊系統(tǒng)規(guī)則相比,該規(guī)則具有如下特色。
3.2基于模糊子空間聚類的規(guī)則前件學(xué)習(xí)
模糊子空間聚類[15](FSC)能將高維數(shù)據(jù)空間轉(zhuǎn)化到其相關(guān)的子空間中進(jìn)行聚類。在模糊子空間聚類中,每一類給定權(quán)重向量,用于表示不同的特征(維度)對(duì)于該類的貢獻(xiàn)程度。FSC-0-L2-TSK-FS可根據(jù)FSC中特征權(quán)重思想,為規(guī)則抽取重要特征。根據(jù)文獻(xiàn)[16],F(xiàn)SC的優(yōu)化目標(biāo)函數(shù)及其約束條件可寫成
FSC-0-L2-TSK-FS模型的每條模糊規(guī)則對(duì)應(yīng)輸入向量的特征子空間,特征子空間又與模糊子集對(duì)應(yīng)。若采用高斯隸屬函數(shù)作為模糊子集的隸屬度函數(shù),第條規(guī)則的模糊子集的隸屬函數(shù)可以表示為
根據(jù)3.2節(jié)規(guī)則前件的特征選取以及式(3),F(xiàn)SC-0-L2-TSK-FS模型的輸出可以表示成
其中
則式(10)可表示成
類似于L2-SVR[20]的學(xué)習(xí)原理,在引入結(jié)構(gòu)風(fēng)險(xiǎn)項(xiàng)和正則化項(xiàng)之后,最終的優(yōu)化目標(biāo)函數(shù)可表示成
通過最優(yōu)化理論,將式(18)轉(zhuǎn)化為對(duì)偶問題:
最終,根據(jù)3.2節(jié)獲取的FSC-0-L2-TSK-FS規(guī)則前件,以及本小節(jié)運(yùn)用二次規(guī)劃理論求解得到的模糊規(guī)則后件參數(shù),整合得到FSC-0-L2-TSK-FS模型和模糊規(guī)則庫。
4.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)部分分別采用模擬數(shù)據(jù)集和UCI中的Heart,Breast數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估和驗(yàn)證。本文選取3種經(jīng)典TSK模糊系統(tǒng)模型作為對(duì)比算法,分別為基于-不敏感損失函數(shù)的L2型TSK模糊系統(tǒng)[18](L2-TSK-FS),基于IQP優(yōu)化算法的-不敏感損失函數(shù)的TSK模糊系統(tǒng)[17](-TSK-FS(IQP))、基于LSSLI優(yōu)化算法的-不敏感損失函數(shù)的TSK模糊系統(tǒng)[17](-TSK-FS(LSSLI))。實(shí)驗(yàn)中,采用5倍交叉驗(yàn)證策略對(duì)參數(shù)進(jìn)行尋優(yōu)。其中,模糊規(guī)則數(shù)的尋優(yōu)集合為{2,3,4,5,6,7,8,9,10,11,25,32};高斯函數(shù)尺度參數(shù)的尋優(yōu)集合為;規(guī)則化參數(shù)的尋優(yōu)集合為;特征選取參數(shù)的尋優(yōu)集合為{0.6,0.62, 0.64,,1.2};FSC模糊指數(shù)參數(shù)的尋優(yōu)集合為{1.05,1.5,5,10,50,100,1000}。
為對(duì)各算法所得模型的泛化性能進(jìn)行對(duì)比,采用分類正確率作為實(shí)驗(yàn)評(píng)價(jià)指標(biāo)。正確率越接近1,說明模型的性能越好。為對(duì)所構(gòu)建的模糊系統(tǒng)的復(fù)雜度進(jìn)行對(duì)比,采用指標(biāo)來描述模型的復(fù)雜度。其中表示模糊規(guī)則數(shù)目,表示第條模糊規(guī)則前件所抽取的特征數(shù)目,表示第條模糊規(guī)則后件參數(shù)個(gè)數(shù)。值越小,說明模型的規(guī)則復(fù)雜度越低,清晰度越高,語言解釋性越強(qiáng)。
4.2模擬數(shù)據(jù)集實(shí)驗(yàn)
為體現(xiàn)模型適宜于高維數(shù)據(jù)和解釋性強(qiáng)的特色,構(gòu)造的模擬數(shù)據(jù)需具有如下特征:(1)具有較高的維數(shù);(2)具有若干重要特征,并適當(dāng)添加一些非重要特征和干擾項(xiàng);(3)添加的重要特征需對(duì)應(yīng)于不同的特征子空間。根據(jù)設(shè)置,生成400組30維4類分類數(shù)據(jù)。100組數(shù)據(jù)為一類,每類所對(duì)應(yīng)的重要特征分別為1{3,7,12,18,25},2{6,7,8,9,10,11,12},3{15,17,19,21,23,24},4{2,7,12,17,22}。
算法的性能對(duì)比如表1所示。從中可以得出結(jié)論如下:(1)由于受到非重要特征強(qiáng)烈的干擾作用,3種經(jīng)典TSK模型的系統(tǒng)性能下降嚴(yán)重,而FSC-0- L2-TSK-FS模型仍能保持良好的系統(tǒng)性能。(2)3種經(jīng)典TSK模型采用模擬數(shù)據(jù)的全部特征(30個(gè)特征)來構(gòu)建模糊規(guī)則。規(guī)則復(fù)雜度非常大,說明模糊規(guī)則太復(fù)雜,導(dǎo)致模型解釋性下降嚴(yán)重。FSC-0-L2-TSK-FS模型只為規(guī)則選取一些重要特征,規(guī)則復(fù)雜度降低至105,增強(qiáng)了模型的清晰度和解釋性。
表1模擬數(shù)據(jù)實(shí)驗(yàn)算法性能對(duì)比
FSC-0-L2-TSK-FS模型達(dá)到最優(yōu)時(shí),為每條模糊規(guī)則抽取的子空間特征如表2所示。通過表2可以發(fā)現(xiàn),規(guī)則所抽取的子空間特征與模擬數(shù)據(jù)的重要特征絕大部分是相吻合的。說明FSC-0-L2-TSK- FS模型具有準(zhǔn)確抓取數(shù)據(jù)重要特征的能力。圖1所示為FSC-0-L2-TSK-FS模型的每條模糊規(guī)則空間特征分布情況。由圖1可以看出,F(xiàn)SC-0-L2- TSK-FS模型通過FSC算法得到的聚類有著明顯的子空間特征,其權(quán)值最高的幾個(gè)特征恰好與表2所對(duì)應(yīng)。
表2模擬數(shù)據(jù)實(shí)驗(yàn)FSC-0-L2-TSK-FS模型為每條規(guī)則抽取的特征
圖1 模擬數(shù)據(jù)在FSC-0-L2-TSK-FS模型最優(yōu)時(shí)每條規(guī)則的空間特征分布情況
4.3真實(shí)數(shù)據(jù)集仿真實(shí)驗(yàn)
本部分通過采用UCI機(jī)器學(xué)習(xí)庫中的Heart, Breast數(shù)據(jù)集來進(jìn)行實(shí)驗(yàn)。Heart數(shù)據(jù)集共有270組實(shí)驗(yàn)樣本,每組樣本有13個(gè)特征(維度)。270組實(shí)驗(yàn)樣本被分成兩類,分別為正常類和心臟病類。Breast數(shù)據(jù)集共有699組數(shù)據(jù),每組數(shù)據(jù)包含10個(gè)特征(維度)。699組數(shù)據(jù)中,有458組良性乳腺瘤病例和241組乳腺癌病例。
各算法的實(shí)驗(yàn)結(jié)果和評(píng)價(jià)指標(biāo)如表3所示。通過表3可得出結(jié)論有:(1)與3種經(jīng)典TSK模型相比,F(xiàn)SC-0-L2-TSK-FS模型的性能與其相差無幾,在誤差允許范圍內(nèi)。(2)3種經(jīng)典TSK模型無法為規(guī)則抽取重要的子空間特征,導(dǎo)致規(guī)則復(fù)雜度很高。FSC-0-L2-TSK-FS可為規(guī)則抽取重要子空間特征,規(guī)則復(fù)雜度分別降低至32和47,增強(qiáng)了規(guī)則的簡潔性和解釋性。
表3 UCI數(shù)據(jù)實(shí)驗(yàn)算法性能對(duì)比
為進(jìn)一步驗(yàn)證FSC-0-L2-TSK-FS所構(gòu)建的模型解釋性增強(qiáng)之特性,選取L2-TSK-FS作為對(duì)比算法,選取Breast數(shù)據(jù)作為對(duì)比數(shù)據(jù)。表4為L2-TSK- FS達(dá)到最優(yōu)時(shí)為每條規(guī)則抽取的特征及其高斯隸屬函數(shù)表示和結(jié)論部分描述;表5為FSC-0-L2- TSK-FS達(dá)到最優(yōu)時(shí)為每條規(guī)則抽取的特征及其高斯隸屬函數(shù)表示和結(jié)論部分描述。通過對(duì)比可得出結(jié)論:(1)規(guī)則前件。L2-TSK-FS為每條規(guī)則選用全部的特征,每一特征對(duì)應(yīng)于一個(gè)模糊子集。對(duì)于模糊邏輯系統(tǒng)來說,其解釋性主要來自于模糊規(guī)則中的模糊集可對(duì)應(yīng)于人類的語言描述。L2-TSK-FS模型因規(guī)則中含有的模糊子集太多,導(dǎo)致模型的解釋性下降。FSC-0-L2-TSK-FS為每條規(guī)則抽取不同的特征,并且不同規(guī)則對(duì)應(yīng)不同的特征子空間。這樣可使獲取的模糊規(guī)則更加易于語言描述,也使得模糊規(guī)則從不同的視角對(duì)問題進(jìn)行推理,增強(qiáng)了模型的簡潔性和解釋性。(2)規(guī)則后件。L2-TSK-FS的后件為特征向量的線性組合形式,使得后件繁雜,簡潔性下降;L2-TSK-FS的規(guī)則后件為常數(shù),增強(qiáng)了規(guī)則后件的簡潔性。
表4 L2-TSK-FS為每條規(guī)則抽取的特征及其高斯隸屬函數(shù)表示(Breast)
表5 FSC-0-L2-TSK-FS為每條規(guī)則抽取的特征及其高斯隸屬函數(shù)表示(Breast)
本文通過利用FSC聚類中的特征權(quán)值矩陣,構(gòu)造出一種FSC-0-L2-TSK-FS模型。新方法能運(yùn)用較少的重要特征來構(gòu)建模糊規(guī)則,每條模糊規(guī)則對(duì)應(yīng)于數(shù)據(jù)的特征子空間;具有較強(qiáng)的去噪能力,能夠去除掉對(duì)系統(tǒng)穩(wěn)定性干擾強(qiáng)的特征,保證了系統(tǒng)的魯棒性;能準(zhǔn)確把握住數(shù)據(jù)中的重要特征,所構(gòu)建的模糊規(guī)則對(duì)應(yīng)于不同的特征子空間,推理的側(cè)重點(diǎn)不相同,更加符合人類的推理機(jī)制,增強(qiáng)了模型的解釋性。
目前,F(xiàn)SC-0-L2-TSK-FS模型仍具有一定的缺陷。若給出的訓(xùn)練數(shù)據(jù)子空間特征不明顯,會(huì)因丟失特征而導(dǎo)致系統(tǒng)泛化性能下降。如何從子空間特征不明顯的高維數(shù)據(jù)中獲取具有更強(qiáng)解釋性的模糊系統(tǒng)是今后將進(jìn)行的工作。
[1] Zadeh L A. Fuzzy sets[J]., 1965, 8(3): 338-353.
[2] 李奕, 吳小俊. 基于監(jiān)督學(xué)習(xí)的Takagi Sugeno Kang模糊系統(tǒng)圖像融合方法研究[J]. 電子與信息學(xué)報(bào), 2014, 36(5): 1126-1132.
Li Yi and Wu Xiao-jun. A novel image fusion method using the Takagi Sugeno Kang fuzzy system based on supervised learning[J].&, 2014, 36(5): 1126-1132.
[3] 宋恒, 王晨, 馬時(shí)平, 等. 基于非單點(diǎn)模糊支持向量機(jī)的判決反饋均衡器[J]. 電子與信息學(xué)報(bào), 2008, 30(1): 117-120.
Song Heng, Wang Chen, Ma Shi-ping,A decision feedback equalizer based on non-singleton fuzzy support vector machine[J].&, 2008, 30(1): 117-120.
[4] Lughofer E. On-line assurance of interpretability criteria in evolving fuzzy systems–achievements, new concepts and open issues[J]., 2013(251): 22-46.
[5] Riid A and Rüstern E. Adaptability, interpretability and rule weights in fuzzy rule-based systems[J]., 2014(257): 301-312.
[6] Thong N T and Son L H. HIFCF: an effective hybrid model between picture fuzzy clustering and intuitionistic fuzzy recommender systems for medical diagnosis[J]., 2015, 42(7): 3682-3701.
[7] Sanz J A, Galar M, Jurio A,Medical diagnosis of cardiovascular diseases using an interval-valued fuzzy rule-based classification system[J].ng, 2014(20): 103-111.
[8] Takagi T and Sugeno M. Fuzzy identification of systems and its applications to modeling and control[J].,,1985(1): 116-132.
[9] Sugeno M and Kang G T. Structure identification of fuzzy model[J]., 1988, 28(1): 15-33.
[10] Jiang Yi-zhang, Chung Fu-lai, Ishibuchi H,. Multitask TSK fuzzy system modeling by mining intertask common hidden structure[J]., 2015, 45(3): 548-561.
[11] Fadali S and Jafarzadeh S. TSK observers for discrete type-1 and type-2 fuzzy systems[J]., 2014, 22(2): 451-458.
[12] Chung Fu-lai, Deng Zhao-hong, and Wang Shi-tong. From minimum enclosing ball to fast fuzzy inference system training on large datasets[J]., 2009, 17(1): 173-184.
[13] Mamdani E H. Application of fuzzy logic to approximate reasoning using linguistic synthesis[J]., 1977, 100(12): 1182-1191.
[14] Azeem M F, Hanmandlu M, and Ahmad N. Generalization of adaptive neuro-fuzzy inference systems[J]., 2000, 11(6): 1332-1346.
[15] Gan Guo-jun and Wu Jian-hong. A convergence theorem for the fuzzy subspace clustering (FSC) algorithm[J]., 2008, 41(6): 1939-1947.
[16] Deng Zhao-hong, Choi Kup-sze, Chung Fu-lai,Enhanced soft subspace clustering integrating within-cluster and between-cluster information[J]., 2010, 43(3): 767-781.
[17] Leski J M. TSK-fuzzy modeling based on-insensitive learning[J].,2005, 13(2): 181-193.
[18] Deng Zhao-hong, Choi Kup-sze, Chung Fu-lai,Scalable TSK fuzzy modeling for very large datasets using minimal- enclosing-ball approximation[J].,2011, 19(2): 210-226.
[19] Juang Chia-feng and Chiang Loa. Zero-order TSK-type fuzzy system learning using a two-phase swarm intelligence algorithm[J]., 2008, 159(21): 2910-2926.
[20] Tsang I W, Kwok J T Y, and Zurada J M. Generalized core vector machines[J]., 2006, 17(5): 1126-1140.
Fuzzy Subspace Clustering Based Zero-order L2-norm TSK Fuzzy System
Deng Zhao-hong Zhang Jiang-bin Jiang Yi-zhang Shi Ying-zhong Wang Shi-tong
(,,214122,)
The classical data driven Takagi-Sugeno-Kang (TSK) fuzzy system considers all the features of trained data, and faces a challenge that the interpretation is degenerated and the obtained fuzzy rule is complex when trained by high dimensional data. In this paper, a new fuzzy model,.., Fuzzy Subspace Clustering based zero-order L2-norm TSK Fuzzy System (FSC-0-L2-TSK-FS) is proposed to overcome this difficulty. The proposed fuzzy system not only reduces the feature spaces of the rule of antecedent, but also makes different rules implement the inference indifferent subspaces. The inference mechanism of the proposed fuzzy model training algorithm is very similar to the inference procedure of human.The experimental studies on the synthetic and real datasets prove that the interpretation of model constructed by the proposed method is enhanced when trained by high dimensional data and the generalization performance is better or comparative to several classical TSK fuzzy systems training methods.
Takagi-Sugeno-Kang (TSK) fuzzy system; Medical diagnosis; Interpretability; High-dimensional data
TP391
A
1009-5896(2015)09-2082-07
10.11999/JEIT150074
鄧趙紅 dzh666828@aliyun.com
2015-01-13收到,2015-05-11改回,2015-06-29網(wǎng)絡(luò)優(yōu)先出版
國家自然科學(xué)基金(61170122),江蘇省杰出青年基金(BK20140001)和新世紀(jì)優(yōu)秀人才支持計(jì)劃(NCET120882)資助課題
鄧趙紅: 男,1981年生,副教授,碩士生導(dǎo)師,研究方向?yàn)橛?jì)算智能和模糊計(jì)算.
張江濱: 男,1990年生,碩士生,研究方向?yàn)橛?jì)算智能和模糊計(jì)算.
蔣亦樟: 男,1988年生,博士生,研究方向?yàn)槿斯ぶ悄芎湍J阶R(shí)別.
史熒中: 男,1970年生,博士生,研究方向?yàn)槿斯ぶ悄芎湍J阶R(shí)別.
王士同: 男,1964年生,教授,博士生導(dǎo)師,研究方向?yàn)槿斯ぶ悄芎湍J阶R(shí)別.