黃瓊桃 劉瑞敏
摘 要:針對(duì)現(xiàn)有的相似性度量方法中存在區(qū)分度不高、結(jié)果不穩(wěn)定等問(wèn)題,提出了一種基于EW-型貼近度的云模型相似性度量方法。該方法利用正態(tài)云模型的擴(kuò)展模型三角云為研究對(duì)象,分別把三角云的期望曲線及最大邊界曲線看作三角模糊數(shù),通過(guò)計(jì)算三角模糊數(shù)的EW-型貼近度來(lái)度量云模型的相似性,充分考慮了期望曲線和最大邊界曲線的特點(diǎn),定義了一種綜合的求兩云模型相似度的計(jì)算方法。通過(guò)仿真實(shí)驗(yàn)可以看出,提出的EMTCM方法具有一定的區(qū)分度;在Synthetic Control Chart Dataset數(shù)據(jù)集上的分類對(duì)比實(shí)驗(yàn)表明,EMTCM方法的分類精度明顯優(yōu)于先前的LICM、ECM、MCM方法,驗(yàn)證了EMTCM方法有一定的可行性及有效性。
關(guān)鍵詞:三角云;EW-型貼近度;期望曲線;最大邊界曲線;相似性度量
中圖分類號(hào):TP18 ?文獻(xiàn)標(biāo)志碼:A
云模型集模糊性和隨機(jī)性于一身,是定性概念與定量表示之間相互轉(zhuǎn)換的一種模型,它是由李德毅院士在20世紀(jì)90年代初期提出來(lái)的[1]。該模型不僅將定性概念的不確定性體現(xiàn)得淋漓盡致,也在某種程度上體現(xiàn)了模糊性和隨機(jī)性之間的聯(lián)系[2]。李德毅院士隨后又提出了隸屬云概念[3],這也是首次向我們展示了云模型在定性概念與定量描述之間轉(zhuǎn)換的橋梁作用。歷經(jīng)幾年的發(fā)展變化,云模型在很多方面都有成功的應(yīng)用,如信任評(píng)價(jià)[4]、風(fēng)險(xiǎn)及效能評(píng)估[5-6]、推薦系統(tǒng)[7]、智能控制[8]等。
云模型的應(yīng)用過(guò)程中常需要對(duì)不同的云模型進(jìn)行比較,其中比較兩云模型的相似程度是目前研究的主要問(wèn)題之一。相似性度量的目的是判斷兩個(gè)研究對(duì)象的接近程度,以便在分類[9]、聚類[10]、相似性搜索[11]等應(yīng)用中提高其挖掘效率。因此,云模型相似性度量方法的優(yōu)劣與云模型實(shí)際應(yīng)用效果息息相關(guān)。
度測(cè)算方法主要可以分為3類:基于云滴的計(jì)算方法、基于向量的計(jì)算方法以及基于重疊面積的計(jì)算方法。如張勇等[12]利用正向云模型產(chǎn)生許多的云滴,通過(guò)計(jì)算云滴之間的距離來(lái)表示兩個(gè)云模型間的相似度,該方法計(jì)算量較大,結(jié)果依賴于云滴個(gè)數(shù)和實(shí)驗(yàn)次數(shù),結(jié)果不穩(wěn)定。張光衛(wèi)等[13]將兩個(gè)云模型的數(shù)字特征看成兩個(gè)向量的元素,用兩向量的余弦?jiàn)A角表征云模型的相似度,但當(dāng)云模型的數(shù)字特征之間相差較大時(shí),計(jì)算出的相似度誤差較大。李海林等[14]提出的正態(tài)云模型相似度計(jì)算方法需求解兩云模型的相交面積及交點(diǎn);查翔等[15]通過(guò)計(jì)算截?cái)囔孬@得綜合云,以綜合云與各云模型的期望曲線相交面積作為相似性的新度量標(biāo)準(zhǔn),給出了相似度的間接計(jì)算公式;汪軍等[16]提出了正態(tài)云模型的形狀相似度和距離相似度概念,建立了云模型綜合相似度測(cè)算框架。這幾種方法都需要通過(guò)積分計(jì)算兩云模型相交的交點(diǎn)及面積,其計(jì)算步驟繁瑣,相對(duì)復(fù)雜。
針對(duì)上述問(wèn)題,將云模型表示為三角云模型[17],將其期望曲線以及最大邊界曲線看作三角模糊數(shù),引入EW-型貼近度(similarity measure method of expectation curve based on triangular cloud model, ETCM),提出一種基于EW-型貼近度的云模型相似性度量方法。實(shí)驗(yàn)表明,該方法有一定的可行性及有效性。
1 三角云模型
定義1 設(shè)U是一個(gè)非空集合,其元素都是精確的數(shù)值,C是U上的定性概念,若一個(gè)確定的值x∈U,且x是對(duì)C的一次定量描述,x對(duì)C的映射μC(x)∈[0,1]是具有一定分布規(guī)律的隨機(jī)數(shù),則(x,μC(x))在論域U上的分布稱為云,毎個(gè)(x,μC(x))稱為一個(gè)云滴[18]。
定義2 用3個(gè)參數(shù)(Ex,En,He)來(lái)表示云的數(shù)字特征的模型,稱為云模型[18]。其中,期望值(Ex):指所有定性概念的一次隨機(jī)實(shí)現(xiàn)x的平均值;熵(En):反映數(shù)據(jù)到期望值的離散程度,表示數(shù)據(jù)的范圍,即反映了數(shù)據(jù)的模糊性;超熵(He):熵(En)的熵,用符號(hào)He表示,代表云滴隨機(jī)分布的范圍,常常用厚度來(lái)描述它,反映了數(shù)據(jù)的隨機(jī)性,表示云滴的離散程度。3個(gè)數(shù)字特征在三角云模型中代表的含義如圖1所示。
2 三角云模型相似性度量方法
已知云模型的3個(gè)數(shù)字特征(Ex,En,He),通過(guò)正向三角云的實(shí)現(xiàn)算法產(chǎn)生一系列云滴,進(jìn)而了解云滴的分布情況。由于三角云的期望曲線描述了三角云的總體特征,而最大邊界曲線是從云模型的局部角度考慮的,因此可以借助兩三角云模型的期望曲線和最大邊界曲線的EW-型貼近度來(lái)刻畫(huà)兩云模型的相似程度。
2.1 基于期望曲線的相似性度量方法
由于三角云模型的期望曲線在[Ex-3En,Ex+3En]范圍內(nèi)與橫軸組成的圖形為三角形,因此將其看作三角模糊數(shù),利用三角模糊數(shù)的EW-型貼近度對(duì)三角云模型的相似度進(jìn)行刻畫(huà)。根據(jù)云模型的“3En”規(guī)則可知,在[Ex-3En,Ex+3En]范圍之外的云滴對(duì)定性概念的貢獻(xiàn)比較小,可忽略不計(jì)。因此,三角云模型期望曲線的解析式可變?yōu)?/p>
由表1可知,4個(gè)云模型兩兩之間相似度大小為:(C1,C4)>(C2,C3)>(C3,C4)>(C1,C3)>(C2,C4)>(C1,C2),與圖3的直觀印象一致,說(shuō)明了該方法的可行性。表2為本文提出的EMTCM與現(xiàn)有方法的比較。由表2可知,EMTCM方法與其他方法都認(rèn)為(C1,C4)及(C2,C3)的相似度最高,但EMTCM方法效果更好,更能區(qū)分兩云模型的相似度。LICM認(rèn)為(C1,C4)與(C2,C3)的相似度差0.000 2,利用LICM方法計(jì)算出的相似度的值都相對(duì)比較大,區(qū)分度不高;ECM認(rèn)為(C1,C4)與(C2,C3)的相似度差0.077;MCM認(rèn)為(C1,C4)與(C2,C3)的相似度差0.002 8;而EMTCM認(rèn)為(C1,C4)與(C2,C3)的相似度差0.087 4。另外,EMTCM方法的實(shí)驗(yàn)結(jié)果取決于云模型的3個(gè)數(shù)字特征,與實(shí)驗(yàn)次數(shù)和云滴個(gè)數(shù)均沒(méi)有關(guān)系,因此具有一定的穩(wěn)定性。
3.2 時(shí)間序列分類
時(shí)間序列數(shù)據(jù)是一類在不同時(shí)間收集到的數(shù)據(jù),用于所描述現(xiàn)象隨時(shí)間變化的情況,具有高維特性,能夠很好地檢驗(yàn)分類算法的精確度。且在分類過(guò)程中,相似性度量方法的優(yōu)劣對(duì)分類結(jié)果起決定性作用。由于UCI中常用時(shí)間序列數(shù)據(jù)集synthetic control chart dataset(SYNDATA)[22]具有多種變化趨勢(shì),因此本文將選擇該數(shù)據(jù)集作為研究對(duì)象,該數(shù)據(jù)集由600行60列的數(shù)據(jù)組成,每100行為一個(gè)類,共6類,選取每類的后10個(gè)為測(cè)試集,其余的為訓(xùn)練集。
為了驗(yàn)證EMTCM方法的準(zhǔn)確性,使用KNN算法進(jìn)行分類實(shí)驗(yàn)。同時(shí),為了提高其效率,將每類的前90行數(shù)據(jù)平均分為6份,共組成6類訓(xùn)練數(shù)據(jù),每類為90個(gè)數(shù)據(jù),用A、B、C、D、E、F表示,計(jì)算其分類準(zhǔn)確率。k取1至6時(shí),EMTCM在6類訓(xùn)練數(shù)據(jù)下的分類準(zhǔn)確率如圖4所示。
為了突顯EMTCM方法的優(yōu)越性,當(dāng)k=3和k=6時(shí),比較方法EMTCM、LICM、ECM、MCM,找其差異,如圖5所示。
由圖5可以看出,當(dāng)k=3時(shí),對(duì)于C類訓(xùn)練數(shù)據(jù),EMTCM的分類準(zhǔn)確率略低于ECM,對(duì)其它訓(xùn)練數(shù)據(jù)而言,其分類準(zhǔn)確率比其它方法都高;而當(dāng)k=6時(shí),EMTCM的分類準(zhǔn)確率都優(yōu)于其它方法,體現(xiàn)出該方法的優(yōu)勢(shì)。其次,ECM的分類準(zhǔn)確率較好,但只涉及期望(Ex)和熵(En)兩個(gè)數(shù)字特征,忽略了超熵(He)的影響;MCM方法次之,MCM方法在計(jì)算時(shí)加入了超熵(He)的3倍進(jìn)行計(jì)算,擴(kuò)大了超熵(He)的作用;LICM方法最差,利用LICM方法在期望值(Ex)遠(yuǎn)遠(yuǎn)大于熵(En)和超熵(He),熵(En)和超熵(He)對(duì)計(jì)算結(jié)果貢獻(xiàn)較小。
4 結(jié)論
云模型相似性度量方法的優(yōu)劣直接影響云模型的應(yīng)用效果,因此提出一種具有良好性能的云模型相似性度量方法是很有必要的。本文將云模型擴(kuò)展后的三角云的期望曲線及最大邊界曲線看作三角模糊數(shù),再利用EW-型貼近度對(duì)其求解,解決了現(xiàn)有的相似度方法中存在區(qū)分度不高、結(jié)果不穩(wěn)定等問(wèn)題,在時(shí)間序列的分類實(shí)驗(yàn)中,也取得了較好的效果。如何將模糊數(shù)學(xué)的相關(guān)知識(shí)更好地應(yīng)用到云模型相似性度量中,是未來(lái)的一個(gè)研究方向。參考文獻(xiàn):
[1] LI D Y.Uncertainly in knowledge respresentation[J]. Engineeringence, 2000, 2(10): 73-79.
[2] 王國(guó)胤. 云模型與粒計(jì)算[M]. 北京: 科學(xué)出版社, 2012.
[3] 李德毅, 孟海軍, 史雪梅. 隸屬云和隸屬云發(fā)生器[J]. 計(jì)算機(jī)研究與發(fā)展, 1995,32(6):15-20.
[4] ZHANG T, YAN L, YANG Y, et al. Trust evaluation method for clustered wireless sensor networks based on cloud model[J]. Wireless Networks, 2018, 24(3): 777-797.
[5] XU Z J, ZHANG Y P, SU H S. Application of risk assessment on fuzzy comprehensive evaluation method based on the cloud model[J]. Journal of Safety & Environment, 2014,14(2):69-72.
[6] LIU D F. Software process performance evaluation based on AHP and cloud model[J]. Computer Engineering & Design, 2013, 34(3):893-898.
[7] XIAO Y P, SUN H C, DAI T J, et al. A rating prediction method based on cloud model in social recommendation system[J]. Tien Tzu Hsueh Pao/acta Electronica Sinica, 2018, 46(7):1762-1767.
[8] GAO H B , ZHANG X Y , LIU Y C , et al. Cloud model approach for lateral control of intelligent vehicle systems[J]. Scientific Programming, 2016(11):1-12.
[9] HONG X, LIN Y L, YUAN Y, et al. Early warning classification of cluster supply chain emergency based on cloud model and datastream clustering algorithm[J]. Journal of Intelligent and Fuzzy Systems, 2018, 35(1): 393- 403.
[10]XU X H, WANG P, CAI C G, et al. Linguistic multi-attribute large group decision-making method based on similarity measurement of cloud model[J]. Control and Decision, 2017, 32(3):459- 466.
[11]JIANG R, LI D Y . Similarity search based on shape representation in time series data sets[J]. Journal of Computer Research and Development, 2000 , 37(5) : 601-608.
[12]張勇, 趙東寧, 李德毅. 相似云及其度量分析方法[J]. 信息與控制, 2004, 33(2):129-132.
[13]張光衛(wèi), 李德毅, 李鵬, 等. 基于云模型的協(xié)同過(guò)濾推薦算法[J]. 軟件學(xué)報(bào), 2007, 18(10):2403-2411.
[14]李海林, 郭崇慧, 邱望仁, 等. 正態(tài)云模型相似度計(jì)算方法[J]. 電子學(xué)報(bào), 2011, 39(11):2561-2567.
[15]查翔,倪世宏,謝川,等.云相似度的概念躍升間接計(jì)算方法[J].系統(tǒng)工程與電子技術(shù),2015,37(7):1676-1682.
[16]汪軍, 朱建軍, 劉小弟. 兼顧形狀-距離的正態(tài)云模型綜合相似度測(cè)算[J]. 系統(tǒng)工程理論與實(shí)踐, 2017,37(3):742-751.
[17]陳昊, 王代萍, 張莉. 擴(kuò)展的正態(tài)云發(fā)生器[J]. 湖北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011, 33(2):251-255.
[18]何金平, 高 全, 施玉群. 基于云模型的大壩安全多層次綜合評(píng)價(jià)方法[J]. 系統(tǒng)工程理論與實(shí)踐, 2016, 36(11):2977-2983.
[19]包玉娥, 彭曉芹, 趙博.基于期望值與寬度的區(qū)間數(shù)距離及其完備性[J].模糊系統(tǒng)與數(shù)學(xué),2013,27(6):133-139.
[20]雷一鳴, 代兵, 包玉娥, 等. 關(guān)于模糊數(shù)貼近度問(wèn)題的研究[J]. 純粹數(shù)學(xué)與應(yīng)用數(shù)學(xué), 2015,31(6):611-619.
[21]阮永芬, 高春欽, 李志偉, 等. 基于改進(jìn) AHP 與熵權(quán)法的膨脹土脹縮等級(jí)云模型評(píng)價(jià)[J]. 江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 38(2): 218-223.
[22]PHAM D T, CHAN A B.Control chart pattern recognition using a new type of self organizing neural network[J] .Proceedings of the Institution of Mechanical Engineers, Part I:Journal of Systems and Control Engineering, 1998, 212(1):115-127.
(責(zé)任編輯:曾 晶)
Abstract: Aiming at the problems of low discrimination and unstable results in existing similarity measurement methods, a cloud model similarity measurement method based on EW-type closeness is proposed. This method uses the extended model triangle cloud of the normal cloud model as the research object, regards the expected curve and the maximum boundary curve of the triangle cloud as the triangle fuzzy number, and measures the similarity of the cloud model by calculating the EW-type closeness of the triangle fuzzy number. It fully considers the characteristics of the expected curve and the maximum boundary curve, and defines a comprehensive calculation method for calculating the similarity of the two cloud models. It can be seen from the simulation experiment that the proposed EMTCM method has a certain degree of discrimination. The classification comparison experiment on the Synthetic Control Chart Dataset data set shows that the classification accuracy of the EMTCM method is significantly better than the previous LCM, ECM, and MCM methods. The EMTCM method has certain feasibility and effectiveness.
Key words: triangular cloud; EW-type closeness; expectation curve; maximum boundary curve; similarity measure