• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多尺度鄰域決策信息系統(tǒng)的特征子集選擇

      2023-02-25 09:08:22張廬婧林國平林藝東
      模式識別與人工智能 2023年1期
      關(guān)鍵詞:子集鄰域尺度

      張廬婧 林國平 林藝東 寇 毅

      ZHANG Lujing1,2, LIN Guoping1,2 , LIN Yidong1, KOU Yi1

      粒計算[1-2]是知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的重要方法之一,源自Zadeh[3]在模糊集理論背景下提出的“信息粒度”.而后Pawlak[4]提出經(jīng)典粗糙集理論,便于分析和處理語義型的數(shù)據(jù),尤其善于處理不確定問題.

      然而經(jīng)典粗糙集僅適用于處理語義型數(shù)據(jù),并不適用于實際生活中廣泛存在的異構(gòu)數(shù)據(jù).因此,胡清華等[5]利用拓?fù)淇臻g中的球形鄰域概念構(gòu)造鄰域粗糙集,用于研究數(shù)值型數(shù)據(jù).此后,Hu等[6]通過鄰域粗糙集模型解決異構(gòu)特征選擇的問題.Chen等[7]提出基于優(yōu)勢關(guān)系的鄰域粗糙集模型,并設(shè)計并行的特征選擇算法.Hu等[8]為了挖掘特征與決策之間的相關(guān)性,在鄰域關(guān)系中引入權(quán)重的概念,構(gòu)造加權(quán)鄰域粗糙集模型.

      上述研究均為單尺度決策表,即僅研究特征在單一尺度下的取值問題,而實際生活中存在的信息大多需要從多個尺度進行研究.針對該問題,Wu等[9]提出多尺度信息系統(tǒng),描述不同尺度下信息粒之間的關(guān)系,并針對不一致的多尺度決策系統(tǒng)提出知識獲取算法[10],進一步分析多尺度決策系統(tǒng)的最優(yōu)尺度選擇問題[11].She等[12]研究局部規(guī)則歸納法.Wu等[13]提出不完備信息系統(tǒng)的規(guī)則獲取方法.Li等[14]以Wu-Leung研究的特殊案例為例,研究不同特征在不同尺度等級下的多尺度決策系統(tǒng),提出補模型和格模型.吳偉志團隊[15-20]利用D-S理論,提出一系列多尺度決策系統(tǒng)的擴展模型.牛東苒等[21]基于對偶概率粗糙集模型討論廣義多尺度決策系統(tǒng)中的最優(yōu)尺度組合選擇問題.Huang等[22-23]研究具有多尺度決策屬性的廣義多尺度決策系統(tǒng),將劃分?jǐn)U展到覆蓋,建立多尺度覆蓋數(shù)據(jù)分析模型.Li等[24]在多尺度覆蓋的基礎(chǔ)上研究鄰域算子和近似算子的一些性質(zhì),建立基于多尺度覆蓋的粗糙集模型.Zheng等[25]研究基于優(yōu)勢關(guān)系的多尺度序決策系統(tǒng).Wang等[26]構(gòu)造基于多粒度的多尺度決策系統(tǒng)擴展模型,用于知識發(fā)現(xiàn).

      近年來,Li等[27-29]研究動態(tài)多尺度決策系統(tǒng)的最優(yōu)尺度選擇問題.陳應(yīng)生等[30]構(gòu)造多尺度集值信息系統(tǒng),討論協(xié)調(diào)和不協(xié)調(diào)情況下的最優(yōu)尺度選擇問題.陳應(yīng)生等[31]又采用布爾矩陣方法研究多尺度覆蓋決策信息系統(tǒng).Huang等[32-33]研究基于優(yōu)勢關(guān)系的多尺度IF決策表.之后Huang等[34]又提出多尺度模糊決策系統(tǒng),用于研究多尺度粗糙集的模糊泛化及其在數(shù)值數(shù)據(jù)特征選擇中的應(yīng)用.楊璇等[35]將模糊相似關(guān)系引入多尺度決策系統(tǒng),拓展模糊決策粗糙集模型的應(yīng)用.但是,目前針對適用于研究多源異構(gòu)多尺度數(shù)據(jù)的多尺度決策信息系統(tǒng)模型仍較少見.

      隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)表現(xiàn)形式多樣化.例如,同一部電影在不同平臺的評價體系擁有多個評價方式,評分可記錄為0~10之間的數(shù)值型數(shù)據(jù),也可用0~5顆星星數(shù)進行評價,再或是留言評價等.值得注意的是,數(shù)據(jù)來源于多個平臺,并且每個平臺的評分細(xì)則是多尺度的.與此同時,這類多源異構(gòu)多尺度數(shù)據(jù)集不僅包含語義型數(shù)據(jù),同時也包含數(shù)值型數(shù)據(jù).在此情況下,無法使用現(xiàn)有的一些模型進行有效處理.為此,本文針對這一類型數(shù)據(jù)集構(gòu)建多尺度鄰域決策信息系統(tǒng),便于實際生活中多源異構(gòu)多尺度數(shù)據(jù)集的研究,并討論模型的相關(guān)性質(zhì).

      1 預(yù)備知識

      1.1 鄰域決策系統(tǒng)

      定義1[5]給定非空有限集合

      U={x1,x2,…,xn},

      A為描述U的特征集,D為決策特征,若A生成論域上的一族鄰域關(guān)系,則稱NDT=〈U,A,D〉為一個鄰域決策系統(tǒng).對于U上的任意對象xi,定義由xi生成的δ鄰域信息粒:

      δ(xi)={x|x∈U,Δ(x,xi)≤δ},

      其中,δ≥0,Δ為RN上的一個度量,滿足自反性、對稱性和三角不等性.

      定義2[5]給定一個鄰域決策系統(tǒng)NDT=〈U,A,D〉,根據(jù)決策特征D可將U劃分為N個等價類{X1,X2,…,XN},?B?A,定義決策D關(guān)于B的下近似和上近似:

      其中,

      δB(xi)為樣本xi在特征子集B中的鄰域信息粒.

      決策的邊界定義為

      決策D的下近似也稱為決策正域,記為POSB(D).決策特征D對條件特征B的依賴度定義為

      1.2 多尺度信息系統(tǒng)

      定義3[11]多尺度信息系統(tǒng)可表示為

      性質(zhì)1[11]給定一個多尺度信息系統(tǒng)

      對于B?A,k∈{1,2,…,I},有

      RBk={(x,y)∈U×U|ak(x)=ak(y)?a∈B},

      [x]Bk={y∈U|(x,y)∈RBk}=

      {y∈U|ak(x)=ak(y)?a∈B},

      U/RBk={[x]Bk|x∈U},

      RB1?RB2?…?RBI,

      [x]B1?[x]B2?…?[x]BI,

      U/RB1U/RB2…U/RBI.

      定義4[11]給定一個系統(tǒng)

      為多尺度決策系統(tǒng),其中

      為一個多尺度信息系統(tǒng),d∶U→Vd稱為決策.

      定義5[11]給定一個多尺度決策系統(tǒng)

      S稱為協(xié)調(diào)的決策系統(tǒng)當(dāng)且僅當(dāng)最細(xì)尺度等級下的決策系統(tǒng)S1為協(xié)調(diào)的.若Sk為協(xié)調(diào)的,但Sk+1為不協(xié)調(diào)的,則稱S的第k尺度等級為最優(yōu)尺度.

      2 多尺度鄰域決策信息系統(tǒng)

      在經(jīng)典的多尺度信息系統(tǒng)[9]中,每個特征在不同尺度下的特征值不一致,但約束每個特征的尺度等級個數(shù)相同,本文仍保持此假定.

      定義7給定一個多尺度鄰域決策信息系統(tǒng)

      對于鄰域半徑δ關(guān)于特征子集B的多尺度鄰域相似關(guān)系定義如下:

      當(dāng)I=1時,多尺度鄰域相似關(guān)系退化為經(jīng)典的鄰域相似關(guān)系.因此,多尺度鄰域相似關(guān)系可視為鄰域相似關(guān)系的推廣.

      鄰域半徑δ的選取是影響多尺度鄰域相似關(guān)系的關(guān)鍵因素之一,本文參考文獻[36]中利用標(biāo)準(zhǔn)差的方法,改進后得到更適用于本文的鄰域半徑δ的定義.

      定義8給定一個多尺度鄰域決策信息系統(tǒng)

      對于?B?A,定義鄰域半徑:

      例1給定一個多尺度鄰域決策信息系統(tǒng),

      其中U為對象集,表示不同的電影,

      表示電影在不同平臺上對應(yīng)的不同評價標(biāo)準(zhǔn),第一尺度等級為每部電影在該平臺上評分的標(biāo)準(zhǔn)化數(shù)據(jù),第二尺度等級為觀眾在該平臺上的留言評價,即

      V2={1,2,3}={不好看,一般,好看},

      第三個尺度等級為該平臺上專業(yè)影評的評價,即

      V3={1,2}={不喜歡,喜歡},

      決策d為電影的最終評價分類.多尺度鄰域決策信息系統(tǒng)如表1所示.

      表1 多尺度鄰域決策信息系統(tǒng)

      根據(jù)定義8,α=1/3,μ=0.4,計算得到每個特征在不同尺度下的鄰域半徑分別為

      性質(zhì)2給定一個多尺度鄰域決策信息系統(tǒng),

      證明先證明1).若x∈U,對于(x,x),有

      定義9給定一個多尺度鄰域決策信息系統(tǒng)

      L={(l1,l2,…,lm)|lj∈{1,2,…,I},j={1,2,…,m}},

      表示為多尺度組合全體.若

      K1={l1,l2,…,lm},K2={k1,k2,…,km},

      lj≤kj,j=1,2,…,m,

      則表示K1細(xì)于K2,記為K1?K2;若

      lj

      則表示K1嚴(yán)格細(xì)于K2,記為K1K2.

      定義10給定一個多尺度鄰域決策信息系統(tǒng)

      性質(zhì)3對于

      ?K1=(k1,k2,…,km)∈L,K2=(l1,l2,…,lm)∈L,

      x∈U,對應(yīng)的多尺度鄰域相似關(guān)系族及多尺度鄰域信息粒有如下性質(zhì):

      證明先證明1).若δ1≤δ2,由于

      再證明2).由于

      設(shè)

      K1=(k1,k2,…,km)∈L,K2=(l1,l2,…,lm)∈L,

      對于K1?K2,?1≤j≤m,有kj≤lj,可得

      可得

      最后證明4).由2)可得:若K1?K2,有

      (RK1)δ?(RK2)δ,

      可得

      定義11給定一個多尺度鄰域決策信息系統(tǒng)

      對于

      2)若δ1≤δ2,則POSRKδ1(d)?POSRKδ2(d);

      證明先證明1).根據(jù)性質(zhì)3中3)可得,若δ1≤δ2,則

      可得

      再證明2).由1)根據(jù)性質(zhì)3中3)可得,若δ1≤δ2,則

      對?y∈U,可得,若δ1≤δ2,則

      可得

      POSRKδ1(d)?POSRKδ2(d).

      再證明3).根據(jù)性質(zhì)3中4)可得,若K1?K2,則

      可得

      最后證明4).根據(jù)3)可得,若K1?K2,則

      可得

      定義12給定一個多尺度鄰域決策信息系統(tǒng)

      K=(k1,k2,…,km)∈L,

      1)若δ1≤δ2,則γRKδ1(d)≥γRKδ2(d);

      證明先證明1).由性質(zhì)4中2)可得,若δ1≤δ2,則

      POSRKδ1(d)?POSRKδ2(d),

      可得

      γRKδ1(d)>γRKδ2(d).

      再證明2).由性質(zhì)4中4)可得,若K1?K2,則

      可得

      3 多尺度鄰域決策信息系統(tǒng)的特征子集選擇算法

      現(xiàn)有的關(guān)于多尺度決策信息系統(tǒng)特征子集選擇的研究多數(shù)采用首先選出最優(yōu)尺度再進行特征選擇的方式.與之不同的是,本文采用特征選擇和最優(yōu)尺度選擇結(jié)合的方式對多尺度鄰域決策信息系統(tǒng)進行特征子集選擇.面對多尺度模型中最優(yōu)尺度選擇時間復(fù)雜度過大的問題,文獻[37]中提出逐步最優(yōu)尺度算法,相比格模型[14],可有效減少最優(yōu)尺度選擇的時間成本.受逐步最優(yōu)尺度算法[37]啟發(fā),本文引入特征重要度閾值λ進行特征子集選擇.

      定義13給定一個多尺度鄰域決策信息系統(tǒng)

      K0=(1,1,…,1)∈L,K=(k1,k2,…,km)∈L,

      定義14給定一個多尺度鄰域決策信息系統(tǒng)

      K=(1,1,…,kj,…,1)∈L,

      因此,根據(jù)定義14可得

      并且對于特征aj的重要度采用加權(quán)和的方式進行定義,即

      由此根據(jù)定義14給出的特征子集選擇算法.首先基于最細(xì)的尺度組合計算每個特征在不同尺度下特征的重要度,采用加權(quán)和的方式計算每個特征的重要度.由于重要度較小的特征對分類的影響較小,根據(jù)設(shè)定的閾值λ,刪除重要度小于閾值λ的特征,對于其余特征,根據(jù)特征的重要度由小到大排序,根據(jù)所得的排序依次對每個特征進行選擇最優(yōu)尺度,得到特征子集.具體算法步驟如下.

      算法1多尺度鄰域決策信息系統(tǒng)的特征子集選擇

      算法

      輸入多尺度鄰域決策信息系統(tǒng)

      S=(U,A∪j5i0abt0b,

      閾值λ

      輸出特征子集X

      初始化X=[],S′=[]

      Fork=1∶Im

      //Im為每個特征的最粗尺度

      令K←(1;1;…;k;…;1)

      Foraj∈A(j=1,2,…,m)

      令S′←S′∪{aj}

      End

      End

      End

      Forap∈S′(j=1,2,…,q)

      特征進行排序,得到τ

      Forapinτ

      Fork=Ip∶1

      令K′(p)←k∥K′(p)表示中的第p個元素

      得到特征子集選擇后的最優(yōu)尺度組合K′

      End

      End

      End

      得到特征子集X

      End

      特征子集選擇算法的時間復(fù)雜度為

      因此,本文算法同時進行最優(yōu)尺度選擇和特征選擇,減少搜索最優(yōu)尺度組合的遍歷次數(shù),有效提高特征子集選擇的效率.

      例2(續(xù)例1) 根據(jù)定義14得到每個特征在每個尺度下的重要度:

      進而得到每個特征的重要度:

      由于每個特征的重要度一致,設(shè)λ=0.根據(jù)特征的重要度排序得到τ=123,

      1)考慮特征a1.當(dāng)K1=(3,1,1)時,計算得到

      2)考慮特征a2.當(dāng)K2=(3,3,1)時,計算得到

      3)考慮特征a3.當(dāng)K4=(3,2,3)時,計算得到

      K′=(3,2,1).

      4 實驗及結(jié)果分析

      對于本文提出的多尺度鄰域決策信息系統(tǒng)模型及對應(yīng)的特征子集選擇算法,本節(jié)通過實驗分析驗證其可行性和有效性.所有實驗硬件環(huán)境配置為Inter(R)Core(TM)i5-8250U CPU@1.60 GHz和4 GB內(nèi)存的個人計算機,算法運行的軟件環(huán)境為Matlab R2021a.

      實驗數(shù)據(jù)集選擇UCI數(shù)據(jù)庫上的7個數(shù)據(jù)集,具體如表2所示.由于均為相應(yīng)的單尺度決策表,因此需要進行預(yù)處理,構(gòu)建相應(yīng)的多尺度鄰域決策表.

      表2 實驗數(shù)據(jù)集

      通過文獻[14]中方法類比得到多源異構(gòu)多尺度數(shù)據(jù)集.鑒于語義型數(shù)據(jù)需轉(zhuǎn)化為整數(shù)的數(shù)值型數(shù)據(jù)進行實驗,故后續(xù)數(shù)據(jù)獲取均用整數(shù)表示.

      1)若對象的某一特征值缺失,刪除該對象.

      2)設(shè)σa為標(biāo)準(zhǔn)差,ma為最小值,a(x)表示原始數(shù)據(jù)的特征值,則多尺度鄰域決策信息表中第一尺度的對象x的特征值為

      根據(jù)特征值a1(x)得到相應(yīng)的特征值,若對象的某一特征值為0,刪除該對象,得到第一尺度的特征值.

      3)利用定義8中的鄰域半徑定義求取第一尺度的鄰域相似類的平均值,并保留兩位小數(shù)作為第二尺度對應(yīng)的特征值a2(x),刪除特征值為0所在的對象,其中對應(yīng)δ中的a1的取值為決策類的個數(shù)d.以此類推,ak的取值遞減,直到k的取值為d/3-1,即

      其中d為決策類的個數(shù).

      4)從k=d/3開始,求取前一個尺度級別的鄰域相似類的平均值后取整.對于后續(xù)尺度等級的獲取,將在前一個尺度級別的基礎(chǔ)上,通過從上到下的方式合并某個值,直到某個特征的當(dāng)前尺度級別中的等價類數(shù)量不超過3個.

      對于所得特征子集結(jié)果,采用十折交叉驗證法分別在SVM和KNN兩個分類器上進行分類性能評估.將本文算法得到的特征子集(簡記為Opt)分類精度與原始數(shù)據(jù)集(簡記為Raw)、最細(xì)尺度數(shù)據(jù)集(簡記為Fin)、最粗尺度數(shù)據(jù)集(簡記為Coa)在分類器上的分類精度進行對比,詳情如表3和表4所示,表中參數(shù)設(shè)置為α=0.1,μ=0.8.從實驗結(jié)果可知,通過本文的模型與算法,可獲得較好的特征子集,分類精度近似于原始數(shù)據(jù)集在分類器上的分類精度,且絕大多數(shù)分類精度優(yōu)于最細(xì)尺度數(shù)據(jù)集和最粗尺度數(shù)據(jù)集.由此說明本文的模型與算法是有效的.

      表3 在分類器SVM上的分類精度對比

      表4 在分類器KNN(K=2)上的分類精度

      5 結(jié)束語

      本文針對多源異構(gòu)多尺度數(shù)據(jù)進行研究,通過構(gòu)造多尺度鄰域信息粒,提出多尺度鄰域決策信息系統(tǒng)模型,給出多尺度鄰域半徑的形式化定義,對多尺度鄰域相似關(guān)系及上下近似的相關(guān)定義進行理論分析.最后,給出基于特征重要度的多尺度鄰域決策系統(tǒng)的特征子集選擇算法,并通過實驗驗證算法的有效性.今后將進一步探索多尺度信息系統(tǒng)在多源異構(gòu)多尺度數(shù)據(jù)上的研究,著重考慮大型數(shù)據(jù)集的多尺度鄰域決策信息系統(tǒng)的知識表示、規(guī)則提取等問題.

      猜你喜歡
      子集鄰域尺度
      由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      財產(chǎn)的五大尺度和五重應(yīng)對
      稀疏圖平方圖的染色數(shù)上界
      關(guān)于奇數(shù)階二元子集的分離序列
      基于鄰域競賽的多目標(biāo)優(yōu)化算法
      關(guān)于-型鄰域空間
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      9
      疏勒县| 泰州市| 福海县| 祁东县| 晋宁县| 汽车| 阳泉市| 天全县| 万安县| 石城县| 观塘区| 延吉市| 勃利县| 平和县| 茌平县| 新乡县| 柳河县| 册亨县| 吕梁市| 迭部县| 陇南市| 托克逊县| 山丹县| 石楼县| 东丽区| 正安县| 长垣县| 原阳县| 哈尔滨市| 卫辉市| 荣成市| 青铜峡市| 永年县| 白朗县| 抚松县| 黑河市| 托克托县| 红安县| 育儿| 雷州市| 理塘县|