[摘 要] 依據(jù)信息粒度理論,提出一種對(duì)數(shù)據(jù)屬性進(jìn)行約簡(jiǎn)的改進(jìn)算法,對(duì)該算法進(jìn)行分析,并將其應(yīng)用于企業(yè)競(jìng)爭(zhēng)力指標(biāo)體系的構(gòu)建,精煉了評(píng)價(jià)指標(biāo),提高了評(píng)價(jià)的可操作性和科學(xué)性#65377;
[關(guān)鍵詞] 信息粒度;屬性重要度;屬性約簡(jiǎn);指標(biāo)體系
[中圖分類號(hào)]F272;F224.0[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2008)15-0098-03
0 引 言
在評(píng)價(jià)企業(yè)競(jìng)爭(zhēng)力水平時(shí),為了提高評(píng)價(jià)的全面性和準(zhǔn)確性,管理部門制訂的評(píng)價(jià)指標(biāo)體系往往過于復(fù)雜,這將導(dǎo)致企業(yè)評(píng)價(jià)成本提高,另外也容易掩蓋重要指標(biāo)#65377;因此,為使評(píng)價(jià)過程更加科學(xué)#65380;全面#65380;高效,管理部門迫切需要一套優(yōu)化后的評(píng)價(jià)指標(biāo)體系#65377;對(duì)多指標(biāo)進(jìn)行取舍和融合,形成更為科學(xué)#65380;合理的指標(biāo)體系的過程實(shí)質(zhì)上為知識(shí)約簡(jiǎn)過程#65377;
目前已有關(guān)于信息粒度的應(yīng)用研究,如文獻(xiàn)[1]研究了屬性權(quán)重的確定方法,但在計(jì)算過程中將核core(A)看作是約簡(jiǎn)#65377;其實(shí)核是所有約簡(jiǎn)的交集[2],所以核不一定是該問題的約簡(jiǎn),因此本文在文獻(xiàn)[1]的基礎(chǔ)上,結(jié)合約簡(jiǎn)的定義,進(jìn)一步提出了一種基于信息粒度的屬性約簡(jiǎn)算法,并將改進(jìn)后的算法應(yīng)用于企業(yè)競(jìng)爭(zhēng)力評(píng)價(jià)指標(biāo)體系的優(yōu)化,說明了算法的有效性#65377;
1 信息粒度及其屬性約簡(jiǎn)算法
1. 1信息粒度
人類在處理較復(fù)雜問題時(shí),往往會(huì)將整體劃分成不同的塊,每一個(gè)塊就是一個(gè)信息粒,這種簡(jiǎn)化過程和粗集理論中等價(jià)關(guān)系的劃分原理是一致的,因此,粗集理論中的等價(jià)關(guān)系可以看作是一種信息粒度#65377;本文將采用文獻(xiàn)[3-4]中的觀點(diǎn)描述信息粒度#65377;
定義1設(shè)U為一個(gè)論域,R為屬性(關(guān)系)集合,X是對(duì)象在R上?;纬傻囊粋€(gè)信息粒,X的粒度為G(X)= |X| / |U|#65377;
定義2設(shè)U為一個(gè)論域,R為屬性(關(guān)系)集合,關(guān)系R的粒度定義為G(R) = |R| / |U|2(其中|R|表示R?哿U的基數(shù)),R= ?準(zhǔn)時(shí)定義G(R)=1#65377;
命題1設(shè)U為一個(gè)論域,R為屬性(關(guān)系)集合,U / R={X1,X2, …,Xn}表示對(duì)象在R上粒化形成的一組信息粒,則G(R)
定義3設(shè)U為一個(gè)論域,R為屬性(關(guān)系)集合,R的分辨度定義為D(R)=1-G(R),R= ?準(zhǔn)時(shí)D(?準(zhǔn))=0#65377;
定義4設(shè)S=(U,A)為一個(gè)信息系統(tǒng),?準(zhǔn)≠C?哿A, a?埸C,屬性a相對(duì)于屬性集C的重要性定義為:
定義5設(shè)S=(U,A)為一個(gè)信息系統(tǒng),屬性a∈A,當(dāng)SGFA(a)>0時(shí),稱a是A中必要的,反之稱a是A中不必要的,A中所有必要屬性的集合稱為A的核,記為core(A)#65377;
定義6[5]設(shè)S=(U,A)為一個(gè)信息系統(tǒng),Q?哿A,Q為A的一個(gè)約簡(jiǎn),當(dāng)符合U/Q=U/A且Q中所有元素都是必要的#65377;
1. 2基于信息粒度屬性約簡(jiǎn)的改進(jìn)算法
由定義5求出屬性集A的核core(A),因?yàn)楹耸撬屑s簡(jiǎn)的交集,所以核是求約簡(jiǎn)的起點(diǎn),根據(jù)定義6,逐一選擇核之外的屬性a[ j]加入到核集中,如果SGF(core(A)∪{a[j ]})(a[ j ])>0,則a[ j ]為core(A∪{a[ j ]})中必要的,對(duì)必要的a[ j ]驗(yàn)證U/{core(A)∪{a[ j ]} = U/A是否成立,即加入a[ j ]后系統(tǒng)的粒度是否等于整個(gè)屬性集A的粒度,如果成立則得到系統(tǒng)的一個(gè)屬性約簡(jiǎn){core(A)∪{a[ j ]}#65377;
算法描述如下:
輸入:信息系統(tǒng)S=(U,A),其中U為論域,A為屬性集#65377;
輸出:該信息系統(tǒng)的一個(gè)屬性約簡(jiǎn),表示為Red(A)#65377;
step1計(jì)算A的信息粒度G(A)#65377;
step2計(jì)算核core(A)#65377;即將所有符合SGFA(a[i])>0的屬性a[i]加入到核中#65377;
step3Red(A):=core(A),對(duì)屬性集A-Red(A)重復(fù)操作:
(1) 對(duì)?坌a[ j ]∈A-Red(A),計(jì)算屬性a[ j ] 對(duì)屬性集{core(A)∪{a[ j ]}}的重要度SGF(core(A)∪{a[ j ]})(a[ j ])#65377;
(2) 選擇滿足 SGF(core(A)∪{a[ j ]})(a[ j ])>0的屬性a[ j ],判斷U/{core(A)∪{a[ j ]}} = U/A是否成立,若成立,則得到系統(tǒng)的一個(gè)約簡(jiǎn)Red(A):=Red(A)∪{a[ j ]},算法終止,輸出Red(A)#65377;
1. 3算法的復(fù)雜性
屬性約簡(jiǎn)的復(fù)雜性主要由信息系統(tǒng)的屬性數(shù)所決定#65377;計(jì)算SGFA(a[i]) 及判斷其是否大于0各需| A|次,計(jì)算一次SGFA(a[i])的時(shí)間復(fù)雜度為O(| A||U| 2),所以求核的時(shí)間復(fù)雜度為 O(| A| 2|U| 2)#65377;
按此算法求約簡(jiǎn),共需計(jì)算| A|次SGF(core(A)∪{a[ j ]})(a
[ j ]),計(jì)算一次SGF(core(A)∪{a[ j ]})(a[ j ])的時(shí)間復(fù)雜度為O(
| A||U| 2),判斷其是否大于0及判斷U/{core(A)∪{a[ j ]}} = U/ A是否成立各需計(jì)算| A|次,所以求約簡(jiǎn)的時(shí)間復(fù)雜度為O(| A| 3|U| 2)#65377;
綜上可知,此算法的最壞時(shí)間復(fù)雜度為O(| A| 3|U| 2)#65377;
2 應(yīng)用實(shí)例
目前已有學(xué)者采用粗集理論中基于分辨矩陣的屬性約簡(jiǎn)算法對(duì)企業(yè)競(jìng)爭(zhēng)力評(píng)價(jià)指標(biāo)進(jìn)行優(yōu)化研究[6],為了說明改進(jìn)算法的有效性和可操作性,本文仍以文獻(xiàn)[6]中的實(shí)例為研究對(duì)象,選擇6家來自國(guó)內(nèi)外的大型石油企業(yè)的2004年度報(bào)表數(shù)據(jù),為節(jié)省篇幅,本文將原始數(shù)據(jù)表中的規(guī)模實(shí)力的8項(xiàng)子指標(biāo)(表1)作為研究對(duì)象進(jìn)行系統(tǒng)優(yōu)化#65377;
設(shè)石油企業(yè)集U={中石化, 中石油, 中海油, BP, EXXON, SHELL},簡(jiǎn)記為U={u1,u2,u3,u4,u5,u6},指標(biāo)集合A={總資產(chǎn), 石油儲(chǔ)量, 天然氣儲(chǔ)量, 原油產(chǎn)量, 天然氣產(chǎn)量, 煉油能力, 乙烯能力, 加油站數(shù)},簡(jiǎn)記為A={a1,a2,a3,a4,a5,a6,a7,a8},按以上算法對(duì)系統(tǒng)進(jìn)行處理:
step1對(duì)原始數(shù)據(jù)表按文獻(xiàn)[5]中的方法進(jìn)行離散化處理,剔除冗余屬性,得系統(tǒng)簡(jiǎn)化表2,故A={a1,a2,a3,a4,a5,a6}#65377;為計(jì)算方便,可列出對(duì)象U按指標(biāo)屬性的粒化表,表3為按屬性集A及其去除單個(gè)屬性后對(duì)系統(tǒng)進(jìn)行粒化后的結(jié)果#65377;
step2計(jì)算屬性集A的核core(A)#65377;
通過?;?,知U/A= {{1},{2},{3},{4},{5},{6}},G(A)=1/6,D(A)=5/6,U/(A-{a1})= {{1},{2},{3},{4},{5},{6}},G(A-{a1})=1/6,D(A-{a1})=5/6,所以SFGA(a1)=0,同理計(jì)算得SGFA(a2)=14/15,SGFA(a3)=0,SGFA(a5)=0,SGFA(a6)=14/15,所以core(A)={ a2,a6}#65377;
step3計(jì)算屬性集A的一個(gè)約簡(jiǎn)#65377;
按上述方法計(jì)算SGF (a1)=3/14,又U/{core(A){a1}}=U/{a1,a2,a6}={{1},{2},{3},{4},{5},{6}}=U/A,所以Red(A)=core(A)∪{a1}={a1,a2,a6},得到屬性集A的一個(gè)約簡(jiǎn)R1={a1,a2,a6},其實(shí)一個(gè)信息系統(tǒng)的約簡(jiǎn)可能有多個(gè),經(jīng)計(jì)算,本例R2={a3,a2,a6}與R3={a5,a2,a6}均為屬性集A的一個(gè)約簡(jiǎn),不妨取R1={a1,a2,a6}為規(guī)模實(shí)力的衡量指標(biāo),這與文獻(xiàn)[6]計(jì)算結(jié)果一致,說明了該算法的有效性#65377;
3 結(jié)束語(yǔ)
本文從信息粒度的角度出發(fā),對(duì)信息系統(tǒng)中的屬性重要度進(jìn)行度量,提出一種基于信息粒度屬性約簡(jiǎn)的改進(jìn)算法,并將該算法應(yīng)用于企業(yè)競(jìng)爭(zhēng)力評(píng)價(jià)指標(biāo)的約簡(jiǎn)#65377;本文的創(chuàng)新點(diǎn)在于:文獻(xiàn)[6]的算法隨著問題規(guī)模增大,用于存放分辨矩陣的空間和算法執(zhí)行時(shí)間的開銷都很大,本文所提出的改進(jìn)算法則無(wú)需存放矩陣,減少了算法的計(jì)算量,能實(shí)現(xiàn)評(píng)價(jià)指標(biāo)體系快速#65380;有效約簡(jiǎn)#65377;
主要參考文獻(xiàn)
[1] 周輝,魯燕飛,等. 基于知識(shí)粒度的屬性權(quán)重方法[J]. 統(tǒng)計(jì)與決策,2006(10).
[2] 何國(guó)建,陶宏才. 一種基于粗集理論的屬性約簡(jiǎn)改進(jìn)算法[J]. 計(jì)算機(jī)應(yīng)用,2004(11).
[3] 耿志強(qiáng),朱群雄,李芳. 知識(shí)粗糙性的粒度原理及其約簡(jiǎn)[J]. 系統(tǒng)工程與電子技術(shù),2004(8).
[4] 苗奪謙,范世棟. 知識(shí)的粒度計(jì)算及其應(yīng)用[J]. 系統(tǒng)工程理論與實(shí)踐,2002(1).
[5] 劉清. Rough集及Rough推理[M]. 北京:科學(xué)出版社,2001.
[6] 張立凡,李東. 基于屬性約簡(jiǎn)的石油企業(yè)競(jìng)爭(zhēng)力指標(biāo)體系構(gòu)建[J]. 工業(yè)技術(shù)經(jīng)濟(jì),2006(10).
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”