楊紅軍
(長春工業(yè)大學(xué)圖書館,吉林長春 130012)
信息資源挖掘是圖書館信息數(shù)據(jù)系統(tǒng)的應(yīng)用與開發(fā)。早在20世紀(jì)末,信息情報部門就意識到信息系統(tǒng)中的信息量積累越來越大,以致造成信息量爆炸的危險,尤其進(jìn)入信息時代,這個問題更為突出。如何解決信息系統(tǒng)中信息不斷膨脹的問題,不僅是圖書館信息系統(tǒng)本身的研究課題,也是相關(guān)部門學(xué)科研究方向。
文中運用數(shù)據(jù)約簡方法來證明這一課題,信息系統(tǒng)約簡主要是使信息量減少,它將一些無關(guān)或多余的信息丟掉而不影響其原有功能,可以設(shè)想將約簡后的信息情報重新組合而產(chǎn)生新的決策規(guī)則,它可能不同于約簡前的任何一條規(guī)則,但它們能經(jīng)推理而得到相同或相近的結(jié)果[1]。
一個信息系統(tǒng)是一個對S=(U,A),其中U是一個非空、有窮、被稱為全域的個體集合,A是非空、有窮的屬性集合,即對于屬性a∈A,有a:U→Va,其中Va被稱做屬性a的值集;集合V=∪a∈AVa被說成是屬性集A的值區(qū)域。如果S=(U,A),則 S′=(U′,A′)使得U?U′,A′= {a:a∈A},對u∈U,a′(u)=a(u),并且對a∈A,有Va=Va′,則稱S′為S的一個U′-擴(kuò)充,S被稱做S′的子系統(tǒng);如果S=(U,A),使得A?B的S′=(U,B)將被認(rèn)為是S的一個B-擴(kuò)充[2-3]。
例1,設(shè)全域U={u1,u2,u3,u4,u5},并設(shè)屬性A={a,b,c,d,e},此外,置Va={0,1,2},Vb= {0,1},Vc={1,2},Vd={1,2},Ve={0,1,2},則S =(U,A)是信息系統(tǒng)的一個例,見表1。
表1 一個信息系統(tǒng)的例子
一般說來,在一個給定的系統(tǒng)中,不能利用系統(tǒng)的屬性區(qū)別全體單個個體,也就是說,不同的個體關(guān)于考慮的屬性可以有相同的值。因此,任意屬性集可以將U分成類,這些類建立了全體個體集U上的劃分。其定義方法如下:
給定一個信息系統(tǒng)S=(U,A),任一子集B?A,加上被稱為不分明關(guān)系的二元關(guān)系IND(B):
注意:IND(B)是一個等價關(guān)系,并且IND(B)=∩a∈BIND({a})。如果uIND(B)u′,則稱個體u和u′關(guān)于B中的屬性是不可分明的,換句話說,就是不能用B中的屬性來區(qū)別u和u′。
任一個信息系統(tǒng)S=(U,A)確定一個信息函數(shù):
其中,V=∪a∈AVa,它是由 INfA(u)= {(a,a(u)):a∈A}定義的集合;P(X)表示X的冪集,用INF(S)表示信息函數(shù)的集合:因此,uIND(A)u′當(dāng)且僅當(dāng) INfA(u)= INfA(u′)。有時,信息函數(shù)的值將被表示為向量的形式(v1,v2,…,vk),vi∈Va,對i=1,2,…,k均成立。m=|A|為屬性集A的基數(shù),這些向量被稱作信息向量。
設(shè)S=(U,A)是一個信息系統(tǒng),其中A= {a1,a2,…,am},對(a,v)被稱為原子,a∈A,v∈V,(a,v)也可寫成a=v或av,它被定義在A×V上。A×V上的基是包含原子(a,v)的最小集,并且關(guān)于經(jīng)典命題聯(lián)結(jié)詞(~,∨,∧)的運算是封閉的。S上的項τ的語義是|τ|s或簡記成|τ|,它被歸納定義如下:
兩個項τ和τ′是等價的,τ→→τ′,當(dāng)且僅當(dāng)|τ|=|τ′|。
特別有:
設(shè)S(U,A)是一個信息系統(tǒng),又設(shè)C,D?A是屬性集A的兩個子集,分別稱C和D為A的條件屬性和決策屬性,如此S被寫成T=(U,A,C,D),是一個決策表。
定義1 函數(shù)dX:A→V,使得dX(a)=a(x),其中a∈A,X?U,x?U,稱dX是T上的一條決策規(guī)則。若a∈C?A,則記dX|C是決策規(guī)則的條件部分;若a∈D?A,則記dX|D是決策規(guī)則的結(jié)論部分。
定義2 如果對任一個體y≠x,dX|C=dY| C→dX|D=dY|D,稱dX是一致的,否則,dX是不一致的。
一致性決策規(guī)則說明條件值相同必須隱含著決策值相同,即決策規(guī)則完全依賴于條件值。
定義3 如果對所有的決策規(guī)則都是一致的,則它們所處的決策表T=(U,A,C,D)是一致的,否則,它們所在的決策表是非一致的。
定義4 設(shè)T=(U,A,C,D)是一個決策表,其條件屬性和決策屬性分別是C和D,稱D在T中以程度k(0≤k≤1)依賴于 C,記成C→T,KD[4]。
其中
POSC(D)是D的C-正區(qū)域。
1)若k=1,簡寫成C→TD,在這種情況下,C→TD意味著IND(C)?IND(D),在已知條件C下,可將U上全部個體分成D-基本類;
2)若0<k<1,則稱D Rough依賴于C,在已知條件C下,只能將U上那些屬于正區(qū)域的個體分成D-基本類。
3)若k=0,則稱D全不依賴于C,說明利用條件C在U上沒有元素能被分成D-基本類。
命題1 決策表T=(U,A,C,D)是一致的,當(dāng)且僅當(dāng)C→TD。
注意:該命題的結(jié)果是直截了當(dāng)?shù)?,它也提供了一個檢查決策表是否一致的方法,即如果依賴度k=1,則決策表是一致的;否則,是非一致的。
命題2 每個決策表T=(U,A,C,D)都能惟一地分解成兩個決策表T1=(U1,A,C,D)和T2=(U2,A,C,D),使得在 T1中C→T1,1D而在T2中C→T2,0D。
其中
如果一個決策表是不一致的,則根據(jù)命題2,可將其分解成兩個子表 T1和T2,其中一個是一致的,依賴度k=1;另外一個是全不一致的,其依賴度k=0。
例2,考慮非一致決策表,其中 T=(U,A,C,D),C={a,b,c},D={d,e}。A= C∪D,分別稱C和D為條件屬性集和決策屬性集,見表2。
表2 非一致決策表
根據(jù)命題2,可將表2的T=(U,A,C,D)分解為一致決策表T1=(U1,A,C,D)和全不一致決策表T2=(U2,A,C,D),分別見表3和表4[5]。
表3 一致決策表(T1=(U1,A,C,D))
表4 全不一致決策表(T2=(U2,A,C,D))
決策表的簡化一般有屬性約簡(等價于從決策表中消去一些不必要的列)和屬性值約簡(等價于從決策表中消去一些無關(guān)緊要的屬性值)[1]。
定義5 從信息系統(tǒng)的決策表中,將屬性集A中的屬性逐個移去,每移去一個屬性即刻檢查其決策表,如果不出現(xiàn)新的不一致,則該屬性可被約去;否則,該屬性不能被約去,稱這種方法為屬性約簡的數(shù)據(jù)分析方法。
例3,T=(U,A,C,D),其中,C={a,b,c},D ={d,e}(A=C∪D)分別稱為條件屬性集和決策屬性集,見表5。
表5 一致決策表
它們的規(guī)則如下:
顯然表5是一致性決策表,因為其中每條規(guī)則都是一致的。為了計算條件屬性的約簡,我們就一致表和非一致表分別討論。
對一致表約簡,可逐個移去條件屬性并即刻檢查決策表是否一致[6]。
從表5移去屬性a∈A,得到的決策表也是一致的,見表6。
表6 一致決策表(移去屬性a)
從表5移去屬性b得到的決策表也是一致的,見表7。
表7 一致決策表(移去屬性b)
從表5移去屬性c,得到不一致決策表,見表8。
表8 不一致決策表(移去屬性c)
因為第2條規(guī)則a2b1→d1e0和第3條規(guī)則a2b1→d0e2,根據(jù)定義2,它們是矛盾的;同理,第4條規(guī)則和第5條規(guī)則也是不一致的。因此c是條件屬性集{a,b,c}中的核,而a和b都可被約去,由此得到兩個約簡(分別見表6和表7)[7]:
對非一致決策表,其計算約簡可用類似于一致決策表的方法,也就是逐個移去屬性并檢查決策表是否出現(xiàn)新的不一致。如果產(chǎn)生新的不一致決策規(guī)則,則該屬性是核,不能被約去;否則,不是屬性集的核,可以被約去。形式地,?a∈C,如果POSC(D)=POS(C-|a|)(D),其中,C和D分別為條件屬性和決策屬性集,則屬性a是條件屬性集C中可被約去的;否則,a是C中的核,不能被約去。
定義6 設(shè)B?C,如果對?a∈B都是不可被約去的,則B關(guān)于D是獨立的;而任意C′?B都是關(guān)于D相關(guān)的,所以B稱為D-約簡;全體不可被約去的屬性集被稱為核集。
例如,不一致決策表8,其條件屬性集C= {a,b}和決策屬性集D={d,e}。在該決策表中惟一一條一致決策規(guī)則是第1條a1b0→d1e1,因此,該決策的正區(qū)域由一條規(guī)則組成。
為了計算屬性a和b是否是可被約去,移去每個屬性并檢查該正區(qū)域是否會被改變。如果會被改變,則該屬性不能被約去;如果不會被改變,則該屬性可能被約去[8]。
對表8移去a,得到不改變正區(qū)域決策表,見表9。
表9 不改變正區(qū)域決策表
表9與表8有相同的正區(qū)域。
從表8中移去b,得到改變正區(qū)域決策表,見表10。
表10改變了表8中的正區(qū)域,使得它所有決策規(guī)則都不一致,即正區(qū)域為空。b是核,其約簡是惟一一個RED(C,D)={,{d,e}},也就是說,經(jīng)約簡后的決策表是表9的形式,至此,對圖書館信息數(shù)據(jù)庫約簡推理論證這種簡化查找信息的方法可以避免生成多余的中間環(huán)節(jié),無疑也節(jié)省了存儲空間,故在時間上得到了節(jié)省。
表10 改變正區(qū)域決策表
[1] 于海濤.Rough集理論在數(shù)據(jù)約簡中的應(yīng)用[J].安徽教育學(xué)院學(xué)報,2004(5):21-23.
[2] 姚健.圖書館信息化探識[J].中國圖書館學(xué)報,1995,21(3):63-68.
[3] 宋恩梅.信息資源管理研究的多重視角極其共同體的形成[J].中國圖書館學(xué)報,2007(5):64.
[4] 霍紅梅,楊達(dá).信息管理研究的制度分析方法[J].現(xiàn)代情報,2007(11):26-28,31.
[5] 楊啟帆,李哲寧,王聚豐,等.數(shù)學(xué)建模例集[M].北京:高等教育出版社,2006.
[6] 謝兆鴻,范正森,王艮遠(yuǎn).數(shù)學(xué)建模技術(shù)[M].北京:水利電力出版社,2003.
[7] 李志林,歐宜貴.數(shù)學(xué)建模及典型案例分析[M].北京:化學(xué)工業(yè)出版社,2006.
[8] 袁新生,邵大宏.在數(shù)學(xué)建模中的應(yīng)用[M].北京:科學(xué)出版社,2007.