靖鯤鵬,宋之杰
(燕山大學(xué)經(jīng)濟(jì)管理學(xué)院,河北秦皇島066004)
基于屬性偏序結(jié)構(gòu)圖的文本型災(zāi)情多元信息可視化*
靖鯤鵬,宋之杰
(燕山大學(xué)經(jīng)濟(jì)管理學(xué)院,河北秦皇島066004)
在處理和分析文本型災(zāi)情多元信息時(shí),由于傳統(tǒng)概念格層次結(jié)構(gòu)不夠清晰,不利于對(duì)其進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)以支持決策。應(yīng)用形式概念分析理論,在分層概念格建格算法的基礎(chǔ)上,通過(guò)形式背景行列交換原理,對(duì)形式背景進(jìn)行優(yōu)化,提出了屬性偏序結(jié)構(gòu)圖表示方法。該方法可以實(shí)現(xiàn)層次化的屬性聚類(lèi),便于分析概念構(gòu)成,達(dá)到分層遞階可視化的效果,實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)和多元海量數(shù)據(jù)的信息融合。應(yīng)用該方法,繪制了中國(guó)1995-1999年農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖。結(jié)果表明,該方法清晰、直觀(guān),可用于支持文本型災(zāi)情信息的分析和趨勢(shì)判斷。
可視化;災(zāi)情信息;文本型數(shù)據(jù);屬性偏序結(jié)構(gòu)圖
無(wú)論是應(yīng)急中的實(shí)時(shí)動(dòng)態(tài)信息,還是事后的靜態(tài)統(tǒng)計(jì)分析,文本型數(shù)據(jù)都是應(yīng)急管理中災(zāi)情信息的主要表現(xiàn)形式。如:在應(yīng)急管理工作各階段,不同應(yīng)急部門(mén)報(bào)送的統(tǒng)計(jì)數(shù)據(jù)、報(bào)表、人員傷亡、財(cái)產(chǎn)損失等。2002-2008年每年發(fā)表于《安全與環(huán)境學(xué)報(bào)》的系列論文“我國(guó)事故與災(zāi)害狀況綜述”,以及從2009年開(kāi)始《中國(guó)減災(zāi)》雜志每月發(fā)布的“全國(guó)災(zāi)情月報(bào)”等,都以文本數(shù)據(jù)(或多屬性數(shù)據(jù)集)的形式對(duì)我國(guó)災(zāi)情做了較為全面、準(zhǔn)確的統(tǒng)計(jì)和分析。
文本型數(shù)據(jù)主要包含多維數(shù)據(jù)(multi-dimension data)和多元數(shù)據(jù)(multi-variate data)。對(duì)于多屬性數(shù)據(jù)集,相互完全獨(dú)立的屬性被稱(chēng)作“維度”(dimension),相關(guān)的屬性被稱(chēng)為“變?cè)保╲ariate)。由于屬性間的相關(guān)性往往難以明確判斷,因此多維數(shù)據(jù)和多元數(shù)據(jù)經(jīng)常被稱(chēng)為多維多元(multi-dimensionalmulti-variate,mdmv)數(shù)據(jù)。本文將其統(tǒng)稱(chēng)為“多元”數(shù)據(jù)。
災(zāi)情信息通常為多屬性數(shù)據(jù)集,可以表示成矩陣形式。若所要研究的多元數(shù)據(jù)樣本數(shù)為n,每個(gè)樣本的變量數(shù)為m,整個(gè)多元數(shù)據(jù)可以表示為n行m列的數(shù)據(jù)矩陣X(n×m)。矩陣中的元素為xij,其中i=1,2,…,n;j=1,2,…,m。
這種以表格或矩陣形式表示的文本型數(shù)據(jù)具有簡(jiǎn)單、清晰的優(yōu)點(diǎn),可以進(jìn)行基本的統(tǒng)計(jì)分析。但由于災(zāi)情信息具有海量、多源、異構(gòu)、時(shí)變等特征,使得數(shù)據(jù)處理比較棘手。特別是在多個(gè)時(shí)間段、多個(gè)空間上比較分析災(zāi)情狀況,進(jìn)行應(yīng)急決策時(shí),這種文本型的數(shù)據(jù)不便于對(duì)災(zāi)情進(jìn)行整體把握。
可視化方法是幫助人們“立刻理解”大量數(shù)據(jù)和信息的有效手段。Gaynor認(rèn)為危機(jī)中,人們?cè)谥X(jué)時(shí)間感知壓力下所做出的決策必須對(duì)動(dòng)態(tài)的不確定狀態(tài)做出反應(yīng)[1]。也就是說(shuō),管理者必須獲取實(shí)時(shí)的環(huán)境數(shù)據(jù),能夠“立刻理解”這些數(shù)據(jù)并采取適當(dāng)?shù)男袆?dòng)。災(zāi)情信息可視化在本質(zhì)上是一種數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)過(guò)程,高效地挖掘出對(duì)決策有用的信息,避免“大數(shù)據(jù)時(shí)代知識(shí)貧乏”的現(xiàn)象。在諸多知識(shí)發(fā)現(xiàn)方法中,形式概念分析(Formal Concept Analysis,F(xiàn)CA)表現(xiàn)出較大的潛力,并被認(rèn)為是一種有力的知識(shí)分析和知識(shí)發(fā)現(xiàn)工具。
Wille教授基于“概念是由外延和內(nèi)涵組成的思想單元”這一哲學(xué)理解,在Brikhoff對(duì)格理論(lattice theory)貢獻(xiàn)的基礎(chǔ)上,于1982年首先引入了概念格(concept lattice)并將其作為一種數(shù)學(xué)理論,從數(shù)學(xué)的角度描述了哲學(xué)范疇的“概念”,奠定了形式概念分析的理論基礎(chǔ)。該理論對(duì)“概念”進(jìn)行了形式化描述:外延是由概念所覆蓋的對(duì)象構(gòu)成的集合,內(nèi)涵是由概念的所有對(duì)象的共有屬性構(gòu)成的集合。這種描述符合人們對(duì)世界從感性到抽象的認(rèn)知規(guī)律。
形式概念分析主要研究“概念”和“概念分層”的數(shù)學(xué)化描述,其主要實(shí)現(xiàn)是:基于對(duì)象和屬性間的關(guān)系,構(gòu)建形式背景(formal context);從被表示為形式背景的數(shù)據(jù)中,定義對(duì)象與屬性的統(tǒng)一體,獲取形式概念(formal concept);通過(guò)形式概念之間的對(duì)象包含關(guān)系(或者屬性間的包含關(guān)系),定義偏序關(guān)系,建立以形式概念為元素的層次結(jié)構(gòu)——概念格。全部概念與概念間的例化(特化)和泛化關(guān)系組合形成概念格結(jié)構(gòu)[2]。因此,形式概念分析又叫概念格理論,是一種用數(shù)學(xué)的形式化語(yǔ)言來(lái)反映人形成概念的過(guò)程的集合理論模型,用來(lái)研究特定領(lǐng)域可能存在的概念的幾何結(jié)構(gòu)、概念格形式[3]。
作為形式概念分析的核心數(shù)據(jù)結(jié)構(gòu),概念格可以顯示對(duì)象與特征之間的聯(lián)系,表明概念之間的泛化與例化關(guān)系。使用hasse圖實(shí)現(xiàn)數(shù)據(jù)的可視化,為提取規(guī)則知識(shí)提供了一個(gè)很好的平臺(tái),適合用來(lái)發(fā)現(xiàn)數(shù)據(jù)中潛在的概念和規(guī)則型知識(shí)。
自1982年提出形式概念分析后,有較多的論文和著作詳細(xì)地介紹了形式概念分析[4-7]。概念格可以用來(lái)作為知識(shí)表示和可視化表示的獨(dú)特而強(qiáng)大的手段[8]。形式概念分析提供了一個(gè)表示概念定義的語(yǔ)義基礎(chǔ),已經(jīng)被應(yīng)用到知識(shí)表示領(lǐng)域,比如:本體構(gòu)建[9-10],本體映射和合并[11-12]。與許多其他知識(shí)表示形式化比較,本體(Ontology)和形式概念分析方法都是旨在建?!案拍睢?。文獻(xiàn)[13]中討論了如何將這兩個(gè)形式化方法互補(bǔ)推動(dòng)建模概念研究。形式概念分析可以用來(lái)支持本體工程,以及利用本體可以在形式概念分析得到應(yīng)用。形式概念分析作為一個(gè)學(xué)習(xí)技術(shù)可以支持構(gòu)建、分析本體,本體可以被利用改善形式概念分析的應(yīng)用。
形式概念分析是一種無(wú)監(jiān)督的學(xué)習(xí)概念聚類(lèi)技術(shù),可用于詞匯數(shù)據(jù)庫(kù)和分類(lèi)建模[14-15]。文獻(xiàn)[16]中引入了冰山概念格的概念,并應(yīng)用到數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)。冰山格設(shè)計(jì)的目的是分析非常大的數(shù)據(jù)庫(kù),從一個(gè)已知的關(guān)聯(lián)規(guī)則挖掘中得到常見(jiàn)的模式。
形式概念分析也可用來(lái)表示和處理領(lǐng)域背景知識(shí),比如:病人病案的說(shuō)明,解釋治療的決定與治療規(guī)則的表示[17]。
文獻(xiàn)[18]中提出了基于形式概念分析的信息系統(tǒng)模型驗(yàn)證的方法學(xué)。研究證明形式概念分析對(duì)于理解概念模型拓?fù)涫怯杏玫?,并且它能夠用?lái)改善概念模型的結(jié)構(gòu)。
通常,形式背景可以用二維表格來(lái)表示。在許多應(yīng)用場(chǎng)合,對(duì)象和屬性的關(guān)系不是二進(jìn)制關(guān)系,而是多值關(guān)系,多值的形式背景通過(guò)概念標(biāo)度(conceptual scaling)的方法轉(zhuǎn)換到單值形式背景[19]。
針對(duì)二維表形式的文本型形式背景(Textual Formal Concept,TFC),文獻(xiàn)[20]中提出了一種文本型形式背景的約簡(jiǎn)方法TFC-Reducing,采用信息損失熵和語(yǔ)義覆蓋度評(píng)價(jià)背景約簡(jiǎn)。
使用形式概念分析從數(shù)據(jù)中獲取概念與其他基于統(tǒng)計(jì)的傳統(tǒng)數(shù)據(jù)分析方法不同,形式概念分析用概念表示數(shù)據(jù)分析結(jié)果,用概念格顯示知識(shí)視圖。概念格已成為近年來(lái)獲得飛速發(fā)展的數(shù)據(jù)分析的有力工具。目前,形式概念分析已被廣泛研究并應(yīng)用到模式識(shí)別、機(jī)器學(xué)習(xí)、軟件工程、信息檢索、專(zhuān)家系統(tǒng)、決策分析等領(lǐng)域[21]。
但是,在處理和分析文本型災(zāi)情多元信息時(shí),傳統(tǒng)概念格層次結(jié)構(gòu)不夠清晰,不利于對(duì)其進(jìn)行數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)以支持決策。本文借助形式概念分析這一描述概念和概念層次的數(shù)學(xué)模型,通過(guò)對(duì)形式背景進(jìn)行優(yōu)化,提出概念格改進(jìn)算法——屬性偏序圖。以災(zāi)情多元數(shù)據(jù)為形式背景,通過(guò)將多值形式背景轉(zhuǎn)化為單值形式背景,繪制相應(yīng)的屬性偏序結(jié)構(gòu)圖,實(shí)現(xiàn)災(zāi)情多元數(shù)據(jù)的可視化表達(dá),以支持災(zāi)情分析和應(yīng)急管理。
1.1 形式背景的分層遞階概念格表示
根據(jù)形式概念分析的基本原理,可以通過(guò)形式背景的概念格,畫(huà)出相應(yīng)的hasse圖,實(shí)現(xiàn)形式背景的分層遞階表示[19,21-22]。
利用文獻(xiàn)[22]中提出的分層建格算法,對(duì)形式概念分析中著名的“生物和水”形式背景(表1)進(jìn)行分析,可以得到相應(yīng)的概念格(圖1)。但是,這種概念格存在線(xiàn)條交叉、層次結(jié)構(gòu)不夠清晰的不足之處,不利于海量多元數(shù)據(jù)的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)。
圖1 生物和水形式背景的分層概念格
為了更好地構(gòu)建能夠處理以多元數(shù)據(jù)為形式背景的分層遞階概念格,本文通過(guò)對(duì)初始形式背景進(jìn)行優(yōu)化,提出概念格的改進(jìn)算法——基于形式背景行列交換原理的屬性偏序結(jié)構(gòu)圖。該方法可對(duì)形式背景進(jìn)行分層遞階可視化表示,具有較顯著層次關(guān)系結(jié)構(gòu)。
1.2 概念格的改進(jìn)算法——屬性偏序結(jié)構(gòu)圖
基于形式背景行列交換原理的屬性偏序結(jié)構(gòu)圖表示方法,是通過(guò)形式背景行列交換原理將多元海量數(shù)據(jù)描述成分層遞階結(jié)構(gòu),對(duì)形式背景進(jìn)行分層優(yōu)化,借助屬性偏序結(jié)構(gòu)圖這一特殊的格生成方法,實(shí)現(xiàn)分層優(yōu)化形式背景的可視化。
表1 生物和水形式背景
一個(gè)形式背景K=(O,A,R),其中O是對(duì)象的集合,A是屬性的集合,R是O和A之間的一個(gè)二元關(guān)系,并且具有(O1,O2,O3,…,Oi,…,Om)對(duì)象排列次序,(A1,A2,A3,…,Aj,…,An)屬性排列次序。如果aij為屬性值,且aij∈A。則當(dāng)對(duì)象Oi具有屬性Aj時(shí),aij=1;否則aij=0。形式背景K=(O,A,R)轉(zhuǎn)換為分層形式背景Ky0=(O,A,R)的充分必要條件:具有新的對(duì)象排列次序(O′1,O′2,O′3,…,O′m)和新的屬性排列次序(A′1,A2,A′3,…,A′n)。
新的對(duì)象排列次序和屬性排列次序可以由下面的方法確定。
(1)求出屬性值求和最大值所對(duì)應(yīng)的列。即:
(2)將屬性列的第一列與amj對(duì)應(yīng)的第j列進(jìn)行交換,得到一個(gè)新的屬性排列次序:(A′1,A′2,A′3,…,A′j,…,A′n)。
(3)再做行交換。使得屬性值ai1=1從a11開(kāi)始連續(xù)排列,得到一個(gè)新的對(duì)象排列次序O′1,O′2,O′3,…,O′i,…,O′m)。
為了定義形式背景的層次結(jié)構(gòu),在這里介紹子背景和不相交(互斥)子背景的概念。
定義1[19]如果K=(O,A,R)是一個(gè)形式背景,而且H∈O,N∈A。則
就是K=(O,A,R)的子背景。
定義2[19]設(shè)形式背景K=(O,A,R)有兩個(gè)子背景:K1=(O1,A1,R1)和K2=(O2,A2,R2)。
如果K=(O1∪O2,A1∪A2,R1∪R2),那么K1=(O1,A1,R1)和K2=(O2,A2,R2)是不相交(互斥)的背景。
由上面兩個(gè)定義,我們可以將分層形式背景Ky0=(O,A,R)拆分成兩個(gè)不相交(互斥)子背景K1=(O1,A1,R1)和K2=(O2,A2,R2)。
其中K1=(O1,A1,R1)為屬性值ai1=1對(duì)應(yīng)的背景部分,K2=(O2,A2,R2)為屬性值ai1=0對(duì)應(yīng)的背景部分。
對(duì)這兩個(gè)形式背景做如下變換:
(1)對(duì)子背景K2=(O2,A2,R2)(不含第一列)的列重新排序,確保a12=1,并且那些a1j=1的列連續(xù)地排在新序列的前面。同時(shí),子背景K1=(O1,A1,R1)的對(duì)應(yīng)列的排列順序也做同樣的變換。
(2)子背景K1=(O1,A1,R1)的行重新排序,使得同一屬性aij=1。
(3)變換后得到新的形式背景Ky1=(O,A,R),并且具有新的對(duì)象排列次序O″1,O″2,O″3,…,O″i,…,O″m)和新的屬性排列次序A″1,A″2,A″3,…,A″j,…,A″n)。注意Ky0=(O,A,R)和Ky1=(O,A,R)的第一個(gè)屬性是相同的。
進(jìn)行第二次分層變換后,再重復(fù)上面的變換,直到屬性值求和最小。整個(gè)分層優(yōu)化過(guò)程完成。
從數(shù)學(xué)意義上看,該分層過(guò)程實(shí)質(zhì)是根據(jù)屬性集合的普遍性對(duì)集合A進(jìn)行子集劃分。其目的是使普遍性高的子族外延的并包含普遍性低的子集成員的外延。
該過(guò)程的數(shù)學(xué)描述為:設(shè)形式背景中的屬性集合A={A1,A2,…,Am},Ai表示形式背景中的第i個(gè)屬性。定義屬性Ai的度為:
式中:Degree(Ai)的值表示屬性Ai的普遍性大小。Degree(Ai)的值越大,表示在當(dāng)前形式背景下屬性Ai越具有普遍性;該值越小,表示屬性Ai越具有特異性。但直接的Degree(Ai)=‖A′i‖0計(jì)算并未考慮集合間的包含關(guān)系,因此需要進(jìn)行修正。
設(shè)Degree(Ai)的集合為D,D={‖A′i‖0|i=1,2,…,m}={0,1,2,…,d|d∈N}。根據(jù)集合論,必有d≤Degree(A)且d≤Degree(O)。
可得:屬性數(shù)為 j的對(duì)象集合是 Dj={A′i│‖A′i‖0=j(luò),i=1,2,…,m},屬性數(shù)為j的屬性集合是MDj={Ai│‖A′i‖0=j(luò),i=1,2,…,m}。
比較相鄰兩個(gè)對(duì)象集合Dj和Dj-1(j>0),遍歷Ai?MDj-1,如果
說(shuō)明對(duì)于當(dāng)前Ai?MDj-1,Dj中所有元素的并包含Dj-1中所有元素的并,不需要進(jìn)行修正。否則,令‖A′i‖0=j(luò),更新Dj和MDj,再次執(zhí)行修正操作,直至滿(mǎn)足(式3)或‖A′i‖0=d。
表2 分層優(yōu)化后的生物和水形式背景
表1所示為未經(jīng)分層優(yōu)化的形式背景。利用上面提出的形式背景優(yōu)化的分層方法,處理表1中生物和水的形式背景。因?yàn)楸?中形式背景較為簡(jiǎn)單,只需將對(duì)象4和對(duì)象6做行交換即可,得到分層優(yōu)化后的生物和水形式背景(表2)。依據(jù)表2形式背景,可以做出生物和水關(guān)系的屬性偏序結(jié)構(gòu)圖(圖2)。
圖2 形式背景分層優(yōu)化后的生物和水屬性偏序結(jié)構(gòu)圖
比較表1和表2,可以看到:優(yōu)化后的形式背景是嚴(yán)格分層表示的。比較圖1和圖2,可以得到以下結(jié)論:基于形式背景分層優(yōu)化方法,生成的屬性偏序結(jié)構(gòu)圖可視化表達(dá),其層次關(guān)系圖表示簡(jiǎn)練,并且無(wú)交叉連線(xiàn),類(lèi)別意義清楚,層次關(guān)系鮮明。具有某一屬性對(duì)象的聚類(lèi)表示,有助于挖掘知識(shí)體系。適合應(yīng)用于對(duì)復(fù)雜系統(tǒng)多元海量數(shù)據(jù)進(jìn)行分層遞階化的可視化信息融合研究。
但是,需要指出的是:盡管基于形式背景分層優(yōu)化原理構(gòu)造的屬性偏序結(jié)構(gòu)圖與概念格相似,但屬性偏序結(jié)構(gòu)圖不是形式概念分析理論中的概念格。依據(jù)形式概念分析理論將屬性偏序結(jié)構(gòu)圖與概念格做一個(gè)簡(jiǎn)要比較,可知:從層次描述角度看,概念格是概念層次描述;而屬性偏序結(jié)構(gòu)圖是由形式背景特定屬性不為零的數(shù)目決定層次,由形式背景特定對(duì)象不為零的屬性數(shù)目決定層次層級(jí),是概念關(guān)系描述。形式背景的概念格唯一,形式背景的屬性偏序結(jié)構(gòu)圖不唯一。
2.1 基本概念
(1)農(nóng)作物受災(zāi)面積:是指年內(nèi)因遭受旱災(zāi)、水災(zāi)、風(fēng)雹災(zāi)、霜凍、病蟲(chóng)害及其他自然災(zāi)害,使農(nóng)作物較正常年景產(chǎn)量減產(chǎn)10%以上的農(nóng)作物播種面積。受災(zāi)面積不得重復(fù)計(jì)算,在同一塊土地上如先后遭受幾種或幾次災(zāi)害,只按其受災(zāi)最大最重的一次計(jì)算受災(zāi)面積。
(2)成災(zāi)面積:是指在遭受上述自然災(zāi)害的受災(zāi)面積中,農(nóng)作物實(shí)際收獲量較常年產(chǎn)量減少30%以上的播種面積。
(3)絕收面積:是指在遭受上述自然災(zāi)害的受災(zāi)面積中,農(nóng)作物實(shí)際收獲量較常年產(chǎn)量減少70%以上的播種面積。
2.2 分級(jí)標(biāo)準(zhǔn)的基礎(chǔ)
根據(jù)《自然災(zāi)害風(fēng)險(xiǎn)分級(jí)辦法》[23],自然災(zāi)害風(fēng)險(xiǎn)
式中:R為自然災(zāi)害風(fēng)險(xiǎn);P為自然災(zāi)害風(fēng)險(xiǎn)事件發(fā)生的可能性;C為自然災(zāi)害風(fēng)險(xiǎn)事件產(chǎn)生的后果。
可能性P和后果C都劃分為4個(gè)等級(jí):1為“極高”;2為“高”;3為“中”;4為“低”。
在《自然災(zāi)害風(fēng)險(xiǎn)分級(jí)辦法》中提出分級(jí)原則具有“可擴(kuò)展性”,即該辦法的分級(jí)指標(biāo)可以依據(jù)實(shí)際需要進(jìn)行調(diào)整。
在《自然災(zāi)害風(fēng)險(xiǎn)分級(jí)辦法》的附錄“洪水災(zāi)害風(fēng)險(xiǎn)事件風(fēng)險(xiǎn)等級(jí)劃分示例”中,根據(jù)后果指標(biāo)中“需政府救助人數(shù)占農(nóng)牧業(yè)人口的比率或人數(shù)(%或萬(wàn))”,將后果劃分為4個(gè)等級(jí):1級(jí)為>30%;2級(jí)為26%~30%;3級(jí)為21%~25%;4級(jí)為15%~20%。
2.3 屬性劃分標(biāo)準(zhǔn)
根據(jù)“農(nóng)作物受災(zāi)和成災(zāi)面積”原始數(shù)據(jù)表(國(guó)家統(tǒng)計(jì)局網(wǎng)站,作者整理),計(jì)算相關(guān)指標(biāo)。
SZ=受災(zāi)面積/播種總面積:表示受災(zāi)面積占總播種面積的百分比。
SH=旱災(zāi)受災(zāi)面積/受災(zāi)面積:表示旱災(zāi)受災(zāi)面積占受災(zāi)面積的百分比。
SS=水災(zāi)受災(zāi)面積/受災(zāi)面積:表示水災(zāi)受災(zāi)面積占受災(zāi)面積的百分比。
SF=風(fēng)雹災(zāi)受災(zāi)面積/受災(zāi)面積:表示風(fēng)雹災(zāi)受災(zāi)面積占受災(zāi)面積的百分比。
SD=霜凍災(zāi)受災(zāi)面積/受災(zāi)面積:表示霜凍災(zāi)受災(zāi)面積占受災(zāi)面積的百分比。
CZ=成災(zāi)面積/受災(zāi)面積:表示成災(zāi)面積占受災(zāi)面積的百分比。
CH=旱災(zāi)成災(zāi)面積/成災(zāi)面積:表示旱災(zāi)成災(zāi)面積占成災(zāi)面積的百分比。
CS=水災(zāi)成災(zāi)面積/成災(zāi)面積:表示水災(zāi)成災(zāi)面積占成災(zāi)面積的百分比。
CF=風(fēng)雹災(zāi)成災(zāi)面積/成災(zāi)面積:表示風(fēng)雹災(zāi)成災(zāi)面積占成災(zāi)面積的百分比。
CD=霜凍災(zāi)成災(zāi)面積/成災(zāi)面積:表示霜凍災(zāi)成災(zāi)面積占成災(zāi)面積的百分比。
可以得到:1995-1999年全國(guó)和30個(gè)省農(nóng)作物受災(zāi)和成災(zāi)面積指標(biāo)計(jì)算結(jié)果。
結(jié)合指標(biāo)計(jì)算結(jié)果,根據(jù)“可擴(kuò)展性”原則,對(duì)“洪水災(zāi)害風(fēng)險(xiǎn)事件等級(jí)劃分”中災(zāi)害后果等級(jí)劃分指標(biāo)進(jìn)行調(diào)整,制定“農(nóng)作物受災(zāi)和成災(zāi)情況”形式背景屬性的劃分標(biāo)準(zhǔn)如下:1級(jí)為>50%;2級(jí)為31%~50%;3級(jí)為26%~30%;4級(jí)為21%~25%;5級(jí)為15%~20%;6級(jí)為<15%。
將“農(nóng)作物受災(zāi)和成災(zāi)”中的每個(gè)指標(biāo)(共10個(gè)),都劃分為6個(gè)等級(jí),用于衡量農(nóng)作物受災(zāi)或成災(zāi)的總體嚴(yán)重性,或某一種災(zāi)害(旱災(zāi)、水災(zāi)、風(fēng)雹、霜凍)對(duì)受災(zāi)或成災(zāi)影響的嚴(yán)重性。如:SZ1為“受災(zāi)面積/播種總面積”>50%;CZ2為“成災(zāi)面積/受災(zāi)面積”在31%~50%;SF4為“風(fēng)雹災(zāi)受災(zāi)面積/受災(zāi)面積”在21%~25%。
2.4 建立形式背景
以“1995-1999年全國(guó)農(nóng)作物受災(zāi)和成災(zāi)面積”為例,形式背景(部分)如表3所示。
2.5 生成屬性偏序結(jié)構(gòu)圖
根據(jù)全國(guó)1995-1999年農(nóng)作物受災(zāi)和成災(zāi)面積的形式背景,可得到該形式背景的屬性偏序結(jié)構(gòu)圖;同理可得到陜西省1995-1999年農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖(圖3)。
2.6 分析屬性偏序結(jié)構(gòu)圖
從圖3所示的屬性偏序圖中,可以看到某一對(duì)象所具有的所有屬性集合。如在圖3(a)中,對(duì)象O1的屬性集合為:
{a2,a24,a54,a60,a30,a7,a31,a37,a47,a16}。即1997年全國(guó)農(nóng)作物受災(zāi)和成災(zāi)情況對(duì)應(yīng)的指標(biāo)為:
圖3 全國(guó)和陜西省1995-1999年農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖
同理,對(duì)象O3的屬性集合為:
{a2,a24,a54,a60,a30,a7,a31,a37,a47,a16}。即1995年全國(guó)農(nóng)作物受災(zāi)和成災(zāi)情況對(duì)應(yīng)的指標(biāo)為:
在這兩年農(nóng)作物受災(zāi)和成災(zāi)10個(gè)指標(biāo)中,前6個(gè)指標(biāo)和對(duì)應(yīng)級(jí)別均相同;后4個(gè)指標(biāo)相同,級(jí)別有所差別??煽闯觯?995年和1997年災(zāi)情相近;1995年旱災(zāi)成災(zāi)較弱,水災(zāi)受災(zāi)和成災(zāi)都較1997年嚴(yán)重;1995年農(nóng)作物總體成災(zāi)情況比1997年低。
根據(jù)圖3(a),可以看出:
(1)全國(guó)1995-1999年間,每年農(nóng)作物受災(zāi)總體情況均處于2級(jí)水平(SZ2),即受災(zāi)面積占農(nóng)作物播種面積的百分比為30%~50%。
(2)1997年和1999年災(zāi)情最為嚴(yán)重(CZ、SH和CH均處于1級(jí)),即總體成災(zāi)面積、旱災(zāi)受災(zāi)面積和旱災(zāi)成災(zāi)面積均高于50%。這兩年的水災(zāi)受災(zāi)面積(SS)處于中等偏下水平,1999年(SS5)相對(duì)于1997年(SS4)低了1個(gè)級(jí)別,即水災(zāi)受災(zāi)面積從1997年的21%~25%降低到15%~20%。
(3)1996年和1998年災(zāi)情相似,其中CZ、SS、CS均處于2級(jí),即這兩年中水災(zāi)是造成農(nóng)作物受災(zāi)和成災(zāi)的主要因素,且災(zāi)害損失較為嚴(yán)重,處于31%~50%之間。但1996年旱災(zāi)比1998年較為嚴(yán)重,旱災(zāi)造成的受災(zāi)面積和成災(zāi)面積都高。(4)1995年旱災(zāi)和水災(zāi)同時(shí)存在,水災(zāi)受災(zāi)面積(SS3)中等偏上,處于26%~30%。旱災(zāi)和水災(zāi)造成的農(nóng)作物成災(zāi)面積較大(CH2、CS2),均處于31%~50%,總體成災(zāi)損失嚴(yán)重(CZ2)。
表3 1995-1999年全國(guó)農(nóng)作物受災(zāi)和成災(zāi)面積的形式背景(部分)
根據(jù)圖3(b),可以看出:
(1)陜西省1995-1999年間,農(nóng)作物受災(zāi)和成災(zāi)主要是由旱災(zāi)引起(SH1、CH1),每年的旱災(zāi)受災(zāi)面積超過(guò)農(nóng)作物播種面積的50%,旱災(zāi)成災(zāi)面積超過(guò)受災(zāi)面積的50%。
(2)5年間,陜西省由風(fēng)雹災(zāi)和霜凍災(zāi)造成的農(nóng)作物損失很少,均低于15%。
(3)在1995年、1997年和1999年,受災(zāi)和成災(zāi)情況均處于最高級(jí)別(SZ1、CZ1);1996年和1998年,由于雨量相對(duì)較多,水災(zāi)造成了一定的損失(SS3、CS2),但也緩解了一定的旱情,使得這兩年的受災(zāi)和成災(zāi)情況有所降低(SZ2、CZ2),受災(zāi)和成災(zāi)面積處于31%~50%。
以同樣的方法,可以得到:全國(guó)30個(gè)省份1995-1999年農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖、1995-1999年各年度30個(gè)省農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖。
以1995年30個(gè)省農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖(部分)為例(圖4)。(限于篇幅,其余的屬性偏序圖本處省略)??梢愿鶕?jù)圖4分析1995年各省農(nóng)作物受災(zāi)和成災(zāi)情況的特征。
同理,可以根據(jù)以上的方法,分析全國(guó)各省在1995-1999年的農(nóng)作物受災(zāi)和成災(zāi)情況。也可以按年度對(duì)全國(guó)30個(gè)省的農(nóng)作物受災(zāi)和成災(zāi)情況進(jìn)行分析。
圖4 1995年30個(gè)省農(nóng)作物受災(zāi)和成災(zāi)情況的屬性偏序結(jié)構(gòu)圖(部分)
在文本型災(zāi)情多元信息分析和可視化中,將形式概念分析理論、知識(shí)庫(kù)、數(shù)據(jù)庫(kù)等相結(jié)合,從海量數(shù)據(jù)中抽取有用信息和知識(shí),是切實(shí)可行并且是有意義的。該方法的主要優(yōu)點(diǎn)在于:可以將災(zāi)情多元海量數(shù)據(jù)庫(kù)中的表面或隱含數(shù)據(jù),通過(guò)圖示化,完整地表現(xiàn)出這些數(shù)據(jù)和知識(shí)之間的內(nèi)在邏輯和組織結(jié)構(gòu),從而為分析數(shù)據(jù)之間的關(guān)聯(lián)信息提供系統(tǒng)的可視化工具。
但是,在建立形式背景時(shí),需要根據(jù)指標(biāo)計(jì)算值確定屬性劃分標(biāo)準(zhǔn),進(jìn)而將多值背景轉(zhuǎn)換為單值形式背景。這種屬性劃分的標(biāo)準(zhǔn),還需要經(jīng)過(guò)相關(guān)主管部門(mén)確認(rèn),以便該方法具有更好的指導(dǎo)性。
[1] Gaynor M,Seltzer M,Moulton S,etal.A Dynamic,data-driv-en,decision support systemfor emergency medical services[M]//Computational Science-ICCS 2005,Lecture Notes in Computer Science.Berlin,Heidelberg:Springer,2005,3515:703-711.
[2] 康向平.基于形式概念分析理論的知識(shí)獲取模型研究[D].太原:山西大學(xué),2012.
[3] 錢(qián)杰.基于形式概念分析的本體構(gòu)建與映射方法研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2006.
[4] GanterB,WilleR,F(xiàn)ranzke C.Formal concept analysis:Mathematical foundations[M].New York:Springer-Verlag,1997.
[5] Kalfoglou Y,Dasmahapatra S,Chen-Burger Y H.FCA in Knowledge Technologies:Experiences and Opportunities[M]//Concept Lattices.Berlin,Heidelberg:Springer,2004:252-260.
[6] Diaz-Agudo B,Gonzalez-Calero PA.Formal conceptanalysis as a support technique for CBR[J].Knowledge-Based System,2001,14(3):163-171.
[7] Priss U.Formal concept analysis in information science[J].Annual Review of Information Science and Technology,2006,40:521-543.
[8] Jiang GQ,PathakJ,Chute CG.Formalizing ICD coding rulesusing formal concept analysis[J].Journal of Biomedical Informatics,2009,42(3):504-517.
[9] Schoening J.IEEE P1600.1:Standard Upper Ontology Working Group(SUOWG)[EB/OL].(2003-12-28)[2013-11-12].http://suo.ieee.org/.
[10]Jiang G,Ogasawara K,Endoh A,etal.Context-based Ontology Building Support in Clinical Domains Using Formal Concept Analysis[J].International Journal of Medical Informatics,2003,71(1):71-81.
[11]Kalfoglou Y,Schorlemmer M.IF-Map:An ontology-mapping method based on information-flow theory[M]//Journal on Data Semantics I.Berlin,Heidelberg:Springer,2003:98-127.
[12]Stumme G,Maedche A.FCA-Merge:Bottom-up merging of ontologies[C]//International Joint Conference on Artificial Intelligence.Lawrence Erlbaum Associates LTD.,2001,17(1):225-234.
[13]Cimiano P,Hotho A,Stumme G,et al.Conceptual knowledge processing with formal conceptanalysisand ontologies[M]//Concept Lattices.Berlin Heidelberg:Springer,2004:189-207.
[14]Priss U,Old LJ.Modelling lexical databaseswith formal concept analysis[J].Journal of Universal Computer Science,2004,10(8):967-984.
[15]Priss U.Formalizing Botanical Taxonomies[M]//Conceptual Structures for Knowledge Creation and Communication.Berlin Heidelberg:Springer,2003:309-322.
[16]Stumme G.Efficient datamining based on formal conceptanalysis[C]//Database andExpertSystem Applications.Berlin Heidelberg:Springer,2002:534-546.
[17]Schnabel M.Representing and processing medical knowledge using formal conceptanalysis[J].Methodsof Information in Medicine,2002,41(2):160-167.
[18]Laukaitis A,Vasilecas O,Plikynas D.Formal concept analysis for business information systems[J].Information Technology and Control,2008,37(1):33-37.
[19]馬垣,曾子維,遲呈英,等.形式概念及其新進(jìn)展[M].北京:科學(xué)出版社,2010.
[20]楊小平,何偉,孫亞琳,等.TFC-Reducing:一種基于屬性語(yǔ)義距離和規(guī)則的文本型形式背景約簡(jiǎn)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2012,33(10):2170-2176.
[21]許研.基于FCA的信息檢索模型研究及應(yīng)用[D].開(kāi)封:河南大學(xué),2007.
[22]潘躍建.基于FCA面向多數(shù)據(jù)源的領(lǐng)域本體創(chuàng)建方法研究[D].南京:南京航空航天大學(xué),2010.
[23]中華人民共和國(guó)民政部.MZ/T031-2012自然災(zāi)害風(fēng)險(xiǎn)分級(jí)方法[EB/OL].[2013-11-05].http://files.mca.gov.cn/yunnan/201209/20120901201208905.pdf.
Textual Disaster M ultivariate Information Visualization based on Attribute Partial Orderstructure Diagram
Jing Kunpeng and Song Zhijie
(Economic and Management College,Yanshan University,Qinhuangdao 066004,China)
An hierarchy of traditional concept lattice is not clear in processing and analyzingmultivariate information about textual disaster.This is not conducive to carry on datamining and knowledge discovery to support decision making.It is proposed that the representationmethod of attribute partial order structure diagram by applying the ranks exchange principle of formal context to optimize formal context.Themethod has advantage in analyzing some concepts and hierarchical attribute clustering.It can realize knowledge discovery,hierarchical information visualization and information fusion of huge amounts ofmultivariate data.Themethod was applied to draw multiple attribute partial order structure diagrams of the national crop disaster and inundated area during 1995-1999. The results show that this approach is clear,intuitive,and supportiveto information analysis and trend judgment of textual disaster information.
visualization;information on disastrous situation;text-data;attribute partial orderstructure diagram
C934;X915.5;X43
A
1000-811X(2014)03-0057-07
10.3969/j.issn.1000-811X.2014.03.012
靖鯤鵬,宋之杰.基于屬性偏序結(jié)構(gòu)圖的文本型災(zāi)情多元信息可視化[J].災(zāi)害學(xué),2014,29(3):57-63.[Jing Kunpeng,Song Zhijie.Textual disastermultivariate information visualization based on attribute partial orderstructure diagram[J].Journal of Catastrophology,2014,29(3):57-63.]*
2013-09-24 修回日期:2013-11-11
國(guó)家自然科學(xué)基金項(xiàng)目(70871101);燕山大學(xué)博士基金項(xiàng)目(B804)
靖鯤鵬(1977-),男,陜西西安人,副教授,博士,主要從事應(yīng)急管理、信息可視化研究.E-mail:jkp@ysu.edu.cn