儲(chǔ)傳鑫,王麗珍,周麗華,李旭陽(yáng)
云南大學(xué)信息學(xué)院,昆明650500
惡性腫瘤是危害人類健康的重要疾病之一,在腫瘤的治愈率上,目前發(fā)達(dá)國(guó)家已達(dá)65%,而我國(guó)僅有25%左右。我國(guó)居民腫瘤治愈率遠(yuǎn)低于發(fā)達(dá)國(guó)家。面對(duì)腫瘤,防治結(jié)合是基本思路,雖然腫瘤并非不治之癥,但面對(duì)我國(guó)幅員遼闊,人口眾多,醫(yī)療基礎(chǔ)設(shè)施不完善的基本國(guó)情,大多數(shù)腫瘤患者往往無(wú)法及時(shí)得到相應(yīng)的治療,通過(guò)在“治”上下功夫以求降低腫瘤致死率的想法尚不現(xiàn)實(shí),而在計(jì)算機(jī)數(shù)據(jù)處理技術(shù)磅礴發(fā)展的今天,應(yīng)用新興技術(shù),使得從“防”上降低腫瘤發(fā)病率已經(jīng)成為可能。
想從“防”上降低腫瘤發(fā)病率,首先就必須了解人類致癌的因素。人類致癌的因素有很多,包括先天的基因遺傳、物理因素(如多種電離輻射、紫外線等)、化學(xué)因素(來(lái)自生活、生產(chǎn)的各種化學(xué)物質(zhì))、病毒感染、細(xì)菌感染等。如今,在國(guó)家工業(yè)化建設(shè)的大背景下,各種各樣的工廠在人們生活的鄰近區(qū)域內(nèi)建立起來(lái),其在推進(jìn)經(jīng)濟(jì)高速發(fā)展的同時(shí),也排放出了工業(yè)污染,這與我國(guó)日益增長(zhǎng)腫瘤發(fā)病率有潛在的聯(lián)系。
數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的、并有潛在價(jià)值的信息的非平凡過(guò)程。目前,利用數(shù)據(jù)挖掘技術(shù)挖掘疾病與潛在致病因素的聯(lián)系方面已有一些研究成果,如:文獻(xiàn)[1]利用粗糙處理先天性神經(jīng)缺陷(neural tube defects,NTD)疾病數(shù)據(jù),從海量的潛在致病因素中挖掘出了相關(guān)度較高的因素,但其用“有”“無(wú)”來(lái)衡量一個(gè)村莊的患病情況,不能反映一個(gè)村莊的患病的嚴(yán)重程度。文獻(xiàn)[2]在粗糙理論的基礎(chǔ)上,使用了模糊化的方法衡量每一個(gè)村莊患病的嚴(yán)重程度,利用模糊粗糙集技術(shù)處理NTD數(shù)據(jù),取得了長(zhǎng)足的進(jìn)步。文獻(xiàn)[3]則利用子組挖掘和統(tǒng)計(jì)檢驗(yàn)的方法處理乳腺癌病患數(shù)據(jù),挖掘出了一些有價(jià)值的信息,但假設(shè)檢驗(yàn)方法一般計(jì)算復(fù)雜度較高。這些已有的研究除了各自固有的不足,還有一個(gè)共有的缺陷,就是它們都是針對(duì)一種疾病與多種致病因素關(guān)系的研究,針對(duì)多種疾病對(duì)應(yīng)多種致病因素的情況,目前還沒(méi)有發(fā)現(xiàn)相應(yīng)的研究成果,考慮到疾病之間也存在潛在的聯(lián)系,對(duì)于“多”對(duì)“多”情況下的研究是完全有必要的。
空間數(shù)據(jù)挖掘是從空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)潛藏的、有趣空間模式的過(guò)程。一個(gè)空間共存(co-location)模式是一組空間特征(對(duì)象)的集合,它們的實(shí)例在空間中頻繁地相關(guān)聯(lián),顯然,它可以用來(lái)挖掘在空間中頻繁相關(guān)聯(lián)的不同疾病的組合。因此本文基于空間共存模式挖掘技術(shù),結(jié)合模糊理論,提出了模糊共存度的概念,在數(shù)據(jù)處理階段引入聚類的方法,最終提出了一種可以同時(shí)挖掘出多種疾病與多種潛在致病因素之間模糊關(guān)系的算法,并提出了相應(yīng)的有效性度量方法,通過(guò)大量的實(shí)驗(yàn)分析,證明了算法是切實(shí)有效的。
1966年,Marinos發(fā)表模糊邏輯的研究報(bào)告,1974年,Zadeh發(fā)表模糊推理的研究報(bào)告,從此,模糊理論成了一個(gè)熱門的課題,將數(shù)據(jù)挖掘與模糊理論相結(jié)合也成為了研究熱點(diǎn)。文獻(xiàn)[4]闡述了模糊關(guān)聯(lián)規(guī)則挖掘的基本定義和一般模型,詳細(xì)介紹了一般模型的一些應(yīng)用;文獻(xiàn)[5]提出了一種基于AprioriTid方法的模糊數(shù)據(jù)挖掘算法,該算法首先將數(shù)量型數(shù)據(jù)進(jìn)行離散化,然后根據(jù)最大隸屬度原則進(jìn)行過(guò)濾,大大減少了挖掘時(shí)間;文獻(xiàn)[6]提出了一種基于概率原理的不確定數(shù)據(jù)的表示方法,對(duì)于由于數(shù)據(jù)的不確定性所造成的一個(gè)模糊項(xiàng)對(duì)應(yīng)多個(gè)支持度的問(wèn)題,論文首次提出用支持度的均值來(lái)衡量模糊模式是否頻繁,而模糊模式的頻繁程度則用方差來(lái)描述;文獻(xiàn)[7]提出了一種新的子組發(fā)現(xiàn)方法,利用動(dòng)態(tài)規(guī)劃算法發(fā)現(xiàn)模糊子組,該算法證明了動(dòng)態(tài)規(guī)劃與貪婪方法相結(jié)合的有效性,還展示了如何使用模糊邏輯來(lái)處理連續(xù)屬性并生成高質(zhì)量的模糊子組。
在空間模式挖掘與模糊理論相結(jié)合的研究中,也有一些研究成果。文獻(xiàn)[8]研究了針對(duì)模糊對(duì)象的空間co-location模式挖掘問(wèn)題,提出了兩種新的挖掘方法SCP(single co-location pattern mining)和RCP(range co-location pattern mining),為了提高SCP方法挖掘的效率,對(duì)基本挖掘算法進(jìn)行了優(yōu)化,加快了co-location模式的生成,為了提高RCP的挖掘性能,提出了有效的剪枝策略來(lái)減少搜索空間,并通過(guò)大量的實(shí)驗(yàn)驗(yàn)證了所提算法和優(yōu)化技術(shù)的有效性;文獻(xiàn)[9-10]將模糊理論和聚類算法相結(jié)合,研究了空間co-location模式挖掘中的模糊挖掘技術(shù),在對(duì)鄰近度進(jìn)行度量時(shí)引入了模糊的方法,提出了特征間的鄰近度度量函數(shù),利用模糊聚類的方法挖掘co-location模式。
文獻(xiàn)[9-10]利用了模糊的挖掘方法,挖掘到了比傳統(tǒng)方法更加豐富的信息,但得不到模糊的結(jié)果,文獻(xiàn)[8]針對(duì)模糊對(duì)象進(jìn)行挖掘,能得到模糊的結(jié)果,但其以“點(diǎn)”作為模糊對(duì)象,在衡量實(shí)例之間的影響時(shí)只考慮了鄰近關(guān)系,這不符合絕大部分的應(yīng)用場(chǎng)景,如,在衡量污染源對(duì)腫瘤的影響時(shí),考慮到污染源會(huì)隨空氣、水流傳播,污染源對(duì)腫瘤的影響絕不是簡(jiǎn)單的鄰近關(guān)系。本文以區(qū)域?yàn)槟:龑?duì)象,在衡量腫瘤對(duì)腫瘤的影響時(shí)使用鄰近關(guān)系,在衡量污染源對(duì)腫瘤的影響時(shí)則考慮了用區(qū)域劃分影響范圍,采用了決策表提取規(guī)則的方法,挖掘得到的信息比以往的研究都更加豐富。
首先,本文想要挖掘惡性腫瘤與各種工業(yè)污染源之間的潛在聯(lián)系。在這里,將腫瘤疾病的患病情況叫作決策屬性D,工業(yè)污染源信息叫作條件屬性C,條件屬性與決策屬性之間必定是空間相依的。例如,在化學(xué)需氧量(chemical oxygen demand,COD:以化學(xué)方法測(cè)量水中需要被氧化還原的物質(zhì)的量)污染源附近出現(xiàn)了甲狀腺腫瘤,但這種簡(jiǎn)單的“有”和“無(wú)”遠(yuǎn)遠(yuǎn)不能反映工業(yè)污染對(duì)腫瘤疾病的影響程度。為此,擬將條件屬性、決策屬性及它們之間的影響關(guān)系等進(jìn)行模糊度量,同時(shí),通過(guò)對(duì)研究區(qū)域的適當(dāng)分區(qū),分別基于真實(shí)數(shù)據(jù)計(jì)算各區(qū)域的患病率(用模糊值度量)和污染源的嚴(yán)重程度(也用模糊值度量),最后推導(dǎo)出腫瘤疾病患病率與工業(yè)污染之間的模糊關(guān)系。例如,模糊關(guān)系“COD排放量高→甲狀腺腫瘤的患病率高(置信度=0.7)”。
基于上述基本思想,提出的挖掘框架如圖1所示。輸入的數(shù)據(jù)信息包括:(1)病患基本信息(決策屬性),包括所患腫瘤、編號(hào)(患腫瘤的具體病例)和住址的經(jīng)緯度信息,如(肺部惡性腫瘤,1(表示第一個(gè)病例),100.365,23.569 8);(2)工業(yè)污染源數(shù)據(jù)信息(條件屬性),包括污染源主要排放的污染物以及排放地經(jīng)緯度坐標(biāo)信息,如(氨氮化合物,102.984 56,24.357 9)。首先,采用基于現(xiàn)有的行政區(qū)劃的Voronoi圖劃分方法,對(duì)獲取的數(shù)據(jù)進(jìn)行區(qū)域劃分,因?yàn)檎務(wù)撃硞€(gè)人時(shí)是以“是哪里人”,而不是以經(jīng)緯度進(jìn)行描述,行政區(qū)劃較好地劃分了人們的生活空間。得到劃分的區(qū)域后,就可以將腫瘤病患按區(qū)域進(jìn)行分組,同時(shí)挖掘分區(qū)模糊共存模式,這樣得到了各個(gè)區(qū)域的頻繁共存的腫瘤疾病類型及其嚴(yán)重程度,結(jié)果形成了目標(biāo)決策屬性。對(duì)于條件屬性(圖1左列),基于工業(yè)污染源數(shù)據(jù)信息的區(qū)域劃分結(jié)果,統(tǒng)計(jì)每個(gè)分區(qū)的污染源,采用聚類技術(shù)得到區(qū)域受各種類型污染的嚴(yán)重程度,形成模糊條件屬性。最后,基于得到的模糊決策屬性和模糊條件屬性,采用決策表方法提取惡性腫瘤與工業(yè)污染源之間的模糊關(guān)系。
Fig.1 Basic framework of algorithm圖1 算法基本框架
空間特征(對(duì)象)代表了空間中不同種類的事物。空間特征集代表空間中不同種類事物的集合,記作F={f1,f2,…,fn}。把空間特征在一個(gè)具體空間位置上的出現(xiàn)稱為空間實(shí)例。將實(shí)例的集合稱為實(shí)例集,為了區(qū)別不同實(shí)例,給每個(gè)實(shí)例一個(gè)唯一的編號(hào),于是一個(gè)空間實(shí)例信息通常包括<實(shí)例所屬特征,實(shí)例編號(hào),空間位置>。在本文中,將腫瘤疾病的類型看作特征,具體的一個(gè)腫瘤病患看作一個(gè)實(shí)例,特征集F={白血病,頭頸癌,…,血液肉瘤},總共26種腫瘤疾病,將這26種疾病分別用26個(gè)英文大寫(xiě)字母表示,特征A的實(shí)例集{A1,A2,…,As}即為患腫瘤A的所有病患的集合。如圖2是腫瘤疾病A、B、C和D的實(shí)例分布示意圖。
Fig.2 Example distribution of tumor diseases A,B,C and D圖2 腫瘤疾病A、B、C和D的實(shí)例分布示意圖
空間鄰近關(guān)系描述了空間實(shí)例之間的一種空間關(guān)系??臻g鄰近關(guān)系可以是空間拓?fù)潢P(guān)系(相連、相交等)、距離關(guān)系(如歐幾里德距離)等??臻g鄰近關(guān)系需要滿足自反性和對(duì)稱性。
若定義一個(gè)空間鄰近關(guān)系R為歐幾里德距離小于等于用戶給定的閾值d,那么兩個(gè)實(shí)例滿足R時(shí)即可表示為:
R(A3,B3)?(distance(A3,B3)≤d)
當(dāng)兩個(gè)空間實(shí)例滿足鄰近關(guān)系R時(shí),稱這兩個(gè)實(shí)例為R鄰近,在實(shí)例分布圖中用線段將它們連接起來(lái),如圖2所示。
在本文中,當(dāng)兩個(gè)腫瘤病患實(shí)例滿足R鄰近關(guān)系時(shí),稱這兩個(gè)病患為R鄰近,其中距離閾值d一般視具體應(yīng)用由用戶設(shè)定(閾值d的討論見(jiàn)第6章)。
若存在空間實(shí)例集I={I1,I2,…,Im},如果有{R(Ij,Ik)|1 ≤j≤m,1 ≤k≤m},則稱I是一個(gè)團(tuán)。團(tuán)在帶鄰近關(guān)系的實(shí)例分布中表現(xiàn)為一個(gè)完全連通的子圖。如圖2中,{A3,B3,C1,D1}就是一個(gè)團(tuán)。
一個(gè)co-location模式是一組空間特征的子集c,即c∈F。
一個(gè)co-location模式c的長(zhǎng)度稱為此co-location模式的階,即co-location模式里空間特征的個(gè)數(shù),記作size(c)=|c|。例如size({A,B,C})=3。
如果一個(gè)團(tuán)I′中包含co-location模式c中的所有特征,并且I′中沒(méi)有一個(gè)子集可以包含c中的所有特征,那么I′被稱為co-location模式c的一個(gè)行實(shí)例,co-location模式c所有行實(shí)例的集合稱為表實(shí)例。如圖2中,團(tuán){A2,B4,C2}是co-location模式{A,B,C}的一個(gè)行實(shí)例,co-location模式{A,B,C}的表實(shí)例table_instance({A,B,C})={{A2,B4,C2},{A3,B3,C1}}。
在co-location模式挖掘中使用參與度[11]度量一個(gè)co-location模式的頻繁(有趣)程度,在介紹參與度之前,先要引入?yún)⑴c率的概念。
設(shè)fi為某個(gè)空間特征,fi在k階co-location模式c={f1,f2,…,fk}中的參與率表示為PR(c,fi),它是fi的實(shí)例在空間co-location模式c的表實(shí)例中不重復(fù)出現(xiàn)的個(gè)數(shù)與fi總實(shí)例個(gè)數(shù)的比率。如式(1):
其中,π是關(guān)系的投影操作。
例1如圖2,特征A有4個(gè)實(shí)例,特征B有5個(gè)實(shí)例,特征C有3個(gè)實(shí)例,特征D有2個(gè)實(shí)例,對(duì)于colocation模式{A,B,C},其表實(shí)例有{A2,B4,C2}和{A3,B3,C1},A的實(shí)例只有2個(gè)出現(xiàn)在表實(shí)例中,因此PR(c,A)=0.5,同理,PR(c,B)=0.4,PR(c,C)=0.667。
Co-location模式c={f1,f2,…,fk}的參與度表示為PI(c),它是co-location模式c的所有空間特征PR值的最小值。如式(2):
例2如圖2,c={A,B,C},PI(c)=min{PR(c,A),PR(c,B),PR(c,C)}=0.4。
通常,由用戶給定一個(gè)最小參與度(最小頻繁性)閾值min_prev,當(dāng)PI(c)≥min_prev時(shí),就稱co-location模式c是頻繁的,c中特征的實(shí)例在空間中頻繁相關(guān)聯(lián)。
在本文中,將腫瘤疾病的類型看作特征,單個(gè)出現(xiàn)的腫瘤病患看作實(shí)例,則可以得到腫瘤疾病的頻繁co-location模式,它表示在空間中頻繁相關(guān)聯(lián)的腫瘤疾病的組合。例如,{A,B,C}是一組疾病的頻繁colocation模式,則表示A、B和C三種腫瘤疾病在空間中頻繁共存。
針對(duì)本文的目標(biāo),得到頻繁的co-location模式不足以表現(xiàn)腫瘤疾病共存的程度,因此提出模糊共存度的概念。
定義1(模糊共存度)對(duì)于一個(gè)頻繁co-location模式c,用戶自定義的閾值為p1、p2(min_prev<p1<p2),其模糊共存度μ(c)如式(3)所示:
頻繁co-location模式是通過(guò)參與度PI值度量的,一個(gè)模式c的參與度PI(c)大于等于最小參與度閾值時(shí),稱模式c為頻繁co-location模式。從參與度的定義可以看出,參與度就是該模式在空間中共存的程度的一種度量,參與度值越大,共存的概率越高;相反,則共存的概率越低。因此,通過(guò)參與度值的范圍具體劃分了共存的程度,得到一種模糊co-location模式。
例3如圖2,當(dāng)頻繁性閾值min_prev為0.3時(shí),規(guī)定co-location模式c的PI值大于等于0.7時(shí),μ(c)為H(高度共存);大于等于0.5但小于0.7時(shí),μ(c)為M(中度共存);其余則為L(zhǎng)(低度共存)。在如圖2的例子中,PI({A,B,C})=0.4,因此模式{A,B,C}為一個(gè)低度共存的co-location模式,表示為{A,B,C}.L,PI({A,C})=0.75,co-location模式{A,C}是一個(gè)高度共存的co-location模式,表示為{A,C}.H。
傳統(tǒng)的co-location模式挖掘得到的頻繁co-location模式,只能反映一個(gè)模式是否頻繁出現(xiàn),而對(duì)于其頻繁的程度一無(wú)所知,這導(dǎo)致頻繁co-location模式無(wú)法反映腫瘤疾病的共存程度,而使用模糊共存度就可以做到。將腫瘤疾病的類型看作特征,單個(gè)出現(xiàn)的腫瘤病患看作實(shí)例時(shí),模糊共存度H、M、L就可以用來(lái)表示共存腫瘤疾病的共存程度,若是從某一區(qū)域挖掘到的模糊co-location模式,則這種模糊度量可以反映該區(qū)域同時(shí)患這些疾病的廣泛程度,如某一區(qū)域的co-location模式{A,B,C}的模糊共存度為H,則A、B、C三種疾病在該區(qū)域以很高的概率扎堆出現(xiàn)。
空間co-location模式的挖掘算法有很多,可以將其分為基于最小參與率的挖掘算法、基于最大參與率的挖掘算法和復(fù)雜模式挖掘算法三類。其中基于最小參與率的算法由于最小參與率概念的自然和向下閉合等性質(zhì)被廣泛研究,包括:(1)基于全連接的join-based算法[12],join-based算法在特征數(shù)較多和實(shí)例分布稠密時(shí)連接操作的開(kāi)銷很大;(2)partial-join算法[13],是一種基于部分連接的挖掘算法,其核心思想是空間實(shí)例的劃分,目的是減少連接操作的計(jì)算量;(3)join-less算法[14],一種基于星型鄰居擴(kuò)展的無(wú)連接算法,在稠密型數(shù)據(jù)中,效率比join-based高。鑒于本文的腫瘤疾病數(shù)據(jù)在挖掘之前已進(jìn)行了區(qū)域劃分,腫瘤病患實(shí)例分布的稠密度也相當(dāng)高,因此選擇join-less算法進(jìn)行相應(yīng)的空間co-location模式挖掘。
經(jīng)過(guò)區(qū)域劃分的各個(gè)區(qū)域的工業(yè)污染情況作為條件屬性,條件屬性的模糊化,就是要將每個(gè)區(qū)域,按其工業(yè)污染的嚴(yán)重程度,劃分為不同的類(高、中、低)。一般能得到的數(shù)據(jù)包括污染源的位置和污染類型(重金屬、COD等)。首先需要得到每個(gè)區(qū)域初步的污染情況,即統(tǒng)計(jì)各個(gè)區(qū)域所擁有的不同類型的污染源的數(shù)量。例如,區(qū)域1:COD為2,NOx為2,SO2為1等。在初步得到各個(gè)區(qū)域的污染情況后,進(jìn)行污染情況的模糊化處理,模糊化即分類,聚類分析是很好的選擇。
聚類分析根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息,將數(shù)據(jù)對(duì)象分組。其目標(biāo)是,組內(nèi)對(duì)象相互之間是相似的,而不同組對(duì)象之間是不同的。這十分適合本文對(duì)于污染源數(shù)據(jù)信息的處理要求。
聚類也分不同的類型。劃分聚類簡(jiǎn)單地將數(shù)據(jù)對(duì)象劃分為不同的子集,如果允許簇存在子簇,就可以得到一個(gè)層次聚類;將每個(gè)對(duì)象指派到單個(gè)簇,則每個(gè)簇都是互斥的,一個(gè)對(duì)象只能屬于一個(gè)簇,在某些情況下,一個(gè)對(duì)象可以屬于多個(gè)簇,這種情況則可以使用非互斥聚類方法。
針對(duì)已經(jīng)事先知道了聚類的簇?cái)?shù)以及污染數(shù)據(jù)劃分的、互斥的屬性,經(jīng)典的K-means聚類算法是一種很好的方法,但K-means聚類算法的結(jié)果易受隨機(jī)選擇的初始聚類中心的影響,這對(duì)挖掘的結(jié)果造成了很大的不確定性。在使用多種改進(jìn)型K-means聚類算法對(duì)污染數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析后發(fā)現(xiàn),二分K-means算法的聚類效果最好。將二分K-means算法作為污染數(shù)據(jù)的聚類算法,污染源數(shù)據(jù)總共聚成三類,污染源數(shù)量較多的一組為“高污染源”組,污染源較少的一組為“低污染源”組,剩下一組為“中污染源”組。
現(xiàn)在,已經(jīng)得到了每個(gè)分區(qū)的決策屬性(即疾病的類型組合及其組合的共存程度)和條件屬性(即污染的嚴(yán)重程度),二者生成決策表,如圖3(a)所示。在決策表中,每一行都對(duì)應(yīng)一個(gè)區(qū)域。其中,對(duì)于相似污染情況的區(qū)域,如果所患的疾病類型的組合及其共存程度也很相似的話,提取公共規(guī)則并計(jì)算其置信度。具體定義如下:
定義2(置信度)在決策表中,區(qū)域i的決策屬性為ti,條件屬性為si,對(duì)于任意t∈D,s∈C,(s→t)的置信度計(jì)算如式(4):
定義3(規(guī)則提取)對(duì)于任意t∈D,s∈C,如果cp(s→t) 大于等于一個(gè)給定的最小置信度閾值min_conf,那么模糊規(guī)則(s→t)稱為強(qiáng)規(guī)則。
基于決策表提取模糊強(qiáng)規(guī)則的算法:
例:具體過(guò)程如圖3所示,聚類得到有5個(gè)區(qū)域條件屬性同為(COD.H,SO2.M,NOx.H),在這5個(gè)區(qū)域中,4個(gè)區(qū)域有{A,B,C}.H,2個(gè)區(qū)域有{L,M,O}.L,則:
若設(shè)min_conf=0.5,則(COD.H,SO2.M,NOx.H)→{A,B,C}.H,cp=0.8就是一條強(qiáng)規(guī)則。規(guī)則表示當(dāng)一個(gè)區(qū)域的3種污染源分別滿足COD為高污染源,SO2為中污染源和NOx為高污染源時(shí),則3種疾病A、B、C一起出現(xiàn)的概率為高,置信度為0.8。
提取出規(guī)則后,還需要一個(gè)參數(shù)衡量規(guī)則是否與客觀事實(shí)相符合,是否具有有效性。
規(guī)則反映了腫瘤實(shí)例與污染源在地理空間上是否存在高度關(guān)聯(lián),而衡量空間中的關(guān)聯(lián)性,主要有兩個(gè)指標(biāo),腫瘤實(shí)例與污染源的聚集程度及腫瘤實(shí)例與污染源的數(shù)量N。聚集程度用平均誤差平方(average of square error,ASE)度量,如式(5):
Fig.3 Rule extraction process圖3 規(guī)則提取過(guò)程
其中,Ar為區(qū)域內(nèi)規(guī)則所涉及到的腫瘤實(shí)例與污染源集合,distance是標(biāo)準(zhǔn)歐幾里德距離,Cr是Ar內(nèi)所有點(diǎn)(腫瘤實(shí)例和污染源)的質(zhì)心,由式(6)定義:
ASE越小,則說(shuō)明Ar內(nèi)腫瘤實(shí)例與污染源的聚集程度越高。除了ASE外,還需要看數(shù)量N,當(dāng)N很小時(shí),聚集程度也不能反映腫瘤疾病及污染源的關(guān)聯(lián)度。最后,綜合ASE與N,用SDC(severity of disease and contamination)同時(shí)衡量腫瘤實(shí)例和污染源的聚集程度和數(shù)量,如式(7)所示,SDC越小,則腫瘤和污染的聚集度越高,同時(shí)關(guān)聯(lián)度也越高。
反映高關(guān)聯(lián)度的規(guī)則,其SDC值必然相對(duì)較小,反之亦然。對(duì)于挖掘得到的規(guī)則,若規(guī)則所反映出來(lái)的關(guān)聯(lián)度與計(jì)算得到的SDC值相符合,則該規(guī)則就具有有效性。
實(shí)驗(yàn)數(shù)據(jù)(包括腫瘤病例數(shù)據(jù)和污染數(shù)據(jù))來(lái)自云南省一些醫(yī)院和相關(guān)部門,實(shí)驗(yàn)數(shù)據(jù)參數(shù)說(shuō)明如表1所示。以云南省縣區(qū)級(jí)行政單位的中心點(diǎn)為Voronoi圖原點(diǎn)進(jìn)行區(qū)域劃分。劃分結(jié)果如圖4所示。
Table 1 Description of experimental data parameters表1 實(shí)驗(yàn)數(shù)據(jù)參數(shù)說(shuō)明
Fig.4 Region division based on Voronoi diagram圖4 Voronoi圖區(qū)域劃分
(1)決策屬性數(shù)據(jù)
首先將腫瘤病患實(shí)例投影到Voronoi圖對(duì)應(yīng)的區(qū)域內(nèi),每個(gè)區(qū)域所擁有的腫瘤病患個(gè)數(shù)示例如表2所示。
按區(qū)域?qū)⒛[瘤病患實(shí)例分組后,接下來(lái)就可以按分區(qū)挖掘co-location模式了。對(duì)于co-location模式挖掘所需的兩個(gè)參數(shù)(參與度閾值min_prev和距離閾值d),參與度閾值需要用來(lái)度量co-location模式的共存程度,假定參與度大于等于0.6的模式為高共存模式(H),大于等于0.4小于0.6的為中共存模式(M),大于等于0.2小于0.4的為低共存模式(L)。而對(duì)于距離閾值d,根據(jù)每個(gè)區(qū)域的不同人口密度來(lái)設(shè)置不同的距離閾值,眾所周知,人口密度大的區(qū)域,其病患也相對(duì)集中,距離閾值設(shè)置應(yīng)相對(duì)較小,而人口密度小的區(qū)域,病患比較分散,其距離閾值則應(yīng)相對(duì)較大,否則就得不到人口密度小的區(qū)域的co-location模式。各區(qū)域距離閾值的具體計(jì)算如式(8)所示:
Table 2 The number of tumor instances in region表2 分區(qū)腫瘤病患實(shí)例數(shù)
其中,pi、di分別是區(qū)域i的人口密度和距離閾值,pave是所有區(qū)域平均人口密度,dave是經(jīng)過(guò)實(shí)驗(yàn)分析得到的pave情況下的最佳距離閾值。
實(shí)驗(yàn)中各個(gè)區(qū)域的人口密度和距離閾值的設(shè)置如表3所示。最后得到的各區(qū)域中共存疾病類型組合及其共存率如表4所示,大寫(xiě)字母表示腫瘤疾病的類型。
Table 3 Regional population density and distance threshold setting表3 區(qū)域人口密度及距離閾值設(shè)置
Table 4 Combination of co-location diseases and their degrees表4 共存疾病類型組合及其共存度
(2)條件屬性數(shù)據(jù)
本文所用的污染源數(shù)據(jù)來(lái)自《2016國(guó)家重點(diǎn)監(jiān)控企業(yè)名單》,從中選取了位于云南省的企業(yè),包括6種污染類型(COD、NOx、SO2、氨氮、重金屬、危險(xiǎn)廢物)。統(tǒng)計(jì)各區(qū)域的污染源類型及數(shù)量,結(jié)果如表5所示。再運(yùn)用二分K-means聚類算法分別將每種污染源類型按數(shù)量聚成3類(H,M,L),結(jié)果如表6所示。
Table 5 Types and quantities of pollution sources in each region表5 各區(qū)域污染源類型及其數(shù)量
Table 6 Types and degrees of pollution sources in each region表6 各區(qū)域污染源類型及污染程度
對(duì)表6中的數(shù)據(jù)再次進(jìn)行聚類,聚類得到的簇,其內(nèi)部所有區(qū)域的污染類型的嚴(yán)重程度都相同,這就表示簇內(nèi)區(qū)域具有相似的工業(yè)污染情況,至于相應(yīng)的患病情況如何,則需要看表4。例如,有4個(gè)地區(qū)滿足(COD.L,NOx.L,SO2.L,氨氮.L,重金屬.M,危險(xiǎn)廢物.L),其中有3個(gè)區(qū)域滿足{白血病,頭頸癌,膽部惡性腫瘤}.M,則cp((COD.L,NOx.L,SO2.L,氨氮.L,重金屬.M,危險(xiǎn)廢物.L)→{白血病,頭頸癌,膽癌}.M)=0.75。
根據(jù)所感興趣的內(nèi)容,可以從中提取出不同的規(guī)則,比如,如果想得到那些污染與高患病率之間的模糊關(guān)系,則可以得到以下規(guī)則:“(COD.L,NOx.L,SO2.L,氨氮.L,重金屬.H,危險(xiǎn)廢物.L)→{頭頸癌,腸部惡性腫瘤,多系統(tǒng)惡性腫瘤,腹部惡性腫瘤,肝部惡性腫瘤,卵巢癌,皮膚惡性腫瘤,乳腺惡性腫瘤,胸部惡性腫瘤}.H,cp=1”(記為規(guī)則1)。該規(guī)則表示重金屬污染與頭頸癌等多種疾病的關(guān)聯(lián)度為高,對(duì)應(yīng)的區(qū)域42的實(shí)例分析如圖5所示,其SDC(42)=0.000 083。
Fig.5 Tumor instances and pollution sources distribution in Region 42圖5 區(qū)域42中腫瘤實(shí)例和污染源分布圖
再看一條規(guī)則“(COD.L,NOx.M,SO2.L,氨氮.L,重金屬.L,危險(xiǎn)廢物.L)→{白血病,膽部惡性腫瘤,骨惡性腫瘤,肢體惡性腫瘤,泌尿系統(tǒng)惡性腫瘤,腦部惡性腫瘤}.M,cp=1”。該規(guī)則表示NOx污染與白血病、膽部惡性腫瘤等多種疾病的關(guān)聯(lián)度為中,對(duì)應(yīng)區(qū)域66,如圖6所示,計(jì)算得到SDC(66)=0.000 78。SDC(42)小于SDC(66),可知區(qū)域42的腫瘤實(shí)例與污染源的關(guān)聯(lián)度要比區(qū)域66高,這與得到的規(guī)則相符合,本文算法挖掘得到的結(jié)果可以反映真實(shí)世界的客觀規(guī)律。
(1)實(shí)驗(yàn)分析
實(shí)驗(yàn)采用的計(jì)算機(jī)配置:Intel?CoreTMi7-8700K CPU@3.70 GHz,16 GB內(nèi)存;操作系統(tǒng)Windows 10;開(kāi)發(fā)語(yǔ)言Python。
Fig.6 Tumor instances and pollution sources distribution in Region 66圖6 區(qū)域66中腫瘤實(shí)例和污染源分布圖
實(shí)驗(yàn)所用的模擬數(shù)據(jù)是隨機(jī)產(chǎn)生的,均勻分布在經(jīng)度97至107、緯度20至30的空間中。
接下來(lái)將分析不同參數(shù)對(duì)算法運(yùn)行時(shí)間的影響。
由于污染源在數(shù)量上與腫瘤病例相去甚遠(yuǎn),算法的時(shí)間消耗主要在腫瘤病例的共存模式挖掘中,因此主要探索腫瘤實(shí)例個(gè)數(shù)對(duì)算法運(yùn)行時(shí)間的影響,如圖7所示,隨著腫瘤實(shí)例數(shù)的增長(zhǎng),算法的運(yùn)行時(shí)間呈增加趨勢(shì)。
Fig.7 Influence of the number of instances on running time圖7 實(shí)例個(gè)數(shù)對(duì)算法運(yùn)行時(shí)間的影響
本文采用分區(qū)挖掘腫瘤的共存模式,不同區(qū)域由于人口密度的不同,距離閾值的設(shè)置也不同,通過(guò)在預(yù)先設(shè)置好的距離閾值(如表3所示)的基礎(chǔ)上增加或減小距離閾值來(lái)探索距離閾值對(duì)算法運(yùn)行時(shí)間的影響,如圖8所示。可以看出,在設(shè)置的距離閾值的范圍,算法的運(yùn)行時(shí)間變化不大,但當(dāng)距離閾值增加到一定的值時(shí),算法運(yùn)行時(shí)間開(kāi)始急劇上升。
Fig.8 Influence of d on running time圖8 距離閾值d 對(duì)算法運(yùn)行時(shí)間的影響
參與度閾值對(duì)算法運(yùn)行時(shí)間的影響如圖9所示,算法運(yùn)行時(shí)間并沒(méi)有隨著參與度閾值的變化而呈現(xiàn)出明顯的變化趨勢(shì),可以得出,算法運(yùn)行時(shí)間與參與度閾值的設(shè)置關(guān)聯(lián)不大。
Fig.9 Influence of min_prev on running time圖9 參與度閾值對(duì)算法運(yùn)行時(shí)間的影響
特征個(gè)數(shù),即所挖掘腫瘤疾病的種類個(gè)數(shù),特征個(gè)數(shù)對(duì)算法運(yùn)行時(shí)間的影響如圖10所示,特征個(gè)數(shù)對(duì)算法運(yùn)行時(shí)間的影響也不大。
(2)理論分析
本文算法主要分為三部分:co-location模式挖掘、二分K-means聚類、規(guī)則提取。下面針對(duì)這三部分進(jìn)行時(shí)間復(fù)雜度分析。
挖掘co-location模式使用了join-less算法[14],join-less算法又可分為三步:生成星型鄰居集、生成二階頻繁co-location模式及生成k(k>2)階頻繁模式。因此,用join-less算法挖掘頻繁co-location模式總的時(shí)間復(fù)雜度Tjl為:
Fig.10 Influence of the number of features on running time圖10 特征個(gè)數(shù)對(duì)算法運(yùn)行時(shí)間的影響
I為劃分區(qū)域的集合,si為隸屬于i區(qū)域的實(shí)例的集合,Tstar_neighborhoods(si)表示產(chǎn)生星型鄰居的耗費(fèi),Tjl(2)為產(chǎn)生2階co-location模式的耗費(fèi),則是生成k階模式的耗費(fèi)。
在傳統(tǒng)的co-location模式挖掘中,挖掘的實(shí)例數(shù)越大,算法的時(shí)間耗費(fèi)必然越大;當(dāng)距離閾值增加時(shí),生成的二階頻繁co-location模式的表實(shí)例數(shù)量就會(huì)增加增加,總的時(shí)間耗費(fèi)也必然增加,這與本文的實(shí)驗(yàn)結(jié)果相符合,如圖7、圖8所示。當(dāng)參與度閾值減小時(shí),生成的頻繁co-location模式數(shù)會(huì)增多,模式長(zhǎng)度也會(huì)變長(zhǎng),增加,從而造成運(yùn)行時(shí)間增加;而當(dāng)特征數(shù)增多時(shí),鄰近關(guān)系的計(jì)算量增加,Tstar_neighborhoods(si)階段的運(yùn)行時(shí)間增加,生成co-location模式的數(shù)量和階數(shù)也會(huì)增加,增加,從而導(dǎo)致整體運(yùn)行時(shí)間變長(zhǎng)。但是在本文的實(shí)驗(yàn)結(jié)果中,算法運(yùn)行時(shí)間與參與度閾值和特征個(gè)數(shù)的關(guān)系不大,如圖9和圖10所示,造成這個(gè)結(jié)果的原因是本文算法在挖掘co-location模式之前進(jìn)行了區(qū)域劃分,按分區(qū)挖掘頻繁co-location模式,總體的特征數(shù)增加,但在局部區(qū)域內(nèi)的特征個(gè)數(shù)變化不大,特征個(gè)數(shù)對(duì)算法運(yùn)行時(shí)間的影響也變小了;同樣的,在采用分區(qū)挖掘后,每次挖掘的實(shí)例數(shù)都不多,無(wú)論參與度閾值如何變化,生成的colocation模式數(shù)都較少,其長(zhǎng)度也相對(duì)較短,對(duì)總的運(yùn)行時(shí)間的影響微乎其微。
二分K-means算法的時(shí)間復(fù)雜度是適度的,只要簇個(gè)數(shù)|V|顯著小于點(diǎn)數(shù)m,則K-means算法的時(shí)間與m線性相關(guān),所需時(shí)間為O(J×|V|×m×n),其中J是收斂所需的迭代次數(shù),在用聚類的方法對(duì)污染源數(shù)據(jù)進(jìn)行模糊化時(shí),屬性n為1,m為區(qū)域數(shù),聚類生成的簇?cái)?shù)|V|為3,因此所需時(shí)間為O(J×m)。
在進(jìn)行規(guī)則提取時(shí),首先進(jìn)行聚類,聚類的屬性個(gè)數(shù)即為污染類型的個(gè)數(shù),所需時(shí)間為O(J×|V|×m×n),接下來(lái)遍歷聚類得到的每一個(gè)簇,統(tǒng)計(jì)簇內(nèi)相同的決策屬性,計(jì)算置信度。最終,規(guī)則提取總的時(shí)間復(fù)雜度Trule為:
其中,V為聚類生成簇的集合,m為區(qū)域數(shù),n為污染源的類型數(shù),Tsc(v)為統(tǒng)計(jì)每個(gè)簇相同的決策屬性所需的時(shí)間。
綜上,整個(gè)算法總的時(shí)間耗費(fèi)T為:
其中,針對(duì)腫瘤實(shí)例挖掘頻繁co-location模式階段是算法中最耗時(shí)的部分,后面的二分K-means聚類、規(guī)則提取主要是針對(duì)區(qū)域進(jìn)行操作,區(qū)域數(shù)要比腫瘤實(shí)例數(shù)少得多,時(shí)間耗費(fèi)也相對(duì)小得多。
傳統(tǒng)的空間模式挖掘用鄰近關(guān)系度量污染源與疾病的關(guān)系,忽略了污染源隨空氣、水源傳播的影響,文獻(xiàn)[15]考慮了空氣、水流的影響,但導(dǎo)致算法太過(guò)復(fù)雜。而本文引入了區(qū)域劃分方法,將污染源的影響范圍擴(kuò)大到整個(gè)區(qū)域,同時(shí)使用模糊理論度量污染程度、腫瘤共存程度,挖掘出了比傳統(tǒng)的空間模式挖掘更加豐富的知識(shí),更能反映真實(shí)世界的客觀規(guī)律。
當(dāng)然,本文也存在不足,在模糊度量和距離閾值的設(shè)置上依賴專家給出的建議,人為因素影響較大,下一步的工作將致力于實(shí)現(xiàn)從數(shù)據(jù)分布中直接得到模糊隸屬度閾值和距離閾值,減少人為的影響。