劉晨曦 孫秉珍 楚曉麗 祁暢
摘要: 社區(qū)劃分是網絡研究中的重要組成部分,基于醫(yī)療數據對類風濕關節(jié)炎患者進行社區(qū)劃分能夠有效提升臨床醫(yī)療決策的準確性。考慮到社區(qū)劃分過程中可能會存在患者屬性異構及相關性問題,首先基于復合粗糙集理論實現對患者異構屬性的有效處理,其次將復合粗糙集理論與 louvain 算法相融合,構建出基于異構屬性節(jié)點的社區(qū)劃分模型。通過采用臨床真實數據集及經典網絡數據集對本文構建的模型進行實驗分析,驗證了本文模型能夠取得模塊值較大的社區(qū)結構,實現將不同疾病活動程度的患者劃分到不同社區(qū)內,從而提升患者疾病活動程度評估的有效性和準確性。
關鍵詞: 異構屬性;網絡構建;復合粗糙集;社區(qū)劃分;louvain算法
中圖分類號: TP399文獻標識碼: A
Community Partition Model of Patients with Heterogeneous Attributes Based on Composite Rough Sets
LIU Chenxi1, SUN Bingzhen1, CHU Xiaoli2, QI Chang1,3
Abstract:Community partition is an important part of network research. Community partition of patients with Rheumatoid Arthritis based on medical data can effectively improve the accuracy of clinical medical decision-making. Considering that there may be problems of? heterogeneity and correlation of? patients′ attributes in the process of community partition, this paper firstly classifies patients based on composite rough sets theory to effectively deal with heterogeneous attributes. Secondly, the rough sets theory and the louvain algorithm are combined to build a community partition model of patients with heterogeneous attributes. By using the clinical real dataset and the classical network dataset, it is verified that the proposed model can obtain the community structure with large module value, and the realize the division of patients with different disease activity levels into different communities, so as to improve the effectiveness and accuracy of the assessment of patients′ disease activity level.
Key words: heterogeneous attributes; network construction; composite rough set; community partition; Louvain algorithm
0 引言
隨著社會的發(fā)展,現實生活中的各種關系變得越來越復雜,形成了各種類型的系統(tǒng),如果將這些系統(tǒng)中的個體表示為節(jié)點,將個體之間的關系表示為邊,就可以得到一個復雜網絡,復雜網絡具有社區(qū)結構,包含了節(jié)點間的隱藏關系。社區(qū)結構的劃分是復雜網絡研究中的重要問題。一般來說,社區(qū)劃分是指利用網絡中節(jié)點和邊的信息,將網絡劃分為若干個子網絡,并使這些子網絡盡可能相似,同時它們之間的差異盡可能大的過程[1]。傳統(tǒng)的社區(qū)檢測算法[2-5]在很多社區(qū)劃分問題上都取得了較好的效果,并且大都強烈依賴于網絡的拓撲結構。然而在現實中,大多數網絡都會提供額外的參與者信息,如年齡、興趣等。這些屬性信息反映了節(jié)點之間的共同特征,可以澄清和豐富參與者的信息,并賦予被檢測社區(qū)意義[6]。尤其對于醫(yī)療背景下的異構信息系統(tǒng)來說,患者的異構屬性包含了關于疾病診斷更為豐富的信息,這些信息對于患者社區(qū)劃分是十分重要且不能被忽略的。
目前已有很多基于節(jié)點屬性相似度對網絡進行社區(qū)劃分的方法。現有方法大致可分為兩類,第一類由節(jié)點屬性與邊結合的概率生成模型組成,以此來推斷網絡中節(jié)點所屬的社區(qū)[7-9],但是它們不如另一類混合方法[10-13]有效。然而,這些基于節(jié)點屬性進行社區(qū)劃分的方法仍存在著兩點不足:1)已有研究均是基于節(jié)點單個屬性或同類型屬性進行社區(qū)劃分,對于具有異構屬性的網絡社區(qū)劃分不具有普適性;2)對于節(jié)點屬性的相似性度量方法較為簡單,難以滿足具有相關性且復雜的患者醫(yī)療診斷屬性的相似性度量。
針對上述幾點不足,并考慮到臨床診療數據中患者的異構屬性特征,本文將復合粗糙集理論與louvain算法相融合,提出了一種考慮異構屬性節(jié)點特征的網絡社區(qū)劃分方法。眾所周知,Pawlak[14]提出的經典粗糙集是建立在離散型信息系統(tǒng)的基礎上,因此只適用于分類屬性的集合劃分。為有效處理具有數值屬性的決策問題,胡清華等[15]在經典粗糙集基礎上引入鄰域概念,構造了鄰域粗糙集。然而在現實生活中,隨著決策問題屬性特征的不斷變化與屬性類型多樣性的增加,已有的單一粗糙集模型已不能較好地滿足現實復雜屬性決策問題的需要。因此,學者們提出了融合已有粗糙集模型的復合粗糙集理論。復合粗糙集理論[16]能夠解決基于異構屬性節(jié)點集合劃分的聚合問題,將具有異構屬性的節(jié)點劃分退化成單一的集合劃分。鑒于已有復合粗糙集模型的建模思想,本文將經典粗糙集與鄰域粗糙集相結合,形成了適用于處理異構屬性節(jié)點集合劃分問題特征的復合粗糙集模型,并在最終的集合劃分結果基礎上提出節(jié)點間的關系網絡構建模型,為后續(xù)的社區(qū)劃分奠定基礎。在基于關系網絡圖進行社區(qū)劃分的過程中,考慮到louvain[2]算法速度快,可以在較短時間內實現大規(guī)模網絡不同粒度的社區(qū)劃分,并且無需指定社區(qū)的數量,當模塊度不再增益時迭代便自動停止。因此本文在復合粗糙集模型基礎上引入louvain算法進行社區(qū)劃分,進一步提升了社區(qū)劃分的效果和效率。
基于以上分析,本文從異構屬性網絡及粗糙集理論進行集合劃分的視角提出基于節(jié)點異構屬性相似度的社區(qū)劃分方法。該方法主要包括:1)基于節(jié)點異構屬性相似度的集合劃分。運用復合粗糙集對各個屬性上的集合劃分結果進行聚合以退化成單一的集合劃分,實現將具有高度屬性相似性的節(jié)點劃分為一類。2)關系網絡構建?;诨颊呒蟿澐纸Y果,將屬于同一集合劃分中的兩兩節(jié)點之間建立鏈接,以構成關系網絡中的邊,并且以所有集合中的對象作為網絡中的節(jié)點。3)社區(qū)劃分。將構建出的網絡關系圖轉化為矩陣形式,并引入louvain算法進行社區(qū)劃分。本文的主要貢獻有:1)提出一種基于節(jié)點異構屬性的集合劃分方法。2)將節(jié)點的異構屬性相似度融入社區(qū)劃分,提高社區(qū)劃分的準確性和有效性。3)將所提出的方法應用于類風濕性關節(jié)炎患者劃分問題,為臨床實踐中患者的疾病活動程度劃分提供了理論參考。
1 基本理論
本文提出的基于復合粗糙集的異構屬性節(jié)點社區(qū)劃分方法涉及經典粗糙集,鄰域粗糙集,以及復合粗糙集理論。
1.1 經典粗糙集
粗糙集理論是Pawlak[14]提出的一種處理不確定性信息的有效工具,傳統(tǒng)的粗糙集模型建立在離散型信息系統(tǒng)的基礎上,已經在模式識別、機器學習、決策支持等領域得到成功的應用。
定義1 設U為對象集,A為屬性集,且U和A是有限集合。將二元組(U,A)稱為信息系統(tǒng),對于每個屬性a∈A都有其對應的信息函數a:U→Va,其中Va是屬性a的信息函數值集合。
定義2 設(U,A)是一個信息系統(tǒng),對于BA,x,y∈U,屬性B的二元等價關系RB定義為:RB={(x,y)∈U×U|ax=ay,a∈B}。
定義3 設(U,A)是一個信息系統(tǒng),對于BA,x,y∈U,則x關于屬性集B的等價類xRB可定義為xRB={y|(x,y)∈RB}。
本節(jié)在基于異構屬性節(jié)點集合劃分結果的基礎上建立節(jié)點間的關系網絡圖,保證了節(jié)點與節(jié)點之間鏈接關系的可靠性,能夠在屬于同一集合劃分即具有高度屬性相似性的節(jié)點之間建立聯(lián)系。再將建立好的網絡關系圖G以矩陣的形式輸入louvain算法中進行社區(qū)劃分,當模塊度不再變化時,實現將具有高度屬性相似性的節(jié)點劃分為同一個社區(qū),而劃分為不同社區(qū)的節(jié)點之間的屬性值差異較大。即在臨床診療中能夠使異構屬性相似、疾病活動程度相近的RA患者歸為同一個社區(qū)內,而處于不同社區(qū)的RA患者之間具有不同的疾病活動程度,從而有助于對患者病情進一步評估,有效提升RA患者疾病活動程度劃分準確性。
目前所提出的基于復合粗糙集的異構屬性節(jié)點社區(qū)劃分方法,在解決了基于異構屬性節(jié)點的社區(qū)劃分問題的同時,也能夠對同類型屬性網絡進行有效的社區(qū)劃分。
4 基于異構屬性節(jié)點社區(qū)劃分的醫(yī)療決策應用與仿真分析
粗糙集能夠在不需要先驗知識,只依賴于數據集本身的情況下對集合進行有效劃分。在實際的醫(yī)療決策中,粗糙集已廣泛應用于醫(yī)療多準則推薦[19],醫(yī)療診斷[20]及醫(yī)療數據挖掘[21]等各個場景中。通過融合復合粗糙集與louvain算法可以解決RA患者社區(qū)劃分過程中存在的屬性異構及屬性相關性問題,實現醫(yī)療決策背景下基于患者診斷屬性的社區(qū)劃分,進一步提高患者疾病活動程度評估的有效性和準確性。
4.1 基于RA患者的社區(qū)劃分
4.1.1 問題描述
基于本文提出的社區(qū)劃分背景,采用來自廣東省中醫(yī)院的375位真實患者的類風濕性關節(jié)炎診斷數據進行實驗,驗證本文方法的有效性。目前類風濕性關節(jié)炎是最常見的一種關節(jié)炎,也是造成發(fā)病率和死亡率的主要原因[22]。在診斷過程中除了觀察關節(jié)腫脹程度外,還需要進行ESR,RF,CRP等多項輔助指標的檢查[23],具體的數據描述如表1所示。
實驗通過基于復合粗糙集的異構屬性節(jié)點社區(qū)劃分方法對具有異構屬性的RA患者進行社區(qū)劃分。首先基于分類屬性集B2進行經典粗糙集劃分得到與對象xi相似的集合劃分結果xiRB2,接著對ESR、RF、CRP指標進行距離度量以及鄰域粗糙集劃分得到對象xi基于數值屬性集B3的集合劃分結果δB3(xi),其中鄰域參數δ=0.05。最后基于復合粗糙集模型對集合劃分xiRB2、δB3xi進行聚合以退化成單一的集合劃分結果CRBxi,并在最終集合劃分結果基礎上建立375名RA患者之間的關系網絡圖,引入louvain算法進行社區(qū)劃分。
4.1.2 結果分析
最終將375位RA患者劃分為6個不同的社區(qū)0~5,且劃分出的社區(qū)可視化結果及人數分布如圖2、圖3所示。其中,每一個顏色代表一個社區(qū),各個社區(qū)的患者人數依次為:61,82,3,116,67,27,由于在真實網絡中無法預先明確網絡社區(qū)結構,所以在衡量社區(qū)劃分準確性時,本文采用3.2中提出的模塊度Q作為評價指標。本實驗中社區(qū)劃分的最終模塊度為Q=0.476,得到了明顯的社區(qū)結構劃分效果。
其次,在考慮患者異構屬性特征的基礎上,根據社區(qū)劃分結果得到處于不同社區(qū)內的RA患者對應的各個異構屬性值,觀察圖3可以發(fā)現社區(qū)2和社區(qū)5的患者數過少,因此,本文主要分析其余4個核心社區(qū)。不同社區(qū)RA患者數值指標平均值如圖4所示,根據圖4可知,屬于不同社區(qū)0、1、3、4的患者的數值指標ESR、RF、CRP的不同社區(qū)平均值均具有較大差異。除此之外,觀察圖5可以發(fā)現,屬于4個不同社區(qū)的RA患者的關節(jié)腫脹程度4在分類屬性上均有明顯不同(圖中以100~400分別對應關節(jié)腫脹程度的不同等級),如:屬于社區(qū)0的患者為III級(關節(jié)活動受顯著限制),社區(qū)1中患者為I級(關節(jié)可自由活動),社區(qū)3中患者為II級(關節(jié)活動受中度限制),社區(qū)4的患者為IV級(部分或完全失去活動能力)。根據劃分出的不同社區(qū)RA患者的異構屬性值,進一步說明了處于不同社區(qū)內的RA患者在各個屬性值上均具有較大差異,實現將不同疾病活動程度的RA患者歸入不同的社區(qū)內,驗證了方法的有效性。
4.2 基于同類型屬性的社區(qū)劃分
首先在兩個常用的真實網絡上進行實驗,驗證本文提出的方法對于同類型屬性社區(qū)劃分具有同樣的適用性;其次與經典louvain算法相比較,以說明提出的方法能夠更好地反應節(jié)點屬性,從而提高社區(qū)劃分效果。第一個網絡是根據美國大學生足球聯(lián)賽創(chuàng)建的一個真實的社會網絡,其中網絡中的節(jié)點代表足球隊,兩個節(jié)點之間的邊表示兩只球隊之間進行過一場比賽,其中每個球隊都只有一個屬性,即所屬聯(lián)盟。第二個網絡是關于2004年美國總統(tǒng)選舉期間出版以及銷售書籍的數據集,其中每本書只有一個屬性,屬性值為:保守、自由主義、中立性。每個網絡的詳細信息如表2所示。
針對上述兩個真實網絡,采用提出的方法進行社區(qū)劃分。首先運用傳統(tǒng)粗糙集理論對節(jié)點進行集合劃分,然而依據節(jié)點分類屬性的集合劃分結果構建節(jié)點間的關系網絡圖并進行社區(qū)劃分;其次在不考慮所提出的節(jié)點異構屬性情況下,采用經典louvain算法進行社區(qū)劃分。最終采用兩種方法分別劃分出的模塊度如表2所示,觀察表2可以發(fā)現,采用提出的方法劃分出的社區(qū)模塊度值均高于經典louvain算法,并且對兩個真實網絡運用兩種方法進行社區(qū)劃分的可視化結果如圖6和圖7所示。在兩個真實網絡上進行社區(qū)劃分后的模塊度值以及可視化結果,不僅證實了提出的方法在基于同類型屬性網絡上也能夠達到明顯的社區(qū)劃分效果,且進一步說明了提出的方法能夠更好地反應節(jié)點屬性信息,從而提高社區(qū)劃分效果。
5 結論
本文從社區(qū)劃分視角出發(fā),考慮患者診斷屬性的異構特征,提出了基于復合粗糙集的異構屬性節(jié)點社區(qū)劃分方法,并對提出的方法基于真實臨床數據進行實驗分析。針對異構屬性提出適合于醫(yī)療背景下的復合粗糙集模型,實現對節(jié)點的集合劃分;基于節(jié)點集合劃分結果提出關系網絡構建方法,實現將具有高度屬性相似性的節(jié)點之間建立鏈接,進而引入louvain算法進行社區(qū)劃分,充分結合復合粗糙集模型以及l(fā)ouvain算法對異構屬性節(jié)點進行社區(qū)劃分,提高該社區(qū)劃分方法在異構信息系統(tǒng)及醫(yī)療背景下的適用性。實驗表明,基于復合粗糙集的異構屬性節(jié)點社區(qū)劃分方法取得了明顯的效果,能夠將屬性高度相似的患者歸為同一個社區(qū),而屬于不同社區(qū)的患者之間屬性差異值較大,從而實現將不同疾病活動程度的患者劃分到不同社區(qū),提升患者疾病活動程度評估的有效性和準確性。
需要指出的是,本文基于異構屬性進行社區(qū)劃分的同時,對基于同類型屬性也同樣適用,并在football和polbooks兩個真實網絡數據集中驗證了這一點。與此同時,也存在一個問題,就是考慮的網絡為無權無向網絡,但實際生活中網絡節(jié)點之間更多的是存在方向或考慮權重的,因此,這也是我們下一步努力的重點。
參考文獻:
[1]HU J J, WANG Z Q, CHEN J Q, et al. A community partitioning algorithm based on network enhancement[J]. Connection Science, 2021, 33(1): 42-61.
[2]BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008(10): 10008.
[3]NEWMAN M, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical Review E, 2004, 69(2): 26113.
[4]PONS P, LATAPY M. Computing Communities in Large Networks Using Random Walks[M]. Berlin, Heidelberg: Springer, 2005: 284- 293.
[5]鄭文萍, 車晨浩, 錢宇華, 等. 一種基于標簽傳播的兩階段社區(qū)發(fā)現算法 [J]. 計算機研究與發(fā)展, 2018, 55(9): 1959-1971.
ZHENG W P, CHE C H, QIAN Y H, et al. A two-stage community discovery algorithm based on tag propagation[J]. Journal of Computer Research and Development, 2018, 55(9): 1959-1971.
[6]MENG F R, RUI X B, WANG Z X, et al. Coupled node similarity learning for community detection in attributed networks[J]. Entropy, 2018, 20(6): 471.
[7]CHAI B F, YU J, JIA C Y, et al. Combining a popularity-productivity stochastic block model with a discriminative-content model for general structure detection[J]. Physical Review E Statistical Nonlinear, 2013, 88(1): 012807.
[8]XU Z Q, KE Y P, WANG Y, et al. GBAGC: a general bayesian framework for attributed graph clustering[J]. ACM Transactions on Knowledge Discovery From Data, 2014,9(1):1-43.
[9]XIN Y, YANG J, XIE Z Q. A semantic overlapping community detection algorithm in social networks based on random walk[J]. Journal of Computer Research and Development. 2015, 52(2): 499-511.
[10] 楊曉波, 陳楚湘, 王至婉. 基于節(jié)點相似性的LFM社團發(fā)現算法[J]. 復雜系統(tǒng)與復雜性科學, 2017, 14(3): 85-90.
YANG X B, CHENG C X, WANG Z W. LFM community detection algorithm based on vertex similarity[J]. Complex Systems and Complexity Science, 2017, 14(3): 85-90.
[11] 趙衛(wèi)績, 張鳳斌, 劉井蓮. 一種基于節(jié)點嵌入表示 學習的社區(qū)搜索算法 [J]. 控制與決策, 2021, 36 (8):1970-1976.
ZHAO W J, ZHANG F B, LIU J L. A community search algorithm based on node embedded representation learning[J]. Control and Decision, 2021, 36(8): 1970-1976.
[12] 鐘麗君, 賓晟, 袁敏, 等. 多功能復雜網絡模型及其應用[J]. 復雜系統(tǒng)與復雜性科學, 2019,16(2): 31-40.
ZHONG L J,BIN S, YUAN M, et al. Multi-functional complex network model and its application[J].? Complex Systems and Complexity Science, 2019, 16(2): 31-40.
[13] STEINHAEUSER K, CHAWLA N V. Community Detection in a Large Real-World Social Network[M]. Berlin: Springer, 2008: 168-175.
[14] PAWLAK Z. Rough sets[J]. Information Sciences. 1982, 11(5): 341-356.
[15] HU Q U, YU D R, LIU J F, et al. Neighborhood roughest based heterogeneous feature subset selection[J]. Information Sciences, 2008,178(18): 3577-3594.
[16] ZHANG J B, LI T R, CHEN H M. Composite rough sets for dynamic data mining[J]. Information Sciences, 2014, 257(2): 81-100.
[17] 方良春, 孫哲, 楊凱. 類風濕關節(jié)炎中 RF、抗 CCP 抗 體、CRP、ESR 的相關性分析 [J]. 醫(yī)藥前沿, 2016, 6(5):181-182.
FANG C L, SUN Z, YANG K. Correlation analysis of RF, anti-CCP antibody, CRP and ESR in rheumatoid arthritis[J]. Journal of Frontiers of Medicine, 2016, 6(5): 181-182.
[18] MEO P D, FERRARA E, FIUMARA G, et al. Generalized Louvain method for community detection in large networks[C]. Intelligent Systems Design and Applications. Cordoba: IEEE, 2011:88-93.
[19] 張萌, 孫秉珍, 王婷, 等. 融合粗糙集與 GRA 的異構信息多準則三支推薦及其在醫(yī)療推薦中的應用[J]. 控制與決策, 2022,37(7):1883-1893.
ZHANG M, SUN B Z, WANG T,et al. Multi-criteria three-way recommendation of heterogeneous information based on rough set and GRA and its application in medical recommendation[J]. Control and Decision, 2022,37(7):1883-1893.
[20] 王效俐, 劉瀟, 蘇強. 鄰域粗糙集融合貝葉斯神經網絡在醫(yī)療決策中的應用研究[J]. 工業(yè)工程與管理, 2016, 21(5): 141-147.
WANG X L, LIU X, SU Q. Research on application of neighborhood rough set fusion bayesian neural network in medical decision-making[J]. Industrial Engineering and Management, 2016, 21(5): 141-147.
[21] 劉洋, 張卓, 周清雷. 醫(yī)療健康數據的模糊粗糙集規(guī)則挖掘方法研究[J].計算機科學,2014,41(12):164 -167.
LIU Y, ZHANG Z, ZHOU Q L. Research on fuzzy rough sets based rule induction methods for healthcare data[J]. Computer Science, 2014, 41(12): 164-167.
[22] LITTLEJOHN E A, MONRAD S U. Early diagnosis and treatment of rheumatoid arthritis[J]. Prim Care, 2018, 45(2): 237-255.
[23] JOHNSON T M, MICHAUD K, ENGLAND B R. Measures of rheumatoid arthritis disease activity[J]. Arthritis Care and Research, 2020, 72(10): 4-26.
(責任編輯 耿金花)
收稿日期: 2022-03-04;修回日期:2022-05-19
基金項目: 國家自然科學基金(72071152);陜西省杰出青年基金項目(2023-JC-JQ-11);西安市軟科學研究項目(2022RKYJ0030);陜西省高校青年創(chuàng)新團隊項目(2019);廣州市重點研發(fā)計劃(202206010101);廣東省中醫(yī)院中醫(yī)藥科學技術研究專項(院內專項)(2022);廣東省自然科學基金(2022);廣東省新黃埔中醫(yī)藥聯(lián)合創(chuàng)新研究院項目(2022);甘肅省哲學社會科學規(guī)劃項目(2021YB059)
第一作者: 劉晨曦(1999-),女,山西運城人,碩士研究生,主要研究方向為數據挖掘與智能決策。
通信作者: 楚曉麗(1985-),女,山東陽谷人,博士,主要研究方向為中醫(yī)藥數據挖掘、智能決策等。