劉莉,姚京京,李俊,陳先來,周宇葵
1.中南大學生命科學學院,湖南長沙410013;2.中南大學湘雅口腔醫(yī)學院,湖南長沙410008;3.中南大學信息安全與大數(shù)據(jù)研究院,湖南長沙410083
高血壓是一種以體循環(huán)動脈壓升高為主要特征,遺傳易感性和環(huán)境因素相互作用導致的全身性疾?。?]。已有大量研究表明有效控制高血壓發(fā)病情況,可降低心腦血管疾病的患病風險[2-3]。電子病歷(Electronic Medical Record,EMR)是病人的所有健康保健數(shù)據(jù)、病史及患病情況的存儲[4]。作為一種新穎而豐富的臨床研究資源,其研究價值不言而喻[5-6]。通過有效的數(shù)據(jù)可視化技術(shù),電子病歷數(shù)據(jù)中疾病診斷之間的關(guān)系可以以圖形網(wǎng)絡(luò)的形式清晰展示出來,以便醫(yī)生探索其中的醫(yī)學規(guī)則,輔助其進行疾病診斷,也可為患者提供直觀的疾病關(guān)系網(wǎng)絡(luò)。本研究以高血壓相關(guān)的電子病歷數(shù)據(jù)作為數(shù)據(jù)源,采用Gephi 復雜網(wǎng)絡(luò)分析軟件和共詞分析方法,從多角度、多層面分析展示病案首頁中高血壓相關(guān)診斷之間的關(guān)系,旨在揭示這些疾病診斷之間的聯(lián)系,為下一步建立更加完善的疾病圖譜奠定基礎(chǔ)。
高血壓及其相關(guān)疾病關(guān)系可以通過查閱文獻資料、詢問醫(yī)療工作者和訪問醫(yī)學網(wǎng)站等方式獲取,其中對電子病歷進行分析是一種以患者為中心的研究方法,是了解患者患病情況的重要手段[7]。已有不少研究以電子病歷為研究對象,開展自然語言處理、知識提取、可視化研究等方面的工作[8-10]。姚旭升等[11]以住院病案首頁數(shù)據(jù)為研究對象,采用基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)流,建立疾病間關(guān)聯(lián)規(guī)則模型?;陔娮硬v的分析可以發(fā)現(xiàn)患者最直接的信息,分析其中的規(guī)律,揭示各疾病之間的關(guān)系。
近年來,大數(shù)據(jù)的興起和相關(guān)技術(shù)的迅速發(fā)展讓生物醫(yī)學成為發(fā)展最為迅速的領(lǐng)域之一[12]。在臨床、藥品、檢驗、影像和醫(yī)學科研領(lǐng)域每天都產(chǎn)生著大量數(shù)據(jù),并近乎以指數(shù)方式增長。因此,對這些醫(yī)學領(lǐng)域的信息進行科學的收集、加工、分析、處理、展示,使其更好地為人類服務(wù)也就顯得更加重要?;诠苍~分析構(gòu)建共現(xiàn)網(wǎng)絡(luò)的可視化技術(shù)探索關(guān)鍵詞之間的關(guān)系并不是一項新的嘗試,在許多領(lǐng)域都被有效利用,如研究文本分類中詞的共現(xiàn)關(guān)系[13],學科知識結(jié)構(gòu)、研究熱點分析[14-15]。共詞分析用于確定各關(guān)鍵詞之間共同出現(xiàn)的頻次,使密切相關(guān)的關(guān)鍵詞聚類,其可發(fā)現(xiàn)研究對象之間的關(guān)系和揭示潛在的可能關(guān)系[16]。
在高血壓的研究領(lǐng)域中,多為臨床研究、基礎(chǔ)醫(yī)學研究和數(shù)據(jù)挖掘研究,其中數(shù)據(jù)挖掘研究多集中于高血壓識別模型和高血壓癥狀研究,鮮有共詞分析的可視化技術(shù)分析高血壓及其相關(guān)疾病關(guān)系的研究報道。本研究旨在采用共詞分析的可視化技術(shù)對病案首頁診斷數(shù)據(jù)進行分析,構(gòu)建高血壓及其相關(guān)疾病的關(guān)系網(wǎng)絡(luò),分析與高血壓相關(guān)的主要疾病之間的關(guān)系,為提供直觀的高血壓疾病關(guān)聯(lián)圖譜、展示臨床已知的疾病關(guān)聯(lián)、揭示潛在的與高血壓相關(guān)疾病、輔助醫(yī)生診斷提供參考。
本研究選取湘雅三醫(yī)院2017年11月份出院患者的病案首頁數(shù)據(jù)作為實驗數(shù)據(jù)源,共計記錄3 632條,字段232 個。基于患者隱私保護,首先對記錄中的患者身份信息進行剔除,僅為每條記錄隨機賦予唯一識別碼,以保證隱私信息的安全。以“高血壓”為檢索詞,選擇診斷字段中包含“高血壓”的記錄作為研究對象,共計808條記錄。對所選記錄和字段進行評估、篩選、填充、刪除等預處理,最終獲得四類字段。同時,以實驗數(shù)據(jù)中的第一條記錄為例,展示各字段的內(nèi)容,其中門診診斷和主要診斷結(jié)果不一定相同。實驗數(shù)據(jù)中平均每條記錄包含5.5 個非空診斷字段,所含字段數(shù)量范圍為3~17個,各記錄非空字段數(shù)目分布整體呈偏態(tài)分布,記錄非空字段數(shù)主要集中于4~10。
在電子病歷數(shù)據(jù)中,病案首頁數(shù)據(jù)的結(jié)構(gòu)化程度相對較高,類似患者主訴等自然語言為主的字段較少,多為類似診斷信息等結(jié)構(gòu)化程度較高的字段,表達簡潔準確。但依舊存在因表達標準化不夠完善、錄入人員操作失誤等情況。
由于患者的“其它診斷”數(shù)量具有個體差異性,診斷字段數(shù)量不盡相同,所以在實驗研究中對空字段不進行填充處理。針對表達主題相同,但表達方式不同的字段內(nèi)容進行轉(zhuǎn)換處理,以提高一定的數(shù)據(jù)標準化程度,如“高血壓Ⅲ”和“高血壓Ⅲ級”則將兩者統(tǒng)一以“高血壓Ⅲ”進行表示。在本研究中“高血壓Ⅱ”、“高血壓Ⅲ”分別對應(yīng)Ⅱ級高血壓和Ⅲ級高血壓,而“高血壓”則是患者是否患有高血壓的判斷結(jié)果,可能為任意一級高血壓。此外,針對記錄中出現(xiàn)一些癥狀類診斷及診斷結(jié)果過于粗略的字段進行了刪除處理。
在數(shù)據(jù)處理的過程中,未對診斷結(jié)果進行主題詞、上下位詞的匹配和調(diào)整,因此,會出現(xiàn)“高血壓”、“高血壓Ⅱ”和“高血壓Ⅲ”等相似診斷名稱。這主要是考慮到雖然經(jīng)過主題詞的調(diào)整和上下位詞的縮放可以減少節(jié)點數(shù)量,使共現(xiàn)網(wǎng)絡(luò)更加清晰,但會損失原本的疾病診斷信息,降低共現(xiàn)圖譜的精度。
共詞分析研究的基礎(chǔ)是基于兩個假設(shè):(1)兩個關(guān)鍵詞在同一條記錄中同時出現(xiàn),表明其所代表的主題之間具有關(guān)聯(lián)性;(2)為探討關(guān)鍵詞之間相似度的聚類共現(xiàn)研究,需與研究的主題和目的保持一致[7]?;诠苍~分析的研究思想,把原始記錄轉(zhuǎn)換為原始矩陣,對原始矩陣進行分析處理生成共現(xiàn)矩陣,為下一步研究提供數(shù)據(jù)支持。
以Python 語言編寫處理程序,提取出原始矩陣中的共現(xiàn)關(guān)系,即獲取原始矩陣中每一行任意兩個元素的構(gòu)成的無序共現(xiàn)對,并記錄各元素出現(xiàn)次數(shù)和無序共現(xiàn)對出現(xiàn)的次數(shù),其中元素出現(xiàn)次數(shù)以表格形式保存,共現(xiàn)關(guān)系以共現(xiàn)矩陣的形式表達出來,共現(xiàn)矩陣如式(1)所示。
在式(1)中,ci代表第i個關(guān)鍵詞,vab代表第a個關(guān)鍵詞與第b個關(guān)鍵詞的共現(xiàn)值,即兩者同時出現(xiàn)在同一條記錄中的次數(shù)。其中同一關(guān)鍵詞之間不存在共現(xiàn)關(guān)系,其值為空,以0 表示。據(jù)此所生成共現(xiàn)矩陣包含了原始矩陣中的共現(xiàn)關(guān)系和各關(guān)鍵詞之間共現(xiàn)的強弱程度。
Gephi 是一款用于數(shù)據(jù)分析和復雜網(wǎng)絡(luò)展示的免費開源工具,與用戶有著良好的交互,可通過調(diào)整網(wǎng)絡(luò)的布局、形狀、顏色來顯示隱藏的關(guān)系。本研究以病案首頁診斷信息為節(jié)點,診斷間的共現(xiàn)關(guān)系為邊,構(gòu)建基于病案首頁的高血壓診斷相關(guān)共現(xiàn)圖譜,借助Gephi軟件的數(shù)據(jù)分析工具,從模塊化、平均度、平均聚類系數(shù)等指標角度分析共現(xiàn)圖譜,解讀高血壓診斷之間的相關(guān)關(guān)系。
在整個共現(xiàn)網(wǎng)絡(luò)中,連接較為緊密的節(jié)點群可以被看成是一個社區(qū),或劃分為一個社區(qū)。模塊度是評價社區(qū)劃分優(yōu)劣的重要指標,模塊度的值越大,社區(qū)劃分的效果越好,其簡化公式如式(2)所示。
其中,∑in 表示社區(qū)c 內(nèi)部的權(quán)重,∑tot 表示與社區(qū)c內(nèi)節(jié)點連接的邊的權(quán)重,包括社區(qū)內(nèi)部的邊和社區(qū)外部的邊。Gephi 軟件中的模塊化計算采用Fast Unfolding 算法,這一算法是為了尋求最大模塊度值以達到最佳的社區(qū)劃分結(jié)果[17]。疾病診斷共現(xiàn)網(wǎng)絡(luò)通過模塊化計算可得到多個關(guān)系較為密切的社區(qū),便于進一步分析其中的關(guān)系。
在宏觀層面上,主要以平均聚類系數(shù)對網(wǎng)絡(luò)進行分析[18]。平均聚類系數(shù)是整個網(wǎng)絡(luò)上節(jié)點傾向形成聚類程度的平均值,每個節(jié)點的聚類系數(shù)都在0~1的范圍。若任一節(jié)點的聚類系數(shù)為0,表明該節(jié)點為獨立節(jié)點,即沒有其他節(jié)點與之相連,但本文僅提取了存在共現(xiàn)關(guān)系的疾病診斷信息進行研究,所以并不存在聚類系數(shù)為零的獨立節(jié)點。若任一節(jié)點的聚類系數(shù)為1,則表明該節(jié)點與網(wǎng)絡(luò)中所有節(jié)點都有直接或間接的相連關(guān)系,即存在路徑連接任意節(jié)點。在疾病診斷共現(xiàn)網(wǎng)絡(luò)中,平均聚類系數(shù)代表各診斷節(jié)點傾向于與其他節(jié)點共同出現(xiàn)的強度。
在微觀層面上,主要以中介中心性(Betweenness Centrality)、接近中心性(Closeness Centrality)對網(wǎng)絡(luò)進行分析[17]。中介中心性是指網(wǎng)絡(luò)中經(jīng)過某點并連接這兩點的最短路徑占這兩點之間的最短路徑線總數(shù)之比,強調(diào)該節(jié)點在其他節(jié)點之間的連接能力,可能是塊之間的銜接橋梁。接近中心性是指每個結(jié)點到其它結(jié)點的最短路徑之和的倒數(shù),節(jié)點接近中心性的值越高,代表其在該網(wǎng)絡(luò)中的中心位置,地位越重要。中介中心性和接近中心性相比,中介中心性強調(diào)的是節(jié)點在網(wǎng)絡(luò)中的銜接橋梁作用,為整個網(wǎng)絡(luò)的貢獻程度,接近中心性更加強調(diào)節(jié)點自身的中心位置。
本實驗數(shù)據(jù)共計808條記錄,各記錄非空字段總計18 997 條,涉及疾病診斷結(jié)論1 029 個,共現(xiàn)關(guān)系12 479條。其中,頻次前10的疾病診斷名稱如圖1所示,可見這10 個疾病診斷名稱都是臨床上普遍認可的高血壓相關(guān)診斷,如2.2 所述,未對疾病診斷結(jié)果進行主題詞、上下位詞的匹配和調(diào)整,導致出現(xiàn)“高血壓”、“高血壓Ⅲ”和“高血壓Ⅱ”等相似診斷名稱,以保證疾病診斷共現(xiàn)圖譜的精度。
圖1 頻次前10的疾病診斷名稱Fig.1 Top 10 disease diagnoses
將1 029 個診斷節(jié)點數(shù)據(jù)和12 479 條共現(xiàn)關(guān)系邊數(shù)據(jù)導入Gephi復雜網(wǎng)絡(luò)分析軟件,對其進行模塊化分析,解析度設(shè)為默認值1.0,尋求最佳的社區(qū)分組。對模塊化分析結(jié)果進行統(tǒng)計,共得社區(qū)分組11個,社區(qū)分組內(nèi)節(jié)點占總節(jié)點數(shù)百分比較高的為社區(qū)分組1(36.73%),社區(qū)分組2(26.53%)和社區(qū)分組3(14.97%),該三大社區(qū)覆蓋共現(xiàn)網(wǎng)絡(luò)中78.23%的節(jié)點。其中所占比例超過10%的相對較大社區(qū)僅為3個,在后續(xù)社區(qū)分析中,將以這3 個社區(qū)為研究對象。為全方面了解共現(xiàn)網(wǎng)絡(luò)中的相關(guān)信息,對整個網(wǎng)絡(luò)的信息進行統(tǒng)計分析,結(jié)果如表1所示。本節(jié)將從宏觀和微觀兩個層面,基于共現(xiàn)網(wǎng)絡(luò)指標數(shù)據(jù)對共現(xiàn)網(wǎng)絡(luò)進行分析解讀。
經(jīng)過Gephi軟件“模塊化運算”后,并對同一社區(qū)設(shè)定唯一顏色。其中節(jié)點占比在1%以上的社區(qū)共有7個,分別對應(yīng)的顏色為1(紅)、2(綠)、3(深藍)、4(淡藍)、5(棕)、6(粉)、7(橙)。在圖2中,展示了基于度和社區(qū)分組調(diào)整節(jié)點大小和顏色的疾病診斷共現(xiàn)圖譜。從圖2中可以清楚看出,其構(gòu)圖十分復雜,但仍可看到“高血壓Ⅲ”、“高血壓”、“高血壓Ⅱ”、“2型糖尿病”等疾病診斷名稱是關(guān)系圖譜中的核心連接樞紐,其節(jié)點度數(shù)相對較大,也就是高共現(xiàn)的疾病診斷。聚類系數(shù)是衡量網(wǎng)絡(luò)中節(jié)點傾向于形成聚類的程度,聚類系數(shù)的高低意味著該節(jié)點所代表的診斷結(jié)果傾向于與其它診斷結(jié)果同時出現(xiàn)的程度。疾病貢獻網(wǎng)絡(luò)中聚類系數(shù)為1.0的節(jié)點總數(shù)較多,達到了526 個節(jié)點,占總節(jié)點數(shù)的51.12%,代表半數(shù)左右的診斷傾向于與其它診斷同時出現(xiàn)的程度較高,其與相鄰節(jié)點完全連接。不存在聚類系數(shù)為零的診斷節(jié)點,即不存在完全獨立的診斷節(jié)點。其余部分疾病診斷節(jié)點聚類系數(shù)較為均勻的分布在0 到1 之間。因此,大部分診斷節(jié)點的聚類系數(shù)較高,平均聚類系數(shù)為0.789,表明大部分的疾病診斷都是傾向于與其它疾病診斷共同發(fā)生的。
表1 診斷共現(xiàn)網(wǎng)絡(luò)相關(guān)指標Tab.1 Diagnosis co-occurrence network related indicators
圖2 高血壓相關(guān)診斷共現(xiàn)圖譜Fig.2 Co-occurrence map of hypertension-related diagnoses
為了揭示單個節(jié)點的屬性,需要從相對微觀的角度對疾病診斷共現(xiàn)網(wǎng)絡(luò)進行分析。關(guān)于節(jié)點中間度測量的指標較多,其中,中介中心性和接近中心性兩個指標最為重要[18]。本節(jié)將從中介中心性和接近中心性兩個角度對疾病診斷共現(xiàn)網(wǎng)絡(luò)進行分析。
中介中心性衡量了一個節(jié)點作為媒介者的能力,具有高中介性的節(jié)點被認為是便于管理和重要的節(jié)點。因此,這些存在于多診斷最短路徑上的診斷信息可以認為是銜接診斷社區(qū)分組的橋梁,導致多種疾病共同出現(xiàn)。各節(jié)點中介中心性如圖3所示??梢姼咧薪橹行男栽\斷節(jié)點分布稀疏,數(shù)量較少,而低中介中心性節(jié)點分布密集,集中于0~20 000。其中7 個疾病診斷節(jié)點具有高中介中心性,其值從21 944到106 490不等,對網(wǎng)絡(luò)的影響相對較大,值由高到低分別為高血壓Ⅲ、高血壓、高血壓Ⅱ、2型糖尿病、闌尾術(shù)后、冠狀動脈粥樣硬化性心臟病、頸動脈動脈硬化。
圖3 診斷節(jié)點中介中心性分布Fig.3 Betweenness centrality distribution of diagnostic nodes
接近中心性是從網(wǎng)絡(luò)中的一個節(jié)點到所有其他節(jié)點的平均最短路徑距離的度量。診斷節(jié)點的接近中心性越高,代表該節(jié)點處于網(wǎng)絡(luò)中更加中心的位置,與其他診斷距離較近,關(guān)聯(lián)性更強。高接近中心性的疾病診斷往往是臨床上與高血壓相關(guān)的常見病,可能是并發(fā)癥、合并癥等。診斷節(jié)點接近中心性分布圖如圖4所示,可見接近中心性分布較為均勻?!案哐獕孩蟆苯咏行男宰罡撸浜笠来螢楦哐獕?、2型糖尿病、高血壓Ⅱ,與大部分節(jié)點接近中心性差距不大,節(jié)點整體分布較為連續(xù),未出現(xiàn)集群分布。因此,疾病診斷共現(xiàn)網(wǎng)絡(luò),眾多疾病診斷關(guān)系彼此之間相互交錯,并沒有疾病處于完全中心的地位。
圖4 診斷節(jié)點接近中心性分布Fig.4 Closeness centrality distribution of diagnostic nodes
如2.4 所述,中介中心性強調(diào)節(jié)點在其他節(jié)點之間調(diào)節(jié)能力,控制能力指數(shù),中介調(diào)節(jié)效應(yīng);而接近中心性強調(diào)節(jié)點在整個網(wǎng)絡(luò)中的價值,價值越大,節(jié)點越處于中心位置。將節(jié)點中介中心性降序排列,分別以中介中心性和接近中心性為縱坐標構(gòu)建折線圖,以對比兩者趨勢變化,結(jié)果如圖5所示??梢妰烧咦兓傮w變化趨勢相同,但彼此之間沒有必然相關(guān)性,中介中心性越高,接近中心性不一定越高。
圖5 中介中心性和接近中心性對比折線圖Fig.5 Line chart of betweenness centrality and closeness centrality
結(jié)合3.2 和3.3 的分析可知,“高血壓Ⅲ”、“高血壓”、“高血壓Ⅱ”三者無論從平均度、平均聚類系數(shù)等宏觀指標,還是中介中心性、接近中心性等微觀指標來看,都處于疾病診斷共現(xiàn)網(wǎng)絡(luò)中相對突出的的位置。同時,除聚類系數(shù)外,三者的度、中介中心性、接近中心性的值依次遞減,“高血壓Ⅲ”患者屬于高危人群,合并癥或并發(fā)癥更多,危及生命的風險更大,所以,住院比例相對更高。而“高血壓”只是對患者是否患有高血壓疾病的界定,其所占比例更大程度上是由醫(yī)生選擇基于“患者是否患有高血壓”還是“患者所患高血壓級別”下診斷結(jié)論所決定的。相比于“高血壓Ⅲ”,“高血壓Ⅱ”人群病情稍好,因而住院比例略微低一些。
在3.1 對疾病診斷共現(xiàn)網(wǎng)絡(luò)模塊化分析中,得到社區(qū)分組11 個,但未對社區(qū)內(nèi)節(jié)點內(nèi)容進行分析研究,探討各社區(qū)疾病診斷節(jié)點內(nèi)容的關(guān)聯(lián)性。本節(jié)對社區(qū)節(jié)點數(shù)排名前3且所占比例大于10%的3個社區(qū)進行研究。
圖6a~c分別是社區(qū)1、社區(qū)2、社區(qū)3疾病診斷節(jié)點的關(guān)系網(wǎng)絡(luò),分別占總節(jié)點數(shù)的36.73%、26.53%、14.97%。由于社區(qū)內(nèi)節(jié)點仍然較多,現(xiàn)過濾掉社區(qū)中度數(shù)相對較低的診斷節(jié)點,使圖像更加清晰,便于展示分析。
在社區(qū)1 中,高血壓、肝囊腫、腎結(jié)石、先天性腎囊腫、惡性腫瘤維持性化學治療度數(shù)最高,且從邊的粗細可以看出彼此之間共現(xiàn)次數(shù)較高,在社區(qū)中無論是接近中心性還是中介中心性都相對較高,處于社區(qū)核心地位??梢姼哐獕?、肝囊腫、腎結(jié)石、先天性腎囊腫之間共現(xiàn)關(guān)系較為密切,但目前臨床上僅認為上述4種疾病處于合并癥的關(guān)系,彼此之間的作用機制尚未查閱到相關(guān)文獻資料,因此,上述四者的關(guān)系仍需進一步探究。
在社區(qū)2 中,高血壓、2 型糖尿病、冠狀動脈粥樣硬化性心臟病、頸動脈動脈硬化等診斷節(jié)點的度數(shù)、中介中心性和接近中心性都較高,處于社區(qū)1的中心地位。高血壓與動脈粥樣硬化兩種疾病互為因果,相互作用,兩者常同時存在。高血壓和糖尿病均為常見病,兩者關(guān)系密切,患有其中一種疾病的患者會大大增加患有另一疾病的風險,同時動脈粥樣硬化與糖尿病關(guān)聯(lián)性也較強,糖尿病患者動脈粥樣硬化的發(fā)病率較無糖尿病者高兩倍。
圖6 社區(qū)內(nèi)診斷節(jié)點共現(xiàn)網(wǎng)絡(luò)Fig.6 Community-wide diagnostic node co-occurrence network
在社區(qū)3 中,節(jié)點數(shù)量雖然達到總節(jié)點數(shù)的14.97%,但其處于中心位置節(jié)點的度數(shù)比社區(qū)1和社區(qū)2 的要小,以心臟擴大、腎性貧血、腎性高血壓、慢性腎功能不全尿毒癥期為代表。該社區(qū)主要包括心臟功能異常、高血壓、腎功能異常之間的關(guān)系。高血壓可導致心臟擴大,造成心臟功能異常,與腎臟疾病更是互為因果,彼此都可引起或加重另一方的病情,腎臟調(diào)解水與鈉的能力會影響血壓,而高血壓和動脈粥樣硬化會導致流入腎臟的血液也會減少,導致腎臟病變,或是加速既有的損傷。
常規(guī)的共現(xiàn)模型十分的直接和成熟,在文本挖掘等多領(lǐng)域均被有效利用,面對醫(yī)療領(lǐng)域的問題,該方法表現(xiàn)得“預測”能力較弱,“提取整理”能力較強[19]。在共現(xiàn)圖譜中表現(xiàn)的關(guān)聯(lián)關(guān)系多為臨床上所熟知,其主要作用是對病案首頁數(shù)據(jù)的提取、整理、發(fā)現(xiàn),輔助挖掘未知或者未確認關(guān)聯(lián)關(guān)系,而其自身的數(shù)據(jù)挖掘能力較弱。本研究采用Gephi 復雜網(wǎng)絡(luò)分析軟件對高血壓相關(guān)疾病診斷進行提取整理分析,發(fā)現(xiàn)其與糖尿病、腎臟疾病、肝臟疾病、心臟疾病等共現(xiàn)關(guān)聯(lián)性較強,可能與高血壓導致心臟負荷大、血液供給不足等有關(guān),其中一些疾病的發(fā)生存在集群現(xiàn)象,通過可視化圖譜展示疾病之間的內(nèi)部關(guān)系,有助于觀察多疾病間的聯(lián)系。
在本研究基礎(chǔ)上,可以引入新的共現(xiàn)邏輯、關(guān)聯(lián)邏輯和有效的電子病歷記錄相似度匹配算法,數(shù)據(jù)源更加多元化,包含基因、疾病、癥狀等多方面的研究數(shù)據(jù),可以有效提高圖譜的預測效果[20]。其中對非結(jié)構(gòu)化數(shù)據(jù)進行自然語言處理,通過專業(yè)的術(shù)語詞典過濾,提取出有效的命名實體,可極大豐富圖譜的內(nèi)容。