焦曉宇,周雪忠**,胡鏡清,謝 琪,周洪偉
(1. 北京交通大學(xué)計算機與信息技術(shù)學(xué)院 交通數(shù)據(jù)分析與挖掘北京市重點實驗室 北京 100044;2. 中國中醫(yī)科學(xué)院中醫(yī)基礎(chǔ)理論研究所 北京 100700;3. 中國中醫(yī)科學(xué)院 北京 100700;4. 中國中醫(yī)科學(xué)院中醫(yī)中醫(yī)藥數(shù)據(jù)中心 北京 100700)
基于可視化圖方法的體征時間序列數(shù)據(jù)分類分析研究*
焦曉宇1,周雪忠1**,胡鏡清2,謝 琪3,周洪偉4
(1. 北京交通大學(xué)計算機與信息技術(shù)學(xué)院 交通數(shù)據(jù)分析與挖掘北京市重點實驗室 北京 100044;2. 中國中醫(yī)科學(xué)院中醫(yī)基礎(chǔ)理論研究所 北京 100700;3. 中國中醫(yī)科學(xué)院 北京 100700;4. 中國中醫(yī)科學(xué)院中醫(yī)中醫(yī)藥數(shù)據(jù)中心 北京 100700)
目的:本研究采用復(fù)雜網(wǎng)絡(luò)理論研究體征時序數(shù)據(jù),使用網(wǎng)絡(luò)特征刻畫體征時序數(shù)據(jù)的動態(tài)特征,分析網(wǎng)絡(luò)特征與人體生理系統(tǒng)健康狀態(tài)的關(guān)系。方法:本文采用可視化圖方法將標準心率時序數(shù)據(jù)和穿戴設(shè)備采集的老年人心率等體征時序數(shù)據(jù)網(wǎng)絡(luò)化,提取網(wǎng)絡(luò)特征,采用決策樹分類方法分析網(wǎng)絡(luò)特征與心臟疾病和年齡因素關(guān)系。結(jié)果:決策樹模型對心臟疾病和年齡因素有較好的分類結(jié)果,標準心率時序數(shù)據(jù)的分形特性使網(wǎng)絡(luò)度分布為冪律分布,網(wǎng)絡(luò)圖密度特征是與心臟疾病和年齡因素相關(guān)的主要因素。結(jié)論:網(wǎng)絡(luò)拓撲結(jié)構(gòu)繼承體征時序數(shù)據(jù)的動態(tài)特性并將之體現(xiàn)在網(wǎng)絡(luò)特征上。體征時序數(shù)據(jù)的動態(tài)特性和網(wǎng)絡(luò)特征的對應(yīng)關(guān)系還待進一步研究闡明。
時間序列 復(fù)雜網(wǎng)絡(luò) 網(wǎng)絡(luò)特征 生理體征 老年健康
時間序列數(shù)據(jù)是按時間順序記錄的數(shù)據(jù)點,是復(fù)雜系統(tǒng)的數(shù)據(jù)反映。時間序列挖掘?qū)r間序列數(shù)據(jù)作為研究對象,以挖掘時間序列數(shù)據(jù)的穩(wěn)定性、變異性等特性[1-3]。時間序列數(shù)據(jù)挖掘方法通常以特征表示和相似性度量為基礎(chǔ),然后進行分類、聚類、興趣模式發(fā)現(xiàn)、異常模式發(fā)現(xiàn)、數(shù)據(jù)可視化等挖掘分析[2,4]。
根據(jù)復(fù)雜系統(tǒng)產(chǎn)生的時間序列數(shù)據(jù)來評價系統(tǒng)的狀態(tài),是時間序列數(shù)據(jù)研究的重要研究內(nèi)容,研究人員已經(jīng)對此經(jīng)過大量的研究,并在金融、醫(yī)學(xué)、氣象等領(lǐng)域取得了很大進步。例如,Costa M.等[4]提出多尺度熵的方法,在多個尺度上計算時間序列數(shù)據(jù)的熵值,用多尺度熵值來評價復(fù)雜系統(tǒng)的復(fù)雜性,并將多尺度熵算法應(yīng)用到人體生理系統(tǒng)評價中。Lacasa L.等[5]提出將復(fù)雜系統(tǒng)的時間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò),通過分析網(wǎng)絡(luò)模體將不同性質(zhì)的復(fù)雜系統(tǒng)進行類目劃分[6,7,9],他們發(fā)現(xiàn)健康狀態(tài)不同者的心率時間序列網(wǎng)絡(luò)具有不同的模體結(jié)構(gòu)。Zhang J.等[8]提出將周期性時間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)的方法,探討網(wǎng)絡(luò)拓撲結(jié)構(gòu)和復(fù)雜系統(tǒng)動態(tài)特性的關(guān)系。
時間序列數(shù)據(jù)的網(wǎng)絡(luò)化將復(fù)雜網(wǎng)絡(luò)的理論引入到時間序列數(shù)據(jù)的挖掘分析中,以網(wǎng)絡(luò)拓撲結(jié)構(gòu)為基礎(chǔ),探討網(wǎng)絡(luò)特征和復(fù)雜系統(tǒng)之間的關(guān)系。本文利用時間序列數(shù)據(jù)網(wǎng)絡(luò)化方法(Visibility Graph,VG)將時間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)[5],抽取網(wǎng)絡(luò)特征作為時間序列數(shù)據(jù)的特征,結(jié)合機器學(xué)習(xí)的方法,探討了復(fù)雜系統(tǒng)特性評價的網(wǎng)絡(luò)化方法。文中選取人體心臟系統(tǒng)作為復(fù)雜系統(tǒng),以心率時間序列數(shù)據(jù)為研究對象,分析了心率數(shù)據(jù)VG網(wǎng)絡(luò)的度分布特性,并采用監(jiān)督分類模型進行心率時序數(shù)據(jù)網(wǎng)絡(luò)和心臟健康狀態(tài)關(guān)系模型的學(xué)習(xí)。
1.1 可視化圖方法
可視化圖方法VG的出發(fā)點是利用復(fù)雜網(wǎng)絡(luò)技術(shù)分析時間序列數(shù)據(jù),探索時間序列數(shù)據(jù)結(jié)構(gòu)特性與網(wǎng)絡(luò)特征的關(guān)系。首先是將時間序列數(shù)據(jù)轉(zhuǎn)換為網(wǎng)絡(luò),轉(zhuǎn)換方式是將每一個數(shù)據(jù)點作為網(wǎng)絡(luò)的一個節(jié)點,節(jié)點間的邊滿足下列要求:
①相鄰的節(jié)點之間有邊相連;
②兩個數(shù)據(jù)點A<ta,ya>;B<tb,yb>;對于A、B間的任意數(shù)據(jù)點C<tc,yc>滿足:
則節(jié)點A、B可見,A、B有邊連接[5,9]。
VG算法將時間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò),網(wǎng)絡(luò)將繼承時間序列數(shù)據(jù)的時間和空間特性,并將這些特性體現(xiàn)在網(wǎng)絡(luò)的拓撲結(jié)構(gòu)中,因此不同性質(zhì)的時間序列數(shù)據(jù)對應(yīng)的VG網(wǎng)絡(luò)具有不同的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。對于周期時間序列數(shù)據(jù),VG網(wǎng)絡(luò)繼承時間序列數(shù)據(jù)的周期特性成為規(guī)則網(wǎng)絡(luò),整個網(wǎng)絡(luò)是一個周期內(nèi)數(shù)據(jù)點形成的網(wǎng)絡(luò)的重復(fù)組合。
隨機網(wǎng)絡(luò)轉(zhuǎn)化為VG網(wǎng)絡(luò)后,較大的數(shù)據(jù)點具有更高的可見性,成為hub節(jié)點,使網(wǎng)絡(luò)的度分布成為指數(shù)函數(shù),網(wǎng)絡(luò)是隨機網(wǎng)絡(luò),如圖1所示。我們生成了一個具有10 000個數(shù)據(jù)點的隨機時間序列,圖1(a)為隨機時間序列的點線圖,圖1(b)為對應(yīng)VG網(wǎng)絡(luò)的度分布,可見度分布為指數(shù)分布。
圖1 隨機數(shù)據(jù)及其生成的VG網(wǎng)絡(luò)的度分布
分形時間序列數(shù)據(jù)具有自相似的特性,其生成的VG網(wǎng)絡(luò)度分布具有冪律分布的特征,網(wǎng)絡(luò)為無標度網(wǎng)絡(luò),如圖2所示[9]。我們生成了一個具有10 000個數(shù)據(jù)點的Conway序列,Conway序列為:
1.2 網(wǎng)絡(luò)特征
我們采用VG算法將時間序列數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò),進一步抽取網(wǎng)絡(luò)拓撲特征作為復(fù)雜系統(tǒng)的特征。我們選擇度分布、最大度、圖密度、集聚系數(shù)、全局集聚系數(shù)、介數(shù)分布、模塊度和特征路徑長度(Average Path Length,APL)這7個特征[10,11]。
度分布是指網(wǎng)絡(luò)中節(jié)點度的分布,不同性質(zhì)的網(wǎng)絡(luò)度分布函數(shù)不同,隨機網(wǎng)絡(luò)、WS小世界網(wǎng)絡(luò)、NW小世界網(wǎng)絡(luò)的度分布近似泊松分布,無標度網(wǎng)絡(luò)的度分布為冪律分布。無標度網(wǎng)絡(luò)的冪律分布和時間序列數(shù)據(jù)分形特性間存在某種聯(lián)系[10]。最大度即為網(wǎng)絡(luò)中節(jié)點度的最大值,對于一個具有n個節(jié)點網(wǎng)絡(luò),最大度為k的概率hk為:
其中pk為度值為k的概率,Pk為度分布的累積分布在k的值。最大度和時間序列數(shù)據(jù)的極值和最值有關(guān),是產(chǎn)生hub節(jié)點的重要因素。
圖密度表示網(wǎng)絡(luò)中各節(jié)點之間聯(lián)系的緊密程度,無向圖圖密度D的定義為:
圖2 Conway時間序列數(shù)據(jù)和其VG網(wǎng)絡(luò)度分布
時序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度和時序數(shù)據(jù)的變動率有關(guān)。時序數(shù)據(jù)的變動率越大,時序數(shù)據(jù)節(jié)點間的可見性越高,時序數(shù)據(jù)生成的VG網(wǎng)絡(luò)圖密度越大。傳遞特性評價網(wǎng)絡(luò)中三角形的密度,在社交網(wǎng)絡(luò)中表示一個人的朋友的朋友也是其朋友,傳遞特性隨著網(wǎng)絡(luò)規(guī)模的增加趨向于非零極限。特征路徑長度為網(wǎng)絡(luò)中任意兩個節(jié)點之間的距離的平均值,一些節(jié)點數(shù)巨大的網(wǎng)絡(luò)的特征路徑長度卻很小。模塊度的概念最早由Mark Newman提出,用來衡量網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)強度,在iGraph中采用基于貪心思想的模塊度最大化貪心算法FN進行模塊度計算。
1.3 C4.5決策樹
決策樹是一個用于監(jiān)督學(xué)習(xí)的層次預(yù)測分類模型,表示對象屬性與對象值之間的一種映射關(guān)系。決策樹使用樹狀圖形或決策模型,著眼于從一組無規(guī)則的事例推理出決策樹表示形式的分類規(guī)則。樹中每個非葉子節(jié)點表示某個對象屬性,而每個分叉路徑則代表某個可能的屬性值,每個葉節(jié)點則對應(yīng)從根節(jié)點到該葉節(jié)點的路徑所示對象的值。決策樹的訓(xùn)練時間相對較少,樹形的分類模型比較符合人類的理解方式[12]。
C4.5算法是最常用、最有影響的決策樹算法之一,是改良的ID3算法[13]。C4.5算法基于生成的決策樹中節(jié)點所含的信息熵最小的原理,采用信息增益比作為選擇測試屬性的標準,能夠處理離散值屬性和連續(xù)值屬性。
心率數(shù)據(jù)具有較快的頻率且方便采集,是研究人員常用的一種時間序列數(shù)據(jù)。我們選取了3種類型的心率數(shù)據(jù),分別對應(yīng)健康人(Normal Sinus Rhythm,NSR)、充血性心率衰竭患者(Congestive Heart Failure,CHF)和房顫患者(Atrial Fibrillation,AF)。然后從Physionet上下載了對應(yīng)的數(shù)據(jù)樣本,其中包含NSR樣本54個,CHF患者樣本29個,AF患者樣本70人,其中NSR和CHF患者的采集時間約為23 h,AF患者采集時間約為1 min[14]。
由于房顫心率的采集時間較短,為了平衡樣本的差異,我們將NSR和CHF的心率數(shù)據(jù)進行了拆分,將樣本每隔6 h進行一次拆分,拆分出來的時間序列數(shù)據(jù)作為一個獨立的樣本,最終得到106個充血性心率衰竭的心率樣本和176個健康的心率樣本,樣本心率時序數(shù)據(jù)如圖3所示。
對于得到的樣本,我們采用VG算法將心率時序數(shù)據(jù)轉(zhuǎn)換為心率網(wǎng)絡(luò),并用iGraph計算了網(wǎng)絡(luò)最大度、度分布、圖密度、集聚系數(shù)、全局集聚系數(shù)、介數(shù)分布、模塊度和特征路徑長度這7個特征[15],其中度分布指數(shù)、圖密度、集聚系數(shù)的分布如圖4所示。
圖3 心率時序數(shù)據(jù)
圖4 網(wǎng)絡(luò)特征數(shù)據(jù)的分布
其中對于網(wǎng)絡(luò)的度分布,我們進行了冪律分布的擬合[16],如圖5所示。圖5(a)為NSR心率VG網(wǎng)絡(luò)度分布,符合參數(shù)α=2.02的冪律分布。圖5(b)為CHF患者的心率VG網(wǎng)絡(luò),符合參數(shù)α=2.26的冪律分布。圖5(c)為AF患者的心率VG網(wǎng)絡(luò),符合參數(shù)α=2.02的冪律分布??梢?,這3個網(wǎng)絡(luò)的度分布都滿足冪律分布,說明VG網(wǎng)絡(luò)繼承了心率時序數(shù)據(jù)的分形特性。
我們將心率時序數(shù)據(jù)的網(wǎng)絡(luò)拓撲特征作為數(shù)據(jù)集特征,將心臟健康狀況作為類別,采用C4.5決策樹算法進行了學(xué)習(xí)[12,13]。首先我們將3種類型的心率數(shù)據(jù)匯總在一起,形成一個多類分類數(shù)據(jù)集,進行了C4.5算法的訓(xùn)練學(xué)習(xí)。分類結(jié)果如圖表1所示,平均準確率為0.73,平均召回率為0.739。然后我們將NSR和CHF患者構(gòu)成一個樣本集,采用C4.5決策樹算法進行了學(xué)習(xí),模型的分類結(jié)果如圖表2所示,平均準確率為0.667,平均召回率為0.670。最后我們對由NSR和AF患者構(gòu)成的數(shù)據(jù)集進行了C4.5學(xué)習(xí),分類結(jié)果如圖表3所示,平均準確率為0.996,平均召回率為0.996。
上述結(jié)果表明,不同健康狀態(tài)的心率時序數(shù)據(jù)對應(yīng)的VG網(wǎng)絡(luò)拓撲結(jié)構(gòu)和網(wǎng)絡(luò)特征存在區(qū)別,其中與NSR相比,AF患者心率對應(yīng)的VG網(wǎng)絡(luò)具有較好的區(qū)分性。Costa M等[3,4]的結(jié)果表明AF患者心率數(shù)據(jù)的多尺度熵曲線和白噪聲的多尺度熵曲線是一致的,表明AF患者的心率數(shù)據(jù)具有較高的隨機性,而NSR和CHF患者的心率數(shù)據(jù)具有較高的確定性。AF患者心率數(shù)據(jù)和NSR、CHF患者心率數(shù)據(jù)的動態(tài)特性不同,因此具有較高的區(qū)分性。同時也說明VG網(wǎng)絡(luò)繼承時序數(shù)據(jù)的動態(tài)特性,并將動態(tài)特性體現(xiàn)在網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和網(wǎng)絡(luò)特征上。
在學(xué)習(xí)到的3個模型中,3種類型心率數(shù)據(jù)學(xué)習(xí)到的決策樹模型如圖6所示,其中0代表NSR人群,1代表AF人群,2代表CHF人群。3個決策樹模型選擇出來的主要屬性是圖密度、度分布和集聚系數(shù)。由圖6可見,AF患者心率數(shù)據(jù)對應(yīng)VG網(wǎng)絡(luò)的圖密度比其他兩類心率數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度高,說明AF患者的心率比NSR和心衰患者心率的變動率高。
圖5 度分布的冪律函數(shù)擬合
物聯(lián)網(wǎng)時代可穿戴設(shè)備的常規(guī)應(yīng)用將給疾病診斷機理研究和健康管理帶來新的機遇。相對于傳統(tǒng)的醫(yī)療設(shè)備,可穿戴醫(yī)療設(shè)備具有更便捷的體征時序數(shù)據(jù)采集能力,這為解決我國日益加重的人口老齡化現(xiàn)象帶來的老年人健康問題提供了新的解題方式。
表1 NSR、CHF、AF分類結(jié)果
表2 NSR、CHF分類結(jié)果
表3 MSR、AF分類結(jié)果
圖6 心率數(shù)據(jù)決策樹模型
可穿戴設(shè)備不同于專業(yè)的醫(yī)療設(shè)備,其采集的體征時序數(shù)據(jù)能否作為疾病診斷的標準還有待討論,對此我們進行了嘗試性的探索。我們利用穿戴設(shè)備采集65位老年人和10位青年人的心率、動脈血氧飽和度、體溫和呼吸頻率數(shù)據(jù),采集時間為24 h。我們對采集的數(shù)據(jù)進行了初步的篩選,最終得到可用樣本34個,其中包含24位老年人和10位青年人,每個樣本的不間斷采集點數(shù)量在2 000個以上,心率數(shù)據(jù)如圖7所示。
我們將年齡作為分析對象,考察老年人和青年人兩個年齡組的體征時序數(shù)據(jù)VG網(wǎng)絡(luò)的區(qū)別。對于每個體征時序數(shù)據(jù),我們采用可視圖方法生成了VG網(wǎng)路,并計算了VG網(wǎng)絡(luò)的各個特征值。我們采集了每個樣本的心率、動脈血氧飽和度、體溫和呼吸頻率4個體征數(shù)據(jù),從34個可用的樣本,最終得到體征時序數(shù)據(jù)VG網(wǎng)絡(luò)136個。將老年人和青年人分成兩組,老年人組包含VG網(wǎng)絡(luò)96個,青年人組包含VG網(wǎng)絡(luò)40個。采用C4.5分類算法進行學(xué)習(xí),分類模型如圖8所示,其中1代表老年人,2代表青年人,分類結(jié)果如表4所示,平均分類準確率為0.758,平均召回率為0.743。
由上述模型可見,和年齡相關(guān)的主要網(wǎng)絡(luò)特征是圖密度、模塊度、度分布和全局集聚系數(shù)。在圖密度上,老年人心率、呼吸頻率、體溫和動脈血氧飽和度體征時序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度大于青年人體征時序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度,說明老年人體征數(shù)據(jù)的變動率較高,老年人對人體體征的調(diào)節(jié)能力較低。在心率、呼吸頻率、體溫和動脈血氧飽和度這4個體征時序數(shù)據(jù)中,動脈血氧飽和度比其他3個體征更為穩(wěn)定,每位受試者各項體征時序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度值如圖9所示,可見動脈血氧飽和度VG網(wǎng)絡(luò)的圖密度比其他3個體征時序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度低。
圖7 CIM設(shè)備采集的數(shù)據(jù)(部分)
圖8 年齡因素決策樹模型
人體是一個動態(tài)復(fù)雜系統(tǒng),體征時序數(shù)據(jù)網(wǎng)絡(luò)化可以整體考察體征時序數(shù)據(jù)隱含的健康狀態(tài)特征,發(fā)現(xiàn)和確認與健康狀態(tài)高度關(guān)聯(lián)的模式和規(guī)律。
本文的研究表明,網(wǎng)絡(luò)圖密度和健康狀態(tài)具有較高的相關(guān)性,圖密度表示網(wǎng)絡(luò)中邊的密集程度,時序數(shù)據(jù)的變動率是影響網(wǎng)絡(luò)圖密度的主要因素,變動率越高則時序數(shù)據(jù)中節(jié)點的可見性越高,圖密度越大。健康的人體系統(tǒng)具有較好的適應(yīng)能力,在生理體征時序數(shù)據(jù)上的體現(xiàn)為體征數(shù)據(jù)的變化較為緩慢,因此年齡、疾病等因素會使體征時序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度增加。
表4 年齡因素分類結(jié)果
圖9 各樣本心率、呼吸頻率、體溫和動脈血氧飽和度時序數(shù)據(jù)VG網(wǎng)絡(luò)的圖密度
本研究中老年人體征數(shù)據(jù)的采集采用了穿戴設(shè)備,可穿戴設(shè)備作為一種新興的技術(shù),將其應(yīng)用到醫(yī)療行業(yè)既是一個機遇也是一個挑戰(zhàn)??纱┐髟O(shè)備比傳統(tǒng)醫(yī)療設(shè)備便捷,是解決老年人健康問題的有效手段,但當(dāng)前的可穿戴設(shè)備在數(shù)據(jù)采集的可靠性和噪聲處理適用性方面仍存在不足,需要在開放環(huán)境的適應(yīng)性和關(guān)鍵技術(shù)研究方面得以提高,從而促進體征數(shù)據(jù)的高質(zhì)量便攜式采集。。
1 Lin W, Orgun M A, Williams G J. An overview of temporal data mining. In: Proceedings of the 1stAustralian Data Mining Workshop, 2002: 83-90.
2 賈澎濤,何華燦,劉麗,等.時間序列數(shù)據(jù)挖掘綜述.計算機應(yīng)用研究, 2007, 24(11): 15-18, 29.
3 Costa M, Goldberger A L, Peng C K. Multiscale entropy analysis of biological signals. Phys Rev E Stat Nonlin Soft Matter Phys, 2005, 71(2): 021906.
4 Costa M, Goldberger A L, Peng C K. Multiscale entropy analysis of complex physiologic time series. Phys Rev Lett, 2002, 89(6): 068102.
5 Lacasa L, Luque B, Ballesteros F, et al. From time series to complex networks: the visibility graph. Proc Natl Acad Sci U S A, 2008, 105(13): 4972-4975.
6 Milo R, Itzkovitz S, Kashtan N, et al. Super families of evolved and designed networks. Science, 2004, 303(5663): 1538-1542.
7 Nunez A, Lacasa L, Valero E, et al. Detecting series periodicity with horizontal visibility graphs. Int J Bifurcat Chaos, 2012. 22(7): 1250160. 8 Zhang J, Small M. Complex network from pseudoperiodic time series: topology versus dynamics. Phys Rev Lett, 2006, 96(23): 238701.
9 Iacovacci J, Lacasa L. Visibility graph motifs. ar Xiv preprint ar Xiv,2015, 1512: 00297
10 Newman M E J. The structure and function of complex networks. SIAM Rev, 2003, 45(2): 167-256.
11 Albert R, Barabási A L. Statistical mechanics of complex networks. Rev Mod Phys, 2002, 74(1): 47.
12 Quinlan J R. Induction of decision trees. Mach Learn, 1986, 1(1): 81-106.
13 Quinlan J R. Improved use of continuous attributes in C4.5. J Artif Intell Res, 1996: 77-90.
14 Goldberger A L, Amaral L A N, Glass L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a new research resource for complex physiologic signals. Circulation, 2000, 101(23): e215-e220.
15 Csardi G, Nepusz T. The igraph software package for complex network research. Inter J Complex Sys, 2005, 1695(5): 1-9.
16 Clauset A, Shalizi C R, Newman M E J. Power-law distributions in empirical data. SIAM Rev, 2009, 51(4): 661-703.
Classification of Biological Signals Time Series by Extracting the Network Features Based on Visibility Graph
Jiao Xiaoyu1, Zhou Xuezhong1, Hu Jingqing2, Xie Qi3, Zhou Hongwei4
(1. College of Computer Science and Information Technology / Beijing Key Laboratory of Traffic Data Analysis and Mining, Beijing Jiaotong University, Beijing 100193, China;
2. Institute of Basic Theory, China Academy of Chinese Medical Sciences, Beijing 100700, China;
3. China Academy of Chinese Medical Sciences, Beijing 100700, China;
4. Traditional Chinese Medicine Data Center, China Academy of Chinese Medical Sciences, Beijing 100700, China)
This study aimed to transform the time series to network features using complex network approaches, and investigate associations between physiological network features and human health state. In this study, networks of standard heart rate time series and physiologic time series of the elderly that collected by wearable devices were built using visibility graph method. Then network features were extracted from these networks, and decision tree model was applied to analyze the main factors of network features contributing to heart disease and age. It was found that the fractal characteristic of heart rate time series brought out powerful law distribution for the degree distribution, and the network density became one of the major factors which were relevant to heart disease and age. In conclusion, it was indicated that topological features of networks underlay the dynamic characteristics of human physiologic time series. However, the correspondence between them still remained to be clarified.
Time series, complex network, network features, biological signals, elderly health
10.11842/wst.2016.04.018
R19
A
(責(zé)任編輯:朱黎婷,責(zé)任譯審:朱黎婷)
2016-04-06
修回日期:2016-04-13
* 科學(xué)技術(shù)部國家科技支撐計劃項目(2013BAH06F03):服務(wù)老年公寓的健康服務(wù)應(yīng)用系統(tǒng)研發(fā)與應(yīng)用,負責(zé)人:謝琪;科學(xué)技術(shù)部國家中醫(yī)藥行業(yè)科研專項(201307003):基于中醫(yī)特色的老年社區(qū)的健康監(jiān)測與干預(yù)關(guān)鍵技術(shù)研究,負責(zé)人:胡鏡清。
** 通訊作者:周雪忠,本刊編委,教授,主要研究方向:復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘。