陳家昌
(同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804)
經(jīng)絡(luò)學(xué)說是中醫(yī)理論的核心,是以經(jīng)絡(luò)理論為基礎(chǔ)來構(gòu)建中醫(yī)的核心架構(gòu)[1]。當(dāng)前,經(jīng)絡(luò)數(shù)據(jù)的采集主要是利用電導(dǎo)法測(cè)量[2],經(jīng)絡(luò)電阻抗檢測(cè)技術(shù)[3]是一門利用經(jīng)絡(luò)系統(tǒng)中經(jīng)穴區(qū)域皮膚組織的電特性及其變化規(guī)律來提取與人體生理、病理狀況相關(guān)的生物醫(yī)學(xué)信息檢測(cè)技術(shù),其基本檢測(cè)方式是利用體外系統(tǒng)向檢測(cè)對(duì)象施加安全的電激勵(lì)(如電流、電壓、電磁等),然后在體外檢測(cè)出相應(yīng)變化,獲取其相關(guān)的電阻抗信息。目前,經(jīng)絡(luò)阻抗檢測(cè)技術(shù)的檢測(cè)方法主要包括輸入激勵(lì)電壓測(cè)電流、輸入激勵(lì)電流測(cè)電壓和諧振稱合方法等,其中輸入電流測(cè)電壓方法較為常用。雖然經(jīng)絡(luò)的電導(dǎo)法測(cè)量取得了廣泛的運(yùn)用,但是仍然存在一些問題。一方面,經(jīng)絡(luò)電信號(hào)是一種非線性非平穩(wěn)的頻譜時(shí)變的微弱信號(hào),且其背景噪聲很強(qiáng),這使得經(jīng)絡(luò)電信號(hào)的有效、準(zhǔn)確檢測(cè)和采集非常困難;另一方面,缺乏有針對(duì)性和更為有效的信號(hào)處理與分析方法,導(dǎo)致測(cè)量結(jié)果存在一定的缺失。目前,很少有人針對(duì)經(jīng)絡(luò)數(shù)據(jù)進(jìn)行補(bǔ)缺[4],常見的是把缺失的數(shù)據(jù)樣本刪除,對(duì)刪除后的數(shù)據(jù)進(jìn)行分析,但是這樣會(huì)導(dǎo)致一些信息的丟失。事實(shí)上由于每種填補(bǔ)算法側(cè)重點(diǎn)不同,針對(duì)的數(shù)據(jù)結(jié)構(gòu)不同,如果處理方法選取不恰當(dāng),即便是數(shù)據(jù)的缺失比率在一個(gè)可處理的范圍內(nèi),也會(huì)造成分析結(jié)果偏倚或者不能充分利用數(shù)據(jù)信息。Olga Troyanskaya 在2001 年提出了帶權(quán)重的k 近鄰補(bǔ)缺法(WKNN)[5];Shigeyuki Oba 在2003 年提出了貝葉斯主成分分析法(BPCA)[6];Hyunsoo Kim 在2005 年提出了局部最小二乘補(bǔ)缺算法(LLS)[7]。
醫(yī)學(xué)數(shù)據(jù)的可視化[8-9]是將采集的醫(yī)學(xué)數(shù)據(jù)利用直觀的圖形進(jìn)行展示,在輔助醫(yī)生診斷、手術(shù)導(dǎo)航和引導(dǎo)治療等方面具有重要的作用。中醫(yī)經(jīng)絡(luò)是中國(guó)古代人們通過肉眼觀察所總結(jié)出來的對(duì)人體解剖、生理、病理規(guī)律的認(rèn)識(shí),具有一定的抽象性,并且經(jīng)絡(luò)循行路線及其所反映的規(guī)律也是一種立體性很強(qiáng)的知識(shí)結(jié)構(gòu)。傳統(tǒng)的文字信息只能提供一種表層的概念印象,不足以形象地描述中醫(yī)經(jīng)絡(luò)知識(shí)的精髓。所以,無論是現(xiàn)在還是未來,中醫(yī)可視化都是中醫(yī)發(fā)展的必經(jīng)之路。中醫(yī)經(jīng)絡(luò)可視化展示系統(tǒng)把傳統(tǒng)中醫(yī)經(jīng)絡(luò)知識(shí)與現(xiàn)代計(jì)算機(jī)圖形學(xué)知識(shí)相結(jié)合,可以更加直觀地展示和發(fā)掘中醫(yī)經(jīng)絡(luò)知識(shí)和信息。
本文利用Bayesian Principal Component Analysis(BPCA)[6]、Local Least Squares(LLS)[7]、Weighted K Nearest Neighbor (WKNN)[5]、Iterated Local Least Squares(ItrLLS)[10]4 種方法進(jìn)行補(bǔ)缺并進(jìn)行對(duì)照比較,嘗試找出最有效的補(bǔ)缺方法,彌補(bǔ)測(cè)量缺失帶來的損失;然后,利用趨勢(shì)圖和箱線圖對(duì)經(jīng)絡(luò)數(shù)據(jù)進(jìn)行展示。通過這些可視化技術(shù)對(duì)經(jīng)絡(luò)數(shù)據(jù)進(jìn)行了直觀的展示而且有效地發(fā)掘經(jīng)絡(luò)數(shù)據(jù)的規(guī)律和特點(diǎn)。
從2012 年9 月18 日到2014 年7 月3 日,每5、6天對(duì)受試者進(jìn)行電導(dǎo)法經(jīng)絡(luò)測(cè)量得出“經(jīng)絡(luò)值”,共采集了65 次。但由于各種原因,難免會(huì)產(chǎn)生病例脫落、時(shí)點(diǎn)缺失情況,空白沒有輸入數(shù)據(jù)的即是缺失值。其中,采集的穴位共有72 個(gè),包括手拇指中左,合谷旁左,足拇指中左,太白上左;手拇指中右,合谷旁右,足拇指中右,太白上右(是假穴位,用于對(duì)照使用,其余穴位均為真穴位)。
由于原始數(shù)據(jù)有些缺失比例較大,不可恢復(fù),所以,選擇缺失較小的10 位測(cè)試者的經(jīng)絡(luò)數(shù)據(jù)作為最終處理的數(shù)據(jù)。這10 位測(cè)試者中,男女各占一半,年齡范圍在26~32 歲之間。
在經(jīng)絡(luò)數(shù)據(jù)的采集過程中,可能會(huì)產(chǎn)生脫落或錯(cuò)位,導(dǎo)致測(cè)量結(jié)果缺失,為了彌補(bǔ)缺失帶來的損失,本文提出一種缺失數(shù)據(jù)的可視化框架。如圖1 所示。
在數(shù)據(jù)采集過程,利用電導(dǎo)測(cè)量法對(duì)志愿者進(jìn)行經(jīng)絡(luò)采集并將數(shù)據(jù)儲(chǔ)存到數(shù)據(jù)庫中。在數(shù)據(jù)補(bǔ)缺階段,分別用BPCA、LLS、WKNN、ItrLLS 這4 種算法進(jìn)行補(bǔ)缺,根據(jù)補(bǔ)缺衡量指標(biāo)評(píng)判補(bǔ)缺效果的好壞,選擇補(bǔ)缺效果最好的構(gòu)成新數(shù)據(jù)集。最后,在可視化階段,分別用折線圖進(jìn)行時(shí)間序列分析和箱線圖進(jìn)行差異性分析。
圖1 經(jīng)絡(luò)數(shù)據(jù)分析框架圖
2.2.1 WKNN
基于KNN 的補(bǔ)缺算法主要思想是通過選取基因數(shù)據(jù)中相似的基因數(shù)據(jù)來對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)缺。例如,基因A 在某個(gè)特征a 上有缺失,利用KNN 算法[11],可以找出K 個(gè)在特征a 上沒有缺失的基因,而且這K 個(gè)基因在除特征a 外的其他特征上是最相似的,一般利用歐氏距離的大小表示相似度。最后,對(duì)選出的K 個(gè)基因在特征a 上進(jìn)行加權(quán)平均得出的值是基因A 的特征a 上的補(bǔ)缺值。在加權(quán)平均的過程中,權(quán)重的大小取決于與基因A 的相似度。也就是,與基因A 相識(shí)度越高權(quán)重越大。
2.2.2 BPCA
BPCA 補(bǔ)缺算法[6]是由3 個(gè)基本過程組成:1)主成分回歸[12];2)貝葉斯估計(jì)[13];3)最大期望(EM)迭代算法[14]。
2.2.3 LLS
同最近鄰法類似,其思想是選取跟目標(biāo)基因表達(dá)值相似的K 個(gè)鄰近基因,根據(jù)選用的相似性度量,這些基因與目標(biāo)基因最為相似,且不含缺失的表達(dá)值,即為完整基因。本文中相似性度量選用Pearson 相關(guān)系數(shù)。與最近鄰法不同的是,最近鄰法的權(quán)重系數(shù)僅僅是用歐氏距離的比值,是特定的值,插補(bǔ)精度不高,而局部最小二乘法是求得相似基因子集與目標(biāo)基因的最小二乘解,優(yōu)化了權(quán)重系數(shù)的選?。?5]。
根據(jù)經(jīng)絡(luò)數(shù)據(jù)的時(shí)序性特點(diǎn),本文主要利用折線圖[16]來觀察經(jīng)絡(luò)值在不同時(shí)間段的變化規(guī)律,以及利用箱線圖[17]來觀察顯示經(jīng)絡(luò)值在季節(jié)、性別、六氣等方面的變化差異。
原始數(shù)據(jù)集中共有4680 個(gè)樣本,經(jīng)過初步預(yù)處理,形成一個(gè)4680 ×10 的數(shù)據(jù)集。對(duì)其進(jìn)行缺失比例統(tǒng)計(jì),如圖2 所示。
圖2 各個(gè)測(cè)試者的缺失比例
數(shù)據(jù)集的總體缺失比例是:24.3%。采用上一節(jié)提到的4 種算法進(jìn)行補(bǔ)缺,為了比較4 種方法的優(yōu)劣,進(jìn)行如下仿真缺失比較實(shí)驗(yàn):首先從4680 ×10 數(shù)據(jù)集中選擇數(shù)據(jù)相對(duì)比較完整的32 次,形成一個(gè)2304 ×10 的數(shù)據(jù)集。把每個(gè)穴位的數(shù)據(jù)分別提取出來,得到72 個(gè)(穴位)32 ×10 的數(shù)據(jù),這72 個(gè)數(shù)據(jù)集中含有的少量缺失數(shù)據(jù)使用缺失值所在行的平均值替代,構(gòu)成72 個(gè)完整的數(shù)據(jù)集,使用這72 個(gè)完整的穴位數(shù)據(jù)集進(jìn)行仿真缺失實(shí)驗(yàn)。為了仿真原數(shù)據(jù)集的缺失機(jī)制,隨機(jī)刪除某些人在某天的所有穴位信息,共仿真10 次,平均缺失比例為18.3%。評(píng)價(jià)指標(biāo)使用的是標(biāo)準(zhǔn)均方根誤差(Normalised Root Mean Square Error,NRMSE),NRMSE 是數(shù)據(jù)填補(bǔ)算法中常用的比較指標(biāo)[18],值越小代表填補(bǔ)值越接近真實(shí)值,其求法如公式(1)所示:
其中,N 是缺失值總個(gè)數(shù),yj是真實(shí)值,是填補(bǔ)值,σy是N 個(gè)真實(shí)值的標(biāo)準(zhǔn)差。實(shí)驗(yàn)結(jié)果如圖3 所示。
圖3 補(bǔ)缺實(shí)驗(yàn)結(jié)果
從圖3 可以看出,WKNN 的標(biāo)準(zhǔn)均方根誤差(NRMSE)最小,說明用WKNN 補(bǔ)缺算法進(jìn)行數(shù)據(jù)補(bǔ)缺的效果最好,所以把WKNN 補(bǔ)缺后的數(shù)據(jù)進(jìn)行后面的數(shù)據(jù)可視化分析。
利用折線圖,觀察穴位在不同季節(jié)的變化趨勢(shì)。如圖4 所示。
圖4 所有穴位經(jīng)絡(luò)值季節(jié)變化趨勢(shì)
很明顯,在季節(jié)上,穴位的變化趨勢(shì)大致有4 種,大多數(shù)穴位的經(jīng)絡(luò)值變化趨勢(shì)是一致的,呈“降升升降”的變化趨勢(shì),也就是說,大多數(shù)穴位經(jīng)絡(luò)值是夏秋季開始升高,冬春季開始下降。另外,還有4 組特別高,它們分別對(duì)應(yīng):大敦右、太白右、申脈左、足竅陰左。
圖5 各個(gè)季節(jié)的箱線圖
為了觀察經(jīng)絡(luò)值在不同季節(jié)的差異性,使用箱線圖展示穴位的經(jīng)絡(luò)值,如圖5 所示,展示丘墟右在各個(gè)季節(jié)所有人經(jīng)絡(luò)值的中位數(shù)、上下四分位數(shù)、最大最小值以及離群點(diǎn),在秋季的分散度為最大,春季分散度最小;同樣,秋季的經(jīng)絡(luò)值相對(duì)較高,春季的經(jīng)絡(luò)值相對(duì)較低。除了在不同季節(jié)上,還展示了不同性別的差異性,如圖6 所示,從圖中可以看出,男性經(jīng)絡(luò)值的分散度要大于女性,而且男性的經(jīng)絡(luò)值平均要大于女性。
圖6 丘墟右的不同性別箱線圖
本文提出一種經(jīng)絡(luò)研究框架,很好地解決了經(jīng)絡(luò)值缺失的問題,并且結(jié)合數(shù)據(jù)可視化的方法,對(duì)傳統(tǒng)中醫(yī)經(jīng)絡(luò)數(shù)據(jù)進(jìn)行了展示,有效地發(fā)掘出經(jīng)絡(luò)穴位的變化趨勢(shì)和一些規(guī)律。未來將進(jìn)一步利用更復(fù)雜和有效的可視化方法來展示經(jīng)絡(luò)數(shù)據(jù),全方位地去觀察和發(fā)掘經(jīng)絡(luò)數(shù)據(jù)中的規(guī)律。
[1]吳建國(guó).中醫(yī)經(jīng)絡(luò)學(xué)的運(yùn)用與發(fā)展思路探討[J].中華中西醫(yī)雜志,2006,7(2):35-35.
[2]黃鸝,原嘉民,蔡堅(jiān)雄,等.健康人群電導(dǎo)法經(jīng)絡(luò)測(cè)量值特點(diǎn)研究[J].廣東醫(yī)學(xué),2012,33(16):2497-2500.
[3]王亞盛,許萍.人體經(jīng)絡(luò)動(dòng)態(tài)電阻檢測(cè)電路的設(shè)計(jì)[J].傳感器技術(shù),2004,23(10):45-47.
[4]Sánchez-Araujo M,Luckert-Barela A J,Sánchez N,et al.On dermatomes,meridians and points:Results of a quasiexperimental study[J].Acupuncture in Medicine,2014,32(1):62-69.
[5]Troyanskaya O,Cantor M,Sherlock G,et al.Missing value estimation methods for DNA microarrays[J].Bioinformatics,2001,17(6):520-525.
[6]Oba S,Sato M,Takemasa I,et al.A Bayesian missing value estimation method for gene expression profile data[J].Bioinformatics,2003,19(16):2088-2096.
[7]Kim H,Golub G H,Park H,et al.Missing value estimation for DNA microarray gene expression data:Local least squares imputation[J].Bioinformatics,2005,21(2):187-198.
[8]Müller H,Reihs R,Zatloukal K.Analysis of biomedical data with multilevel glyphs[J].Bioinformatics,2014,15(S6):S5.
[9]張浩,郭燦.數(shù)據(jù)可視化技術(shù)應(yīng)用趨勢(shì)與分類研究[J].軟件導(dǎo)刊,2012,11(5):169-172.
[10]Cai Zhipeng,HeydariI M,Lin Guohui.Iterated local least squares microarray missing value imputation[J].Journal of Bioinformatics and Computational Biology,2006,4(5):935-957.
[11]Zhang Jianping,Mani I.kNN approach to unbalanced data distributions:A case study involving information extraction[C]// Proceedings of Workshop on Learning from Imbalanced Datasets II.2003.
[12]陳峰.主成分回歸分析[J].中國(guó)衛(wèi)生統(tǒng)計(jì),1991,8(1):20-22.
[13]宮秀軍.貝葉斯學(xué)習(xí)理論及其應(yīng)用研究[D].北京:中國(guó)科學(xué)院,2002.
[14]Chrétien S,Hero A O.On EM algorithms and their proximal generalizations[J].ESAIM:Probability and Statistics,2008,12:308-326.
[15]張瑩,王耀南.基于局部加權(quán)偏最小二乘法的冷凝器污垢預(yù)測(cè)[J].儀器儀表學(xué)報(bào),2010,31(2):299-304.
[16]吳建華,劉慶,趙妍,等.肝功能主要檢驗(yàn)指標(biāo)以動(dòng)態(tài)折線圖示在肝病診療中的應(yīng)用探討[J].中西醫(yī)結(jié)合肝病雜志,2007,17(4):234-235.
[17]楊建南,楊瀅,王勇.用箱線圖分析評(píng)價(jià)臨床科室出院病案完成時(shí)效[C]// 中國(guó)醫(yī)院協(xié)會(huì)病案管理專業(yè)委員會(huì)第十七屆學(xué)術(shù)會(huì)議論文集.2008.
[18]Brás L P,Menezes J C.Dealing with gene expression missing data[J].IEE Proceedings-Systems Biology,2006,153(3):105-119.