楊 虎,易丹輝,張艷宏,呂曉穎,白文靜**
(1.中央財(cái)經(jīng)大學(xué)信息學(xué)院 北京 100081;2.中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院 北京 100872;3.中國(guó)中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所 北京 100700)
近年來(lái),隨著信息技術(shù)在社會(huì)、經(jīng)濟(jì)、生活等各個(gè)領(lǐng)域不斷滲透和推陳出新,拓展了人類創(chuàng)造和利用信息的范圍。在新計(jì)算機(jī)技術(shù)的支撐下,人們獲取信息、存儲(chǔ)信息、處理信息等能力不斷提高、成本大大降低,使得包括中醫(yī)在內(nèi)的醫(yī)學(xué)領(lǐng)域積累了大量有待分析的臨床數(shù)據(jù)、生化檢測(cè)數(shù)據(jù)和互聯(lián)網(wǎng)咨詢健康數(shù)據(jù)[1-5]等。由于傳統(tǒng)聚類方法多用于挖掘數(shù)據(jù)的全局結(jié)構(gòu)信息,較少用于識(shí)別數(shù)據(jù)的局部結(jié)構(gòu)信息方面,因而雙向聚類方法被提出并用于挖掘數(shù)據(jù)的局部結(jié)構(gòu)信息。
雙向聚類(Biclustering)一詞最早由Mirkin于1996年提出[6],而雙向聚類方法的相關(guān)研究則最早可追溯到1972年[7]。雙向聚類是一種能夠同時(shí)對(duì)數(shù)據(jù)矩陣的行和列進(jìn)行聚類的數(shù)據(jù)挖掘算法,也被稱為塊聚類(Block Clustering)[8]、協(xié)同聚類(Co-clustering)[9]、或二模態(tài)聚類(Two Model Clustering)[10]。根據(jù)雙向聚類方法的不同原理,可以分為四類:基于傳統(tǒng)聚類的雙向聚類方法[11-13]、基于貪心迭代搜索算法的雙向聚類方法[14,15]、基于窮舉策略的雙向聚類方法[16-18]和基于數(shù)學(xué)模型的雙向聚類方法[19,20]。經(jīng)過(guò)幾十年的長(zhǎng)足發(fā)展,雙向聚類方法在健康領(lǐng)域數(shù)據(jù)分析中已經(jīng)得到廣泛應(yīng)用。特別是在基因數(shù)據(jù)分析方面,雙向聚類被用于實(shí)現(xiàn)重大疾病分類,同時(shí)識(shí)別疾病分類相關(guān)的基因標(biāo)志物。雖然雙向聚類方法的應(yīng)用方興未艾、不斷演進(jìn),但目前在中醫(yī)藥領(lǐng)域數(shù)據(jù)分析方面的應(yīng)用仍不多見(jiàn)。雙向聚類方法作為一種無(wú)監(jiān)督學(xué)習(xí)算法,能夠在未事先確定樣本分類的情況下挖掘數(shù)據(jù)的全局結(jié)構(gòu)信息和局部結(jié)構(gòu)信息。在中醫(yī)藥領(lǐng)中,雙向聚類方法可以用來(lái)挖掘中醫(yī)證候分類與核心處方、中醫(yī)證候分類與癥狀體征表現(xiàn)等之間的全局或局部結(jié)構(gòu)關(guān)系[21]。此外,隨著基因檢測(cè)技術(shù)的普及,雙向聚類方法還可以用于挖掘中醫(yī)證候分類、核心處方、癥狀體征與基因標(biāo)志物之間的結(jié)構(gòu)關(guān)系。
為拓展雙向聚類方法在中醫(yī)藥領(lǐng)域中的應(yīng)用,本文擬采用文獻(xiàn)計(jì)量學(xué)分析來(lái)展示該方法的研究進(jìn)展和前沿動(dòng)態(tài)。文獻(xiàn)計(jì)量學(xué)是通過(guò)互聯(lián)網(wǎng)采集已發(fā)表文獻(xiàn)的樣本數(shù)據(jù),并采用統(tǒng)計(jì)分析工具和方法評(píng)價(jià)樣本數(shù)據(jù)的現(xiàn)狀并預(yù)測(cè)其演化趨勢(shì)的圖書情報(bào)學(xué)的分支學(xué)科,已被廣泛應(yīng)用于信息科學(xué)[22]、再生醫(yī)學(xué)[23]、神經(jīng)科學(xué)與心理學(xué)[24]、戰(zhàn)略管理[25]、循環(huán)經(jīng)濟(jì)[26]、世界經(jīng)濟(jì)[27]和高等教育[28]等領(lǐng)域。由于文獻(xiàn)計(jì)量方法具有提取文獻(xiàn)特征,進(jìn)行深層次分析的優(yōu)點(diǎn),因此本文將借助該方法研究主題詞“雙向聚類”的文獻(xiàn),旨在掌握雙向聚類方法相關(guān)研究的發(fā)展趨勢(shì)、研究熱點(diǎn)領(lǐng)域和未來(lái)的發(fā)展方向。最后,結(jié)合中醫(yī)藥領(lǐng)域數(shù)據(jù)的特點(diǎn),探討了雙向聚類方法在中醫(yī)藥領(lǐng)域數(shù)據(jù)分析中的潛在應(yīng)用價(jià)值。
本文采用CiteSpace文獻(xiàn)計(jì)量分析軟件作為雙向聚類方法文獻(xiàn)計(jì)量的可視化分析工具。CiteSpace軟件是由美國(guó)德雷塞克大學(xué)信息科學(xué)與技術(shù)學(xué)院(College of Computing and Informatics,Drexel University)基于JAVA平臺(tái)研發(fā)的文獻(xiàn)計(jì)量可視化軟件,它采用共引分析方法(Co-Citation)[29,30]和關(guān)鍵路徑算法(path finder)[31,32]等,對(duì)特定領(lǐng)域文獻(xiàn)進(jìn)行計(jì)量分析,進(jìn)而繪制出科學(xué)知識(shí)圖譜,直觀地展現(xiàn)科學(xué)知識(shí)領(lǐng)域的信息全景,識(shí)別某學(xué)科領(lǐng)域中的關(guān)鍵文獻(xiàn)、熱點(diǎn)研究和前沿的演進(jìn)歷程等[33]。
本文以Web of Science核心數(shù)據(jù)庫(kù)(包括SCI和SSCI等)為數(shù)據(jù)源進(jìn)行主題檢索,檢索主題為biclustering、block clustering、two-mode clustering或co-clustering等與雙向聚類有關(guān)的文獻(xiàn),檢索時(shí)間跨度在2008年至2017年之間,學(xué)科范圍設(shè)置為所有學(xué)科,文獻(xiàn)類型限定為期刊論文,語(yǔ)言類型設(shè)定為英語(yǔ),檢索時(shí)間為:2017年6月。
論文的發(fā)表量通常被認(rèn)為是衡量學(xué)科發(fā)展水平和科技產(chǎn)出的一項(xiàng)重要指標(biāo),也是對(duì)科研成就與貢獻(xiàn)的一種度量,發(fā)表量的變化趨勢(shì)反映了學(xué)科知識(shí)量的變化趨勢(shì),從而判斷研究領(lǐng)域的成熟度[34,35]。本研究通過(guò)近10年來(lái)雙向聚類的文獻(xiàn)發(fā)表量變化,反映雙向聚類方法研究領(lǐng)域的發(fā)展現(xiàn)狀(圖1)。
圖1 雙向聚類每年論文發(fā)表量
分析2008年至2017年間年論文發(fā)表量可以看出,雙向聚類的相關(guān)論文在2009年后開(kāi)始迅速增長(zhǎng),且近年來(lái)的文獻(xiàn)發(fā)表量呈現(xiàn)小幅增長(zhǎng)態(tài)勢(shì),每年的論文發(fā)表在140篇上下。雙向聚類研究的論文發(fā)表數(shù)量相對(duì)穩(wěn)定,波動(dòng)不大,這說(shuō)明雙向聚類方法的科學(xué)知識(shí)已經(jīng)積累到一個(gè)較為穩(wěn)定的狀態(tài),該方法的研究已經(jīng)趨于成熟(圖1)。
在CiteSpace中,以“Country”和“Institution”為網(wǎng)絡(luò)節(jié)點(diǎn)(Node Types),闕值選擇(Selection Criteria)中選Top50(每個(gè)時(shí)間切片中出現(xiàn)或被引頻次的前50項(xiàng)),網(wǎng)絡(luò)裁剪(Pruning)中選擇“Pathfinder”和“Pruning the merged network”,其他選項(xiàng)保持默認(rèn)。運(yùn)行Citespace軟件,得到國(guó)家與研究機(jī)構(gòu)合作的混合網(wǎng)絡(luò),如圖2所示,其中有節(jié)點(diǎn)238個(gè),連線722條,網(wǎng)絡(luò)密度為0.010 9。
由圖2可見(jiàn),美國(guó)(USA)和中國(guó)(CHINA)作為最大的節(jié)點(diǎn)在國(guó)家/機(jī)構(gòu)混合網(wǎng)絡(luò)排名靠前。結(jié)合表1,從各個(gè)國(guó)家的論文發(fā)文數(shù)量上看,USA是文獻(xiàn)貢獻(xiàn)率最大的國(guó)家,其次是CHINA,分別發(fā)表論文316篇和288篇。其后依次是法國(guó)(110篇)、印度(87篇)、和日本(78篇)。研究機(jī)構(gòu)中論文發(fā)表量最高的機(jī)構(gòu)是Osaka prefecture university(大阪府立大學(xué))和Chinese Acad Univ(中國(guó)科學(xué)院),論文發(fā)表量分別是28篇和24篇。
結(jié)合圖2和表1可知,我國(guó)在雙向聚類方面的研究水平處于國(guó)際領(lǐng)先的地位。本文采用中心度指標(biāo)來(lái)評(píng)價(jià)我國(guó)學(xué)術(shù)論文的影響力,我國(guó)發(fā)表的雙向聚類方面的論文中心度較低,僅為0.19,小于發(fā)文量相當(dāng)?shù)拿绹?guó)的中心度(0.28)。這說(shuō)明我國(guó)在雙向聚類方法的研究成果雖然不少,但多是是國(guó)內(nèi)學(xué)者之間的合作,尚未與國(guó)外其他科研機(jī)構(gòu)廣泛開(kāi)展合作??梢?jiàn),在雙向聚類方法的研究方面,我國(guó)還需擴(kuò)大與國(guó)外科研機(jī)構(gòu)的交流合作,進(jìn)一步提升我國(guó)在雙向聚類方法研究方面的學(xué)術(shù)影響力。
圖2 國(guó)家/研究機(jī)構(gòu)的混合網(wǎng)絡(luò)圖譜
表1 國(guó)家/研究機(jī)構(gòu)發(fā)表量Top10
通過(guò)對(duì)雙向聚類文獻(xiàn)的統(tǒng)計(jì)分析可以發(fā)現(xiàn)雙向聚類的發(fā)展趨勢(shì),從而判斷該領(lǐng)域是否處于成熟階段,不同國(guó)家/機(jī)構(gòu)在雙向聚類研究上的成熟程度;而共引分析則著重考察文獻(xiàn)的貢獻(xiàn)率。本研究采用citespace構(gòu)造雙向聚類相關(guān)研究的引文網(wǎng)絡(luò),進(jìn)行引文聚類、識(shí)別網(wǎng)絡(luò)中的重要節(jié)點(diǎn)及動(dòng)態(tài)演化分析,目的是識(shí)別雙向聚類的動(dòng)態(tài)發(fā)展變化和熱點(diǎn)問(wèn)題。
圖3 共被引網(wǎng)絡(luò)圖譜
在文獻(xiàn)共/被引網(wǎng)絡(luò)中,不同類別之間通過(guò)某些具有“橋梁”作用的節(jié)點(diǎn)文獻(xiàn)相連接。陳超美等將關(guān)鍵節(jié)點(diǎn)定義為圖譜中連接兩個(gè)及以上不同聚類且中心度和被引頻次相對(duì)較高的節(jié)點(diǎn)。這些節(jié)點(diǎn)是共引網(wǎng)絡(luò)中由一個(gè)文獻(xiàn)發(fā)表時(shí)段向另一個(gè)文獻(xiàn)發(fā)表時(shí)段過(guò)渡的關(guān)鍵點(diǎn)[29,30]。因此,我們對(duì)“雙向聚類”領(lǐng)域研究進(jìn)行關(guān)鍵節(jié)點(diǎn)文獻(xiàn)分析,有利于識(shí)別該領(lǐng)域的核心研究學(xué)者和經(jīng)典文獻(xiàn)。本文將主題詞來(lái)源設(shè)定為文獻(xiàn)標(biāo)題(Title)、摘要(Abstract)、作者關(guān)鍵詞(Descriptors)、增補(bǔ)關(guān)鍵詞(Keywords Plus),闕值選擇(Selection Criteria)中選Top50,網(wǎng)絡(luò)裁剪(Pruning)中選擇“Pathfinder”和“Pruning the merged network”,其他選項(xiàng)保持默認(rèn)設(shè)置,得到共被引網(wǎng)絡(luò)圖譜(圖3)。圖3中有466個(gè)節(jié)點(diǎn),789條連線,網(wǎng)絡(luò)密度為0.007 3。對(duì)該網(wǎng)絡(luò)圖譜中進(jìn)行匯總,得到10個(gè)具有主導(dǎo)型地位和學(xué)術(shù)影響力的關(guān)鍵節(jié)點(diǎn)(文獻(xiàn)的平均被引頻次≥35)(表2)。
從共引網(wǎng)絡(luò)中可以發(fā)現(xiàn),有10篇影響力高的雙向聚類的研究文獻(xiàn),研究?jī)?nèi)容的簡(jiǎn)要介紹如下:
葡萄牙貝拉英特拉大學(xué)Madeira教授2004年在IEEE/ACM Transactions on Computational Biology&Bioinformatics發(fā)表的論文《Biclustering algorithms for biological data analysis:a survey》是雙向聚類方法的重要研究,該論文被引用157次[36]。文章從雙向聚類在生物信息分析中應(yīng)用的角度,討論了雙向聚類的發(fā)展演化過(guò)程、分類、評(píng)估方法及潛在應(yīng)用場(chǎng)景。研究指出,雙向聚類在信息提取和數(shù)據(jù)挖掘中已得到廣泛應(yīng)用,該方法的優(yōu)勢(shì)在于發(fā)現(xiàn)數(shù)據(jù)中的微觀結(jié)構(gòu),能夠更為準(zhǔn)確的解釋樣本和特征之間的局部結(jié)構(gòu)信息。
表2 共被引網(wǎng)絡(luò)圖譜關(guān)鍵節(jié)點(diǎn)信息
蘇黎世聯(lián)邦理工大學(xué)Prelic等2006年在Bioinformatics發(fā)表的論文《A systematic comparison and evaluation of biclustering methods for gene expression data》是第一篇對(duì)雙向聚類有效性進(jìn)行評(píng)價(jià)的文章[37]。該文章提出了一種對(duì)比和檢驗(yàn)雙向聚類算法有效性的方法,該方法的優(yōu)點(diǎn)在于能夠簡(jiǎn)單準(zhǔn)確的判別最優(yōu)的分組方法,對(duì)五種聚類方法的性能進(jìn)行了比較。Barkow等2006年在Bioinformatics發(fā)表的論文《BicAT:a biclustering analysis toolbox》介紹了進(jìn)行雙向聚類的軟件平臺(tái)[38]。該平臺(tái)是一個(gè)開(kāi)源工具箱,集成了多種雙向聚類方法和技術(shù),并且提供了統(tǒng)一的圖形化界面。此外,該平臺(tái)還提供一些數(shù)據(jù)實(shí)例、檢查和預(yù)處理的工具,能夠用于實(shí)現(xiàn)基因數(shù)據(jù)的雙向聚類分析。佛羅里達(dá)大學(xué)Busygin等2008年在Computers&Operations Research發(fā)表的論文《Biclustering in data mining》系統(tǒng)地介紹了雙向聚類的算法[39]。該文獻(xiàn)從雙向聚類的定義、數(shù)學(xué)形式、可視化及實(shí)現(xiàn)雙向聚類的算法的角度對(duì)雙向聚類算法進(jìn)行了綜述研究,并指出雙向聚類算法在生物醫(yī)學(xué)、文本挖掘、協(xié)同過(guò)濾推薦算法和市場(chǎng)行為分析等方面具有較高的應(yīng)用價(jià)值。
上述三篇論文是雙向聚類的重要綜述類文獻(xiàn),因此受到引用和關(guān)注的程度相對(duì)較高。其他重要的文獻(xiàn)則集中在算法改進(jìn)方面,不斷提升算法的準(zhǔn)確性。如:Hochreiter等2010年在Bioinformatics發(fā)表的論文《FABIA:factor analysis for bicluster acquisition》提出了一種新的生成模型,用于實(shí)現(xiàn)雙向聚類[40]。該模型基于乘法模型,來(lái)計(jì)算基因表達(dá)與實(shí)驗(yàn)條件之間的線性依賴關(guān)系,并且捕獲了真實(shí)世界轉(zhuǎn)錄組學(xué)數(shù)據(jù)所觀察到的厚尾分布。Mitra等2006年在Pattern Recognition發(fā)表的論文《Multi-objective evolutionary biclustering of gene expression data》提出了一種多目標(biāo)的雙向聚類算法框架,優(yōu)化了雙向聚類的局部信息搜索過(guò)程[41]。Divina等2006年在IEEE Transactions on Knowledge&Data Engineering發(fā)表的論文《Biclustering of expression data with evolutionary computation》提出了基于進(jìn)化計(jì)算來(lái)實(shí)現(xiàn)雙向聚類[42]。Banerjee等2007年在Journal of machine Learning Research發(fā)表的論文《A generalized maximum entropy approach to bregman co-clustering and matrix approximation》提出了一種廣義最大化信息熵的雙向聚類計(jì)算框架,兼具一般性和靈活性[43]。2003年Kluger在Genome Research發(fā)表的論《Spectral biclustering of microarray data:coclustering genes and conditions》通過(guò)譜雙向聚類發(fā)現(xiàn)基因表達(dá)數(shù)據(jù)矩陣中的獨(dú)特“棋盤”模式[44]。Liu等2007年在Bioinformatics發(fā)表的論文《Computing the maximum similarity bi-clusters of gene expression data》優(yōu)化了雙向聚類算法的搜索過(guò)程,大大減少了雙向聚類算法的運(yùn)算時(shí)間[45]。Ihmels等2004年在Bioinformatics發(fā)表的論文《Defining transcription modules using large-scale gene expression data》引入簽名算法,克服了聚類參數(shù)未知的問(wèn)題[46]。
綜上所述,雙向聚類方法的應(yīng)用場(chǎng)景主要是在基因數(shù)據(jù)分析方面?;驍?shù)據(jù)具有維度高、樣本小的特點(diǎn)。利用傳統(tǒng)聚類方法對(duì)基因數(shù)據(jù)進(jìn)行聚類,僅能夠從樣本或者基因二選一地分析數(shù)據(jù)的全局結(jié)構(gòu)信息,難以同時(shí)識(shí)別樣本和基因的聚類、及數(shù)據(jù)的局部結(jié)構(gòu)信息。利用雙向聚類方法分析基因數(shù)據(jù),則可以分析樣本和特征之間的局部結(jié)構(gòu)關(guān)系,挖掘具有相似基因表達(dá)的相似樣本,實(shí)現(xiàn)精準(zhǔn)的亞組分析。
研究熱點(diǎn)是指在某一時(shí)間段內(nèi),有內(nèi)在聯(lián)系的、數(shù)量相對(duì)較多的一組論文所研究的科學(xué)問(wèn)題或?qū)n}。我們對(duì)雙向聚類領(lǐng)域研究熱點(diǎn)的演變進(jìn)行了分析,更好地把握該領(lǐng)域發(fā)展過(guò)程中的焦點(diǎn)內(nèi)容[47]。在CiteSpace節(jié)點(diǎn)類型(Node Types)中選擇“Keyword”,每?jī)赡隇橐粋€(gè)分割時(shí)間片段,在闕值設(shè)置(Selection Criteria)中選擇“Top N per slice”,且設(shè)定為Top50,其他選項(xiàng)保持默認(rèn)。運(yùn)行CiteSpaceⅤ,繪制關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),為了更好地展現(xiàn)雙向聚類方法研究中的時(shí)間分布及相互關(guān)系,我們選擇“Time Zone”時(shí)區(qū)網(wǎng)絡(luò)視圖,得到基于詞頻統(tǒng)計(jì)的各年份關(guān)鍵詞分布,如圖4所示,其中網(wǎng)絡(luò)節(jié)點(diǎn)137個(gè),連線173條,網(wǎng)絡(luò)密度為0.018 6。在此基礎(chǔ)上對(duì)全部關(guān)鍵詞進(jìn)行EM聚類,得到關(guān)鍵詞的年度變化頻次≥15的關(guān)鍵詞(表3)。
從關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)時(shí)區(qū)圖和關(guān)鍵詞頻數(shù)表可以看出,與雙向聚類方法有關(guān)的詞語(yǔ)主要是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)詞匯,如pattern、model、classification、clustering等,其次是生物信息學(xué)數(shù)據(jù)分析有關(guān)的熱點(diǎn)詞匯,如gene expression data、microarray、gene expression、network。從關(guān)鍵詞可以看出,雙向聚類方法主要應(yīng)用于分析基因表達(dá)數(shù)據(jù)、基因微陣列數(shù)據(jù)和基因調(diào)控網(wǎng)絡(luò)數(shù)據(jù)等。這充分說(shuō)明,雙向聚類方法在基因數(shù)據(jù)分析中已經(jīng)等到廣泛的應(yīng)用,這也符合基因數(shù)據(jù)高維的復(fù)雜結(jié)構(gòu)特點(diǎn)。此外,通過(guò)關(guān)鍵詞的詞頻統(tǒng)計(jì)分析發(fā)現(xiàn),當(dāng)前的研究前沿術(shù)語(yǔ)主要有:“data-analysis”、“fuzzy-clustering”、“room-temperature”、“data-set”、“real-world”、“pattern-mining”、“expression-patterns”。隨著大數(shù)據(jù)技術(shù),基因測(cè)序?yàn)榇淼纳镄畔W(xué)技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和大數(shù)據(jù)等方法也將用于生物信息學(xué)研究。
圖4 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)時(shí)區(qū)視圖
通過(guò)對(duì)雙向聚類方法的描述統(tǒng)計(jì)和文獻(xiàn)共引分析,我們發(fā)現(xiàn):雙向聚類方法的研究已趨于穩(wěn)定,發(fā)展相對(duì)較為成熟;該方法已被廣泛應(yīng)用于基因數(shù)據(jù)分析,在生物領(lǐng)域數(shù)據(jù)分析、信息檢索和數(shù)據(jù)挖掘等方面得到應(yīng)用。與生物信息學(xué)相比,中醫(yī)學(xué)是以中醫(yī)藥理論與實(shí)踐經(jīng)驗(yàn)為主體,研究人類生命活動(dòng)中健康與疾病間的轉(zhuǎn)化規(guī)律及預(yù)防、診斷、治療、康復(fù)和保健的綜合性科學(xué)[48]。中醫(yī)更關(guān)注疾病的證、治、效之間的關(guān)聯(lián)關(guān)系[49]。由于中醫(yī)辨證論治過(guò)程中,存在醫(yī)師差異、患者個(gè)體差異性、疾病癥狀及臨床表現(xiàn)不一、復(fù)雜干預(yù)手段等影響因素,要客觀科學(xué)地刻畫癥、治、效間關(guān)系必然更需要采用雙向聚類的分析方法。
結(jié)合中醫(yī)藥領(lǐng)域的研究的特點(diǎn),雙向聚類方法在中醫(yī)數(shù)據(jù)分析中具有潛在應(yīng)用價(jià)值。
識(shí)別具有類癥狀群的患者的人群特征、探索癥狀分類與患者特征之間的關(guān)系。中醫(yī)證候反映疾病發(fā)生和演變過(guò)程中某階段以及患者個(gè)體所處特定內(nèi)、外環(huán)境本質(zhì),它以相應(yīng)的癥、舌、脈、形、色、神表現(xiàn)出來(lái),能夠不同程度地揭示病因、病位、病性、邪正盛衰、病勢(shì)等病機(jī)內(nèi)容。辨證論治地對(duì)患者進(jìn)行分類治療是中醫(yī)的特色[50]。在實(shí)際數(shù)據(jù)采集中,由于患者的四診信息、臨床癥狀、體征等信息較多,收集的數(shù)據(jù)具有高維性,因此通過(guò)雙向聚類方法分析患者癥狀體征數(shù)據(jù),可以識(shí)別具有某些特征的患者子人群并判斷其典型癥狀表現(xiàn),即提取特屬某類子人群的局部證候特征(圖5),有助于根據(jù)疾病證候?qū)崿F(xiàn)疾病分類。
表3 關(guān)鍵詞(頻次≥30)列表
探索藥物配伍特點(diǎn),實(shí)現(xiàn)精細(xì)化治療。根據(jù)患者的證候診斷與臨床表現(xiàn),醫(yī)生會(huì)為不同的患者提供不同的中藥處方。雙向聚類方法能夠同時(shí)對(duì)患者的證候和中藥處方進(jìn)行聚類,探索不同證候患者子人群的核心處方及用藥差異性。這有助于探索藥物配伍特點(diǎn),實(shí)現(xiàn)對(duì)癥下藥,發(fā)現(xiàn)中醫(yī)證候與核心處方之間的關(guān)系,可以探索名老中醫(yī)的用藥特點(diǎn)。對(duì)于針刺治療亦是如此,可通過(guò)雙向聚類探索穴位組合與治療效果之間的聯(lián)系。同理,也可以通過(guò)雙向聚類來(lái)挖掘中醫(yī)其他治療手段與癥狀、患者子人群的聯(lián)系。
圖5 雙向聚類的局部結(jié)構(gòu)特征
探索量效關(guān)系,實(shí)現(xiàn)動(dòng)態(tài)、科學(xué)合理用藥。例如,在患者的某個(gè)或某些癥狀得到改善的情況下,通過(guò)雙向聚類方法探索不同患者子人群的癥狀與中藥組方中藥物劑量關(guān)系或穴位手法組合方面的規(guī)律,科學(xué)合理的推薦用藥方法和治療指南;若患者的癥狀沒(méi)有改善,也可以通過(guò)雙向聚類方法分析該人群的治療錯(cuò)位未起效的原因,進(jìn)行治療方案的實(shí)時(shí)、動(dòng)態(tài)調(diào)整。此外,若可獲取實(shí)驗(yàn)室檢查等客觀指標(biāo),則可以通過(guò)雙向聚類算法探索患者子人群癥狀改善、藥物配伍與其他客觀指標(biāo)變化之間的聯(lián)系。
最后,隨著基因測(cè)序等生物信息檢測(cè)技術(shù)的普及,探索基因組學(xué)、蛋白組學(xué)等分子與中醫(yī)癥候、治療方案等之間的關(guān)系將是雙向聚類方法的重要潛在應(yīng)用場(chǎng)景。對(duì)組學(xué)數(shù)據(jù)的深入分析能夠有助于實(shí)現(xiàn)在分子層面重新定義健康狀況、重塑臨床實(shí)踐[51],這對(duì)中醫(yī)發(fā)展來(lái)說(shuō)是一個(gè)潛在的發(fā)展機(jī)遇。