醫(yī)學(xué)是人類科學(xué)史上的重要學(xué)科,它的發(fā)展與人類的健康息息相關(guān)。綜合醫(yī)學(xué)與內(nèi)科學(xué)作為臨床醫(yī)學(xué)的一個專科,幾乎是所有其他臨床醫(yī)學(xué)的基礎(chǔ),亦有醫(yī)學(xué)之母之稱。因此,摸清綜合醫(yī)學(xué)與內(nèi)科學(xué)的學(xué)科發(fā)展脈絡(luò),掌握綜合醫(yī)學(xué)與內(nèi)科學(xué)的知識基礎(chǔ)和研究前沿,對于綜合醫(yī)學(xué)與內(nèi)科學(xué)的發(fā)展乃至醫(yī)學(xué)的發(fā)展具有重要意義。
1994年P(guān)ersson[1]將“知識基礎(chǔ)”定義為同被引文獻簇,而研究前沿則是由文獻耦合方法生成的、與知識基礎(chǔ)有引證關(guān)系的文獻群。從這一角度出發(fā),目前普遍使用的發(fā)現(xiàn)研究前沿和知識基礎(chǔ)的算法是聚類算法。然而傳統(tǒng)聚類是根據(jù)數(shù)據(jù)的全部屬性將數(shù)據(jù)聚類,它反映的是全局信息,無法反映局部信息,局部信息的挖掘成為了傳統(tǒng)聚類的一個瓶頸。雙聚類算法為研究者們解決了這一難題。
雙聚類算法是Hartigan于1971年提出的概念,又被稱作直接聚類算法或同時聚類(Simultaneous Clustering)[2]。它是對數(shù)據(jù)矩陣中的樣本和變量同時進行聚類,即在對象及其屬性兩個方向上同時聚類,使用對象及其屬性提取它們的聯(lián)合信息,發(fā)現(xiàn)潛在的局部模式。雙聚類對稀疏和高維矩陣尤其有效,與其他單向傳統(tǒng)聚類方法在應(yīng)用上具有很多優(yōu)勢[3]。2000年由Cheng和Church[4]首次將其引入到基因表達譜的分析中,隨后在微陣列(基因和表達條件)和生物信息學(xué)中得到廣泛應(yīng)用 。目前,雙聚類分析方法正在快速發(fā)展,但在國內(nèi)外的文獻研究中的應(yīng)用不是很多。筆者曾利用雙聚類算法對H指數(shù)學(xué)科領(lǐng)域進行了知識基礎(chǔ)和學(xué)科前沿探測[5],效果較令人滿意。本文進一步利用SCI中收錄的高影響因子期刊論文對內(nèi)科學(xué)的知識基礎(chǔ)和研究前沿進行探測,以便對今后內(nèi)科學(xué)的發(fā)展產(chǎn)生借鑒意義,進一步的驗證和推廣雙聚類方法在文獻計量學(xué)領(lǐng)域的應(yīng)用。
筆者根據(jù)中國科學(xué)院文獻情報中心世界科學(xué)前沿分析中心的JCR期刊分區(qū)數(shù)據(jù)庫中綜合醫(yī)學(xué)與內(nèi)科學(xué)的期刊影響因子分區(qū)情況,選擇位于一區(qū)的8種醫(yī)學(xué)內(nèi)科學(xué)(Medicine: General & Internal)雜志進行數(shù)據(jù)收集。經(jīng)在SCI數(shù)據(jù)庫檢索NewEnglandJournalofMedicine、Lancet、JAMA-JournaloftheAmericanMedicalAssociation、BMJ-BritishMedicalJournal、AnnalsofInternalMedicine、PlosMedicine、JAMAInternalMedicine、JournalofCachexiaSarcopeniaandMuscle近5年發(fā)表的論文,共獲得7 146篇論文及綜述,下載文獻記錄作為本研究的樣本。
利用BICOMB軟件[7]對7 146篇醫(yī)學(xué)內(nèi)科主題文獻的參考文獻進行統(tǒng)計,根據(jù)H指數(shù)的原理,選取42篇高被引文獻(因出現(xiàn)并列排名的高被引文獻,故取H=40)(表1),構(gòu)建高被引-來源文獻矩陣,將高被引-來源文獻矩陣導(dǎo)入gCLUTO軟件進行雙聚類分析。軟件運行后,高被引文獻的聚類將代表該學(xué)科的知識基礎(chǔ)(即行的聚類),來源文獻的聚類將代表該學(xué)科的研究前沿(即列的聚類)。
表1 用于雙聚類分析的高被引文獻
續(xù)表1
用gCLUTO計算的每個聚類的相似性指標,作為衡量聚類內(nèi)部質(zhì)量的參考(表2)。
表2 雙聚類結(jié)果相似性指標
ISim(類內(nèi)相似性)表示每個聚類內(nèi)部各個對象間的平均相似性,ISdev(類內(nèi)相似性標準差)表示類內(nèi)相似性的標準差,ESim(類間相似性)表示類內(nèi)對象與類外對象間的平均相似性,ESdev(類間相似性標準差))表示類間相似性的標準差。ISim值越高,ESim值越低,聚類的效果越好[8]。
除了衡量聚類內(nèi)部質(zhì)量的相似性指標外,gCLUTO還考慮了聚類的外部特征:描述性特征(descriptive features)和區(qū)別性特征(discriminating features)(圖1)。描述性特征在一定程度上反映出該類的特征,可以視其為該類團的自動標注,這些描述性特征可以為我們學(xué)科前沿提供有力的線索。
圖1 雙聚類描述性和區(qū)別性特征
雙聚類可視化矩陣如圖2所示。
圖2 雙聚類可視化矩陣
在可視化的矩陣中,矩陣原始數(shù)據(jù)的值用顏色代替,白色代表接近零值,逐漸加深的紅色代表較大的值,紅色的深淺代表被引頻次的高低。矩陣的行重新排序,使同一組的行列在一起[8]。聚類圖形的行聚類(左側(cè))表示的是對高被引文獻的分類,并在圖的右側(cè)對應(yīng)列出所代表的高被引文獻;聚類圖形的列聚類(上方)表示的是對來源文獻的聚類,并在圖的下方對應(yīng)列出所代表的來源文獻。
圖3為雙聚類結(jié)果的可視化山峰圖,該圖從更為直觀形象的角度反映雙聚類的效果。圖3中6座山峰較為獨立,分布明顯,聚類效果較好;圖3中數(shù)字為聚類號,即0代表類0。
圖3 雙聚類可視化山峰圖
結(jié)合以上雙聚類結(jié)果判定指標,雙聚類分析效果較好。依此結(jié)果可將綜合醫(yī)學(xué)與內(nèi)科學(xué)主要劃為6個主流研究方向,并結(jié)合高被引文獻和描述性特征文獻對其知識基礎(chǔ)與學(xué)科前沿做描述。
(2)為了促進信息傳播,加強學(xué)術(shù)交流,在論文發(fā)表后,本刊享有文章的轉(zhuǎn)摘權(quán)(包括英文版、電子版、網(wǎng)絡(luò)版)。作者獲得的稿費包括轉(zhuǎn)摘酬金。如作者不同意轉(zhuǎn)摘,請在投稿時說明。
3.5.1 心血管疾病隨機對照試驗
知識基礎(chǔ):自1958年以來,KAPLAN EL等人陸續(xù)提出生存分析的非參數(shù)估計[9],應(yīng)用乘積限方法估計生存概率,討論回歸函數(shù)、生存量表、藥物毒性分級的一致參數(shù)和惡病質(zhì)的定義等,為今后臨床試驗或隨機對照試驗各種指標和參數(shù)的選定起到指導(dǎo)作用。
研究前沿:心血管疾病方面的隨機對照試驗。 心血管疾病一直是醫(yī)學(xué)界關(guān)注的重點,隨著臨床試驗或隨機對照試驗各種指標和參數(shù)的不斷規(guī)范化,心血管疾病方面的隨機對照試驗也逐漸開展起來,并成為綜合醫(yī)學(xué)與內(nèi)科學(xué)領(lǐng)域研究的熱點。
3.5.2 感染性疾病和血管疾病的藥物治療
知識基礎(chǔ):感染性疾病和血管閉塞的早期藥物療法。如在美國肝臟病研究協(xié)會第61屆年會上,專家們就采用新藥治療丙型肝炎提出了大致的看法,得出明確的結(jié)論為:隨著Vertex/強生/三菱公司開發(fā)的首個直接抗病毒藥物Telaprevir[10]及由默沙東開發(fā)的Boceprevir[11]在2011年的陸續(xù)上市,丙型肝炎的標準治療方案將有重大的改進。
研究前沿:感染性疾病和血管疾病藥物治療的進展。如直接抗病毒藥物 telaprevir和boceprevir(NS3/4A蛋白酶抑制劑)的應(yīng)用是基因1型慢性丙肝病毒(HCV)感染治療方案的一大進步[12]。
3.5.3 臨床疾病的系統(tǒng)綜述和meta分析
知識基礎(chǔ):基于系統(tǒng)綜述和meta分析本身的觀察性研究。如對系統(tǒng)綜述和meta分析中偏倚的評估、異質(zhì)性的量化、不一致性的測量和臨床證據(jù)的分級等構(gòu)成本研究方向的知識基礎(chǔ)。
研究前沿:臨床疾病的系統(tǒng)綜述和Meta分析。在系統(tǒng)綜述和Meta分析的觀察性研究基礎(chǔ)上,系統(tǒng)綜述和Meta分析在臨床中的應(yīng)用成為研究熱點,其結(jié)果可為循證醫(yī)學(xué)提供臨床證據(jù)。
3.5.4 疾病負擔(dān)研究
知識基礎(chǔ):涉及21個地區(qū)的1990-2010年全球疾病負擔(dān)、傷害和風(fēng)險因素報告奠定了這一研究方向的主要知識基礎(chǔ),另外還包括了精神疾病的診斷和統(tǒng)計指南、II型糖尿病預(yù)防等。
研究前沿:1990-2010年全球疾病負擔(dān)、傷害和風(fēng)險因素報告的系統(tǒng)分析為以上知識基礎(chǔ)的延伸,是本研究方向的研究前沿,包括精神疾病負擔(dān)的系統(tǒng)分析等。
3.5.5 慢性疾病的治療效果評價
知識基礎(chǔ):利用管理性數(shù)據(jù)和縱向研究對共病進行分類,包括ICD-9、ICD-10、醫(yī)療服務(wù)收費程序、比例危險率模型等。
研究前沿:慢性疾病的治療效果評價。慢性疾病是老年病人常見共病現(xiàn)象,在對共病進行分類的基礎(chǔ)上,對慢性疾病的治療效果進行評價則成為研究熱點。
3.5.6 疾病的診斷與風(fēng)險預(yù)測
知識基礎(chǔ):疾病標記物或模型對疾病的預(yù)估作用。如利用多原因死亡率模型估計新生兒的死亡率[13]、利用新的腎小球濾過率方程式預(yù)估腎功能[14]等,疾病新標記物和新方程式的提出為疾病的診斷提供了知識基礎(chǔ)。
研究前沿:疾病的診斷與風(fēng)險預(yù)測。不論瘧疾也好,高血壓也罷,疾病的早期診斷和風(fēng)險預(yù)測都對疾病的發(fā)展起到了至關(guān)重要的作用,因此疾病的診斷與風(fēng)險預(yù)測成為內(nèi)科學(xué)領(lǐng)域的又一研究熱點。
通過以上綜合醫(yī)學(xué)與內(nèi)科學(xué)高影響力期刊的雙聚類分析,發(fā)現(xiàn)近年來綜合醫(yī)學(xué)與內(nèi)科學(xué)的研究前沿主要體現(xiàn)在疾病的診斷與風(fēng)險預(yù)測、慢性疾病的治療效果評估、疾病負擔(dān)研究、臨床疾病的系統(tǒng)綜述和Meta分析、心血管疾病隨機對照試驗、感染性疾病和血管疾病的藥物治療等6個方面,其引用的知識基礎(chǔ)也較為清晰地展現(xiàn)在讀者眼前。從中可以看出臨床流行病學(xué)和循證醫(yī)學(xué)越來越多地與臨床醫(yī)學(xué)結(jié)合,成為臨床研究者關(guān)注的方向。
雙聚類算法對近年來綜合醫(yī)學(xué)與內(nèi)科學(xué)的知識基礎(chǔ)和研究前沿的靜態(tài)描述,再次驗證了雙聚類算法在探測學(xué)科研究前沿和知識基礎(chǔ)方面的可行性及精確性,在未來的研究中可以將其推廣到各領(lǐng)域的學(xué)科發(fā)展評價中。