摘要:本研究以美國(guó)科技信息研究所出版的《科學(xué)引文索引》(SCI)為數(shù)據(jù)源檢索2004~2013年生物醫(yī)學(xué)領(lǐng)域文本挖掘文獻(xiàn),并從年度變化、國(guó)家/地區(qū)分布、作者等方面進(jìn)行文獻(xiàn)計(jì)量學(xué)分析。結(jié)果顯示:全球生物醫(yī)學(xué)文本挖掘文獻(xiàn)總量呈上升趨勢(shì)。而對(duì)其進(jìn)一步的研究,必將促進(jìn)文本挖掘技術(shù)的進(jìn)步和成熟,從而也為生物醫(yī)學(xué)領(lǐng)域的發(fā)展注入新的活力。
關(guān)鍵詞:文本挖掘;生物醫(yī)學(xué);發(fā)展動(dòng)態(tài);文獻(xiàn)計(jì)量學(xué);SCI
文本挖掘(Text mining)是數(shù)據(jù)挖掘的一個(gè)方向,當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本這種數(shù)據(jù)類型組成時(shí),這個(gè)過(guò)程就稱為文本挖掘[1]。1988 年, Swanson 教授在MEDLINE 的生物醫(yī)學(xué)文獻(xiàn)中發(fā)現(xiàn)了諸如鎂缺失與偏頭痛的醫(yī)學(xué)關(guān)系[2]并獲得了實(shí)驗(yàn)的驗(yàn)證。至此之后, 強(qiáng)有力的文本挖掘工具在現(xiàn)代生物醫(yī)學(xué)研究中扮演著越來(lái)越重要的角色。本研究采用文獻(xiàn)計(jì)量學(xué)的方法,對(duì)SCI數(shù)據(jù)庫(kù)收錄的2004~2013年間生物醫(yī)學(xué)領(lǐng)域的文本挖掘相關(guān)文獻(xiàn)從年度變化、國(guó)家/地區(qū)分布、作者等方面進(jìn)行文獻(xiàn)計(jì)量學(xué)分析,旨在了解該領(lǐng)域的研究現(xiàn)狀和發(fā)展趨勢(shì),以期為后續(xù)的研究提供參考。
1 方法
筆者所統(tǒng)計(jì)的文獻(xiàn)數(shù)據(jù)全部來(lái)源于美國(guó)ISI 的SCI 網(wǎng)絡(luò)版(SCI of Web),以與文本挖掘相關(guān)的自由詞text mining,Literature mining,Knowledge discovery in text,Text data mining和以生物醫(yī)學(xué)相關(guān)的自由詞Biomedicine,Systems biology,Medicine,Genomics,Proteomics,Metabolomics, Bioinformatics,Biology,Traditional Chinese Medicine對(duì)上述數(shù)據(jù)庫(kù)進(jìn)行主題詞搜索。然后對(duì)下載的所有文獻(xiàn)進(jìn)行數(shù)據(jù)的篩選和清理后,最終選擇納入文獻(xiàn)797篇。檢索完成時(shí)間為2014年3月20日。
2 結(jié)果
2.1年度發(fā)表量 我們整理出來(lái)的2004~2013年生物醫(yī)學(xué)領(lǐng)域文本挖掘文獻(xiàn)總共有797篇,每年的發(fā)文數(shù)量從2004年的43篇到2013年的124篇,總體呈現(xiàn)增長(zhǎng)趨勢(shì)。
2.2國(guó)家/地區(qū) 經(jīng)統(tǒng)計(jì),在所有797篇文章中總共有53個(gè)國(guó)家參與了文章的發(fā)表,遍及全世界五個(gè)大洲,但各個(gè)大洲的對(duì)該領(lǐng)域的研究極不平衡。雖然歐洲有著最高的發(fā)文總量,但是北美洲的美國(guó)卻以最高發(fā)文量(289篇)位居全球國(guó)家排名的第一位,緊隨其后的是英國(guó)(125)和中國(guó)(82).
2.3高被引論文 根據(jù)普賴斯定律[3]可以算出在納入統(tǒng)計(jì)的文獻(xiàn)中被引頻次≥42 的為高被引文獻(xiàn)(注:Mp=42.21, Npmax=3177)。797篇文獻(xiàn)中被引頻次≥42 的論文共79篇。高被引論文排名前3位的文章為。《Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources》(被引3177次),《The Gene Ontology Annotation (GOA) Database: sharing knowledge in Uniprot with Gene Ontology》(366次)和《RegulonDB (version 6.0): gene regulation model of Escherichia coli K-12 beyond transcription, active (experimental) annotated promoters and Textpresso navigation》(274次)
2.4核心作者分析 在生物醫(yī)學(xué)領(lǐng)域文本挖掘研究的797篇文獻(xiàn)中,共有2565位作者(包含所有合著者),根據(jù)普賴斯定律,核心作者最低發(fā)文數(shù)m 的值為: 。其中指發(fā)文最多的作者發(fā)表的論文數(shù)。本次研究中 為23,故m 取整數(shù)為4。作者論文4篇以上為80人,其發(fā)表的論文為468篇,占總論文量58.7%,高于總論文數(shù)的50%,說(shuō)明在生物醫(yī)學(xué)領(lǐng)域的文本挖掘研究已經(jīng)形成了較為穩(wěn)定的研究群體。
3 結(jié)論
2004~2013年以來(lái)發(fā)文數(shù)量總體呈現(xiàn)增長(zhǎng)趨勢(shì)。全球大約有60%左右的文章都是通過(guò)國(guó)家間合作完成的,美國(guó)是發(fā)表文章最多的國(guó)家,其次是英國(guó)和中國(guó)。目前文本挖掘技術(shù)在生物醫(yī)學(xué)中的應(yīng)用還處于不斷的研究和發(fā)展階段,但國(guó)際上對(duì)該領(lǐng)域的認(rèn)識(shí)正不斷提高,初步形成了一批在該領(lǐng)域的核心研究地區(qū)、核心作者和核心研究領(lǐng)域。
致謝:衷心感謝北京市“青年英才計(jì)劃”基金(YETP0821)的支持。
參考文獻(xiàn):
[1] Hearst M A. Text data mining: issues, techniques, and relationship to information access. Presentation notes for UW/MS workshop on data mining, 1997.
[2] Swanson D, Smalheiser N R. Assessing a gap in the biomedical literature: magnesium deficiency and neurologic disease[J]. Neuroscience Research Communications, 1994, 15: 1-9.
[3] 劉雪立,王兆軍.2004—2008 年我國(guó)情報(bào)專題研究高被引論文的統(tǒng)計(jì)與分析[J].情報(bào)雜志,2010, 29(1): 64-67.
編輯/王敏