許 丹,朱 斐
(蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
PubMed是由美國國立生物技術(shù)信息中心(NCBI)開發(fā)的用于檢索生物醫(yī)學(xué)文獻(xiàn)的搜索引擎。生物醫(yī)學(xué)因為更加注重理論方面的研究而從傳統(tǒng)醫(yī)學(xué)中獨立出來,它包含生物學(xué)、微生物學(xué)、化學(xué)、生物化學(xué)、生理學(xué)、動物學(xué)等眾多領(lǐng)域。正是因為生物醫(yī)學(xué)擁有龐大的研究領(lǐng)域,所以找到眾多領(lǐng)域中的熱點話題顯得至關(guān)重要?,F(xiàn)在,雖然PubMed能夠方便高效地查找數(shù)據(jù),但還是不能直接得到熱點話題。
筆者所做的工作是找出2007年到2011年間生物醫(yī)學(xué)領(lǐng)域內(nèi)的關(guān)鍵詞,然后從中提煉出熱點話題。用E-utilities編寫程序自動搜索涉及每個關(guān)鍵詞的文獻(xiàn)數(shù)目并根據(jù)這些數(shù)據(jù)畫出表格進(jìn)行直觀的分析,最終得到生物醫(yī)學(xué)領(lǐng)域內(nèi)的十大熱點話題。一方面,這些熱點話題可以幫助其他研究人員了解生物醫(yī)學(xué)的主要研究方向;另一方面,也可以為普通人提供一個簡單的了解生物醫(yī)學(xué)發(fā)展的方法。
許多研究人員在進(jìn)行類似的項目研究。Prakash M.Nadkami和 Chirag R.Parikh共同完成了一個應(yīng)用軟件,該應(yīng)用軟件能夠通過eUtils創(chuàng)建一個管道,連接特定領(lǐng)域的生物醫(yī)學(xué)文獻(xiàn),即使不會編程的用戶也能方便地使用該應(yīng)用。Weiss J.,Kirsner R.S.和Hu S.在PubMed和SCOPUS數(shù)據(jù)庫中搜索與皮膚癌有關(guān)的一些關(guān)鍵詞,結(jié)果發(fā)現(xiàn)美籍西班牙裔預(yù)防皮膚癌的主要方法。Thieu T.、Joshi S.、Warren S.和 Korkin D.介紹并比較了兩種新的方法,這兩種方法能判斷一個PubMed文獻(xiàn)中是否包含所給的特定的詞,其中一種方法是基于語言的,另一種是基于特征的。
《時代周刊》有一個名為“各式各樣的前十名”的欄目,里面有一整年大家討論最多的話題。其中有一個系列叫做“醫(yī)學(xué)十大突破點”,總結(jié)了從2007年到2011年每年的十大醫(yī)學(xué)突破點。筆者從這些突破點中總結(jié)歸納出關(guān)鍵詞(見表1),除去重復(fù)的詞,一共是34個關(guān)鍵詞。
表1 2007到2011每年的關(guān)鍵詞
E-utilities是PubMed提供的一系列接口,通過這些接口編程可以自動從該數(shù)據(jù)庫中得到數(shù)據(jù)。為了得到這些數(shù)據(jù),程序需要將URL傳到NCBI,然后得到返回結(jié)果。程序可以用多種編程語言實現(xiàn),如Perl、Python、Java、C++ 等。選用 C#語言,將得到的關(guān)鍵詞寫入文件,然后通過程序連接到數(shù)據(jù)庫,依次得到文件中每個關(guān)鍵詞從2001到2011年的文獻(xiàn)數(shù)。在程序中定義了一個叫PubMedDownload的命名空間,里面包括一個名為 Download的類。函數(shù) get-FromPub承擔(dān)了大部分程序功能。
變量定義如下:
主要查找語句是:
esResult.Count即為所需要的文獻(xiàn)數(shù)。記錄所有關(guān)鍵詞的所有數(shù)據(jù)的表格為表2。
表2 2001到2011年各關(guān)鍵詞對應(yīng)文獻(xiàn)數(shù)及平均值
根據(jù)表2中的數(shù)據(jù),尤其是每個關(guān)鍵詞的平均值,可以總結(jié)出十大熱點話題。它們是Surgery、Age、Bacteria、Genome、Food、Inflammation、Neuron、Diabetes、Blood Test和 Stem Cell(見表3)。
表3 關(guān)鍵詞中提煉的十大熱點話題
不難發(fā)現(xiàn),它們中的一些是疾病如Diabetes、Surgery和 Inflammation,但大多數(shù)是一些研究領(lǐng)域如Age、Food、Stem Cell和 Blood Test等。為什么這些詞成為熱點話題并且擁有如此巨大的文獻(xiàn)數(shù)目呢?原因也許是很復(fù)雜的。在這里,僅給出筆者的一些看法。首先,這些領(lǐng)域都涉及成千上萬的人,擁有龐大的研究對象群體。其次,這些領(lǐng)域都擁有悠久的研究歷史和廣闊的研究范圍。就拿糖尿病來說,目前全球大約有三億人受到該疾病的困擾與折磨,并且每年大約有四百萬人因糖尿病而死去,所以糖尿病是威脅人類健康的重大疾病之一。另一個關(guān)于研究領(lǐng)域的例子是血液檢測,它則是與每個人都息息相關(guān)。綜上所述,這些詞成為研究人員研究的熱門領(lǐng)域是有一定道理與依據(jù)的。
找出近年來生物醫(yī)學(xué)領(lǐng)域中的熱門話題對研究者來說是很重要的。知道并了解熱點話題可以在一定程度上幫助研究者確定自己的研究方向,發(fā)現(xiàn)生物醫(yī)學(xué)里的最新的研究發(fā)展趨勢以及預(yù)測未來的研究的發(fā)展方向。
[1]歐榮.PubMed,ISI—Medline,Google Scholar檢索性能對比測評[J].醫(yī)學(xué)信息學(xué)雜志,2009,30(12):37-40.
[2]何蛟,崔雷,侯躍芳.面向主題詞/副主題詞的PubMed數(shù)據(jù)挖掘軟件[J].中華醫(yī)學(xué)圖書情報雜志,2005,14(1):49-51.
[3]Prakash M Nadkarni,Chirag R Parikh.An eUtils toolset and its use for creating a pipeline to link genomics and proteomics analyses to domain-specific biomedical literature[J].Journal of Clinical Bioinformatics,2012,2(1):9.
[4]Chaussabel D.Biomedical literature mining:Challenges and solutions in the‘omics’era[J].Am.J.Pharmaco Genomics,2004,4(6):383-393.
[5]Thieu T,Joshi S,Warren S,et al.Literature mining of host-pathogen interactions:Comparing feature-based supervised learning and language-based approaches[J].Bioinformatics,2012,28(6):867-875.
[6]Botsis T,Nguyen M D,Woo E J,et al.Text mining for the vaccine adverse event reporting system:Medical text classification using informative feature selection[J].J.Am.Med.Inform.Assoc.,2011,18(5):631-638.
[7]熊筱晶.R語言在PubMed數(shù)據(jù)庫文獻(xiàn)檢索方面的應(yīng)用[J].醫(yī)學(xué)信息:上旬刊,2009,22(1):42-45.
[8]許昌泰.1947-2008年P(guān)ubMed中神經(jīng)遞質(zhì)相關(guān)文獻(xiàn)計量學(xué)分析[J].中華醫(yī)學(xué)圖書情報雜志,2010,19(8):74-77.
[9]Li Hai-Yan,Cui Lei,Cui Meng.Hot topics in Chinese herbal drugs research documented in PubMed/MEDLINE by authors inside China and outside of China in the past 10 years:Based on co-word cluster analysis[J].The Journalof Alternative and Complementary Medicine,2009,15(7):779-785.
[10]李友仁,劉松巖,黃敏.PubMed檢索概述[J].醫(yī)學(xué)信息:上旬刊,2002,15(7):443-446.
[11]陳會果.數(shù)據(jù)挖掘技術(shù)淺析[J].科技創(chuàng)業(yè)月刊,2010,23(11):167-168.
[12]史書俠,楊華.中華眼科雜志2001至2004年載文分析[J].中華眼科雜志,2005,41(7):652-655.
[13]NCBI.E-utilities編程接口參數(shù)描述文檔[EB/OL].http://www.ncbi.nlm.nih.gov/entrez/query/static/esoap_help.html,2012-09-13.
[14]Time.時代周刊主頁[EB/OL].http://www.time.com,2012-09-13.