■王紅劍 高愛(ài)英
1)中華醫(yī)學(xué)會(huì)雜志社,東四西大街42號(hào) 100710,E-mail:spiderking@cma.org.cn
2)人民軍醫(yī)出版社,復(fù)興路22號(hào)甲3號(hào) 100842,E-mail:gaoay@sohu.com
醫(yī)學(xué)領(lǐng)域經(jīng)常需要檢索PUBMED數(shù)據(jù)庫(kù)文獻(xiàn),如果作者逐條通過(guò) “http://www.ncbi.nlm.nih.gov/pubmed/”網(wǎng)站檢索PUBMED數(shù)據(jù)庫(kù)非常費(fèi)時(shí);由于網(wǎng)頁(yè)展現(xiàn)的文獻(xiàn)格式與期刊文獻(xiàn)著錄格式大不相同,作者通常需要按照著錄格式分別提取文題、期刊等信息。當(dāng)論文編校時(shí),編輯又要依照文獻(xiàn)格式分別核對(duì)不同信息。每篇論文的文獻(xiàn),作者與編校人員都要耗費(fèi)大量的時(shí)間精力,由于文獻(xiàn)編校時(shí)全部為人工處理,因此不能保證其正確性。國(guó)內(nèi)不少作者使用Endnote等軟件進(jìn)行文獻(xiàn)檢索,此軟件功能強(qiáng)大,國(guó)內(nèi)也有漢化和綠色版本(圖1)。筆者在使用時(shí)發(fā)現(xiàn),如果僅僅檢索PUBMED文獻(xiàn)時(shí),此軟件則使用頗為不便,檢索后的文獻(xiàn)按字段顯示,需要逐元素按參考文獻(xiàn)格式書(shū)寫(xiě)。鑒于以上原因,筆者按照中華醫(yī)學(xué)會(huì)系列雜志的文獻(xiàn)著錄格式編寫(xiě)了“紅劍檢索”程序,并且將此程序上傳至“中華醫(yī)學(xué)網(wǎng) http://www.medline.org.cn”。 當(dāng)作者與編輯共同利用此程序時(shí),可以保證檢索到的文獻(xiàn)的準(zhǔn)確性,節(jié)省了大量的人力物力[1-4]。
PubMed是美國(guó)國(guó)家醫(yī)學(xué)圖書(shū)館(NLM)所屬的國(guó)家生物技術(shù)信息中心(NCBI)基于WEB的生物醫(yī)學(xué)信息檢索系統(tǒng)。醫(yī)學(xué)領(lǐng)域作者撰寫(xiě)論文時(shí)一般會(huì)到其網(wǎng)站上檢索參考文獻(xiàn),每一條文獻(xiàn)檢索后顯示的方式都基本相同(圖2)。第一部分為期刊信息,例如“J Am Chem Soc,2008 Mar 19,130(11):3645-51.”,其后為文題“Synthesis of dihydropyridines and pyridines from imines and alkynes via C-H activation”,第三部分是作者“Colby DA,Bergman RG,Ellman JA.”,隨后則是 Source及Abstract信息。
仔細(xì)分析這幾部分顯示信息,筆者發(fā)現(xiàn),雖然國(guó)內(nèi)期刊文獻(xiàn)著錄所需 “作者”、“文題”、“期刊”元素都可以查到,但是撰寫(xiě)文獻(xiàn)時(shí)會(huì)遇到2個(gè)問(wèn)題。首先是元素順序問(wèn)題,國(guó)內(nèi)文獻(xiàn)著錄是嚴(yán)格按照“作者、文題、期刊”這3段書(shū)寫(xiě),顯然網(wǎng)頁(yè)所提供的順序與著錄格式完全不同;其次是元素詳盡程度不同,例如期刊元素一般著錄只需要“卷”,而“期”一般可以省略。
為了詳盡的了解網(wǎng)頁(yè)文獻(xiàn)的信息,筆者利用UltraEdit軟件以文本方式打開(kāi)了一篇參考文獻(xiàn)(圖3)。由于是HTML格式文件,因此文件中文獻(xiàn)“內(nèi)容”與文獻(xiàn)“格式”混合在一起。例如我們可以查找到文題信息“ArticleTile:The……”,期刊信息“Citation:JAm Chem Soc 2008……”,文件中同樣混合了“imageStrip()bj.minWith=410”等格式說(shuō)明。
如果要利用VB等程序處理這些雜亂的內(nèi)容將會(huì)極為困難,首先要分離網(wǎng)頁(yè)的“內(nèi)容”與“格式”,其次才能再加工文獻(xiàn)“內(nèi)容”。經(jīng)過(guò)簡(jiǎn)單的算法嘗試,這幾乎是不可能完成的任務(wù)。由于HTML本身的局限性,通行的數(shù)據(jù)存儲(chǔ)與傳輸都會(huì)采用更為先進(jìn)的XML格式。果然,經(jīng)過(guò)詳盡的網(wǎng)站搜索,筆者發(fā)現(xiàn)了PUBMED提供了相同文獻(xiàn)的XML顯示(圖3)。
圖1 漢化版Endnote檢索參考文獻(xiàn)
圖2 常規(guī)網(wǎng)頁(yè)顯示PUBMED文獻(xiàn)
圖3 網(wǎng)頁(yè)源代碼顯示文獻(xiàn)
相對(duì)于HTML的無(wú)序,XML格式下的文獻(xiàn)非常規(guī)范。例如“<Id>18302381</Id>”,顯示了文獻(xiàn)的PMID號(hào),<Item Name=”AuthorList” Type=”List”></Item>……這部分則是以“屬性”的方式列出了“作者群”、“作者”信息。雖然PUBMED中的XML文件對(duì)于不同元素采用了成員及屬性的不同方法,但是這些內(nèi)容都可被程序處理(圖4)。
圖4 XM L格式中作者及PM ID等標(biāo)記
筆者考慮如果利用XML現(xiàn)有的工具軟件或者插件處理XML文件可能將十分容易,但是對(duì)于操作系統(tǒng)和軟件要求可能會(huì)較高,同時(shí)會(huì)降低軟件易用性。經(jīng)過(guò)比較,筆者最終使用最為簡(jiǎn)單的 VB(Visiual Basic 6.0)編制軟件。軟件命名為“紅劍檢索”,經(jīng)過(guò)數(shù)年的修定,最新版本為Ver2.1。
首先定義一系列的程序變量,例如“a、b、c、d……”等,利于后期的程序運(yùn)行,其次按照著錄格式字段定義全部的字符串變量。變量名稱“Id”、“Pubdate”、“Source”……全部按照 PUBMED網(wǎng)站XML元素值定義,對(duì)應(yīng)于參考文獻(xiàn)所需字段則分別列出說(shuō)明“PMID號(hào)”、“出版日”、“出版源”……,由于XML大小寫(xiě)敏感,因此定義變量時(shí)嚴(yán)格大小寫(xiě)字母(圖5)。
當(dāng)定義好不同字段,即可以按照這些字段到檢索到的XML文件中檢索相應(yīng)的元素值。從XML的成員顯示中,筆者利用VB的字符串處理函數(shù)“InStr”、“Right”、“Len”得到變量“Title”值,此值即是參考文獻(xiàn)中的字段元素“文題”。同理,筆者依次得到文獻(xiàn)的“年”、“卷”、“頁(yè)”等不同字段值(圖6)。
圖5 VB程序設(shè)計(jì)中的字段定義
圖6 VB程序設(shè)計(jì)中字段的操作
取得參考文獻(xiàn)的不同元素值后,則可按照文獻(xiàn)格式進(jìn)行整合。筆者按照中華醫(yī)學(xué)會(huì)系列雜志的著錄規(guī)范依次輸出以上變量:“作者.文題.期刊名稱,年,卷,起頁(yè)-止頁(yè).”。由于是程序輸出,因此文獻(xiàn)的格式化也同時(shí)完成。不僅文獻(xiàn)輸出的內(nèi)容、順序這2個(gè)前文提到的問(wèn)題得以解決,同時(shí)文獻(xiàn)中最不易發(fā)現(xiàn)而且格式化中頗為頭痛的標(biāo)點(diǎn)符號(hào)問(wèn)題也完美解決。一般作者與編輯在輸入文獻(xiàn)的標(biāo)點(diǎn)時(shí)不易區(qū)別標(biāo)點(diǎn)中的全角“,”與半角“,”,而且無(wú)論中英文文獻(xiàn),都不可以用句號(hào)“。”而必須用半角的“.”。筆者在程序在字符串連接時(shí)嚴(yán)格定義了全半角標(biāo)點(diǎn),因此不會(huì)產(chǎn)生此類(lèi)錯(cuò)誤,因?yàn)樗麄兊腁SCII碼完全不同。
“紅劍檢索”軟件提供了XML源文件的瀏覽功能,當(dāng)使用者點(diǎn)擊標(biāo)簽“PUBMED瀏覽”時(shí),下面的文本框會(huì)顯示出XML格式文獻(xiàn)(圖7)。由于是純文本顯示,因此這些內(nèi)容可以被復(fù)制粘貼,也可以再做后期的處理,這也為后期的再開(kāi)發(fā)留下了必要的接口。
圖7 紅劍檢索程序?yàn)g覽文獻(xiàn)源文件
獲取PMID與DOI是“紅劍檢索”軟件的核心功能之一,當(dāng)使用者不能提供PMID或者DOI這些數(shù)據(jù)庫(kù)惟一標(biāo)識(shí)時(shí),只能借助“模糊檢索”取得惟一標(biāo)識(shí)。根據(jù)筆者多年P(guān)UBMED手工檢索經(jīng)驗(yàn),一般給出“姓名 年 卷 起頁(yè)”基本可以惟一確定到單條文獻(xiàn),因此軟件給出了檢索的范例文本“James nd 2006 9 221”。
如果編輯在日常工作中遇到錯(cuò)誤的元素信息,例如常見(jiàn)的姓名縮寫(xiě),期刊的卷與期的混淆,那么可以變換輸入的信息再進(jìn)行“模糊檢索”。此時(shí),輸入文題中的文本再加上出版年、起頁(yè)信息后單擊軟件中的“模糊檢索”一般也可以搜索到相應(yīng)文獻(xiàn)(圖8)。經(jīng)過(guò)上面的步驟后,軟件將得到一個(gè)準(zhǔn)確的PMID號(hào),例如“24192778”,如果文獻(xiàn)已經(jīng)被DOI標(biāo)注,則 DOI號(hào) 也 會(huì) 顯 示,例 如 “10.1039/c3cc47560c”。
當(dāng)我們利用模糊檢索得到PMID或者DOI號(hào)后,文獻(xiàn)便可以惟一的確定。當(dāng)我們?cè)谲浖腜MID文本框中輸入“18302399”,再點(diǎn)擊“精確檢索”命令后便可以得到正確的參考文獻(xiàn)“Vintonyak VV,Maier ME.Formal total synthesis of neopeltolide.Org Lett, 2008, 10:1239-1242.”(圖9)。
圖8 紅劍檢索程序中模糊檢索
圖9 利用PM ID或DOI檢索及格式化
雖然DOI是應(yīng)用更為廣泛的惟一標(biāo)識(shí),并且無(wú)論是否為PUBMED文獻(xiàn),都可以使用DOI進(jìn)行檢索,但是如果只是檢索PUBMED文獻(xiàn),筆者更傾向使用PMID號(hào)進(jìn)行檢索。由于DOI一般是數(shù)字與字母的組合,不容易錄入,而PMID通常是7到8位的數(shù)字,方便輸入;另外并非所有的PUBMED文獻(xiàn)都擁有DOI號(hào),這取決于各期刊原始文獻(xiàn)是否申請(qǐng)了DOI號(hào),而且還可能會(huì)有時(shí)滯問(wèn)題,但是每一篇PUBMED一定擁有PMID號(hào)。
如上所述,模糊檢索取得PMID號(hào),其后再利用PMID或者DOI號(hào)進(jìn)行檢索是一個(gè)完整的解決方案,但是如果直接利用PMID號(hào)進(jìn)行準(zhǔn)確的文獻(xiàn)檢索和輸出是一個(gè)最為簡(jiǎn)單高效的過(guò)程。編輯實(shí)踐中,筆者在稿件退修時(shí)便要求作者提供每一條英文文獻(xiàn)的PMID號(hào),這樣編輯再校對(duì)文獻(xiàn)時(shí)便可以直接精確檢索和輸出文獻(xiàn),節(jié)省了大量的時(shí)間。如果軟件大規(guī)模推廣,編輯與作者能共同使用,那么即使不再進(jìn)行英文文獻(xiàn)的校對(duì),也可以保證文獻(xiàn)的準(zhǔn)確性。
“紅劍檢索”這款單文件綠色軟件簡(jiǎn)單實(shí)用,其中2.1版本上傳至中華醫(yī)學(xué)會(huì)雜志社的官網(wǎng)“中華醫(yī)學(xué)網(wǎng)http://www.medline.org.cn”,筆者及同事經(jīng)過(guò)數(shù)年使用,取得較好的效果。如果編輯及作者全面使用此軟件,那么PUBMED文獻(xiàn)的檢索與著錄問(wèn)題將會(huì)基本解決。由于國(guó)內(nèi)的中文醫(yī)學(xué)文獻(xiàn)分布在萬(wàn)方、同方等不同數(shù)據(jù)庫(kù)中,并且這些數(shù)據(jù)庫(kù)未提供開(kāi)放的數(shù)據(jù)格式標(biāo)準(zhǔn),因此筆者無(wú)法編寫(xiě)相應(yīng)的中文文獻(xiàn)檢索程序。在編輯實(shí)踐中,英文文獻(xiàn)可以保證其準(zhǔn)確性,但是國(guó)內(nèi)文獻(xiàn),甚至即使是中華醫(yī)學(xué)會(huì)自身的文獻(xiàn)也無(wú)法自動(dòng)檢索與格式化,這也從一個(gè)側(cè)面反映出國(guó)內(nèi)數(shù)字出版的不足。只有當(dāng)中文文獻(xiàn)也能同PUBMED文獻(xiàn)一樣做到論文數(shù)據(jù)碎片化標(biāo)識(shí),并且遵循國(guó)際通用的數(shù)據(jù)存儲(chǔ)與傳輸標(biāo)準(zhǔn),論文的文獻(xiàn)檢索才可以保證準(zhǔn)確與高效。
1 高愛(ài)英,王紅劍.利用Word實(shí)現(xiàn)自動(dòng)更正批量處理.中國(guó)科技期刊研究,2013,24(6):1148-1150
2 沈錫賓,顧恬,呂小東.國(guó)外一基于XML的科技期刊出版工作流個(gè)案剖析.中國(guó)科技期刊研究,2011,22(4):581-583
3 高愛(ài)英,王紅劍.利用Word程序?qū)崿F(xiàn)彩圖位置的優(yōu)化.編輯學(xué)報(bào),2010,22(2):167-169
4 王紅劍,高愛(ài)英,游蘇寧.利用WORD進(jìn)行自動(dòng)編校.中國(guó)科技期刊研究,2009,20(3):502-503