邵 晶 周 奇 李 威
摘要對來源不同、遵循不同協(xié)議的OA期刊的共享集成的關(guān)鍵技術(shù)問題進(jìn)行研究,提出解決問題的思路和方案,以實現(xiàn)OA期刊的共享集成,解決OA期刊源的跟蹤維護(hù)問題。
關(guān)鍵詞OA期刊共享集成關(guān)鍵技術(shù)
1研究背景
OA(Open Access,以下簡稱OA)期刊的出版模式已經(jīng)多樣化。大體上可以分為三大類:Unquali—fied OA Journals(e-only模式)、Dual Mode OA Jour—nals(both e-print and p-print模式)和Partial OA Jour-nals(Hybird OA Journal,F(xiàn)ree issues)。其中,前兩類期刊中所有文章都是OA的,而第三類期刊中只有部分文章是OA的。從OA期刊的延遲性分,又可以分為:NO Embargoed(無延遲)、Embargoed(有延遲)、Reverse embargo(出版后只OA前1-6個月,然后需要訂閱)、Free issues(某一期或某幾期是OA的)。OA期刊出版模式詳見表1。
迄今為止,全球OA期刊究竟目前有多少種,尚未有準(zhǔn)確數(shù),據(jù)DOAJ(http://www.doaj.org/)不完全收錄統(tǒng)計,截至2008年3月18日,該網(wǎng)站收錄OA期刊(no embargo)種數(shù)達(dá)到了3275種,而西安交通大學(xué)圖書館搜集到的OA期刊已經(jīng)突破1.2萬種 。
由于這些OA期刊分散在全球不同的網(wǎng)站上,各自所在的數(shù)據(jù)庫結(jié)構(gòu)各異,遵循的協(xié)議標(biāo)準(zhǔn)不一致,使得OA期刊的跟蹤收集與利用受到很大制約。為了能充分利用OA期刊,我們以O(shè)A期刊資源共享集成為研究目標(biāo),以期通過研究,探索,采用技術(shù)手段,跟蹤、收割、整合全球著名的OA期刊的元數(shù)據(jù),并提供OA期刊共享集成發(fā)布平臺,為科研人員和教學(xué)人員提供一站式檢索、瀏覽和全文鏈接服務(wù)。這項研究不僅對及時緩解我國外文資源由于經(jīng)費不足所造成的資源獲取困難的問題具有現(xiàn)實意義,而且對我國科研人員便捷地獲取全球OA期刊,及時了解、掌握國際先進(jìn)的科學(xué)技術(shù)水平和科技創(chuàng)新、快捷地引進(jìn)先進(jìn)的科學(xué)知識和國際學(xué)術(shù)科研成果都具有深遠(yuǎn)的現(xiàn)實意義。
2共享集成問題分析
西安交大于2006年初開始收集OA期刊,到目前為止,已經(jīng)收集到No Embargoed(無延遲)、Embar-goed(有延遲)和PartialOA期刊1.2萬種,這些期刊來自于:DOAJ、BMC、PMC、Freefnlltext、Freemedi—caliuomal、Open J-Gate、J—STAGE、Hi Wire Press、PLoS等不同的網(wǎng)站。盡管我們對這些期刊做了整合,提供了一個統(tǒng)一發(fā)布平臺,但是由于這些網(wǎng)站的期刊品種每年都在不斷增加,要跟蹤這些網(wǎng)站期刊品種的變化,獲取今后新發(fā)現(xiàn)的OA期刊網(wǎng)站的期刊品種及相關(guān)信息都存在很大的困難。因此需要設(shè)計一個OA期刊共享集成方案,從而真正解決不同OA期刊網(wǎng)站上的OA期刊相關(guān)信息的收割和跟蹤問題。通過對現(xiàn)有OA期刊網(wǎng)站分析,將OA期刊共享集成時所遇到的問題歸納如下:
(1)不同的OA期刊源,其元數(shù)據(jù)屬性不同,在實現(xiàn)各類OA期刊元數(shù)據(jù)共享集成時,必須要解決不同的OA期刊源的元數(shù)據(jù)的整合問題;
(2)目前并不是所有OA期刊提供者的數(shù)據(jù)格式都是采用OAI-PMH協(xié)議標(biāo)準(zhǔn),所以在數(shù)據(jù)DP(Data Provider,數(shù)據(jù)提供者)和sP(service Provider,服務(wù)提供者)之間存在不同的數(shù)據(jù)收割協(xié)議:一種是基于OAI-PMH協(xié)議;另一種是HTTP協(xié)議;特別是后者,在網(wǎng)頁中,期刊的各種信息是通過非結(jié)構(gòu)化形式組織揭示,且分布在多級頁面中,不同期刊網(wǎng)站,表現(xiàn)形式各異。
(3)收割OA期刊元數(shù)據(jù)是個動態(tài)過程,因此需要解決對OA期刊集成庫的跟蹤維護(hù)問題。
3共享集成方案設(shè)計及實現(xiàn)
3.1整體方案設(shè)計
OA期刊共享集成的設(shè)計方案主要包括數(shù)據(jù)采集和不同OA期刊源的共享集成兩個方面。
數(shù)據(jù)采集主要是進(jìn)一步對OA期刊信息進(jìn)行挖掘,分析不同來源的OA期刊及其元數(shù)據(jù)(如:期刊刊名及其URL、ISSN、出版社、出版頻率、OA的起始年、來源、embargo信息、TOC信息、摘要信息等)的發(fā)布形式,為收割后的OA期刊元數(shù)據(jù)共享集成做好基礎(chǔ)工作;共享集成主要包括研究并設(shè)計對不同來源、不同類型OA期刊網(wǎng)站的元數(shù)據(jù)收割的技術(shù)方案,實現(xiàn)OA期刊元數(shù)據(jù)收割;設(shè)計不同來源OA期刊元數(shù)據(jù)的統(tǒng)一描述的技術(shù)方案;開發(fā)共享集成平臺,提供一站式瀏覽與檢索服務(wù)。OA期刊共享集成整體解決方案如圖1所示。
3.2關(guān)鍵技術(shù)研究
OA期刊源的獲取,主要是通過到網(wǎng)上收集,挑選出與本單位學(xué)科密切相關(guān)的OA期刊網(wǎng)站,作為今后要集成的對象和跟蹤的對象。不同的OA期刊網(wǎng)站,期刊信息的發(fā)布所采用的技術(shù)手段、網(wǎng)頁揭示情況各不相同。在上述討論的問題中,統(tǒng)一不同期刊源的期刊元數(shù)據(jù)實現(xiàn)起來并不難,如果能解決對不同OA期刊源的元數(shù)據(jù)收割,那么跟蹤、更新不同期刊源的數(shù)據(jù)也就不會成為難題。關(guān)鍵問題是需要解決遵循不同協(xié)議元數(shù)據(jù)的收割問題;即分別解決基于遵循OAI-PMH協(xié)議的OA期刊源的元數(shù)據(jù)發(fā)現(xiàn)與收割問題和基于HTrP協(xié)議的OA期刊網(wǎng)頁的源代碼解析成DOM(Document Object Model)樹和元數(shù)據(jù)的提取問題。
3.2.1基于OAI-PMH協(xié)議的OA期刊源的元數(shù)據(jù)收割解決方案
OAI-PMH協(xié)議工作原理已經(jīng)在很多文章中都已經(jīng)闡述,這里不再贅述。對于基于OAI-PMH協(xié)議的OA期刊網(wǎng)站的元數(shù)據(jù)收割時的收割器使用的動詞配置描述如下:
Identity:收割OA期刊相關(guān)信息,包括期刊的名稱、ISSN號、URL、分類信息等;
ListSets:返回期刊的分類信息;
List Identifiers:返回滿足一定條件的期刊記錄;
ListRecords:收割目次級元數(shù)據(jù)。
基于OAI-PMH協(xié)議OA期刊元數(shù)據(jù)收割的流程圖如圖2所示,首先收割機(jī)器人發(fā)出收割指令,OAI服務(wù)器做出判斷,然后有選擇地返回XML格式元數(shù)據(jù),最后對得到的元數(shù)據(jù)進(jìn)行解析后存儲到本地數(shù)據(jù)庫。
3.2.2基于HTTP協(xié)議的OA期刊的元數(shù)據(jù)收割解決方案
這種收割指的是網(wǎng)頁結(jié)構(gòu)化提取,網(wǎng)頁結(jié)構(gòu)化提取是將網(wǎng)頁中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的要求提取成為結(jié)構(gòu)化數(shù)據(jù),如按需要數(shù)據(jù)收割TOC目次級別信息,甚至摘要級別信息,這樣就需要元數(shù)據(jù)收割器能做到對某一個OA期刊源站點,做智能分析,抽期刊信息:刊名、ISSN、簡介、期刊關(guān)鍵詞、期刊摘要、創(chuàng)刊年度、出版社、學(xué)科、影響因子;卷
期信息:卷、期、出版年度;目次信息:文章標(biāo)題、作者、作者聯(lián)系方式、摘要、DOI、關(guān)鍵詞、全文URL、文檔類型等。
結(jié)構(gòu)化信息提取有三種方式可以實現(xiàn),一是模板方式,二是網(wǎng)頁特征庫方式,三是人工干預(yù)方式。
(1)模板方式:對特定網(wǎng)站事先做模板配置,收割器對配置中設(shè)定數(shù)據(jù)進(jìn)行提取,這種方式主要適合于諸如open J-Gate(http://www.open/gate.org)和PubMed Central(PMC,http://www.pubmedcentral.nih.gov)這樣網(wǎng)頁界面單一、數(shù)據(jù)量大的OA期刊數(shù)據(jù)源。
(2)網(wǎng)頁特征庫方式:先將網(wǎng)頁HTML源文件進(jìn)行DOM(Document Object Model)樹解析,然后從特征庫中提取元數(shù)據(jù)特征信息,進(jìn)行提取相應(yīng)內(nèi)容。這種方式適合于諸如BioMed Central(http://www.biomedcentral.com)以及J-Stage(hap://www.jstage.jst.go.jp)這類界面風(fēng)格較為統(tǒng)一,數(shù)據(jù)層次結(jié)構(gòu)較深的期刊數(shù)據(jù)源。
(3)人工干預(yù)方式:元數(shù)據(jù)收割器將用戶制定網(wǎng)頁刪,源文件解析成DOM樹,然后用戶根據(jù)有用信息所在節(jié)點(Node),進(jìn)行批量下載和批處理,最后得到有用信息。這種方式適合于諸如High Wire Press(http://highwire.stanford.edu)和Freefulltext(http://www.free—fulltext.com)這樣下級頁面多樣,采用單一方法難以獲取TOC級別元數(shù)據(jù)的期刊數(shù)據(jù)源。
目前提供HTTP服務(wù)的OA期刊網(wǎng)站多種多樣。如果需要全面獲取較為完整的信息,單獨使用其中的一種方式均不能滿足我們的需要,所以對結(jié)構(gòu)化信息的提取,我們采用前兩種程序化的方法并結(jié)合人工干預(yù)對網(wǎng)頁進(jìn)行抓取,以實現(xiàn)準(zhǔn)確度與自動化的最佳平衡?;贖TTP協(xié)議OA期刊網(wǎng)站的元數(shù)據(jù)收割流程如圖3所示:
3.2.3OA期刊元數(shù)據(jù)的集成
不同OA期刊網(wǎng)站,其元數(shù)據(jù)屬性揭示的程度不同,在實現(xiàn)各類OA期刊元數(shù)據(jù)共享集成時,必須要解決不同OA期刊網(wǎng)站源元數(shù)據(jù)的統(tǒng)一描述問題。針對這個問題,采用DC標(biāo)準(zhǔn),DC包含有15個基本著錄項,對于期刊的元數(shù)據(jù)表達(dá)完全夠用。對不同的期刊源的元數(shù)據(jù)(期刊網(wǎng)站)實行結(jié)構(gòu)化分布式存儲;同時對獲取的遠(yuǎn)端元數(shù)據(jù)進(jìn)行本地化標(biāo)引后存入主數(shù)據(jù)庫,來實現(xiàn)一站式整合,流程加下:
3.3OA期刊共享集成系統(tǒng)的模塊化設(shè)計與實現(xiàn)
整個系統(tǒng)基于模塊化設(shè)計,分為期刊元數(shù)據(jù)的采集、本地化和發(fā)布三部分。這三個相對獨立的模塊完成各自功能,所以一旦期刊數(shù)據(jù)源發(fā)生變更或者增加新的數(shù)據(jù)源,只需要升級相應(yīng)的模塊而不要整體改變。
3.3.1OA期刊元數(shù)據(jù)采集模塊
OA期刊元數(shù)據(jù)的收割主要依靠OAI-PMH協(xié)議收割和HTTP協(xié)議抓取共同完成。開始采集時,程序首先根據(jù)OA期刊源庫中存儲的類型信息決定以何種方式采集數(shù)據(jù),同時更新期刊源庫中對應(yīng)的更新時間。OA期刊元數(shù)據(jù)采集流程如圖5所示。
對于基于OAI-PMH協(xié)議的OA期刊源,通過OAI-PMH協(xié)議收割元數(shù)據(jù),首先判斷需要收割的元數(shù)據(jù)的類型,是期刊描述信息還是期刊目次級元數(shù)據(jù);并采用不同的指令向服務(wù)器發(fā)出請求,對返回的XML文件進(jìn)行解析,將得到的數(shù)據(jù)以記錄方式存入數(shù)據(jù)庫中。
對于基于HTTP協(xié)議的OA期刊源,通過HTTP協(xié)議抓取元數(shù)據(jù),首先根據(jù)OA期刊源庫中存儲的類型信息決定該網(wǎng)站的抓取方式,是采用模板方式還是特征庫方式抓??;在頁面逐級抓取更新過程中對比上次期刊庫中上次該頁面的更新時間,如果內(nèi)容有更新,則將新獲取的原始數(shù)據(jù)以記錄方式存入數(shù)據(jù)庫,同時打上時間戳。
3.3.2元數(shù)據(jù)本地化集成化模塊
針對基于OAI協(xié)議和基于HTTP協(xié)議采集來的元數(shù)據(jù),OA期刊元數(shù)據(jù)的本地化集成在模塊設(shè)計上略有區(qū)別:由OAI-PMH途徑得到的元數(shù)據(jù)一般來說規(guī)范性較好,簡單審核后可以直接根據(jù)字段對應(yīng)關(guān)系進(jìn)行自動標(biāo)引,納入本地庫;而HTTP途徑抓取的頁面原始信息,首先需要管理員人工審核,確認(rèn)無誤后可根據(jù)字段對應(yīng)關(guān)系進(jìn)行自動標(biāo)引,而后寫入本地庫。數(shù)據(jù)的本地化集成是整個系統(tǒng)的核心,元數(shù)據(jù)信息的準(zhǔn)確性直接關(guān)系到不同OA期刊的揭示及用戶利用OA期刊的效率。元數(shù)據(jù)本地化集成模塊的工作流程如圖6所示。
3.3.3數(shù)據(jù)發(fā)布與服務(wù)
將本地化后的OA期刊數(shù)據(jù)以網(wǎng)頁的形式呈現(xiàn)給用戶,在OA期刊共享平臺上,用戶可以按刊名、分類瀏覽,也可以按照刊名關(guān)鍵字或期刊的ISSN進(jìn)行檢索,快速查找所需要的期刊。在期刊列表中,可以看到不同來源的OA期刊信息,包括OA的起始年卷、出版社、是否是peer review、Embargoed/no em,bargo時間標(biāo)識等信息。除了提供檢索功能和瀏覽功能外,還能以作者、篇名、關(guān)鍵詞、摘要作為檢索點進(jìn)行篇名目次級檢索,直接鏈接到全文。
4結(jié)論
基于上述方案,我們實現(xiàn)了不同OA期刊源的共享集成。并在實際應(yīng)用中得到了驗證。解決了今后OA期刊的收割和發(fā)布問題及跟蹤維護(hù)問題,同時為OA期刊與現(xiàn)有期刊導(dǎo)航系統(tǒng)的整合奠定了基礎(chǔ),也為今后整合OA倉儲資源積累了實踐經(jīng)驗。