劉國俊 許哲平
(中國科學(xué)院植物研究所,北京 100093)
與科學(xué)數(shù)據(jù)庫結(jié)合的機(jī)構(gòu)知識庫建設(shè)探索
劉國俊 許哲平
(中國科學(xué)院植物研究所,北京 100093)
我國機(jī)構(gòu)知識庫建設(shè)取得一定的成果,但通過對OpenDOAR的數(shù)據(jù)分析和對比發(fā)現(xiàn),我國在全球機(jī)構(gòu)知識庫中的影響力還比較小。文章提出了一個與科學(xué)數(shù)據(jù)庫相結(jié)合的IR建設(shè)新框架,并對功能和特點(diǎn)進(jìn)行了介紹。IR建設(shè)需要繼續(xù)緊密結(jié)合科研實(shí)際需求,補(bǔ)充和挖掘科學(xué)數(shù)據(jù)和特色資源,加強(qiáng)相關(guān)學(xué)科的信息資源整合,特別是科學(xué)數(shù)據(jù)庫,拓展服務(wù)方式,提高服務(wù)的深度和專業(yè)性。
科學(xué)數(shù)據(jù)庫;機(jī)構(gòu)知識庫;科研活動;大數(shù)據(jù);數(shù)據(jù)共享;訪問量
盡管機(jī)構(gòu)知識庫(IR)的定義還有一定的分歧,但是比較一致的觀點(diǎn)是:IR是各類機(jī)構(gòu)(主要是科研或教育機(jī)構(gòu))對自身的知識產(chǎn)出以數(shù)字化方式進(jìn)行收集、保存和傳播的相關(guān)工作[1]。其主要的資源類型包括各類期刊文章(已發(fā)表或未發(fā)表)和各種論文(學(xué)位論文和專著等),也可能包括其他的科研活動產(chǎn)生的數(shù)字對象,如實(shí)驗(yàn)室數(shù)據(jù)、野外觀測數(shù)據(jù)、中間處理數(shù)據(jù)、數(shù)據(jù)處理軟件、管理文檔和各類學(xué)習(xí)資源等,數(shù)據(jù)格式包括文本、多媒體(音頻、視頻)、數(shù)據(jù)庫和軟件等。因此,廣義上來講,IR應(yīng)當(dāng)是包含一系列科研活動產(chǎn)生的科學(xué)數(shù)據(jù),但是從目前來看并沒有很好地將其整合進(jìn)來,反而是科學(xué)數(shù)據(jù)的獨(dú)立建設(shè)和共享做得有聲有色。2012年,包括美國《大數(shù)據(jù)研究和發(fā)展倡議》在內(nèi)的一系列報(bào)告將以前學(xué)術(shù)界討論的“大數(shù)據(jù)”概念進(jìn)行了落地,將在今后的幾年里對相關(guān)的學(xué)術(shù)界和產(chǎn)業(yè)界產(chǎn)生重大影響。在這種大環(huán)境下,IR建設(shè)也面臨著更大的機(jī)會和挑戰(zhàn)。
在國際上,OpenDOAR(The Directory of Open Access Repositories)是首個對全球范圍內(nèi)的開放存取知識庫進(jìn)行搜集、描述和組織的項(xiàng)目,由英國的諾丁漢大學(xué)和瑞典的倫德大學(xué)圖書館于2005年共同創(chuàng)建[2-3],并在2006年正式發(fā)布上線。目前,全球有2283家開放知識庫在該網(wǎng)站進(jìn)行了注冊。通過對這些知識庫進(jìn)行分析,能有助于了解當(dāng)前國際機(jī)構(gòu)知識庫的發(fā)展現(xiàn)狀(以下OpenDOAR的統(tǒng)計(jì)數(shù)據(jù)均截止到2013年5月28日)[4]。
按國家分布的機(jī)構(gòu)數(shù)來排名,前十名分別是:美國(395家)、英國(210家)、德國(164家)、日本(138家)、西班牙(98家)、波蘭(75家)、意大利(72家)、法國(71家)、巴西(67家)、加拿大(58家)。而中國只有33家機(jī)構(gòu)注冊在案。當(dāng)然,這與我國實(shí)際情況還是有一定出入的。僅僅中國科學(xué)院的IR建設(shè)目前就有83家單位(http://www.irgrid. ac.cn/),即便考慮些未統(tǒng)計(jì)的數(shù)量,與美國、英國、德國和日本等國還是有一定的差距。
按存儲的數(shù)據(jù)類型來看,2283家機(jī)構(gòu)存儲的數(shù)據(jù)類型包括期刊論文(1549家)、學(xué)位論文(1220家)、未發(fā)表報(bào)告(823家)、專著(817家)、會議論文(804家)、多媒體和視聽材料(536家)、參考文獻(xiàn)庫(422家)、其他特殊類型(361家)、學(xué)習(xí)材料(350家)、數(shù)據(jù)集(85家)、專利材料(65家)、軟件(33家)。對比張冬榮等人的研究成果[5],可以發(fā)現(xiàn)中國科學(xué)院的IR存儲內(nèi)容多樣性太低,多集中在期刊、學(xué)位和會議論文。而且,這里很多是可以通過ScienceDirect、Wiley、SpringerLink或CNKI、萬方、維普等數(shù)據(jù)庫得到的,并沒有明顯的機(jī)構(gòu)獨(dú)有特色,自然也無法對用戶形成很大的吸引力,而對數(shù)據(jù)庫等科研信息資源則基本沒有涉及。而科學(xué)數(shù)據(jù)庫恰恰能對IR的建設(shè)起到很好的補(bǔ)充作用[6]。
為了更好地體現(xiàn)數(shù)量上的對比,這里從Open-DOAR上選取擁有50萬條以上數(shù)據(jù)記錄的機(jī)構(gòu)知識數(shù)據(jù)庫,見表1。可以看出的是,表1中除了傳統(tǒng)的實(shí)體機(jī)構(gòu)之外,也包括許多類似PubMed的在線數(shù)據(jù)庫平臺,作為一種虛擬機(jī)構(gòu)也包含在這個列表中,這無疑釋放一種信息:無實(shí)體的虛擬知識庫也是一種客觀存在的資源,并且可能會蠶食或取代沒有特色和稀缺資源的實(shí)體機(jī)構(gòu)知識庫。另外,在眾多歐美國家中,也有2個中國機(jī)構(gòu)入圍。表1還列出了這些組織機(jī)構(gòu)知識庫建設(shè)過程中使用的軟件,可以看出,要想更好地挖掘和應(yīng)用知識庫資源,推出特色服務(wù),在確保資源能夠有效利用的前提下,還需要加大自身平臺的研發(fā)力度。
通過對OpenDOAR的資源進(jìn)行簡單分析和對比,可以發(fā)現(xiàn),盡管我國機(jī)構(gòu)知識庫的發(fā)展取得了一定成績。但是,歐美等國的IR資源無論在資源的豐富度、多樣性以及廣度和深度方面都有了長足的發(fā)展。這與我國IR建設(shè)過程中出現(xiàn)同質(zhì)化嚴(yán)重、資源類型單一、關(guān)注度低等方面形成了鮮明的對比,這也為今后我國的IR建設(shè)指明了一定的方向。
我國目前主要的機(jī)構(gòu)知識庫為CALIS機(jī)構(gòu)知識庫(中國高等教育數(shù)字圖書館,網(wǎng)址為http://ir.calis. edu.cn/)和中國科學(xué)院機(jī)構(gòu)知識庫服務(wù)網(wǎng)格平臺(http://www.irgrid.ac.cn/)。前者的元數(shù)據(jù)總量為7.9萬條,28家IR(2012年11月18日)。后者為43.2萬條資源,83家IR(2012年11月18日)。這里重點(diǎn)對后者進(jìn)行介紹和分析。
在對中科院機(jī)構(gòu)知識庫的79家參與單位進(jìn)行在線調(diào)研工作(2013年5月4日)中發(fā)現(xiàn),有24家單位的IR網(wǎng)址打不開,占總數(shù)的30%。其中79家單位的資源分布情況如圖1所示。
為了相對客觀地了解IR資源的訪問情況,從中選擇31家單位做進(jìn)一步的分析。選擇的原則是:(1)3000條記錄以上;(2)能夠在線訪問;(3)頁面上有資源總量、訪問量和下載量的統(tǒng)計(jì)數(shù)字。然后利用機(jī)構(gòu)編號、資源總量和訪問總量3個參數(shù)進(jìn)行圖表分析(表2)。
從上述圖表中可以看出,資源總量與訪問量(使用情況)有一定的正相關(guān)性,但并不完全如此。如資源量在1萬條以上的IR,訪問量都在100萬人次以上。而類似水生生物研究所、沈陽自動化研究所、上海光學(xué)精密機(jī)械研究所、國家科學(xué)圖書館等單位的IR資源量雖然不足1萬,但其訪問量也在百萬人次以上。而植物研究所、南海海洋研究所、山西煤炭化學(xué)研究所等單位雖然資源量和訪問量都不太突出,但是單一資源的使用情況(訪問量/資源數(shù))卻比一些資源量或訪問量靠前的IR單位有更好的表現(xiàn)。盡管訪問量可能存在一定的問題[7]。但是,這樣的多種指標(biāo)綜合對比確實(shí)能夠?qū)R的運(yùn)行和訪問情況進(jìn)行一定的定量評估,然后從中發(fā)現(xiàn)問
題。而不是單純地從一些定性或僅僅從資源量來進(jìn)行服務(wù)評估。
表1 OpenDOAR上擁有50萬條以上記錄的機(jī)構(gòu)列表(截至2013年5月27日)
圖1 中國科學(xué)院IR資源數(shù)量分布圖
表2 中國科學(xué)院IR資源與訪問情況圖(截至2013年5月4日)
我國目前的科學(xué)數(shù)據(jù)主要集中在國家科技基礎(chǔ)條件平臺中心(http://www.escience.gov.cn)支持下的23家首批國家科技基礎(chǔ)條件平臺中的部分平臺,如國家標(biāo)本資源共享平臺等。這些平臺由多家具有雄厚科研實(shí)力的機(jī)構(gòu)和高校共同參與建設(shè)和維護(hù),都有著多年的建設(shè)和運(yùn)行經(jīng)驗(yàn),而作為國家層面的總體部署來看,也同時考慮到了政府機(jī)構(gòu)、科研部門和社會公眾等方面的需求,將成為我國今后長期基礎(chǔ)信息化工作中的重要一環(huán)。此外,還包括一些以學(xué)科主題為主線的在線數(shù)據(jù)庫系統(tǒng),其中就包括基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)(http:// www.nsdc.cn)。該平臺由中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心牽頭組織,以中國科學(xué)院、國內(nèi)重要高校和其他科研院所的基礎(chǔ)科學(xué)數(shù)據(jù)資源為基礎(chǔ),充分利用中國科學(xué)院已有的數(shù)據(jù)應(yīng)用環(huán)境基礎(chǔ)設(shè)施條件,開展基礎(chǔ)科學(xué)領(lǐng)域的數(shù)據(jù)資源整合集成與共享服務(wù),主要部署了物理、化學(xué)、生物、天文、空間等多個學(xué)科以及特定地區(qū)的專題服務(wù),其長遠(yuǎn)目標(biāo)也是成為國家科技條件平臺的認(rèn)定平臺之一。
由于基礎(chǔ)科學(xué)數(shù)據(jù)庫共享網(wǎng)匯總了多個基礎(chǔ)學(xué)科數(shù)據(jù)庫,有較好的學(xué)科代表性,并且有很好的在線資源統(tǒng)計(jì)和訪問統(tǒng)計(jì)數(shù)據(jù),所以本文以此為依據(jù)來探索科學(xué)數(shù)據(jù)庫的建設(shè)和使用情況。為了更加具體地說明該平臺的建設(shè)和運(yùn)行效果,同時也為了與IR建設(shè)進(jìn)行對比。這里也選擇了資源記錄數(shù)、訪問量和訪問量/記錄數(shù)3個指標(biāo)進(jìn)行綜合制表(表3)。
從表3中可以看出與IR建設(shè)類似的情況:資源量大的平臺,其訪問量不一定大。而總體訪問量大的平臺,單一資源訪問量也不一定大。但是,表3還可以用于分析不同學(xué)科的資源建設(shè)與訪問情況:生命學(xué)科的總體訪問和單一資源訪問量比其他學(xué)科要高不少,然后是化學(xué)和物理,其次是天文、微生物和核物理。
還可以看出的是,與科學(xué)數(shù)據(jù)的訪問量相比,IR的訪問量還是太低:表2中31家IR機(jī)構(gòu)所有的訪問量總和才4170萬人次,而表3中僅植物主題數(shù)據(jù)庫(4.7億人次)、系統(tǒng)生物學(xué)多組學(xué)綜合數(shù)據(jù)庫(3億人次)、高能物理數(shù)據(jù)庫(1億人次)這3個平臺的獨(dú)立訪問量就都在1億人次以上,而這還只是一個年度的訪問統(tǒng)計(jì)。實(shí)際上,中科院IR和基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)數(shù)據(jù)庫都有眾多的單位參與,涉及不少高校和科研機(jī)構(gòu),有很多是參與到科學(xué)院IR建設(shè)和高校的CALIS建設(shè)中,而且有些科學(xué)數(shù)據(jù)資源本身就是各個參與單位的優(yōu)勢學(xué)科資源或者專業(yè)文獻(xiàn)資料。如果這兩者能夠有效結(jié)合起來的話,不但可以使信息資源相互補(bǔ)充,而且極大地提升IR的資源和服務(wù)內(nèi)涵,還可以打通目前高校和科學(xué)院兩大獨(dú)立的IR知識庫的資源流通渠道。
從上面的分析來看,我國目前的IR建設(shè),由于意識不到位、領(lǐng)導(dǎo)不重視、項(xiàng)目支持少、人員隊(duì)伍水平不高、資源擴(kuò)展不足等原因,還多數(shù)停留在傳統(tǒng)文獻(xiàn)的收集和保存層面,屬于比較低層次的建設(shè)和服務(wù)。通過與科學(xué)數(shù)據(jù)庫的結(jié)合,IR能夠從科學(xué)數(shù)據(jù)庫項(xiàng)目中獲取更多的關(guān)于本機(jī)構(gòu)的信息資源,擴(kuò)展自身的資源來源渠道,收獲社會效益。而科學(xué)數(shù)據(jù)庫可以從IR中獲得更多有特色的專題數(shù)據(jù)庫。理想的情況是在源頭上就將科學(xué)數(shù)據(jù)庫納入IR的范圍內(nèi),這樣會使目前IR建設(shè)突破窘境。不過,由于科學(xué)數(shù)據(jù)庫大多數(shù)是得到各類項(xiàng)目或課題的資助,其影響力和重視程度比IR要高得多。而IR除了研究機(jī)構(gòu)的積極主動重視之外,并沒有太多的外部資助,同時一般研究機(jī)構(gòu)也沒有專人從事這方面的工作,自然其影響力就要小得多。另外,受資助經(jīng)費(fèi)來源和項(xiàng)目成果歸屬問題的限制,IR和科學(xué)數(shù)據(jù)庫的有機(jī)結(jié)合還有一定的困難。
但是,要看到是,大數(shù)據(jù)時代來臨的趨勢不可阻擋,如果IR的建設(shè)不能很好地跟上這股潮流的話,勢必會被主流社會越拉越遠(yuǎn)。雖然單個機(jī)構(gòu)存在人力、物力、財(cái)力方面的種種困難,但是通過前面對國內(nèi)外IR建設(shè)和國內(nèi)科學(xué)數(shù)據(jù)庫建設(shè)的現(xiàn)狀進(jìn)行分析和對比不難發(fā)現(xiàn):只要合理規(guī)劃、有效利用內(nèi)外部資源、輔以學(xué)科背景的分析和挖掘,還是能夠在IR建設(shè)方面取得成果的。
表3 基礎(chǔ)科學(xué)數(shù)據(jù)共享網(wǎng)數(shù)據(jù)庫狀況列表(2012年1月-2013年1月)
結(jié)合大數(shù)據(jù)時代的特點(diǎn)[8],同時根據(jù)IR建設(shè)過程中存在的問題[9-12],對當(dāng)前的IR建設(shè)做進(jìn)一步的擴(kuò)展,形成圖2中的建設(shè)框架。整個IR建設(shè)由4個中心(科研活動中心、發(fā)布出版中心、教育學(xué)習(xí)中心和歸檔備份中心)組成,同時還需要有四大保障:政策、人才隊(duì)伍、硬件基礎(chǔ)和軟件技術(shù)。
4個中心的主要特點(diǎn)如下所述。
科研活動中心:科研人員和學(xué)生進(jìn)行試驗(yàn)、調(diào)查和數(shù)據(jù)分析等科研活動的實(shí)體或虛擬場所,包括實(shí)驗(yàn)室、野外臺站、野外調(diào)查、數(shù)據(jù)分析、建模和數(shù)據(jù)挖掘等。這些活動中產(chǎn)生的中間過程信息,具有明顯的機(jī)構(gòu)知識庫特征,對于今后從事類似研究工作的人員來說,都是非常有意義的。當(dāng)前常提到的協(xié)同創(chuàng)新和虛擬科研環(huán)境即屬于該類中心。該中心主要是需要開發(fā)適合專業(yè)需求的信息平臺為各類科研活動提供虛擬的在線活動場所。
教育學(xué)習(xí)中心:機(jī)構(gòu)知識庫很重要的職能即為專業(yè)學(xué)生提供教學(xué)服務(wù),包括教學(xué)資源、課堂筆記、野外實(shí)習(xí)筆記以及數(shù)字化本機(jī)構(gòu)的歷史文獻(xiàn)古籍或前人的專業(yè)筆記,然后輔以數(shù)字化呈現(xiàn)。這種專業(yè)化學(xué)習(xí)中心不具有替代性,能夠有足夠的特色資源吸引各類用戶。
歸檔備份中心:目前的IR建設(shè)起到的就是一個歸檔備份中心的作用,不過這還遠(yuǎn)遠(yuǎn)不夠。更多的精力應(yīng)該放在異質(zhì)化資源的收集和整理方面,因?yàn)橥|(zhì)化資源的加工本身就意味著重復(fù)建設(shè)。除了傳統(tǒng)的文獻(xiàn)類電子資源之外,還要多多加強(qiáng)其他類型信息資源的備份和歸檔,如多媒體材料、科研活動中過程數(shù)據(jù)的歸檔和永久性保存。需要有大容量的存儲空間做支撐,同時有便利的存儲平臺,為用戶提供歸檔、備份、不同權(quán)限間的信息共享的功能。
發(fā)布出版中心:該中心主要是通過以期刊文章、專著、科研報(bào)告以及科學(xué)數(shù)據(jù)庫為表現(xiàn)形式的成果,對外形成發(fā)布出版中心。其中,科學(xué)數(shù)據(jù)庫完全符合IR的特征,是IR的一部分,不但能夠?qū)ν膺M(jìn)行公益共享,還能夠直接為出版業(yè)服務(wù),是目前IR建設(shè)一個極為重要的補(bǔ)充。例如為了順應(yīng)科學(xué)研究和數(shù)字出版的發(fā)展趨勢,中科院植物研究所和科學(xué)出版社于2013年4月簽署了《戰(zhàn)略合作協(xié)議》。除了在期刊、專著的數(shù)字出版領(lǐng)域進(jìn)行合作,雙方還計(jì)劃面向市場推出一系列植物數(shù)字資源開發(fā)產(chǎn)品,如手機(jī)植物志、手機(jī)詞典等,通過不同的終端設(shè)備或媒介,來展示和推送植物所IR資源和科學(xué)數(shù)據(jù)庫中的優(yōu)勢資源,面向社會各類需求服務(wù)。
大數(shù)據(jù)時代下的IR建設(shè)有了上述框架,但是也要有實(shí)際的保障措施,才能真正落地和推行,這就是前面提到的4個保障。在當(dāng)前的國內(nèi)體制下,政策支持是基礎(chǔ),硬件設(shè)備是前提,人才隊(duì)伍是關(guān)鍵,軟件技術(shù)是核心和提升。4個保障是相互配合的,缺少其中的任何一環(huán),都可能會出現(xiàn)不好的局面。
圖2 大數(shù)據(jù)時代下的IR建設(shè)框架
為了更好地解釋上述提到的IR建設(shè)方案,這里以中科院植物所正在推動建設(shè)的數(shù)據(jù)平臺工作為例進(jìn)行說明。由于該平臺將整合現(xiàn)有的植物所IR資源、數(shù)字化圖書館信息、出版期刊信息、科學(xué)數(shù)據(jù)庫信息,大多數(shù)信息資源還是植物所各項(xiàng)科研活動的成果,其數(shù)據(jù)記錄已經(jīng)超過千萬條以上,容量超過60TB。廣義上來說,可以認(rèn)為是大數(shù)據(jù)時代下的IR建設(shè)。
該數(shù)據(jù)平臺的目標(biāo)是一站式地整合植物所產(chǎn)生的各類信息資源(來源包括各類項(xiàng)目、各課題組、各行政部門和科研單元、研究人員和學(xué)生),并為他們提供符合工作需求的平臺和存儲空間,以及部分虛擬的服務(wù)器資源和FTP存儲空間。數(shù)據(jù)平臺自行開發(fā)的數(shù)據(jù)管理和共享平臺主要利用MYSQL、Drupal、Solr、GeoServer等開源軟件技術(shù),為廣大在所職工和學(xué)生提供數(shù)據(jù)(物種名稱、標(biāo)本、文獻(xiàn)、圖片、生態(tài)觀測數(shù)據(jù)、儀器實(shí)驗(yàn)數(shù)據(jù)、空間數(shù)據(jù)等)的在線存儲、在線備份、在線管理、在線交流的平臺,用戶能夠自己對數(shù)據(jù)進(jìn)行權(quán)限管理,為不同用戶分配權(quán)限,盡可能為用戶提供便利,制定相應(yīng)機(jī)制吸引用戶的參與和分享。通過調(diào)研和意見征集,重點(diǎn)進(jìn)行數(shù)字圖書館、數(shù)字實(shí)驗(yàn)室、數(shù)字標(biāo)本館、數(shù)字野外臺站、數(shù)字科研平臺、數(shù)字交流平臺、數(shù)字管理平臺等若干平臺的建設(shè)和研發(fā)。這些平臺產(chǎn)生和管理的數(shù)據(jù)如果能夠直接對接到研究所的IR資源庫,則無疑會大大豐富IR的數(shù)量和質(zhì)量。
在具體的方案實(shí)施方面,主要是緊密結(jié)合植物所現(xiàn)有的硬件基礎(chǔ)設(shè)施和信息化建設(shè)成果。硬件方面包括在2012年剛獲批購置的“十二五”修購專項(xiàng)設(shè)備(16個刀片服務(wù)器和180TB的存儲設(shè)備)。為了使設(shè)備的運(yùn)行和服務(wù)正常化和制度化,該平臺已經(jīng)初步制定了硬件設(shè)備資源所內(nèi)共享管理辦法以及硬件資源申請表,在全所范圍發(fā)送和回收了信息資源需求調(diào)查問卷,這些為平臺更好地開展打下了良好的需求基礎(chǔ)。信息化建設(shè)成果包括科技部基礎(chǔ)條件平臺項(xiàng)目——國家標(biāo)本資源共享平臺(NSII)及其相關(guān)的生物多樣性信息網(wǎng)站群,如關(guān)注生物物種名錄的Species 2000中國節(jié)點(diǎn)、關(guān)注植物圖像的中國自然標(biāo)本館、中國植物圖像庫,關(guān)注植物標(biāo)本的PE標(biāo)本館、中國數(shù)字植物標(biāo)本館(CVH),關(guān)注生物多樣性文獻(xiàn)的BHL(生物多樣性歷史文獻(xiàn)圖書館)中國節(jié)點(diǎn),僅這些以植物所為主要力量建設(shè)的科學(xué)數(shù)據(jù)庫其記錄就超過千萬條,容量超過60TB,而且數(shù)據(jù)增長正在逐年加快,大數(shù)據(jù)深層次分析的需求越來越緊迫。
在機(jī)構(gòu)組織和人員配置方面,擬建的數(shù)據(jù)平臺隸屬于文獻(xiàn)與信息管理中心,主要是因?yàn)槲墨I(xiàn)與信息管理中心已經(jīng)參與了多項(xiàng)科學(xué)數(shù)據(jù)庫項(xiàng)目,并且也是植物所IR的負(fù)責(zé)部門,在兩方面都有較好的經(jīng)驗(yàn)。數(shù)據(jù)平臺有一個專門技術(shù)人員負(fù)責(zé)管理,有較好的計(jì)算機(jī)技術(shù)水平和生物多樣性信息學(xué)背景,特別是熟悉數(shù)據(jù)庫處理技術(shù)和海量數(shù)據(jù)挖掘相關(guān)的工具,能夠結(jié)合各研究部門和支撐部門的業(yè)務(wù)需求,配合研究人員對各類IR資源進(jìn)行深層次的挖掘和展示。所內(nèi)各相關(guān)部門的通力合作也是必要的支持條件之一。否則,很多的資源連匯總都成問題,更別提統(tǒng)一分析了。因此,研究所在這方面也要有相應(yīng)的政策支持。
在管理機(jī)制和理念方面,數(shù)據(jù)平臺負(fù)責(zé)人除了積極學(xué)習(xí)各類相關(guān)技術(shù)之外,還入選中科院計(jì)算機(jī)網(wǎng)絡(luò)信息中心與微軟研究院聯(lián)合舉辦的“云資源學(xué)術(shù)合作計(jì)劃”。因此,通過這個機(jī)會學(xué)習(xí)和了解微軟的W indows Azure云平臺的設(shè)計(jì)理念和管理機(jī)制,也可以較好地將這些經(jīng)驗(yàn)應(yīng)用到植物所的大數(shù)據(jù)管理方案和實(shí)施工作中。所內(nèi)用戶根據(jù)自己的需求,進(jìn)行不同類型硬件資源的需求申請,負(fù)責(zé)人通過統(tǒng)一的協(xié)調(diào),對這些申請進(jìn)行落實(shí),并在后期的利用和管理過程中進(jìn)行相應(yīng)的協(xié)助。
我國機(jī)構(gòu)知識庫的建設(shè)既取得一定的成果,也遇到了一系列問題。大數(shù)據(jù)時代的到來為機(jī)構(gòu)知識庫帶來了巨大的機(jī)遇和挑戰(zhàn)。根據(jù)我國IR建設(shè)現(xiàn)階段的實(shí)際情況,結(jié)合大數(shù)據(jù)時代下的IR建設(shè)框架,今后可以從以下幾個方面加大力度,以使IR建設(shè)取得更好的成績。
(1)加強(qiáng)頂層匯交平臺的雙向作用。如中國科學(xué)院機(jī)構(gòu)知識庫服務(wù)網(wǎng)格平臺(http://www.irgrid. ac.cn/)除了對各個IR進(jìn)行資源收割之外,還要加強(qiáng)資源從匯交平臺到各個IR的反向推送作用。很多資源,特別是開放的資源,總平臺可以利用技術(shù)和人員的優(yōu)勢進(jìn)行總體匯總,再推向各個機(jī)構(gòu)的平臺。另一方面,有的文章可能是多家單位共同發(fā)表的,如果有一家單位發(fā)布在自家的IR上,總平臺就可以設(shè)法推送給其他幾個合作單位的IR。這會極大地提高各機(jī)構(gòu)知識庫的信息量和交互性,吸引更多的用戶來使用。
(2)加大異質(zhì)化資源的建設(shè),注意各方的實(shí)際權(quán)益。一些通用的期刊和文獻(xiàn),能夠比較方便地在CNKI、萬方和維普上面檢索得到,用戶就很少再到各個單位的機(jī)構(gòu)知識庫上面來搜索,畢竟信息量不是同一個級別的。但是,有些特色的資源是這些通用的文獻(xiàn)平臺所不具有的,如一些古籍、專業(yè)課題驗(yàn)收報(bào)告、內(nèi)部課件、項(xiàng)目匯報(bào)材料等。這樣才會使資源做出新意,不然很難有所突破??梢赃m當(dāng)鼓勵跨機(jī)構(gòu)的合作共建IR資源。
(3)加大與科學(xué)數(shù)據(jù)庫平臺之間的合作與聯(lián)合。借助目前國家在基礎(chǔ)條件平臺上的扶持力度和大眾的關(guān)注度,IR建設(shè)完全可以參與進(jìn)去,承擔(dān)部分課題任務(wù),前提就是要資源互補(bǔ)。在這個過程中,IR可以從科學(xué)數(shù)據(jù)庫平臺上吸引優(yōu)質(zhì)資源和用戶,自身的資源也可以在數(shù)據(jù)庫平臺上得到充分展示。更長遠(yuǎn)地,可以加強(qiáng)與通用搜索引擎(如百度、Google等)和國際開放IR平臺的合作,使更多平臺上都能搜索到IR的資源,產(chǎn)生更大的影響力。
(4)加強(qiáng)IR資源在科研和教學(xué)活動中的推送服務(wù),構(gòu)建專業(yè)信息平臺。通過專題訂閱、關(guān)鍵字訂閱、最新優(yōu)質(zhì)論文提醒和推送、著名期刊雜志的定制等服務(wù)進(jìn)行信息推送。目前應(yīng)用比較多的DSpace平臺,在功能定制和交互性等方面都還存在一定的問題,特別是對于以用戶為中心的未來IR建設(shè)不太適應(yīng),可以適當(dāng)鼓勵有基礎(chǔ)和人力的IR研發(fā)符合個性化需求的信息平臺,然后加以推廣。
(5)多方尋求政策支持,使IR融入機(jī)構(gòu)日常工作。當(dāng)前體制下,只有納入機(jī)構(gòu)的日常管理工作,才能得到更穩(wěn)定的長久支持,包括人、財(cái)、物等方面。因此,可以依托傳統(tǒng)圖書館或信息中心,擴(kuò)展IR的工作,努力成為機(jī)構(gòu)信息化工作的一部分。不然,很可能會曇花一現(xiàn)。
[1] Institutional repository [EB/OL]. [2013-05-20]. https://en.w ikipedia.org/w iki/Institutional_repository.
[2] 何琳.OpenDOAR和機(jī)構(gòu)知識庫發(fā)展現(xiàn)狀[J].圖書館工作與研究,2009(2):30-33.
[3] 田質(zhì)兵.全球開放存取知識庫發(fā)展現(xiàn)狀分析與啟示[J].圖書館建設(shè),2010(12):43-47.
[4] The Directory of Open Access Repositories-Open-DOAR [EB/OL]. [2013-05-20]. http://www.opendoar. org/.
[5] 張冬榮,祝忠明,李麟,等.中國科學(xué)院機(jī)構(gòu)知識庫建設(shè)推廣與服務(wù)[J].圖書情報(bào)工作,2013,57(1):20-25.
[6] 張曉林.顛覆數(shù)字圖書館的大趨勢[J].中國圖書館學(xué)報(bào),2011,37(5):4-12.
[7] 許哲平,覃海寧,馬克平,等.基于專業(yè)日志分析的科學(xué)數(shù)據(jù)庫平臺用戶活動研究——以中國數(shù)字植物標(biāo)本館(CVH)為例[C]//中國科學(xué)院科學(xué)數(shù)據(jù)庫辦公室.科學(xué)數(shù)據(jù)庫與信息技術(shù)論文集(第十一集). 北京:科學(xué)出版社,2011:205-211.
[8] M ichael Schroeck,Rebecca Shockley. Analytics: The real-world use of big data [EB/OL]. [2013-05-20]. http://www-935.ibm.com/services/us/gbs/thoughtleadership/ibv-big-data-at-work.htm l .
[9] 張曉林,張冬榮,李麟,等.機(jī)構(gòu)知識庫內(nèi)容保存與傳播的權(quán)利管理[J].中國圖書館學(xué)報(bào),2012(4):46-54.
[10] 朱夢皎,武夷山.中、日、印高校機(jī)構(gòu)知識庫建設(shè)現(xiàn)狀比較分析[J].圖書與情報(bào).2012(6):69-72.
[11] 曾蘇,馬建霞,湯天波,等.國內(nèi)科研機(jī)構(gòu)和高校機(jī)構(gòu)知識庫規(guī)劃建設(shè)現(xiàn)狀與問題研究[J].現(xiàn)代圖書情報(bào)技術(shù),2009(1):50-57.
[12] 李霞.關(guān)于機(jī)構(gòu)知識庫構(gòu)建的若干思考[J].中國科技資源導(dǎo)刊,2009(6):47-52.
Research on Construction of IR w ith Scientif c Database
Liu Guojun, Xu Zheping
(Institute of Botany, Chinese Academy of Sciences, Beijing 100093)
The construction of IR has been achieved a lot of fruits in recent years in China, however, it also encounters some problems. The era of Big Data brings huge opportunity and challenge for future development of IR. From the analysis of OpenDOAR data, China has less IRs than many other countries in the world. The developm ent of current IRs in China is not good as well. A new architecture of IR development has been introduced and described in this article. In the future, IRs should introduce new concept, develop new tools, build more connections with scientif c data and focus on their own special resources and make them available online. Furtherm ore, different IR s shou ld im prove and extend current in form ation service based on the features of diferent disciplines and institutes.
scientif c database, institutional repositories, scientif c researches, big data, data sharing, access statistics
G203
:ADOI:10.3772/j.issn.1674-1544.2013.04.005
劉國俊(1980- ),女,中國科學(xué)院植物研究所館員,研究方向:機(jī)構(gòu)知識庫建設(shè)、數(shù)字圖書館。
國家科技基礎(chǔ)條件平臺項(xiàng)目“植物標(biāo)本標(biāo)準(zhǔn)化整理、整合及共享平臺建設(shè)”(2005DKA21401)。
2013年5月30日。