何海地
〔摘 要〕Dspace軟件的運用在中國大陸、臺灣和香港呈現(xiàn)出不同的特點,通過對3地目前Dspace本地化的運用和機構(gòu)典藏的管理進行分析總結(jié),可以對我們進一步開發(fā)、推廣和運用Dspace提供思路,從而促進機構(gòu)典藏建設(shè)與管理策略制定,為實現(xiàn)開放存取打下基礎(chǔ)。
〔關(guān)鍵詞〕Dspace;開源軟件;本地化;機構(gòu)典藏
〔中圖分類號〕TP393 〔文獻標識碼〕B 〔文章編號〕1008-0821(2009)02-0126-04
The Application and Practising of Dspace in ChinaHe Haidi
(Zhongshan Institute,University of Electronic Science and Technology in China,Zhongshan 528403,China)
〔Abstract〕Dspace is being used in the Chinese Mainland,Hong Kong and Taiwan.The application of Dspace and the practising of institutional repository present different characteristics in these places.Through analysis of these characteristics,more ideas on further development,promotion and application of Dspace can be obtained,so as to promote the constructive and strategic planning of institutional repository,and to lay a foundation for achieving open access.
〔Key words〕Dspace;opeo-source software;localization;institutional repository
1 機構(gòu)典藏與Dspace
機構(gòu)典藏是以數(shù)字形式收集、保存和傳播某個機構(gòu)(學術(shù)研究機構(gòu))的學術(shù)產(chǎn)出的在線系統(tǒng)。對于一所大學而言,這些資源包括:研究性刊物上的論文,被同儕所認可的預印(或后印)電子版學術(shù)論文和學位論文,還包括一些日常學術(shù)活動中產(chǎn)生的數(shù)字產(chǎn)品,例如:行政管理文件、課程筆記和教學課件等[1]。
業(yè)界普遍認為,機構(gòu)典藏應(yīng)是開放且跨平臺的,支持OAI(Open Archive Initiative)元數(shù)據(jù)獲取通訊協(xié)議,在學術(shù)研究上允許開放存取(Open Access)。目前在網(wǎng)絡(luò)上有許多國外開發(fā)的免費或開源軟件可作為機構(gòu)典藏管理軟件使用,如:CDSware、Dspace、EPrints、Fedora、Greenstone等。根據(jù)Dspace官方網(wǎng)站的統(tǒng)計,Dspace的教育科研機構(gòu)用戶已有253家,成為全球使用最廣泛的開源軟件。
2 Dspace本地化的運用狀況分析
Dspace由麻省理工和惠普公司聯(lián)合研發(fā),用戶遍布全球。目前最新版本為Dspace1.5.1(Beta),提供了6種西文語言包,同過去推出的各種版本一樣沒有中文語言包,因此,中文用戶要使用Dspace需要克服兩個障礙,一是要通過閱讀各種英文資料去理解其復雜的安裝和維護過程;二是要完成界面本地化和功能模塊的增減,解決中文字符檢索與排序的問題,才能符合中文語言環(huán)境的使用要求。筆者以這兩點為思路,嘗試開展了一系列與Dspace相關(guān)的有益探索。
首先收集閱讀了有關(guān)Dspace的中外文資料并成功安裝,通過實際操作找到需要解決的問題;然后,通過網(wǎng)絡(luò)搜索引擎和國內(nèi)期刊網(wǎng)中有關(guān)Dspace的學術(shù)論文,特別是對在中文使用及文獻典藏集中的大陸、香港和臺灣地區(qū)Dspace的運用和管理狀況進行分析比較,從而獲得有價值的信息資料,安裝了合適中文環(huán)境的Dspace系統(tǒng),最終得以開展機構(gòu)典藏建設(shè)的實踐。在此,筆者希望將自己摸索和實踐的過程與同行分享交流。
2.1 Dspace在中國大陸的運用狀況分析
目前在中國大陸可檢索到約有7個機構(gòu)典藏用戶在使用Dspace軟件。見表1。
成功安裝Dspace1.4.2版于Windows2003后,如何將英文界面漢化相對容易學習解決,但其存在的中文檢索與排序兩個關(guān)鍵問題會影響中文用戶的正常使用。
在Dspace英文版中,按照系統(tǒng)提示步驟輸入各種元數(shù)據(jù)能成功上傳中文文檔,筆者首先根據(jù)檢索到的資料解決了中文檢索的問題,隨后筆者發(fā)現(xiàn)無論是主題(subject)、作者(author)還是題名(title),Dspace所有中文首字排序均不是按拼音,而是按Unicode編碼排列,如果不能解決中文按首字元音排序問題,題名、作者或主題排序這個模塊對于中文用戶就沒有多大意義了。資料顯示國內(nèi)只有“中國科學院力學研究所機構(gòu)知識庫”進行了較為系統(tǒng)的漢化和功能添加,解決了首字元音序排序問題。
在Dspace1.4.2版中有一個問題筆者始終沒能解決,點擊首頁界面左側(cè)欄目中的作者(author)或主題(subject)模塊后,相關(guān)的文獻就會顯示出來,如果選擇的是中文作者或主題時,一旦繼續(xù)點擊按日期排序或按題名排序,原來選擇的中文作者或主題就會變成亂碼,該作者或主題下相關(guān)的文獻就全部無法再顯示出來,英文的作者或主題則顯示正常,這個現(xiàn)象的出現(xiàn)或消失沒有規(guī)律可循。根據(jù)筆者的觀察,目前只有浙江大學圖書館的機構(gòu)典藏系統(tǒng)完整保留了Dspace的原有界面和功能,且解決了這個問題。筆者也嘗試按著有關(guān)資料的介紹去解決,在完全安裝tomcat6.0.13.后在/conf/server.xml文件中的兩處加入URIEncoding=″UTF-8″,仍然不得其法。
多數(shù)用戶直接刪除了作者(author)或主題(subject)這2個模塊,從而避開了以上2個問題的出現(xiàn)。因為沒有測試最新的Dspace1.5.1(Beta)版,這些問題是否已得到解決筆者尚無法確定。
筆者逐個訪問表1中所列的國內(nèi)機構(gòu)典藏庫后分析還發(fā)現(xiàn),由于國內(nèi)沒有機構(gòu)主持協(xié)調(diào)Dspace的開發(fā)和推廣,從而出現(xiàn)Dspace多次開發(fā)的局面,這些Dspace的界面各異,漢化程度不一致,各單位根據(jù)需要加以功能增減后,形成了不同的漢化版。其中“中國科學院文獻情報中心機構(gòu)倉儲”[2]、中國西部環(huán)境與生態(tài)科學知識積累平臺[3]和“甘青特有少數(shù)民族數(shù)字資源保存與服務(wù)系統(tǒng)”[4]3個機構(gòu)典藏庫建設(shè)項目還得到研究基金支持,可惜沒有資料顯示這些漢化后的軟件再次公開源代碼,只僅限于本機構(gòu)自用。
與其他國家或地區(qū)相比較,國內(nèi)的Dspace除了沒有形成技術(shù)開發(fā)分享外,還缺乏典藏資源共享和機構(gòu)典藏管理協(xié)作的機制,這樣不利于機構(gòu)典藏的發(fā)展,影響開放存取的實現(xiàn)。問題主要表現(xiàn)在3個方面,首先,Dspace在大機構(gòu)間有開發(fā)卻沒有推廣,一些真正需要建立機構(gòu)典藏庫的小機構(gòu)因為缺乏技術(shù)輔導而無法引入這種開源軟件;其次,沒有機構(gòu)積極組織和倡導,無法形成規(guī)模效應(yīng);再次,各自研發(fā)會導致Dspace的重復開發(fā),還會忽視各機構(gòu)間典藏數(shù)據(jù)共享和獲取這個最終目的,雖然OAI-PMH(Protocol for Metadata Harvesting)協(xié)議能使各種分布式系統(tǒng)相互溝通,能擴大研究資源的存取能力及改革學術(shù)傳播體系,但對于如何具體操作還是需要專業(yè)輔導;國內(nèi)如果沒有一定規(guī)模的Dspace用戶,沒有元數(shù)據(jù)聯(lián)合目錄或共同檢索平臺,機構(gòu)典藏開放存取的實現(xiàn)范圍將會打折扣。
目前的資料顯示,國內(nèi)有些機構(gòu)已經(jīng)開始了一些合作行動。上海情報服務(wù)平臺基于“開放、合作、共建、傳播”的原則,技術(shù)上與浙江大學圖書館合作,應(yīng)用機構(gòu)庫(Institutional Repository,IR)的開源Dspace系統(tǒng)作為系統(tǒng)平臺,內(nèi)容上依托中科院上海生命科學信息中心、中科院國家科學圖書館蘭州分館等相關(guān)研究機構(gòu),面向國內(nèi)外相關(guān)研究機構(gòu)和個人開放,共建共享情報內(nèi)容,目前推出生命科學和資源環(huán)境兩大專題欄目[5];北京清華大學的OAPS(Outstanding Academic Papers by Students)數(shù)據(jù)庫是由臺灣逢甲大學、香港城市大學、北京清華大學3校聯(lián)合創(chuàng)建的共享項目,主要收錄各成員單位的學生優(yōu)秀作品,目前有清華大學、上海交通大學、廈門大學、香港城市大學、逢甲大學、首爾大學參加了此項目。
2.2 Dspace在臺灣地區(qū)的運用狀況分析
目前在臺灣地區(qū)約有28個機構(gòu)典藏使用Dspace軟件。見表2。
臺灣和大陸一樣使用中文,也是中文文獻集中的地區(qū),其機構(gòu)典藏的發(fā)展非常值得關(guān)注。目前有臺灣大學、清華大學、逢甲大學和中央研究院的“數(shù)位典藏計劃后設(shè)資料工作組”(SMMT)等機構(gòu)開發(fā)了4種Dspace本地化版本。
由于臺灣沒有建立類似大陸學術(shù)期刊網(wǎng)式的知識倉儲,建立臺灣地區(qū)的學術(shù)產(chǎn)出存放與展示窗口顯得特別迫切。2001年臺灣中央研究開始推動“典藏數(shù)字化計劃”,支持包括圖書館在內(nèi)的超過80個不同的典藏計劃。2006年5月,臺灣大學圖書館受托于臺灣教育部開始執(zhí)行“建置機構(gòu)學術(shù)成果典藏計劃”,目前這個計劃已經(jīng)在實施推廣過程中,有近30所臺灣的大專院校參加,故稱為“IR30”,IR30先在重點院校推廣,再逐步促成更多的學校參加,達到完整保存臺灣學術(shù)研究資源及便利用的目的。它有幾個特點:
以臺灣大學為機構(gòu)典藏的運作模式為樣板,統(tǒng)一研發(fā)機構(gòu)典藏軟件。臺灣大學機構(gòu)典藏(NTUR)系統(tǒng)采用Dspace 1.4 Beta1作為開發(fā)基礎(chǔ),配合臺灣的學術(shù)研究狀況,依據(jù)中文語言特性及使用需求,本地化系統(tǒng)接口與系統(tǒng)功能,調(diào)整系統(tǒng)功能,使用更易于中文環(huán)境,推出中(簡、繁)、英、日和德文多語種界面,同時,支持OAI協(xié)議,便于建立集中的元數(shù)據(jù)聯(lián)合目錄。如今,NTUR的開發(fā)與更新已到Beta4版,不再跟隨Dspace的版本升級進行了。
美國學者Susan Gibbons指出:“機構(gòu)典藏最困難的不是科技,是內(nèi)容的征集,機構(gòu)典藏能否成功取決于政策”。NTUR“典藏計劃”除了提供技術(shù)支援外,在機構(gòu)典藏建設(shè)管理規(guī)范方面也很重視,同時推出了完備的機構(gòu)典藏作業(yè)流程文件與標準規(guī)范,作為全臺灣各大學院校建設(shè)機構(gòu)典藏的執(zhí)行參考。使各機構(gòu)在免費使用典藏軟件的同時,還獲得一套共同的典藏資源文獻收集管理的明確指引規(guī)范。
為使機構(gòu)典藏發(fā)揮最大效益,NTUR“典藏計劃”還確立了“分散建置、集中呈現(xiàn)”的原則。由各校安裝臺大開發(fā)的典藏軟件(NTUR)自行建立機構(gòu)典藏,收集各校之學術(shù)研究成果,以保持各校的主體性,展現(xiàn)本身的研究特色與研究產(chǎn)品;除各校本身系統(tǒng)外,并建立共同的臺灣機構(gòu)典藏入口網(wǎng)站(TAIR),同時檢索并連接到臺灣各院校的機構(gòu)典藏,作為臺灣地區(qū)整體學術(shù)研究成果的累積、展示與利用窗口[6]。
筆者對以上不同版本的機構(gòu)典藏進行訪問發(fā)現(xiàn),臺灣大學開發(fā)的NTUR本地化版本在功能、語言界面和操作方法各方面都比較深入,有專門的中文檢索入口,但中文字符按音序排列的問題仍然沒有解決,它同樣刪減了Dspace原有的主題排序功能模塊。筆在前面提到的英文版Dspace中存在的中文字符的主題或著者再按時間和題名排序后,主題或著者變成亂碼的問題,在政治大學和成功大學安裝的NTUR系統(tǒng)仍有發(fā)現(xiàn),而其他院校則顯示正常,筆者無法找到原因所在。
2.3 Dspace在香港的運用狀況分析
目前在香港約有5個機構(gòu)典藏使用Dspace軟件。見表3。
自2002年Dspace面世以來,香港各大學就關(guān)注并開始各自機構(gòu)典藏的建設(shè),香港科技大學和香港大學先后利用Dspace在圖書館建立了自己的機構(gòu)典藏庫。
2003年香港科技大學就開始利用Dspace軟件研發(fā)建立機構(gòu)典藏,現(xiàn)已運用到校內(nèi)4個資料庫的管理中[7],香港高校使用英文教學和研究,但也有大量的中文文獻需要收藏,雖然無需進行Dspace操作界面的漢化,但筆者仍然關(guān)注的是中文文獻的檢索與排序問題。香港科技大學做了一些深入的Dspace研發(fā)工作,實現(xiàn)多語言支持(CJK中文、日文、韓文),提供OAI數(shù)據(jù)庫跨庫搜索引擎數(shù)據(jù),Retrieve Web service/URL service(SRW/U)檢索界面等功能特色。
香港在Dspace的運用開發(fā)基本上呈個性化狀態(tài),用戶界面略顯不同,多以英文界面展現(xiàn),但都進行了本地化。值得我們關(guān)注的有三點,一是香港大學的機構(gòu)典藏被OpenDOAR收錄的情況,中國共有6家機構(gòu)典藏列入其中,分別是大陸2家、臺灣1家和香港3家,這個數(shù)字與大陸和臺灣相比,數(shù)量和比例都要高,說明香港各大學的機構(gòu)典藏內(nèi)容受國際認可度要高;二是香港科技大學的“HKIR”是專門為香港“大學教育資助委員會”資助的大學建立的平臺,現(xiàn)有六所大學的IR資源通過 OCLC的OAIHarvester2軟件在HKIR可檢索到;三是香港城市大學的機構(gòu)典藏還加入到有6所大學參加的OAPS(Outstanding Academic Papers by Students)共享項目。
3 Dspace的選擇與安裝實踐
根據(jù)歷次安裝Dspace各種版本的經(jīng)驗,筆者發(fā)現(xiàn),Dspace安裝指引始終不是很清晰,甚至需要參考不同國家的實踐者的安裝介紹,多次安裝才成功,然后要對照系統(tǒng)操作界面進行漢化編譯,每次升級改版就需要重新漢化界面一次,還存在一些無法解決的系統(tǒng)漏洞。
經(jīng)過反復檢索和查找,筆者在臺灣機構(gòu)典藏計劃網(wǎng)站(http:∥ir.org.tw/)上檢索到Ntur軟件。該軟件完全以開源的方式介紹給公眾,但要求安裝使用NTUR需要簽訂授權(quán)書,界面有簡漢、繁漢、英語3種語方言可相互轉(zhuǎn)換,是一個完全漢化的Dspace軟件,非常適合中文用戶使用。在該網(wǎng)站上還有清晰的Ntur安裝說明并及時發(fā)布補丁,對系統(tǒng)的硬件要求也給出了具體說明。目前筆者在windows2003下安裝Beta4并成功試運行,具體過程無需贅述,僅與同行分享機構(gòu)典藏計劃網(wǎng)站未曾提及之經(jīng)驗:
建議使用MySQL管理軟件(MySQL Administrator.msi)添加用戶和密碼,從而代替在Command Line Mode里輸入的各種設(shè)置用戶和密碼的命令。完成后可使用新建的Dspace賬號,測試是否能正常登入。
建議將Ntur安裝在數(shù)據(jù)盤,如D:盤,因為主要數(shù)據(jù)在默認生成Dspace目錄下的assetstore文件夾中,數(shù)據(jù)量不斷增會導致數(shù)據(jù)盤很快滿溢。修改Dspace.cfg參數(shù)時,設(shè)置Dspace.wardir=C:/Program Files/Apache Software Foundation/Tomcat 6.0/webapps,每次執(zhí)行ant update更新前要手動刪除dspace.war和dspace-oai.war文件;handle.prefix=10332,該handle號為全球惟一,現(xiàn)在需要申請付費使用。
Ntur操作界面需要本地化,其簡漢語言包(MessageszzhzCN.properties)存在于 turuildclasses和 turconfiglanguage-packs 2個文件夾中,通過執(zhí)行native2ascii.exe reverse-encoding GB18030將MessageszzhzCN.properties編譯為可修改的文本文檔,對生成的文檔進行本地化,然后再利用native2ascii.exe-encoding utf-8生成經(jīng)過本地化后的MessageszzhzCN.properties去覆蓋原有的同名文件,主要針對一些學術(shù)詞匯進行修改,如:“搜尋”改為“檢索”、“進階”改為“高級”等。輸入文件界面也需要本地漢化, turconfig中的文件input-forms.xml.zh-TW,可利用WORD的漢字繁轉(zhuǎn)簡功能進行初步轉(zhuǎn)換,然后再逐字斟酌,另存為input-forms.xml.zh-CN置于原目錄下。所有修改后的文件必須以UTF-8格式存盤。
4 總 結(jié)
結(jié)合本人的實際操作,分析和比較Dspace在大陸、臺灣地區(qū)和香港的本地化的運用和機構(gòu)典藏的管理狀況,筆者認為,臺灣的機構(gòu)典藏建設(shè)模式最值得我們關(guān)注和學習,在科學地解決了數(shù)字資源管理平臺的基礎(chǔ)上,其典藏文獻數(shù)量最多,整個“建置機構(gòu)學術(shù)成果典藏計劃”有著明確的目標、管理策略、行動綱領(lǐng)來保證其持續(xù)運作與永久保存。如今,國內(nèi)圖書館界在倡導特色資源建設(shè),也就是機構(gòu)典藏的特色化,Dspace就是一個值得推廣的數(shù)字資源管理平臺,但是我們的軟件統(tǒng)一研發(fā),以及機構(gòu)典藏的組織與管理都沒有提上日程,機構(gòu)數(shù)量及其典藏文獻質(zhì)量無法形成規(guī)模效應(yīng)。在安裝Ntur后,筆者似乎看到解決這些問題的希望,更加關(guān)注這個開源軟件的發(fā)展,畢竟Ntur有著許多優(yōu)勢吸引著中文用戶。
參考文獻
[1]Wikipedia.Institutional repository[R/OL].http:∥en.wikipedia.org,2008-05-18.
[2]林穎,張智雄.構(gòu)建基于DSpace的中文機構(gòu)倉儲系統(tǒng)[J].圖書情報工作,2007,(2):87-91.
[3]祝忠明,馬建霞,常寧,等.SEEKSpace基于DSpace的環(huán)境與生態(tài)科學知識積累平臺[J].圖書情報工作,2007,(4):71-74,108.
[4]馬建霞,祝忠明,王淵命,等.基于Dspace構(gòu)建甘青特有少數(shù)民族數(shù)字資源保存與服務(wù)系統(tǒng)[J].現(xiàn)代圖書情報技術(shù),2007,(1):54-57.
[5]http:∥218.1.116.115:8080/dspace/[EB].
[6]機構(gòu)典藏.機構(gòu)典藏計劃網(wǎng)站[R/OL].http:∥ir.org.tw,2008-05-18.
[7]Ki Tat LAM.Exploring IR Technologies[R/OL].http:∥repository.ust.hk,2008-05-18.