張耀蕾
(武漢大學圖書館 湖北 武漢 430072)
哈佛大學圖書館網(wǎng)絡資源保存服務項目的研究和啟示
張耀蕾
(武漢大學圖書館 湖北 武漢 430072)
哈佛大學圖書館于2006年開始啟動網(wǎng)絡資源保存服務項目,旨在長期保存有學術價值的網(wǎng)絡資源。該項目的目標、流程、技術支持、知識產(chǎn)權、成果及服務的研究表明,目前網(wǎng)絡資源保存項目的技術門檻已經(jīng)降低、項目運作成熟化。我國高校圖書館可以借鑒哈佛大學圖書館,開展網(wǎng)絡資源保存項目,保存中文學術性網(wǎng)絡資源。
哈佛大學圖書館 網(wǎng)絡資源保存 網(wǎng)絡資源保存服務項目
網(wǎng)絡資源保存(Web Archive,簡稱WA)始于20世紀90年代末[1]。在數(shù)字時代,網(wǎng)絡資源已經(jīng)超越傳統(tǒng)的印本資源,成為世界上規(guī)模最大、增長最快、管理最難的信息資源。根據(jù)統(tǒng)計,截至2013年12月,我國網(wǎng)頁總數(shù)為1 500億個,相比2012年同期增長了22.2%[2];而網(wǎng)頁的平均壽命則只有44天[3]。也就是說,在指數(shù)級別的增長過程中,很多重要的網(wǎng)絡資源尤其是學術性資源,被大量淹沒在網(wǎng)絡世界中,或者由于地址變更而消失。因此,網(wǎng)絡資源保存迫在眉睫。
1996年,美國非營利性組織Internet Archive的成立標志著WA研究的興起[4]。迄今為止歐美WA的發(fā)展已經(jīng)初具規(guī)模,已完成或正在推進的項目有近百項,如澳大利亞國家圖書館的PANDORA(Preserving and Accessing Networked Documentary Resources of Australia,保存和獲取澳大利亞網(wǎng)絡文獻資源)項目,美國國會圖書館的Minerva項目等[4]。我國的網(wǎng)絡信息資源保存尚處于試驗和論證研究階段,啟動和開展的兩個主要項目是2002年北京大學的Web信息博物館(Web Infomall)項目[5]和2003年中國國家圖書館的“網(wǎng)絡信息采集與保存”(Web Information Collection and Preservation,簡稱WICP)與“網(wǎng)絡數(shù)據(jù)庫導航”(Online Database Navigation,簡稱ODBN)項目[6]。
研究表明,目前的WA項目主要由國家級圖書館、聯(lián)盟組織,如IA(Internet Archive,網(wǎng)絡檔案)、IIPC(International Internet Preservation Consortium,國際網(wǎng)絡保存聯(lián)盟),以及專業(yè)研究機構,如SDSC(San Diego Supercomputer Center,圣地亞哥超型計算機中心)負責運作。其中,國家級圖書館是WA項目的主體[4]。這是由于WA項目自身資源的海量性、復雜性及技術依賴性強等特點,使得初期WA項目的開展面臨巨大的困難和挑戰(zhàn),決定了當時WA項目無法單靠某一個機構完成,而是由國家級圖書館、聯(lián)盟組織、研究機構等跨國家、跨行業(yè)、跨語種合作,來有效分擔責任、降低風險、使獲益最大化。國家級圖書館在WA項目發(fā)展初期的領導者身份,比較容易爭取政府的法律、政策、基金支持,在尋求合作、構建規(guī)范和體系等方面具有更強的優(yōu)勢。
而現(xiàn)在,網(wǎng)絡資源的爆炸式增長對超大保存項目的存儲容量和技術維護提出了巨大的挑戰(zhàn)。例如,作為我國最大、最完整的互聯(lián)網(wǎng)信息收集與倉儲中心,北大的Web Infomall目前收藏有2001年以來約75億個中文網(wǎng)頁,并以平均每分鐘1 500 篇的網(wǎng)頁抓取速度擴張[5]。同時,WA項目發(fā)展更加成熟,技術門檻逐漸降低,模塊化體系結構得到完善,為更多機構參與WA項目提供了機會。
高校圖書館參與WA項目,在保存特色化、學術性的網(wǎng)絡資源方面有其天然的人才和資源優(yōu)勢,一方面可以分擔國家級網(wǎng)絡資源保存的壓力,另一方面可以提高網(wǎng)絡資源采集和保存的質量、優(yōu)化館藏結構。在這方面,哈佛大學圖書館作出了榜樣。
下文通過對哈佛大學圖書館網(wǎng)絡資源保存服務(Web Archive Collection Service,簡稱WAX)項目的研究,討論我國高校圖書館參與WA項目的啟示。
WAX項目是哈佛大學圖書館開發(fā)的網(wǎng)絡資源保存服務,用于有選擇性地收集并保存有價值的學術性網(wǎng)絡資源,為將來長期利用網(wǎng)絡資源的研究提供支持[7]。其項目成果是基于網(wǎng)絡的數(shù)字資源系統(tǒng),采用網(wǎng)絡界面為使用者提供資源存儲和檢索服務。
2006年7月,哈佛大學圖書館數(shù)字先導部(Library Digital Initiative,簡稱LDI)出資啟動了WAX項目,旨在處理長期保存的網(wǎng)站資源[8]。起初WAX項目僅是一個專門保存原生數(shù)字資源的LDI項目?,F(xiàn)在它已經(jīng)切換為哈佛大學圖書館的核心網(wǎng)絡資源提供系統(tǒng)。2009年2月,WAX系統(tǒng)正式上線,付諸使用[8]。
2.1 保存目標和對象
高校圖書館要像管理印本資源一樣,對有學術價值的網(wǎng)絡資源進行管理,如學術博客、個人網(wǎng)站、機構網(wǎng)站等。但是海量網(wǎng)絡資源的管理和利用是圖書館面臨的一項挑戰(zhàn)。哈佛大學圖書館WAX項目的開發(fā)就是基于這樣的挑戰(zhàn)。
WAX項目所保存的必須達到以下要求:不限學科和主題領域;必須具有圖書館式的資源質量,即資源學術性強、有長期保存的價值、旨在支持研究或教學[9]。
目前,哈佛大學圖書館發(fā)布的第一版WAX系統(tǒng)支持保存可公開獲取的網(wǎng)站資源,即可被搜索引擎發(fā)現(xiàn)的表層網(wǎng)的內容,而那些隱藏在數(shù)據(jù)庫中、或者被密碼限制或登錄保護的深層網(wǎng)內容,鑒于技術等原因暫時無法獲?。坏枪鸫髮W圖書館宣稱在將來的版本中,可以為哈佛社區(qū)讀者提供受限的網(wǎng)絡資源[9]。
2.2 管理和開發(fā)團隊
WAX項目由哈佛大學圖書館的信息系統(tǒng)辦公室(Office for Information Systems ,簡稱OIS)聯(lián)合其他三個校內合作者共同開發(fā),即哈佛大學檔案館(隸屬于哈佛大學圖書館)、亞瑟與伊麗莎白·施萊辛格圖書館美洲女性歷史項目組(隸屬于拉德克利夫高等研究學院)、愛德溫·歐·賴肖爾日本研究機構(隸屬于藝術與科學系,哈佛學院圖書館贊助)[8],每個合作者專注于一個特殊的學術領域。
哈佛大學圖書館的數(shù)字內容系統(tǒng)工作組(Digital Content Systems Working Group) 是WAX項目的監(jiān)管委員會,它向OIS提出關于數(shù)字資產(chǎn)的建立、保存和維護等各方面的技術或政策建議,OIS則通過下設的支持小組向WAX項目提供系統(tǒng)支持[10]。
所有管理者通過基于網(wǎng)絡的WAXI(Web Archive Collection Service Maintenance Interface,網(wǎng)絡資源保存服務項目維護界面)來選擇、收割、管理和描述網(wǎng)絡資源[11]。
表1 哈佛大學圖書館WAX項目采用的開源工具[9]
2.3 技術支持
WAX系統(tǒng)的采集和管理采用了IA和IIPC成員開發(fā)的幾項開源工具,具體如表1所示。收割來的網(wǎng)絡資源保存在哈佛大學圖書館的數(shù)字倉儲服務系統(tǒng)(Digital Repository Service,簡稱DRS),并可通過WAX系統(tǒng)的公共界面進行瀏覽和檢索。
2.4 工作流程
2.4.1 立項
能夠申請WAX子項目的機構或個人,首先必須是哈佛的圖書館、博物館或者檔案館的成員,有能力規(guī)劃、建設和管理WAX項目。申請者向OIS提交申請表格,內容包括WAX項目的目標和內容、預期時間表、擬保存網(wǎng)站的網(wǎng)址或模板、所用語種等信息[12]。在項目評估階段,管理者將和申請者討論項目的可行性,并評估項目的規(guī)模。一旦項目通過了評估,OIS將反饋一個項目建議書,包含任務的初始輪廓、項目時間表及相關費用,同時指派一個數(shù)字項目聯(lián)絡員給予幫助。這一過程通常需要3個月的時間[9]。
2.4.2 收割并保存網(wǎng)絡資源
項目啟動后,管理者會確定目標網(wǎng)站,將網(wǎng)址URL和網(wǎng)站管理者聯(lián)系方式(主要是電子郵件)發(fā)送給數(shù)字館員(Digital Librarian/Archivist),數(shù)字館員隨后會和網(wǎng)站管理者聯(lián)系,告知WAX項目將收割其網(wǎng)站內容,并與其簽訂一份同意收割的協(xié)議書;網(wǎng)站內容被收割以后,數(shù)字館員為其賦予特定的統(tǒng)一資源名稱(Uniform Resource Name,簡稱URN),并在相應的檢索工具(Finding Aids)中加上超鏈接;根據(jù)法律的規(guī)定,通常首次收割后必須延遲3個月的時間,保存的內容才能夠通過WAX系統(tǒng)的公共界面供公共讀者使用;最后,數(shù)字館員會討論決定網(wǎng)站收割的范圍(全域收割或局域收割)和頻率(每月/每年等)[13]。
哈佛使用的網(wǎng)絡爬蟲名為hul-wax,它的行為遵循“網(wǎng)絡爬蟲排除標準”,即通用的Robots協(xié)議[14]。網(wǎng)站所有者也可以用規(guī)定的語句修改本網(wǎng)站的robots.txt文件,以決定是否允許hul-wax收割自己的網(wǎng)站資源[15]。
2.4.3 知識產(chǎn)權
哈佛大學圖書館WAX項目的使用條款[16]規(guī)定:(1)使用范圍:網(wǎng)站和內容僅用于個人學術研究,受版權法、商標法等法律保護;(2)使用許可:使用者的任何傳播行為必須遵守相關法律,必要時必須獲得利益所有者的許可。哈佛擁有其設計和管理的WAX網(wǎng)站,個人科研之外的使用必須獲得哈佛的許可。
2.4.4 費用
根據(jù)哈佛2014關于技術服務費用的財政年度報告,WAX項目的參與者要承擔以下費用:一次性的啟動費用$12 000,包含分析、培訓、支持費用,以及啟動年的操作成本等[9];年度維護費用$7 800,包含數(shù)據(jù)庫維護和管理的直接增量成本,如硬件維護、服務器維護、設備和監(jiān)控、數(shù)據(jù)處理和存儲等費用[17];以及DRS數(shù)據(jù)庫保存數(shù)據(jù)的常規(guī)存儲費用,$1.80/十億字節(jié)/年[17]。
2.5 成果和服務
目前,WAX項目已經(jīng)保存了5個主題的網(wǎng)絡資源集合,其服務僅限于哈佛大學圖書館、博物館、檔案館及其所贊助的其他哈佛社區(qū)機構[9]。
2.5.1 成果:五個主題的網(wǎng)絡資源保存集合
哈佛大學圖書館WAX項目的3個主要參與機構已經(jīng)保存了5個主題的網(wǎng)絡資源子集。
哈佛大學檔案館(Harvard University Archives)保存了兩個子集:其一是橫跨幾個世紀、數(shù)以千記的個人檔案和哈佛附屬機構的記錄集;其二是哈佛文理學院學位授予機構和委員會的網(wǎng)站信息集,重點收集和保存學校的相關記錄。檔案館計劃進一步關注目前在哈佛生活、工作、學習的教職工和學生,并將部分收集哈佛訪問學者的知識和社會成果。
亞瑟與伊麗莎白·施萊辛格美洲婦女歷史圖書館(Arthur and Elizabeth Schlesinger Library on the History of Women in America)保存了兩個子集:其一是館藏收藏在施萊辛格圖書館的機構和個人所創(chuàng)建的網(wǎng)站集,這些網(wǎng)站是這些機構和個人重要活動和貢獻的印本文獻之外的重要補充和擴展;其二是20個樣本博客的內容集,這些博客描繪了非洲裔和拉丁裔女性、女同性戀的生活,以及女性在健康和生殖方面的問題,同時也具有代表性地反映了她們的政治參與、個人生活及工作生活等方面的情況。
埃德溫·歐·賴肖爾日本研究所(Edwin O. Reischauer Institute of Japanese Studies)保存的是與日本憲法修訂相關的網(wǎng)站信息,其同時定期保存了其他近80個相關網(wǎng)站的內容以供相關學者使用。
2.5.2 檢索服務[18]
(1)檢索方式
WAX項目目前有5個子集,使用者可以單獨檢索某一個子集,或者跨庫檢索多個子集。在某一集合頁面,使用者可以檢索整個集合,或者選擇檢索某個單獨網(wǎng)站。WAX項目對所保存的網(wǎng)站資源可提供全文關鍵詞檢索,包括網(wǎng)頁內的文字、鏈接和PDF文件;但目前不提供除加號、減號、引號以外的其他通配符檢索。高級檢索方面,目前WAX項目僅提供少量高級選項幫助檢索特定文件類型或URLs的網(wǎng)絡資源,如用“type:application/pdf”限定檢索PDF文檔。
(2)檢索結果
WAX系統(tǒng)的檢索結果默認按相關性展示,最相關的排在最前。WAX系統(tǒng)通常提供同一網(wǎng)絡資源不同時期的多保存版本,版本多少取決于WAX項目管理者為不同網(wǎng)站設置的收割頻率。值得注意的是,在收割網(wǎng)站和提供檢索之間有最少3個月延期。在檢索結果中有3種選擇:“最近保存版”提供最新保存的網(wǎng)頁版本,“全部保存版”按時間順序提供所有保存網(wǎng)頁的版本列表,“更多”提供特定網(wǎng)站的更多檢索結果。
(3)讀者界面
WAX系統(tǒng)的公共界面適合多數(shù)支持JavaScript的瀏覽器,語種支持英語和日語,字符集采用UTF-8。目前,可供讀者使用的元素有博客內容、博客評論、超鏈接、圖像、展開/折疊菜單、下拉菜單、非拉丁文字及音視頻資源(以外部鏈接方式提供的音視頻資源目前仍無法正確收割)。鑒于技術原因,網(wǎng)頁中的部分內容(如檢索框、下拉菜單、申請表格等)無法正常顯示;另外網(wǎng)頁中的某些個別部分可能不會收割(如廣告、圖像等),因為這些內容被Robots協(xié)議所排除。這些丟失內容的位置上會用“Section not archived”填充。在查看項目中保存的網(wǎng)絡資源時,要注意:等待WAX系統(tǒng)下載網(wǎng)頁完畢后再點擊網(wǎng)頁中的鏈接,否則很可能將你帶到正式網(wǎng)站上去。
2.5.3 反饋服務
為了更好地提供服務,WAX系統(tǒng)還在首頁下方提供了一個Questions and Comments服務[19],用戶可以提交表單以反饋意見和建議,這便于WAX的完善和改進。如果網(wǎng)站所有者愿意與WAX項目共享自己受版權保護的內容,也可以向哈佛提供WAX反饋表,內容包括網(wǎng)頁URL、保存日期和時間、版權保護的特定內容等。
3.1 技術門檻降低
WA項目起初最大的難點之一在于技術性要求高,需要有專門的采集、存儲、索引、訪問等工具和系統(tǒng)。高校圖書館技術力量有限,沒有人力、物力、財力負擔技術開發(fā)。而目前經(jīng)過多年的發(fā)展,國際上WA已經(jīng)形成了較好的模塊化體系架構,各環(huán)節(jié)都提供了較成熟的開源模塊和工具;同時,一些遵循開放檔案信息系統(tǒng)(Open Archival Information System,簡稱OAIS)模式的長期保存系統(tǒng)也投入實際服務。
例如,澳大利亞國家圖書館的PANDORA項目研發(fā)了數(shù)字檔案管理系統(tǒng)(Pandora Digital Archiving System,簡稱PANDAS),供給成員使用并提供技術支持。2004年英國網(wǎng)絡信息保存計劃(UK Web Archiving Consortium project,簡稱UKWAC)就采用了PANDAS,并與IIPC、IA等機構合作開發(fā)WA保存工具[4]。
2003年成立的IIPC則在WA系統(tǒng)架構、標準規(guī)范、元數(shù)據(jù)等方面建立了一系列技術規(guī)范,并資助其成員開發(fā)了從網(wǎng)絡資源采集到提供訪問服務的一系列高質量、易于使用的開源軟件工具,包括網(wǎng)絡數(shù)字打撈工具(Web Curator Tool,簡稱WCT)、互聯(lián)網(wǎng)采集高性能爬蟲Heritrix、網(wǎng)絡爬蟲工具Smart Crawler、網(wǎng)頁遷移工具DeepArc等采集工具,NutchWAX (Nutch Web Archive eXtensions)、可擴展文本框架(eXtensible Text Framework,簡稱XTF)等索引工具,以及Xing(XML INQuire)等訪問工具[4]。
另外,美國SDSC開發(fā)的Chronopolis項目,建立了基于網(wǎng)格的概念性長期保存框架;葡萄牙里斯本大學開發(fā)的Tumba搜索引擎關注大規(guī)模網(wǎng)絡資源不同時間點、不同版本的“原貌”呈現(xiàn);德國馬普學會計算機研究院開發(fā)的YAGO搜索引擎實現(xiàn)了網(wǎng)絡環(huán)境下大規(guī)模網(wǎng)絡資源給予本體的語義搜索[4]。
從哈佛大學圖書館WAX項目來看,其采用了IA、IIPC等開發(fā)的、現(xiàn)成的開源工具,于2006年啟動、2009年上線,數(shù)年間已經(jīng)初具規(guī)模。該項目的快速發(fā)展,建立在近十年來WA領域各國家級機構和研究組織所積累的豐富的技術經(jīng)驗的基礎上。這也說明目前高校圖書館參與WA項目有了豐富的技術和平臺支持。
3.2 項目運作成熟化
盡管WA項目在標準化、知識產(chǎn)權以及系統(tǒng)研發(fā)、國際合作等方面仍有許多待完善的地方,但是歐美在這方面已經(jīng)逐步進入成熟化的運作階段。在項目模式方面,澳大利亞PANDORA建立了基于采集的合作模式;IIPC構建了基于工具開發(fā)的國際合作框架;SDSC建立了基于網(wǎng)格存儲的合作框架[3]。
從WAX項目的運作可以看出,哈佛完全有能力在校內的圖書館系統(tǒng)內擔負起整個項目的管理和運作。WAX項目通過圖書館的數(shù)字內容系統(tǒng)工作組和信息系統(tǒng)辦公室進行管理,設立專門的支持小組提供技術服務,并形成了一系列工作規(guī)范和指導文件[20],如工作流程指南、資源收割質量評估指南、常用問題集錦、資源列表等;同時將收割來的網(wǎng)站數(shù)據(jù)作為哈佛的正式數(shù)字資源在DRS系統(tǒng)中長期保存和使用,這樣就和現(xiàn)有圖書館系統(tǒng)無縫鏈接,方便本校研究者使用。
我國技術能力強、項目管理經(jīng)驗豐富的高校圖書館完全可以借用哈佛大學圖書館的自主模式打造WA項目;而技術能力較弱的高校圖書館,則可以考慮申請與已經(jīng)有豐富經(jīng)驗的國家圖書館或北大圖書館合作,或者區(qū)域性多館合作,以獲取技術支持和資金支持、共享保存成果、擴大資源效益。
3.3 精選學術性保存對象
從哈佛大學圖書館WAX項目來看,其3個參與機構都有各自的學術重點,哈佛大學檔案館專注于收藏哈佛本校院系師生的網(wǎng)絡資源;亞瑟與伊麗莎白·施萊辛格與美洲婦女歷史圖書館一方面收藏本機構自建的網(wǎng)絡資源,一方面收藏與美洲女性史相關的樣本博客資源;愛德溫·歐·賴肖爾日本研究所則專門收藏與日本憲法修訂有關的網(wǎng)絡資源。三個參與機構的共同特點是針對研究者的科研項目進行收藏,收藏的對象網(wǎng)站經(jīng)過專家學者的精選,目標明確,操作性強,實用性高,保證了長期收藏的價值。
高校圖書館保存網(wǎng)絡資源不能追求大和全,而應追求專和精。針對亟待保存的網(wǎng)絡資源,國家級圖書館往往采用全面收集、聯(lián)合收集以及與出版商協(xié)作合作收集的策略。其弱點顯而易見,系統(tǒng)壓力大、質量難以控制、資金要求高、規(guī)模龐大而難以獲取深層網(wǎng)絡信息。而且,即使是國家級圖書館也難以完全實現(xiàn)全面收集,而是針對重大專題進行保存,目前只有挪威的網(wǎng)絡信息選擇策略是全部搜索[21]。況且高校圖書館在選擇性收集和專題收集上有天然的優(yōu)勢,其可以針對各個高校的學科重點和文獻采集策略集中收集單一學科的學術性網(wǎng)絡資源,并提供給學者研究使用。
3.4 細化資金預算
從哈佛2014年的WAX項目經(jīng)費方案[18]來看,經(jīng)費包括一次性的項目啟動資金為12 000美元,每年的維護費用為7 800美元,以及網(wǎng)站每年按保存資源的容量向項目參與者收取的保存費用。也就是說,啟動資金約7萬人民幣,每年維護費用約5萬人民幣。資金預算因系統(tǒng)選擇、技術基礎、人力基礎、設備設施的不同而異。
3.5 重視保護知識產(chǎn)權
學術性網(wǎng)絡資源保存涉及到利益相關者的知識產(chǎn)權問題,因此其開放的范圍和深度都有一定的限制。澳大利亞PANDORA項目的做法是根據(jù)版權的不同對資源的利用設置嚴格的用戶檢索等級表[1]。美國國會圖書館公開其存檔網(wǎng)站的書目記錄,但存檔網(wǎng)站只有已獲取制作者許可的才允許公開訪問。芬蘭、挪威、瑞士和奧地利等國家級的存檔網(wǎng)站不提供使用或者只能在特定地點訪問[23]。
哈佛大學圖書館WAX項目從以下幾個方面保護知識產(chǎn)權:(1)授權抓?。鹤ト【W(wǎng)站內容之前,取得網(wǎng)站所有者的授權。授權有兩種方式,其一是網(wǎng)站所有者主動授權,有意與哈佛分享自己網(wǎng)站內容,可以從技術上在自己的網(wǎng)站添加授權,允許哈佛的WAX爬蟲收割網(wǎng)站內容,或者主動聯(lián)系WAX項目負責人,提交申請,共享網(wǎng)絡資源。其二是WAX項目負責人選定網(wǎng)站后,聯(lián)系網(wǎng)站所有者,提供標準格式的授權書,邀請網(wǎng)站授權參與WAX項目。(2)延時公開:抓取網(wǎng)站內容后,經(jīng)過3個月的延時期再對讀者開放,減少對正式網(wǎng)站的影響和競爭(IA的延時期是6~12個月[22])。(3)限制使用:WAX項目保存的網(wǎng)站資源目前只限哈佛本校師生使用。同時其規(guī)定了免責條款,要求使用者必須用于私人學術科研目的,必須取得網(wǎng)站所有者或者WAX項目組的許可。
總體來看,WA項目的運作包含很多復雜的因素。學術性網(wǎng)絡資源更新快、保存難、利用更難,但是一旦高校圖書館管理得當,其將成為館藏資源中極具特色的一大寶藏。
綜觀哈佛大學圖書館WAX項目的運作和成果,其分散建設、集中管理、小規(guī)模展開、大范圍獲益的模式值得我國高校圖書館借鑒。哈佛大學圖書館這種主動承擔網(wǎng)絡資源保存責任的行為,也啟示我國高校圖書館對自身做出更高的定位。
總之,我國高校圖書館參與WA項目,不僅在技術上具有很高的可行性,同時有利于保存學術性網(wǎng)絡資源、充實文獻建設框架、提供全面資源服務。
[1]文振興. 東亞重要Web Archive項目建設比較研究[J]. 浙江檔案, 2013(12):22-25.
[2]中國互聯(lián)網(wǎng)絡信息中心. 第 33 次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[EB/OL]. [2014-04-25]. https://www.cnnic.net.cn/hlwfzyj/ hlwxzbg/hlwtjbg/201403/P020140305346585959798.pdf.
[3]安興茹. 歐美國家圖書館網(wǎng)絡信息保存的收集策略研究及啟示 [J]. 圖書館雜志, 2007(9):52-55.
[4]向 菁, 吳振新, 司鐵英, 等. 國際主要Web Archive項目介紹與評析[J]. 國家圖書館學刊, 2010(1):64-68.
[5]中國Web信息博物館 [EB/OL]. [2014-04-25]. http://www. infomall.cn/ .
[6]陳 力, 郝守真, 王志庚. 網(wǎng)絡信息資源的采集與保存:國家圖書館的WICP和ODBN項目介紹 [J]. 國家圖書館學刊, 2004(1): 2-6.
[7]Harvard's Web Archive Collection Service [EB/OL]. [2014-04-25]. http://wax.lib.harvard.edu.
[8]WAX History [EB/OL]. [2014-04-25]. http://hul.harvard.edu/ois/ systems/wax/history.html .
[9]Overview: Web Archive Collection Service (WAX) [EB/OL]. [2014-04-25].http://hul.harvard.edu/ois/systems/wax/.
[10]WAX Help & Community [EB/OL]. [2014-04-25]. http://hul. harvard.edu/ois/systems/wax/community.html .
[11]WAXI Maintenance System [EB/OL]. [2014-04-25]. http://hul. harvard.edu/ois/systems/wax/waximaint.html.
[12]WAX Project Inquiry Form [EB/OL]. [2014-04-25]. http://hul. harvard.edu/ois/systems/wax/f-waxinquiry.html.
[13]Harvard wiki: Manuscript Processing (Web Sites) [EB/OL]. [2014-04-25]. https://wiki.harvard.edu/confluence/display/ Proceed/Web+sites.
[14]About /robots.txt [EB/OL]. [2014-04-25]. http://www.robotstxt. org/robotstxt.html.
[15]About WAX [EB/OL]. [2014-04-25]. http://wax.lib.harvard.edu/ collections/about.do;jsessionid=1DE8801D86E433D51283 B9B7B145F0F9?kind=about&lang=eng.
[16]Term of Use [EB/OL]. [2014-04-25]. http://wax.lib.harvard.edu/ collections/tou.do?kind=tou&lang=eng.
[17]Library Systems Fees FY2014 [EB/OL]. [2014-04-25]. http:// hul.harvard.edu/ois/about/assessment.html.
[18]WAX Public Interface Help [EB/OL]. [2014-04-25]. http://hul. harvard.edu/ois/systems/wax/wax-public-help/.
[19]Web Archiving Feedback [EB/OL]. [2014-04-25]. http:// feedback.lib.harvard.edu/feedback/feedbackEmail? refU=JSBH&pageTitle= Web%20Archiving%20Feedba ck&repProb=FOOTPRINTS &repComm=FOOTPRINTS& PROJECTN AME=WAX&from User=true&FPUSECUSTFROM =true&PROJECTNUM=27.
[20]Web Archiving (WAX) Documentation [EB/OL]. [2014-04-25]. http://hul.harvard.edu/ois/support/docs-wax.html.
[21]趙麗琴. 我國網(wǎng)絡信息保存研究述評[J]. 圖書館學研究, 2011 (2):5-7.
[22]王 芳, 史海燕. 國外Web Archive 研究與實踐進展[J]. 中國圖書館學報, 2013(1):36-45.
Study on the Web Archive Collection Service Project of Harvard University Library and Its Enlightenments
Harvard University Library has started Web Archive Collection Service (WAX) project in order to archive network resources with the academic value for long time since 2006.The study on the target, the process, the technical support, the intellectual property, the result and the service of the project shows that the technical requirement of Web Archive (WA) project has become lower and the operation of WA project has become mature. The university library in China could develop WA project and archive the Chinese academic network resources by learning from Harvard University Library.
Harvard University Library; Web Archive; Web Archive Collection Service (WAX) project
G250.73
B
張耀蕾 女,1981年生,現(xiàn)工作于武漢大學圖書館。
2014-09-02 ]