吳 倩 王運彬
(福建師范大學社會歷史學院 福州 350117)
隨著信息化時代的到來,網(wǎng)絡的高速發(fā)展為網(wǎng)頁資源提供了利用平臺,承載了大量具有時代價值的網(wǎng)絡信息。然而網(wǎng)站更新快、互動性強等服務特點使得網(wǎng)站信息逐漸碎片化與易逝化,這些消逝的信息成為了文化資源存檔的一大阻礙。作為為社會提供綜合性服務、記錄與保存社會原始記憶的檔案機構,更應及時捕捉網(wǎng)站的每一個“鏡頭”,為網(wǎng)站的前世今生留下寶貴的記憶,網(wǎng)站檔案館應運而生。網(wǎng)站檔案館是指有關主體有選擇性地對具有長遠保存價值的網(wǎng)絡信息進行捕獲、歸檔、存儲等檔案化管理的機構[1]。
我國對網(wǎng)站檔案的研究始于2002年北京大學開設的Infomall項目[3],已有的研究成果主要聚集于以下幾個方面:①網(wǎng)頁歸檔現(xiàn)狀研究。畢云平等分析當前我國對網(wǎng)頁檔案的主要研究內(nèi)容,簡要介紹美英中的四大網(wǎng)頁檔案項目[2]74-78;王芳等調(diào)查研究了國外網(wǎng)頁歸檔在采集、內(nèi)容、保存、訪問與使用方面的現(xiàn)狀[4],對我國的網(wǎng)頁歸檔具有借鑒意義。②網(wǎng)頁歸檔項目研究。李子林等采用網(wǎng)絡調(diào)查和內(nèi)容分析法對歐洲代表性國家的網(wǎng)絡存檔案例進行探索性分析[5];曹玲與顏祥林從建設模式、資源建設、開發(fā)利用三個方面對美國國會圖書館網(wǎng)頁歸檔項目的發(fā)展變化進行了系統(tǒng)研究,提出值得我國網(wǎng)頁歸檔項目借鑒之處[6];此外還有一些學者對美英法澳等相關經(jīng)驗較為豐富的國家進行網(wǎng)頁歸檔項目研究,為國內(nèi)外網(wǎng)頁歸檔建設提供經(jīng)驗借鑒。③網(wǎng)頁歸檔工作流程研究。吳碩娜等提出Web歸檔生命周期模型在運用中的不足及改進措施[7],為網(wǎng)頁歸檔提供理論支持;黃新平分析當前國內(nèi)外在網(wǎng)頁歸檔的采集與保存等方面的技術運用情況[8],王萍等對國外網(wǎng)頁檔案資源利用途徑與發(fā)展趨勢進行分析[9]等,分別從網(wǎng)頁歸檔工作過程中的采集、技術、保存、利用方面開展了研究,為我國網(wǎng)頁歸檔指明了努力的方向。
1996年,Internet Archive網(wǎng)頁歸檔項目在美國誕生,它的成功運行拉開了全球網(wǎng)頁歸檔的序幕。自此之后,國內(nèi)外紛紛掀起了網(wǎng)頁歸檔的研究與實踐熱潮,詳見表1。
表1 國內(nèi)外網(wǎng)站檔案研究項目表
我國對網(wǎng)站檔案館的理論研究與開發(fā)實踐的深度與廣度與國外仍存在一定的差距。IA作為世界上保存網(wǎng)站最多最廣的檔案館,在體系構建、技術開發(fā)、服務創(chuàng)新等方面都具有值得借鑒之處。
Internet Archive自1996年問世以來,在法律建設、技術應用、服務創(chuàng)新等領域都取得了顯著的成績,其所歸檔的網(wǎng)站也在追溯網(wǎng)站前世、法律憑證與學術研究方面實現(xiàn)了顯著的實踐效用。
網(wǎng)站信息作為人類實踐的產(chǎn)物,反映了社會及個人真實的實踐活動,具有一定的原始性與真實性。1996年,Internet Archive開發(fā)了網(wǎng)頁回放器(Wayback Machine),允許用戶查看過去時間點的網(wǎng)站,包括已失效的網(wǎng)頁信息。大多數(shù)人到Wayback Machine是為了從中找到丟失的頁面,所訪問的網(wǎng)頁中約65%的網(wǎng)站已在萬維網(wǎng)上消逝[10]。人們只需在IA網(wǎng)站上輸入所需的網(wǎng)站域名,在時間條上選擇某個時間節(jié)點,便可得到該網(wǎng)站在該時間節(jié)點的快照信息。如在檢索框中輸入“www.google.com”,便會出現(xiàn)谷歌網(wǎng)站的時間條,選擇2015年2月28日,即可得到當天不同時間點捕捉到的谷歌網(wǎng)站。IA的網(wǎng)站回溯功能得到了廣泛的應用,如2004年7月14日,杰弗里·塔克使用IA來說明Mises.org網(wǎng)站八年來一直存在;人們可通過IA查詢已經(jīng)消失在萬維網(wǎng)上的FreeMarketNews.com網(wǎng)站所記載的哈里·布朗、蒂博爾·馬漢和托馬斯·克納普等所作出的貢獻[11]。
網(wǎng)站信息記錄了社會與人類的實踐活動,具有一定的原始記錄性,這與檔案的基本屬性相一致,也能作為重要的法律憑證之一。自問世以來,IA被廣泛應用于各種法律訴訟,已然成為法律訴訟中證據(jù)的重要一環(huán)。如2004年10月,訴訟方美國回聲星通信公司(EchoStar)使用Wayback Machine的快照作為Telewizja Polska網(wǎng)站過去內(nèi)容的證據(jù),這可能是第一次用IA收集的網(wǎng)頁數(shù)據(jù)作為證據(jù)[12]。除此之外,我國頒布的《最高人民法院關于互聯(lián)網(wǎng)法院審理案件若干問題的規(guī)定》(2018)、《最高人民法院關于修改〈關于民事訴訟證據(jù)若干規(guī)定〉的決定》(2019)等法律規(guī)定也為網(wǎng)頁等電子存證平臺的法律效力提供了法律背書。
網(wǎng)站承載著眾多時代的網(wǎng)絡信息,如新聞、文章報道、博客數(shù)據(jù)等分布于各領域的數(shù)據(jù)資源,是學術研究的重要資料來源。一旦網(wǎng)站崩潰或在萬維網(wǎng)上下線,這些重要的資料就可能會隨著網(wǎng)站一起消失,而網(wǎng)站檔案館的出現(xiàn)拯救了這些資源,為學術研究領域保留了財富。2006年3月17日,杰西· 沃克使用了Wayback Machine使他唯一的作品得以問世,這是一篇當時已不再在網(wǎng)上提供的文章;2015年12月,喬納森·費恩戈爾德使用Wayback Machine找回他寫的一篇被黑客入侵的舊文章[13]。除作為學術研究的資料來源以外,網(wǎng)站檔案也可作為網(wǎng)站自身發(fā)展與創(chuàng)新的研究素材,促進網(wǎng)站的服務優(yōu)化與技術創(chuàng)新。
通過采用裝飾者模式對采集模塊進行設計之后,可以較靈活地對采集到的數(shù)據(jù)進行必要的處理;同時,在不改變原有代碼結構體系的情況下,允許今后對數(shù)據(jù)進行進一步的運算處理和改變數(shù)據(jù)處理方法的調(diào)用順序,符合了面向對象的“開閉原則”。
IA在追溯網(wǎng)站前世、法律憑證與學術研究等方面都發(fā)揮著重要的作用,充分表明美國已具備成熟的網(wǎng)頁歸檔經(jīng)驗,主要體現(xiàn)在豐富的館藏資源、新型的技術軟件、以用戶為主的服務理念與多元的協(xié)同合作等方面。
為深入了解IA的網(wǎng)頁館藏資源,筆者統(tǒng)計了IA近五年的網(wǎng)頁歸檔數(shù)量,詳見圖1。2016—2020年,IA的網(wǎng)頁歸檔數(shù)量呈直線上升的趨勢。截至2021年2月21日,IA已采集超過5 380億的網(wǎng)頁,提供超過60pb的免費書籍、電影、軟件、音樂等資源以滿足用戶的多元化需求。其中IA的互聯(lián)網(wǎng)檔案軟件收藏是世界上最大的老式和歷史軟件庫,提供對數(shù)百萬程序、光盤圖像、文檔和多媒體的即時訪問。除此之外,IA具有極高的數(shù)據(jù)存儲能力,擁有超過2 790億個網(wǎng)頁的Internet Archive也僅保存了15pb的數(shù)據(jù)[14]。由此可見,Internet Archive所存儲的龐大網(wǎng)頁數(shù)據(jù)庫為用戶查找與利用過時或已逝的網(wǎng)頁信息提供了豐富的館藏檔案資源。
圖1 2016—2020年IA歸檔的網(wǎng)頁數(shù)量圖
IA的豐富館藏資源自然離不開它的資源采集策略。所謂網(wǎng)頁采集就是及時獲取網(wǎng)絡上值得保存的檔案信息資源,并通過各種軟件與技術方法將其進行收集與歸檔,從而提供給社會利用。IA是當今世界網(wǎng)頁采集量最大的項目,主要采用的是多種采集策略相互結合的復合式網(wǎng)頁采集方式,包括廣泛式采集與專題采集。IA同IIPC 的圖書館成員共同負責開發(fā)了Heritrix爬蟲軟件,實現(xiàn)對國家域名范圍內(nèi)或整個互聯(lián)網(wǎng)的網(wǎng)頁等其他在線資源的自動化采集。此種采集方式直接對網(wǎng)頁進行收集而不修改,對同一網(wǎng)頁的不同時間節(jié)點多次抓取,不遺漏任何信息,在最大程度上保證網(wǎng)頁信息的精確度與完整度。除此之外,IA還對突發(fā)事件及重要專題進行采集,如民間音樂項目、社區(qū)精神與宗教、故事片、電視檔案、美國專利和商標局文件等專題。IA收錄了豐富的館藏資源,為滿足用戶的網(wǎng)站檔案利用需求提供了資源保障。
IA的技術優(yōu)勢主要體現(xiàn)在其具備的網(wǎng)站搜集與檢索軟件方面。在網(wǎng)站搜集方面,IA主要運用的是其與芬蘭、瑞典等國家圖書館聯(lián)合開發(fā)的Heritrix爬蟲軟件。Heritrix采取抓取網(wǎng)頁而不修改的方式,精確地捕捉每一個完整的網(wǎng)頁內(nèi)容,實現(xiàn)大規(guī)模的網(wǎng)頁信息采集。在檢索方面,IA主要采用的是Alexa搜索引擎與Archive-It檢索軟件。Alexa是互聯(lián)網(wǎng)檔案館的創(chuàng)建者布魯斯特·卡勒的著名作品之一,它通過將自己安裝為瀏覽器工具欄并收集信息,提供了網(wǎng)絡爬蟲與其他網(wǎng)站的流量信息,可索引數(shù)十億個網(wǎng)頁[15]。被廣泛使用的Archive-It不僅允許機構收集和保存數(shù)字內(nèi)容的集合,而且會提供每一個集合中所有URI的列表、每個站點存檔的次數(shù)和日期以及存檔站點的全文檢索,允許用戶快速搜索其感興趣的主題集合,并直接將網(wǎng)頁主題集合鏈接到機構網(wǎng)站[16],為用戶的網(wǎng)頁查詢提供了重要技術保障。總之,IA開發(fā)與采用了多種網(wǎng)頁爬蟲與檢索軟件作為網(wǎng)頁資源保存與檢索利用的核心技術,為網(wǎng)頁資源進一步的開發(fā)與利用提供了可行性。
IA一直秉承著“以用戶為核心”的服務理念,主要體現(xiàn)在網(wǎng)頁收集、網(wǎng)頁設計與民眾參與三個方面。
網(wǎng)頁收集尊重網(wǎng)站擁有者的意愿。IA在利用網(wǎng)站上提供了申訴途徑,當IA所采集的網(wǎng)站信息涉及個人隱私或是其他不便公開的范圍,用戶或網(wǎng)站管理者不希望這些網(wǎng)頁被存檔時,便可申請退出收集,此時網(wǎng)頁爬蟲軟件便會繞過這些網(wǎng)站。這充分顯示IA在網(wǎng)頁收集過程中“以用戶為主”的原則,充分尊重網(wǎng)站擁有者的歸檔意愿。
網(wǎng)頁設計以服務用戶為原則。IA從最初的只是存儲數(shù)據(jù)來支持線下利用的服務方式逐漸轉為注重用戶的多樣化需求、提供原始頁面在線訪問的服務模式。IA所歸檔的網(wǎng)頁資源是向全世界開放的,用戶只需要連接上網(wǎng)絡,通過瀏覽工具在搜索框內(nèi)輸入網(wǎng)址,系統(tǒng)就會自動呈現(xiàn)該網(wǎng)站的歷年歸檔結果與歸檔日歷,用戶點擊任何一個時間點便可獲得該網(wǎng)站此時的狀態(tài)。IA提供了iOS與Android兩種系統(tǒng)的手機App在線服務方式,用戶通過網(wǎng)站上開設的App下載窗口便可獲得“指尖上的網(wǎng)站檔案館”。除此之外,IA還提供多種語言檢索與標題導航,將歸檔資源按照文件類型、網(wǎng)站與主題進行分類,以滿足全世界不同國家的用戶要求。
帶動民眾參與IA建設。IA的優(yōu)勢之一就是來自許多民眾上傳他們或他們社區(qū)創(chuàng)建的項目。民眾作為檔案館的一員,只需要注冊便可獲得一張?zhí)摂M卡,通過該卡可以建立收藏列表,為項目提出意見,發(fā)表評論,還可以上傳自己的項目到檔案館的收藏之中。民眾作為檔案館的一員也可將文件上傳到IA的書庫、文本、圖像、電影、音頻等資源庫,充分實現(xiàn)了“檔案眾包”的開發(fā)模式與“民館合作”的服務理念。
Internet Archive作為全球第一個互聯(lián)網(wǎng)檔案館,自1996年建成以來就一直致力于多元協(xié)同合作的發(fā)展模式,主要體現(xiàn)在資源、項目、技術方面的合作交流,詳見表2。IA通過與其他圖書館、博物館、企業(yè)等機構合作,共同開發(fā)資源采集與存儲的新型技術,也獲得了一定的資金支持。值得一提的是,IA于2003年7月與澳大利亞、加拿大、丹麥等國的國家圖書館及美國國會圖書館共12個機構聯(lián)合組成國際互聯(lián)網(wǎng)保存聯(lián)盟(International Internet Preservation Consortium,IIPC),它采用責任平等的合作機制,鼓勵世界范圍內(nèi)的文化遺產(chǎn)保護機構一起參與網(wǎng)絡信息資源保存的工作,目前IIPC已吸納40多個機構成員[17]。IA與其他成員的合作往往采取一對一的模式,合作之間沒有明確的權責。這種合作模式雖具有一定的松散性,但也在一定程度上增強了合作的自主性。機構成員的多元化不僅促進了國際上網(wǎng)站歸檔的技術交流與經(jīng)驗共享,對資源采集、永久保存、元數(shù)據(jù)等方面的規(guī)范標準及技術的形成與發(fā)展也起到了一定的推動作用。
表2 IA部分合作項目表
美國IA的網(wǎng)頁歸檔項目起步較早,其豐富的館藏資源、新型的技術軟件、以用戶為核心的服務理念與多元的協(xié)同合作等方面的開發(fā)亮點,在體系、合作、技術、人員、開發(fā)與危機防范等方面為我國網(wǎng)頁歸檔的建設與優(yōu)化指明了方向。
2016年4 月,國家檔案局印發(fā)的《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》提出要將“研究制定重要網(wǎng)頁資源的采集和社交媒體文件的歸檔管理辦法”作為提升電子檔案管理水平的任務之一。但我國仍缺乏對網(wǎng)頁歸檔的統(tǒng)一體系建設,使得各網(wǎng)頁歸檔項目在實踐時無章可循。國內(nèi)網(wǎng)站檔案館可遵循“統(tǒng)一領導,分級管理”的原則對我國網(wǎng)頁進行歸檔。國家層面應建設國家網(wǎng)站檔案館,負責統(tǒng)籌規(guī)劃和統(tǒng)一管理。各省市級的網(wǎng)站歸檔工作將依托于各省的市區(qū)縣級數(shù)字檔案館,利用現(xiàn)有的人力、技術、館藏等進一步發(fā)展網(wǎng)站檔案的收集與開發(fā)利用工作,從而形成以國家檔案館為核心的分布式網(wǎng)站收集模式。
在以檔案館為核心的分布式網(wǎng)站歸檔體系建設下,我國應實行多種上交制度相結合的綜合歸檔模式。按照網(wǎng)站歸檔的要求,可將歸檔制度分為呈繳本制度、自愿歸檔制度與自動捕捉制度。呈繳本制度是指國家以法律或法令形式規(guī)定全國所有出版機構或負有出版責任的單位,凡出版一種出版物必須向指定的圖書館等機構免費繳送一定數(shù)量的樣本[18]。呈繳本制度同樣適用于網(wǎng)站歸檔,即以國家法律或法令形式規(guī)定某些重要網(wǎng)站定期向數(shù)字檔案館呈繳網(wǎng)頁檔案,如政府網(wǎng)站、檔案館網(wǎng)站等。自愿歸檔制度是指相關部門自愿向數(shù)字檔案館定期提交網(wǎng)站或向檔案館申請網(wǎng)站捕捉歸檔的制度,如社交網(wǎng)站、個人網(wǎng)站等。而其他部門的網(wǎng)站則可由數(shù)字檔案館根據(jù)國家法律規(guī)定將具有歸檔價值的網(wǎng)站進行自動捕捉。多種制度相結合的綜合性歸檔模式能夠彌補各歸檔制度的不足,以實現(xiàn)網(wǎng)站歸檔效益的最大化。
IA自1996年創(chuàng)建以來,一直秉持著多方合作的運營理念,從而獲得了豐富的館藏資源、高水平的技術與綜合人才等,這對于正處于網(wǎng)頁歸檔探索階段的我國具有很大的借鑒價值。我國網(wǎng)站檔案館應積極納入如企業(yè)、高校等第三方網(wǎng)頁歸檔管理主體,采取國際國內(nèi)“雙合”的運行模式。
國內(nèi)合作。網(wǎng)站檔案館本質是通過爬蟲軟件對網(wǎng)頁進行采集,將其存儲到數(shù)字存儲庫,并通過檢索軟件等向用戶提供網(wǎng)頁利用。網(wǎng)站檔案館的運行涉及多領域的知識背景與技術軟件,僅靠檔案部門無法達到網(wǎng)站檔案館應有的服務效果。基于此,網(wǎng)站檔案館可聚集社會第三方力量的協(xié)同合作。如在技術方面,網(wǎng)站檔案館可同相關的數(shù)據(jù)存儲機構、技術開發(fā)部門等合作,為網(wǎng)頁檔案的采集、永久保存與開發(fā)利用注入新鮮的技術血液;在資金方面,可從政府投入、社會捐贈等多途徑入手,為網(wǎng)頁歸檔提供資金保障;在人才方面,可與高校形成合作,使高校成為網(wǎng)站檔案館的人才儲備中心。除與第三方機構的合作外,各網(wǎng)站檔案館也應加強館際合作,實現(xiàn)網(wǎng)站資源的共建共享。
國際合作。國外的網(wǎng)站檔案館起步較早,建設也相對較為成熟,對于我國處于剛剛起步階段的網(wǎng)站檔案館建設有值得借鑒的經(jīng)驗與技術軟件,因此國際合作顯得尤其重要。我國可與美國、英國等網(wǎng)站歸檔經(jīng)驗較為成熟的國家開展技術方面的合作與交流,引進國外先進的技術軟件等。但由于部分網(wǎng)站檔案涉及國家機密,我國應視情況選擇網(wǎng)站檔案國際合作模式,即根據(jù)網(wǎng)站性質與內(nèi)容的不同,有選擇性地開展網(wǎng)站歸檔的國際合作。
隨著技術的不斷發(fā)展,檔案信息的有效載體日益增多,使得網(wǎng)站呈現(xiàn)格式多樣化的檔案信息載體,如3D展廳、H5、影像視頻等。要讓這些數(shù)字檔案保持原始性、真實性、可讀性,就必須不斷引進與更新覆蓋網(wǎng)站歸檔的采集、永久保存、網(wǎng)頁利用等整個運行周期的技術,為網(wǎng)站檔案營造安全的電子檔案存儲環(huán)境,以滿足檔案的存儲與利用需求,形成前瞻性的保護框架。
在網(wǎng)站檔案收集前期,網(wǎng)站檔案館必須具備多樣化檔案格式識別、網(wǎng)頁重建與深度挖掘技術。一旦發(fā)現(xiàn)采集的網(wǎng)頁受到硬件破壞、黑客入侵等造成網(wǎng)站數(shù)據(jù)丟失,網(wǎng)站檔案館必須利用網(wǎng)頁重現(xiàn)技術開展網(wǎng)站恢復工作,確保網(wǎng)站信息的可訪問與可獲取[19]。除對網(wǎng)頁進行抓取以外,爬蟲軟件還需完成對網(wǎng)站中鏈接的其他一級、二級、三級等網(wǎng)頁的采集,有效保證采集的網(wǎng)站與其鏈接信息之間的聯(lián)系,形成較為完整的“語境”與電子檔案元數(shù)據(jù)的原始環(huán)境。在網(wǎng)站檔案保存階段,網(wǎng)站檔案館應構建符合電子檔案長期保存條件的虛擬環(huán)境,不斷更新數(shù)據(jù)庫的存儲能力,如美國IA采購了Sun Modular Datacenter等一系列技術,大大擴充了自身的存儲能力。此外,網(wǎng)站檔案存儲庫還需保證網(wǎng)站檔案不受網(wǎng)絡黑客等的惡意破壞,從而維護檔案的真實性與可讀性。在檔案服務階段,網(wǎng)站檔案館必須具備檔案的鑒別技術,確保輸出的網(wǎng)站檔案與采集時的電子檔案一致,維護檔案的真實性。因此,網(wǎng)站檔案館必須與時俱進地更新分布于每一個網(wǎng)站歸檔運行階段的管理技術,形成覆蓋全周期的技術保護框架,從技術上保障網(wǎng)頁檔案的真實性與可靠性。
2017年美國國家數(shù)字管理聯(lián)盟(NDSA)的網(wǎng)絡檔案調(diào)查報告顯示,開發(fā)成功的Web歸檔程序必須具備歸檔工具、評估和選擇、質量保證等三大技能[20],同時具備這三大技能對于檔案工作人員而言難度較大。IA自1996年建成以來就一直秉承著協(xié)同合作的態(tài)度,與圖書館、州檔案館、學術機構等合作獲得技術與人才方面的支持。我國網(wǎng)站檔案館也應在提高檔案工作人員的管理技能與科技素養(yǎng)的基礎上,引進各領域的專業(yè)人員,形成綜合性的人才隊伍。
爬蟲軟件的廣泛式無選擇性的網(wǎng)頁采集策略難以保證網(wǎng)站檔案的真實性與完整性,甚至導致部分“非法內(nèi)容”被采集保存,這就要求網(wǎng)站檔案管理人員必須加強對網(wǎng)站檔案的前端控制與后端檢測。在網(wǎng)站存檔前期,檔案管理人員必須對采集的網(wǎng)頁進行鑒別,包括網(wǎng)頁的完整程度、密級屬性、內(nèi)容合法性等,確保網(wǎng)站檔案采集的準確性與完整性,形成對網(wǎng)站檔案歸檔的前端控制。在網(wǎng)站檔案利用后期,檔案管理人員要確保用戶所需的網(wǎng)站檔案可公開且與歸檔前的網(wǎng)站檔案信息相一致,從而保障檔案利用的真實性與機密性。網(wǎng)站歸檔的前端控制與后端檢測對檔案網(wǎng)站的歸檔與利用形成前瞻性的保護體系,為實現(xiàn)網(wǎng)站檔案的管理與利用提供重要保障。
網(wǎng)頁檔案作為一種數(shù)據(jù)化信息資源,更大程度上實現(xiàn)了檔案信息的可交換性,即以數(shù)據(jù)化的形式獨立存在的網(wǎng)頁檔案資源在與普通網(wǎng)絡信息一樣實現(xiàn)無損交換的同時,促進網(wǎng)頁檔案內(nèi)容信息的價值實現(xiàn),從而激發(fā)網(wǎng)頁資源的顯性知識與隱形信息的挖掘與價值提升[21]。然而,現(xiàn)今大部分的網(wǎng)站檔案館都只提供簡單的網(wǎng)站采集、永久保存、直接利用等服務內(nèi)容,缺乏深度與廣度的檔案資源整合與服務挖掘。檔案作為一種信息資源,倘若只是提供簡單的歸檔、保存與利用等服務,則很大程度上降低了其實際價值?;诖?,IA也嘗試進行了檔案資源集成的未來規(guī)劃。2020年7月28日,IA宣稱將與滑鐵盧大學形成合作,為研究和管理網(wǎng)絡檔案的學者、研究人員、圖書館員和檔案工作者提供易于使用、可擴展的工具,即檔案釋放項目[11]。檔案釋放項目是為了給學者提供能將網(wǎng)絡檔案數(shù)據(jù)轉換為易于使用格式的獨立服務,并通過互聯(lián)網(wǎng)檔案集成來實現(xiàn)該項服務,從而達到學者通過一個門戶網(wǎng)站就可收集和分析網(wǎng)絡檔案內(nèi)容整個運行周期的效果。因此,我國網(wǎng)站檔案館必須在網(wǎng)站檔案服務的利用方式、個性化服務與資源增值服務方面有所創(chuàng)新。
在檢索方式上,我國網(wǎng)站檔案館應突破當前以關鍵詞檢索、URL檢索等為主的單一檢索模式,引進當前信息檢索領域的熱點技術,如智能檢索、可視化檢索、用戶畫像技術等。這些技術可以提高檢索系統(tǒng)的信息查找能力,更具針對性地幫助用戶查找到所需檔案資源。在個性化服務方面,網(wǎng)站檔案館可根據(jù)用戶注冊的職業(yè)、興趣等信息,提供個性化的服務功能,以提升用戶的體驗效果,如針對老師的職業(yè)屬性提供“教學設計”等獨有的功能。在資源增值服務方面,網(wǎng)站檔案館可對資源的使用情況及用戶的行為進行挖掘與分析,進而提供資源利用情況分析、價值評估、數(shù)據(jù)可視化分析、“信息找人”等增值服務。如Netflix和Google利用消費者的集體智慧,將觀察到的行為信息轉化為相關的搜索結果或建議??傊?,網(wǎng)站檔案作為新時代的信息產(chǎn)物,仍存在著大量值得深入挖掘的價值。為實現(xiàn)網(wǎng)站檔案價值的最大化及檔案服務的最優(yōu)化,網(wǎng)站檔案館必須進一步深化“主動式”的服務理念,通過深入挖掘網(wǎng)站檔案的資源價值,為用戶提供個性化的增值服務。
電子檔案的不穩(wěn)定性使得網(wǎng)站檔案館必須具備足夠安全的運行系統(tǒng)。在這種情況下,網(wǎng)站檔案館有必要建立檔案副本與檔案異地備份體系,將檔案資源存儲分布在多個地理獨立的站點上,以提供故障轉移和災難恢復。以美國IA的異地備份功能為借鑒,其于2006 年在亞歷山大圖書館設立檔案備份,為IA存儲的網(wǎng)頁檔案資源提供了安全保障。因此,我國網(wǎng)站檔案館也應在檔案的安全防控方面有所延伸拓展。
我國網(wǎng)站檔案館可建立多個獨立物理備份數(shù)據(jù)存儲庫,以存儲歸檔的網(wǎng)站檔案副本,提供元數(shù)據(jù)存儲空間。存儲庫一般只作為存儲備份網(wǎng)站檔案的存儲庫,不對外提供利用。各物理備份數(shù)據(jù)庫通過數(shù)據(jù)互通的運行模式自動更新網(wǎng)站檔案館所采集的網(wǎng)站檔案,形成信息資源共建共享。但一方存儲庫檢測出某網(wǎng)站檔案館或某存儲庫受到破壞而出現(xiàn)故障時,各存儲庫則會自動斷開互通的連接通道,進入資源保護狀態(tài)。此種運行模式通過建立以網(wǎng)站檔案館為核心的多個獨立站點存儲庫,形成安全的異地備份體系,為檔案的故障轉移與災難恢復提供重要保障。