曾 薩 黃新榮
(西北大學(xué)公共管理學(xué)院 西安 710127)
隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用發(fā)展,網(wǎng)頁、社交媒體已經(jīng)成為社會(huì)生活中不可或缺的內(nèi)容,網(wǎng)絡(luò)資源不斷豐富。根據(jù)社會(huì)記憶理論,網(wǎng)絡(luò)資源是社會(huì)記憶的重要組成部分,具有重要的數(shù)據(jù)挖掘、數(shù)據(jù)分析價(jià)值。但網(wǎng)頁、社交媒體的特性使得其多變、易失,因此,網(wǎng)頁歸檔、社交媒體歸檔等數(shù)字資源保存的研究和實(shí)踐逐漸增多,網(wǎng)絡(luò)資源的保存格式、保存方式受到重視,WARC格式也逐漸被人所知。
WARC(Web ARChive)是一個(gè)將多個(gè)數(shù)字資源(數(shù)據(jù)對(duì)象)和相關(guān)信息一起聚合到一個(gè)文件中的一種方法,是一種適用于網(wǎng)絡(luò)爬蟲資源的存儲(chǔ)文件格式[1]。為使網(wǎng)絡(luò)資源保存格式與國際標(biāo)準(zhǔn)接軌,國家標(biāo)準(zhǔn)局于2017年7月12日發(fā)布了由ISO28500:2009翻譯而成的《GB/T 3394—2017 信息和文獻(xiàn)WARC文件格式》,2018年2月1日正式生效。但是WARC 標(biāo)準(zhǔn)發(fā)布后在國內(nèi)知曉度不高,沒有引起重視。為解決這一問題,文章從WARC及其標(biāo)準(zhǔn)的概況出發(fā),探討WARC的國外應(yīng)用廣泛的原因,分析國內(nèi)應(yīng)用WARC的困難,并制定相應(yīng)的推廣策略。
WARC由ARC擴(kuò)展而來,ARC是由System Enhancement Associates (SEA)在1985年開發(fā)的無損數(shù)據(jù)的壓縮和歸檔格式[2],該格式后來被ZIP格式所取代。20世紀(jì)90年代,Internet Archive(互聯(lián)網(wǎng)檔案館 IA)將ARC格式用于網(wǎng)頁資源存檔,將網(wǎng)頁上抓取的內(nèi)容存儲(chǔ)為內(nèi)容序列塊并保存在單個(gè)文件中。在ARC文件中,包含已經(jīng)存檔的各種內(nèi)容(html、ps、jpeg),每個(gè)文件之前都有一個(gè)單行標(biāo)題信息,包括:文件格式、文件大小、文件包含的外部鏈接等[3]。每一個(gè)ARC文件都有一個(gè)相應(yīng)的DAT文件,只包含標(biāo)題信息。用戶訪問取決于ARC文件語料庫的大規(guī)模索引或記錄標(biāo)題的單獨(dú)副本(例如Internet Archive DAT文件)。索引DAT文件可以支持用戶通過URL和日期訪問,如同在Wayback Machine中檢索。
2003年在IIPC(國際互聯(lián)網(wǎng)保存聯(lián)盟)成立后,開始改進(jìn)ARC格式,將ARC格式擴(kuò)展為WARC格式。WARC記錄包括一個(gè)記錄標(biāo)題,后跟一個(gè)記錄內(nèi)容塊和兩個(gè)換行符,內(nèi)容塊可包含任何格式的資源,包括嵌入或鏈接到html頁面的二進(jìn)制圖像或視聽文件[4],一個(gè)WARC文檔包含若干WARC記錄。WARC格式兼容ARC格式,以更好地支持歸檔組織的收集、訪問和交換需求。除了ARC記錄的主要內(nèi)容之外,WARC還可以容納相關(guān)的輔助內(nèi)容,例如分配元數(shù)據(jù)、縮短重復(fù)檢測事件、后期轉(zhuǎn)換以及資源分段等[5]。WARC的應(yīng)用范圍更加廣泛,可用于構(gòu)建收集、管理、訪問、挖掘、交換內(nèi)容的應(yīng)用程序,雖然是用于網(wǎng)頁存檔的標(biāo)準(zhǔn)格式,但已經(jīng)超越了網(wǎng)絡(luò)應(yīng)用范圍,可用于存儲(chǔ)數(shù)字資源或數(shù)字化材料。
為了統(tǒng)一格式、開放標(biāo)準(zhǔn),IIPC主持開發(fā)相應(yīng)工作,2005年5月通過作為工作項(xiàng)目提交的ISO TC46/SC4。自2007年2月開始形成第一版標(biāo)準(zhǔn)草案,草案經(jīng)過10余次修改完善[6],2008年11月最終確定,2009年5月正式發(fā)布,成為國際標(biāo)準(zhǔn)——ISO28500:2009信息和文獻(xiàn)—WARC文件格式。隨著實(shí)踐發(fā)展,在ISO信息技術(shù)委員會(huì)ISO /TC46(信息和文件)的監(jiān)測下,經(jīng)過IIPC的不斷修訂,ISO28500:2017在2017年8月正式出臺(tái),取代了前一版本[7]。由法國國家圖書館召集的ISO TC46/SC4/WG12是負(fù)責(zé)維護(hù)的工作組,推動(dòng)WARC格式的持續(xù)演進(jìn)。
1.2.1 收割資源描述詳細(xì)
WARC文件由一序列的WARC記錄組成,WARC記錄可記錄大量數(shù)據(jù)信息,記錄的內(nèi)容或者是一次檢索的直接結(jié)果(網(wǎng)頁、內(nèi)嵌圖片、URL轉(zhuǎn)向信息、DNS主機(jī)名查詢結(jié)果、獨(dú)立文件等),或者是為存檔內(nèi)容提供附加信息的綜合資源(如元數(shù)據(jù)、轉(zhuǎn)化后的內(nèi)容)。WARC定義了8種記錄類型:對(duì)應(yīng)不同種類資源的描述,詳見表1。
表1 WARC記錄類型及描述資源
從表1可以看出,WARC對(duì)收割資源的描述十分詳細(xì),從資源的原生環(huán)境到采集過程,從資源自身內(nèi)容到采集產(chǎn)生的附加信息,WARC都有所記錄,可最大程度的記錄數(shù)據(jù)背景信息。
1.2.2 支持資源內(nèi)容分割重組
WARC規(guī)定當(dāng)記錄過大以致超出單個(gè)WARC文件所能允許的最大容量時(shí),記錄會(huì)被分解成獨(dú)立的片段(稱為分段),可使用“continuation”記錄,保持原始記錄邏輯完整。記錄中的“Segment—Origin—ID”字段負(fù)責(zé)將各內(nèi)容片段記錄與起始片段記錄關(guān)聯(lián)起來,“Segment—Number”字段負(fù)責(zé)對(duì)每一內(nèi)容片段按先后順序進(jìn)行編號(hào)[8]。分割片段的大小可控,同時(shí)也適用于其他數(shù)字資源的分割。
WARC還支持資源重組,面向同一主題、同一事件需要從不同WARC文件抽取資源時(shí),可以利用“Warcinfo—ID”字段,“WARC—Warcinfo—ID”指示與該記錄的關(guān)聯(lián)‘warcinfo’記錄,找到資源所在的原始位置,從而保證合并記錄時(shí)的關(guān)聯(lián)真實(shí)性。
1.2.3 支持外部語義關(guān)聯(lián)
WARC并不是一個(gè)完全閉合的文件,利用“metadata”記錄可指向另一特定記錄,支持資源間相互關(guān)聯(lián),也支持對(duì)關(guān)聯(lián)的語義描述。“metadata”記錄存儲(chǔ)著原始收割或轉(zhuǎn)化的內(nèi)容,可指向任何記錄類型。網(wǎng)絡(luò)資源數(shù)量巨大,針對(duì)同一事件可產(chǎn)生大量WARC文件,利用“WARC—Concurrent—To”標(biāo)頭關(guān)聯(lián)同一抓取事件的其他記錄,利用“WARC-Refers-To”標(biāo)頭關(guān)聯(lián)記錄描述的其他資源,方便對(duì)收割資源的進(jìn)一步描述、解釋。
1.2.4 便于存檔和壓縮
WARC的多種記錄類型實(shí)現(xiàn)了對(duì)資源的多種描述以及關(guān)聯(lián)外部、拆分重組等功能,WARC自身雖然沒有MIS、JAR、RPM等支持軟件打包和分發(fā)的格式復(fù)雜,也不似Boot image、Card image、ROM image等磁盤映像(Disk image)格式,能夠完全復(fù)制存儲(chǔ)設(shè)備的結(jié)構(gòu)和內(nèi)容,但是WARC格式十分便于存檔和壓縮,可以打包、壓縮、加密文件,也支持自解壓和自擴(kuò)展,適合對(duì)數(shù)據(jù)量大、內(nèi)容復(fù)雜、交互性強(qiáng)的網(wǎng)絡(luò)資源的存儲(chǔ)。
1.3.1 國外WARC應(yīng)用實(shí)踐
WARC為網(wǎng)頁資源的保存而產(chǎn)生,1996年到WARC出現(xiàn)之前,一些率先開展網(wǎng)頁保存的國家,如:美國、澳大利亞、瑞典、埃及等利用ARC格式存檔網(wǎng)頁資源。在IIPC成員的共同努力下,ARC擴(kuò)展為WARC,應(yīng)用范圍逐漸擴(kuò)大,一些應(yīng)用ARC的項(xiàng)目,也逐漸將數(shù)據(jù)格式轉(zhuǎn)換為WARC,通過梳理應(yīng)用WARC的網(wǎng)頁存檔、社交媒體文件存檔項(xiàng)目(見表2),可以發(fā)現(xiàn)WARC是國外在網(wǎng)頁存檔、社交媒體文件存檔中應(yīng)用最普遍的格式。一些國家圖書館也認(rèn)可WARC格式對(duì)保存數(shù)字收割資源的可行性,并投入實(shí)踐,如:德國、新西蘭、新加坡國家圖書館等。
此外,Archive-it(網(wǎng)頁存檔服務(wù)組織)對(duì)“WARC文件的本地?cái)?shù)字保存活動(dòng)”進(jìn)行了年度調(diào)查,以50多個(gè)合作機(jī)構(gòu)(有網(wǎng)絡(luò)歸檔計(jì)劃的大型或小型圖書館)為調(diào)查對(duì)象,發(fā)現(xiàn)WARC已經(jīng)得到了普遍采用,過半的機(jī)構(gòu)會(huì)將WARC下載到本地進(jìn)行保存,部分機(jī)構(gòu)利用開源或自主研發(fā)數(shù)字保存系統(tǒng)本地存儲(chǔ)WARC 文件,部分機(jī)構(gòu)研究適合WARC數(shù)據(jù)傳輸?shù)腁PI,以促進(jìn)本地?cái)z取WARC文件,一些機(jī)構(gòu)在進(jìn)行從WARC提取元數(shù)據(jù)描述網(wǎng)絡(luò)資源的研究[9]。這一調(diào)查表明,國外機(jī)構(gòu)對(duì)WARC的應(yīng)用并非停留在網(wǎng)頁歸檔項(xiàng)目層次,也并非止步于僅僅將資源存儲(chǔ)為WARC文件,而是對(duì)WARC進(jìn)行了更深層次的分析,對(duì)WARC更廣范圍的、更加細(xì)致的利用做出了更多的探索。
表2 WARC國外項(xiàng)目應(yīng)用列表
1.3.2 國內(nèi)WARC應(yīng)用情況
相對(duì)于國外的應(yīng)用而言,我國的WARC應(yīng)用匱乏。國內(nèi)大型的網(wǎng)頁歸檔項(xiàng)目有Web信息博物館和WICP(Web Information Collection and Preservation),WICP項(xiàng)目應(yīng)用WARC作為網(wǎng)絡(luò)數(shù)字資源的保存格式。WICP是中國國家圖書館在2003年啟動(dòng)的網(wǎng)絡(luò)信息資源采集與保存實(shí)驗(yàn)項(xiàng)目,該項(xiàng)目對(duì)靜態(tài)網(wǎng)頁和動(dòng)態(tài)網(wǎng)頁采取不同的保存策略,在項(xiàng)目的發(fā)展過程中,2010年國家圖書館開發(fā)出網(wǎng)絡(luò)資源獲取系統(tǒng),系統(tǒng)將網(wǎng)頁資源保存為WARC格式[10]。此外,鄭州市檔案局在進(jìn)行政府網(wǎng)站歸檔時(shí)將網(wǎng)頁資源保存為WARC并壓縮保存[11]。
利用百度、搜狐等搜索引擎對(duì)WARC的相關(guān)信息進(jìn)行檢索,有關(guān)WARC文件格式信息少,多為介紹類;WARC標(biāo)準(zhǔn)僅有少量報(bào)道性新聞;WARC相關(guān)實(shí)踐未有檢索結(jié)果,說明WARC在國內(nèi)沒有被廣泛應(yīng)用。
回顧WARC與ISO28500的產(chǎn)生和發(fā)展歷程可以發(fā)現(xiàn),WARC標(biāo)準(zhǔn)之所以被廣泛采納,是因?yàn)橛猩詈竦膶?shí)踐基礎(chǔ)。在ISO28500產(chǎn)生之前,IIPC相關(guān)工作組在網(wǎng)頁歸檔的實(shí)踐過程中,逐步擴(kuò)展ARC形成了WARC,這表明WARC在產(chǎn)生之初就已經(jīng)有了實(shí)驗(yàn)群體、對(duì)比對(duì)象。在不斷實(shí)踐過程中,發(fā)現(xiàn)問題、解決問題,并擴(kuò)大應(yīng)用范圍,有更多實(shí)踐數(shù)據(jù)支撐,最終證明WARC最為適合網(wǎng)絡(luò)資源存檔。
在標(biāo)準(zhǔn)的準(zhǔn)備過程中,IIPC成員間不斷進(jìn)行討論和論證,在兩年時(shí)間內(nèi)WARC標(biāo)準(zhǔn)草稿經(jīng)歷10余個(gè)版本,確立了ISO28500:2009。在標(biāo)準(zhǔn)正式頒布之后,隨著時(shí)間推演、實(shí)踐變化,IIPC聯(lián)盟中的一些成員提出標(biāo)準(zhǔn)的修訂意見,在2015年、2016年出臺(tái)歐洲方面的關(guān)于ISO28500改進(jìn)的建議,最終ISO28500:2017出臺(tái)。
以實(shí)踐為基礎(chǔ),進(jìn)行WARC標(biāo)準(zhǔn)的產(chǎn)生和修訂,WARC的優(yōu)勢和劣勢都有直觀反映,在實(shí)踐基礎(chǔ)上的WARC標(biāo)準(zhǔn),應(yīng)用風(fēng)險(xiǎn)低,接受范圍更廣。WARC面臨的問題得到有效解決。
根據(jù)網(wǎng)頁歸檔生命周期模型[12],WARC存檔格式是存檔環(huán)節(jié)中重要的組成部分,完善的政策標(biāo)準(zhǔn)使得WARC的標(biāo)準(zhǔn)與其他環(huán)節(jié)標(biāo)準(zhǔn)的銜接更為流暢。國外WARC政策標(biāo)準(zhǔn)的完善性表現(xiàn)在:
一是得到網(wǎng)頁存檔相關(guān)政策的支持。網(wǎng)絡(luò)資源作為重要的數(shù)字資源,許多國家已經(jīng)認(rèn)識(shí)到歸檔保存網(wǎng)絡(luò)資源的重要性,制定網(wǎng)絡(luò)資源存檔的相關(guān)政策,如澳大利亞《2020數(shù)字連續(xù)計(jì)劃》、英國《政府網(wǎng)頁存檔:重新定義政府部門技術(shù)指導(dǎo)》、美國《社交媒體文件捕獲最佳實(shí)踐白皮書》等。作為存儲(chǔ)的重要組成部分,在政策文件中存儲(chǔ)載體的安全性、存儲(chǔ)格式的適用性、數(shù)據(jù)的可遷移性以及存儲(chǔ)的方式和位置都被強(qiáng)調(diào),進(jìn)而引起對(duì)存儲(chǔ)格式的重視。
二是存檔標(biāo)準(zhǔn)體系完善。國外網(wǎng)頁從收集到保存整個(gè)生命周期都有具體標(biāo)準(zhǔn)和規(guī)范。在網(wǎng)頁形成之前,具有網(wǎng)頁設(shè)計(jì)標(biāo)準(zhǔn),如ISO/IEC40500—Web內(nèi)容可訪問性指南〈Web Content Accessibility Guidelines (WCAG) 2.0〉、美國網(wǎng)頁設(shè)計(jì)規(guī)范等。在對(duì)網(wǎng)頁資源進(jìn)行組織時(shí),具有一系列的元數(shù)據(jù)標(biāo)準(zhǔn),如:OAIS(開放存檔信息系統(tǒng))、METS(元數(shù)據(jù)編碼和傳輸標(biāo)準(zhǔn))、澳大利亞政府記錄元數(shù)據(jù)標(biāo)準(zhǔn)(AGRkMS 2.2版本)。在網(wǎng)絡(luò)資源存檔時(shí),有網(wǎng)絡(luò)存檔元數(shù)據(jù)集(Web Archiving Metadata Set),網(wǎng)頁信息存檔統(tǒng)計(jì)與質(zhì)量標(biāo)準(zhǔn)ISO/TR 14873,也有存檔介質(zhì)標(biāo)準(zhǔn)ISO11799與ISO18938。這些標(biāo)準(zhǔn)為WARC標(biāo)準(zhǔn)的推廣和實(shí)施起了助推作用。
三是具有詳細(xì)的標(biāo)準(zhǔn)實(shí)施指南。在2009年ISO28500發(fā)布后,IIPC隨即編寫了WARC Implementation Guidelines—2009(WARC實(shí)施指南)[13]。IIPC指出ISO28500是一個(gè)說明如何有效編寫WARC文件的規(guī)則,但是對(duì)特定情況下WARC文件的編寫方法缺少建議。在此情況下,IIPC編寫了WARC實(shí)施指南,提出了對(duì)于WARC文件命名、記錄識(shí)別、記錄信息處理的建議,詳細(xì)闡述了WARC數(shù)據(jù)捕獲、ARC轉(zhuǎn)向WARC等數(shù)據(jù)包裝的具體措施,對(duì)載荷識(shí)別、WARC文件重新包裝、病毒檢查提出了具體的操作性建議。
國外為了方便WARC文件的收割、存儲(chǔ)和利用,形成了一系列相關(guān)的工具和格式,Archive-team將其稱為WARC生態(tài)系統(tǒng)[14]。WARC的支撐工具可分為4類:數(shù)據(jù)捕獲工具、存儲(chǔ)組織工具、索引工具、分析利用工具。這4類工具都具有相應(yīng)的程序、軟件或者系統(tǒng)支撐:
捕獲類工具,主要用于從網(wǎng)絡(luò)獲取網(wǎng)絡(luò)資源,常用的有Heritrix、GNUWget、Grab-site、WarcMiddleware、WARCreate等,如WARCreate是面向個(gè)人網(wǎng)頁存檔的谷歌瀏覽器插件,可將用戶瀏覽的網(wǎng)頁保存為WARC文件[15]。
存儲(chǔ)組織類工具,主要用于對(duì)收割資源(WARC文件)進(jìn)行保存、轉(zhuǎn)換、驗(yàn)證、切割、元數(shù)據(jù)抽取等處理,常用的有WARCIO、Jhove2、Megawarc、WARC to ZIP、Java Web Archive Toolkit(JWAT)、Pylibwarc、ArchiveSpark,如Megawarc 可將多個(gè)小型WARC文件合并為一個(gè)大型WARC文件,并且檢查WARC文件是否可以在將其添加到Megawarc之前解壓縮[16]。
索引類工具,用于對(duì)WARC文件的檢索,常用的有cdx_writer、Wayback Machine、Apache Solr、Lucene 等,如cdx_writer通過Python腳本從WARC文件創(chuàng)建CDX索引文件。WARC支持外部索引,ARC/WARC的索引通常稱為CDX文件,CDX文件中包含大量的歸檔信息,利用CDX索引文件可以生成檔案的概要文件[17],CDX格式及CDX文件的出現(xiàn),極大方便了對(duì)存檔WARC文件的利用。
分析利用類工具,主要用于對(duì)存檔內(nèi)容的審查和分析以及瀏覽等,常用的有Pywb-Web Recorder、WARC viewer、Web Archiving Integration Layer (WAIL)等,如WARC viewer用于瀏覽WARC文件。
WARC相關(guān)工具包的不斷催生,使WARC標(biāo)準(zhǔn)有了實(shí)踐的支撐,也正是因?yàn)閃ARC相關(guān)工具和格式的不斷發(fā)展和成熟,又反過來促進(jìn)WARC標(biāo)準(zhǔn)的推廣和完善,使得WARC格式和標(biāo)準(zhǔn)與時(shí)俱進(jìn)。
WARC與ISO28500的產(chǎn)生和發(fā)展,都離不開IIPC。在IIPC成員的共同開發(fā)下WARC產(chǎn)生并推廣;在IIPC的支持下,成立專門的標(biāo)準(zhǔn)工作組,由法國國家圖書館帶頭編寫草案,最終成為國際標(biāo)準(zhǔn);標(biāo)準(zhǔn)發(fā)布后, IIPC又成立WARC利用任務(wù)工作組(WARC Usage Task Force),負(fù)責(zé)WARC實(shí)施指南的撰寫。此外,為進(jìn)一步促進(jìn)主流Web開發(fā)社區(qū)利用WARC格式,IIPC還成立了WARC工具項(xiàng)目,負(fù)責(zé)開發(fā)WARC相關(guān)工具包,此項(xiàng)目目前已經(jīng)進(jìn)行到3期,提供了一系列開源的免費(fèi)的WARC工具,如Libwarc、Openway Back等[18]。IIPC作為最大的國際互聯(lián)網(wǎng)保存聯(lián)盟,為WARC提供了智力、資金、組織等支持,使得WARC不僅僅是一個(gè)文件格式,還是一個(gè)保存體系,最終成為一個(gè)完整的生態(tài)系統(tǒng)。
推進(jìn)WARC發(fā)展的團(tuán)體還有許多其他聯(lián)盟組織、志愿團(tuán)體、財(cái)團(tuán)等,如Archive-it。
距離GB/T 3394-2017發(fā)布已經(jīng)一年有余,但WARC標(biāo)準(zhǔn)在國內(nèi)并沒有被廣泛應(yīng)用。分析發(fā)現(xiàn)由于我國與國外應(yīng)用WARC的歷史、環(huán)境不同,網(wǎng)絡(luò)資源存檔進(jìn)展不同,使得WARC標(biāo)準(zhǔn)應(yīng)用困難。
WARC是網(wǎng)頁存檔格式,國內(nèi)缺乏網(wǎng)頁存檔和社交媒體存檔的實(shí)踐,使得WARC無“用武之地”。國內(nèi)網(wǎng)頁存檔實(shí)踐,大型項(xiàng)目只有Web信息博物館、WICP,且產(chǎn)生了一定成果,余下為類似鄭州市檔案館的機(jī)構(gòu)或個(gè)人進(jìn)行的小型網(wǎng)頁歸檔實(shí)驗(yàn),不具備社會(huì)影響力。對(duì)于社交媒體文件歸檔,由于隱私權(quán)、知識(shí)產(chǎn)權(quán)等還存在爭議,存檔機(jī)構(gòu)與數(shù)據(jù)平臺(tái)之間還在博弈,我國目前還沒有圖書館、檔案館或者公司等采用爬蟲方式大批量收割保存社交媒體文件的項(xiàng)目。網(wǎng)頁歸檔和社交媒體文件歸檔實(shí)踐匱乏,使得WARC格式缺乏實(shí)踐機(jī)會(huì)和情境,對(duì)WARC缺乏相應(yīng)的了解,WARC標(biāo)準(zhǔn)自然也應(yīng)用困難。
此外,缺乏實(shí)踐,WARC會(huì)產(chǎn)生“水土不服”現(xiàn)象。相比國外豐富、持久的網(wǎng)頁存檔經(jīng)驗(yàn),我國的網(wǎng)頁歸檔實(shí)踐不是很成功,無法提供持久有效的鏈接與回放。國家圖書館在2007年成為IIPC的成員,WICP項(xiàng)目后期很大程度上采用IIPC推薦的框架與流程,包括存檔格式WARC。因此,我國對(duì)網(wǎng)頁歸檔的實(shí)踐還停留在較為宏觀的“選擇—收割—存儲(chǔ)—利用”流程階段,對(duì)網(wǎng)頁歸檔的一些細(xì)節(jié),如存檔格式等缺乏持久的實(shí)踐研究,WARC及其標(biāo)準(zhǔn)在國內(nèi)都是真正意義上的舶來品。在國外卻不同,WARC為網(wǎng)頁歸檔而產(chǎn)生,在網(wǎng)頁歸檔實(shí)踐中應(yīng)用,WARC的應(yīng)用和發(fā)展有實(shí)踐基礎(chǔ),經(jīng)得起實(shí)踐檢驗(yàn)。
在理論層面,WARC的研究也比較匱乏。筆者在CNKI檢索發(fā)現(xiàn),有關(guān)WARC的研究屈指可數(shù),只有5篇,其中,4篇屬于WARC格式介紹,1篇屬于應(yīng)用WARC格式的索引系統(tǒng)架構(gòu)。在4篇介紹論文里,鐘華翻譯了IS028500對(duì)WARC的相關(guān)介紹[19]。李睿、郭世月的文章在較淺層面對(duì)比了WARC格式與主流網(wǎng)絡(luò)資源存檔格式標(biāo)準(zhǔn)VERSVEO、LANL MPEG-21、MET的歷史、適用性與可持續(xù)性[8],在另一篇文章里深入介紹了WARC的特征與功能以及部分應(yīng)用情況[20]。曲云鵬分析了WARC格式的優(yōu)點(diǎn)、WARC格式的結(jié)構(gòu)和內(nèi)容、介紹WARC的生態(tài)環(huán)境[21]。
推廣WARC及其標(biāo)準(zhǔn),上述研究數(shù)量少且太過淺顯,進(jìn)一步需要采用實(shí)驗(yàn)論證為什么WARC格式適合中文網(wǎng)絡(luò)資源歸檔;也應(yīng)深度對(duì)比WARC格式與其他歸檔格式,如JSON、XML、PiSi、Disk cloning、OFD等,找到WARC應(yīng)用于保存網(wǎng)絡(luò)資源的適用性與優(yōu)勢。在上述研究的基礎(chǔ)上,如果發(fā)現(xiàn)WARC不適合中文網(wǎng)頁或社交媒體歸檔,可以研究如何對(duì)源代碼進(jìn)行改進(jìn),設(shè)計(jì)實(shí)驗(yàn)進(jìn)行論證。
政策支持上,國家檔案局在《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》[22]中指出,要研究制定重要網(wǎng)頁資源的采集和社交媒體文件的歸檔管理辦法,但截至目前還沒有任何政策出臺(tái)。
WARC在國外是整個(gè)網(wǎng)頁生命周期的一部分,是網(wǎng)頁歸檔生命周期的一部分,國外做到了全周期管理。在國內(nèi)則沒有網(wǎng)頁生命周期或網(wǎng)頁歸檔生命周期的概念。在網(wǎng)頁生成階段,網(wǎng)頁設(shè)計(jì)缺乏規(guī)范;只有電子文件發(fā)布了歸檔元數(shù)據(jù)方案,缺乏網(wǎng)頁歸檔、社交媒體歸檔的元數(shù)據(jù)方案。在WARC文件的存儲(chǔ)方面也缺乏相關(guān)實(shí)踐,沒有完全成功的案例。相關(guān)標(biāo)準(zhǔn)的缺乏使得WARC只是一個(gè)單獨(dú)的個(gè)體,而不是作為體系中重要的組成部分。整體的脫節(jié)使得標(biāo)準(zhǔn)推廣困難,標(biāo)準(zhǔn)推廣困難又使得網(wǎng)絡(luò)歸檔實(shí)踐推進(jìn)困難,陷入囚徒困境。
在標(biāo)準(zhǔn)支持上,在引進(jìn)WARC標(biāo)準(zhǔn)后,相關(guān)部門缺乏對(duì)標(biāo)準(zhǔn)的解讀,相關(guān)的長期保存機(jī)構(gòu)未制定實(shí)施細(xì)則。對(duì)于廣大的非計(jì)算機(jī)專業(yè)的網(wǎng)絡(luò)資源保存人員,WARC具有一定的專業(yè)性,并不能深入理解并使用WARC格式。
網(wǎng)頁歸檔整個(gè)流程都需要軟件、系統(tǒng)等工具的支持,國外已經(jīng)圍繞WARC格式形成了生態(tài)系統(tǒng),我國在開發(fā)和引進(jìn)網(wǎng)絡(luò)資源歸檔軟件方面還處于空白?,F(xiàn)在網(wǎng)絡(luò)資源存檔通用工具都為國外研發(fā),國內(nèi)一些研究人員主要做相關(guān)介紹工作,部分技術(shù)人員通過設(shè)計(jì)實(shí)驗(yàn)提出利用國外已有的開源軟件對(duì)國內(nèi)社交網(wǎng)絡(luò)(微博、微信公眾平臺(tái))信息進(jìn)行歸檔保存、回溯利用,但是沒有大型項(xiàng)目試驗(yàn)這些軟件是否可以應(yīng)用到批量數(shù)據(jù)的歸檔、是否可持久應(yīng)用于存檔、在中文環(huán)境下是否存在特殊性等問題。
長期保存網(wǎng)絡(luò)數(shù)字資源,相當(dāng)于建立了一個(gè)具有歷史價(jià)值、憑證價(jià)值、信息價(jià)值、文化價(jià)值的龐大的數(shù)據(jù)庫,為以后的發(fā)展提供數(shù)據(jù)集積淀、保留數(shù)字記憶。目前,國內(nèi)一些機(jī)構(gòu)已經(jīng)逐步試水,廣州市和青島市要求歸檔政府微博、微信公眾平臺(tái)信息,部分機(jī)構(gòu)主動(dòng)采取手工歸檔方式保存單位自己發(fā)布的社交媒體信息。為推進(jìn)網(wǎng)絡(luò)資源存檔進(jìn)程,需要自動(dòng)化歸檔的探索,采用WARC格式存檔,推廣WARC標(biāo)準(zhǔn),可以借鑒國外相關(guān)項(xiàng)目的發(fā)展經(jīng)驗(yàn),利用WARC生態(tài)系統(tǒng)的開源工具,和國外進(jìn)行數(shù)據(jù)共享資源互換等,這在一定程度上能為網(wǎng)絡(luò)資源存檔營造環(huán)境、創(chuàng)造條件。
在已經(jīng)發(fā)布GB/T 3394-2017的情況下,目前最為迫切的是制定標(biāo)準(zhǔn)使用指南,增進(jìn)大眾對(duì)WARC及其標(biāo)準(zhǔn)的理解。翻譯而來的GB/T 3394-2017,對(duì)WARC的字段、類型、以及部分代碼做了介紹。在中國制定的實(shí)施細(xì)則中,則可以對(duì)WARC歷史、WARC與WAT/WET/CDX等格式的關(guān)聯(lián)和區(qū)別等進(jìn)行對(duì)比介紹,增加用戶對(duì)WARC的理性認(rèn)識(shí),增強(qiáng)認(rèn)同感;進(jìn)一步,介紹WARC的生態(tài)環(huán)境,明晰WARC格式的使用依賴于哪些工具、有哪些成熟的開源軟件可以利用,增加用戶對(duì)WARC整體性的理解;另外,需要包含WARC實(shí)施的若干細(xì)節(jié),由于中國WARC的用戶體驗(yàn)較少,可以借鑒已經(jīng)應(yīng)用過WARC的項(xiàng)目經(jīng)驗(yàn),參考WARC Implementation Guidelines—2009,或者自行進(jìn)行WARC文件捕獲的相關(guān)實(shí)驗(yàn),補(bǔ)充WARC標(biāo)準(zhǔn)實(shí)施時(shí)一些必要的細(xì)節(jié),如:WARC文件捕獲、數(shù)據(jù)封裝、WARC記錄的加工、WARC文件的命名及修改、WARC文件元數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)和非網(wǎng)頁數(shù)據(jù)的打包等,給用戶提供操作性建議。
實(shí)施細(xì)則的指導(dǎo),不僅能給用戶提供全方位的應(yīng)用向?qū)?,也增加了用戶?duì)WARC的認(rèn)識(shí),使WARC中國化的程度加深,相關(guān)歸檔實(shí)踐增多,從底層催生網(wǎng)絡(luò)資源存檔項(xiàng)目。
要推廣WARC標(biāo)準(zhǔn),需要形成完善的政策標(biāo)準(zhǔn)體系,同時(shí)要和已有的標(biāo)準(zhǔn)相銜接。
在制定新政策方面,應(yīng)考慮到數(shù)字資源保存的長期性和特殊性,應(yīng)制定資金可控、風(fēng)險(xiǎn)可控、可實(shí)施的政策。政策要規(guī)定何種類型的網(wǎng)絡(luò)資源應(yīng)該被優(yōu)先保存、對(duì)于不同的資源采取不同的保存策略。對(duì)于存儲(chǔ)空間、存儲(chǔ)設(shè)備、存儲(chǔ)格式等政策應(yīng)該加以引導(dǎo)。對(duì)于網(wǎng)頁存檔制定政策應(yīng)注重頂層設(shè)計(jì),否則會(huì)出現(xiàn)大規(guī)模保存網(wǎng)頁的重復(fù),產(chǎn)生冗余數(shù)據(jù)。在社交媒體文件歸檔時(shí),由于動(dòng)態(tài)、交互等特征使得社交媒體存檔更加復(fù)雜,政策需要多加考量。在賦予歸檔主體保存權(quán)利的時(shí)候,應(yīng)注意平臺(tái)、個(gè)人等的知識(shí)產(chǎn)權(quán)和隱私權(quán)的保護(hù)。在整個(gè)歸檔流程中還涉及到目標(biāo)、資源評(píng)估、訪問利用、風(fēng)險(xiǎn)管理等具體政策。
在標(biāo)準(zhǔn)制定方面,與數(shù)字資源長期保存相關(guān)的有:電子文件元數(shù)據(jù)標(biāo)準(zhǔn)、電子文件歸檔光盤技術(shù)與應(yīng)用規(guī)范、民國檔案數(shù)據(jù)采集標(biāo)準(zhǔn)、口述史料采集與管理、照片類/錄音類電子檔案元數(shù)據(jù)方案等。在制定網(wǎng)絡(luò)資源存檔元數(shù)據(jù)標(biāo)準(zhǔn)時(shí),可參考國內(nèi)這些標(biāo)準(zhǔn)進(jìn)行部分銜接,如:音頻、照片的元數(shù)據(jù)、數(shù)據(jù)交換格式等。可以引進(jìn)部分國外相關(guān)標(biāo)準(zhǔn),如網(wǎng)頁存檔元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)字資源描述元數(shù)據(jù)框架、存檔資源數(shù)據(jù)交換規(guī)范等。由于國情不同,部分標(biāo)準(zhǔn)無法引進(jìn),可以重新制定標(biāo)準(zhǔn),如:網(wǎng)頁設(shè)計(jì)規(guī)范、捕獲行為規(guī)范、社交媒體存檔系統(tǒng)架構(gòu)、數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)等。
WARC標(biāo)準(zhǔn)已經(jīng)正式實(shí)施,國內(nèi)并沒有開發(fā)專門的軟件,一方面是因?yàn)榫W(wǎng)絡(luò)存檔目前還沒有受到政府與社會(huì)重視,沒有應(yīng)用市場;另一方面,認(rèn)識(shí)到存檔重要性的人不懂技術(shù)也缺乏資金與志愿者支持。在這種情況下,可引進(jìn)國外已有的網(wǎng)頁歸檔軟件、網(wǎng)絡(luò)資源存檔的框架以及參考社交媒體文件多線程歸檔實(shí)現(xiàn)路徑。在引進(jìn)軟件的基礎(chǔ)上對(duì)軟件進(jìn)行改良,使之成為國內(nèi)適用的網(wǎng)絡(luò)資源存檔工具。
從長遠(yuǎn)角度分析,如果只是引用缺乏研發(fā),則會(huì)受制于人,失去網(wǎng)絡(luò)資源存檔領(lǐng)域的話語權(quán)。在初期歸檔實(shí)踐開展順利后,可著手開發(fā)適用于我國網(wǎng)絡(luò)資源存檔的軟件,將微信公眾號(hào)信息、微博評(píng)論點(diǎn)贊信息長期保存,還原歸檔信息原生環(huán)境,利用云計(jì)算進(jìn)行網(wǎng)絡(luò)資源歸檔存儲(chǔ),手動(dòng)歸檔數(shù)據(jù)轉(zhuǎn)換等方面,開發(fā)出適用軟件,并推向國際市場。與IIPC其他成員一起共同解決網(wǎng)頁存檔、社交媒體文件歸檔的技術(shù)難題,從而在互聯(lián)網(wǎng)信息長期保存方面占有話語權(quán),逐步在數(shù)據(jù)高地上占據(jù)一席之地。
WARC標(biāo)準(zhǔn)推廣和實(shí)施需要專業(yè)人員的支撐。國內(nèi)已經(jīng)有應(yīng)用WARC格式的先例,可在參與人員中選取關(guān)鍵人員成立網(wǎng)絡(luò)資源存檔部門,負(fù)責(zé)參加國外網(wǎng)絡(luò)資源存檔項(xiàng)目會(huì)議、與國外項(xiàng)目建立長期合作關(guān)系,積極借鑒國外存檔相關(guān)經(jīng)驗(yàn)。在此基礎(chǔ)上,借助自身項(xiàng)目經(jīng)驗(yàn),開展實(shí)驗(yàn)網(wǎng)頁存檔、社交媒體文件存檔項(xiàng)目。如果實(shí)驗(yàn)項(xiàng)目成功,可在全國范圍內(nèi)培訓(xùn),傳播網(wǎng)絡(luò)資源存檔的專業(yè)知識(shí),推動(dòng)網(wǎng)絡(luò)資源存檔實(shí)踐的開展。由專業(yè)組織的保障和推廣,WARC就能被廣大存檔人員所知、所用。
綜上所述,WARC格式是整個(gè)網(wǎng)絡(luò)資源歸檔生命周期的重要組成部分,WARC標(biāo)準(zhǔn)的認(rèn)可度不高、推廣艱難,一定程度上也反映了國內(nèi)不重視網(wǎng)絡(luò)資源長期保存。推行WARC格式,旨在加速數(shù)字資源長期保存的進(jìn)程,要想成功推動(dòng)WARC標(biāo)準(zhǔn)的實(shí)施,必然要網(wǎng)絡(luò)資源存檔得到發(fā)展,所以說WARC標(biāo)準(zhǔn)推動(dòng)不是獨(dú)立事件,而是一個(gè)系統(tǒng)工程,需要多方配合推進(jìn)。
(來稿時(shí)間:2018年9月)