——以寧波市政府網(wǎng)站網(wǎng)頁歸檔試點(diǎn)工作為例"/>
余兆力 張 凱/寧波市檔案館
隨著信息化建設(shè)的不斷拓展和深入,文件歸檔范圍也在不斷延伸,網(wǎng)頁文件、政務(wù)服務(wù)電子文件等各類新型電子文件都陸續(xù)納入電子文件歸檔范疇。2016年,中辦、國辦印發(fā)的《國家電子文件管理“十三五”規(guī)劃》中要求“推進(jìn)政府網(wǎng)頁及電子郵件、音視頻等電子文件歸檔”。2017年國務(wù)院印發(fā)的《政府網(wǎng)站發(fā)展指引》提出:“網(wǎng)頁歸檔是對(duì)政府網(wǎng)站歷史網(wǎng)頁進(jìn)行整理、存儲(chǔ)和利用的過程。政府網(wǎng)站遇整合遷移、改版等情況,要對(duì)有價(jià)值的原網(wǎng)頁進(jìn)行歸檔處理。”[1]為全面推進(jìn)部署網(wǎng)站網(wǎng)頁歸檔工作,國家檔案局啟動(dòng)了網(wǎng)站網(wǎng)頁資源歸檔試點(diǎn)工作,明確寧波市檔案局、市檔案館為4家網(wǎng)站網(wǎng)頁資源歸檔試點(diǎn)單位之一。本文將著重對(duì)寧波市開展政府網(wǎng)站網(wǎng)頁歸檔試點(diǎn)工作過程中形成的相關(guān)研究與實(shí)踐成果進(jìn)行詳細(xì)闡述。
政府網(wǎng)站網(wǎng)頁真實(shí)記錄了各級(jí)人民政府及其部門的信息發(fā)布、解讀回應(yīng)、辦事服務(wù)、互動(dòng)交流等信息記錄,具有重要的歷史價(jià)值、保存價(jià)值和研究?jī)r(jià)值。網(wǎng)頁歸檔是指將政府網(wǎng)站形成的、對(duì)國家和社會(huì)具有重要保存價(jià)值的網(wǎng)頁及相關(guān)信息記錄進(jìn)行采集、整理、保存并向檔案部門移交的活動(dòng)。
網(wǎng)站是政府機(jī)關(guān)進(jìn)行信息發(fā)布、提供對(duì)外服務(wù)的重要窗口。網(wǎng)頁文件更新快、壽命短,具有很強(qiáng)的動(dòng)態(tài)性,不及時(shí)歸檔整理,這些記錄將不復(fù)存在[2]。開展政府網(wǎng)站網(wǎng)頁歸檔,將具有保存價(jià)值的政府網(wǎng)站網(wǎng)頁及時(shí)歸檔,是時(shí)代賦予檔案工作新的歷史使命,既有利于對(duì)政府職能活動(dòng)進(jìn)行追溯、回顧和分析,也有利于構(gòu)建更加豐富的檔案資源體系。
網(wǎng)頁文件屬于復(fù)雜文件,里面包括了文本、圖片、HTML標(biāo)簽等各種信息,并且多個(gè)網(wǎng)頁文件之間還存在鏈接關(guān)系,與傳統(tǒng)的電子文件存在較大的差別。傳統(tǒng)電子文件的歸檔模式并不適合網(wǎng)頁文件的歸檔。按照電子文件歸檔要求,開展政府網(wǎng)站網(wǎng)頁歸檔需要重點(diǎn)研究并解決以下幾個(gè)問題。
政府網(wǎng)站一般包含信息發(fā)布、解讀回應(yīng)、辦事服務(wù)、互動(dòng)交流等欄目,圍繞特定主題的幾個(gè)欄目或內(nèi)容又組合成頻道。因此,政府網(wǎng)站網(wǎng)頁涉及的內(nèi)容比較復(fù)雜,各個(gè)網(wǎng)頁的價(jià)值存在較大差別,并不是所有的網(wǎng)頁都有歸檔保存的價(jià)值。因此,在開展政府網(wǎng)站網(wǎng)頁歸檔工作時(shí),要對(duì)各網(wǎng)站欄目的內(nèi)容進(jìn)行分析和梳理,明確網(wǎng)頁歸檔范圍。
為了確保電子檔案長(zhǎng)期保存和便捷利用,歸檔格式一直是電子文件歸檔工作中非常關(guān)注的問題。網(wǎng)頁文件其本身原始格式就比較復(fù)雜,如靜態(tài)的html、shtml或動(dòng)態(tài)的cgi、asp、aspx、php、jsp等,在不同版本的瀏覽器上會(huì)出現(xiàn)顯示差異。在國際上,普遍的做法是采用WARC格式作為網(wǎng)頁的存檔格式,WARC 格式將多樣化的網(wǎng)絡(luò)資源收割結(jié)果連同相關(guān)描述信息一并整合到同一存檔文件中,詳細(xì)記錄了HTTP請(qǐng)求的頭信息和元數(shù)據(jù)信息[3]。該格式的內(nèi)核為html,與原網(wǎng)頁具有較好的兼容性,能很好地展示網(wǎng)頁之間的關(guān)聯(lián)關(guān)系。在國內(nèi),電子文件歸檔普遍是采用版式格式PDF、OFD作為歸檔格式,若將網(wǎng)頁文件轉(zhuǎn)換成版式格式進(jìn)行歸檔,將會(huì)損失網(wǎng)頁的交互性,也不能再現(xiàn)網(wǎng)頁原有面貌。
縱觀目前國內(nèi)外的網(wǎng)頁歸檔項(xiàng)目,基本上都采用被動(dòng)的網(wǎng)頁歸檔方式,即通過網(wǎng)頁爬蟲技術(shù)抓取需要?dú)w檔的網(wǎng)頁并下載至本地,通過整理后進(jìn)行歸檔保存。除了被動(dòng)方式外,還可完善網(wǎng)站歸檔功能,通過web service服務(wù)接口將網(wǎng)頁文件主動(dòng)提交歸檔。在開展政府網(wǎng)站網(wǎng)頁歸檔工作時(shí),要根據(jù)政府網(wǎng)站的建設(shè)情況、歸檔需求選擇合適的歸檔方式。
寧波市檔案局、市檔案館開展政府網(wǎng)站網(wǎng)頁歸檔試點(diǎn)工作,得到了寧波市委市政府的大力支持。為規(guī)范政府網(wǎng)站網(wǎng)頁歸檔管理工作,寧波市政府辦公廳印發(fā)了《寧波市政府網(wǎng)站網(wǎng)頁歸檔管理暫行辦法》,為寧波做好國家檔案局網(wǎng)站網(wǎng)頁歸檔試點(diǎn)工作提供了有力支撐。寧波作為試點(diǎn),著重從網(wǎng)頁歸檔職責(zé)分工、網(wǎng)頁歸檔范圍和采集要求、網(wǎng)頁整理歸檔要求、網(wǎng)頁文件歸檔管理系統(tǒng)建設(shè)等方面進(jìn)行探索和實(shí)踐。
寧波市政府網(wǎng)站網(wǎng)頁歸檔,首批將寧波市政府門戶網(wǎng)站、市級(jí)有關(guān)單位網(wǎng)站列為試點(diǎn)范圍。為了明確分工、落實(shí)責(zé)任,在試點(diǎn)工作開展之初即梳理了網(wǎng)頁歸檔和管理流程,分為收集、歸檔、整理、移交、接收、保管、管理和利用8個(gè)環(huán)節(jié),明確政府網(wǎng)站網(wǎng)頁歸檔管理的職責(zé)分工。
按照“誰形成誰歸檔”的原則,明確網(wǎng)站主辦單位為網(wǎng)頁歸檔的責(zé)任主體,應(yīng)統(tǒng)籌規(guī)劃網(wǎng)頁歸檔工作,制定網(wǎng)頁歸檔范圍和保管期限表,完成網(wǎng)頁收集、歸檔、整理、移交和檔案室保管工作;市檔案館負(fù)責(zé)建設(shè)市政府網(wǎng)站網(wǎng)頁歸檔管理統(tǒng)一平臺(tái),提供自動(dòng)采集功能,按規(guī)定接收、保管和管理政府網(wǎng)站網(wǎng)頁檔案并依法提供利用;市檔案主管部門負(fù)責(zé)市政府網(wǎng)站網(wǎng)頁歸檔工作的監(jiān)督指導(dǎo),制定相關(guān)管理標(biāo)準(zhǔn)、流程等規(guī)范,開展培訓(xùn)和檢查評(píng)估。
各網(wǎng)站的網(wǎng)頁歸檔范圍和保管期限由網(wǎng)站主辦單位制定,由市檔案局審核、備案。參考政府網(wǎng)站建設(shè)和管理相關(guān)標(biāo)準(zhǔn),網(wǎng)頁歸檔范圍一般包括反映網(wǎng)站整體風(fēng)貌的網(wǎng)站首頁、頻道首頁及欄目首頁,反映本單位職能和網(wǎng)站功能的信息發(fā)布類、解讀回應(yīng)類、辦事服務(wù)類、互動(dòng)交流類,以及其他具有保存價(jià)值的頁面。通過歸檔實(shí)踐的論證,我們認(rèn)為保管期限應(yīng)以欄目為單位設(shè)置,各欄目的保管期限為本欄目?jī)?nèi)網(wǎng)頁文件的最高保管期限。采用這種方式有利于提高網(wǎng)頁文件采集的效率。
網(wǎng)頁文件具有超鏈接性,內(nèi)容非常復(fù)雜,屬于歸檔范圍的網(wǎng)頁文件,以URL鏈接方式存在于網(wǎng)頁文件中的文本、照片、音頻、視頻等附件及網(wǎng)頁文件相關(guān)元數(shù)據(jù)都屬于歸檔采集的范圍,應(yīng)該一并采集歸檔。參考《都柏林核心元數(shù)據(jù)集》《政府網(wǎng)站發(fā)展指引》,結(jié)合網(wǎng)頁文件的實(shí)際情況,網(wǎng)頁文件采集的元數(shù)據(jù)應(yīng)包括內(nèi)容檢索類、資源屬性類、知識(shí)產(chǎn)權(quán)類、固化信息類4類共17項(xiàng)。其中,內(nèi)容檢索類包括網(wǎng)頁標(biāo)題、發(fā)布時(shí)間、來源、關(guān)鍵詞、摘要、網(wǎng)址;資源屬性類包括采集時(shí)間、語種、類型、格式、唯一標(biāo)識(shí)符;知識(shí)產(chǎn)權(quán)類包括作者、發(fā)表者、貢獻(xiàn)者、權(quán)利所有者;固化信息類包括數(shù)字摘要、校驗(yàn)信息。
明確網(wǎng)站網(wǎng)頁整理的要求是開展網(wǎng)站網(wǎng)頁文件歸檔的關(guān)鍵,具體包括網(wǎng)站網(wǎng)頁文件歸檔格式、網(wǎng)頁文件編號(hào)規(guī)則、網(wǎng)頁文件存儲(chǔ)結(jié)構(gòu)等。
在網(wǎng)頁文件歸檔格式上,對(duì)WARC格式和版式格式的對(duì)比分析,發(fā)現(xiàn)這兩類格式有各自的優(yōu)缺點(diǎn)。為了既能確保網(wǎng)頁文件的長(zhǎng)期保存,又能提升歸檔后網(wǎng)頁文件的利用體驗(yàn),在試點(diǎn)工作實(shí)踐中采用了雙套歸檔的模式,即一套網(wǎng)頁文件通過OFD轉(zhuǎn)換引擎自動(dòng)轉(zhuǎn)換成OFD格式保存,同時(shí)保存了一套WARC格式的網(wǎng)頁文件。
網(wǎng)頁文件采用按件管理的方式,試點(diǎn)實(shí)踐工作明確了網(wǎng)頁文件的編號(hào)規(guī)則,采用網(wǎng)頁文件唯一標(biāo)識(shí)符作為網(wǎng)頁文件唯一性標(biāo)識(shí),網(wǎng)頁文件唯一標(biāo)識(shí)符的結(jié)構(gòu)為“網(wǎng)站編號(hào)—日期—保管期限代碼—流水號(hào)”。其中網(wǎng)站編號(hào)為10位數(shù)字,前2位為省級(jí)行政區(qū)劃代碼,后8位為網(wǎng)站主辦單位的ICP備案號(hào)中的8位數(shù)字;日期為網(wǎng)頁文件的采集時(shí)間,以8位數(shù)字表示;保管期限代碼用“YD30D10”表示;流水號(hào)為網(wǎng)頁文件采集時(shí)的流水編號(hào),采用6位數(shù)字編碼。網(wǎng)頁文件的檔號(hào)以網(wǎng)頁文件唯一標(biāo)識(shí)符為基礎(chǔ),檔號(hào)結(jié)構(gòu)為“全宗號(hào)—WY.年度—網(wǎng)頁文件唯一標(biāo)識(shí)符”。
網(wǎng)頁文件采用層級(jí)文件夾進(jìn)行存儲(chǔ),不同格式的網(wǎng)頁文件采用不同的存儲(chǔ)結(jié)構(gòu)。WARC格式的網(wǎng)頁文件依次按不同的網(wǎng)站、年度建立層級(jí)文件夾,如“網(wǎng)頁檔案寧波市政府門戶網(wǎng)站2018”;OFD格式的網(wǎng)頁文件基于檔號(hào)規(guī)則設(shè)置層級(jí)文件夾,如“寧波市政府網(wǎng)頁檔案2018永久”。
為實(shí)現(xiàn)網(wǎng)頁文件歸檔管理,需要建設(shè)一套網(wǎng)頁文件歸檔管理系統(tǒng),該系統(tǒng)一方面負(fù)責(zé)與各政府網(wǎng)站鏈接,通過網(wǎng)頁爬蟲技術(shù)采集各政府網(wǎng)站需要?dú)w檔的網(wǎng)頁文件;另一方面與寧波市檔案館現(xiàn)有的集中式檔案管理系統(tǒng)連接,將整理完畢的網(wǎng)頁文件提交歸檔。網(wǎng)頁文件歸檔業(yè)務(wù)流程如圖1所示。
按照網(wǎng)頁歸檔職責(zé)分工的要求,寧波市檔案館負(fù)責(zé)網(wǎng)頁文件歸檔管理系統(tǒng)的建設(shè),為全市政府機(jī)關(guān)提供統(tǒng)一的網(wǎng)頁文件歸檔平臺(tái)。根據(jù)網(wǎng)頁文件采集、整理、歸檔、利用的需求,網(wǎng)頁文件歸檔管理系統(tǒng)包括網(wǎng)頁文件采集管理系統(tǒng)和網(wǎng)頁文件展示利用系統(tǒng)兩部分。
圖1:網(wǎng)頁文件歸檔在信息系統(tǒng)中的業(yè)務(wù)流程
網(wǎng)頁文件采集管理系統(tǒng)包括網(wǎng)站采集、網(wǎng)站管理、策略管理、分類管理等功能。網(wǎng)站采集按照設(shè)定策略規(guī)則通過網(wǎng)頁爬蟲從網(wǎng)站上采集網(wǎng)頁文件,網(wǎng)頁爬蟲可下載設(shè)定范圍內(nèi)的網(wǎng)頁文件、可自動(dòng)分類、可提取網(wǎng)頁元數(shù)據(jù)。網(wǎng)站管理用于管理與維護(hù)采集的目標(biāo)網(wǎng)站信息,包括采集任務(wù)的監(jiān)控、采集策略的設(shè)置等。策略管理包括元數(shù)據(jù)策略設(shè)置、內(nèi)容分類策略設(shè)置、采集策略設(shè)置,元數(shù)據(jù)策略定義采集網(wǎng)頁時(shí)元數(shù)據(jù)的捕獲規(guī)則,捕獲規(guī)則主要基于XPATH和正則規(guī)則技術(shù)實(shí)現(xiàn);內(nèi)容分類策略用于網(wǎng)頁信息的自動(dòng)分類,同樣基于XPATH和正則規(guī)則技術(shù)實(shí)現(xiàn);采集策略用于定義目標(biāo)網(wǎng)站的采集范圍,策略內(nèi)容包括設(shè)置采集網(wǎng)站地址、層級(jí)、采集頻度、啟動(dòng)時(shí)間等。分類管理采用樹型結(jié)構(gòu)展示網(wǎng)頁文件信息,實(shí)現(xiàn)對(duì)采集的網(wǎng)頁文件的分類管理,網(wǎng)頁文件采用WARC格式進(jìn)行存儲(chǔ)管理,在網(wǎng)頁文件提交歸檔時(shí),通過OFD格式轉(zhuǎn)換服務(wù)將網(wǎng)頁文件轉(zhuǎn)換成OFD格式進(jìn)行歸檔,同時(shí)提交一套WARC格式文件歸檔。
網(wǎng)頁文件展示利用系統(tǒng)提供對(duì)歷史網(wǎng)頁文件的展示、查閱等服務(wù)??梢哉故静煌瑲v史時(shí)間點(diǎn)的網(wǎng)頁文件,其展示效果與原網(wǎng)站展示效果一致,重現(xiàn)網(wǎng)站的歷史原貌。支持按時(shí)間順序進(jìn)行在線展示與查看,支持搜索網(wǎng)站,可選擇查看日期,瀏覽某歷史時(shí)刻的網(wǎng)站原貌。提供網(wǎng)頁電子文件的下載功能,可隨時(shí)下載已生成的OFD網(wǎng)頁文件,通過OFD版式閱讀器離線閱覽。
自2018年網(wǎng)頁文件歸檔管理系統(tǒng)上線運(yùn)行以來,網(wǎng)頁文件歸檔管理系統(tǒng)已與寧波市人民政府網(wǎng)站、寧波市發(fā)展和改革委員會(huì)網(wǎng)站、寧波市科學(xué)技術(shù)局網(wǎng)站、寧波市司法局網(wǎng)站、寧波市人力資源和社會(huì)保障局網(wǎng)站等15家市級(jí)政府網(wǎng)站建立連接,開展政府網(wǎng)站網(wǎng)頁文件采集歸檔工作。截至2022年6月,已采集15家政府網(wǎng)站網(wǎng)頁文件約1300萬件,合計(jì)數(shù)據(jù)量為2TB。2022年7月,網(wǎng)頁文件歸檔管理系統(tǒng)完成全面升級(jí),提供了WARC離線閱讀功能,改善了對(duì)微信公眾號(hào)、微博和網(wǎng)頁文件附件的支持,系統(tǒng)底層檢索數(shù)據(jù)存儲(chǔ)從原有的MongoDB升級(jí)為Elastic Search系統(tǒng),可承載10億級(jí)別的數(shù)據(jù)容量,可提供秒級(jí)的全文檢索響應(yīng)能力,可支持寧波全市政府網(wǎng)站網(wǎng)頁的采集歸檔。在采集性能上,從每服務(wù)器支持5個(gè)網(wǎng)站升級(jí)到支持10個(gè)網(wǎng)站,性能翻了一番。
2018年底,國家檔案局組織專家對(duì)寧波市檔案局、市檔案館的網(wǎng)站網(wǎng)頁歸檔試點(diǎn)項(xiàng)目進(jìn)行了驗(yàn)收。專家組高度評(píng)價(jià)試點(diǎn)項(xiàng)目取得的階段性成果,一致認(rèn)為試點(diǎn)成果具有較強(qiáng)的實(shí)用性、操作性和可復(fù)制性。項(xiàng)目組非常重視試點(diǎn)工作成果的轉(zhuǎn)化,以試點(diǎn)工作成果為藍(lán)本起草了寧波市地方標(biāo)準(zhǔn)《政府網(wǎng)站網(wǎng)頁歸檔與管理規(guī)范》(DB3302/T 1112—2019),該標(biāo)準(zhǔn)已于2020年1月23日正式實(shí)施。項(xiàng)目組還參與了《OFD在政府網(wǎng)站網(wǎng)頁歸檔中的應(yīng)用指南》(GB/T 39677—2020)國家標(biāo)準(zhǔn)的制定,該標(biāo)準(zhǔn)已于2021年7月1日正式實(shí)施。
同時(shí),寧波也非常重視試點(diǎn)工作取得的成果,在應(yīng)用推廣階段重點(diǎn)抓好兩件事:一是加強(qiáng)行政監(jiān)管,促進(jìn)共享利用。將網(wǎng)站網(wǎng)頁歸檔管理工作納入政府網(wǎng)站常態(tài)化監(jiān)管內(nèi)容,市檔案主管部門會(huì)同市政府網(wǎng)站主管單位對(duì)網(wǎng)頁歸檔管理情況進(jìn)行監(jiān)督考核,未落實(shí)歸檔管理責(zé)任的不得評(píng)為優(yōu)秀政府網(wǎng)站。在推動(dòng)網(wǎng)頁文件利用上,確定了“以開放為原則”的指導(dǎo)思想,政府網(wǎng)站主辦單位在向本級(jí)國家檔案館移交網(wǎng)頁文件時(shí),如未明確指明開放屬性,一律標(biāo)識(shí)為“開放”。二是拓展歸檔范圍,擴(kuò)大應(yīng)用領(lǐng)域。在歸檔內(nèi)容上,將網(wǎng)頁文件歸檔的范圍向微信公眾號(hào)、微博等政務(wù)新媒體延伸;在應(yīng)用層級(jí)上,將政府網(wǎng)站網(wǎng)頁歸檔工作向區(qū)縣延伸。如鄞州區(qū)檔案館經(jīng)過前期調(diào)研,計(jì)劃于2022年底完成1個(gè)區(qū)政府網(wǎng)站、全部55個(gè)部門子站和鄞州公安、鄞州政務(wù)等15個(gè)鄞州官方微信公眾號(hào)網(wǎng)頁文件采集工作。