■ 陶 冶
互聯(lián)網(wǎng)自誕生以來,為全世界信息化帶來了極大的便利,自此,人類社會(huì)從工業(yè)文明向信息文明轉(zhuǎn)變,同時(shí),互聯(lián)網(wǎng)也為云計(jì)算、大數(shù)據(jù)、人工智能的快速發(fā)展提供了契機(jī)。近年來,中國(guó)在互聯(lián)網(wǎng)領(lǐng)域的發(fā)展速度讓世界驚嘆。中國(guó)互聯(lián)網(wǎng)信息中心報(bào)告顯示,截至2020年一季度,中國(guó)互聯(lián)網(wǎng)用戶總數(shù)達(dá)9.04 億,占世界網(wǎng)民總數(shù)的1/5,居全球第一。截至2019年底,中國(guó)網(wǎng)站數(shù)量達(dá)497 萬家,“.CN”下網(wǎng)站數(shù)量341 萬個(gè),中國(guó)網(wǎng)頁數(shù)量2978 億個(gè)。我國(guó)“互聯(lián)網(wǎng)+ 政務(wù)服務(wù)”也不斷深化發(fā)展,信息公開工作不斷推進(jìn),據(jù)《2019年中國(guó)政府網(wǎng)站績(jī)效評(píng)估報(bào)告》指出,80%的政府網(wǎng)站積極公開機(jī)構(gòu)職能和政策文件、動(dòng)態(tài)要聞等基礎(chǔ)信息;86%的政府網(wǎng)站積極開通政策解讀專欄,對(duì)政策進(jìn)行解讀。各級(jí)政府還依托網(wǎng)上政務(wù)服務(wù)平臺(tái),推動(dòng)線上線下集成融合,實(shí)時(shí)匯入網(wǎng)上申報(bào)、排隊(duì)預(yù)約、審批審查結(jié)果等信息,通過“數(shù)據(jù)多跑路”,實(shí)現(xiàn)“群眾少跑腿”。
“互聯(lián)網(wǎng)+ 政務(wù)服務(wù)”工作不斷推進(jìn),讓億萬人民在共享互聯(lián)網(wǎng)發(fā)展成果中擁有更多獲得感,隨之而來的網(wǎng)頁發(fā)布的信息呈指數(shù)型增長(zhǎng),這些網(wǎng)頁都真實(shí)記錄和反映了機(jī)構(gòu)運(yùn)行的軌跡,是各方面活動(dòng)的真實(shí)寫照,許多還有憑證價(jià)值和作用。如何及時(shí)存儲(chǔ)并高效利用網(wǎng)頁電子文件特別是重要的黨政網(wǎng)站網(wǎng)頁信息,已成為當(dāng)前檔案工作的重要課題。如果收集不全、存儲(chǔ)不善,將導(dǎo)致大量具有追朔憑證、記錄歷史、提供決策參考、教育后人的,具有歸檔保存價(jià)值的真實(shí)記錄丟失。特別是在機(jī)構(gòu)撤并、網(wǎng)站改版、整合遷移、主題更換等重要節(jié)點(diǎn),如果不對(duì)政府網(wǎng)站網(wǎng)頁作及時(shí)歸檔處理,許多重要網(wǎng)頁檔案有滅失的危險(xiǎn)。
2017年,國(guó)務(wù)院辦公廳印發(fā)了《政府網(wǎng)站發(fā)展指引》,要求各級(jí)政府網(wǎng)站做好網(wǎng)頁歸檔工作。2019年,國(guó)家檔案局發(fā)布檔案行業(yè)標(biāo)準(zhǔn)DA/T80- 2019《政府網(wǎng)站網(wǎng)頁歸檔指南》,對(duì)政府網(wǎng)站網(wǎng)頁歸檔的歸檔原則、歸檔范圍、責(zé)任主體、保管期限、收集時(shí)間、收集內(nèi)容、歸檔格式、整理和移交接收方式以及要求都作了具體明確,為各級(jí)機(jī)關(guān)及其檔案部門開展網(wǎng)站網(wǎng)頁歸檔工作提供了堅(jiān)實(shí)的理論支撐。
政府網(wǎng)站網(wǎng)頁資源是各級(jí)機(jī)構(gòu)各種網(wǎng)絡(luò)活動(dòng)的真實(shí)記錄。由于各自的網(wǎng)站構(gòu)架、運(yùn)行模式、內(nèi)容設(shè)置等都存在較大差異,網(wǎng)站主辦單位的檔案部門開展網(wǎng)站網(wǎng)頁資源的歸檔前,需要在本區(qū)域檔案管理部門的指導(dǎo)下,對(duì)目標(biāo)網(wǎng)站進(jìn)行全面梳理,形成較為可行的采集、歸檔預(yù)定方案。方案用以明確網(wǎng)站網(wǎng)頁資源采集、歸檔的主體責(zé)任,科學(xué)界定網(wǎng)頁分類,細(xì)化采集、歸檔策略,包括元數(shù)據(jù)和網(wǎng)頁電子文件的保存方式,數(shù)據(jù)采集方式、采集范圍、采集頻率、編號(hào)方式、存儲(chǔ)格式、歸檔時(shí)間等一系列策略。優(yōu)化的方案,不僅保障了歸檔文件的質(zhì)量,還將之后的科學(xué)安全保存和開發(fā)利用打下基礎(chǔ)。
網(wǎng)頁電子文件具有可分離性、可操作性、不穩(wěn)定性和流動(dòng)性,為保證網(wǎng)站網(wǎng)頁資源采集歸檔過程中歸檔文件的真實(shí)性、可用性、可靠性和完整性,實(shí)現(xiàn)對(duì)網(wǎng)頁文件長(zhǎng)期安全保存,滿足之后的調(diào)閱和開發(fā)利用,網(wǎng)頁電子文件元數(shù)據(jù)的保存和關(guān)聯(lián)就顯得尤為重要了。
網(wǎng)頁歸檔時(shí),按照《政府網(wǎng)站網(wǎng)頁歸檔指南》上的標(biāo)準(zhǔn),可以將網(wǎng)站名稱、網(wǎng)站域名、標(biāo)題、副標(biāo)題、欄目、發(fā)布時(shí)間、來源、關(guān)鍵詞、作者、摘要、網(wǎng)址、采集時(shí)間、采集人等基本元數(shù)據(jù)進(jìn)行保存。還可以根據(jù)具體需要,將資源類型、圖片文件ID、音頻文件ID、視頻文件ID 等其他元數(shù)據(jù)也做相應(yīng)保存處理。
基于XML 的標(biāo)準(zhǔn)開放、可擴(kuò)展性強(qiáng)、可跨平臺(tái)等多種特點(diǎn),可以選擇XML 做為元數(shù)據(jù)保存的方式,將需要保存的元數(shù)據(jù)整體置標(biāo)為一個(gè)XML 文檔。另外,也可以考慮選擇JSON 作為數(shù)據(jù)保存格式,JSON 也有較強(qiáng)的可擴(kuò)展性,而且JSON 是一種輕量級(jí)的數(shù)據(jù)交換格式,層次和結(jié)構(gòu)更加簡(jiǎn)潔和清晰,易于閱讀和編寫,同時(shí)也易于機(jī)器解析和生成,可以有效地提升網(wǎng)絡(luò)傳輸效率。保存后的元數(shù)據(jù)可以選用嵌入式、鏈接和封裝等多種方式進(jìn)行關(guān)聯(lián)。封裝是較為合理和常見的方式,可以將網(wǎng)頁電子文件和元數(shù)據(jù)打包做為自我包含的實(shí)體,形成網(wǎng)頁電子文件信息總體封裝包來安全保存,而且也比較方便管理。
為充分滿足網(wǎng)頁歸檔后可長(zhǎng)期保存的要求,我們應(yīng)盡量選用開放式通用保存格式,比如WARC、OFD 等格式。WARC(Web Archiving File Format)格式是一種比較理想的網(wǎng)絡(luò)資源歸檔格式。該格式由互聯(lián)網(wǎng)檔案館等機(jī)構(gòu)在IIPC 資助下共同開發(fā),并以ISO28500 國(guó)際標(biāo)準(zhǔn)發(fā)布。
WARC 是ARC 格式的延續(xù)和擴(kuò)展,對(duì)ARC向上兼容,它將多個(gè)數(shù)據(jù)對(duì)象和相關(guān)信息聚合到一個(gè)文件中。WARC 由一系列WARC 記錄組成,記錄大量數(shù)據(jù)信息。除了記錄靜態(tài)網(wǎng)頁、圖片、URL、音頻文件、視頻文件等內(nèi)容,還可記錄如網(wǎng)絡(luò)爬行信息、服務(wù)器信息、請(qǐng)求信息、訪問信息、響應(yīng)信息、分段信息等背景信息或者資源詳細(xì)描述。通過這些信息可以重現(xiàn)當(dāng)時(shí)的網(wǎng)絡(luò)環(huán)境,對(duì)于網(wǎng)絡(luò)資源長(zhǎng)期安全保存和開發(fā)利用具有重要意義。WRAC 格式還十分便于存檔和壓縮,可以打包、壓縮、加密文件,也支持自解壓和自擴(kuò)展,適合數(shù)據(jù)量大、內(nèi)容復(fù)雜、交互性強(qiáng)的網(wǎng)絡(luò)資源。便利的打包壓縮并保存,降低了長(zhǎng)期保存的空間開銷和處理小文件的計(jì)算開銷,方便存儲(chǔ)后的文件管理。
從目標(biāo)網(wǎng)站的主管部門或歸檔工作的主管部門視角出發(fā),對(duì)網(wǎng)站網(wǎng)頁數(shù)據(jù)的采集可分為主動(dòng)采集和被動(dòng)采集。
主動(dòng)采集是通過目標(biāo)網(wǎng)站的內(nèi)置歸檔功能模塊完成目標(biāo)網(wǎng)頁的采集。內(nèi)置網(wǎng)頁歸檔功能模塊在網(wǎng)站建設(shè)之初就已經(jīng)在系統(tǒng)規(guī)劃設(shè)計(jì)和安裝部署,或者在后期補(bǔ)充設(shè)計(jì)制作,集成部署進(jìn)去。如果采用內(nèi)置網(wǎng)頁歸檔功能進(jìn)行采集歸檔,采集策略設(shè)置簡(jiǎn)便,采集質(zhì)量和效率較高,人工干預(yù)需求較少。
采集策略又可以分為定期不定期兩種,或者定期不定期相結(jié)合。定期采集可以設(shè)置采集的時(shí)間頻率,即多長(zhǎng)時(shí)間觸發(fā)一次采集歸檔任務(wù),設(shè)置的頻率過高,將加大數(shù)據(jù)的存儲(chǔ)的空間和開發(fā)利用時(shí)對(duì)比數(shù)據(jù)時(shí)產(chǎn)生的麻煩,設(shè)置的頻率過低,又難以保證網(wǎng)頁數(shù)據(jù)的安全,影響該網(wǎng)站網(wǎng)頁采集歸檔系統(tǒng)的有效性。另外,網(wǎng)站網(wǎng)頁的更新速度和網(wǎng)頁內(nèi)容的重要程度也是決定采集頻率的重要參數(shù)。鑒于政府網(wǎng)站的更新速度和重要程度,每月一次應(yīng)該是較為合理的設(shè)置采集頻率?;蛘咴O(shè)置內(nèi)容發(fā)生一定規(guī)則的變更后進(jìn)行自動(dòng)采集歸檔。對(duì)已歸檔的網(wǎng)頁,還應(yīng)置標(biāo)該網(wǎng)頁為“已歸檔”并且標(biāo)注真實(shí)歸檔時(shí)間,避免重復(fù)歸檔,也為之后的查找提供便利條件。
被動(dòng)采集通過外置程序進(jìn)行采集。例如使用Python 等腳本語言編寫的爬蟲程序,定義帶參的頁面爬取函數(shù),通過requests 庫的gets 函數(shù)爬取所需頁面內(nèi)容。爬蟲程序通過預(yù)制規(guī)則,自動(dòng)從海量網(wǎng)絡(luò)資源中爬取所需信息,程序通過模仿瀏覽器對(duì)網(wǎng)頁的URL 地址訪問的方式,不需要人工操作即可獲得所需數(shù)據(jù)。被動(dòng)采集由于是通過外置程序進(jìn)行采集,外部程序的規(guī)則最后實(shí)現(xiàn)的結(jié)果仍然受到目標(biāo)網(wǎng)站相關(guān)功能的制約和限制,所得到得網(wǎng)頁資源的可用性和完整性難以保證,后期需要人工檢驗(yàn),采集效率不夠理想。
完全采集是對(duì)目標(biāo)網(wǎng)站網(wǎng)頁的完整采集,完全采集不對(duì)網(wǎng)頁內(nèi)容進(jìn)行判斷,直接進(jìn)行整體保存,包括全部的靜態(tài)網(wǎng)頁、文本、音頻、視頻等文件。如果小型網(wǎng)站使用完全采集,可以提高采集速度,提升采集效率。
部分采集以價(jià)值判斷為基礎(chǔ),主要采集目標(biāo)網(wǎng)站的核心板塊和項(xiàng)目中的重點(diǎn)領(lǐng)域,或者以特色主題或者重要事件為線索開展采集,這種采集方式保存的資源主題鮮明,指向性較強(qiáng),價(jià)值較高,對(duì)之后的開發(fā)利用較為有利。另外,還可以把完全采集和專題采收結(jié)合起來,首先完成最重要指定目標(biāo)的網(wǎng)站的完全采集,在此基礎(chǔ)上對(duì)特定范圍內(nèi),目標(biāo)不是特別確定的網(wǎng)站使用部分采集,做為首次采集的補(bǔ)充,既能提高采集效率,又能兼顧資源質(zhì)量,最終保證采集的可用和穩(wěn)定。
專題采集是指在國(guó)家和社會(huì)遇到自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會(huì)安全事件等突發(fā)事件時(shí),對(duì)一些重點(diǎn)指定網(wǎng)站的專題收集。比如2020年初,浙江省檔案館以抗“疫”為主題開展了網(wǎng)頁檔案采集歸檔,對(duì)指定網(wǎng)站自2020年1月新冠肺炎疫情發(fā)生之后發(fā)布的有關(guān)各地疫情防控工作開展的通知、公告、通報(bào)、新聞報(bào)道等內(nèi)容進(jìn)行了專題采集。共采集視頻文件總時(shí)長(zhǎng)3316 分鐘,圖片文件2826 張,靜態(tài)網(wǎng)頁11528頁,數(shù)據(jù)量達(dá)51GB。
除此之外還可以對(duì)國(guó)家和社會(huì)發(fā)生的重大影響事件作專題收集,例如“改革開放40年”、“建國(guó)70 周年紀(jì)念”、“脫貧攻堅(jiān)”等。有些網(wǎng)站網(wǎng)頁內(nèi)容在國(guó)家和社會(huì)發(fā)生的重大影響事件時(shí)產(chǎn)生大量有價(jià)值,可反映當(dāng)時(shí)社會(huì)的原貌,保存利用好這些檔案,能充分發(fā)揮檔案部門“存憑、留史、資政、育人”的作用。
在目標(biāo)網(wǎng)站產(chǎn)生主題或者展現(xiàn)形式發(fā)生重大變化之前,例如網(wǎng)站改版、網(wǎng)站撤銷、網(wǎng)站核心板塊撤換、網(wǎng)站數(shù)據(jù)結(jié)構(gòu)變更、網(wǎng)站服務(wù)遷移、網(wǎng)站運(yùn)維部門變更等發(fā)生重大變化,處于關(guān)鍵節(jié)點(diǎn),發(fā)生重大變更時(shí),需要進(jìn)行專門采集。專門采集時(shí)要注重?cái)?shù)據(jù)的可用性和完整性。如果未能及時(shí)采集,將造成數(shù)據(jù)資源的滅失,難以再現(xiàn)網(wǎng)站網(wǎng)頁的原貌。重要節(jié)點(diǎn)和發(fā)生重大變更時(shí)所進(jìn)行的專門采集最好為完全采集。
所采集網(wǎng)頁的網(wǎng)頁資源在歸檔整理之前,應(yīng)該根據(jù)關(guān)鍵字提取元數(shù)據(jù)信息,并將網(wǎng)頁轉(zhuǎn)換為開放式通用保存格式,確保電子文件不綁定軟硬件,具有顯示已知悉、可轉(zhuǎn)換、易于利用等性能。經(jīng)轉(zhuǎn)換完畢的電子文件應(yīng)根據(jù)分類排列方案進(jìn)行編號(hào),按照《政府網(wǎng)站網(wǎng)頁歸檔指南》規(guī)定,一般以“全宗號(hào)- 檔案門類代碼- 網(wǎng)站代碼-年度- 保管期限代碼- 類別代碼- 順序號(hào)”或《全宗號(hào)- 檔案門類代碼- 網(wǎng)站代碼-年度- 類別代碼- 保管期限代碼- 順序號(hào)》格式進(jìn)行編號(hào),如2020年某廳局官方網(wǎng)站抗“疫”專題板塊網(wǎng)頁“云南省首批援鄂醫(yī)療隊(duì)出征”可按“0001(全宗號(hào))- WY- 01- 2020- Y- KYZT- 云南省首批援鄂醫(yī)療隊(duì)出征- 0001”。全宗號(hào)、檔案門類代碼、網(wǎng)站代碼、年度、保管期限代碼、類別代碼、順序號(hào)編碼規(guī)則均在該指南上有詳細(xì)介紹,本文不再贅述。
編號(hào)完成后,在網(wǎng)頁檔案存儲(chǔ)時(shí),可以簡(jiǎn)便地以按編號(hào)時(shí)使用的所對(duì)應(yīng)的“全宗號(hào)、檔案門類代碼、網(wǎng)站代碼、年度、保管期限代碼、類別代碼、題名、順序號(hào)”等組成分段元素作為文件夾層級(jí)使用,層級(jí)文件夾建立后,將網(wǎng)頁檔案放置于相應(yīng)的文件夾下。如果索引建立得比較完善,網(wǎng)站數(shù)據(jù)量不大,也可以更為簡(jiǎn)便地以“網(wǎng)站順序號(hào)+年度”作為文件夾進(jìn)行網(wǎng)頁檔案的存儲(chǔ),后期開發(fā)利用效率更高。為了實(shí)現(xiàn)采集網(wǎng)頁的長(zhǎng)期安全保存,如果條件允許,可以采用在線或者離線的方式,將采集好的目標(biāo)電子文件和元數(shù)據(jù)遷移至本單位檔案部門的電子檔案管理系統(tǒng)進(jìn)行存儲(chǔ)保存。
隨著信息技術(shù)的不斷進(jìn)步和互聯(lián)網(wǎng)科技的飛速發(fā)展,互聯(lián)網(wǎng)已深入我們工作生活的每一個(gè)角落,網(wǎng)上政務(wù)相關(guān)工作也持續(xù)不斷地推進(jìn),隨之產(chǎn)生的大量網(wǎng)站網(wǎng)頁將成為我國(guó)的重要檔案資源。但是,我國(guó)網(wǎng)站網(wǎng)頁歸檔研究工作起步晚,實(shí)踐項(xiàng)目少,相關(guān)規(guī)范和管理辦法還不夠完善,許多問題亟待我們?nèi)パ芯拷鉀Q。在未來的實(shí)踐中不斷探索,我們還需要解決好一些關(guān)鍵問題。
一是保障檔案資源的真實(shí)性和完整性
互聯(lián)網(wǎng)信息是公開的,但是由公開的互聯(lián)網(wǎng)信息向網(wǎng)站網(wǎng)頁檔案轉(zhuǎn)變過程完成之后,數(shù)據(jù)變成了電子檔案,還必須保護(hù)數(shù)據(jù)抵御外界環(huán)境的影響,保障數(shù)據(jù)的真實(shí)性和完整性,以確保文件的法律效力和保存價(jià)值,最終實(shí)現(xiàn)檔案的憑證價(jià)值。常用的方法有電子簽名、時(shí)間戳、數(shù)字摘要等技術(shù)。近年來,區(qū)塊鏈技術(shù)日益發(fā)展,由于區(qū)塊鏈技術(shù)從本質(zhì)來講,就是一個(gè)共享的“數(shù)據(jù)庫”。數(shù)據(jù)存儲(chǔ)其中,就具有了“不可偽造”“公開透明”“可以追溯”等特征。基于這些特征,也奠定了區(qū)塊鏈技術(shù)堅(jiān)實(shí)的“可信任”屬性。區(qū)塊鏈技術(shù)通過網(wǎng)絡(luò)中所有節(jié)點(diǎn)共同參與計(jì)算,待寫入數(shù)據(jù)在全網(wǎng)互相驗(yàn)證的基礎(chǔ)上,方才被允許寫入,這樣就保證了數(shù)據(jù)的真實(shí)性。另外,區(qū)塊鏈技術(shù)采用去中心化的分布式存儲(chǔ)方式,這樣還可以有效解決網(wǎng)站網(wǎng)頁數(shù)據(jù)存儲(chǔ)時(shí)各類數(shù)據(jù)相分離的問題,維護(hù)網(wǎng)站網(wǎng)頁檔案的完整性, 其分布式的特點(diǎn)也將數(shù)據(jù)丟失的可能性大大降低。且區(qū)塊鏈技術(shù)的核心是實(shí)現(xiàn)了沿時(shí)間軸記錄數(shù)據(jù)與合約,數(shù)據(jù)一旦通過驗(yàn)證被寫入?yún)^(qū)塊并加入?yún)^(qū)塊鏈中,就只能讀取,不能修改和刪除,這樣又確保了數(shù)據(jù)的安全性。因此,區(qū)塊鏈技術(shù)可以為網(wǎng)站網(wǎng)頁檔案數(shù)據(jù)的真實(shí)性和完整性提供堅(jiān)實(shí)的技術(shù)支撐。
二是建立網(wǎng)站網(wǎng)頁檔案開放數(shù)據(jù)共建共享機(jī)制
信息資源開放與共享是建設(shè)陽光政府的重要途徑,是提高社會(huì)生產(chǎn)力、保障公平正義的重要前提,是促進(jìn)信息消費(fèi)、發(fā)展新興產(chǎn)業(yè)的重要支撐。數(shù)據(jù)開放利用程度越高,信息知識(shí)作為生產(chǎn)要素的作用就會(huì)越強(qiáng)。
即使各單位已完成各自網(wǎng)站數(shù)據(jù)采集,但是這些數(shù)據(jù)仍然處于分散狀態(tài),仍然存在安全風(fēng)險(xiǎn)。如果檔案部門可以整合區(qū)域內(nèi)網(wǎng)站網(wǎng)頁檔案資源,匯聚區(qū)域內(nèi)各行業(yè)黨務(wù)數(shù)據(jù)、政務(wù)數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)、行業(yè)數(shù)據(jù)、企業(yè)數(shù)據(jù)、社會(huì)組織數(shù)據(jù)、自然資源數(shù)據(jù)、個(gè)人數(shù)據(jù)等各類公共數(shù)據(jù)資源,逐漸形成“海量數(shù)據(jù)”,才能更安全地保存好數(shù)據(jù),更好地發(fā)揮數(shù)據(jù)資源的價(jià)值。目前,雖然我國(guó)在政府開放數(shù)據(jù)共建共享協(xié)作領(lǐng)域已有積極探索,但實(shí)際實(shí)踐中普遍仍然“各自為戰(zhàn)”,存在嚴(yán)重的數(shù)據(jù)分散重復(fù)、標(biāo)準(zhǔn)不一、使用效率低下等問題。所以,在現(xiàn)有理論基礎(chǔ)上,圍繞各主體要素間的協(xié)同關(guān)系,逐漸構(gòu)建政府網(wǎng)站網(wǎng)頁開放數(shù)據(jù)共建共享框架,設(shè)計(jì)共建共享平臺(tái),能有效推進(jìn)政府服務(wù),有效提高資源使用效率和質(zhì)量。一方面可以突破公共數(shù)據(jù)從源頭到采集、整合、傳遞等過程中組織界限壁壘,消除信息孤島,實(shí)現(xiàn)信息的共享、創(chuàng)造與有效利用。另一方面,可以為國(guó)家云計(jì)算、分布式處理技術(shù)、存儲(chǔ)技術(shù)、數(shù)據(jù)庫技術(shù)和感知技術(shù)等眾多技術(shù)的孕育發(fā)展提供數(shù)據(jù)支撐。
三是網(wǎng)站網(wǎng)頁檔案的開發(fā)利用
檔案的最終目的是利用,只有利用好網(wǎng)頁檔案,才能更好地發(fā)揮檔案的價(jià)值。尤其是網(wǎng)站網(wǎng)頁檔案,蘊(yùn)藏著巨大價(jià)值。網(wǎng)頁檔案資源數(shù)據(jù)量巨大,內(nèi)容豐富,基本可以囊括社會(huì)各行業(yè)方方面面,且一般都為社會(huì)發(fā)展最前沿的內(nèi)容,是社會(huì)各行業(yè)快速發(fā)展中最直接的記憶?;ヂ?lián)網(wǎng)技術(shù)的飛速發(fā)展,也使這類數(shù)據(jù)井噴式增長(zhǎng)。如此海量數(shù)據(jù),如果只是存儲(chǔ)于存儲(chǔ)陣列之中,作用毫微。但是若搭配大數(shù)據(jù)技術(shù),掌握數(shù)據(jù)間的相關(guān)性,利用數(shù)據(jù)的相連關(guān)系,使用數(shù)學(xué)模型計(jì)算分析,將使這些數(shù)據(jù)煥發(fā)巨大的能量。應(yīng)用大數(shù)據(jù)分析,對(duì)網(wǎng)站網(wǎng)頁檔案中的民生、經(jīng)濟(jì)、智慧型城市建設(shè)等熱點(diǎn)信息進(jìn)行數(shù)據(jù)深度挖掘、趨勢(shì)分析,在科學(xué)決策、維護(hù)社會(huì)穩(wěn)定和解決歷史遺留問題等方面,為政府決策提供客觀依據(jù),發(fā)揮好檔案信息“思想庫”、“信息庫”的作用,服務(wù)黨委政府中心工作。還可搭建“政府網(wǎng)站網(wǎng)頁檔案館”,開發(fā)網(wǎng)頁歷史數(shù)據(jù)開放查閱平臺(tái),提供多種檢索途徑,提供用戶對(duì)歷史政府網(wǎng)站網(wǎng)頁數(shù)據(jù)進(jìn)行查詢。
互聯(lián)網(wǎng)技術(shù)發(fā)展迅速。政府網(wǎng)站網(wǎng)頁資源呈指數(shù)型增長(zhǎng),網(wǎng)頁歸檔的重要性日益顯現(xiàn),歸檔工作日益得到重視。隨著政府網(wǎng)站網(wǎng)頁歸檔相關(guān)法律法規(guī)不斷出臺(tái),相關(guān)行業(yè)標(biāo)準(zhǔn)規(guī)范不斷制定,相關(guān)理論實(shí)踐探索在不同領(lǐng)域逐漸開展,必將帶動(dòng)各級(jí)各單位網(wǎng)站網(wǎng)頁歸檔工作快速發(fā)展,更好地實(shí)現(xiàn)網(wǎng)頁檔案的科學(xué)、安全管護(hù),發(fā)揮網(wǎng)頁檔案的歷史價(jià)值、文化價(jià)值、研究?jī)r(jià)值和經(jīng)濟(jì)價(jià)值。