羅靜
摘要:本文對大數(shù)據(jù)與檔案資料的關(guān)系作出了詳細(xì)的分析,剖析了大數(shù)據(jù)技術(shù)對檔案管理工作發(fā)展的意義,并展望了大數(shù)據(jù)背景下的檔案管理工作的主要發(fā)展方向。
關(guān)鍵詞:檔案管理;大數(shù)據(jù);數(shù)據(jù)安全;數(shù)字檔案館
半個世紀(jì)以來,隨著計算機(jī)技術(shù)的發(fā)展,不僅人們的生活方式發(fā)生巨大的改變,信息的大量產(chǎn)生和積累也引發(fā)了深刻的變革。隨著數(shù)據(jù)信息大發(fā)展,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)等極大的擴(kuò)展了互聯(lián)網(wǎng)的邊界和應(yīng)用范圍,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、金融、電信等都在大量產(chǎn)生和我們息息相關(guān)的數(shù)據(jù):全球美妙發(fā)送290萬封電子郵件,每天有2.8萬小時的視頻上傳到Y(jié)outube,亞馬遜每天產(chǎn)生630萬筆訂單。人類產(chǎn)生的數(shù)據(jù)量正在成指數(shù)級增長,而最近兩年產(chǎn)生的數(shù)據(jù)量可以相當(dāng)于之前人類社會產(chǎn)生的全部數(shù)據(jù)量。這些我們創(chuàng)造的信息背后產(chǎn)生的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出了目前人力能處理的范疇,大數(shù)據(jù)時代已經(jīng)到來。
一、大數(shù)據(jù)與檔案管理的關(guān)系:
檔案管理工作主要包括對檔案的收集、整理、保管、鑒定、統(tǒng)計和提供利用的活動。隨著社會的發(fā)展,信息化水平和管理水平的提高,檔案管理的內(nèi)容和范圍也在不斷增加。檔案管理和大數(shù)據(jù)分析同樣包含了對信息的收集、整理、分析和利用,有許多相似之處,“大數(shù)據(jù)技術(shù)”的發(fā)展也必將推動檔案管理技術(shù)的發(fā)展和改變。但他們之間也有著明確的不同之處:
1)信息數(shù)量:目前,單個檔案館數(shù)據(jù)資源總量多在GB級,與“大數(shù)據(jù)”中PB和TB級別的數(shù)據(jù)量相距甚遠(yuǎn),而檔案信息中被數(shù)字化,可公開利用的檔案信息更是少了許多,但是各檔案館累計的檔案資源信息是龐大的。2020年,各級國家檔案館館藏將達(dá)到6億多卷。而檔案數(shù)據(jù)廣泛存在于政府、企業(yè)、金融、教育等各行業(yè)的檔案保存機(jī)構(gòu)中。隨著數(shù)字檔案資源建設(shè)戰(zhàn)略的不斷推進(jìn),檔案信息的資源整合必將成為發(fā)展趨勢,要處理這些海量檔案資源,勢必需要借助大數(shù)據(jù)技術(shù)。
2)信息來源:檔案數(shù)據(jù)的來源主要是在政府機(jī)關(guān)、集團(tuán)企業(yè)、金融、通信、建筑、房產(chǎn)、教育、軍工、法院等行業(yè)產(chǎn)生的,包括文檔、設(shè)計圖、照片、錄音材料、視頻、GIS信息、水文氣象信息等。這些數(shù)據(jù)之間又存在一定的關(guān)聯(lián)性,如城市建設(shè)的平面圖、設(shè)計圖可以和GIS數(shù)據(jù)信息關(guān)聯(lián),同時還可以關(guān)聯(lián)政府建設(shè)規(guī)劃文件、批復(fù)與施工文件等。數(shù)據(jù)內(nèi)容明確有效,并有相關(guān)企業(yè)或機(jī)關(guān)背書。
3)信息結(jié)構(gòu):檔案數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,多數(shù)檔案數(shù)據(jù)來源明確、內(nèi)容明晰。而“大數(shù)據(jù)”則以非結(jié)構(gòu)化數(shù)據(jù)為主,大量包括網(wǎng)頁、音視頻等非結(jié)構(gòu)化數(shù)據(jù),而且數(shù)據(jù)內(nèi)容和結(jié)構(gòu)還不斷變化,如交易信息類別更加明確、采集用戶交易后的反饋等。當(dāng)然,檔案數(shù)據(jù)目前也越來越多的包含了表格、網(wǎng)頁、音視頻、圖像等非結(jié)構(gòu)化數(shù)據(jù)。面對快速增長的非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)技術(shù)的發(fā)展也為檔案工作提供了有效的參考目標(biāo)和大量的可用工具。
“大數(shù)據(jù)技術(shù)”的發(fā)展對檔案管理工作有著十分重要的意義,為檔案管理工作提供了信息化、規(guī)模化的重要參考及大量的實用工具。而檔案信息的成熟管理制度和數(shù)據(jù)的完整有效也同樣對“大數(shù)據(jù)”的分析使用有著極為的作用:
1)檔案資料是許多“大數(shù)據(jù)”分析的重要基礎(chǔ)數(shù)據(jù):如對消費習(xí)慣、消費層次的分析離不開政府人口檔案的支持:公開檔案資料可以提供人口基數(shù)、收入比例、年齡層次等重要的基礎(chǔ)數(shù)據(jù),與企業(yè)的消費信息“大數(shù)據(jù)”一起,能夠更精確的分析出某個區(qū)域人群的消費習(xí)慣,為企業(yè)提供更精準(zhǔn)、高效的決策支持。反過來,這些分析結(jié)果也可以成為企業(yè)檔案數(shù)據(jù),為政府檔案提供有效的補(bǔ)充,進(jìn)一步完善檔案材料的完整性和有效性;
2)檔案資料成熟的分級管理和保密制度對“大數(shù)據(jù)”的濫用、用戶隱私的侵犯有著一定的制約作用:如政府檔案公開的統(tǒng)計信息可有效協(xié)助企業(yè)的“大數(shù)據(jù)”分析,但涉及個人身份、工作信息或保密性質(zhì)的檔案信息則不流出檔案管理規(guī)定范圍,避免被濫用;另外,如運營商等涉及大量用戶數(shù)據(jù)的企業(yè)檔案資料如果嚴(yán)格執(zhí)行檔案資料的分級和保密制度,區(qū)分公開數(shù)據(jù)及保密數(shù)據(jù),利用成熟的檔案資料管理和保密規(guī)定,就可避免資料信息在企業(yè)甚至個人間非法流轉(zhuǎn),某種程度上限制“大數(shù)據(jù)”對安全和個人隱私的嚴(yán)重侵犯。
二、檔案管理信息化的發(fā)展與現(xiàn)狀:
隨著網(wǎng)絡(luò)和信息技術(shù)快速發(fā)展,檔案工作也在面臨一場深刻變革。為滿足大數(shù)據(jù)時代政府、高校、企業(yè)等對檔案工作的更高要求,檔案工作必須要應(yīng)勢而動、乘勢而為,加快轉(zhuǎn)型升級,逐步實現(xiàn)以信息化為核心的檔案管理現(xiàn)代化。
根據(jù)國家電子政務(wù)、電子商務(wù)以及大數(shù)據(jù)、云計算、人工智能等發(fā)展規(guī)劃,檔案管理工作必需進(jìn)一步推進(jìn)信息數(shù)字化、數(shù)據(jù)交互等方面建設(shè),現(xiàn)以信息化為核心的檔案管理現(xiàn)代化。
在2017年,我國檔案信息化建設(shè)明顯加快。目前,全國已有16家單位的數(shù)字檔案館系統(tǒng)通過了國家示范數(shù)字檔案館測試,4家單位通過了國家示范數(shù)字檔案室評價。在檔案數(shù)字化建設(shè)方面,中國第一歷史檔案館、中國第二歷史檔案館數(shù)字化工作成效顯著,各級檔案館數(shù)字檔案資源的比例均有大幅提高,全國數(shù)字化檔案資源達(dá)2243萬GB,數(shù)字化全文識別取得重要進(jìn)展。
但是,仍有不少省級檔案部門沒有按計劃接入國家電子政務(wù)內(nèi)網(wǎng),仍有很多信息系統(tǒng)在‘孤立運行。下一步,要逐步實現(xiàn)檔案部門與其他部門之間的互聯(lián)互通,逐步實現(xiàn)由政務(wù)信息的互通到業(yè)務(wù)數(shù)據(jù)的互通再到檔案數(shù)據(jù)的互通,最終實現(xiàn)對包括政務(wù)信息、業(yè)務(wù)數(shù)據(jù)等在內(nèi)的各類電子文件的在線歸檔、在線移交接收、在線利用,徹底打破檔案部門“信息孤島”的狀態(tài)。
三、大數(shù)據(jù)背景下的檔案管理工作:
隨著社會的發(fā)展和技術(shù)的更新,檔案管理工作還存在許多問題,需要不斷的改進(jìn)和發(fā)展才能滿足政府、高校、企業(yè)和個人等對數(shù)據(jù)、安全等各方面的要求,便利人民的生活,保護(hù)人民的權(quán)益。
1)進(jìn)一步促進(jìn)檔案的信息化和數(shù)字化:目前各級數(shù)字檔案館多從自身檔案建設(shè)需求出發(fā),尚未形成統(tǒng)一的管理標(biāo)準(zhǔn)和規(guī)范制度,檔案信息資源的種類、格式、存儲形式有較大區(qū)別,使資源整合難度較大。另一方面,數(shù)字檔案館提供的信息資源多為政府公文、法律規(guī)章、館藏目錄等,形式單一,目錄層級較為簡單,開放的檔案資源的價值不大,可用性不高。而無論是以前積累的紙質(zhì)的資料以及很多檔案管理機(jī)構(gòu)不斷增加的線下資料,都急需進(jìn)一步加強(qiáng)數(shù)字化進(jìn)度,提高數(shù)字檔案的比例和數(shù)據(jù)的完整性,并制定多種查詢方式,提升信息的使用效率;
2)檔案信息的整合和互聯(lián)互通:各地區(qū)、各部門檔案信息各自為政,建設(shè)水平、數(shù)據(jù)標(biāo)準(zhǔn)各異,導(dǎo)致各種 “數(shù)字鴻溝”的出現(xiàn),信息共享的門檻較高,信息跨庫檢索難度較大,嚴(yán)重影響了信息的利用價值。這個問題需要主管部門和各級檔案管理機(jī)構(gòu)合作,逐步建立信息的交互接口和標(biāo)準(zhǔn),消除“信息孤島”,加強(qiáng)信息流通。
3)檔案信息的分析利用:隨著檔案信息的數(shù)字化水平提高和信息互通的的加強(qiáng),大量的檔案信息可以利用“大數(shù)據(jù)”分析的思路進(jìn)一步分析整合,獲取以前面對零散的檔案信息難以獲得的決策或統(tǒng)計信息,有效提高決策分析的效率和準(zhǔn)確性。
4)加強(qiáng)檔案信息的分級與安全機(jī)制:
隨著檔案的信息化發(fā)展,數(shù)字檔案館的運行,網(wǎng)絡(luò)環(huán)境的開放性對檔案的安全保密性形成一定沖擊,以前有效的檔案管理、保密制度可能在新的環(huán)境下難以滿足安全要求。檔案資源如何在公共開放的數(shù)字環(huán)境中保障其真實可靠,加強(qiáng)信息的分級和查詢接口的安全,是檔案資料今后必須解決的重要問題。
參考文獻(xiàn):
[1]大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)《圖書與情報》2012(5)。
[2]大數(shù)據(jù)背景下的檔案行業(yè)發(fā)展 《中國檔案》2015(6)。