康效龍
(中國石化工程建設有限公司,北京 100101)
隨著“數(shù)字中國”戰(zhàn)略的實施,數(shù)字化工廠、智能企業(yè)建設快速發(fā)展,信息技術更加廣泛地應用于企業(yè)生產經營和管理活動的各個方面,由此產生了大量的數(shù)字資源,傳統(tǒng)檔案資料正在不斷被這些電子檔案所替代,并呈現(xiàn)出數(shù)量劇增、類型多樣、結構復雜、更加分散等新的特點。大數(shù)據(jù)時代,傳統(tǒng)檔案的管理方法和技術已經無法滿足需要,對于檔案大數(shù)據(jù),應該有新的理論、方法和技術重新定義檔案管理,挖掘檔案價值,方能適應企業(yè)持續(xù)發(fā)展的需要,在新時代找到新的發(fā)展動力。
麥肯錫全球研究所認為,大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析等方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)增長、多樣的數(shù)據(jù)類型和價值密度低四大特征。檔案是企業(yè)在研發(fā)、生產、經營和管理活動中長期積累形成的重要的大數(shù)據(jù)資源,數(shù)據(jù)量伴隨企業(yè)發(fā)展呈指數(shù)級增長,并具有全面性、關聯(lián)性、真實性和無可替代性等特點。
大數(shù)據(jù)時代,數(shù)據(jù)成為企業(yè)的核心資產和重要的生產資料,可以在業(yè)務流程優(yōu)化、技術開發(fā)和生產經營等多個方面指導企業(yè)創(chuàng)新發(fā)展,輔助企業(yè)管理層做出高效準確的決策。企業(yè)擁有多少數(shù)據(jù)、能夠處理多少數(shù)據(jù),以及數(shù)據(jù)規(guī)模、數(shù)據(jù)稀缺性等方面的特點將成為企業(yè)核心競爭力的重要標志。在人力資源、技術儲備等傳統(tǒng)競爭優(yōu)勢之外,大量未被發(fā)掘的價值將通過檔案大數(shù)據(jù)分析獲取,利用大數(shù)據(jù)的分析結果實施和優(yōu)化管理決策,創(chuàng)造差異化競爭優(yōu)勢,并通過數(shù)據(jù)管理與分析手段將差異性與傳統(tǒng)的信息源結合起來,將發(fā)揮檔案資源更大的價值。
企業(yè)檔案管理包括收集、保管、利用、統(tǒng)計等業(yè)務?!笆占惫ぷ髦饕菤w檔移交、整編著錄等;“保管”工作主要是手工管理,“裝盒”“上架”等;“利用”主要以提供被動的查閱服務為主。隨著信息技術的發(fā)展和應用,檔案工作在編目、借閱、庫房管理等方面不同程度地實現(xiàn)了信息化輔助管理。在這種情況下,檔案管理人員的工作重心在于“收集”和“保管”,而對檔案本身的研究知之甚少,企業(yè)在庫房等硬件設施方面花費了大量的人力物力,而對檔案開發(fā)利用投入不足,導致檔案工作陷入嚴重被動局面,大量的檔案變成了“死檔案”。
在大數(shù)據(jù)時代,檔案業(yè)務將發(fā)生深刻變化,實體檔案將在很大程度上轉化為電子檔案或數(shù)字資源,“收集”將通過業(yè)務系統(tǒng)與檔案系統(tǒng)的集成,不斷提升自動化程度,實現(xiàn)自動歸檔,歸檔范圍也不斷擴大,逐步實現(xiàn)“大檔案”的完整保存;“保管”將采用云平臺存儲、動態(tài)調配存儲資源,對物理空間的依賴性將大幅降低。在此基礎上,檔案工作重心不斷向“利用”轉移,如何將檔案資源轉化為企業(yè)發(fā)展所需要的知識資源,以及如何從海量數(shù)據(jù)中發(fā)掘出有價值的信息,以滿足企業(yè)生產經營和創(chuàng)新發(fā)展的需要,將成為檔案人員的主要工作內容。
另外,傳統(tǒng)紙質檔案以“案卷”“件數(shù)”“份數(shù)”為單位進行管理,而在大數(shù)據(jù)時代,檔案則更多以電子形式存在,管理對象轉換為電子文件、字段、數(shù)據(jù)庫等,檔案統(tǒng)計也由原來的以“頁數(shù)”“張數(shù)”為統(tǒng)計單位改為以“G B”“T B”為統(tǒng)計單位。檔案管理人員在做好電子檔案的收、管、用之外,更要關注電子檔案的長久可讀和安全性。傳統(tǒng)檔案館也將發(fā)展為能夠滿足快速增長的海量檔案數(shù)據(jù)需要的數(shù)字檔案館,實現(xiàn)計算資源、存儲資源的動態(tài)擴展。
大數(shù)據(jù)時代,支撐企業(yè)生產經營的各類信息系統(tǒng)將產生大量的信息資源,從而形成大量的電子檔案,檔案資源呈指數(shù)型增長,現(xiàn)有的檔案管理方式、技術難以滿足大數(shù)據(jù)時代的檔案信息資源管理和利用的需要,檔案管理面臨諸多挑戰(zhàn)。在海量數(shù)據(jù)中實現(xiàn)對檔案信息的挖掘分析并提供有價值的信息將成為檔案利用開發(fā)的重要課題。
大數(shù)據(jù)技術將對海量數(shù)據(jù)進行有效的分析與處理,在檔案管理領域具有廣闊的應用前景。檔案資料存儲時間久遠,類型繁多,既有文字型檔案,又有視頻、音頻、圖片等檔案類型,數(shù)據(jù)結構復雜,有結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù),而且以非結構化數(shù)據(jù)為主,傳統(tǒng)的數(shù)據(jù)處理技術無法對這些數(shù)據(jù)進行分析與處理。大數(shù)據(jù)技術可以從各種類型的數(shù)據(jù)中快速獲得有價值的信息,結合企業(yè)實際,開發(fā)運用可視化、數(shù)據(jù)挖掘、預測性分析、語義引擎等大數(shù)據(jù)的分析技術可以獲取更多智能的、深入的、有價值的信息。
“大檔案”一方面是指將各種具有保存價值的記錄集中統(tǒng)一管理,多檔合一,做大做強綜合檔案;另一方面是指超出傳統(tǒng)意義的歸檔范圍,適應大量化、多樣性、價值密度低等特點,不再刻意強調哪些記錄具有保存價值,而是盡可能全面收集和保存數(shù)據(jù)。
隨著信息技術的發(fā)展和應用,信息系統(tǒng)不斷集成整合,數(shù)據(jù)歸檔、海量存儲將越來越容易,相比之下,從海量數(shù)據(jù)中區(qū)分哪些文件有用,什么時候有用,幾乎是無法準確預計的。在這種情況下,企業(yè)要樹立大檔案觀,推進信息資源檔案化管理,盡可能全面地收集保存生產經營和日常管理等各個方面的真實記錄,集中統(tǒng)一管理,準確地記錄歷史真實面貌,做到全覆蓋,為科研生產、創(chuàng)新發(fā)展提供盡可能翔實的歷史資料。
隨著信息技術的應用,大量的文件材料通過計算機信息系統(tǒng)形成,應從源頭抓起,實施前端控制,建立完善的電子文件和元數(shù)據(jù)管理標準,及時歸檔保存。一方面可以避免電子文件及元數(shù)據(jù)的遺失,另一方面可以避免對新增檔案進行重復的數(shù)字化加工,節(jié)省人力物力財力。
首先,要大力推進無紙化辦公,確保文件從形成、校核、審批到最終發(fā)布實現(xiàn)完整的電子化流轉,采用電子簽名或重構工作流程,解決好“簽署”“報審”等中斷無紙化流轉的問題,確保原生電子文件的有效性。在此基礎上,認真梳理文件材料管理的標準和規(guī)范,研究確定各業(yè)務領域文件材料的歸檔范圍和保管期限,明確歸檔和接收要求,保證歸檔或接收的電子文件及元數(shù)據(jù)真實有效、收集齊全、整理有序、命名科學、格式規(guī)范。
其次,在企業(yè)信息化建設中,將檔案管理融入到企業(yè)各業(yè)務信息系統(tǒng)中,做好檔案數(shù)據(jù)的前端控制,實現(xiàn)各類電子文件和元數(shù)據(jù)的在線歸檔。企業(yè)可以建立統(tǒng)一的內容管理平臺,通過內容管理平臺實現(xiàn)檔案管理與各業(yè)務系統(tǒng)的數(shù)據(jù)集成共享,也可以將檔案管理系統(tǒng)與辦公自動化、生產管理、項目管理等業(yè)務系統(tǒng)進行集成,實現(xiàn)邏輯歸檔和物理歸檔。
對于大量已經形成的傳統(tǒng)載體檔案,以及由于信息化發(fā)展不充分,尚未完全實現(xiàn)無紙化流轉、仍舊以紙質文件為原件的增量檔案,應通過掃描、數(shù)據(jù)提取等技術進行數(shù)字化和數(shù)據(jù)化加工,建立數(shù)字資源,不僅有利于保存,更便于利用。紙質檔案數(shù)字化工作量巨大,要建立相應的標準和規(guī)范,確保質量,數(shù)字化與檔案利用相結合,按照常用、急用、孤本、特色優(yōu)先的原則做好計劃,不僅要掃描原件,還要面向“利用”制定各門類檔案的元數(shù)據(jù)收集標準,使用O C R等技術提取元數(shù)據(jù)信息,建立相應的結構化數(shù)據(jù)庫,為大數(shù)據(jù)的分析和應用奠定基礎。
隨著信息化發(fā)展,企業(yè)檔案資源逐漸呈現(xiàn)出數(shù)據(jù)量大、類型多等大數(shù)據(jù)的特征,僅依靠傳統(tǒng)檔案館及檔案管理系統(tǒng)已經不能滿足現(xiàn)實的需要。大數(shù)據(jù)時代,使用計算機系統(tǒng)長期存儲和快速處理結構化、非結構化的數(shù)據(jù)已經成為現(xiàn)實,未來檔案館的發(fā)展方向將不可避免地走向數(shù)字檔案館。
數(shù)字檔案館是運用現(xiàn)代信息技術固化檔案工作業(yè)務流程,對企業(yè)或與其具有資產隸屬關系企業(yè)的電子檔案或其他數(shù)字資源進行收集、整理、保存,并通過網(wǎng)絡提供檔案信息服務和共享利用的集成管理系統(tǒng)平臺。與傳統(tǒng)檔案館相比,數(shù)字檔案館具備檔案資源數(shù)字化、檔案管理信息化、檔案服務知識化三個方面的特征。
企業(yè)數(shù)字檔案館建設應包括“一個系統(tǒng)、兩類資源、三個體系”,即建設電子檔案管理系統(tǒng),實現(xiàn)對電子文件、元數(shù)據(jù)、多媒體文件等的統(tǒng)一管理,實現(xiàn)“電子檔案資源”和“紙質檔案數(shù)字資源”的建設和統(tǒng)一管理,建立信息化環(huán)境下的檔案管理業(yè)務運行體系、標準規(guī)范體系和安全保密體系(見圖1)。
檔案的生命在于利用,為企業(yè)提供更多、更好的服務是檔案管理工作的基本出發(fā)點。大數(shù)據(jù)技術的應用使快速處理海量的結構化和非結構化的數(shù)據(jù)成為現(xiàn)實,與檔案利用開發(fā)的需要相契合。數(shù)據(jù)挖掘是大數(shù)據(jù)技術的核心,它主要基于人工智能、模式識別、統(tǒng)計學、可視化技術等,通過分析從大量的數(shù)據(jù)中尋找規(guī)律,從而發(fā)現(xiàn)隱含的、具有潛在價值的信息。數(shù)據(jù)挖掘技術包括數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示等步驟,是一種決策支持過程。在數(shù)據(jù)準備和規(guī)律尋找階段,可以從大量的數(shù)據(jù)源中選取所需的數(shù)據(jù)整合成目標數(shù)據(jù)集,然后用關聯(lián)分析、分類分析、聚類分析、異常分析和演變分析等方法將數(shù)據(jù)集所含的規(guī)律找出來。在規(guī)律表示階段,采用可視化等方式,盡可能按照用戶可理解的方式將找出的規(guī)律表示出來。
圖1 數(shù)字檔案館框架圖
通過數(shù)據(jù)挖掘和大數(shù)據(jù)技術,將突破傳統(tǒng)檔案利用開發(fā)的諸多束縛,實現(xiàn)檔案資源利用開發(fā)的智能化、個性化和精準化,全面提升檔案服務,實現(xiàn)信息智能檢索、信息定制與定題、信息決策服務、信息跟蹤與推送服務等精準服務,構建“數(shù)據(jù)—信息—知識—智慧”模型,逐步實現(xiàn)“智慧檔案”,將檔案利用開發(fā)推向一個全新的高度。
我們一直生活在一個“數(shù)據(jù)”的世界中。隨著科學技術的進步,我們有能力去記錄、收集、保存和分析大數(shù)據(jù),大數(shù)據(jù)時代離我們越來越近,也越來越清晰。大數(shù)據(jù)是企業(yè)檔案工作無法回避的一道課題,它是挑戰(zhàn)更是機遇。大數(shù)據(jù)具有廣闊的應用前景,檔案資源中蘊含的巨大知識寶藏將通過大數(shù)據(jù)技術真正得以開發(fā)和利用,企業(yè)應樹立大檔案觀,構建大檔案管理格局,加大投入,主動適應大數(shù)據(jù)時代,將檔案資源轉化為數(shù)據(jù)資源,在檔案大數(shù)據(jù)中挖掘企業(yè)競爭優(yōu)勢;與此同時,也要關注信息泄露、安全保密等問題。