付啟明
隨著大數(shù)據(jù)理論的普及和應(yīng)用,大數(shù)據(jù)的商業(yè)價(jià)值已在諸多領(lǐng)域得以充分展現(xiàn)和證實(shí),從早期亞馬遜圖書網(wǎng)站的智能推薦功能,到如今具備信息智能推送服務(wù)的移動(dòng)應(yīng)用程序等,大數(shù)據(jù)已與我們的日常生活息息相關(guān),“數(shù)據(jù)”也被認(rèn)定為極具價(jià)值的“無形資產(chǎn)”,甚至是除“土地、勞動(dòng)力和資本”之外的第四生產(chǎn)要素。但對(duì)許多企業(yè)而言,數(shù)據(jù)仍然只是其經(jīng)營管理的附屬產(chǎn)物,存在于各類記錄或業(yè)務(wù)管理信息系統(tǒng)中,其真正價(jià)值并未得以發(fā)現(xiàn)和利用。檔案管理部門作為各類記錄的最終責(zé)任主體,管理著巨大的歷史數(shù)據(jù)“寶藏”,因此,發(fā)掘企業(yè)檔案所蘊(yùn)含的數(shù)據(jù)資源,為大數(shù)據(jù)在企業(yè)的應(yīng)用提供數(shù)據(jù)支撐,并依托大數(shù)據(jù)應(yīng)用創(chuàng)新檔案管理模式,應(yīng)成為大數(shù)據(jù)時(shí)代企業(yè)檔案管理的重要理念之一。
一、大數(shù)據(jù)理論與企業(yè)檔案資源
國務(wù)院于2015年9月印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》對(duì)大數(shù)據(jù)給出了相對(duì)權(quán)威的定義,即“大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對(duì)數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲(chǔ)和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)”。定義明確了大數(shù)據(jù)的主要特征、核心環(huán)節(jié)及應(yīng)用目的,就主要特征而言,容量大指數(shù)據(jù)規(guī)模龐大到無法通過人工在合理時(shí)間內(nèi)達(dá)到截取、管理、處理并整理成為人類所能讀解的信息;類型多是指大數(shù)據(jù)所包含數(shù)據(jù)類型已由傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)并存,且數(shù)據(jù)來源眾多;存取速度快要求大數(shù)據(jù)依托分布式文件存儲(chǔ)系統(tǒng)、分布式計(jì)算框架及分布式數(shù)據(jù)庫管理系統(tǒng)實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的實(shí)時(shí)讀取分析,以確保數(shù)據(jù)利用的時(shí)效性;應(yīng)用價(jià)值高則意味著大量低價(jià)值密度數(shù)據(jù)的集合所隱藏的價(jià)值是巨大的,挖掘數(shù)據(jù)背后的價(jià)值也正是大數(shù)據(jù)應(yīng)用的目的。
要將大數(shù)據(jù)理論應(yīng)用到企業(yè)檔案管理實(shí)踐中,必須先明確檔案資源與大數(shù)據(jù)的關(guān)系,對(duì)此,已有學(xué)者從數(shù)據(jù)、信息與檔案的定義及特征的角度進(jìn)行了對(duì)比論證,認(rèn)為檔案資源屬于數(shù)據(jù)范疇,且檔案資源包含大量?jī)r(jià)值密度更高的數(shù)據(jù)(以下簡(jiǎn)稱“檔案數(shù)據(jù)”),但對(duì)比大數(shù)據(jù)與檔案數(shù)據(jù)的特征,檔案數(shù)據(jù)并不是完全意義上的大數(shù)據(jù)。這一點(diǎn)可以通過企業(yè)檔案管理的實(shí)際情況來證實(shí),首先,企業(yè)檔案資源仍然以紙質(zhì)檔案、電子檔案及相關(guān)的元數(shù)據(jù)等為主,大量紙質(zhì)檔案和電子檔案有待數(shù)字化、數(shù)據(jù)化,大量數(shù)據(jù)有待提取整合后才可用于數(shù)據(jù)分析;其次,從數(shù)據(jù)存儲(chǔ)模式及利用需求來看,基于管理需求及數(shù)據(jù)安全考慮,大部分企業(yè)依然以集中式數(shù)據(jù)存儲(chǔ)為主,通過關(guān)系型數(shù)據(jù)庫進(jìn)行管理,無法實(shí)現(xiàn)對(duì)多類型大量數(shù)據(jù)的實(shí)時(shí)讀取分析;第三,檔案歸檔范圍側(cè)重于具有查考利用價(jià)值的記錄,而大數(shù)據(jù)則強(qiáng)調(diào)收集分析與某一事物相關(guān)的所有數(shù)據(jù),兩者價(jià)值屬性判斷標(biāo)準(zhǔn)的不一致導(dǎo)致企業(yè)檔案數(shù)據(jù)無法完全滿足大數(shù)據(jù)應(yīng)用的來源要求。
二、應(yīng)用前提
上述《大綱》明確了數(shù)據(jù)的采集、存儲(chǔ)和關(guān)聯(lián)分析是大數(shù)據(jù)應(yīng)用的核心環(huán)節(jié),采集是前提,存儲(chǔ)是基礎(chǔ),分析是關(guān)鍵。從具體實(shí)施來看,數(shù)據(jù)采集需要具體業(yè)務(wù)人員提供數(shù)據(jù)的有效識(shí)別支持,而數(shù)據(jù)存儲(chǔ)、分析則需要信息管理、統(tǒng)計(jì)學(xué)、數(shù)學(xué)模型建立等專業(yè)技術(shù)的支持,因此,企業(yè)大數(shù)據(jù)應(yīng)用可以看作是多部門、多專業(yè)協(xié)同合作的結(jié)果,而要實(shí)現(xiàn)大數(shù)據(jù)在檔案管理業(yè)務(wù)中的應(yīng)用,必須先具備以下條件。
(一)建立以企業(yè)數(shù)據(jù)管理為核心業(yè)務(wù)的職能機(jī)構(gòu)。一方面,逐步建立完善的數(shù)據(jù)管理工作體系,聯(lián)同各業(yè)務(wù)部門從公司層面開展全方位、全局性的數(shù)據(jù)梳理、收集工作,并從數(shù)據(jù)存儲(chǔ)、提取、整合及分析需求出發(fā)部署滿足企業(yè)大數(shù)據(jù)應(yīng)用的軟硬件設(shè)施,實(shí)現(xiàn)為公司經(jīng)營管理提供基于大數(shù)據(jù)應(yīng)用的決策建議;另一方面,則從企業(yè)各部門業(yè)務(wù)需求出發(fā),以業(yè)務(wù)開展所有相關(guān)數(shù)據(jù)為基礎(chǔ),為業(yè)務(wù)流程優(yōu)化提供技術(shù)支持或建議,基于大數(shù)據(jù)理論的檔案管理提升正屬于此類。
(二)充分發(fā)掘檔案數(shù)據(jù)資源,為大數(shù)據(jù)在檔案管理中的應(yīng)用創(chuàng)造條件。檔案數(shù)據(jù)從來源上可分為兩部分,一部分來源于檔案自身,即各部門所產(chǎn)生的具有查考利用價(jià)值的記錄,是需要經(jīng)過數(shù)字化、數(shù)據(jù)化后方可使用的數(shù)據(jù),是公司決策和各部門業(yè)務(wù)流程優(yōu)化的重要數(shù)據(jù)來源;另一部分則是檔案管理部門在檔案管理過程中所產(chǎn)生的數(shù)據(jù),如各種介質(zhì)檔案相關(guān)的元數(shù)據(jù)、基于物聯(lián)網(wǎng)的檔案實(shí)體管理所產(chǎn)生的數(shù)據(jù)、員工查詢利用各類檔案所產(chǎn)生的數(shù)據(jù)等,這部分?jǐn)?shù)據(jù)涵蓋檔案管理各項(xiàng)具體業(yè)務(wù)的所有工作環(huán)節(jié),是檔案管理提升的主要數(shù)據(jù)來源。檔案數(shù)據(jù)的發(fā)掘必須充分依托于企業(yè)數(shù)據(jù)管理機(jī)構(gòu),檔案管理部門則應(yīng)從業(yè)務(wù)流程層面為數(shù)據(jù)的識(shí)別和收集反饋需求或建議。
三、策略初探
大數(shù)據(jù)的核心在于預(yù)測(cè),是通過將數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來預(yù)測(cè)事情發(fā)生的可能性,從另一個(gè)角度來看即通過大量數(shù)據(jù)的分析來發(fā)現(xiàn)事物之間的潛在關(guān)聯(lián),基于大數(shù)據(jù)理論的企業(yè)文檔管理提升,一方面是借助大數(shù)據(jù)的預(yù)測(cè)核心來優(yōu)化檔案管理業(yè)務(wù)流程,另一方面則是通過提升檔案管理水平為企業(yè)大數(shù)據(jù)應(yīng)用創(chuàng)造條件,具體包括以下幾個(gè)方面。
(一)優(yōu)化企業(yè)內(nèi)部文件管理流程。檔案是文件的歸宿,而文件在現(xiàn)行利用階段往往對(duì)時(shí)效性有較高的要求。筆者以負(fù)責(zé)建設(shè)項(xiàng)目EPC總包管理的工程公司為例,項(xiàng)目建設(shè)期會(huì)產(chǎn)生大量來自設(shè)計(jì)院、施工單位、設(shè)備供應(yīng)商等單位的文件需要在規(guī)定時(shí)間內(nèi)完成內(nèi)、外部分發(fā)流轉(zhuǎn),傳統(tǒng)操作以管理程序(分發(fā)規(guī)則)為依據(jù),由專人逐份或批量?jī)?nèi)部分發(fā)及外部轉(zhuǎn)發(fā),隨著項(xiàng)目的增多及管理信息化水平的提升,管理信息系統(tǒng)逐漸積累大了量的文件分發(fā)數(shù)據(jù),且同類型項(xiàng)目的文件在內(nèi)容、分發(fā)及編碼規(guī)則上基本一致,因此,根據(jù)大數(shù)據(jù)預(yù)測(cè)的核心,可以建立基于文件分發(fā)規(guī)則、企業(yè)各部門組織機(jī)構(gòu)代碼、文件標(biāo)題、編碼、版本等元數(shù)據(jù)、文件關(guān)聯(lián)信息、多項(xiàng)目歷史分發(fā)信息的數(shù)據(jù)分析模型,并利用模型來分析預(yù)測(cè)后續(xù)文件的分發(fā)信息,代替?zhèn)鹘y(tǒng)分發(fā)方式以提升文件管理的工作效率。同樣,企業(yè)內(nèi)部的其它文件也可以基于合理的數(shù)據(jù)分析模型來實(shí)現(xiàn)預(yù)測(cè)性流轉(zhuǎn)。
(二)檔案信息主動(dòng)推送。傳統(tǒng)檔案利用多是檔案管理人員根據(jù)用戶需求提供被動(dòng)式的利用服務(wù),且檔案用戶一般不會(huì)主動(dòng)關(guān)注企業(yè)館藏檔案的變化情況,后續(xù)館藏如增加符合利用需求的新檔案,往往不能第一時(shí)間為檔案用戶所知悉。隨著公司發(fā)展,檔案管理部門在業(yè)務(wù)過程中必然會(huì)積累大量的包含檔案用戶信息、文件查詢記錄、檔案利用需求說明等在內(nèi)的利用數(shù)據(jù),建立基于利用數(shù)據(jù)、員工崗位信息、文件歷史分發(fā)信息及檔案文本信息的數(shù)據(jù)分析模型以預(yù)測(cè)檔案用戶的潛在利用需求,一方面可根據(jù)歷史利用記錄為用戶推送新的檔案信息,另一方面,可為用戶推送與崗位職責(zé)相關(guān)的檔案信息,將傳統(tǒng)被動(dòng)服務(wù)模式轉(zhuǎn)變?yōu)橹鲃?dòng)推送服務(wù)模式。信息推送應(yīng)用過程中還應(yīng)綜合考慮檔案的密級(jí)屬性及企業(yè)密件管理要求,以提供關(guān)鍵信息如標(biāo)題、關(guān)鍵詞等為主,而非直接推送電子案卷,此外,還應(yīng)建立成熟的反饋機(jī)制,由用戶對(duì)主動(dòng)推送的信息就適用性等進(jìn)行評(píng)估反饋,并作為后續(xù)的數(shù)據(jù)來源,實(shí)現(xiàn)主動(dòng)推送功能的動(dòng)態(tài)完善。
(三)從檔案管理角度拓展數(shù)據(jù)來源,為企業(yè)大數(shù)據(jù)應(yīng)用提供“資源”。首先,探索擴(kuò)展企業(yè)文件材料歸檔范圍,在傳統(tǒng)的檔案價(jià)值鑒定基礎(chǔ)上向數(shù)據(jù)價(jià)值鑒定拓展,逐步將業(yè)務(wù)部門的低價(jià)值密度數(shù)據(jù)納入“數(shù)據(jù)”歸檔范圍;其次,建立覆蓋全部檔案資源的全文數(shù)據(jù)庫,為數(shù)據(jù)的識(shí)別、提取創(chuàng)造條件。全文數(shù)據(jù)庫的建立一方面是針對(duì)已有的檔案資源開展全面的數(shù)字化和文本識(shí)別工作;另一方面則通過提升檔案管理的信息化水平,對(duì)后續(xù)各類記錄從編制、生效到歸檔、利用實(shí)現(xiàn)全生命周期的基于管理信息系統(tǒng)的跟蹤和管控,實(shí)現(xiàn)檔案數(shù)據(jù)更直接、更高效的利用。
(四)利用大數(shù)據(jù)發(fā)現(xiàn)文件的潛在關(guān)聯(lián)關(guān)系。檔案案卷是基于卷內(nèi)文件的關(guān)聯(lián)關(guān)系而形成的,這種關(guān)聯(lián)需要檔案人員通過特定信息來識(shí)別和判斷,檔案編研亦是圍繞某一特定主題來開展信息的收集、匯總和整合工作,本質(zhì)上也是圍繞特定主題來發(fā)現(xiàn)不同來源文件的關(guān)聯(lián)關(guān)系,都與大數(shù)據(jù)“發(fā)現(xiàn)事物之間的潛在關(guān)聯(lián)”的理念一致,因此,在文件元數(shù)據(jù)、文本內(nèi)容等大量數(shù)據(jù)基礎(chǔ)上建立基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)分析模型,既可為傳統(tǒng)紙質(zhì)檔案整理反饋卷內(nèi)文件排列建議,逐步實(shí)現(xiàn)用電子案卷的生成和管理,也可為相對(duì)簡(jiǎn)單的編研工作如大事記、組織沿革等識(shí)別、提取所需的相關(guān)信息。
四、結(jié)語
企業(yè)大數(shù)據(jù)應(yīng)用應(yīng)基于專業(yè)的數(shù)據(jù)管理團(tuán)隊(duì)和技術(shù)平臺(tái),檔案管理作為一項(xiàng)具體業(yè)務(wù),基于大數(shù)據(jù)理論的管理提升只是應(yīng)用的具體體現(xiàn)之一,檔案資源為大數(shù)據(jù)應(yīng)用提供數(shù)據(jù)來源,大數(shù)據(jù)應(yīng)用為檔案管理提升提供技術(shù)支持,二者相互促進(jìn),相互依賴,大數(shù)據(jù)時(shí)代企業(yè)檔案管理應(yīng)遵從這一理念來不斷創(chuàng)新業(yè)務(wù)開展模式,實(shí)現(xiàn)企業(yè)檔案管理業(yè)務(wù)效率和工作深度的共同提升。
(作者單位:中廣核工程有限公司)