伴隨著海河水利委員會(huì)(以下簡(jiǎn)稱“海委”)水利信息化建設(shè)的發(fā)展,海委檔案管理工作基于水利電子政務(wù)網(wǎng),已將成熟的軟硬件技術(shù)應(yīng)用到了檔案管理體系中,實(shí)現(xiàn)了檔案的收集、管理、開發(fā)和利用。2017年水利部印發(fā)了《關(guān)于推進(jìn)水利大數(shù)據(jù)發(fā)展的指導(dǎo)意見》,旨在推進(jìn)水利行業(yè)數(shù)據(jù)資源共享開放,促進(jìn)水利大數(shù)據(jù)發(fā)展與創(chuàng)新應(yīng)用。那么,檔案是大數(shù)據(jù)嗎?云計(jì)算、大數(shù)據(jù)在檔案管理中有什么作用呢?
云計(jì)算、大數(shù)據(jù)與檔案
(1)云計(jì)算。云計(jì)算是分布式計(jì)算、并行計(jì)算、效用計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡、熱備份冗余等傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。私有云和公有云是其重要的兩種應(yīng)用模式,私有云是單位自己使用的云,它所有的服務(wù)不是供別人使用,而是供自己內(nèi)部人員或分支機(jī)構(gòu)使用。公有云是云運(yùn)營(yíng)商提供給用戶能夠使用的云,一般通過 Internet付費(fèi)使用。海委檔案管理適合建立在海委私有云上。
(2)大數(shù)據(jù)。大數(shù)據(jù)指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)具有大量、高速、多樣、低價(jià)值密度、真實(shí)性等五大特點(diǎn)。海委檔案數(shù)據(jù)具備這五大特點(diǎn)。
(3)檔案。海委檔案主要包括文書檔案、科技檔案、會(huì)計(jì)檔案、涉密檔案、機(jī)要檔案、音像檔案、實(shí)物檔案、電子檔案、地圖等多種類型,已實(shí)現(xiàn)檔案資源數(shù)字化,可為搭建新一代海委智慧檔案系統(tǒng)提供基礎(chǔ)數(shù)據(jù)資源。云計(jì)算能為海委檔案管理提供基礎(chǔ)計(jì)算和存儲(chǔ)資源,加強(qiáng)基礎(chǔ)設(shè)施的擴(kuò)展和服務(wù)能力;大數(shù)據(jù)能為海委檔案管理提供檔案分析、挖掘能力,整體提升檔案的業(yè)務(wù)服務(wù)水平??傊?,檔案管理負(fù)責(zé)生產(chǎn)數(shù)據(jù),云計(jì)算負(fù)責(zé)數(shù)據(jù)存儲(chǔ)和計(jì)算,大數(shù)據(jù)負(fù)責(zé)數(shù)據(jù)分析和提供服務(wù)。
搭建海委云計(jì)算平臺(tái)
經(jīng)過多年信息化建設(shè),海委已建設(shè)包括電子政務(wù)系統(tǒng)、防汛抗旱指揮系統(tǒng)、水資源監(jiān)控能力系統(tǒng)、水文監(jiān)測(cè)系統(tǒng)、水土保持系統(tǒng)等政務(wù)及業(yè)務(wù)系統(tǒng),各系統(tǒng)統(tǒng)一部署在信息中心機(jī)房,基于項(xiàng)目配置的軟硬件環(huán)境獨(dú)立運(yùn)行,部分系統(tǒng)運(yùn)行在虛擬機(jī)上。硬件計(jì)算和存儲(chǔ)資源分散管理利用,在當(dāng)前軟硬件技術(shù)架構(gòu)上無法共享及統(tǒng)一管理分配,需要利用云技術(shù)統(tǒng)一管理各項(xiàng)目的軟硬件資源。
(1)梳理已建軟硬件資源列表。搭建云平臺(tái)不是為了追逐技術(shù),而是為了怎么為應(yīng)用服務(wù)。應(yīng)該認(rèn)真梳理已建的應(yīng)用有哪些,涉及哪些服務(wù)器、哪些軟件,以及相關(guān)軟硬件的型號(hào)、版本,為逐步向云平臺(tái)遷移做好準(zhǔn)備。
(2)規(guī)劃云平臺(tái)核心應(yīng)用功能。根據(jù)海委軟硬件資源的現(xiàn)狀,充分利用已有資源,實(shí)現(xiàn)異構(gòu)資源和存量資源混合環(huán)境的按需分配、統(tǒng)一管理、統(tǒng)一調(diào)度和資源的合理規(guī)劃。分層次按資源池/域/集群/節(jié)點(diǎn)對(duì)異構(gòu)計(jì)算環(huán)境進(jìn)行統(tǒng)一管理,構(gòu)建海委云平臺(tái)。云平臺(tái)通過服務(wù)化的方式形成統(tǒng)一的基礎(chǔ)資源服務(wù)目錄,通過用戶自助門戶,實(shí)現(xiàn)基礎(chǔ)資源的快速申請(qǐng)、審批和使用,支撐政務(wù)、業(yè)務(wù)對(duì)軟硬件資源的需要。
(3)定制檔案管理的個(gè)性服務(wù)。海委檔案電子原文信息幾乎涉及所有電子文件類型,主要包括文本文件、數(shù)據(jù)文件、圖像文件、聲像文件、影像文件、多媒體文件、圖形文件、超文本文件等。為了方便借閱用戶使用檔案文件,云平臺(tái)應(yīng)結(jié)合用戶借閱權(quán)限自動(dòng)提供文件使用虛擬化終端,借閱期滿虛擬終端自動(dòng)回收。
建設(shè)檔案管理大數(shù)據(jù)平臺(tái)
當(dāng)前,海委的檔案數(shù)據(jù)基本存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,客戶端功能以查詢、檢索為主,由于數(shù)據(jù)量、服務(wù)器處理能力等原因,在此軟硬件架構(gòu)上很難對(duì)功能、性能進(jìn)行大提升。因此,需要應(yīng)用云平臺(tái)、大數(shù)據(jù)技術(shù)按照實(shí)際內(nèi)容應(yīng)用流程實(shí)現(xiàn),即建立數(shù)據(jù)的采集、智能處理、數(shù)據(jù)挖掘與智能搜索應(yīng)用平臺(tái)。通過多類型數(shù)據(jù)采集平臺(tái)進(jìn)行數(shù)據(jù)采集,在智能數(shù)據(jù)處理平臺(tái)上對(duì)這些非結(jié)構(gòu)化信息、多媒體信息和用戶信息進(jìn)行分析,最后在應(yīng)用平臺(tái)上提供數(shù)據(jù)挖掘結(jié)果的搜索功能和多媒體自動(dòng)編研功能。
(1)檔案數(shù)據(jù)采集。檔案數(shù)據(jù)采集離不開檔案鑒定,通過業(yè)務(wù)專家、檔案專業(yè)人員、大數(shù)據(jù)技術(shù)專家的檔案鑒定工作,形成檔案大數(shù)據(jù)采集的基礎(chǔ)標(biāo)準(zhǔn)和規(guī)范。在新的采集體系中,可以擴(kuò)大檔案數(shù)據(jù)的采集范圍,除了歸檔之前認(rèn)定的檔案文件外,還應(yīng)將相關(guān)的文件及在線運(yùn)行的歷史數(shù)據(jù)進(jìn)行自動(dòng)的采集歸檔,為大數(shù)據(jù)應(yīng)用分析、挖掘提供更豐富的數(shù)據(jù)支撐。
(2)檔案數(shù)據(jù)處理。根據(jù)檔案數(shù)據(jù)采集的內(nèi)容及數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,檔案數(shù)據(jù)處理環(huán)節(jié)應(yīng)充分利用大數(shù)據(jù)平臺(tái)提供的元數(shù)據(jù)管理和數(shù)據(jù)標(biāo)簽?zāi)芰?,保留、定義、提取數(shù)據(jù)邏輯關(guān)系。例如,自動(dòng)定義單頁掃描文件與自動(dòng)識(shí)別后的文本文件的關(guān)系,智能提取自動(dòng)識(shí)別后的文本文件的關(guān)鍵字等。
(3)檔案數(shù)據(jù)分析。從海量的大數(shù)據(jù)庫中找到用戶可能最關(guān)心的檔案,是大數(shù)據(jù)平臺(tái)的重要任務(wù),通過分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、決策樹等算法,能夠根據(jù)用戶的需要從不同的角度對(duì)檔案數(shù)據(jù)進(jìn)行挖掘、分類、提取、排名,快速定位相關(guān)檔案。例如,用戶根據(jù)當(dāng)前工作的需要輸入一段文字,查找相關(guān)檔案,大數(shù)據(jù)平臺(tái)將自動(dòng)進(jìn)行關(guān)鍵字提取,利用關(guān)鍵字快速檢索相關(guān)檔案,對(duì)搜集到的檔案進(jìn)行聚類分析,利用聚類結(jié)果對(duì)不同的檔案賦以不同的類標(biāo)記,然后利用分類功能組織檔案。
建立檔案微應(yīng)用、移動(dòng)應(yīng)用
(1)檔案微應(yīng)用。傳統(tǒng)檔案系統(tǒng)的建設(shè)模式是通過設(shè)計(jì)、開發(fā)、測(cè)試、部署、試運(yùn)行等階段之后投入系統(tǒng)運(yùn)行,用戶才能正常使用,這種建設(shè)模式不僅投入大而且建設(shè)周期較長(zhǎng)。架構(gòu)在云平臺(tái)、大數(shù)據(jù)技術(shù)基礎(chǔ)上的檔案應(yīng)用開發(fā)模式是將核心、復(fù)雜的檔案業(yè)務(wù)模塊以組件形式封裝到平臺(tái)中,檔案系統(tǒng)開發(fā)者可在平臺(tái)的基礎(chǔ)上自定義、組裝業(yè)務(wù)流程,開發(fā)出更多碎片化、個(gè)性化的微應(yīng)用。微應(yīng)用比傳統(tǒng)的應(yīng)用量級(jí)輕,搭建起來簡(jiǎn)潔、靈活,同時(shí)對(duì)其進(jìn)行改造的時(shí)候也更為便捷。每一個(gè)微應(yīng)用之間都是松耦合的,開發(fā)者可以根據(jù)用戶的需求去開發(fā)各種微應(yīng)用,更直接地面向用戶提供服務(wù),檔案系統(tǒng)的復(fù)雜度也會(huì)大幅降低,靈活度大幅提高。
(2)檔案移動(dòng)應(yīng)用。當(dāng)前,隨時(shí)隨地可能對(duì)檔案都會(huì)有需求,傳統(tǒng)基于PC機(jī)的應(yīng)用模式已無法滿足用戶的需求,需要開發(fā)基于智能移動(dòng)終端的檔案應(yīng)用,結(jié)合微應(yīng)用的建設(shè)方式根據(jù)用戶的需求不斷推出新的應(yīng)用功能,充分發(fā)揮檔案數(shù)據(jù)的業(yè)務(wù)支撐、決策支撐等作用。