范海斌,李秋香
(國家能源神東煤炭集團(tuán)公司,陜西 榆林 719315)
在數(shù)據(jù)檔案發(fā)展領(lǐng)域,發(fā)達(dá)國家已經(jīng)進(jìn)入信息存儲、信息挖掘和價(jià)值創(chuàng)造的時代,信息承載體的管理已經(jīng)延伸到信息本身的管理,信息的存儲和利用的規(guī)則研究是其重點(diǎn)方向。以光和電磁為存儲中介的模式正在成為主流,信息解析規(guī)則也在趨向于基本的物理規(guī)則,傳統(tǒng)信息解析規(guī)則的解析偏差在逐漸減小。
在應(yīng)用層面的數(shù)據(jù)檔案的研究,目前只有浙江省檔案館在政務(wù)系統(tǒng)上做了初步的嘗試,也多集中在對電子文件本身的管理?;谄髽I(yè)數(shù)字工業(yè)背景下的檔案管理研究,目前尚無先例可以遵循。針對煤礦企業(yè),實(shí)現(xiàn)完全數(shù)字化、智慧化,進(jìn)行了高度的互聯(lián)網(wǎng)+融合的企業(yè)并不多,數(shù)字化礦山建設(shè)在行業(yè)內(nèi)也是在逐步落地和完善,可提供完整的數(shù)字礦山模型供檔案管理進(jìn)行研究的例子不多,所以完整的電子文件歸檔體系和數(shù)據(jù)歸檔體系建設(shè)在國內(nèi)尚無先例。相對而言,對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集、清洗、壓縮、解析等操作目前研究很少。
本文從數(shù)字礦山的結(jié)構(gòu)化數(shù)據(jù)、基于煤礦傳感設(shè)備直接生成和工控軟件以及決策軟件的數(shù)據(jù)采集匯總開始,將數(shù)據(jù)推入檔案轉(zhuǎn)換階段。確定數(shù)字礦山建設(shè)背景下結(jié)構(gòu)化數(shù)據(jù)的歸檔范圍、保管期限確定的原則、分類方法、實(shí)施策略、接口規(guī)范,在此基礎(chǔ)上完成大數(shù)據(jù)歸檔利用體系平臺的構(gòu)建。
本課題研究背景為信息時代下的檔案管理轉(zhuǎn)型,研究方向?yàn)榛跀?shù)字礦山的建設(shè)和檔案的資源化管理及大數(shù)據(jù)歸檔利用體系平臺建設(shè)。該項(xiàng)目在理念和與實(shí)際應(yīng)用上實(shí)踐均屬于填補(bǔ)行業(yè)空白,在研究中將新理念及多項(xiàng)新技術(shù)引入檔案管理領(lǐng)域,包括資源管理、標(biāo)準(zhǔn)制定、接口規(guī)范、價(jià)值挖掘、安全體系等,產(chǎn)生多項(xiàng)創(chuàng)新成果。平臺構(gòu)建邏輯上遵循數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)固化、數(shù)據(jù)歸檔和數(shù)據(jù)利用[1],具體如圖1所示。
圖1 平臺界面及內(nèi)容設(shè)計(jì)
本項(xiàng)目主要針對現(xiàn)有智能礦山比較成熟的應(yīng)用系統(tǒng),進(jìn)行具有探索性、實(shí)驗(yàn)性的數(shù)據(jù)研究,研究對象為電子數(shù)據(jù),包括單一來源的工業(yè)數(shù)據(jù),依托于現(xiàn)有載體的電子數(shù)據(jù)和數(shù)字化加工產(chǎn)生的電子檔案。通過數(shù)據(jù)研究獲取數(shù)據(jù)形成和分布的規(guī)律,形成規(guī)則,并通過軟件開發(fā),使用軟件對數(shù)據(jù)接收、存放和利用進(jìn)行技術(shù)驗(yàn)證,為智能礦山各業(yè)務(wù)系統(tǒng)大數(shù)據(jù)總體管理提供驗(yàn)證性數(shù)據(jù)和經(jīng)驗(yàn)。
本項(xiàng)目采用迭代改進(jìn)的方法進(jìn)行研究,從價(jià)值發(fā)揮和規(guī)范管理出發(fā),在充分收集系統(tǒng)數(shù)據(jù)及調(diào)研的基礎(chǔ)上完成數(shù)據(jù)歸檔利用的理論模型構(gòu)建,根據(jù)理論模型搭建軟件系統(tǒng),利用軟件系統(tǒng)驗(yàn)證模型結(jié)構(gòu),根據(jù)驗(yàn)證中發(fā)現(xiàn)的問題重復(fù)修正模型和系統(tǒng),通過反復(fù)的實(shí)驗(yàn)研究,得到最符合目標(biāo)要求的模型、系統(tǒng)。最后梳理數(shù)據(jù),對研究過程進(jìn)行總結(jié),形成完善可行的大數(shù)據(jù)歸檔利用體系,進(jìn)而完成大數(shù)據(jù)歸檔利用平臺的建設(shè)[2]。
大數(shù)據(jù)歸檔利用體系模型的建立,從確立研究對象開始。在本課題中研究對象有兩部分,一是數(shù)字礦山業(yè)務(wù)系統(tǒng)產(chǎn)生的電子文件和數(shù)據(jù)檔案,二是原檔案系統(tǒng)中的目錄數(shù)據(jù)和原文。從數(shù)據(jù)的性質(zhì)上區(qū)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
數(shù)字礦山各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫類型主要為oracle 和SQL Server 等主流數(shù)據(jù)庫,技術(shù)對接較為容易實(shí)現(xiàn)。業(yè)務(wù)系統(tǒng)中的電子文件有兩種,一種是業(yè)務(wù)系統(tǒng)根據(jù)邏輯請求生成的電子文件,一種是用戶上傳的電子文件。電子文件格式包括DOX、DOCX、JPG、PDF、XLS、OFD 等,電子文件具備轉(zhuǎn)換成符合版式文件長期保存格式的基礎(chǔ)。
數(shù)字礦山業(yè)務(wù)系統(tǒng)中的電子文件需要甄別和保持和業(yè)務(wù)表的聯(lián)系。格式適宜采用PDF。數(shù)據(jù)檔案和實(shí)體檔案的管理分開,采取平行管理的模式,數(shù)據(jù)檔案補(bǔ)充完善分類編目規(guī)則和存儲規(guī)則[3]。
基于以上研究,數(shù)字礦山大數(shù)據(jù)歸檔利用體系模型的構(gòu)建采用構(gòu)建數(shù)據(jù)容器,容納數(shù)據(jù)檔案和傳統(tǒng)檔案的結(jié)構(gòu),業(yè)務(wù)數(shù)據(jù)通過接口和容器完成信息交互,具體呈現(xiàn)上業(yè)務(wù)數(shù)據(jù)在容器內(nèi)要完成數(shù)據(jù)檔案的轉(zhuǎn)換,傳統(tǒng)檔案管理系統(tǒng)通過底層對接的形式,完成數(shù)據(jù)的共享。最終在數(shù)據(jù)容器的基礎(chǔ)上實(shí)現(xiàn)大數(shù)據(jù)的歸檔和利用,如圖2所示。
圖2 體系模型邏輯示意圖
數(shù)據(jù)的采集重心是數(shù)字礦山各類業(yè)務(wù)系統(tǒng)中結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的采集。按照體系模型的規(guī)劃,同時考慮原檔案系統(tǒng)中數(shù)據(jù)的采集。業(yè)務(wù)系統(tǒng)的中電子文件的元數(shù)據(jù)信息,是保障電子文件“四性”的重要依據(jù),所以一并采集。
采集的數(shù)據(jù)從類型上主要為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),選用Web Service 的模式,設(shè)立數(shù)據(jù)容器,容器包含結(jié)構(gòu)和數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),各業(yè)務(wù)系統(tǒng)統(tǒng)一與數(shù)據(jù)容器接入集成,數(shù)據(jù)容器將數(shù)據(jù)推送至大數(shù)據(jù)歸檔利用平臺的各項(xiàng)應(yīng)用場景。采集部分涉及文件封裝和信息交互,分非結(jié)構(gòu)化數(shù)據(jù)處理平臺和電子文件處理平臺兩個部分,協(xié)作完成信息采集工作。非結(jié)構(gòu)化數(shù)據(jù)處理平臺完成結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)的采集,形成非結(jié)構(gòu)化文件,然后推送至其他應(yīng)用場景。大數(shù)據(jù)歸檔利用平臺基于SOA 架構(gòu)實(shí)現(xiàn)與其他系統(tǒng)的“和諧”集成[4]。
元數(shù)據(jù)需要各業(yè)務(wù)系統(tǒng)進(jìn)行推送,包括數(shù)據(jù)服務(wù)器相關(guān)信息,如MAC、用戶等。包括結(jié)構(gòu)化數(shù)據(jù)的特征信息,如表特征、相對位置、源庫等。元數(shù)據(jù)信息作為電子文件和數(shù)據(jù)檔案的背景和屬性描述,推送時以數(shù)據(jù)流的形式進(jìn)行傳輸,在非結(jié)構(gòu)數(shù)據(jù)管理平臺中轉(zhuǎn)換為非結(jié)構(gòu)化文件,后繼提供給其他應(yīng)用場景。采集時,依據(jù)數(shù)字礦山業(yè)務(wù)系統(tǒng)的部署特點(diǎn),對多級部署應(yīng)用的采集也進(jìn)行的實(shí)驗(yàn),采取數(shù)據(jù)縱向傳播的方式,保障元數(shù)據(jù)相對集中的處理。
非結(jié)構(gòu)化數(shù)據(jù)管理平臺將電子文件元數(shù)據(jù)封裝成XML文件,調(diào)用集成接口推送到其他應(yīng)用場景。如圖3所示。
圖3 采集示意圖
數(shù)據(jù)清洗的對象主要是業(yè)務(wù)系統(tǒng)流轉(zhuǎn)的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。清洗的目的是將業(yè)務(wù)數(shù)據(jù)中低價(jià)值或者無價(jià)值的部分舍棄掉,確保數(shù)據(jù)檔案的形成和價(jià)值。清洗的方法是先確定價(jià)值標(biāo)準(zhǔn)和范圍,通過標(biāo)準(zhǔn)適配數(shù)字礦山業(yè)務(wù)系統(tǒng)的數(shù)據(jù),得到有價(jià)值的數(shù)據(jù)檔案,對數(shù)據(jù)檔案進(jìn)行進(jìn)一步分析,確定整合或者分解的必要性。清洗的流程,首先通過采集接口從業(yè)務(wù)系統(tǒng)接收數(shù)據(jù),確立數(shù)據(jù)歸檔表,將數(shù)據(jù)歸檔表內(nèi)嵌至清洗模塊,根據(jù)歸檔表完成數(shù)據(jù)的價(jià)值判斷,利用歸檔表和數(shù)字礦山業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行比對,比對完成的數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換。
非結(jié)構(gòu)化數(shù)據(jù)的清洗分為兩次進(jìn)行,依據(jù)《企業(yè)電子文件歸檔和電子檔案管理指南》《科學(xué)技術(shù)檔案的一般構(gòu)成》《企業(yè)檔案管理指南》確定電子文件歸檔范圍。根據(jù)歸檔范圍進(jìn)行第一級清洗,即價(jià)值清洗。完成第一次清洗后,大數(shù)據(jù)歸檔利用分析平臺利用原檔案管理系統(tǒng)的目錄數(shù)據(jù)庫,進(jìn)行遍歷,一一比對,和原庫重復(fù)的文件,記錄原檔案管理系統(tǒng)的文件ID[5],業(yè)務(wù)系統(tǒng)響應(yīng)的電子文件不進(jìn)行歸檔至此電子文件的篩選完成。
結(jié)構(gòu)化數(shù)據(jù)的清洗過程較為復(fù)雜,取自數(shù)據(jù)庫的數(shù)據(jù)需要解決兩個問題,一個是清洗掉結(jié)構(gòu)數(shù)據(jù)表中的低價(jià)值數(shù)據(jù),一個是結(jié)果數(shù)據(jù)的存儲問題。以所有待測數(shù)據(jù)單位數(shù)量為分母,以各類型數(shù)據(jù)所占數(shù)據(jù)單位數(shù)量為分子,呈現(xiàn)比例關(guān)系,如圖4所示。
圖4 數(shù)據(jù)分別比例圖
基于以上結(jié)論,結(jié)構(gòu)化數(shù)據(jù)的清洗步驟,首先從目標(biāo)數(shù)據(jù)表按照確定的時間周期抽取數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行價(jià)值判定,根據(jù)設(shè)定好的數(shù)據(jù)清洗規(guī)則,過濾無意義的數(shù)據(jù)單位,再后對過濾后的數(shù)據(jù)表按照規(guī)律進(jìn)行重構(gòu),最后得到目標(biāo)數(shù)據(jù)表,也就是經(jīng)過轉(zhuǎn)換后的數(shù)據(jù)表。
數(shù)字礦山業(yè)務(wù)系統(tǒng)的數(shù)據(jù)和文件按照清洗規(guī)則進(jìn)行相應(yīng)轉(zhuǎn)換后,轉(zhuǎn)變?yōu)榫邆浯鎯r(jià)值的對象,包含電子文件和數(shù)據(jù)庫的數(shù)據(jù)表。參照《版式電子文件長期保存需求》《文獻(xiàn)管理 可移植文檔格式》,數(shù)據(jù)庫記錄、業(yè)務(wù)系統(tǒng)電子文件都需要轉(zhuǎn)換成可長期保存的格式。為了后繼檔案管理和讀取,選取XML 和PDF 兩種格式作為數(shù)據(jù)固化的最終格式。
具體運(yùn)作流程為:將在平臺中建設(shè)電子檔案元數(shù)據(jù)管理,元數(shù)據(jù)系統(tǒng)中需要有元數(shù)據(jù)的映射表管理功能,用于業(yè)務(wù)系統(tǒng)傳遞過來的數(shù)據(jù)的解析過程。它將按照預(yù)先配置好的映射關(guān)系將推送過來的JSON 進(jìn)行解析后生成XML 文件,將XML 文件和歸檔文件按照大數(shù)據(jù)歸檔利用平臺的要求封裝到EEP 包中,推送給電子檔案管理系統(tǒng),并從大數(shù)據(jù)歸檔利用平臺中獲取歸檔狀態(tài)等信息。
采集的數(shù)據(jù)按照業(yè)務(wù)系統(tǒng)的功能定義形成數(shù)據(jù)表,電子文件一并采集,和業(yè)務(wù)表有關(guān)聯(lián)的,依照邏輯和數(shù)據(jù)表一并進(jìn)行打包。數(shù)據(jù)包的形成內(nèi)容包括數(shù)據(jù)表、電子文件和元數(shù)據(jù)三部分內(nèi)容。結(jié)構(gòu)上分為三層:第一層為業(yè)務(wù)系統(tǒng)元數(shù)據(jù),第二層為打包內(nèi)容和大數(shù)據(jù)歸檔利用平臺的元數(shù)據(jù),第三層為相應(yīng)的電子文件。
“四性”包括真實(shí)性、完整性、可用性和安全性,結(jié)合系統(tǒng)構(gòu)建特點(diǎn),分別采用方案進(jìn)行。
歸檔環(huán)節(jié)的“四性”保障和檢測,歸檔文件通過接口進(jìn)入大數(shù)據(jù)歸檔利用平臺,自動完善元數(shù)據(jù)并對其進(jìn)行分類整理編號等一系列歸檔文件整理工作,完成后歸檔入庫。由于文件歸檔前和歸檔后都是在可信大數(shù)據(jù)歸檔利用系統(tǒng)中完成各項(xiàng)操作,因此真實(shí)性、可用性和安全性完全可以得到保障,只需要針對歸檔要求對元數(shù)據(jù)和電子文件的完整性進(jìn)行檢測即可。
數(shù)字礦山業(yè)務(wù)數(shù)據(jù)經(jīng)固化處理后,已經(jīng)形成數(shù)據(jù)包,統(tǒng)一使用單個XML 文件表述,具備以件管理?xiàng)l件。分類方案基于煤炭工業(yè)企業(yè)分類規(guī)則進(jìn)行拓展,介于文件的形式、格式和容納的內(nèi)容,無法直接融入原檔案管理體系,在管理上適宜和原檔案系統(tǒng)的管理庫相對獨(dú)立。新的電子檔案盒原系統(tǒng)的檔案的電子形式一起形成檔案大數(shù)據(jù),為保證數(shù)據(jù)的整合,在邏輯上兩者適合納入一個體系進(jìn)行管理。綜合研究的基礎(chǔ)上,采取在工業(yè)企業(yè)分類規(guī)則十大類分類方式的基礎(chǔ)上,增加一個分類,為數(shù)據(jù)檔案類。其次級分類根據(jù)業(yè)務(wù)系統(tǒng)特點(diǎn)和工業(yè)生產(chǎn)特點(diǎn),分為采掘、運(yùn)輸、通風(fēng)、動力、排水、通信、監(jiān)測、決策和其他,再次級分類根據(jù)數(shù)據(jù)特點(diǎn)分為管理類、采集類、行為類和其他。依照分類對形成的數(shù)據(jù)包進(jìn)行整理分類和著錄。
數(shù)據(jù)利用的目的是產(chǎn)生價(jià)值,在大數(shù)據(jù)形成后,如何對數(shù)據(jù)進(jìn)行深度挖掘是本課題研究的主要內(nèi)容。本課題構(gòu)建基礎(chǔ)搜索引擎,在此基礎(chǔ)上添加數(shù)據(jù)挖掘規(guī)則,嘗試建立學(xué)習(xí)模式,讓數(shù)據(jù)的利用深度和廣度具備提升的潛力。
計(jì)算機(jī)的人工智能,根據(jù)計(jì)算機(jī)原理,人工智能的本質(zhì)就是窮舉計(jì)算和規(guī)則學(xué)習(xí)完善的結(jié)合,對每一個場景以及其分支都預(yù)設(shè)了內(nèi)容和結(jié)果。所有的數(shù)據(jù)挖掘均基于數(shù)據(jù)檢索和數(shù)據(jù)分析,簡單的搜索為類似于數(shù)據(jù)庫的檢索模式,該模式需要人為給出檢索關(guān)鍵詞,而后對檢索結(jié)果分析,最后得出結(jié)果。該模式容易實(shí)現(xiàn),但高度依賴人工,在缺乏角度和海量數(shù)據(jù)的情況下,很難得出有價(jià)值的結(jié)論。數(shù)據(jù)挖掘智能化的第一步就是讓簡單搜索具備基本的比對能力,這是開啟智慧的第一步。
本課題中基礎(chǔ)引擎為熱點(diǎn)搜索引擎,以熱點(diǎn)詞語的多和少作為檢索的兩個分支,具備檢索多種格式文件的能力,包括TXT、XLS、PDF 等,可以目標(biāo)數(shù)據(jù)進(jìn)行分詞,并對分詞結(jié)果按照熱度進(jìn)行排序。實(shí)現(xiàn)基本原理:先建立碰撞庫,對目標(biāo)數(shù)據(jù)按照字節(jié)采用冒泡發(fā)進(jìn)行循環(huán)碰撞,得出單字節(jié)熱點(diǎn)次數(shù)排序,按照排序選擇確定數(shù)量的再次挖掘結(jié)果,對熱點(diǎn)單字節(jié)進(jìn)行延展擴(kuò)充,單字節(jié)增加到雙字節(jié),對雙字節(jié)進(jìn)行重復(fù)冒泡。以此類推,可增加到三字節(jié)到四字節(jié)直至10字節(jié)。最終排序的字節(jié)去掉不符合表達(dá)方式的詞語,就得到了檢索內(nèi)容中的熱點(diǎn)詞排序。
基于該基礎(chǔ)引擎,我們可以從幾個維度對數(shù)據(jù)進(jìn)行挖掘,包括出現(xiàn)頻率最高排序、出現(xiàn)頻率最低排序、數(shù)據(jù)變化量排序、異常數(shù)據(jù)排序等,根據(jù)不同的數(shù)據(jù)表和應(yīng)用場景,可以得出不同的結(jié)果。在熱點(diǎn)詞語排序的基礎(chǔ)上匹配工業(yè)環(huán)境、公文基礎(chǔ)、基本工序、場景模擬等因素,該基礎(chǔ)引擎就可以完成進(jìn)化。每一個場景的配置和每一個分支的選擇,都有不同的結(jié)果,不同走向的相互搭配形成搜索的高級規(guī)則,對規(guī)則的不斷優(yōu)化,完成了挖掘的智能學(xué)習(xí),數(shù)據(jù)挖掘至此有了智能。
大數(shù)據(jù)歸檔利用平臺的建設(shè)最終為檔案工作服務(wù),各部門利用該平臺進(jìn)行檔案的信息化管理。檔案工作人員通過此信息平臺進(jìn)行檔案的收集、整理、保管等工作,借閱人員通過網(wǎng)絡(luò)直接進(jìn)行相關(guān)的檔案查詢利用工作。基于上述設(shè)計(jì)完成構(gòu)建的平臺,可以同時完成各系統(tǒng)的采集、清洗、轉(zhuǎn)換、歸檔、利用等業(yè)務(wù)操作,為數(shù)字礦山背景下大數(shù)據(jù)的歸檔和利用提供了可應(yīng)用的解決方案,對檔案管理轉(zhuǎn)型意義重大。