胡艷華
摘 要:在檔案管理的工作中,數(shù)據(jù)攝取是其中重要的組成部分,檔案信息具有量大的特點,所以檔案管理人員要從大量的檔案信息中提取有效的部分其實是具有一定難度的,并且這項工作需要消耗大量的人力與物力資源,檔案管理中心擁有龐大的信息數(shù)據(jù)量,要想在這些信息中篩選出最有價值的部分,就應(yīng)該采用數(shù)據(jù)攝取的方式對所采集到的信息進行有效的處理。在處理時,應(yīng)該應(yīng)用先進的設(shè)備以及現(xiàn)代化的科學(xué)技術(shù),這樣才能進一步的提高檔案管理的工作效率,以達(dá)到令人滿意的檔案管理效果。本文重點對檔案管理過程中的數(shù)據(jù)攝取問題展開了論述,希望對今后的工作帶來一定的幫助。
關(guān)鍵詞:檔案管理;數(shù)據(jù)采集;信息;處理
在我國當(dāng)前社會發(fā)展的過程中,檔案信息資料不斷增多,雖然檔案信息可以對社會發(fā)展起到記錄的作用,但是在龐大的數(shù)據(jù)面前,人們很難找到有效的信息,所以要想進一步提高資源的使用率,就應(yīng)該學(xué)會將檔案信息資料中有效的信息進行提取,以及進一步的處理,由此可見,數(shù)據(jù)攝取這一技術(shù)是檔案管理過程中重要的組成部分,只有采用先進的技術(shù)手段以及相關(guān)的設(shè)備,才能讓數(shù)據(jù)采集具有準(zhǔn)確性與完整性的特點,以促進工作人員工作效率的進步提升,本文重點對檔案管理中數(shù)據(jù)攝取的問題展開論述,希望可以對這項技術(shù)起到不斷完善與進一步改進的作用,更好的應(yīng)用于檔案管理中。
1 檔案管理中的數(shù)據(jù)采集工作
不同的檔案信息在內(nèi)容方面具有很大的差別,并且在對檔案信息資料進行管理的過程中也具有復(fù)雜性的特點,所以檔案管理中通常都需要對數(shù)據(jù)進行分類,分類處理是數(shù)據(jù)攝取的首要前提,這是一項系統(tǒng)性的工作,必須要按照一定的流程展開,同時在對數(shù)據(jù)進行采集時,也需要注重以下幾方面的問題。首先檔案管理人員應(yīng)該充分的了解檔案的結(jié)構(gòu),這樣才能對電子檔案或者文字資料進行正確的處理,只有掌握了相應(yīng)的框架結(jié)構(gòu),那么就可以對其進行簡單的描述,在數(shù)據(jù)攝取要求的基礎(chǔ)上從中提取出有價值的信息,同時,將其保存在一個數(shù)據(jù)庫中,這樣可以讓整個檔案信息的結(jié)構(gòu)更加明顯,具備一定的條理性,更加順利的開展后續(xù)的工作。
其次,應(yīng)該對檔案數(shù)據(jù)的安全性引起一定的重視。在對數(shù)據(jù)進行采集時,應(yīng)該有效地預(yù)防數(shù)據(jù)丟失的現(xiàn)象,并且對數(shù)據(jù)被竊取的現(xiàn)象加以避免,為此,只有工作人員具備了較高的安全素質(zhì),在準(zhǔn)備工作中加強安全方面的管理,才能保證數(shù)據(jù)采集的安全性。在對數(shù)據(jù)進行采集的同時,應(yīng)該將重要的信息或者數(shù)據(jù)隱藏起來,例如使用特殊的符號對重要信息進行替換,這樣可以有效地預(yù)防數(shù)據(jù)信息受被竊取,提高了檔案管理的安全性。
第三,數(shù)據(jù)信息還應(yīng)該具有獨立性的特點。在檔案部門進行數(shù)據(jù)管理的過程中,通常采用的模式都是關(guān)系數(shù)據(jù)管理模式,這種管理模式主要是將有價值的信息提取出來,并且進行數(shù)據(jù)聯(lián)機,這樣便可以為檔案使用者提供更加便利的服務(wù)。在關(guān)系數(shù)據(jù)庫中,要想對數(shù)據(jù)信息進行有效的分離,那么首要的前提條件就是應(yīng)該滿足數(shù)據(jù)自身的完整性,這樣才可以進一步提高檔案信息分析過程的準(zhǔn)確性,同時將檔案信息有價值的一面展現(xiàn)出來,更好的作用于社會的發(fā)展與建設(shè)。
2 檔案管理中的數(shù)據(jù)攝取工作
2.1 數(shù)據(jù)清理
首先,在開展數(shù)據(jù)清理的工作中,其主要的目標(biāo)就是將收集來的信息進行加工以及進一步的處理,這樣可以將有用的信息提煉出來,以便進一步提高數(shù)據(jù)的可靠性與完整性,為后續(xù)的數(shù)據(jù)攝取工作帶來便利。數(shù)據(jù)攝取工作具有一定的標(biāo)準(zhǔn),工作人員在這一標(biāo)準(zhǔn)的基礎(chǔ)上擇優(yōu)篩選出有用的信息,有助于數(shù)據(jù)資源質(zhì)量得到進一步的提高。之所以在數(shù)據(jù)攝取之前對數(shù)據(jù)進行清理,是因為以下幾點原因。第一是著錄標(biāo)準(zhǔn)不是統(tǒng)一的,不同的檔案管理部門所采用的管理軟件是不同的,所以對著錄也有著不同的要求,或者說是標(biāo)準(zhǔn),因此檔案信息在數(shù)據(jù)結(jié)構(gòu)方面就存在一定的差異性。這樣對于數(shù)據(jù)攝取效率的提高是十分不利的,所以如果沒有事先對數(shù)據(jù)進行有效的清理,就會對后續(xù)的工作帶來一定的困擾。
第二,著錄錯誤。在檔案信息數(shù)據(jù)管理的過程中,著錄工作是人工操作的,如果工作人員出現(xiàn)失誤,會造成著錄錯誤的問題,由于檔案信息量比較龐大,所以,著錄錯誤的影響也比較大,可能會改變原始數(shù)據(jù)的屬性,所以,必須通過數(shù)據(jù)清理的方式,對數(shù)據(jù)信息進行重新歸檔與定性。工作人員需要對數(shù)據(jù)中的空缺進行補錄,補錄值可以采用常量、均值、隨機值等,但都需要檔案專業(yè)工作者對其準(zhǔn)確性進行推斷后方能進行。對于包含孤立點和異常值的噪聲數(shù)據(jù)進行處理的時候,具有可視化功能的挖掘軟件可以很直觀的顯示出這些噪聲數(shù)據(jù),用戶可以依據(jù)圖形對這些噪點進行清除或糾值。
2.2 數(shù)據(jù)集成
前文提到在數(shù)據(jù)采集時要對源數(shù)據(jù)進行分類匯總,并進行初步的差異項統(tǒng)一。而數(shù)據(jù)集成是更為深層次的操作,它整合不同數(shù)據(jù)源中的元數(shù)據(jù)到一個一致的存儲中,包括數(shù)據(jù)類型的選擇、數(shù)據(jù)間沖突的處理、數(shù)據(jù)表的集成,表間關(guān)系的重確定等操作。由于這些源數(shù)據(jù)是異種異構(gòu)的,數(shù)據(jù)集成必須將這些數(shù)據(jù)統(tǒng)一并規(guī)范化,形成初始挖掘數(shù)據(jù)。例如不同檔案管理系統(tǒng)中“時間”或“日期”都可以表示文件形成時間,我們可將這兩種異名同義字段從數(shù)據(jù)庫中導(dǎo)出后,保留其中一個字段名,字段內(nèi)容不用做任何處理,就做到了該字段上的統(tǒng)一。
2.3 數(shù)據(jù)變換
現(xiàn)有的數(shù)據(jù)變換方法如平滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造等都可以對經(jīng)過數(shù)據(jù)集成后的初始挖掘數(shù)據(jù)進行處理,但是對檔案信息數(shù)據(jù)這一特殊信息體來說,屬性構(gòu)造手段是否良好運用,關(guān)系到最終挖掘結(jié)果的優(yōu)劣。
2.4 數(shù)據(jù)規(guī)約
經(jīng)過之前步驟處理過的數(shù)據(jù)集,在正確性、統(tǒng)一性,規(guī)范性上都有了一個大幅的提高,但是數(shù)據(jù)集內(nèi)的數(shù)據(jù)量在去重后的變化并不顯著,在其上進行復(fù)雜的數(shù)據(jù)分析和數(shù)據(jù)挖掘依然會耗費人量的時間,數(shù)據(jù)規(guī)約從原始數(shù)據(jù)集中選取用戶感興趣的數(shù)據(jù)集合并從集合中去除無關(guān)或偏差屬性和元組,一方面降低了無效、錯誤、冗余數(shù)據(jù)對挖掘結(jié)果的影響,另一方面也大幅縮減了挖掘所需要的時間以及存儲這些數(shù)據(jù)所需要的成本,因此是一個效果和效率兼?zhèn)涞倪^程。
3 結(jié)論
數(shù)據(jù)攝取具有一定的復(fù)雜性,為了保證數(shù)據(jù)攝取的順利進行,必須先建立有效的檔案數(shù)據(jù)攝取標(biāo)準(zhǔn),還要保證制定標(biāo)準(zhǔn)的準(zhǔn)確性以及普遍性,這樣才能保證檔案數(shù)據(jù)攝取的質(zhì)量,才能提高數(shù)據(jù)攝取的工作效率。在對數(shù)據(jù)信息進行采集與處理的過程中,要保證數(shù)據(jù)的安全性,工作人員一定要具有較高的安全意識,這樣才能避免數(shù)據(jù)丟失以及泄漏問題的發(fā)生。
參考文獻
[1]羅艷,黃明初,陸旭安,潘雄偉.一個數(shù)字檔案館中的數(shù)據(jù)挖掘系統(tǒng)工作流程[J].廣西科學(xué)院學(xué)報,2010(4).
[2]鮑靜,范生萬.基于數(shù)據(jù)挖掘的圖書數(shù)據(jù)預(yù)處理[J].大學(xué)圖書情報學(xué)刊,2008(2).
[3]鄭晨.高校檔案管理工作網(wǎng)絡(luò)化之我見[J].赤峰學(xué)院學(xué)報(漢文哲學(xué)社會科學(xué)版),2006(6).