• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      北京數(shù)字檔案館項(xiàng)目數(shù)據(jù)清理情況分析

      2017-04-21 22:26:25尹哲
      北京檔案 2017年3期
      關(guān)鍵詞:副本結(jié)構(gòu)化檔案館

      尹哲

      摘要:目前由于數(shù)字檔案館的投入運(yùn)行,各類檔案數(shù)據(jù)的存儲(chǔ)數(shù)量急速增加。與此同時(shí),檔案數(shù)據(jù)質(zhì)量隨著臟數(shù)據(jù)的出現(xiàn)受到很大影響,針對(duì)數(shù)據(jù)質(zhì)量的清理工作勢(shì)在必行。本文根據(jù)北京市檔案館的工作經(jīng)驗(yàn)整理出檔案數(shù)據(jù)質(zhì)量存在的典型問(wèn)題,提出了數(shù)據(jù)清理的基本方法和步驟,為今后檔案工作數(shù)據(jù)清理提供相關(guān)經(jīng)驗(yàn)和建議。

      關(guān)鍵詞:數(shù)字檔案館數(shù)據(jù)質(zhì)量臟數(shù)據(jù)數(shù)據(jù)清理

      北京市檔案館檔案管理系統(tǒng)經(jīng)過(guò)十余年的應(yīng)用,目前積累的存儲(chǔ)數(shù)據(jù)非常龐大,其中檔案機(jī)讀目錄1400余萬(wàn)條,檔案數(shù)字化副本7000余萬(wàn)頁(yè),存儲(chǔ)量達(dá)到80TB。由于數(shù)據(jù)庫(kù)設(shè)計(jì)約束不足、數(shù)據(jù)錄入錯(cuò)誤等多種原因?qū)е孪到y(tǒng)中存在臟數(shù)據(jù)(dirty data,是指數(shù)據(jù)集中存在較多相似重復(fù)的、不一致的、格式不匹配的、不符合邏輯的、帶有空缺值的以及沒(méi)有實(shí)際作用的數(shù)據(jù))。[1]這些數(shù)據(jù)直接拉低了檔案數(shù)據(jù)質(zhì)量,影響檔案檢索查詢效果。隨著北京市數(shù)字檔案館項(xiàng)目的深入推進(jìn),為更好地配合北京數(shù)字檔案館項(xiàng)目建設(shè)工作,北京市檔案館在2016年開(kāi)展了檔案數(shù)據(jù)集中清理工作。

      一、北京市檔案館現(xiàn)有數(shù)據(jù)情況

      北京市檔案館館藏?cái)?shù)據(jù)主要包括:各類檔案數(shù)字化副本(紙質(zhì)文書檔案、紙質(zhì)照片檔案、音視頻檔案等數(shù)字化副本)、電子文件(含數(shù)碼照片)、檔案機(jī)讀目錄數(shù)據(jù)、檔案系統(tǒng)管理數(shù)據(jù)等。其中檔案系統(tǒng)管理數(shù)據(jù)通常包括檔案實(shí)體表、檔案存址表、檔案原缺表、利用者信息表、調(diào)歸卷信息表等數(shù)據(jù)。

      這些數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類。結(jié)構(gòu)化數(shù)據(jù)是指存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)無(wú)法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,如文本、圖像、聲音、網(wǎng)頁(yè)等,稱之為非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括檔案機(jī)讀目錄數(shù)據(jù)和檔案系統(tǒng)管理數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括各類數(shù)字化副本、電子文件、數(shù)碼照片等。兩類數(shù)據(jù)存在問(wèn)題和解決的方法不同。結(jié)構(gòu)化數(shù)據(jù)整體存儲(chǔ)在數(shù)據(jù)庫(kù)中,數(shù)據(jù)清理依賴數(shù)據(jù)庫(kù)執(zhí)行指令完成。非結(jié)構(gòu)化數(shù)據(jù)是以單個(gè)文件形式存儲(chǔ)在磁盤驅(qū)動(dòng)器中,可以人工進(jìn)行清理,但當(dāng)數(shù)據(jù)量非常大的情況下,則需依靠定制開(kāi)發(fā)計(jì)算機(jī)程序完成。在向北京數(shù)字檔案館系統(tǒng)遷移數(shù)據(jù)的過(guò)程中,紙質(zhì)檔案數(shù)字化副本和檔案機(jī)讀目錄是存在問(wèn)題最多、清理工作量最大的兩類數(shù)據(jù)資源。因此,數(shù)據(jù)清理的重點(diǎn)也集中在紙質(zhì)檔案數(shù)字化副本和檔案機(jī)讀目錄數(shù)據(jù)上。

      二、北京市檔案館數(shù)據(jù)質(zhì)量存在的典型問(wèn)題(以機(jī)讀目錄和紙質(zhì)檔案數(shù)字化副本為例)

      (一)檔案機(jī)讀目錄數(shù)據(jù)存在以下四類問(wèn)題:

      1.重復(fù)數(shù)據(jù)

      數(shù)據(jù)重復(fù)主要有兩種情況,一種是在同一個(gè)庫(kù)表中存在全部字段值完全相同的記錄;另一種是在不同的庫(kù)表中存在相同的記錄。產(chǎn)生的主要原因均為數(shù)據(jù)被重復(fù)導(dǎo)入,數(shù)據(jù)庫(kù)沒(méi)有唯一性校驗(yàn)造成的。應(yīng)保留一份數(shù)據(jù),刪除重復(fù)數(shù)據(jù)。

      2.缺失數(shù)據(jù)

      數(shù)據(jù)庫(kù)表中很多記錄缺失關(guān)鍵字段值,關(guān)鍵字段例如“全宗號(hào)”“目錄號(hào)”“案卷號(hào)”“檔號(hào)”“題名”“開(kāi)控狀態(tài)”等字段。產(chǎn)生問(wèn)題的主要原因是目錄在手工錄入過(guò)程中遺漏造成的,數(shù)據(jù)庫(kù)在設(shè)計(jì)上完整性約束不足也是原因之一。這些關(guān)鍵字段值應(yīng)進(jìn)行補(bǔ)充以保證數(shù)據(jù)檢索、利用的需求得以滿足。

      3.錯(cuò)誤數(shù)據(jù)

      數(shù)據(jù)庫(kù)表中有的記錄中“檔號(hào)”字段值編制錯(cuò)誤,例如照片檔案檔號(hào)結(jié)構(gòu)應(yīng)該是“全宗號(hào)-目錄號(hào)-案卷號(hào)-張?zhí)枴?,但是?shí)際錄入的是“全宗號(hào)-目錄號(hào)-案卷號(hào)”。有的記錄賦值錯(cuò)誤,例如有的“張頁(yè)數(shù)”字段中含有“+”等非法字符,其值域范圍本應(yīng)僅限于正整數(shù)。有的記錄編制位數(shù)不足,例如“起始頁(yè)號(hào)”字段值按照目前標(biāo)準(zhǔn)應(yīng)該是5位,但是早期的記錄只有3位或4位。這些錯(cuò)誤的原因有的是由于手工錄入錯(cuò)誤造成的,有的是由于字段值編制標(biāo)準(zhǔn)發(fā)生變化造成的。錯(cuò)誤的數(shù)據(jù)應(yīng)通過(guò)數(shù)據(jù)清理進(jìn)行修正。

      4.無(wú)效數(shù)據(jù)

      數(shù)據(jù)庫(kù)表中的歷史測(cè)試數(shù)據(jù),暫存數(shù)據(jù)等,應(yīng)通過(guò)清理工作直接刪除。

      (二)數(shù)字化副本數(shù)據(jù)存在四類問(wèn)題

      1.數(shù)據(jù)命名不規(guī)范

      數(shù)字化副本文件命名有如下幾類:3位流水號(hào).tif、4位流水號(hào).tif、5位流水號(hào).tif、a_p流水號(hào).tif、檔號(hào).tif。產(chǎn)生這種情況的原因是由于不同時(shí)期數(shù)字化加工采用的標(biāo)準(zhǔn)不同,還有一些不符合規(guī)范采用手工命名導(dǎo)致的特殊命名方式。不符合命名規(guī)范的數(shù)字化副本在數(shù)據(jù)管理和數(shù)據(jù)掛接中存在隱患,容易產(chǎn)生掛接錯(cuò)誤等問(wèn)題,應(yīng)采用統(tǒng)一的命名標(biāo)準(zhǔn),保證數(shù)據(jù)在案卷級(jí)和文件級(jí)掛接的可靠性。

      2.數(shù)據(jù)質(zhì)量不可靠

      個(gè)別數(shù)字化副本存在無(wú)法打開(kāi)的情況,屬于數(shù)據(jù)掃描質(zhì)量問(wèn)題。錯(cuò)誤的數(shù)據(jù)會(huì)導(dǎo)致無(wú)法掛接,系統(tǒng)無(wú)法正常讀取數(shù)據(jù)??梢允褂密浖z測(cè)圖像的可讀性,保證數(shù)據(jù)質(zhì)量。

      3.數(shù)據(jù)保存不唯一

      有些檔案的數(shù)字化副本在系統(tǒng)中存在兩份,彩色一份、黑白一份,黑白的是早期的數(shù)字化成果,彩色的是近期數(shù)字化成果。重復(fù)數(shù)據(jù)不利于數(shù)據(jù)管理,也浪費(fèi)存儲(chǔ)空間,選取圖像質(zhì)量好的副本進(jìn)行存儲(chǔ)即可。

      4.存儲(chǔ)方式不統(tǒng)一

      數(shù)據(jù)在磁盤上的存儲(chǔ)方式不同,存在多種形式。有在線存儲(chǔ)管理方式和離線存儲(chǔ)脫機(jī)管理方式兩類。在線存儲(chǔ)管理方式使用不同的系統(tǒng)其數(shù)據(jù)具體存儲(chǔ)方式也不相同。建議將同類型數(shù)據(jù)集中管理采取統(tǒng)一的數(shù)據(jù)存儲(chǔ)方式。

      三、北京市檔案館數(shù)據(jù)清理的步驟

      檔案數(shù)據(jù)清理的步驟為:數(shù)據(jù)分析、確定清理工作流程和清理規(guī)則、數(shù)據(jù)清理驗(yàn)證、清理臟數(shù)據(jù)、干凈數(shù)據(jù)整理和核對(duì)。

      (一)數(shù)據(jù)分析

      數(shù)據(jù)分析是整個(gè)數(shù)據(jù)清理流程的第一步。數(shù)據(jù)分析的作用是在于得到一些數(shù)據(jù)的特征,根據(jù)這些屬性可以確定合適的檢測(cè)算法和清理規(guī)則,因此,數(shù)據(jù)分析也是數(shù)據(jù)清理中的非常重要的一步。檔案機(jī)讀目錄采用結(jié)構(gòu)化數(shù)據(jù)庫(kù)管理,因此對(duì)數(shù)據(jù)庫(kù)表進(jìn)行分析是第一步。通過(guò)數(shù)據(jù)庫(kù)表的單表查詢和多表查詢功能可以發(fā)現(xiàn)重復(fù)數(shù)據(jù)、不完整數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和無(wú)效數(shù)據(jù)。數(shù)字化副本一方面實(shí)體存儲(chǔ)在服務(wù)器磁盤,另一方面其命名、存儲(chǔ)位置等信息也是由數(shù)據(jù)庫(kù)保存,所以其數(shù)據(jù)問(wèn)題可以從文件實(shí)體角度發(fā)現(xiàn),也可以從數(shù)據(jù)表的查詢對(duì)比中發(fā)現(xiàn)。

      (二)確定清理工作流程和清理規(guī)則

      數(shù)據(jù)清理工作根據(jù)數(shù)據(jù)分析的結(jié)果及數(shù)據(jù)所屬標(biāo)準(zhǔn)定義清理工作流。數(shù)據(jù)清理的標(biāo)準(zhǔn)來(lái)自于各類數(shù)據(jù)所對(duì)應(yīng)的數(shù)字檔案館標(biāo)準(zhǔn)和規(guī)范,這些標(biāo)準(zhǔn)和規(guī)范同時(shí)也是數(shù)據(jù)分析問(wèn)題的來(lái)源和依據(jù)。由于各類數(shù)據(jù)存在的問(wèn)題不同,清理的方法也不一樣,要根據(jù)實(shí)際數(shù)據(jù)情況確定需要執(zhí)行的數(shù)據(jù)清理的具體流程。

      (三)數(shù)據(jù)清理驗(yàn)證

      這一個(gè)階段主要驗(yàn)證數(shù)據(jù)清理的正確性、評(píng)估工作流程的效率??梢愿鶕?jù)數(shù)據(jù)分析情況和清理規(guī)則對(duì)部分待清理數(shù)據(jù)進(jìn)行測(cè)試,通過(guò)測(cè)試發(fā)現(xiàn)問(wèn)題,提高效率和準(zhǔn)確性。

      (四)清理“臟數(shù)據(jù)”

      經(jīng)數(shù)據(jù)清理驗(yàn)證無(wú)誤后,可以按照數(shù)據(jù)清理驗(yàn)證階段制定的規(guī)則對(duì)數(shù)據(jù)進(jìn)行清理。但在這一個(gè)階段特別要注意數(shù)據(jù)的安全性,應(yīng)首先備份源數(shù)據(jù),再對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)清理,避免操作不當(dāng)對(duì)數(shù)據(jù)造成的嚴(yán)重?fù)p失。清理過(guò)程可能持續(xù)時(shí)間會(huì)比較長(zhǎng),應(yīng)該做好記錄和管理工作。數(shù)據(jù)的修改有可能需要人工參與,需要相關(guān)部門的配合。

      (五)干凈數(shù)據(jù)整理和核對(duì)

      數(shù)據(jù)清理工作完成后,將干凈的數(shù)據(jù)進(jìn)行整理和核對(duì)??梢詫⒏蓛舻臄?shù)據(jù)集中整理存儲(chǔ),有必要的話可以再備份一份,可以有效地保障數(shù)據(jù)的安全性。

      四、數(shù)據(jù)清理工作的經(jīng)驗(yàn)總結(jié)和相關(guān)建議

      (一)數(shù)據(jù)清理工作的幾點(diǎn)經(jīng)驗(yàn)

      1.控制清理時(shí)間。數(shù)據(jù)集中清理工作盡管工作量很大,但時(shí)間不宜過(guò)長(zhǎng),一般應(yīng)控制在4個(gè)月以內(nèi)。

      2.做好過(guò)程管理。要提前制定詳細(xì)的清理計(jì)劃,嚴(yán)格按照時(shí)間進(jìn)度進(jìn)行清理,并做好相關(guān)工作記錄,清理過(guò)程中暫不接收導(dǎo)入新數(shù)據(jù)。

      3.保證清理質(zhì)量。數(shù)據(jù)清理工作主要依靠數(shù)據(jù)庫(kù)技術(shù)、軟件批量重命名技術(shù)、圖形圖像質(zhì)量查驗(yàn)技術(shù)等,在具體操作之前要進(jìn)行必要的測(cè)試。例如對(duì)數(shù)據(jù)庫(kù)值的轉(zhuǎn)換,從日期型轉(zhuǎn)換成字符型就有可能出現(xiàn)丟失數(shù)據(jù)現(xiàn)象。

      4.部門協(xié)同工作。數(shù)據(jù)清理是一個(gè)復(fù)雜的工作,需要多個(gè)部門共同實(shí)施。以北京市檔案館為例,在數(shù)據(jù)清理過(guò)程中,信息化部門負(fù)責(zé)牽頭和管理工作,運(yùn)維公司負(fù)責(zé)技術(shù)支撐工作,檔案館業(yè)務(wù)處室負(fù)責(zé)清理標(biāo)準(zhǔn)的提供和特殊數(shù)據(jù)修改的審核,各部門各司其職,協(xié)同工作。

      (二)數(shù)據(jù)清理工作要把好數(shù)據(jù)入口關(guān)

      數(shù)據(jù)清理工作反映出檔案部門對(duì)數(shù)據(jù)應(yīng)該遵從的唯一性、完整性、準(zhǔn)確性問(wèn)題還要更加重視。一方面在數(shù)字檔案館系統(tǒng)建設(shè)的時(shí)候?qū)?shù)據(jù)庫(kù)表的設(shè)計(jì)更加完善,使其具備良好的約束性,例如在系統(tǒng)設(shè)計(jì)過(guò)程中加強(qiáng)對(duì)完整性、準(zhǔn)確性、可用性和安全性檢測(cè),設(shè)計(jì)良好的四性檢測(cè)方案;另一方面要加強(qiáng)管理,對(duì)于錯(cuò)誤數(shù)據(jù)或者問(wèn)題數(shù)據(jù)要及時(shí)發(fā)現(xiàn)并糾正,避免臟數(shù)據(jù)進(jìn)入系統(tǒng);第三是要檔案各類數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)趨于穩(wěn)定一致,如果標(biāo)準(zhǔn)發(fā)生了改變,原存儲(chǔ)數(shù)據(jù)需及時(shí)修正。

      隨著大數(shù)據(jù)時(shí)代的來(lái)臨,檔案數(shù)據(jù)量隨著信息化時(shí)代發(fā)展已經(jīng)進(jìn)入到海量的現(xiàn)狀。期望一次數(shù)據(jù)清理就能夠解決數(shù)十年來(lái)的問(wèn)題也不現(xiàn)實(shí),應(yīng)該在日常管理中對(duì)數(shù)據(jù)定期進(jìn)行分析,及時(shí)發(fā)現(xiàn)、解決問(wèn)題,為北京數(shù)字檔案館項(xiàng)目建設(shè)提供優(yōu)質(zhì)的數(shù)據(jù)資源基礎(chǔ)工作。

      參考文獻(xiàn):

      [1]蔡鐘杰.數(shù)據(jù)清理關(guān)鍵技術(shù)在醫(yī)療保險(xiǎn)管理系統(tǒng)的應(yīng)用研究[D].蘭州:蘭州交通大學(xué),2014:7-12.

      作者單位:北京市檔案局(館)

      猜你喜歡
      副本結(jié)構(gòu)化檔案館
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      面向流媒體基于蟻群的副本選擇算法①
      關(guān)于縣級(jí)檔案館館藏檔案開(kāi)發(fā)利用的思考
      全省部分檔案館新館掠影
      浙江檔案(2017年10期)2017-03-31 06:27:31
      副本放置中的更新策略及算法*
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      when與while檔案館
      樹(shù)形網(wǎng)絡(luò)中的副本更新策略及算法*
      基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
      略阳县| 钦州市| 博乐市| 肥东县| 日土县| 长岭县| 拉孜县| 永城市| 韶山市| 阿勒泰市| 兴国县| 永昌县| 海南省| 红原县| 广汉市| 南京市| 奇台县| 垦利县| 黑水县| 宜兴市| 柳州市| 广元市| 余江县| 包头市| 聊城市| 米易县| 大港区| 博湖县| 巴马| 古丈县| 连山| 施甸县| 桐庐县| 千阳县| 石狮市| 中超| 桦甸市| 自治县| 寿阳县| 白玉县| 海盐县|