• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談XML語(yǔ)言在檔案管理中的應(yīng)用

      2021-04-14 21:46:42
      卷宗 2021年3期
      關(guān)鍵詞:著錄代碼文檔

      王 瑜

      (中國(guó)電建集團(tuán)北京勘測(cè)設(shè)計(jì)研究院有限公司,北京 100024)

      XML 語(yǔ)言誕生于1998年,其設(shè)計(jì)的最初目的是實(shí)現(xiàn)EDI(Electronic Date Interchange電子數(shù)據(jù)交換),為電子數(shù)據(jù)交換提供一個(gè)統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)格式。XML語(yǔ)言是一種用于描述數(shù)據(jù)的標(biāo)記語(yǔ)言,它不提供固定的標(biāo)記,而是允許用戶自定義數(shù)量不限的標(biāo)記來(lái)描述數(shù)據(jù),且允許使用嵌套的信息架構(gòu),是一種良好的直接處理數(shù)據(jù)的通用方法。XML具有良好的可讀性、可維護(hù)性,便于信息檢索,便于信息的長(zhǎng)期保存,可以輕松的跨平臺(tái)應(yīng)用,符合《DA/T 47-2009板式電子文件長(zhǎng)期保存格式需求》中格式開放、不綁定軟硬件的要求,這也是它被廣泛應(yīng)用在檔案管理中的原因。國(guó)家檔案局發(fā)布的行業(yè)標(biāo)準(zhǔn)《DT/ 48-2009基于XML的電子文件封裝規(guī)范》就基于XML語(yǔ)言對(duì)檔案元數(shù)據(jù)的數(shù)據(jù)格式進(jìn)行了約定。

      1 XML語(yǔ)言在檔案管理中存在的問(wèn)題

      1.1 XML格式復(fù)雜

      就XML本身特點(diǎn)而言,XML文件龐大,文件格式復(fù)雜,傳輸帶寬。服務(wù)器和客戶端都需要花費(fèi)大量代碼來(lái)解析XML,XML的解析需要考慮父節(jié)點(diǎn)和子節(jié)點(diǎn),讓人頭暈眼花,導(dǎo)致服務(wù)器和客戶代碼變得異常復(fù)雜且不易維護(hù)??蛻舳瞬煌瑸g覽器之間解析XML的方式不一致需要重復(fù)編寫很多代碼,客戶端和服務(wù)解析XML花費(fèi)較多的資源和時(shí)間。

      1.2 著錄時(shí)仍需人工完成

      XML數(shù)據(jù)著錄時(shí)仍然需要人工完成,著錄完畢將經(jīng)歷多次自動(dòng)查驗(yàn),但所查驗(yàn)內(nèi)容多是對(duì)檔案的真實(shí)性、可靠性、可用性和安全性進(jìn)行校驗(yàn),對(duì)于著錄中的錯(cuò)別字或錄入順序顛倒等問(wèn)題無(wú)法查驗(yàn),接收進(jìn)檔案系統(tǒng)的XML數(shù)據(jù)在后期整編審核過(guò)程中存在錯(cuò)誤,主要是由于著錄人員信息內(nèi)容錯(cuò)誤,或?qū)⑿畔⑻铄e(cuò)位置。XML數(shù)據(jù)雖然后續(xù)經(jīng)過(guò)多次人工檢驗(yàn),但在后期工作仍會(huì)在不同的階段發(fā)現(xiàn)問(wèn)題。因此前期著錄過(guò)程的準(zhǔn)確率至關(guān)重要。

      2 改進(jìn)建議

      2.1 技術(shù)需要改善

      首先是要規(guī)范XML格式書寫,讓代碼描述自己,保證恰當(dāng)縮進(jìn),讓代碼更加容易理解。增加注釋,注釋做到簡(jiǎn)單直接,同時(shí)避免不必要的注釋。其次是按照實(shí)際需求,選擇適合的解析方式,XML常用解析方式有四種,分別是DOM(Document Object Model)解析、SAX(Simple API for XML)解析、DOM4J(Document Object Model for Java)解析和JDOM(Java-based Document Object Model)解析。各種解析器各有優(yōu)缺點(diǎn),DOM的優(yōu)點(diǎn)是允許應(yīng)用程序?qū)?shù)據(jù)和結(jié)構(gòu)做出更改,可以在任何時(shí)候在樹中上下導(dǎo)航,獲取和操作任意部分的數(shù)據(jù)。缺點(diǎn)是需要加載整個(gè)XML文檔來(lái)構(gòu)造層次結(jié)構(gòu),消耗資源大。SAX的優(yōu)點(diǎn)是不需要等待所有數(shù)據(jù)都被處理,分析就能立即開始、只在讀取數(shù)據(jù)時(shí)檢查數(shù)據(jù),不需要保存在內(nèi)存中、可以在某個(gè)條件得到滿足時(shí)停止解析,不必解析整個(gè)文檔、效率和性能較高,能解析大于系統(tǒng)內(nèi)存的文檔。缺點(diǎn)是需要應(yīng)用程序自己負(fù)責(zé)TAG的處理邏輯(例如維護(hù)父/子關(guān)系等),使用麻煩、單向?qū)Ш?,很難同時(shí)訪問(wèn)同一文檔的不同部分?jǐn)?shù)據(jù)。DOM4J的優(yōu)點(diǎn)是大量使用了Java集合類,方便Java開發(fā)人員,同時(shí)提供一些提高性能的替代方法,并且有很好的性能,缺點(diǎn)是大量使用了接口,API較為復(fù)雜。JDON的優(yōu)點(diǎn)是使用具體類而不是接口,簡(jiǎn)化了DOM的API,缺點(diǎn)是沒(méi)有教較好的靈活性。開發(fā)人員可以根據(jù)檔案系統(tǒng)的實(shí)際情況去選擇適合的解析方法。

      2.2 著錄時(shí)的改善

      目前OCR圖像文字識(shí)別、語(yǔ)音識(shí)別、職能檢索等功能均比較適合輔助前期的著錄工作,這些如果能與著錄軟件結(jié)合會(huì)大幅提高XML數(shù)據(jù)庫(kù)的準(zhǔn)確率,這樣不僅可以篩查格式問(wèn)題,還可自動(dòng)糾錯(cuò)出人工著錄過(guò)程中存在的常識(shí)問(wèn)題,如錯(cuò)別字、著錄順序顛倒、信息填錯(cuò)位置等問(wèn)題。如能在前期著錄過(guò)程中提高準(zhǔn)確率,在進(jìn)入檔案室后的一系列人工核查中進(jìn)行查漏補(bǔ)缺,會(huì)使得檔案著錄數(shù)據(jù)更加準(zhǔn)確。

      目前很多部門在辦事過(guò)程中已經(jīng)直接形成電子文件,所以在移交檔案時(shí)要將電子文件打印成紙質(zhì)文件再向檔案館移交。如能在前期從各部門的各種業(yè)務(wù)系統(tǒng)中抓取數(shù)據(jù)與著錄系統(tǒng)導(dǎo)出的XML數(shù)據(jù)相結(jié)合,會(huì)緩解后期加工制作的壓力,大幅度地縮減加工周期,抓取的信息相對(duì)數(shù)字化掃描成果更加清晰易讀取,可以在最短的時(shí)間內(nèi)對(duì)外提供檔案利用服務(wù)。同時(shí)各部門形成的電子文件為原生的電子文件,更符合檔案接收標(biāo)準(zhǔn)。

      3 結(jié)束語(yǔ)

      當(dāng)今的時(shí)代是一個(gè)信息爆炸的時(shí)代,互聯(lián)網(wǎng)技術(shù)風(fēng)云千檣,每一種技術(shù)都有可能給我們現(xiàn)有的管理模式帶來(lái)新的成長(zhǎng)。XML不過(guò)是互聯(lián)網(wǎng)技術(shù)千萬(wàn)應(yīng)用的一個(gè)小創(chuàng)新而已,希望它可以在曠日積晷的歷史長(zhǎng)河中閃爍微光,幫助我們更好的管理檔案。

      猜你喜歡
      著錄代碼文檔
      常用參考文獻(xiàn)著錄要求
      常用參考文獻(xiàn)著錄要求
      常用參考文獻(xiàn)著錄要求
      有人一聲不吭向你扔了個(gè)文檔
      創(chuàng)世代碼
      創(chuàng)世代碼
      創(chuàng)世代碼
      創(chuàng)世代碼
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      安泽县| 兴义市| 上虞市| 长白| 鹤峰县| 准格尔旗| 商水县| 安化县| 时尚| 桑植县| 辽宁省| 勐海县| 衢州市| 略阳县| 东平县| 南投县| 榕江县| 建阳市| 兴安县| 白水县| 长兴县| 梨树县| 屏山县| 壤塘县| 陆川县| 大新县| 雷波县| 湖口县| 屏东县| 大田县| 时尚| 临邑县| 万安县| 天镇县| 涪陵区| 威海市| 淳化县| 公主岭市| 阳信县| 五台县| 始兴县|