• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      政府電子文檔全文數據庫建設及檢索方法研究

      2013-12-31 00:00:00楊恒宇
      現代情報 2013年10期

      〔摘要〕本文通過對電子政務新環(huán)境下的政府文檔的電子化、標準化、全文檢索及安全策略等的研究,提出了政府紙質文檔電子化及全文數據庫建設的模型。并基于該模型,提出了解決政府文檔電子化問題及建設全文數據庫的方案。

      〔關鍵詞〕電子政務;電子文檔;全文數據庫;全文檢索

      DOI:10.3969/j.issn.1008-0821.2013.10.013

      〔中圖分類號〕TP399〔文獻標識碼〕B〔文章編號〕1008-0821(2013)10-0059-04

      政府電子文檔也稱為電子公文,是實施電子政務的必然產物,是提高效率、降低成本、加強安全的有效手段[1]。與紙質公文相比,政府電子文檔具有存儲體積小、檢索速度快、遠距離快速傳遞及同時滿足多用戶共享等優(yōu)點。目前,我國各級黨政機關已廣泛應用電子公文,并逐步確立了政府電子文檔的格式規(guī)范、傳輸、管理和歸檔等方面的標準和要求。相關法規(guī)規(guī)定,政府電子文檔與相同內容的紙質公文具有同等法定效力。

      由于政府電子文檔有別于一般電子文檔,如政府電子文檔有密級的限制,政府電子文檔的類別多、歸檔難,而這些文件是不可再生的資源,如何集中存儲并提供簡潔、方便的服務是新時期電子政務建設的重要課題,嚴格按照國家制定的相關電子公文管理規(guī)范,借電子政務發(fā)展的良機,提出有效解決政府電子文檔管理中突出問題的方法,探索出政府電子公文管理一體化創(chuàng)新模式,具有重要的現實意義和實際價值。

      通過對國內較早開展電子文檔管理研究或全文數據庫建設城市的典型案例進行了針對性的調研,發(fā)現主要存在電子文檔制作為完全規(guī)范化;電子文檔全文數據庫建設存在不足;未考慮全文檢索的需求;文件安全性較低等不足之處。建立政府電子文檔全文數據庫必須確保數據的真實性、完整性、有效性、安全性[2];全文檢索將直接針對數據資源的內容進行檢索,可以多角度、多側面的綜合利用信息資源。

      1國內外研究現狀分析

      1.1國外電子文檔管理及全文數據庫建設現狀

      國外在電子文檔管理方面起步較早,研究多偏重于標準制度的研究,如澳大利亞、美國、英國等國都把國家政府文檔管理標準、規(guī)范、制度作為研究的重點,其研究的基礎是以各國的檔案工作實際為主,對于文件以及紙質檔案電子化工作流程的研究較少。

      美國及歐洲等很多發(fā)達國家和地區(qū)的電子文檔的全文數據庫建設都不約而同地經歷了從機構層面自行研發(fā)到國家層面有組織規(guī)劃、從分散管理到集中管理的轉變過程[3]。這些國家電子文檔的全文數據庫建設日趨成熟和完善,這其中比較有代表性的全文期刊數據庫有:EBSCO、Springer Link、Elsevier SDOL、Wiley、ScienceDirec等,這些全文數據庫可以實現結構化數據和非結構化數據的全文入庫,也可以根據用戶需求制定基于全文檢索的功能完備的個性化檢索服務。在商業(yè)化軟件方面,較成熟的有微軟公司的SQL Server 2008及甲骨文公司的Oracle TEXT,以及IBM公司的Lotus Domino等電子文檔處理系統(tǒng)的標志性產品,這些商業(yè)化電子數據管理系統(tǒng)解決了查詢海量非結構化數據時效率低的問題,能通過全文檢索技術高效地管理這些非結構化數據。由于中文信息自身的特點,國外成熟軟件產品存在術語與編碼不統(tǒng)一,資源不易共享,系統(tǒng)不易于推廣等問題,特別是在處理政府電子文檔時,存在保密信息可能會泄露的威脅,以及需要解決中文語言分詞等難題,因而國內建立電子文檔全文庫的時候多獨立自主開發(fā)或利用商業(yè)化軟件的部分功能進行二次開發(fā)。

      1.2國內電子文檔管理現狀

      我國在電子文檔管理方面起步較晚,目前尚處于探索階段,但也取得了一定成果。從1996年起國家和地方檔案部門開始著手電子文件管理的研究,先后制定了《中華人民共和國電子簽名法》(2004年8月28日中華人民共和國主席令第18號)、《電子文件管理細則》(包括文書電子文件元數據方案)、《電子文件長期保存格式需求》、《基于XML的電子文件封裝規(guī)范》等標準規(guī)范)、《電子公文歸檔管理暫行辦法》(6號令)、《電子文件歸檔與管理規(guī)范》(GB/T 18894-2002)、《紙質檔案數字化技術規(guī)范》(中華人民共和國檔案行業(yè)標準 DA/T31-2005)等文件。電子文件管理的國家戰(zhàn)略正逐步成型,主要表現為全國性的統(tǒng)籌規(guī)劃、統(tǒng)一規(guī)范和業(yè)務指導正在全面啟動,一些省、市已經啟動了集中管理電子文件的項目,并取得實質性進展,如2005年10月19日,安徽省電子文件中心正式投入使用;2005年浙江省溫州市依托地方特色資源,建立了“媒體看溫州”全文數據庫,取得了很好的社會效果。與發(fā)達國家相比,雖然我們的電子文檔管理取得了一定的成果,但仍存在一些問題,如:電子文件管理與電子政務發(fā)展不相適應;電子公文歸檔復雜;缺乏統(tǒng)一的歸檔和共享機制,電子文檔利用率不高;電子文件歸檔管理不規(guī)范等突出問題[4]。

      2全文數據庫建設的模型研究

      政府文檔全文數據庫建設一般包括政府紙質文檔的電子化方法、政府電子文檔全文數據庫的建設、數據庫的全文檢索搜索策略、全文數據庫的安全策略4個部分,根據對全文檢索策略及關鍵技術進行的研究,提出了政府紙質文檔電子化及全文數據庫建設的模型,如圖1所示:1圖1政府文檔電子化及全文數據庫建設模型1

      2.1政府紙質文檔的電子化

      按照國家標準《電子文件管理細則 第二部分:電子文件長期保存格式需求》,目前國家認可的電子檔案格式有TIFF、TXT、PDF和XML等,但每種格式既有自身的優(yōu)勢也有不足。

      對于經過OCR后的文檔,PDF和XML是較好的選擇。但是XML的優(yōu)勢主要體現在數據交換上,且無法保持文件的原版原式。而PDF則能夠“原汁原味”的記錄文件,是真正的所見即所得。同時,PDF文件技術成熟,存儲空間小,便于加密、權限控制和在線瀏覽,已被業(yè)界廣泛認可。因此,PDF是入庫前文檔較好的保存格式。

      在政府文檔的電子化過程中,需要保證數據的真實性、完整性、可靠性和版權的保護。目前我國在《電子文件歸檔與管理規(guī)范》(GB/T 18894-2002)[5]中規(guī)定了4條措施:

      (1)建立對電子文件的操作者可靠的身份識別與權限控制;

      (2)設置符合安全要求的操作日志記錄,隨時自動記錄實施操作的人員、時間、設備、項目、內容等;

      (3)對電子文件采用防錯漏和防調換的標記;

      (4)對電子化的印章、數字簽名等采取防止非法使用的措施。

      具體實施時,主要采用加密技術、數字簽名、數字摘要、數字時間戳、身份認證、報文認證、信息隱藏技術、元數據管理技術等主要技術措施進行實施。

      根據國家標準要求,將政府紙質文檔掃描為多層PDF格式并加載數字簽名,保證文檔的合法性,同時,添加水印,保證數據文件的安全性。最后,將PDF文件解析后導入全文數據庫,實現政府紙質文檔的電子化。

      2.2政府電子文檔全文數據庫建設的標準及電子文檔入庫方法利用電子文檔數據中心的難點是將不同類別的政府電子文檔加載入全文數據庫,實現對電子文檔的全文檢索,提升對政府電子文檔的利用率。主要包括全文檢索數據庫標準研究和數據庫構建方法兩部分內容,其中構建全文檢索數據庫建設標準主要滿足系統(tǒng)性原則、實用性原則、開放性原則、安全性原則等基本原則;數據庫構建方法主要從全文數據庫選擇、電子文檔解析、數據結構倒排索引、組織數據、元數據抽取方面進行實施。完成電子文檔的入庫工作后,還需要制定全文數據庫的檢索策略,這樣構建的全文數據庫才能實現全文檢索。

      2.3電子文檔的全文檢索策略研究

      全文檢索[6]是一種將文件中所有文本與檢索項匹配的文字資料檢索方法,通過計算機程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置;當用戶查詢時根據建立的索引查找,類似于通過字典的檢索字表查字的過程。功能上全文檢索系統(tǒng)需要具有建立索引,處理查詢返回結果集,增加索引,優(yōu)化索引結構等功能。結構上具有索引引擎,查詢引擎,文本分析引擎和對外接口等。全文檢索技術是現代信息檢索技術一個重要分支,是處理電子文檔這類非結構數據的強大工具,也是電子文檔搜索引擎的核心技術之一。該技術對文檔按各種策略進行分詞,然后對切分得到的每個有檢索意義的詞建立索引,并指明該詞在文章中出現的次數和位置,當用戶輸入檢索關鍵字進行查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋用戶。

      電子文檔的全文檢索策略需要關心的問題是搜索效率,包括搜索的即時性、準確率、查全率,策略需要考慮引入給部分字段添加索引、裝備采用倒排索引技術的引擎、多關鍵字共同限定、模糊搜索等技術來提高檢索效率。

      2.4電子文檔全文數據庫的安全策略

      數據庫安全包含兩層含義:第一層是指硬件系統(tǒng)運行安全;第二層是指數據信息安全,系統(tǒng)安全通常受到如黑客對數據庫入侵、盜取或篡改資料等威脅[7]。前一層威脅可以通過數據備份來實現,有很成熟的技術去保證硬件的正常運行,對于政府的電子文檔來說,后一層的威脅需要更多的關注。

      (1)政府電子文檔的特殊性之一在于具有密級(一般、秘密、機密、內部),密級與訪問權限的設置是數據庫建設中必不可少的。因此,電子文檔查詢和顯示模塊分為兩類:一類為針對單個特殊文檔控制查詢權限;一類為針對普通文檔控制查詢權限。針對單個文件,指定哪些用戶有查詢此文件的權限;普通文檔,先賦予用戶與檔案密級一樣的權限,當用戶查詢權限大于或等于文檔密級時,則可查看文檔,否則不能查看文檔。普通文檔又可分類,針對每類文檔分別賦予用戶普通文檔查詢權限。

      因政府電子文檔涉及到大量的涉密文檔,應嚴格按照《中華人民共和國檔案法》和《中華人民共和國國家保密法》等相關法律法規(guī)的要求對相關操作人員進行保密教育,從源頭上保證文檔信息的安全。

      (2)數據庫系統(tǒng)的安全策略主要是針對數據而言的,通過數據獨立性、數據安全性、數據完整性、并發(fā)控制、故障恢復等幾個方面加強數據庫系統(tǒng)的安全性來提高電子文檔全文數據庫的安全策略[8]。

      3全文數據庫建設

      根據政府紙質文檔電子化及全文數據庫建設的模型研究的結論,針對政府電子文檔的特點,進行了政府電子文檔電子化及全文數據庫建設。

      首先將紙質公文資源進行掃描后識別成具有水印的雙層PDF文檔,使用解析工具將PDF文件解析并導入全文數據庫中,同時在前臺根據用戶權限提供全文檢索及下載瀏覽功能,包括以下幾個方面的建設內容:

      3.1電子公文掃描管理

      對電子公文進行掃描,在保證數字化存儲格式的通用基礎上,實現高清晰度的數字化存儲利用,最后將掃描后的目錄和文檔交由專人集中管理保存。主要管理流程如圖2所示:

      1圖2電子文檔掃描管理流程1

      3.2OCR識別及雙層PDF制作

      雙層PDF格式文件一般有兩種格式的,(1)圖像型的,可以通過OCR軟件經過去污、糾偏和OCR識別,然后再通過制作雙層PDF軟件直接生成可以檢索的雙層PDF文件;(2)文本型的,最常見的WORD轉雙層PDF文件,先將WORD文件轉成單層的PDF文件,再將單層的PDF文件轉成圖像文件,然后通過OCR軟件OCR識別,然后再通過制作雙層PDF軟件直接生成可以檢索的雙層PDF文件。本文主要是對掃描文件的內容數據進行獲取分析提取,完成對數據基礎信息數字識別轉換,生成可識別處理的文本格式數據文件(可識別的雙層PDF文件)。

      3.3電子簽名與水印添加

      政府電子文檔同其他電子文檔一樣會遭遇偽造、篡改、增刪、冒名等,公文的內容、公文發(fā)送者身份真實性和公文本身的合法性受到了威脅,如何保證政府電子文檔的這些安全性不但是其在電子政務中發(fā)展的重要內容,也是電子文檔全文數據庫建設的重要內容之一。使用單向散列函數和RSA加密算法實現數字簽名,同時向電子文檔中添加某些數字信息以達到文件真?zhèn)舞b別、版權保護等功能,防止電子文檔被篡改或替換。

      3.4全文數據庫建設

      政府部門產生的電子文件,是檔案的“前身”,是不可再生的資源,集中存儲并提供簡潔、方便的歸檔操作是新時期電子政務建設的重要課題。充分利用這些電子文檔數據中心的難點是將不同類別的政府電子文檔加載入全文數據庫,實現對電子文檔的全文檢索,提升對政府電子文檔的利用率。根據已有的PDF資料構建全文數據庫,即使是非專業(yè)人員也可以方便的通過系統(tǒng)入庫加載PDF或WORD、TXT文檔;同時,實現中文分詞并構建全文檢索引擎。

      3.5前端平臺提供檢索等服務

      通過文獻共享服務平臺,實現對不同類別的文檔統(tǒng)一風格顯示,提供政府電子文檔全文檢索、瀏覽及下載服務。其系統(tǒng)架構如圖3所示,系統(tǒng)功能如圖4所示。1圖3系統(tǒng)架構圖1

      1圖4前端檢索應用平臺功能圖

      4總結

      本文以電子政務新環(huán)境下的政府文檔全文數據庫建設及全文檢索方法為研究對象,總結分析了國內外對電子文檔處理的成功案例與不足,以某政府部門電子文檔管理的實際工作為基礎,提出了政府紙質文檔電子化及全文數據庫建設的模型。在模型基礎上,根據該類電子文檔的特點,提出了解決政府文檔電子化問題及建設全文數據庫的方案。

      參考文獻

      [1]馮惠玲.政府電子文檔管理[M]北京:中國人民大學出版社,2004.5.

      [2]彭碧珍.淺析電子文件的收集與歸檔[J].科學咨詢,2012,(1):59.

      [3]孫展紅.國外電子文件管理服務力保障機制值得借鑒的幾個方面[J].黑龍江檔案,2011,(3):68.

      [4]安徽省電子文件中心建設項目可行性研究報告[EB/OL].http:∥www.thdaxx.org/html/daxxh/dzwjzx/1174.html.

      [5]《電子文件歸檔與管理規(guī)范》GB/T18894-2002[EB/OL].http:∥baike.baidu.com/link?url=zYSqq92RFrqJgNiFIm0n3ljg3-V9h1Ndi0 ILbMuCCtvdHroAb6WsKFYEaZErNGQjG9kJbYDMlW93Q2iP7lCCa.

      [6]陳慧萍,等.全文索引技術在辦公自動化系統(tǒng)中的應用研究[J].計算機應用研究,2007,24(2):222-224.

      [7]數據庫安全[EB/OL].http:∥baike.baidu.com/link?url=BhBEjamqNg1Q6KzUNY58udXFFgc6sIiOVCPUtS4tCnsNE-w7RIjKCLq5 uWZTknVNl1Vw3gIhymln2E3Ax6Lpq.

      [8]高小銀.電子文檔的信息安全保障[J].陜西檔案,2011,(6):29.

      (本文責任編輯:孫國雷)

      东光县| 黔西| 杭锦旗| 旬阳县| 邵武市| 灵丘县| 伊吾县| 上林县| 莱芜市| 汤原县| 隆回县| 鄂尔多斯市| 安宁市| 航空| 天水市| 十堰市| 哈密市| 嘉鱼县| 乌兰县| 胶南市| 凌海市| 富锦市| 农安县| 长葛市| 连平县| 大姚县| 英山县| 民县| 来宾市| 晋宁县| 仙桃市| 万盛区| 屯昌县| 石阡县| 株洲市| 江山市| 上虞市| 潜山县| 萝北县| 安顺市| 陆良县|