岳修志,趙建建
(中原工學院,鄭州 450007)
基于內(nèi)容管理技術的檔案網(wǎng)站信息資源整合
岳修志,趙建建
(中原工學院,鄭州 450007)
基于內(nèi)容管理技術,分析了檔案網(wǎng)站信息資源整合的現(xiàn)狀,總結(jié)出了元數(shù)據(jù)模型信息提取和存儲的方法.
檔案網(wǎng)站;內(nèi)容管理;信息資源整合;元數(shù)據(jù)
隨著信息技術的發(fā)展,目前大多數(shù)檔案館都實現(xiàn)了在B/S模式下的網(wǎng)上辦公,通過網(wǎng)絡環(huán)境將“有形”的紙制檔案轉(zhuǎn)化成網(wǎng)上無紙辦公.檔案網(wǎng)站提供的信息資源越來越多,種類也越來越豐富.縱觀各個檔案館,電子檔案往往只是紙質(zhì)檔案的數(shù)字化,各個檔案館只是一個信息孤島,缺少資源共享.用戶面對眾多分散的網(wǎng)站檔案信息往往無所是從,因此迫切需要整合各個網(wǎng)站的檔案信息,以提高用戶檢索效率.內(nèi)容管理是信息資源管理的核心部分,目前的數(shù)據(jù)庫技術主要是解決結(jié)構(gòu)化的信息資源的管理,而內(nèi)容管理技術是解決非結(jié)構(gòu)化信息資源管理的有效方法.對檔案資源整合而言,內(nèi)容管理技術是提高信息資源管理效率的關鍵環(huán)節(jié)[1].
內(nèi)容管理(Content M anagement,CM)是指對組織機構(gòu)內(nèi)部多種格式和媒體類型的信息資源的組織、分類、管理等有序化的過程[2].其基本思想是分離內(nèi)容的管理和設計,頁面美工的設計存儲在模板里,而內(nèi)容存儲在數(shù)據(jù)庫或者獨立的文件中[3].內(nèi)容管理能夠使網(wǎng)站使用通用的設計元素和模板,以確保整個網(wǎng)站的協(xié)調(diào).
一個內(nèi)容管理系統(tǒng)至少要包含以下4個子系統(tǒng)[4]:
(1)內(nèi)容收集系統(tǒng):進行內(nèi)容的收集、獲取、分發(fā)、編輯、整合及轉(zhuǎn)換等工作,并可加入元數(shù)據(jù)以支持對內(nèi)容組件的定義及搜尋.
(2)管理系統(tǒng):負責組件、內(nèi)容及發(fā)布模板的存取管理,并可記錄內(nèi)容的版本、工作流程的狀態(tài)、權(quán)限的設定及更新處理等.
(3)發(fā)布系統(tǒng):負責將內(nèi)容快速且自動地按照所建立的發(fā)布模板送至瀏覽器端.
(4)工作流系統(tǒng):負責整個內(nèi)容的收集、儲存和發(fā)布.
檔案網(wǎng)站內(nèi)容管理系統(tǒng)屬于資源型網(wǎng)站,其結(jié)構(gòu)比較復雜,主要包含以文章發(fā)布為中心的文檔資源類欄目以及圖片資源、視頻類、光盤類資源的發(fā)布等.
檔案網(wǎng)站信息資源整合是指根據(jù)檔案用戶的利用需求,結(jié)合檔案網(wǎng)站信息資源整合的特點,利用先進的技術,按照一定的原則、規(guī)范及標準,實現(xiàn)一定范圍內(nèi)的檔案網(wǎng)站信息資源的抓取與優(yōu)化,并組織成一個集關聯(lián)性、動態(tài)性和實用性于一體的有機整體或者統(tǒng)一的利用平臺[5].
目前,我國檔案網(wǎng)站已經(jīng)初具規(guī)模,但隨著檔案網(wǎng)站的增多,檔案網(wǎng)站信息資源的充分整合是目前我們必須要解決的問題.檔案網(wǎng)站在信息資源整合方面主要存在以下不足[6].
(1)整合層次較低.資源建設主要以館藏為主,從而形成一個個“信息孤島”,用戶面對零落的、離散的資源,不知道如何尋找自己需要的信息.
(2)資源整合缺乏規(guī)范性.網(wǎng)站類目組織的一致性、檢索平臺的統(tǒng)一性需要加以規(guī)范.
(3)重資源建設,輕資源利用.在資源整合技術的選擇上,只是針對資源的特點來進行堆積,片面重視資源數(shù)量,而不是從用戶利用的角度來合理整合資源,缺乏導航服務和個性化服務等.
(1)統(tǒng)一了管理標準.網(wǎng)站內(nèi)的內(nèi)容格式和處理方式標準化,統(tǒng)一了頁面的現(xiàn)實風格,增強了網(wǎng)站的擴展能力.
(2)統(tǒng)一了訪問接口.利用XML技術能夠描述各種不規(guī)則的數(shù)據(jù),因此可以將文檔等半結(jié)構(gòu)化的數(shù)據(jù)納入到同一個XML文件并傳送到客戶端[7].
(3)相對傳統(tǒng)的Web網(wǎng)站,負載能力強.
(4)內(nèi)容管理系統(tǒng)提供強大的二次開發(fā)平臺,降低了開發(fā)難度.
(5)網(wǎng)頁呈現(xiàn)和內(nèi)核技術、日常發(fā)布和系統(tǒng)維護等完全分離,使得日常操作非常簡單,降低了維護成本[8].
內(nèi)容管理系統(tǒng)主要是支持異構(gòu)平臺上的各種類型信息的管理和訪問,而信息包含結(jié)構(gòu)化形式和非結(jié)構(gòu)化形式的信息,如何管理這些信息成為檔案網(wǎng)站信息資源整合的關鍵.結(jié)構(gòu)化信息可以直接存儲到關系數(shù)據(jù)庫中;而對于非結(jié)構(gòu)化信息如何處理,成為檔案網(wǎng)站信息資源整合的關鍵.
非結(jié)構(gòu)化信息一般采用元數(shù)據(jù)模型進行描述.元數(shù)據(jù)是描述一個具體的資源對象,能對這個對象進行定位、管理,并有助于資源的發(fā)現(xiàn)與數(shù)據(jù)的獲取,是關于數(shù)據(jù)的數(shù)據(jù)[9].下面介紹內(nèi)容管理的2個主要方面:元數(shù)據(jù)的提取和元數(shù)據(jù)模型的存儲.
2.3.1 元數(shù)據(jù)的提取
根據(jù)元數(shù)據(jù)標準和國內(nèi)圖書情報領域的相關成果,依據(jù)都柏林核心元素規(guī)范,總結(jié)出檔案網(wǎng)站元數(shù)據(jù),如表1所示.
表1 檔案網(wǎng)站內(nèi)容管理元數(shù)據(jù)表
Web頁面以 Html形式存在,我們?yōu)榱耸占瘍?nèi)容,必須將Htm l源文件的 Html標記和文本區(qū)分開來,從而將文本形成2個Stream:Htm l標記Stream和文本Stream.這樣Web網(wǎng)頁內(nèi)容就轉(zhuǎn)換成容易處理的形式.
目前,從Web頁面中提取所需要的元數(shù)據(jù)信息的方法主要有[10]:利用包裝器 W rapper技術,基于層次結(jié)構(gòu)的信息抽取及基于概念模型的多記錄信息提取;以W 3C的文檔對象模型DOM為基礎,把提取的信息以DOM層次結(jié)構(gòu)中的路徑表達式來表示,通過歸納學習來獲得所需信息的路徑表達式,達到提取信息的目的.利用包裝器W raaper技術工作量大,而且不便于推廣.本文主要介紹以DOM為基礎的元數(shù)據(jù)提取.其過程描述如下:
(1)利用DOM 提供的API分析文本信息,生成每個頁面對應的DOM樹型結(jié)構(gòu);
(2)提供檔案網(wǎng)站內(nèi)容管理元數(shù)據(jù)表;
(3)以元數(shù)據(jù)表和DOM樹為輸入,學習生成提取規(guī)則;
(4)使用提取規(guī)則提取數(shù)據(jù),完成信息的提取.
2.3.2 元數(shù)據(jù)模型的存儲
XML(Extensible Markup Language,可擴展標記語言)是由W 3C組織于1998年2月發(fā)布的一種標準.XML是自描述的、半結(jié)構(gòu)化的和可擴展的標記語言.由于XML非常適合描述非結(jié)構(gòu)化數(shù)據(jù),一般元數(shù)據(jù)模型的存儲都采用XML技術.
目前,XML數(shù)據(jù)管理的方式主要有文件系統(tǒng)方式、Native XML存儲方式、關系數(shù)據(jù)庫存儲方式和面向?qū)ο骕ML數(shù)據(jù)存儲方式.在內(nèi)容管理系統(tǒng)應用上,上述4種方式各有特點,對XML的存儲一般采用關系數(shù)據(jù)庫存儲方式.
要想將XML文檔存儲到關系數(shù)據(jù)庫中,需要建立從XML到關系數(shù)據(jù)庫的映射關系.目前,映射方法主要有3種:
(1)直接將整個XML文檔數(shù)據(jù)作為關系數(shù)據(jù)庫表的一個屬性進行存儲;
(2)基于XML結(jié)構(gòu)樹,將結(jié)構(gòu)樹中具有相同語義的父子節(jié)點用嚴格的二元聯(lián)系模式來表示,這樣能充分利用語義的直觀性,確保查詢的效率;
(3)假設每個XML文檔都有相應的DTD與之對應,然后對D TD進行簡化、分解等預處理,將D TD中的元素、屬性映射成關系模式.這樣,XML可以最大限度地利用底層RDBM S提供的查詢處理和優(yōu)化技術[11].
建立映射機制后,下一步就要完成XML到關系數(shù)據(jù)庫的存儲.XML標準提供了標準接口DOM、DSO來存取數(shù)據(jù).DOM可以為不同的開發(fā)平臺和開發(fā)語言提供一致的API.XML文檔是按照層次結(jié)構(gòu)組織起來的樹形結(jié)構(gòu),所以DOM可以把XM L文件看成樹形結(jié)構(gòu),文件中的每一部分數(shù)據(jù)信息相當于樹節(jié)點.采用樹形結(jié)構(gòu),方便了 XML文檔的增加、刪除、修改、查詢等操作.DSO技術可以完成H tm l標記同XM L節(jié)點數(shù)據(jù)的綁定,以方便從XML文檔中讀取或者寫入數(shù)據(jù).XML數(shù)據(jù)存取機制如圖1所示.
圖1 XML數(shù)據(jù)存取機制
檔案網(wǎng)站信息資源整合的難點是異構(gòu)平臺及非結(jié)構(gòu)化數(shù)據(jù)的整合問題,整合的目的就是將各種不同類型的信息資源,利用內(nèi)容管理技術,通過元數(shù)據(jù)模型或者提供中間件的方式整合成相聯(lián)系的統(tǒng)一平臺,便于用戶檢索,提高檔案網(wǎng)站的交互性,更好地滿足用戶的需求.
[1]王芳,郭英.電子政務內(nèi)容管理及其應用分析[J].理論與探索,2009(6):47-50.
[2]孔佳.內(nèi)容管理系統(tǒng)的產(chǎn)生與發(fā)展[J].農(nóng)業(yè)網(wǎng)絡信息,2008(3):89-92.
[3]宮生文,穆江波.基于ASP.NET 2.0的內(nèi)容管理系統(tǒng)的設計與實現(xiàn)[J].科技信息,2009(1):487-488.
[4]徐小靜.基于XML的內(nèi)容管理與內(nèi)容發(fā)布技術系統(tǒng)的研究[D].武漢:武漢理工大學,2005:22-23.
[5]吳建華,方燕平.檔案網(wǎng)站信息資源及其整合概念的界定——“檔案網(wǎng)站信息資源普查與整合研究”系列論文之一[J].檔案學通訊,2009(5):52-55.
[6]杭珊,吳建華.檔案網(wǎng)站信息資源整合現(xiàn)狀及分析[J].學術園地,2009(9):15-19.
[7]向培素,黃勤珍.內(nèi)容管理系統(tǒng)中統(tǒng)一訪問接口的實現(xiàn)[J].中國測試技術,2003,9(5):61-63.
[8]陳曉慧.基于內(nèi)容管理的網(wǎng)站自動化生成系統(tǒng)的開發(fā)與實現(xiàn)[J].計算機科學,2005,2(32):106-108
[9]姜波.基于XML的企業(yè)內(nèi)容管理系統(tǒng)的研究[D].武漢:武漢理工大學,2009:24-26.
[10]劉政怡.基于DOM和元數(shù)據(jù)的Web信息提取[J].計算機與現(xiàn)代化,2003(10):106-108.
[11]崔清華.XML文檔在關系數(shù)據(jù)庫中的存儲研究[J].微計算機信息,2007,4(23):184-186.
Information Resources Integration of ArchivesWeb Site Based on Content Management Technology
YUE Xiu-zhi,ZHAO Jian-jian
(Zhongyuan University of Technology,Zhengzhou 450007,China)
Information resources integration is the core issue of archives Web site information.Based on content management technology,the statusof information resources integration are analyzed,and information extraction and storage methods of metadata model are summed up.
archives Web site;content management;integration of information resources;metadata
G270.7
A
10.3969/j.issn.1671-6906.2011.01.010
1671-6906(2011)01-0039-03
2011-01-08
河南省檔案局科技項目(2010-X-43)
岳修志(1972-),男,河南獲嘉人,副研究館員.