陳丹
【摘要】將本體構建理論運用于檔案管理信息系統(tǒng)的建設中,并利用Protege工具完成建模與分析處理,從而將檔案管理中的一部分轉化為抽象概念,以完成概念之間的關系構建。本文主要介紹了應用本體理論構建數字檔案館的建模流程,以實現信息檢索的智能化與人性化。
【關鍵詞】本體論;數字檔案;知識檢索
傳統(tǒng)的數字檔案館是采用基于元數據的關鍵詞檢索方式,早已不能滿足用戶多元化的需求。因此,本文嘗試建立一種基于本體論的數字檔案館知識檢索模型。通過本體知識、分析理解、概念提取與匹配等方法,從而實現信息檢索的智能化。
一、本體論概述
本體(Ontology)屬于哲學方面的概念,從哲學的角度來說,它是對客觀存在的一個系統(tǒng)的解釋或說明,關注的是客觀現實的抽象本質。1993年,Gruber對此進行了新的定義,認為“本體是概念模型的明確的規(guī)范說明”。后來,Borst在此基礎上對本體理論進行了完善,認為它是指共享概念模型的形式化規(guī)范說明。Studer對此進行研究與總結后提出“本體是共享概念模型明確的形式化規(guī)范說明”?!案拍钅P?、明確、形式化、共享”是這一概念中的4大特征,它們是在計算機人工智能方面有知識表達的意思。我們將本體理論運用到數字檔案管理信息系統(tǒng)建設中,對檔案資源進行描述,并統(tǒng)一數據采集模式,從而實現信息資源的共享與提取。數字檔案館管理系統(tǒng)的主要功能包括借閱管理、檔案錄入、檔案檢索、檔案備份與恢復等。
二、數字檔案系統(tǒng)利用本體建模流程
檔案管理系統(tǒng)中的本體是檔案范疇內的專有概念,用于表示某個專門領域范圍內的全部知識。領域本體是專業(yè)性范疇,可詳細描述出某個學科內的關鍵詞條與這些詞條間的關系。有時描述的內容還涉及到該學科內頗有影響力的理論成果。具體來說,檔案領域本體就是針對查詢功能的檔案領域建模的結果。通過充分挖掘將與檔案有關的所有查詢操作均抽象為同一組概念。檔案本體對現實活動中檔案的解釋,是基于概念結構與抽象空間兩個方面的,屬于一種系統(tǒng)化過程。創(chuàng)建本體的方法不是唯一的,但能保證本體構建的正確性與完整性。本體構建流程包括四步:確定需求分析、創(chuàng)建共享詞庫、表示本體、客觀評價本體。
本體中最基本的概念就是類,定義本體中的類實際上就是明確類之間的層次關系,并明確類的屬性以及類之間的約束關系。對于概念層次的分析主要有3種方式:分別是自頂向下法、自底向上法、綜合法。自頂向下法是指在某一領域中從最大的概念開始,逐步添加子類,從而將概念細化。自底向上法則相反,是從最小的類定義開始,逐步向上將這些相似的類組織在一起形成更大的概念。綜合法是將上述兩種方法結合起來運用的方法。不管采用何種方法,均是從定義類開始。比如,以檔案本體為例,采用自頂向下的方法,其中,最基本的類有檔案與檔案信息兩個。在檢索檔案信息時,用戶可將題目、檔案號、分類號、責任者、關鍵詞等作為檢索條件。因此,頂層概念就是OWL Thmg,中間層概念包括檔案與檔案信息,底層概念中檔案對應的是檔案類別,包括文學檔案、歷史檔案、科技檔案等;檔案信息對應的是卷宗號、案卷編號、題名、文號、文種、密級、保管期限等信息。
三、利用Protege構建檔案領域本體
根據目標客戶的具體需求來建設檔案管理信息,以提高檔案管理的工作效率。Protege是基于面向對象的JAVA的一種開發(fā)工具,支持類、元類及屬性的OKBC兼容。在利用該工具構建本體時共有4個步驟,包括需求分析、確定類與所屬層次、明確屬性,添加實例。在設計檔案檢索領域中的本體時,借助該工具生成OWL文件,達到檢索目的。
當需要輸入實例時,必須先確定類與屬性的結構。比如,要將一個有序的子類插入到已排好序的父類中,可選用數據結構算法描述其中的任何一種插入算法,包括直接插入、兩路順序插入、表插入等。若要添加實例,還需利用Individuals標簽內的5個面板,涉及到的屬性內容主要有類的思想、實例名稱、性能復雜性等。下面,我們以直接插入為例進行闡述:Individual:直接插入排序算法。轉化為具體文字描述:某個有序序列[1...,i-1],共有i-1個元素,若要插入r[i],那么,序列的元素個數就變?yōu)閕個,新序列為r[...i]。在插入時必須注意存放序列的數組不準越界,可采用順序查找算法,在r[0]的地方設立一個“監(jiān)視哨”,任何插入操作均是從“i-1”向前挨個搜索,記錄能在查找過程中順序往后移動一個位置。簡而言之,排序的過程需完成的插入操作有(n-1)次。將序列中的首個元素作為最簡單的有序序列,并從第二個記錄開始依次添加到該序列中,直到全部記錄均被插入到序列當中。這里的序列是采用關鍵字進行排序的。
四、結語
隨著社會的發(fā)展,檔案數字化的進程進一步加快,數字化檔案建設取得了一定的成效,但仍存在不少問題。因此,本文以本體構建論為基礎,利用本體的思想與方法,對檔案領域的知識進行組合與整合,并通過規(guī)范的形式化語言進行描述,以進一步提高數字檔案管理效率。
【參考文獻】
[1]賈艷平,吳永明.基于本體論的數字檔案館知識檢索模型的研究[J].大眾科技,2012,14(5):222-223.
[2]周佳明.基于本體特征的檔案系統(tǒng)模型構建[J].揚州教育學院學報,2015,33(2):51-54.
[3]李海軍.檔案管理信息化之本體方法討論[J].山西檔案,2007,35(6):16-17.