陳巧玉
摘 要: 隨著網絡技術的快速發(fā)展,數(shù)字圖書館已經成為信息傳播和獲取的重要途徑。而現(xiàn)階段的數(shù)字圖書館缺乏具有語義性的匹配,同時沒有提供計算機可讀的語義信息。結合圖書館的具體應用,構建了基于本體語義技術的數(shù)字圖書館檢索模型,并設計實現(xiàn)了一個檢索系統(tǒng)原型,然后綜合分析并利用 DC 元數(shù)據(jù),建立了描述圖書元數(shù)據(jù)的本體,同時結合圖書館的具體應用,構建了基于本體語義技術的擴展檢索模型。最后,根據(jù)上述擴展檢索模型設計了檢索系統(tǒng)原型,并通過三組實驗對比,驗證了構建的檢索模型的有效性和實用性。
關鍵詞: 數(shù)字圖書館; 語義檢索; 本體; 語義擴展
中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)09?0103?04
Abstract: With the rapid development of network technology, the digital library has become an important way of information transmission and acquisition. The digital library at this stage lacks the semantic matching, and can′t provide the semantic information with computer readable. The digital library retrieval model based on ontology semantic technology was constructed. A retrieval system prototype was designed and implemented. And then, the ontology to describe the book metadata was established by synthetically analyzing and using DC metadata, and the extension retrieval model based on ontology semantic technology was constructed in combination with the specific application of the library. Finally, according to the extension retrieval model, the retrieval system prototype was designed. The effectiveness and practicability of the constructed retrieval model was verified with the experimental comparison of three groups.
Keywords: digital library; semantic retrieval; ontology; semantic extension
0 引 言
對于數(shù)字圖書館的形式可以概括為以下兩種:高校的圖書館檢索系統(tǒng),它將圖書信息數(shù)字化,并提供了一個檢索系統(tǒng),方便學生進行借閱;類似超星數(shù)字圖書館、中國知網或是中國國家數(shù)字圖書館等數(shù)字圖書館網站,不僅提供圖書、期刊、專利等信息資源的檢索,還提供在線試讀和下載、相關學術的新聞視頻等一系列綜合信息[1]。
數(shù)字圖書館實現(xiàn)數(shù)字化的兩個關鍵技術就是資源的數(shù)字化以及檢索系統(tǒng),而這兩個關鍵技術目前存在缺乏語義性的表現(xiàn),直接導致用戶檢索效果不佳,影響了用戶的閱讀體驗[2]。傳統(tǒng)的搜索引擎沒有處理任何學科領域的知識,所以他們不能理解用戶的搜索請求以及文章的內在聯(lián)系,沒有傳統(tǒng)圖書館的用戶挑選過程,即包含語義性的過程[3]。
1 圖書館學本體構建
1.1 必備條件
基于作者的專業(yè),本文所選取的研究學科領域為“圖書館學”,且目前這一學科領域的本體沒有被提出。根據(jù)“圖書館學”相關書籍以及專家學者的建議,將“圖書館學”的相關概念進行提取、歸類,并比較各個數(shù)據(jù)庫中的相關圖書期刊,充實該學科領域本體[4]。
(1) 工具語言的選擇階段。系統(tǒng)均采用OWL本體語言,Protégé本體構建工具。
(2) 需求分析。涉及學科領域為“圖書館學”,目的就是提高“圖書館學”相關圖書檢索的語義性,從而提高圖書的查全率以及查準率,所以需要給出“圖書館學”領域的專業(yè)概念以及相互之間的關系、實例等。系統(tǒng)設計的用戶主要有兩類:一類是圖書館的普通用戶即讀者,他們只是需要檢索這個功能,這部分也是這個系統(tǒng)研究的重要部分;另外一類是圖書館管理人員,他不僅需要檢索,而且需要負責本體的整個維護工作。為了保證本體的持久性,本文選擇使用MySQL數(shù)據(jù)庫對本體文件進行存儲[5]。
(3) 領域專家的參與。領域本體構建的結果是獲得這一領域的共同認識,所以應該在領域專家的幫助下,共同建立這一學科的本體[6]。
1.2 圖書館學本體構建過程
參考中國知網對圖書館學這一學科的圖書分類,將圖書館學分為:普通圖書館學、比較圖書館學、專門圖書館學、應用圖書館學、相關學科這五大類。這五大類又分別按照下面的體系結構進行了分類,如圖1所示。
從圖1的體系結構可以看出,有的概念需要進行實例擴展,以便達到更好的檢索效果。這五大類中,專門圖書館類似中圖分類號中的各種類型圖書館,從中圖分類號的分類可以看出,屬于窮舉類型,因此在本體的結構體系中,利用實例對其進行擴充;相關學科是指與圖書館學相交叉的學科,由于學科的發(fā)展,相關學科也是不斷的變化,所以使用實例對其進行擴展,而沒有運用子類的形式[7]。
具體介紹構建“圖書館學”領域本體中使用owl-sameAs具體實例:
(1) 圖書館現(xiàn)代化:圖書館信息化、圖書館網絡化;
(2) 圖書館工作者:館員;
(3) 數(shù)字圖書館:電子圖書館;
(4) 題跋:書評根據(jù)上述體系結構,利用Protégé工具,“圖書館學”本體如圖2所示。
2 圖書元數(shù)據(jù)本體構建
2.1 構建圖書元數(shù)據(jù)本體的必備條件
學科領域本體的構建有助于基于用戶檢索詞進行推理或是學科層級的判斷,但是真正要實現(xiàn)語義性,應該對描述圖書的DC元數(shù)據(jù)進行語義性的描述。結合DC元數(shù)據(jù)簡單、靈活的特點,加之本體OWL語言的語義、智能的檢索,使檢索結果更加有效。實際上,RDF等語義Web和OWL的描述語言都有自己對于DC的使用方法,本文采用了OWL語言下對本體的描述辦法。DC元數(shù)據(jù)共有15個基本元素,將這15個基本元素分為三組,在創(chuàng)建描述DC元數(shù)據(jù)的本體時,借鑒DC元數(shù)據(jù)對圖書信息的描述,這些元素在本體中可以以屬性的方式存在。在本體的構建過程中,可以引用DC屬性的命名空間,以達到使用DC屬性的目的。具體引用如下:
本模型共有5大模塊:用戶檢索、結果查看模塊,語義擴展排序模塊,Lucene檢索模塊,圖書資源建立模塊,本體構建模塊。各模塊的作用如下:
本體構建模塊,這一部分包括領域本體以及圖書元數(shù)據(jù)的本體。
圖書資源建立模塊,本模塊主要用于提供檢索數(shù)據(jù)。
語義擴展排序模塊,本模塊主要是對用戶的檢索詞進行語義的擴展,也是本體系的重要模塊部分。
Lucene檢索模塊,將語義擴展排序模塊擴展排序之后的檢索詞提交到Lucene檢索,Lucene檢索對之前建立起來的文檔索引進行檢索,根據(jù)用戶選擇的檢索范圍進行檢索,返回給用戶檢索結果。
用戶查看、結果查看模塊,本模塊提供用戶進行檢索詞的輸入以及檢索結果的查看,用戶檢索提供兩種方式,分別為輸入檢索詞和樹形結構的檢索。
3.2 語義擴展排序模塊
(1) SPARQL查詢
利用SPARQL查詢語言進行本體文件的查詢時,需要利用Jena的com.hp.hpl.jena.rdf.model包對本體文件進行處理,在對本體文件進行處理時要注意亂碼問題。本模型的構建是對用戶的檢索詞進行更為精準全面的匹配擴充,所以首先需要對用戶的檢索詞進行擴充,之后進行排序。利用SPARQL查詢語言查詢用戶檢索詞的上下級學科以及實例擴充。
(2) Jena推理子系統(tǒng)
使用JenaAPI中的com.hp.hpl.jena.reasoner包實現(xiàn)基于OWL語言的規(guī)則集推理,同時可以創(chuàng)建自己的使用規(guī)則。實際上,就是利用com.hp.hpl.jena.reasoner包中的ModelFactory類把推理機同本體或是數(shù)據(jù)關聯(lián)起來,以達到推理的目的。Jena進行推理有以下兩種方式:OWLReasoner和自定義推理。針對領域本體進行推理,在構建“圖書館學”領域本體中,定義了OWL:sameAs 表示具有相同涵義的類以及個體,以解決同義詞查詢的問題。
(3) 語義相似度算法
本文將相似度算法與本體語言的特性相結合,提出了一個綜合的排序算法:將用戶輸入的檢索詞進行分析處理之后,將與檢索詞的有關概念(包括子類、同義類等)歸結到一個概念集合,利用上述基于語義距離的算法將概念集合進行建模,根據(jù)相似度值的大小進行排序,最后利用Lucene進行檢索。
同義詞之間的相似度值為1,實例擴充的相似度大于子類之間的相似度,子類的相似度大于子子類的相似度。故排序應該是為匹配用戶輸入詞的文章、匹配同義詞的文章、實例擴充的文章、子類的文章、子子類的文章。那么子類的文章具有同父類相同的相似度,對于具有相同層級的文章默認按照查閱量或是下載量等進行排序。
3.3 Lucene檢索模塊
根據(jù)之前定義的底層圖書元數(shù)據(jù)的屬性對其進行檢索,針對一本圖書需要構建24 個Field文檔的屬性,即Title,Subtitle,NonChineseTitle,Subject,Description,Source,Language,Relation,Coverage,Name,Age,Native,Email,Organization,Sex,Publisher,Contributor,Rights,Date,Type,F(xiàn)ormat,CLC,IndexNum,ISBN(均省略has)。
為了創(chuàng)建一個較為完整的圖書元數(shù)據(jù)的本體結構,將DC 元數(shù)據(jù)的15 個基本元素都涉及到了。為了簡化著錄項目,DC 元數(shù)據(jù)只要確保7個基本元素:Title,Publisher,F(xiàn)ormat,Type,Identifier,Date和Subject即可。為了解決作者重名的問題,建立了如下Field 文檔屬性:Title,Subtitle,NonChineseTitle,Subject,Name,Age,Native,Email,Organization,Sex,Publisher,Date,CLC,IndexNum,ISBN,Type,F(xiàn)ormat(均省略has)。
首先,對數(shù)據(jù)庫中的底層圖書元數(shù)據(jù)本體數(shù)據(jù)document 建立索引,其中對本體數(shù)據(jù)中的主題Subject,將其按照分號進行分詞存儲。
其次,對上述擴展之后的檢索詞建立indexSearcher對檢索詞進行檢索。對同作者的文章推薦,對作者的擴展屬性進行判斷。
最后,將檢索結果返回用戶。
4 實驗分析及功能評估
硬件環(huán)境CPU:Intel 3.40 GHz,2.99 GB的內存;操作系統(tǒng)為Windows XPSP3;實驗平臺:Eclipse +Jena2.6.3+Lucene3.5.0;服務器:Tomcat 6.0。
4.1 功能演示
之前介紹過本系統(tǒng)有兩種用戶:學生和教師(管理員)。提供了六種檢索方式:基于關鍵字擴展查詢、基于關鍵字普通查詢、基于題目擴展查詢、基于題目普通檢索、基于作者查詢、基于樹形目錄的查詢。其中基于關鍵字擴展查詢以及基于關鍵字的普通查詢可以提供對比。教師角色除了可以提供查詢功能外,創(chuàng)新性的提供給了修改領域本體的功能界面,減免了操作領域本體的復雜性。
(1) 樹形目錄檢索:當用戶點擊樹形目錄進行查詢時,可將圖書館的領域本體按照樹形的結構進行顯示,用戶可點擊各個節(jié)點進行查詢。
(2) 擴展檢索與不擴展檢索進行對比,針對“題目”屬性,以“實例擴充檢驗”為例進行敘述。輸入檢索詞“圖書宣傳”,在“圖書館學”領域本體中構建了圖書宣傳的實例:圖書展覽、圖書館講座、圖書館報告會、讀者座談會、圖書館閱讀輔導。對概念的擴充,檢索結果界面如圖5,圖6所示。
由表1~表3可以看出三組檢索詞的具體檢索情況。數(shù)據(jù)庫中錄入了300篇與上述三個檢索詞相關的文章,且案例采用的是基于題目的檢索,故當題目中含有上述關鍵字且文章含義也為上述關鍵字的文章的正確率都具有良好的效果。且目前的檢索算法是將用戶的關鍵字進行本體匹配,然后本體進行擴展,對于子類、子子類以及實例都進行了擴展,故查全率能夠有很好的提高。對于擴充之后的檢索詞仍是采用Lucene對field進行匹配,所以對查準率的提高有限。但是從上述案例可以看到,查全率以及查準率都有所提高,本體構建的基于本體的語義數(shù)字圖書館檢索模型的語義擴充以及檢索是合理的。
5 結 論
傳統(tǒng)數(shù)字圖書館的信息表達以及基于關鍵字的檢索機制均存在缺乏語義性的問題,導致用戶的體驗度以及滿意度不高。為提高數(shù)字圖書館的檢索效果,將語義本體技術與數(shù)字圖書館技術相結合,提高數(shù)字圖書館的檢索效果,這也是目前數(shù)字圖書館的發(fā)展方向。本文針對數(shù)字圖書館缺乏語義性的兩種表現(xiàn),提出了學科領域本體以及描述圖書元數(shù)據(jù)的本體,并在此基礎上構建了基于語義的數(shù)字圖書館檢索系統(tǒng)。本文的研究成果對于下一代語義數(shù)字圖書館具有一定的科學意義。
參考文獻
[1] 楊萌.圖書館防盜系統(tǒng)漏洞的研究[J].現(xiàn)代電子技術,2014,37(5):94?96.
[2] 董慧,杜文華.基于本體和多代理的數(shù)字圖書館信息檢索模型[J].中國圖書館學報,2004(2):65?67.
[3] 袁穎,趙捧未.基于語義網的數(shù)字圖書館信息檢索模型研究[J].科技情報開發(fā)與經濟,2010(7):1?3.
[4] 盧勝軍,真溱.本體匹配基本理論框架研究[J].現(xiàn)代圖書情報技術,2007(11):28?32.
[5] 鞠彥輝,劉宏偉,牟冬梅,等.國外典型語義數(shù)字圖書館系統(tǒng)的比較研究[J].圖書館論壇,2009(3):68?71.
[6] 馬費成,羅志成,曾杰,等.知識相關度的計量研究[J].情報科學,2008,26(5):641?646.
[7] 余正濤,宋面,樊孝忠.基于本體的個性化領域信息服務[J].計算機工程,2005(5):22?24.
[8] 谷琦.對語義網格及其在數(shù)字圖書館信息檢索中應用的探討[J].現(xiàn)代情報,2009(1):68?72.