馮 瑤 馮錫煒
(遼寧石油化工大學(xué)計(jì)算機(jī)與通信工程學(xué)院 遼寧 撫順 113001)
?
基于本體的教育資源推理查詢?cè)拖到y(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
馮瑤馮錫煒
(遼寧石油化工大學(xué)計(jì)算機(jī)與通信工程學(xué)院遼寧 撫順 113001)
針對(duì)當(dāng)前教育資源庫(kù)存在的通用性差和缺乏語(yǔ)義查詢等缺陷,將語(yǔ)義Web的重要基礎(chǔ)本體及其推理和查詢技術(shù)應(yīng)用到教育資源領(lǐng)域,實(shí)現(xiàn)一個(gè)基于本體的教育資源推理查詢?cè)拖到y(tǒng)。利用本體構(gòu)建方法及建模工具protégé,以數(shù)據(jù)結(jié)構(gòu)課程為例,構(gòu)建一個(gè)基于元數(shù)據(jù)標(biāo)準(zhǔn)的教育資源領(lǐng)域本體;制定教育資源領(lǐng)域本體知識(shí)點(diǎn)推理規(guī)則,提出改進(jìn)的語(yǔ)義相似度算法;設(shè)計(jì)并實(shí)現(xiàn)基于本體的教育資源推理查詢?cè)拖到y(tǒng)。通過(guò)實(shí)驗(yàn)驗(yàn)證,該系統(tǒng)的查全率與查準(zhǔn)率均高于基于關(guān)鍵字的查詢。
教育資源本體本體推理本體查詢?cè)拖到y(tǒng)
近年來(lái)E-Learning正被廣泛關(guān)注,E-Learning的基礎(chǔ)和核心是建立專業(yè)教育資源庫(kù)。但當(dāng)前Web上的各種教育資源缺乏一致的標(biāo)準(zhǔn),無(wú)法通用和共享;同時(shí),資源的知識(shí)組織缺乏語(yǔ)義關(guān)聯(lián),無(wú)法進(jìn)行智能檢索等服務(wù)。本體是實(shí)現(xiàn)語(yǔ)義Web的重要基礎(chǔ)和技術(shù),廣泛應(yīng)用于知識(shí)表示、知識(shí)共享與重用、邏輯推理等領(lǐng)域。本體是使用特定詞匯來(lái)描述具有明確觀點(diǎn)的實(shí)體、類、屬性和相關(guān)函數(shù)的形式化概念模型。本體可以從已知有限的語(yǔ)義關(guān)系中推理出更豐富更深層的語(yǔ)義關(guān)系,從而增強(qiáng)了本體的表達(dá)性。近十年來(lái),很多機(jī)構(gòu)和組織都致力于對(duì)本體的研究并把其應(yīng)用到各種實(shí)際領(lǐng)域中來(lái)。文獻(xiàn)[1]對(duì)本體建模進(jìn)行深入研究,構(gòu)建了一個(gè)地理領(lǐng)域本體,并在推理機(jī)制和語(yǔ)義檢索技術(shù)的基礎(chǔ)上設(shè)計(jì)了一個(gè)應(yīng)用地理領(lǐng)域本體的旅行檢索和推薦的原型系統(tǒng)。文獻(xiàn)[2]在醫(yī)療本體的基礎(chǔ)上,利用語(yǔ)義查詢擴(kuò)展技術(shù),提出了一個(gè)基于本體的醫(yī)療領(lǐng)域語(yǔ)義查詢系統(tǒng)。文獻(xiàn)[3]構(gòu)建了玉米種植領(lǐng)域本體,并應(yīng)用語(yǔ)義標(biāo)注和查詢擴(kuò)展等技術(shù)實(shí)現(xiàn)了一個(gè)語(yǔ)義檢索系統(tǒng)。文獻(xiàn)[4]在專利領(lǐng)域本體的基礎(chǔ)上,通過(guò)本體推理和查詢等關(guān)鍵技術(shù),使用語(yǔ)義Web框架Jena實(shí)現(xiàn)了專利本體的語(yǔ)義推理和查詢系統(tǒng)。
本文將本體技術(shù)應(yīng)用到教育資源領(lǐng)域,構(gòu)建層次劃分清晰、語(yǔ)義關(guān)系豐富的教育資源本體庫(kù),可以優(yōu)化知識(shí)表示,同時(shí)為教育資源的語(yǔ)義查詢和個(gè)性化自主學(xué)習(xí)做好準(zhǔn)備。本文首先結(jié)合教育資源元數(shù)據(jù)標(biāo)準(zhǔn),以“數(shù)據(jù)結(jié)構(gòu)”課程為例構(gòu)建了一個(gè)教育資源領(lǐng)域本體;其次結(jié)合SPARQL查詢語(yǔ)言和查詢擴(kuò)展技術(shù),針對(duì)教育資源本體制定了推理規(guī)則,并提出了改進(jìn)的相似度算法;最后將本文的推理查詢方法與Java EE 架構(gòu)相關(guān)技術(shù)結(jié)合,實(shí)現(xiàn)了一個(gè)基于本體的教育資源推理查詢?cè)拖到y(tǒng)。通過(guò)實(shí)驗(yàn)與基于關(guān)鍵字的查詢作了比較,并驗(yàn)證了系統(tǒng)的可行性。
1.1教育資源元數(shù)據(jù)標(biāo)準(zhǔn)
教育資源元數(shù)據(jù)能夠?qū)Y源進(jìn)行形式上以及內(nèi)容上的描述,為教育資源標(biāo)注提供了統(tǒng)一的標(biāo)準(zhǔn)。國(guó)外對(duì)其標(biāo)準(zhǔn)的研究開(kāi)始于20世紀(jì)90年代,其中影響較大的有:IEEE LOM、ADL SCORM、Dublin DC。我國(guó)在2000年11月成立了全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)教育分技術(shù)委員會(huì)CELTSC(Chinese E-Learing Technology Standardization Committee),制定了符合我國(guó)國(guó)情的教育資源元數(shù)據(jù)標(biāo)準(zhǔn)《CELTS-31學(xué)習(xí)對(duì)象元數(shù)據(jù)規(guī)范》[5]和《CELTS-41教育資源建設(shè)技術(shù)規(guī)范》[6]。本文參考ACM(Association for Computing Machinery)的CC2005(Computing Curricula 2005)[7]確定學(xué)科知識(shí)層次劃分,以CELTS-31和CELTS-41兩個(gè)教育資源元數(shù)據(jù)標(biāo)準(zhǔn)為藍(lán)本,將元數(shù)據(jù)進(jìn)行知識(shí)關(guān)聯(lián);利用本體技術(shù),以“數(shù)據(jù)結(jié)構(gòu)”課程為例,構(gòu)建教育資源領(lǐng)域本體。教育資源領(lǐng)域本體提供了描述資源的組織框架。通過(guò)這個(gè)框架來(lái)對(duì)資源進(jìn)行標(biāo)注,并將學(xué)科知識(shí)中所有的概念劃分,形成分類層次結(jié)構(gòu),為通過(guò)概念間的語(yǔ)義關(guān)聯(lián)實(shí)現(xiàn)對(duì)資源的查詢和檢索做準(zhǔn)備。
1.2教育資源本體的具體建模——以數(shù)據(jù)結(jié)構(gòu)課程為例
本文參考7步法,結(jié)合CELTS元數(shù)據(jù)標(biāo)準(zhǔn)及CC2005,以“數(shù)據(jù)結(jié)構(gòu)”為例,構(gòu)建了一個(gè)教育資源領(lǐng)域本體。
(1) 確定了本體的領(lǐng)域和范圍。教育資源庫(kù)學(xué)科眾多、分類復(fù)雜。本文將本體的領(lǐng)域范圍限定在計(jì)算機(jī)領(lǐng)域,力圖今后可以供其他學(xué)科的教育資源本體復(fù)用所參考。
(2) 復(fù)用現(xiàn)有本體。由于目前比較成熟的本體集中在醫(yī)學(xué)、生物、地理等領(lǐng)域,我們所要涉及的領(lǐng)域并沒(méi)有可以復(fù)用的本體。所以本文通過(guò)對(duì)元數(shù)據(jù)項(xiàng)及其與教育資源間的關(guān)系進(jìn)行分析和抽象,找出語(yǔ)義關(guān)聯(lián)性,定義類及類的屬性,建立教育資源領(lǐng)域本體。
(3) 確定本體的類和層級(jí)。教育資源領(lǐng)域本體參考CC2005和CELTS-41確定類和層級(jí),將計(jì)算機(jī)學(xué)科的教育資源本體劃分為學(xué)科(Discipline)、資源(Resource)和課程知識(shí)點(diǎn)(Concept)三大子類。
本文參考CC2005對(duì)學(xué)科類進(jìn)行劃分;采用CELTS-41標(biāo)準(zhǔn)對(duì)資源類進(jìn)行細(xì)分;將課程類劃分為具體知識(shí)點(diǎn)集并對(duì)其進(jìn)行語(yǔ)義關(guān)聯(lián),通過(guò)知識(shí)點(diǎn)間的語(yǔ)義關(guān)聯(lián)可以實(shí)現(xiàn)對(duì)資源的推理和查詢。課程知識(shí)點(diǎn)的組織結(jié)構(gòu)參考CC2005,由上至下分為知識(shí)域(KnowledgeArea)、知識(shí)單元(KnowledgeUnit)和知識(shí)主題(KnowledgeTopic)。
參考國(guó)內(nèi)多本數(shù)據(jù)結(jié)構(gòu)教材以及網(wǎng)絡(luò)課程,按照上文所述的知識(shí)點(diǎn)組織結(jié)構(gòu),將數(shù)據(jù)結(jié)構(gòu)課程的核心知識(shí)點(diǎn)劃分為5個(gè)知識(shí)域,15個(gè)知識(shí)單元,100多個(gè)知識(shí)主題,基本覆蓋整個(gè)數(shù)據(jù)結(jié)構(gòu)課程的核心知識(shí)內(nèi)容。本文使用protégé 4.0構(gòu)建教育資源本體。在protégé 4.0中建分類和層次,如圖1所示。
圖1 protégé類圖
(4) 本體的類及層次確定以后,要確定本體類之間的屬性關(guān)系。本體的屬性分為數(shù)據(jù)屬性(DataProperty)和對(duì)象屬性(ObjectProperty)兩部分。數(shù)據(jù)屬性的定義域是本體的類,值域是數(shù)據(jù)類型,例如int型、string型等。對(duì)象屬性(ObjectProperty)是表示所有個(gè)體之間關(guān)系的屬性。
① 數(shù)據(jù)屬性。為了使網(wǎng)絡(luò)上分散的教育資源庫(kù)有統(tǒng)一的語(yǔ)義標(biāo)注標(biāo)準(zhǔn),我們對(duì)CELTS-31的每一個(gè)子元數(shù)據(jù)項(xiàng)進(jìn)行分析,抽取出數(shù)據(jù)屬性,如表1所示。
表1 教育資源本體的數(shù)據(jù)屬性
② 對(duì)象屬性。本文構(gòu)建的教育資源領(lǐng)域本體的主要對(duì)象屬性是知識(shí)點(diǎn)類的對(duì)象屬性。由于課程知識(shí)點(diǎn)之間具有豐富的語(yǔ)義關(guān)系,從而可以通過(guò)這些語(yǔ)義關(guān)系建立本體屬性,并利用這些屬性進(jìn)行本體推理和查詢,作為教育資源語(yǔ)義搜索的基礎(chǔ)。為了確定知識(shí)點(diǎn)類的屬性關(guān)系,根據(jù)課程特點(diǎn),對(duì)知識(shí)點(diǎn)間關(guān)系進(jìn)行分析抽象得到如表2所示的對(duì)象屬性。
表2 教育資源本體的對(duì)象屬性
續(xù)表2
(5) 屬性約束。OWL使用屬性約束來(lái)描述那些特定類的屬性條件,屬性的基數(shù)約束舉例如表3所示。
表3 屬性的基數(shù)約束
(6) 實(shí)例。類和屬性建立之后,用實(shí)例對(duì)本體進(jìn)行填充。定義本體的類和屬性相當(dāng)于建立描述邏輯知識(shí)庫(kù)中TBox的過(guò)程,定義實(shí)例相當(dāng)于建立描述邏輯知識(shí)庫(kù)中的ABox的過(guò)程。在protégé中構(gòu)建實(shí)例,如圖2所示。
圖2 本體實(shí)例圖(部分)
本文在第1節(jié)構(gòu)建的教育資源領(lǐng)域本體的基礎(chǔ)上構(gòu)建了教育資源領(lǐng)域本體的推理和查詢?cè)拖到y(tǒng),系統(tǒng)架構(gòu)如圖3所示。
圖3 教育資源推理查詢系統(tǒng)架構(gòu)圖
數(shù)據(jù)層是教育資源本體庫(kù)和資源數(shù)據(jù)庫(kù)。業(yè)務(wù)邏輯層是系統(tǒng)的核心,主要實(shí)現(xiàn)的功能有本體邏輯檢測(cè)、本體規(guī)則推理、查詢預(yù)處理和擴(kuò)展、本體查詢。通過(guò)本體邏輯檢測(cè)模塊確定了本體邏輯正確、分類合理、沒(méi)有沖突,可以進(jìn)一步提高推理的效率。規(guī)則推理模塊負(fù)責(zé)對(duì)本體的自定義推理,因?yàn)樵撓到y(tǒng)資源的查詢是通過(guò)查詢知識(shí)點(diǎn)實(shí)現(xiàn)的,所以該系統(tǒng)主要是對(duì)知識(shí)點(diǎn)類進(jìn)行推理。根據(jù)知識(shí)點(diǎn)之間的對(duì)象屬性可以指定豐富的自定義推理規(guī)則,經(jīng)過(guò)推理可以得到查詢知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)集作為查詢?cè)~匯集。推理得到的詞匯集里面可能有些與查詢知識(shí)點(diǎn)關(guān)聯(lián)不大,需要通過(guò)查詢擴(kuò)展模塊進(jìn)一步篩選。查詢擴(kuò)展通過(guò)把查詢知識(shí)點(diǎn)與推理得到的詞匯集里的知識(shí)點(diǎn)經(jīng)過(guò)語(yǔ)義相似度算法計(jì)算,再與設(shè)定的閾值比較,來(lái)確定與知識(shí)點(diǎn)關(guān)聯(lián)的查詢擴(kuò)展詞匯集,然后可以通過(guò)SPARQL查詢得到相關(guān)的資源。控制層來(lái)做用戶和業(yè)務(wù)邏輯層的橋梁,當(dāng)接到來(lái)自表示層的用戶請(qǐng)求時(shí),決定由業(yè)務(wù)邏輯層的哪一個(gè)功能模塊來(lái)完成工作。表示層將返回的結(jié)果顯示給用戶。
2.1邏輯推理模塊
本體進(jìn)行邏輯推理對(duì)領(lǐng)域本體的構(gòu)建至關(guān)重要,它優(yōu)化了本體質(zhì)量,是本體評(píng)價(jià)和本體進(jìn)化的重要手段;同時(shí)又是規(guī)則推理的重要基礎(chǔ),在邏輯推理之上通過(guò)本體公理和自定義規(guī)則推理擴(kuò)充本體的語(yǔ)義關(guān)系,從而為實(shí)現(xiàn)語(yǔ)義查詢和檢索服務(wù)提供依據(jù)。本文采用Pellet推理機(jī)對(duì)本體進(jìn)行邏輯推理。通過(guò)對(duì)教育資源領(lǐng)域本體進(jìn)行一致性分析,發(fā)現(xiàn)了3個(gè)概念定義錯(cuò)誤和7個(gè)實(shí)例歸類錯(cuò)誤,為下一步的規(guī)則推理做好了邏輯保證,提高了推理效率。
2.2SPARQL查詢模塊
Jena查詢工廠類(QueryFactory)提供的一些方法可實(shí)現(xiàn)SPARQL查詢。Query對(duì)象在調(diào)用create()方法后被返回,Query對(duì)象封裝了解析RDF模型后的查詢。對(duì)于簡(jiǎn)單的查詢操作,可以使用提供的execSelect()方法,該方法將返回查詢結(jié)果集 ResultSet類型數(shù)據(jù)。通過(guò)SPARQL查詢可以得到與指定知識(shí)點(diǎn)相關(guān)的知識(shí)點(diǎn)集。
2.3規(guī)則推理模塊
知識(shí)點(diǎn)之間的語(yǔ)義關(guān)系可以制定豐富的自定義推理規(guī)則,經(jīng)過(guò)推理可以進(jìn)一步擴(kuò)展查詢知識(shí)點(diǎn)集。若a、b表示知識(shí)點(diǎn),p、q表示屬性,p具有傳遞性,p和q互逆:
(1) 傳遞性規(guī)則
(?a p ?b)(?b p ?c)→(?a p ?c)
如果知識(shí)點(diǎn)a與b之間具有屬性p,知識(shí)點(diǎn)b和c之間也具有屬性p,由于屬性p具有傳遞性,則可以推理得到知識(shí)點(diǎn)a與c之間也具有屬性p。
(2) 互逆規(guī)則
(?a p ?b)→(?b q ?a)
如果知識(shí)點(diǎn)a與b之間具有屬性p,由于屬性p和q互逆,則可以推理得到知識(shí)點(diǎn)b和知識(shí)點(diǎn)a之間具有屬性q。
本文根據(jù)對(duì)教育資源領(lǐng)域本體知識(shí)點(diǎn)類的屬性特征和性質(zhì)的分析,制定了如表4所示的推理規(guī)則。為了節(jié)省篇幅,用前綴lr表示http://www.semantic web.org/ontologies/learningres- ource.owl#。
表4 教育資源本體知識(shí)點(diǎn)推理規(guī)則
2.4查詢擴(kuò)展模塊
通過(guò)規(guī)則推理可以擴(kuò)展查詢關(guān)鍵詞的相關(guān)詞匯,會(huì)得到查詢知識(shí)點(diǎn)的所有相關(guān)(同義、蘊(yùn)含、屬于、依賴、兄弟、參考)知識(shí)點(diǎn)。但得到的詞匯可能有的與查詢知識(shí)點(diǎn)關(guān)系不大,所以在推理得到的結(jié)果集上可以采用語(yǔ)義相似度算法來(lái)做進(jìn)一步篩選。用語(yǔ)義相似度公式來(lái)計(jì)算詞匯之間的關(guān)聯(lián)度,并設(shè)定閾值,確定查詢?cè)~匯集。教育資源本體推理查詢流程如圖4所示。
圖4 教育資源本體推理查詢流程
Step 1輸入查詢語(yǔ)句;
Step 2分詞處理得到關(guān)鍵知識(shí)點(diǎn)集;
Step 3對(duì)關(guān)鍵知識(shí)點(diǎn)集通過(guò)自定義的推理規(guī)則推理得到知識(shí)點(diǎn)擴(kuò)展集合S1;
Step 4對(duì)S1中的每個(gè)知識(shí)點(diǎn)關(guān)鍵詞,根據(jù)相似度計(jì)算公式,計(jì)算其相似度;
Step 5相似度計(jì)算結(jié)果與設(shè)定的閾值μ進(jìn)行比較,如果大于閾值μ,就把知識(shí)點(diǎn)放到相關(guān)知識(shí)點(diǎn)集S2;
Step 6對(duì)S2中的每一個(gè)知識(shí)點(diǎn)概念,都對(duì)資源本體庫(kù)進(jìn)行查詢,查詢到的資源返回給用戶。
本文將綜合考慮影響語(yǔ)義相似度的3種因素(語(yǔ)義距離、節(jié)點(diǎn)密度、節(jié)點(diǎn)深度)和知識(shí)點(diǎn)間6種關(guān)系(同義關(guān)系、蘊(yùn)含關(guān)系、依賴關(guān)系、參考關(guān)系、兄弟關(guān)系、平行關(guān)系),提出改進(jìn)的語(yǔ)義相似度計(jì)算方法。
3.1語(yǔ)義距離
根據(jù)它們的本體層次計(jì)算節(jié)點(diǎn)的語(yǔ)義距離:距離越近,相似度越高。在節(jié)點(diǎn)中存在多條路徑的情況下,考慮所有路徑的最短路徑。知識(shí)點(diǎn)c1和c2的基于語(yǔ)義距離的相似度如下:
(1)
3.2節(jié)點(diǎn)密度
本體樹(shù)的密度越高,概念的劃分越細(xì),語(yǔ)義相似度越大。由此得到基于節(jié)點(diǎn)密度的相似度公式:
(2)
其中,lso(c1,c2)表示節(jié)點(diǎn)c1和c2的最近共同祖先節(jié)點(diǎn),degree(lso(c1,c2))表示lso(c1,c2)的度,degree(Tree)表示本體樹(shù)的度。
3.3節(jié)點(diǎn)深度
節(jié)點(diǎn)的位置越深,概念劃分得越具體,節(jié)點(diǎn)表示的概念越相似?;诠?jié)點(diǎn)深度的語(yǔ)義相似度公式如下:
(3)
其中,depth(c1)表示概念c1的深度,depth(c2)表示概念c2的深度。depth(lso(c1,c2))表示c1和c2最近共同祖先節(jié)點(diǎn)的深度。
3.4關(guān)系類型
最常見(jiàn)的關(guān)系就是is-a關(guān)系,其他關(guān)系例如part-of關(guān)系、substance-of等關(guān)系,都與邊的權(quán)值相關(guān)[8]。連接一個(gè)結(jié)點(diǎn)和它所有孩子結(jié)點(diǎn)的邊的權(quán)值可能各不相等。在節(jié)點(diǎn)間距離相等的情況下,存在其他關(guān)系的節(jié)點(diǎn)間的相似度較大?;陉P(guān)系的語(yǔ)義相似度計(jì)算公式如下:
Simtype(c1,c2)=type(c1,c2)
(4)
其中,type(c1,c2)表示c1和c2之間的不同關(guān)系的權(quán)值。通常權(quán)值的確定需要領(lǐng)域?qū)<业囊庖?jiàn),本文參考了所在學(xué)院多名數(shù)據(jù)結(jié)構(gòu)課程教師意見(jiàn)。根據(jù)不同的關(guān)系強(qiáng)度,分配權(quán)值如下:
(5)
綜合以上四個(gè)因素,得到語(yǔ)義相似度計(jì)算公式,如式(6)所示:
(6)其中,α、β、λ、γ為調(diào)節(jié)因子,分別表示距離、節(jié)點(diǎn)密度、節(jié)點(diǎn)深度、節(jié)點(diǎn)間不同關(guān)系的強(qiáng)度對(duì)相似度的影響。經(jīng)過(guò)實(shí)驗(yàn),公式的調(diào)節(jié)因子取α=0.2、β=0.05、γ=0.15、λ=0.6時(shí)效果較好。
4.1系統(tǒng)實(shí)現(xiàn)
本文在構(gòu)建的教育資源領(lǐng)域本體的基礎(chǔ)上,使用邏輯推理、規(guī)則推理、查詢擴(kuò)展等本體推理及查詢關(guān)鍵技術(shù)對(duì)教育資源領(lǐng)域本體進(jìn)行推理和查詢,最后遵循MVC模式的SSH2框架實(shí)現(xiàn)了教育資源領(lǐng)域本體的推理和查詢?cè)拖到y(tǒng)。系統(tǒng)使用MyEclipse 10開(kāi)發(fā),本體構(gòu)建工具采用Protégé 4.0,本體解析和推理工具采用Jena 2.6.4,描述邏輯推理機(jī)使用Pellet 2.2,數(shù)據(jù)庫(kù)使用MySQL 5.6,Web服務(wù)器使用Tomcat 6.0,中文分詞工具使用IKAnalyzer。
4.2運(yùn)行結(jié)果分析
本文對(duì)網(wǎng)絡(luò)上以及本地文件共200個(gè)不同類型的數(shù)據(jù)結(jié)構(gòu)課程的教育資源進(jìn)行語(yǔ)義標(biāo)注后,形成了資源本體庫(kù)。判斷一個(gè)查詢系統(tǒng)好壞的指標(biāo)是查全率和查準(zhǔn)率,查全率和查準(zhǔn)率公式如式(7)和式(8)所示:
(7)
(8)
用本文介紹的查詢方法與傳統(tǒng)的關(guān)鍵字查詢對(duì)200個(gè)文本、動(dòng)畫(huà)、試卷、課件、視頻等資源從查全率和查準(zhǔn)率兩個(gè)方面作了比較,根據(jù)四個(gè)常用知識(shí)點(diǎn)進(jìn)行查詢,得到的查詢結(jié)果對(duì)比如圖5和圖6所示。相似度計(jì)算的閾值分別取0.55、0.6和0.65。
圖5 查全率比較圖
圖6 查準(zhǔn)率比較圖
圖5和圖6更直觀地表示查全率和查準(zhǔn)率。通過(guò)查全率和查準(zhǔn)率的數(shù)據(jù)圖表可以看出:在查全率方面,使用本文方法查詢要高出關(guān)鍵字查詢方法很多。因?yàn)殛P(guān)鍵字的查詢只是針對(duì)標(biāo)題上是否包含所查詢的知識(shí)點(diǎn),沒(méi)有任何語(yǔ)義關(guān)聯(lián);而本文的方法由于本體中包含豐富的知識(shí)點(diǎn)的各種關(guān)系,通過(guò)推理和查詢擴(kuò)展等技術(shù)就可以獲得與查詢知識(shí)點(diǎn)相關(guān)聯(lián)知識(shí)點(diǎn)的資源。比如查詢“鏈表”知識(shí)點(diǎn),那么它的上下位、兄弟、依賴等知識(shí)點(diǎn)的資源都會(huì)被查詢出來(lái),可以方便用戶自主學(xué)習(xí)。而本文方法的查全率和查準(zhǔn)率主要取決于閾值μ的設(shè)定。當(dāng)閾值μ設(shè)定為0.55的時(shí)候查全率是最高的,閾值μ設(shè)定為0.65的時(shí)候查全率較低。這是由于當(dāng)閾值μ升高后查出的相關(guān)資源會(huì)減少。
在查準(zhǔn)率方面,兩種方法差別不大。本體模型在概念與概念之間的關(guān)系基礎(chǔ)上進(jìn)行查詢,一些無(wú)關(guān)的分類信息不會(huì)被查詢出來(lái),從而提高了系統(tǒng)的查準(zhǔn)率;而傳統(tǒng)關(guān)鍵字查詢的關(guān)鍵字也是資源的知識(shí)點(diǎn),基本上也不會(huì)出現(xiàn)查詢到的資源與知識(shí)點(diǎn)無(wú)關(guān)的情況。所以這兩種方法在查準(zhǔn)率方面都表現(xiàn)較好。但是就查詢到的資源總量而言,關(guān)鍵字查詢要遠(yuǎn)遠(yuǎn)低于本體查詢。這是因?yàn)閷?duì)于視頻、圖片、動(dòng)畫(huà)等標(biāo)題上沒(méi)有所查詢知識(shí)點(diǎn)而實(shí)際內(nèi)容又與知識(shí)點(diǎn)相關(guān)的資源,基于關(guān)鍵字的方法是查詢不到的。本文在本體中已經(jīng)對(duì)資源進(jìn)行標(biāo)注,查詢時(shí)不是通過(guò)標(biāo)題查詢,而是通過(guò)對(duì)資源的屬性,只要資源與包含的知識(shí)點(diǎn)做了標(biāo)注就可以被查詢出來(lái)。本文方法當(dāng)閾值取μ為0.65時(shí)查準(zhǔn)率最高。綜合查全率和查準(zhǔn)率兩個(gè)方面分析,并且從實(shí)際用戶角度出發(fā),閾值取μ為0.6時(shí)查詢效果較為理想。閾值μ=0.6時(shí)的系統(tǒng)運(yùn)行如圖7所示。
圖7 系統(tǒng)頁(yè)面截圖
本文從教育資源元數(shù)據(jù)標(biāo)準(zhǔn)及數(shù)據(jù)結(jié)構(gòu)課程的知識(shí)點(diǎn)中分析、提取語(yǔ)義關(guān)聯(lián),利用本體構(gòu)建工具protégé構(gòu)建了一個(gè)數(shù)據(jù)結(jié)構(gòu)課程的教育資源領(lǐng)域本體。用Pellet對(duì)本體進(jìn)行一致性檢測(cè),用Jena對(duì)本體進(jìn)行規(guī)則推理,并根據(jù)教育資源領(lǐng)域本體知識(shí)點(diǎn)關(guān)系制定了推理規(guī)則,改進(jìn)了基于語(yǔ)義距離的相似度算法。實(shí)現(xiàn)了一個(gè)基于本體的推理查詢?cè)拖到y(tǒng)——數(shù)據(jù)結(jié)構(gòu)課程教育資源推理查詢?cè)拖到y(tǒng),并通過(guò)實(shí)驗(yàn)比較了傳統(tǒng)的關(guān)鍵字查詢與本文的語(yǔ)義推理查詢的查全率和查準(zhǔn)率;同時(shí)對(duì)不同閾值的相似度算法做了實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)結(jié)果確定了查詢閾值。下一步的研究:擴(kuò)大本體庫(kù)規(guī)模,實(shí)現(xiàn)自動(dòng)標(biāo)注。本體庫(kù)規(guī)模越大,說(shuō)明系統(tǒng)的性能越優(yōu)越;由于基于本體的查詢,需要一個(gè)龐大的本體庫(kù),手工標(biāo)注信息已不能滿足需要。對(duì)查詢擴(kuò)展增加用戶興趣模型,把用戶真正想學(xué)習(xí)、感興趣的知識(shí)點(diǎn)與資源的知識(shí)點(diǎn)結(jié)合起來(lái),實(shí)現(xiàn)真正的個(gè)性化自主學(xué)習(xí)。
[1] 韓冬梅,王雯,杭麗娜.基于語(yǔ)義Web的地理領(lǐng)域本體建模及推理研究[J].情報(bào)科學(xué),2013,31(8):53-56,160.[2] 李鵬飛,黃冉,姚琴,等.面向醫(yī)學(xué)信息交換的語(yǔ)義查詢系統(tǒng)設(shè)計(jì)[J].中國(guó)數(shù)字醫(yī)學(xué),2012,7(12):24-27.
[3] 齊紅,張亮亮,李昕.基于玉米本體的語(yǔ)義檢索系統(tǒng)[J].計(jì)算機(jī)工程,2011,37(4),34-36,48.
[4] 許鑫,谷俊,袁豐平,等.面向?qū)@倔w的語(yǔ)義檢索分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書(shū)情報(bào)工作,2014,58(9):96-104.
[5] 信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)教育分技術(shù)委員會(huì).CELTS-31學(xué)習(xí)對(duì)象元數(shù)據(jù)標(biāo)準(zhǔn)[EB/OL].http://www.celtsc.edu.cn/content/jxzyl/40288b88391ed5fd0139leddc93d0014.html.
[6] 信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)教育分技術(shù)委員會(huì).CELT-41教育資源建設(shè)技術(shù)規(guī)范[EB/OL].http://www.celtsc.edu.cn/content/jxzyl/40288b88391ed5fd01391edbb05d000e.html.
[7]ACM,AIS,IEEE-CS.Computingcurricula2005:Theoverviewreport[EB/OL].http://www.acm.org/education/curric_vols/CC2005-March06Final.pdf.
[8]EklundP,DucrouJ,DauF.ConceptSimilarityandRelatedCategoriesinInformationRetrievalUsingFormalConceptAnalysis[J].InternationalJournalofGeneralSystems,2012,41(8):826-846.
DESIGN AND IMPLEMENTATION OF ONTOLOGY-BASED PROTOTYPE SYSTEM OF EDUCATION RESOURCES REASONING AND QUERY
Feng YaoFeng Xiwei
(SchoolofComputerandCommunicationEngineering,LiaoningShihuaUniversity,F(xiàn)ushun113001,Liaoning,China)
In view of the defects such as poor universality and lack of semantic query in current education resource, we applied the important basic ontology and its reasoning and query technologies of semantic Web to education resources, and implemented an ontology-based prototype system of education resources reasoning and query. We made use of ontology construction method and modelling tools protégé, and took the course of data structure as an example to construct a metadata standard-based education resource domain ontology; We formulated the inference rules of knowledge points for education resources domain ontology, and put forward the modified semantic similarity algorithm; finally we designed and implemented an ontology-based prototype system of education resources reasoning and query. It is verified through experiment that the recall and precision of the system are both higher than the keyword-based query.
Education resource ontologyOntology reasoningOntology queryPrototype system
2015-08-01。遼寧省普通高等學(xué)校本科教育教學(xué)改革研究項(xiàng)目(UPRP20140914);遼寧省教育科學(xué)“十二五”規(guī)劃立項(xiàng)課題(JG13DB077)。馮瑤,碩士,主研領(lǐng)域:人工智能,語(yǔ)義網(wǎng)。馮錫煒,教授。
TP391
A
10.3969/j.issn.1000-386x.2016.10.004